VIAF i problemy niejednoznaczności
,Kategorie: Opracowanie informacji, Źródła informacji
Tagi: kartoteki wzorcowe, kontrola autorytatywna, systemy organizacji wiedzy, słowniki nazw osobowych, VIAF
Możliwość komentowania VIAF i problemy niejednoznaczności została wyłączona
VIAF – Wirtualna Międzynarodowa Kartoteka Haseł Wzorcowych, zawiera (stan na kwiecień 2014) 38 milionów nazw osobowych wraz ze 130 mln powiązanych z nimi rekordów wzorcowych i bibliograficznych, wyrażonych w wielu językach, alfabetach i formatach. Jej aktualizacje dokonywane są co miesiąc, a w trakcie tej procedury powtarza się procesy dopasowywania i klasteryzacji haseł z poszczególnych kartotek wzorcowych, korzystając z technologii Haadop. Ponieważ stosowany w tym celu algorytm nie jest stuprocentowo skuteczny, a nadsyłane przez biblioteki rekordy nie zawsze poprawne – cały proces nie jest wolny od błędów – niejednoznaczności występują na różnych jego etapach, od początkowego dopasowywania rekordów z wariantami nazw do tworzenia klastrów. W artykule omówiono mechanizm i poszczególne etapy automatycznego łączenia i klasteryzacji danych wzorcowych oraz podejście OCLC do eliminacji błędnych identyfikacji; przybliżono też założenia, rozwój i potencjał VIAF.
Celem VIAF nie jest zastąpienie źródłowych danych wzorcowych, lecz stworzenie nowej platformy, zbudowanej na bazie zidentyfikowanych relacji między kartotekami różnych krajów i ujednolicającej dostęp do słowników nazw osobowych. Popularnym zastosowaniem VIAF jest tworzenie nowych, „lokalnych” rekordów autorytatywnych dla autorów, na podstawie informacji znajdujących się już w kartotece. Zasób ten może być również wykorzystywany jako samodzielna kartoteka wzorcowa – np. OCLC używa obecnie VIAF w procesie identyfikacji dzieł i realizacji.
W VIAF tworzy się ok. 34 mln linków między rekordami i 26 mln klastrów – większość z nich zawiera pojedyncze rekordy źródłowe, 5 mln – ma ich więcej niż jeden. Efekty tych działań nie zawsze są poprawne (przykłady błędów to m.in. np. dwa rekordy nazw odsyłające do tej samej jednostki, czy też połączenie w rekordzie dwóch jednostek o podobnych nazwach w jedną). Filozofia przyświecająca rozwojowi VIAF to tworzenie wyłącznie poprawnych linków, tak by dla każdych dwóch rekordów w grupie prawdopodobieństwo, że opisują dwie różne jednostki było mniejsze niż 1% (ostatnio przeprowadzony losowy test 300 dopasowań w klastrach VIAF nie wykazał żadnych błędnych par).
Wg autorów, zaprezentowane w tekście podejście VIAF do problemu niejednoznaczności zapewnia dużą elastyczność przy rozwiązywaniu kwestii dodatków, usunięć i zmian w podstawowych danych wzorcowych. Również sposób klasteryzacji jest w wielu aspektach nowatorski. Proces ten przebiega w 12 szczegółowo omówionych w tekście etapach, które można określić jako procedurę postępującego oczyszczania – od luźnego dopasowywania potencjalnych kandydatów i następnie stopniowego tworzenia z nich ostatecznych grup, po nadanie klastrom identyfikatorów VIAF. W trakcie tej procedury wykorzystuje się informacje ze wszystkich rekordów, dzięki czemu uzyskuje się płynniejszy wgląd w tożsamość niż w przypadku ręcznie tworzonych kartotek wzorcowych, zapewniając jednocześnie VIAF możliwość reakcji na udoskonalenia algorytmów klasteryzacji oraz dodawanie do kartotek nowych danych w regularnych odstępach czasu. Skala VIAF daje społeczności bibliotecznej nowe szanse analizy i wykorzystania danych wzorcowych w maszynowym przetwarzaniu. Projekt ten może mieć też wpływ na wykorzystanie linked data w innych serwisach informacyjnych