VIAFbot i integracja danych bibliotecznych w Wikipedii
,Kategorie: Źródła informacji, Opracowanie informacji
Tagi: VIAF, VIAFBot, Wikipedia, bazy danych, języki informacyjno-wyszukiwawcze, kartoteki wzorcowe, kontrola autorytatywna, systemy organizacji wiedzy, słowniki nazw osobowych
Możliwość komentowania VIAFbot i integracja danych bibliotecznych w Wikipedii została wyłączona
W artykule omówiono projekt VIAFbot, zrealizowany przez Wikipedystów z OCLC i Biblioteki Brytyjskiej (specjalistów zatrudnionych w tych instytucjach na stanowisku Wikipedian in Residence, czyli rezydent Wikipedii), mający na celu integrację danych wzorcowych z Międzynarodowej Kartoteki Haseł Wzorcowych (VIAF) z biograficznymi artykułami z tej popularnej internetowej encyklopedii. Ich powiązanie ma dać bibliotekom okazję do prezentacji tradycyjnie hermetycznych, znanych głównie środowisku bibliotekarskiemu danych, takich jak rekordy katalogowe i wzorcowe, na szerzej dostępnych, otwartych platformach online.
VIAF: The Virtual International Authority File, to system informacyjny tworzony na potrzeby Sieci Semantycznej, zainicjowany w 2003 r. przez Bibliotekę Kongresu, Niemiecką Bibliotekę Narodową i OCLC. Od 2012 r. działa jako otwarty serwis administrowany przez OCLC i współpracuje z kilkudziesięcioma instytucjami z całego świata, które przesyłają do VIAF pule rekordów ze swoich kartotek haseł wzorcowych oraz powiązane z nimi rekordy bibliograficzne. Celem tych działań jest dopasowanie, przy pomocy specjalnego algorytmu, nazw występujących w różnych, krajowych wariantach w poszczególnych źródłach i prezentowanie ich wspólnie, na jednej platformie, pod jednym, unikatowym identyfikatorem numerycznym, a tym samym – ujednolicenie dostępu do wzorcowych list haseł osobowych i korporatywnych z zasobów sieciowych różnych instytucji.
Zarys projektu VIAFbot przedstawiono na forum dyskusyjnym Wikipedii w czerwcu 2012 r. Zakładał on stworzenie specjalnego programu (bota) mającego pomóc w ujednoznacznieniu nazw osobowych w tym zasobie oraz zwiększeniu użyteczności i wykorzystania słowników haseł wzorcowych poza środowiskiem bibliotek, przez automatyczne dołączanie na masową skalę identyfikatorów kontroli wzorcowej w artykułach Wikipedii na temat indywidualnych osób, oraz dodawanie linków zwrotnych w VIAF, odsyłających do Wikipedii jako źródła danych. Pomysł ten zebrał w większości pozytywne opinie, podobnie jak pełna propozycja projektu przedstawiona do akceptacji w ramach procedury RfC (prośba o komentarz). Dopasowywanie i wzajemne linkowanie plików VIAF z artykułami anglojęzycznej wersji encyklopedii rozpoczęto latem 2012 r., zakończono w listopadzie tego samego roku.
Autorzy opisują w tekście szczegółowo poszczególne etapy realizacji projektu i wykorzystaną dokumentację, szablony i źródła danych, mechanizm i proces pracy bota, statystyki VIAF przed i po zakończeniu dopasowań oraz stosowane procedury eliminacji błędów. Łącznie, udało się dodać automatycznie pliki VIAF do ponad 250 tys. artykułów z angielskojęzycznej Wikipedii, a od listopada 2012 r. rozpoczęto sprawdzanie poprawności wprowadzonych zmian i manualną eliminację zauważonych rozbieżności między identyfikatorami VIAF a hasłami osobowymi w encyklopedii (do czerwca 2013 r. zauważono 217 błędów). Zainteresowanie zastosowaniem VIAFbot w innych wersjach językowych Wikipedii zgłosiły środowiska Wikipedystów z wielu różnych krajów, a po uruchomieniu wielojęzycznej, relacyjnej bazy wiedzy Wikidata w październiku 2012 r. (od kwietnia 2013 r. projekt ma też polską nazwę – Wikidane), która ma zapewnić semantyczne wyszukiwanie i obsługiwanie wszystkich edycji językowych Wikipedii z jednego źródła ustrukturyzowanych danych, możliwy stał się import linków VIAF w innych jej wersjach (w tym polskojęzycznej – identyfikatory VIAF widoczne są pod treścią artykułów biograficznych, w jednej z końcowych sekcji pn. „kontrola autorytatywna (osoba)”) oraz prowadzenie na dużą skalę analiz i porównań poprawności danych bibliotecznych i tych pochodzących z zasobów fundacji Wikimedia. Planowanie jest również rozszerzenie projektu na innego typu słowniki (hasła korporatywne, przedmiotowe i klasyfikacje biblioteczne).