Automatyczny system identyfikacji nazwisk autorów w bibliotekach cyfrowych
,Kategorie: Opracowanie informacji, Technologia informacyjna i bibliotekarska, Źródła informacji
Tagi: biblioteki cyfrowe, eksploracja danych, kontrola autorytatywna, oprogramowanie, zautomatyzowane systemy
Możliwość komentowania Automatyczny system identyfikacji nazwisk autorów w bibliotekach cyfrowych została wyłączona
Lokalizowanie w bibliotekach cyfrowych (BC) publikacji napisanych przez konkretnego autora, przy pomocy wyszukiwania wg nazwiska może być trudnym zadaniem ze względu na brak odpowiednich procesów kontroli autorytatywnej. Niska trafność wyników wyszukiwania związana jest głownie z problemami z rozróżnianiem autorów o tych samych nazwiskach i współistnieniem różnych form tego samego nazwiska, zwłaszcza w przypadku używania źródeł zawierających zaszumione (ang. noisy), niespójne, sprzeczne lub błędne dane. Zadaniem identyfikacji różnych wersji i sposobów zapisu nazw autorów w rekordach bibliotecznych zajmowali się tradycyjnie bibliotekarze, jego manualne wykonywanie jest jednak czasochłonne i nie gwarantuje zachowania konsekwencji i ujednoliconych rezultatów dla wszystkich analizowanych zbiorów, od lat podnosi się wiec potrzebę automatyzacji tego procesu. W artykule przedstawiono automatyczny system kontroli nazw autorskich w BC, bazujący na technikach eksploracji danych. Jest on w stanie lokalizować różne formy haseł autorskich i rozróżniać twórców o tych samych nazwiskach, oraz grupować publikacje z prezentowanej listy wyników wyszukiwania wg autorstwa w tzw. authorities (klastrach zawierających pozycje tego samego twórcy, z uwzględnieniem wszystkich form zapisu jego nazwiska), prezentując użytkownikowi pełną listę publikacji danej osoby.
Autorzy zastosowali przy jego budowie metodę analizy skupień (ang. data clustering) opartą na tzw. klasyfikacji bez nadzoru (ang. unsupervised learning), z wykorzystaniem algorytmu grupowania hierarchicznego. Nowością jest połączenie jej z podejściem do porównywania publikacji, wykorzystującym jedynie informacje pozyskane bezpośrednio z rekordów BC, a konkretnie z trzech komponentów, które można znaleźć w większości BC, bez potrzeby ekstrakcji danych z zewnętrznych źródeł: terminów z tytułów i z abstraktów, nazw autorskich i informacji o współautorstwie. W tekście omówiono szczegółowo architekturę prezentowanego systemu i wykorzystywane mechanizmy przetwarzania i interpretacji danych (1), a następnie implementację systemu oraz wyniki jego ewaluacji dokonanej na podstawie testów z wykorzystaniem trzech różnych sieciowych BC (2).
Ad 1. System zbudowany jest z dwóch modułów: przygotowywania oraz eksploracji danych. Funkcją pierwszego jest import niezbędnych informacji z opisów bibliograficznych i abstraktów (etap gromadzenia), ich oczyszczenie i standaryzacja, a następnie wyodrębnienie „czystych”, kompletnych terminów z tytułów i abstraktów publikacji oraz nazw autorskich (etap wstępnej obróbki). Drugi moduł ma trzy części: pośredniej reprezentacji w strukturze pozwalającej na zastosowanie technik ekstrakcji, grupowania (proces hierarchicznej klasteryzacji z wykorzystaniem algorytmu typu complete linkage (pełnego wiązania) – jego w wyniku pozyskuje się, w formie drzewa (dendrogramu) skupienia authorities) oraz walidacji, czyli sprawdzania poprawności klas autorstwa. Jako że BC nie mają zazwyczaj kartotek autorytatywnych nazw osobowych, w tym ostatnim procesie wykorzystuje się podejście częściowo zautomatyzowane: pomoc ekspertów, którzy sprawdzają rezultaty pracy systemu i lokują je w trzech kategoriach: poprawne (elementy pogrupowane właściwie), niepoprawne (zaliczone do grupy w której nie powinny się znajdować) i niepogrupowane (mogące stworzyć inna grupę), oraz algorytm automatycznej walidacji.
Ad 2. Przy realizacji projektu wykorzystano środowisko programistyczne Java i Oracle Database. Implementację przeprowadzono w dwóch etapach: budowy narzędzia ekstrakcji danych i narzędzia wizualizacji authorities, które służy jako wyszukiwarka. System przetestowano na najczęściej wykorzystywanych w środowisku naukowym (zwłaszcza przez informatyków) bazach: DBPL, CiteSeerX i INSPEC, wyszukując w nich 8 nazwisk (wybrano po cztery najpopularniejsze nazwiska w języku angielskim i hiszpańskim). W każdym z eksperymentów zgromadzono dane nt. odsetka elementów poprawnych, niepoprawnych i niepogrupowanych. Łącznie, uzyskano skuteczność rzędu 88%. Aplikację zaprojektowano tak, by można ją używać niemal we wszystkich BC, także tych oferujących jedynie podstawowe informacje o publikacjach (tytuł, autor). Wg autorów, jest ona na tyle elastyczna, by w przyszłości służyć również do identyfikacji różnych wersji nazwisk w innego typu internetowych zasobach (serwisy informacyjne itp.)