Wykorzystanie narzędzi analizy semantycznej do tworzenia punktów dostępu rzeczowego
,Kategorie: Opracowanie informacji, Technologia informacyjna i bibliotekarska
Tagi: OpenCalais, analiza semantyczna, analiza zawartości, punkty dostępu rzeczowego, tagi, teoria Panofsky'ego, terminy
Możliwość komentowania Wykorzystanie narzędzi analizy semantycznej do tworzenia punktów dostępu rzeczowego została wyłączona
Instytucje kultury, przeznaczają od lat ogromne środki na digitalizację dziedzictwa kulturowego i utrzymanie kadr zajmujących się rzeczowym opracowaniem dokumentów cyfrowych, jednak wraz z szybkim wzrostem liczby i zróżnicowania dostępnych zasobów, ich wyczerpujący, manualny opis treściowy staje się niemożliwy i mało praktyczny. Ponieważ zapewnienie wysokiej jakości dostępu przedmiotowego, zwłaszcza w przypadku, dużych, heterogenicznych kolekcji, jest kluczową kwestią dla zachowania użyteczności i wyszukiwalności zasobów sektora LAM (bibliotek, archiwów i muzeów), testowane są nowe możliwości indeksowania zawartości treściowej, komplementarne wobec tradycyjnych języków informacyjno-wyszukiwawczych, oraz skomputeryzowane metody analizy przedmiotowej. W artykule omówiono wyniki badania poświęconego ewaluacji alternatywnych, zautomatyzowanych podejść do tworzenia punktów dostępu przedmiotowego, niestosowanych w tradycyjnym procesie katalogowania.
Autorzy zaproponowali w nim, jako ramy teoretyczne, trójwarstwową metodę analizy znaczenia obrazów Erwina Panofsky’ego, wykorzystując jej uproszczoną w standardzie CCO (Cataloguing Cultural Objects: a Guide to Describing Cultural Works and Their Images) wersję, zakładającą 3 poziomy odczytu: opisu (odnoszący się do ogólnych elementów (nazwy osobowe, geograficzne itp.) zawartych w dziele lub obrazowanych przez nie), identyfikacji (odnoszący się do konkretnej dziedziny) i interpretacji (odnoszący się do znaczenia reprezentowanych tematów, w tym konceptualnego ujęcia tego, czego dzieło dotyczy). Przyjęto hipotezę, że wspomagana komputerowo analiza semantyczna może zapewnić dostęp przedmiotowy na dwóch pierwszych poziomach (opisu i identyfikacji). Do testów wykorzystano narzędzie analizy semantycznej OpenCalais, sprawdzając na 2 próbach badawczych, wygenerowane przez to oprogramowanie punkty dostępu.
Pierwsza próba zawierała wyekstrahowane automatycznie dane opisowe dla 43 grup rekordów archiwalnych z 16 instytucji, w tym archiwów uniwersyteckich, rządowych i repozytoriów rękopisów i innego typu zbiorów specjalnych. Po ich analizie przez Open Calais, dostarczone przez program jednostki i tagi z 1. i 2. grupy porównano z terminami i nazwami ze słowników kontrolowanych takich jak LCSH (Library of Congress Subject Headings), LCNAF (Library of Congress Name Authority File) i AAT (Art and Architecture Thesaurus), uznając że badane narzędzie ma duży potencjał w odniesieniu do poziomów opisu i identyfikacji. W drugiej próbie znalazły się 44 prace magisterskie i doktorskie z dziedziny filozofii opublikowane w bazie konsorcjum OhioLINK i zawarte w katalogu KentLINK Uniwersytetu Stanowego Kent. Dla porównania, do OpenCalais wprowadzono oddzielnie abstrakty, tytuły, słowa kluczowe i paragrafy wstępne tych prac. Okazało się, że w wyniku analizy semantycznej bazującej na abstraktach otrzymano znacznie więcej trafnych tagów, niż w przypadku tej wykorzystującej tytuły. Uznano że automatyczne indeksowanie przy pomocy badanego silnika może zapewnić użyteczne dane semantyczne, w tym potencjalnie także na poziomie wnioskowania (inferencing / aboutness), nieobecnym w analizie Panofsky’ego.