Biblioteka Narodowa używa na swojej stronie plików cookies. Brak zmiany ustawień przeglądarki oznacza zgodę na ich użycie. [zamknij]

Wykorzystanie narzędzi analizy semantycznej do tworzenia punktów dostępu rzeczowego

Autor: Małgorzata Waleszko,

Kategorie: Opracowanie informacji, Technologia informacyjna i bibliotekarska

Tagi: , , , , , ,

Zostaw komentarz

Instytucje kultury, przeznaczają od lat ogromne środki na digitalizację dziedzictwa kulturowego i utrzymanie kadr zajmujących się rzeczowym opracowaniem dokumentów cyfrowych, jednak wraz z szybkim wzrostem liczby i zróżnicowania dostępnych zasobów, ich wyczerpujący, manualny opis treściowy staje się niemożliwy i mało praktyczny. Ponieważ zapewnienie wysokiej jakości dostępu przedmiotowego, zwłaszcza w przypadku, dużych, heterogenicznych kolekcji, jest kluczową kwestią dla zachowania użyteczności i wyszukiwalności zasobów sektora LAM (bibliotek, archiwów i muzeów), testowane są nowe możliwości indeksowania zawartości treściowej, komplementarne wobec tradycyjnych języków informacyjno-wyszukiwawczych, oraz skomputeryzowane metody analizy przedmiotowej. W artykule omówiono wyniki badania poświęconego ewaluacji alternatywnych, zautomatyzowanych podejść do tworzenia punktów dostępu przedmiotowego, niestosowanych w tradycyjnym procesie katalogowania.

Autorzy zaproponowali w nim, jako ramy teoretyczne, trójwarstwową metodę analizy znaczenia obrazów Erwina Panofsky’ego, wykorzystując jej uproszczoną w standardzie CCO (Cataloguing Cultural Objects: a Guide to Describing Cultural Works and Their Images) wersję, zakładającą 3 poziomy odczytu: opisu (odnoszący się do ogólnych elementów (nazwy osobowe, geograficzne itp.) zawartych w dziele lub obrazowanych przez nie), identyfikacji (odnoszący się do konkretnej dziedziny) i interpretacji (odnoszący się do znaczenia reprezentowanych tematów, w tym konceptualnego ujęcia tego, czego dzieło dotyczy). Przyjęto hipotezę, że wspomagana komputerowo analiza semantyczna może zapewnić dostęp przedmiotowy na dwóch pierwszych poziomach (opisu i identyfikacji). Do testów wykorzystano narzędzie analizy semantycznej OpenCalais, sprawdzając na 2 próbach badawczych, wygenerowane przez to oprogramowanie punkty dostępu.

Pierwsza próba zawierała wyekstrahowane automatycznie dane opisowe dla 43 grup rekordów archiwalnych z 16 instytucji, w tym archiwów uniwersyteckich, rządowych i repozytoriów rękopisów i innego typu zbiorów specjalnych. Po ich analizie przez Open Calais, dostarczone przez program jednostki i tagi z 1. i 2. grupy porównano z terminami i nazwami ze słowników kontrolowanych takich jak LCSH (Library of Congress Subject Headings), LCNAF (Library of Congress Name Authority File) i AAT (Art and Architecture Thesaurus), uznając że badane narzędzie ma duży potencjał w odniesieniu do poziomów opisu i identyfikacji. W drugiej próbie znalazły się 44 prace magisterskie i doktorskie z dziedziny filozofii opublikowane w bazie konsorcjum OhioLINK i zawarte w katalogu KentLINK Uniwersytetu Stanowego Kent. Dla porównania, do OpenCalais wprowadzono oddzielnie abstrakty, tytuły, słowa kluczowe i paragrafy wstępne tych prac. Okazało się, że w wyniku analizy semantycznej bazującej na abstraktach otrzymano znacznie więcej trafnych tagów, niż w przypadku tej wykorzystującej tytuły. Uznano że automatyczne indeksowanie przy pomocy badanego silnika może zapewnić użyteczne dane semantyczne, w tym potencjalnie także na poziomie wnioskowania (inferencing / aboutness), nieobecnym w analizie Panofsky’ego.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>