Aktualizacja słowników kontrolowanych na podstawie analizy logów kwerend użytkowników

Autor: Małgorzata Waleszko, 15:44 02-12-2015

Kategorie: Bibliotekoznawstwo i informacja naukowa jako dziedzina, Opracowanie informacji

Tagi: języki informacyjno-wyszukiwawcze, logi kwerend, słowa kluczowe, słowniki kontrolowane, tezaurusy, wyszukiwanie informacji

Możliwość komentowania Aktualizacja słowników kontrolowanych na podstawie analizy logów kwerend użytkowników została wyłączona

Liczba dostępnych w sieci cyfrowych danych podwaja się co dwa lata, a w tak szybko rozrastającym się środowisku języki informacyjno-wyszukiwawcze stanowią kluczowy komponent systemów informacyjnych, zwłaszcza w kontekstach akademickich i branżowych, powiązanych z produkcją i gromadzeniem specjalistycznych informacji wysokiej jakości. Słowniki kontrolowane używane są w nich zarówno do opisu zawartości dokumentów jak i ułatwiania do nich dostępu zgodnie z określonymi potrzebami informacyjnymi użytkowników. W erze Google użytkownicy przyzwyczajeni są do korzystania z prostych systemów wyszukiwawczych, które wymagają jedynie wprowadzenia słów kluczowych, by przekierować do poszukiwanej informacji. Choć mechanizmy te są efektywne, mogą zawodzić w przypadku wyszukiwania konkretnych, specjalistycznych materiałów. Wyniki badań dowodzą, że konceptualne wyszukiwania bazujące słownikach kontrolowanych mogą być w takich przypadkach bardziej efektywne niż wyszukiwania przez słowa kluczowe, warto więc szukać sposobów na poprawę tych narzędzi, a tym samym poprawę dostępności informacji. W artykule omówiono piśmiennictwo poświęcone językom indeksowania, a następnie zaprezentowano opracowany przez autorów, na wpół zautomatyzowany model aktualizacji słownika kontrolowanego z uwzględnieniem perspektywy użytkownika, poprzez użycie korpusu tekstowego oraz ekstrakcję i analizę rejestrów kwerend (ang. query logs).

Celem projektu była ocena, w jakim zakresie słownik kontrolowany odzwierciedla faktyczny sposób lokalizowania informacji przez użytkowników oraz sprawdzenie przydatności proponowanego modelu, wykorzystującego wprowadzane w wyszukiwarkę słowa kluczowe do poprawy użyteczności słownika w środowisku sieciowym. W pierwszym etapie badania sprawdzono dopasowanie słownika kontrolowanego do wybranego korpusu tekstowego, który składał się ze 100 losowo dobranych hiszpańskojęzycznych publikacji w formacie HTML z czasopisma BiD: Textos Universitaris de Biblioteconomia i Documentació (lata 2005-2013), indeksowanego przez bibliologiczo-informatologiczny, hiszpański portal Temaria. Opisy artykułów tworzone są w nim ręcznie, przy użyciu deskryptorów z Tezaurusa Bibliotekoznawstwa i Informacji Naukowej (Tesauro de Biblioteconomia y Dodumentación) rozwijanego przez instytut IEDCYT (Instituto de Estudios Documentales sobre Ciencia y Tecnología), oraz przy pomocy edytora metadanych DigiDoc MetaEdit. Następnie, wykorzystując pakiet statystyczny Ngram (NSP) porównano słowa kluczowe wpisywane przez użytkowników by uzyskać dostęp do korpusu (dane uzyskane z Google Analytics) z deskryptorami używanymi przy jego indeksowaniu – wyniki wskazały na potrzebę lepszego dopasowania tezaurusa do potrzeb odbiorców (jedynie 23% dopasowań między terminami używanymi przez internautów a deskryptorami przydzielonymi przez katalogerów). W końcowym etapie, zgodnie z przyjętym modelem, przeanalizowano zarówno logi kwerend i korpus tekstowy, by wytypować zestaw terminów, które można włączyć do słownika kontrolowanego. Część realizowanych procedur (analiza kwerend, identyfikacja słów kluczowych) zautomatyzowano, część (przegląd ewaluacja zidentyfikowanych i proponowanych do dodania terminów) pozostawiono ludzkim ekspertom.

Testowany model jest prosty i tani, i ma zdaniem autorów zastosowanie w różnego typu środowiskach kontrolowanych takich jak czasopisma akademickie, dziedzinowe repozytoria instytucjonalne i sieci wewnętrzne. Umożliwia identyfikację kwerend prowadzących użytkowników z wyszukiwarki do odpowiedniego dokumentu, a następnie – ich analizę w celu wytypowania terminów, które można potencjalnie włączyć do słownika. Jego implementacja poprawia również bezpośrednio efektywność procesu indeksowania, dzięki ułatwieniu obsługi i aktualizacji słownika kontrolowanego i pomaga tym samym w optymalizacji dostępu do informacji.

Komentarze wyłączone.

Share

Copy short link