Biblioteka Narodowa używa na swojej stronie plików cookies. Brak zmiany ustawień przeglądarki oznacza zgodę na ich użycie. [zamknij]

Aktualizacja słowników kontrolowanych na podstawie analizy logów kwerend użytkowników

Autor: Małgorzata Waleszko,

Kategorie: Bibliotekoznawstwo i informacja naukowa jako dziedzina, Opracowanie informacji

Tagi: , , , , ,

Zostaw komentarz

Liczba dostępnych w sieci cyfrowych danych podwaja się co dwa lata, a w tak szybko rozrastającym się środowisku języki informacyjno-wyszukiwawcze stanowią kluczowy komponent systemów informacyjnych, zwłaszcza w kontekstach akademickich i branżowych, powiązanych z produkcją i gromadzeniem specjalistycznych informacji wysokiej jakości. Słowniki kontrolowane używane są w nich zarówno do opisu zawartości dokumentów jak i ułatwiania do nich dostępu zgodnie z określonymi potrzebami informacyjnymi użytkowników. W erze Google użytkownicy przyzwyczajeni są do korzystania z prostych systemów wyszukiwawczych, które wymagają jedynie wprowadzenia słów kluczowych, by przekierować do poszukiwanej informacji. Choć mechanizmy te są efektywne, mogą zawodzić w przypadku wyszukiwania konkretnych, specjalistycznych materiałów. Wyniki badań dowodzą, że konceptualne wyszukiwania bazujące słownikach kontrolowanych mogą być w takich przypadkach bardziej efektywne niż wyszukiwania przez słowa kluczowe, warto więc szukać sposobów na poprawę tych narzędzi, a tym samym poprawę dostępności informacji. W artykule omówiono piśmiennictwo poświęcone językom indeksowania, a następnie zaprezentowano opracowany przez autorów, na wpół zautomatyzowany model aktualizacji słownika kontrolowanego z uwzględnieniem perspektywy użytkownika, poprzez użycie korpusu tekstowego oraz ekstrakcję i analizę rejestrów kwerend (ang. query logs).

Celem projektu była ocena, w jakim zakresie słownik kontrolowany odzwierciedla faktyczny sposób lokalizowania informacji przez użytkowników oraz sprawdzenie przydatności proponowanego modelu, wykorzystującego wprowadzane w wyszukiwarkę słowa kluczowe do poprawy użyteczności słownika w środowisku sieciowym. W pierwszym etapie badania sprawdzono dopasowanie słownika kontrolowanego do wybranego korpusu tekstowego, który składał się ze 100 losowo dobranych hiszpańskojęzycznych publikacji w formacie HTML z czasopisma BiD: Textos Universitaris de Biblioteconomia i Documentació (lata 2005-2013), indeksowanego przez bibliologiczo-informatologiczny, hiszpański portal Temaria. Opisy artykułów tworzone są w nim ręcznie, przy użyciu deskryptorów z Tezaurusa Bibliotekoznawstwa i Informacji Naukowej (Tesauro de Biblioteconomia y Dodumentación) rozwijanego przez instytut IEDCYT (Instituto de Estudios Documentales sobre Ciencia y Tecnología), oraz przy pomocy edytora metadanych DigiDoc MetaEdit. Następnie, wykorzystując pakiet statystyczny Ngram (NSP) porównano słowa kluczowe wpisywane przez użytkowników by uzyskać dostęp do korpusu (dane uzyskane z Google Analytics) z deskryptorami używanymi przy jego indeksowaniu – wyniki wskazały na potrzebę lepszego dopasowania tezaurusa do potrzeb odbiorców (jedynie 23% dopasowań między terminami używanymi przez internautów a deskryptorami przydzielonymi przez katalogerów). W końcowym etapie, zgodnie z przyjętym modelem, przeanalizowano zarówno logi kwerend i korpus tekstowy, by wytypować zestaw terminów, które można włączyć do słownika kontrolowanego. Część realizowanych procedur (analiza kwerend, identyfikacja słów kluczowych) zautomatyzowano, część (przegląd ewaluacja zidentyfikowanych i proponowanych do dodania terminów) pozostawiono ludzkim ekspertom.

Testowany model jest prosty i tani, i ma zdaniem autorów zastosowanie w różnego typu środowiskach kontrolowanych takich jak czasopisma akademickie, dziedzinowe repozytoria instytucjonalne i sieci wewnętrzne. Umożliwia identyfikację kwerend prowadzących użytkowników z wyszukiwarki do odpowiedniego dokumentu, a następnie – ich analizę w celu wytypowania terminów, które można potencjalnie włączyć do słownika. Jego implementacja poprawia również bezpośrednio efektywność procesu indeksowania, dzięki ułatwieniu obsługi i aktualizacji słownika kontrolowanego i pomaga tym samym w optymalizacji dostępu do informacji.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>