Biblioteka Narodowa używa na swojej stronie plików cookies. Brak zmiany ustawień przeglądarki oznacza zgodę na ich użycie. [zamknij]

Testowanie automatycznego mapowania tagów użytkowników do pojęć Wikipedii

Autor: Małgorzata Waleszko,

Kategorie: Opracowanie informacji, Technologia informacyjna i bibliotekarska

Tagi: , , , , , , ,

Zostaw komentarz

Społeczne tagowanie stało się w ostatnich latach popularnym podejściem to tworzenia metadanych, umożliwiających wyszukiwanie wg kryterium przedmiotowego szerokiego zakresu materiałów online – fotografii (np. w serwisie Flickr), wideo (np. Vimeo), książek (np. LibraryThing), czy prac naukowych (np. CiteULike). Jako alternatywa dla opisu rzeczowego wykonywanego przez zawodowych katalogerów, z wykorzystaniem słowników kontrolowanych, indeksowanie na zasadach crowdsourcingu bazuje na społecznościach użytkowników wspólnie klasyfikujących interesujące ich zasoby, przy pomocy dowolnie dobranych słów kluczowych (folksonomii). Ze względu na swój niekontrolowany charakter, system nadawania znaczników przez internautów ma wiele ograniczeń, w tym niespójności związanych z różnicami w pisowni, synonimami, akronimami czy hiponimami. Niekonsekwencje te powodują z kolei dalsze problemy w wykorzystywaniu folksonomii, takie jak fenomen eksplozji tagów. Przyporządkowywanie tagów użytkowników do odpowiadających im haseł Wikipedii, traktowanej w tym kontekście jako słownik kontrolowany, może wg autorów zapewniać wiele korzyści w procesie generowania i organizacji metadanych, na różnych poziomach i w różnych wirtualnych środowiskach.

Do zalet takiego podejścia zaliczono w artykule normalizację niespójności, eliminację personalnych znaczników oraz poprawę wzajemnej wymienności, integralności i rozszerzalności istniejących metadanych przedmiotowych. Przedstawiono następnie i szczegółowo scharakteryzowano opracowaną przez autorów, bazującą na uczeniu maszynowym metodę automatycznego mapowania tagów użytkowników do równoważnych pojęć z angielskiej wersji Wikipedii, i zaprezentowano możliwości jej zastosowania oraz wyniki ewaluacji jej skuteczności. Jako platformę testową wykorzystano najpopularniejszy obecnie serwis społecznościowy dla programistów typu Q&A (Questions and Answers) – StackOverflow, na którym twórcy oprogramowania mogą zadawać pytania związane z rozwojem różnych systemów i aplikacji oraz udzielać pytającym odpowiedzi. Obecnie, ponad 20 mln postów na StackOverflow oznaczona jest ok. 37 tys. unikalnych społecznych tagów, z których do celów omawianego projektu wybrano podzbiór 1256 klasyfikatorów, i oceniano funkcjonalność proponowanego modelu mapowania przy wykorzystaniu różnych, bazujących na uczeniu maszynowym algorytmów klasyfikacji. Jego ewaluację przeprowadzono przy pomocy standardowych dla oceny procesu wyszukiwania informacji miar jakości klasyfikacji: precyzji, czułości (ang. recall) i F-miary (F1). Przy zastosowaniu algorytmu Random Forest użytego jako część procesu mapowania, uzyskano wynik F1 na poziomie 99,6%, zaznaczono przy tym, że rezultaty przyjętych procedur w dowolnej dziedzinie zależą w dużej mierze od zakresu jej opracowania w Wikipedii. Uznano, że proponowana metoda pozwala na skuteczną konwersję tagów użytkowników na pojęcia Wikipedii i może ułatwić projektowanie i rozwój nowych, semantycznie wzbogaconych metod i systemów IR służących do klasyfikacji treści, klasteryzacji, szeregowania i rekomendacji w sieci www. Mapowanie to może być także wykorzystane do inicjowania nowych, wzajemnych powiązań między artykułami/pojęciami Wikipedii a pytaniami i odpowiedziami StackOverflow.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>