MapAffil: bibliograficzne narzędzie przyporządkowujące afiliacje autorów do miast i ich geokodów
,Kategorie: Źródła informacji, Opracowanie informacji, Technologia informacyjna i bibliotekarska, Biblioteki jako kolekcje
Tagi: MEDLINE, MapAffil, PubMed, afiliacje autorów, bazy bibliograficzne, bibliometria, biblioteki cyfrowe, geokodowanie, geoparsing, systemy informacji geograficznej, toponimy
Możliwość komentowania MapAffil: bibliograficzne narzędzie przyporządkowujące afiliacje autorów do miast i ich geokodów została wyłączona
W artykule omówiono projekt budowy i testowania na Uniwersytecie Illinois w Urbana-Champaign narzędzia do geokodowania afiliacji autorów publikacji, mającego usprawnić wyszukiwanie informacji i zapewnić rozróżnialność nazwisk autorów, a także rozszerzyć możliwości prowadzenia skoncentrowanych na autorach, globalnych badań bibliometrycznych obejmujących wymiary geograficznej bliskości i mobilności oraz inne dane, które można powiązać z geograficznymi lokalizacjami. Celem autorów było przydzielenie geokodów na ujednoliconym poziomie szerokiemu spektrum rekordów bibliograficznych z całego świata oraz stworzenie interfejsu wyszukiwawczego geograficznych centrów miast MapAffil, wyświetlający ich współrzędne po identyfikacji miasta.
Bibliograficzne rekordy zawierają często afiliacje autorów w formie ciągów tekstowych w niesformalizowanej postaci. W idealnej sytuacji użytkownik powinien mieć możliwość automatycznej identyfikacji wszystkich afiliacji odnoszących się do danego państwa lub miasta, w praktyce jednak zadanie to wymaga rozwiązania kilku lingwistycznych problemów niejednoznaczności, w tym różnych wariantów pisowni nazw geograficznych. Autorzy opracowali algorytm mający rozwiązać tego typu problemy i umożliwić ekstrakcję odpowiadającego autorowi miasta lub miejscowości oraz jej fizycznej lokalizacji (współrzędne).
Testowano go na zbiorze danych z bazy PubMed, w której afiliacje zapisywane są na różne sposoby (76% zawiera 3 lub więcej przecinków, którymi oddziela się nazwy wydziałów, instytucji, miast i stanów/krajów – podawanych w takiej kolejności) i w różnych językach. Zadanie, jakie postawili sobie badacze miał polegać na ekstrakcji z zapisu tekstowego afiliacji autora nazwy odpowiadającego mu miasta i jego fizycznej lokalizacji (współrzędnych geograficznych), a w przypadku braku miasta – nazwy kraju i stanu/okręgu administracyjnego. Kluczowe komponenty testowe stanowił słownik 24 tys. pobranych nazw miast, stanów i krajów (oraz ich wariantów) i geokodów oraz, po przyporządkowaniu wszystkim ciągom afiliacji dokładnie jednego kraju, zbiór 1,1 mln n-gramów słów, z których każde wskazywało na inne państwo lub stan w celu ich ujednoznacznienia. Po ich odniesieniu do zbioru 12,7 mln ciągów afiliacji wymienionych w bazie PubMed, odsetek niejednoznaczności wyniósł tylko 0,1%. Dla 4,2 mln mapowań dla Stanów Zjednoczonych, 97,7% było pełnych (obejmowało miasta), 1,8% – miasta ale nie stany, a 0,04% nie dotyczyło nazw stanów. Dla losowej próby 300 ręcznie sprawdzonych przypadków, wyniki to 6 niekompletnych przyporządkowań, żadnego błędnego i jedna nierozwiązana niejednoznaczność. Pozostałe 273 (97%) przypadków udało się jednoznacznie przyporządkować do właściwych miast. Rezultat ten był lepszy niż w przypadku wszystkich innych przetestowanych przez autorów narzędzi: GoPubMed (279 czyli 93%), Geomaker (274 czyli 91,3%), MediaMeter CLIFF (77, czyli 58,3%) i Google Maps (86, czyli 65,2%). Ogólnie, niepoprawne przyporządkowania i nierozwiązane niejednoznaczności okazały się w przypadku MapAffil rzadkie (mniej niż 1%), a stopień niekompletności wyniósł 2%, głównie z powodu braku informacji (np. gdy w polu afiliacji występowała nazwa uniwersytetu, którą można odnieść do 5 różnych kampusów). Zdaniem autora, funkcjonalność nowego narzędzia jest na tyle duża, że powinna umożliwić prowadzenie nowych typów globalnych badań bibliometrycznych – obecnie na przykład, przy jego użyciu badany jest wpływ lokalnych uwarunkowań demograficznych ma zróżnicowanie współautorstwa i tematyki badań w naukach biomedycznych, i tworzy się modele współpracy uwzględniające bliskość geograficzną jako jedną z ważnych zmiennych wyjaśniających.