Biblioteka Narodowa używa na swojej stronie plików cookies. Brak zmiany ustawień przeglądarki oznacza zgodę na ich użycie. [zamknij]

Wayback Machine: reinkarnacja utraconych źródeł internetowych

Autor: Małgorzata Waleszko,

Kategorie: Źródła informacji, Opracowanie informacji

Tagi: , , , , , ,

Możliwość komentowania Wayback Machine: reinkarnacja utraconych źródeł internetowych została wyłączona

Zamieszczanie odsyłaczy do źródeł online jest powszechną praktyką w środowisku naukowym i znaleźć je można we wszelkiego typu pracach badawczych: referatach konferencyjnych, artykułach naukowych i innych publikacjach akademickich. W założeniu, przypisy i odwołania do dostępnego w sieci dorobku innych badaczy mają umożliwić czytelnikom weryfikację interpretacji autora i zdobycie dalszych informacji oraz pomóc w sprawdzeniu wpływu publikacji naukowych, z tego względu dokładność cytowań i dostępność ich adresów URL dla przyszłych pokoleń jest fundamentalnym elementem wiarygodnej działalności badawczej. Trwałość odsyłaczy do stron internetowych jest kwestionowana przez wielu autorów, celem zaprezentowanego w artykule badania stało się w związku z tym określenie skali niektywności i poziomu odzyskiwania niedziałających odesłań w artykułach wybranych bibliotekoznawczych i informatologicznych czasopism z bazy Emerald oraz pomiar czasu ich połowicznego zaniku, przed i po naprawie wadliwych linków.

Autorzy wybrali do projektu wszystkie artykuły (448), które ukazały się w latach 2008-2012 w trzech renomowanych czasopismach z dziedziny bibliotekoznawstwa i informacji naukowej: Internet Research (Impact Factor: 1,500), Aslib Proceedings (IF: 0,432) i Collection Building (IF: brak obliczeń), i wyodrębnili z zamieszczonych pod nimi wykazów literatury przedmiotu (łącznie 15 211 odsyłaczy) 1930 linków do publikacji online, sprawdzając ich aktywność w marcu i kwietniu 2013 r. przy pomocy darmowego narzędzia W3C Link Checker, i rejestrując rodzaj zgłoszonego błędu (HTTP 403, HTTP 404 itp.). W celu odzyskania utraconego dostępu do cytowanych źródeł wykorzystano usługę Wayback Machine serwisu Internet Archive, zapewniającego trwały dostęp m.in. do archiwalnych wersji stron www z całego świata.

W badaniu przyjęto 4 hipotezy dotyczące: 1) istnienia pozytywnych korelacji między odsetkiem wykorzystania cytowań online a wiekiem publikacji, oraz 2) między dezaktualizacją odnośników a ich wiekiem, 3) negatywnych korelacji między głębokością ścieżek dostępu a odsetkiem odzyskanych cytowań oraz 4) różnic w odniesieniu do czasu ich połowicznego zaniku (okresu, w którym liczba aktywnych odsyłaczy zmniejszy się o połowę), przed i po naprawie wadliwych linków. Testowano je korzystając z kilku technik statystycznych (test Pearsona (chi-kwadrat), analiza korelacji r-Pearsona, p-wartość).

Analiza zebranych danych wykazała m.in., że z 1930 odsyłaczy online, 69,02% było aktywnych, a pozostałe 30,98% nie było już dostępne w czasie testowania; zanotowano też związek między wiekiem cytowań a aktywnością linków prowadzących do cytowanych źródeł, jednak korelacja ta nie była statystycznie istotna. Przy pomocy Wayback Machine udało się odzyskać dostęp do 48,33% stron i stwierdzić, że starsze odsyłacze były mniej stabilne niż te publikowane w ostatnich latach, jednak również w tym wypadku korelacja nie była istotna statystycznie. Najpopularniejszym typem błędu (56,52%) okazał się HTTP 404 (page not found) – w tej kategorii udało się też odzyskać najwięcej (62,98) odnośników, a wśród znalezionych źródeł najwięcej było tych, których adres składał się z mniej niż 20 znaków; najpopularniejszym formatem cytowanych prac okazał się HTML (1207), a w dalszej kolejności – PDF (416). Obliczony średni czas połowicznego zaniku odsyłaczy wyniósł 5,4 lat, co oznacza, że po 5 latach i 4 miesiącach dostęp do połowy materiałów cytowanych w badanych 3 czasopismach zostanie utracony; dla odzyskanych cytowań okres ten wydłużył się do 11, 73 lat, poza 3. potwierdzono więc tym samym także 4. hipotezę.

Komentarze wyłączone.