Biblioteka Narodowa używa na swojej stronie plików cookies. Brak zmiany ustawień przeglądarki oznacza zgodę na ich użycie. [zamknij]

Wayback Machine: reinkarnacja utraconych źródeł internetowych

Autor: Małgorzata Waleszko,

Kategorie: Źródła informacji, Opracowanie informacji

Tagi: , , , , , ,

Zostaw komentarz

Zamieszczanie odsyłaczy do źródeł online jest powszechną praktyką w środowisku naukowym i znaleźć je można we wszelkiego typu pracach badawczych: referatach konferencyjnych, artykułach naukowych i innych publikacjach akademickich. W założeniu, przypisy i odwołania do dostępnego w sieci dorobku innych badaczy mają umożliwić czytelnikom weryfikację interpretacji autora i zdobycie dalszych informacji oraz pomóc w sprawdzeniu wpływu publikacji naukowych, z tego względu dokładność cytowań i dostępność ich adresów URL dla przyszłych pokoleń jest fundamentalnym elementem wiarygodnej działalności badawczej. Trwałość odsyłaczy do stron internetowych jest kwestionowana przez wielu autorów, celem zaprezentowanego w artykule badania stało się w związku z tym określenie skali niektywności i poziomu odzyskiwania niedziałających odesłań w artykułach wybranych bibliotekoznawczych i informatologicznych czasopism z bazy Emerald oraz pomiar czasu ich połowicznego zaniku, przed i po naprawie wadliwych linków.

Autorzy wybrali do projektu wszystkie artykuły (448), które ukazały się w latach 2008-2012 w trzech renomowanych czasopismach z dziedziny bibliotekoznawstwa i informacji naukowej: Internet Research (Impact Factor: 1,500), Aslib Proceedings (IF: 0,432) i Collection Building (IF: brak obliczeń), i wyodrębnili z zamieszczonych pod nimi wykazów literatury przedmiotu (łącznie 15 211 odsyłaczy) 1930 linków do publikacji online, sprawdzając ich aktywność w marcu i kwietniu 2013 r. przy pomocy darmowego narzędzia W3C Link Checker, i rejestrując rodzaj zgłoszonego błędu (HTTP 403, HTTP 404 itp.). W celu odzyskania utraconego dostępu do cytowanych źródeł wykorzystano usługę Wayback Machine serwisu Internet Archive, zapewniającego trwały dostęp m.in. do archiwalnych wersji stron www z całego świata.

W badaniu przyjęto 4 hipotezy dotyczące: 1) istnienia pozytywnych korelacji między odsetkiem wykorzystania cytowań online a wiekiem publikacji, oraz 2) między dezaktualizacją odnośników a ich wiekiem, 3) negatywnych korelacji między głębokością ścieżek dostępu a odsetkiem odzyskanych cytowań oraz 4) różnic w odniesieniu do czasu ich połowicznego zaniku (okresu, w którym liczba aktywnych odsyłaczy zmniejszy się o połowę), przed i po naprawie wadliwych linków. Testowano je korzystając z kilku technik statystycznych (test Pearsona (chi-kwadrat), analiza korelacji r-Pearsona, p-wartość).

Analiza zebranych danych wykazała m.in., że z 1930 odsyłaczy online, 69,02% było aktywnych, a pozostałe 30,98% nie było już dostępne w czasie testowania; zanotowano też związek między wiekiem cytowań a aktywnością linków prowadzących do cytowanych źródeł, jednak korelacja ta nie była statystycznie istotna. Przy pomocy Wayback Machine udało się odzyskać dostęp do 48,33% stron i stwierdzić, że starsze odsyłacze były mniej stabilne niż te publikowane w ostatnich latach, jednak również w tym wypadku korelacja nie była istotna statystycznie. Najpopularniejszym typem błędu (56,52%) okazał się HTTP 404 (page not found) – w tej kategorii udało się też odzyskać najwięcej (62,98) odnośników, a wśród znalezionych źródeł najwięcej było tych, których adres składał się z mniej niż 20 znaków; najpopularniejszym formatem cytowanych prac okazał się HTML (1207), a w dalszej kolejności – PDF (416). Obliczony średni czas połowicznego zaniku odsyłaczy wyniósł 5,4 lat, co oznacza, że po 5 latach i 4 miesiącach dostęp do połowy materiałów cytowanych w badanych 3 czasopismach zostanie utracony; dla odzyskanych cytowań okres ten wydłużył się do 11, 73 lat, poza 3. potwierdzono więc tym samym także 4. hipotezę.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>