Biblioteka Narodowa używa na swojej stronie plików cookies. Brak zmiany ustawień przeglądarki oznacza zgodę na ich użycie. [zamknij]

Archiwum Twittera w Bibliotece Kongresu: teoria i praktyka

Autor: Małgorzata Waleszko,

Kategorie: Źródła informacji, Biblioteki jako kolekcje, Działalność biblioteki, Dostęp do publikacji

Tagi: , , , , , ,

Zostaw komentarz

W kwietniu 2010 r. przedstawiciele Biblioteki Kongresu i popularnej platformy mikroblogowej Twitter ogłosili, że każdy publiczny wpis opublikowany od czasu jej powstania w 2006 r. będzie mógł być przez bibliotekę archiwizowany elektronicznie i stanie się częścią narodowego archiwum cyfrowego, uznając tym samym historyczne i kulturowe znaczenie treści rozpowszechnianych za pośrednictwem tego medium. Plany rozwoju repozytorium wszystkich publicznych tweetów (krótkich wiadomości sieciowych zawierających do 140 znaków), ze względu na swój potencjał badawczy, rozbudziły duże nadzieje w środowisku naukowym, jednak mimo upływu 5 lat od zapowiedzi jego powstania, pozostaje ono nadal niedostępne. W artykule przeanalizowano przyczyny, które utrudniły planową realizację tego projektu, przybliżono także dotychczasowy stan badań wykorzystujących zbiory danych Twittera oraz narzędzia do ich gromadzenia i analizy.

Twitter ma ponad 284 mln aktywnych użytkowników, badanie ich aktywności może dostarczyć więc wielu cennych informacji nt. wykorzystania i zastosowań nowych kanałów komunikacji i ich wpływu na społeczeństwo i kulturę. Zgodnie z zawartą w 2010 r. umową, BK miała zarchiwizować udostępnione przez Twitter archiwum treści powstałych między marcem 2006 r. a kwietniem 2010 r.; poza tym, właściciele portalu zgodzili się na regularne dostarczanie Bibliotece wszystkich ukazujących się po tym okresie wpisów (w tym czasie ich liczba przekraczała 500 mln dziennie, a przekazane archiwum liczyło ponad 170 miliardów tweetów), z kolei BK – na udostępnianie publicznych wpisów z 6-miesięcznym opóźnieniem i na ściśle określonych warunkach (bez możliwości masowego pobierania „znaczącej” części archiwum z ogólnodostępnej strony Biblioteki, i z przestrzeganiem zasady przyznawania dostępu wyłącznie naukowcom działającym w dobrej wierze i pisemnie akceptującym warunek niekomercyjnego wykorzystania tego zasobu i zakaz jego redystrybucji w całości lub części).

BK udostępniła jak dotąd publicznie niewiele szczegółów dotyczących stanu realizacji projektu i możliwych terminów jego zakończenia. W 2012 r., w odpowiedzi na pisemne pytania autora, informowała o kontynuacji prac nad technicznymi aspektami implementacji warunków porozumienia z Twitterem, w tym procedurami dostarczania materiału badaczom, oraz o zarchiwizowaniu 80 terabajtów danych (ponad 120 miliardów wpisów). Na początku 2013 r., ogłosiła publicznie, że zakończyła przyjęcie pełnego archiwum z lat 2006-2010 i przygotowała bezpieczny i stabilny mechanizm otrzymywania i zachowywania na bieżąco (codziennie) strumienia danych Twitttera, dostarczając szczegółowych informacji nt. strategii i procesu ich przetwarzania za pośrednictwem API firmy Gnip. Do czasu powstania artykułu (styczeń 2015 r.) naukowcy nadal nie otrzymali jednak dostępu do zarchiwizowanych materiałów, a Biblioteka zasugerowała konieczność stworzenia partnerstw publiczno-prywatnych, by przezwyciężyć techniczne i infrastrukturalne ograniczenia utrudniające zapewnienie zainteresowanym wglądu w zachowywane dane.

Przyczyny tak długiego opóźnienia w budowie tego systemu archiwizacji są złożone i wiąże się je nie tylko z z olbrzymim rozmiarem, złożonością i ciągłym rozwojem archiwum (obecnie Twitter przetwarza ponad 500 mln tweetów dziennie) oraz dużą liczbą metadanych towarzyszących każdemu wpisowi (ponad 100 pól opisu), lecz również z unikalnymi wyzwaniami w bibliologicznej i informatologicznej perspektywie. Wyzwania te podzielono na dwie kategorie: 1) problemów praktycznych, dotyczących sposobu przetwarzania, organizacji i katalogowania tweetów, ich fizycznego przechowywania oraz skutecznych metod ich wyszukiwania; 2) kwestii teoretycznych, związanych z określeniem zasad prowadzenia i udostępniania archiwum (zakresu kontroli dostępu i ograniczeń treści i wolności intelektualnej oraz ogólnych zagadnień etycznych (ochrony prywatności i praw użytkowników). Wskazano, że choć biblioteka wypracowała szereg technicznych rozwiązań dla problemów praktycznych, kwestie polityki i regulacji (w tym zapewnienia użytkownikom jakiejkolwiek formy kontroli nad własnymi treściami zachowywanymi w repozytorium, w tym możliwości usuwania z niego postów) pozostają nadal w dużej mierze nierozstrzygnięte; zasugerowano też wykorzystanie wytycznych dotyczących open access i ochrony prywatności użytkowników, zawartych w kodeksach etycznych ALA (American Library Association) i SAA (Society of American Archivist), i zacieśnienie współpracy środowiska bibliotecznego z sektorem prywatnym i ekspertami z zakresu polityki informacyjnej, etyki i ochrony danych, by rozwiązać krytyczne kwestie sporne blokujące otwarcie archiwum dla społeczności naukowej.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>