Archiwum Twittera w Bibliotece Kongresu: teoria i praktyka

Autor: Małgorzata Waleszko, 19:24 21-07-2015

Kategorie: Biblioteki jako kolekcje, Dostęp do publikacji, Działalność biblioteki, Źródła informacji

Tagi: archiwa internetowe, Biblioteka Kongresu, biblioteki narodowe, cyfrowa archiwizacja, dostęp do publikacji, sieć 2.0, Twitter

Możliwość komentowania Archiwum Twittera w Bibliotece Kongresu: teoria i praktyka została wyłączona

W kwietniu 2010 r. przedstawiciele Biblioteki Kongresu i popularnej platformy mikroblogowej Twitter ogłosili, że każdy publiczny wpis opublikowany od czasu jej powstania w 2006 r. będzie mógł być przez bibliotekę archiwizowany elektronicznie i stanie się częścią narodowego archiwum cyfrowego, uznając tym samym historyczne i kulturowe znaczenie treści rozpowszechnianych za pośrednictwem tego medium. Plany rozwoju repozytorium wszystkich publicznych tweetów (krótkich wiadomości sieciowych zawierających do 140 znaków), ze względu na swój potencjał badawczy, rozbudziły duże nadzieje w środowisku naukowym, jednak mimo upływu 5 lat od zapowiedzi jego powstania, pozostaje ono nadal niedostępne. W artykule przeanalizowano przyczyny, które utrudniły planową realizację tego projektu, przybliżono także dotychczasowy stan badań wykorzystujących zbiory danych Twittera oraz narzędzia do ich gromadzenia i analizy.

Twitter ma ponad 284 mln aktywnych użytkowników, badanie ich aktywności może dostarczyć więc wielu cennych informacji nt. wykorzystania i zastosowań nowych kanałów komunikacji i ich wpływu na społeczeństwo i kulturę. Zgodnie z zawartą w 2010 r. umową, BK miała zarchiwizować udostępnione przez Twitter archiwum treści powstałych między marcem 2006 r. a kwietniem 2010 r.; poza tym, właściciele portalu zgodzili się na regularne dostarczanie Bibliotece wszystkich ukazujących się po tym okresie wpisów (w tym czasie ich liczba przekraczała 500 mln dziennie, a przekazane archiwum liczyło ponad 170 miliardów tweetów), z kolei BK – na udostępnianie publicznych wpisów z 6-miesięcznym opóźnieniem i na ściśle określonych warunkach (bez możliwości masowego pobierania „znaczącej” części archiwum z ogólnodostępnej strony Biblioteki, i z przestrzeganiem zasady przyznawania dostępu wyłącznie naukowcom działającym w dobrej wierze i pisemnie akceptującym warunek niekomercyjnego wykorzystania tego zasobu i zakaz jego redystrybucji w całości lub części).

BK udostępniła jak dotąd publicznie niewiele szczegółów dotyczących stanu realizacji projektu i możliwych terminów jego zakończenia. W 2012 r., w odpowiedzi na pisemne pytania autora, informowała o kontynuacji prac nad technicznymi aspektami implementacji warunków porozumienia z Twitterem, w tym procedurami dostarczania materiału badaczom, oraz o zarchiwizowaniu 80 terabajtów danych (ponad 120 miliardów wpisów). Na początku 2013 r., ogłosiła publicznie, że zakończyła przyjęcie pełnego archiwum z lat 2006-2010 i przygotowała bezpieczny i stabilny mechanizm otrzymywania i zachowywania na bieżąco (codziennie) strumienia danych Twitttera, dostarczając szczegółowych informacji nt. strategii i procesu ich przetwarzania za pośrednictwem API firmy Gnip. Do czasu powstania artykułu (styczeń 2015 r.) naukowcy nadal nie otrzymali jednak dostępu do zarchiwizowanych materiałów, a Biblioteka zasugerowała konieczność stworzenia partnerstw publiczno-prywatnych, by przezwyciężyć techniczne i infrastrukturalne ograniczenia utrudniające zapewnienie zainteresowanym wglądu w zachowywane dane.

Przyczyny tak długiego opóźnienia w budowie tego systemu archiwizacji są złożone i wiąże się je nie tylko z z olbrzymim rozmiarem, złożonością i ciągłym rozwojem archiwum (obecnie Twitter przetwarza ponad 500 mln tweetów dziennie) oraz dużą liczbą metadanych towarzyszących każdemu wpisowi (ponad 100 pól opisu), lecz również z unikalnymi wyzwaniami w bibliologicznej i informatologicznej perspektywie. Wyzwania te podzielono na dwie kategorie: 1) problemów praktycznych, dotyczących sposobu przetwarzania, organizacji i katalogowania tweetów, ich fizycznego przechowywania oraz skutecznych metod ich wyszukiwania; 2) kwestii teoretycznych, związanych z określeniem zasad prowadzenia i udostępniania archiwum (zakresu kontroli dostępu i ograniczeń treści i wolności intelektualnej oraz ogólnych zagadnień etycznych (ochrony prywatności i praw użytkowników). Wskazano, że choć biblioteka wypracowała szereg technicznych rozwiązań dla problemów praktycznych, kwestie polityki i regulacji (w tym zapewnienia użytkownikom jakiejkolwiek formy kontroli nad własnymi treściami zachowywanymi w repozytorium, w tym możliwości usuwania z niego postów) pozostają nadal w dużej mierze nierozstrzygnięte; zasugerowano też wykorzystanie wytycznych dotyczących open access i ochrony prywatności użytkowników, zawartych w kodeksach etycznych ALA (American Library Association) i SAA (Society of American Archivist), i zacieśnienie współpracy środowiska bibliotecznego z sektorem prywatnym i ekspertami z zakresu polityki informacyjnej, etyki i ochrony danych, by rozwiązać krytyczne kwestie sporne blokujące otwarcie archiwum dla społeczności naukowej.

Komentarze wyłączone.

Share

Copy short link