Dziedzictwo kulturowe w kontekście cyfrowego szumu: dziewiętnastowieczne gazety w cyfrowym archiwum
,Kategorie: Biblioteki jako kolekcje, Technologia informacyjna i bibliotekarska, Źródła informacji
Tagi: archiwa cyfrowe, auto-segmentacja, Biblioteka Narodowa Szwecji, biblioteki narodowe, digitalizacja, dokumenty elektroniczne, druk, gazety, masowa digitalizacja, OCR, Szwecja, teoria transformacji mediów
Możliwość komentowania Dziedzictwo kulturowe w kontekście cyfrowego szumu: dziewiętnastowieczne gazety w cyfrowym archiwum została wyłączona
Biblioteka Narodowa Szwecji (BNS) realizuje od 2010 r. program masowej cyfryzacji historycznych szwedzkich gazet, traktując go w pierwszej kolejności, ze względu na ograniczenia oprogramowania do konwersji tekstu, jako zadanie związane z ochroną dziedzictwa kulturowego, a nie zapewniania dostępu i pełnej możliwości przeszukiwania digitalizowanych tekstów. Pierwszym tytułem, którego wszystkie egzemplarze przeniesiono w całości w formę cyfrową, był Aftonbladet – pismo założone w 1830 r. i znajdujące się w XIX wieku w czołówce najpopularniejszych dzienników. W artykule przeanalizowano zbiory tego periodyku z perspektywy teorii transformacji mediów, omawiając różnice między wersjami oryginalnymi i ich cyfrowymi surogatami, przyczyny powstałych rozbieżności oraz ich konsekwencje dla potencjalnych użytkowników. Autorzy skupili się bardziej na funkcjach infrastruktury technicznej, niż na kwestiach reprezentacji i treści, badając cyfrowy szum w bazie Svenska dagstidningar, powstały w efekcie pracy oprogramowania OCR i narzędzi automatycznej segmentacji i korekty tekstu. Przedyskutowali także jego instytucjonalne źródła, przybliżając procedury stosowane w Szwedzkim Centrum Konwersji Mediów (Mediakonverteringscentrum MKC) – placówce dokonującej konwersji historycznych drukowanych gazet na zlecenie BNS, i trudności napotykane przez jego pracowników.
Poszczególne wydania XIX-wiecznych gazet zawierają po kilkaset różnego typu tekstów – artykułów, depeszy, ogłoszeń, notek prasowych itp., drukowanych różną czcionką w kilku (najczęściej od 3 do 8) ściśle zapełnionych kolumnach, zawierających również elementy graficzne. Ich reprodukcja w formie czytelnej maszynowo jest więc dużym wyzwaniem, gdyż oprogramowanie błędnie interpretuje wiele liter, łączy wyrazy z różnych kolumn, litery ze znakami interpunkcyjnymi, symbolami i liczbami, itp. W efekcie – przeszukując bazę przy użyciu określonego słowa kluczowego, można nie znaleźć wielu zawierających go artykułów, można też odkryć obecność ciągów tekstowych będących zlepkiem różnych słów i znaczników. Aby sprawdzić złożoność i skalę tego problemu w badanym zbiorze oraz typy pojawiających się błędów, mających wpływ na efektywność wyszukiwań, przeanalizowano pliki XML z Aftonbladet z lat 1830-1863 (ok. 10 tys. 4-stronicowych numerów, których zawartość tekstową połączono w jeden korpus by ułatwić filtrowanie poprawnych i błędnych słów). Z Szwedzkiego Banku Literatury – repozytorium sprawdzonych i wiarygodnych cyfrowych wersji szwedzkiej klasyki, pozyskano 200 tekstów z lat 1820- 1890, tworząc, dla porównania, korpus 370 unikalnych, poprawnych wyrazów. Następnie, wybrano 500 tys. słów najczęściej występujących w gazetach i nieobecnych w korpusie referencyjnym, by skupić się na najbardziej „zanieczyszczonej” części zdigitalizowanego zbioru.
Ustalono, że cyfrowa kolekcja Aftonbladet zawiera olbrzymie ilości „szumów”: miliony błędnie odczytanych przez OCR słów i miliony fragmentów tekstu błędnie wyedytowanych przez program do autosegmentacji. Wyszukując w zbiorze testowym np. słowo telegraf z odległością Levenshteina równą 3 uzyskano 590 różnych jego wersji (sama pierwsza litera „t” była interpretowana przez OCR jako 29 różnych znaków), a wiele z nich powstało w wyniku połączenia przez oprogramowanie segmentujące odciętych fragmentów tego wyrazu z innymi fragmentami, np. z równoległej kolumny. Aby zlokalizować próbę takich podzielonych niewłaściwie bloków tekstu, przeszukano bazę przy użyciu 590 wersji „telegrafu” i 400 wersji „elektrisk” (elektryczny) jako słów kluczowych. Znaleziono i odczytano ręcznie 1250 bloków, przy czym żaden z nich nie odpowiadał tekstowi opublikowanemu w wersji źródłowej gazety (część zawierała kilka pogrupowanych razem odrębnych wiadomości, część była efektem podziału dłuższych artykułów na mniejsze fragmenty, bądź połączenia fragmentów tekstu z sąsiadujących kolumn).
W celu lepszego zrozumienia specyfiki procesu digitalizacji i przyczyny tak dużej liczby napotkanych problemów, autorzy odwiedzili MKC, obserwując wszystkie etapy konwersji, w tym pracę z narzędziem segmentacyjnym Zissor i programem ABBYY do korekty jakości OCR. Wskazali m.in. na ograniczoną możliwość dostosowania tych narzędzi do lokalnych potrzeb (w tym ustalania warunków korekty czy wprowadzania większej liczby instrukcji) ) oraz brak znajomości zasad ich działania wśród personelu, co wpływa na jakość uzyskiwanych wyników. Zwrócili uwagę, że procedury skanowania w MKC koncentrują się głównie na tworzeniu wysokiej jakości plików graficznych, a nie wygenerowanej komputerowo, odpowiedniej tekstowej zawartości. Podkreślili też ryzyko związane ze zlecaniem przez biblioteki zadań digitalizacyjnych podmiotom zewnętrznym, takie jak utrata kontroli nad jakością cyfrowych kolekcji. We wnioskach stwierdzili, że cyfrowe wersje gazet będą się zawsze różniły od papierowych oryginałów, podobnie jak będą różniły się między sobą poszczególne komputerowe odczyty skanowanych stron. Nie da się tego uniknąć, warto natomiast pracować nad wytycznymi i miernikami jakości, dotyczącymi warstwy tekstowej digitalizowanych dokumentów.