Bibliotekarz
Scott Beale, Laughing Squid / CC BY-NC-ND 2.0

12 minut czytania

/ Media

Bibliotekarz

Marcin Wilkowski

Mija 25 lat istnienia fundacji Internet Archive. Od ćwierćwiecza jej założyciel, Brewster Kahle, stara się manewrować między rządzonym regułami cyfrowego kapitalizmu rynkiem a biblioteką wyłączoną z tych reguł

Jeszcze 3 minuty czytania

W internecie poruszamy się po nieustannie zmieniających się ścieżkach, nawigując na podstawie niepewnych punktów orientacyjnych. Kiedy Tim Berners-Lee zaprojektował World Wide Web jako w pełni otwarty hipertekst, nieograniczoną sieć połączeń między dokumentami, nie wziął pod uwagę stabilności tych relacji. Tymczasem rozmaite badania z ostatnich dwóch dekad wskazują, że przeciętna długość życia strony internetowej, publikowanej pod niepowtarzalnym adresem URL, to kilkadziesiąt dni. Na szczęście niektóre zmienione czy skasowane strony wciąż są dostępne w swoich pierwotnych postaciach, ponieważ zostały niezależnie zarchiwizowane.

W tym roku mija 25 lat istnienia fundacji Internet Archive. Od ćwierćwiecza jej założyciel, Brewster Kahle , stara się manewrować między regułami cyfrowego kapitalizmu, który przyniósł mu fortunę, a biblioteką jako przestrzenią w pewien sposób wyłączoną z tych reguł. Dziś jego fundacja nie tylko utrzymuje zaplecze historyczne sieci, ale też działa aktywnie na rzecz jej technicznej zmiany – w kierunku medium, które nie tylko będzie w stanie archiwizować się samodzielnie, ale też zablokuje jakąkolwiek centralizację.

Prywatne – publiczne

Wynalezienie pergaminu, uruchomienie pierwszej prasy drukarskiej, Louis Braille opracowujący swój alfabet, pierwsze strony internetowe w CERN-ie, pierwsze hasła Wikipedii – fundacja Internet Archive przy okazji swojego jubileuszu chce wpisać się w uniwersalną historię dostępu do wiedzy. W opublikowaną na rocznicowej stronie oś czasu, zawierającą odwołania do wyżej wspomnianych wydarzeń, wpisano dwukrotnie rok 1996.

Trzeba przyznać, że w połowie lat 90. propozycja archiwizacji stron internetowych była przełomowa. Sama World Wide Web tworzyło wtedy około 230 tysięcy witryn. Liczba była na tyle niewielka, że wciąż dało się myśleć o skończonym zbiorze i pełnym indeksie. „Spadające koszty przechowywania danych pozwalają na to, żeby trwała kopia Webu mogła zostać zabezpieczona przez niewielką liczbę specjalistów korzystających z małego zestawu stanowisk komputerowych i nośników” – pisał Kahle w „Scientific American” w 1998 roku. Jednocześnie początek drugiej połowy lat 90. był wciąż okresem odkrywania komercyjnego i społecznego potencjału internetu oraz przebudowy struktury jego użytkowników. W zbiorze tym przestali dominować akademicy i techniczni profesjonaliści, do sieci wchodzili hobbyści, przedsiębiorcy, uczniowie.

Podobnie działo się w Polsce. Z jednej strony w 1996 roku Optimus zainwestował 10 milionów USD w Onet, powstawały kolejne strony polskich ministerstw, z drugiej wciąż brakowało systemowych rozwiązań umożliwiających tanią i stałą obecność w sieci. W internecie raczej się bywało. W sierpniu 1996 roku na łamach „Gazety Wyborczej” Roman Imielski opisywał wydarzenie z Tychów: „W siedzibie tyskiej firmy Tab-Tronic można za darmo pobuszować w sieci internetowej. By zasiąść przy komputerze, trzeba jednak czekać kilka godzin. Choć jest dopiero godzina 10, przed drzwiami Tab-Tronica czeka kilkadziesiąt dzieci. W salonie jest tylko siedem komputerów, a jedna sesja trwa godzinę. Ostatni w kolejce mają nadzieję, że zapiszą się choćby na ostatnie zajęcia o 15. Większość przyszła z zeszytami, w których ma spisane internetowe adresy”. Wyzwaniem był nie tylko dostęp do internetu, ale też orientowanie się w tym, co można w nim znaleźć.

W takich warunkach niewielu myślało o tym, co z zasobami online stanie się za kilkadziesiąt lat. Chyba że byli absolwentami MIT, którzy w 1995 roku sprzedali firmie AOL swój system dystrybucji i indeksowania dokumentów cyfrowych (porównywalny do wcześniejszej propozycji Tima Bernersa-Lee). Kahle nie działał przy tym w koncepcyjnej próżni. W artykule w „Scientific American” przywoływał kilka równoległych inicjatyw związanych z zabezpieczeniem zasobów webowych, m.in. działającą w ramach rady bibliotek amerykańskich Komisję ds. Zachowania i Dostępności Zbiorów czy społeczność pracującą nad standardami adresowania zasobów internetowych.

W 1996 roku Kahle wspólnie z Brucem Gilliatem założył firmę Alexa Internet, która miała katalogować zasoby WWW. Nazwa firmy nawiązywała do Biblioteki Aleksandryjskiej. Indeksy rozbudowywane w Alexie stanowiły podstawę archiwizacji stron w Internet Archive – dzięki nim było wiadomo, pod jakie adresy URL wysłać roboty wykonujące kopie. Już wtedy dla Kahle ’a i jego zespołu było oczywiste, że rosnące archiwum sieciowe nie może się rozwijać bez zaplecza komercyjnego. Wiele lat później, budując zbiory Open Library, biblioteki cyfrowej udostępniającej zdigitalizowane książki, Kahle sięgnie po „zamknięte” zasoby projektu Google Books. Publikowane tam książki z domeny publicznej, zeskanowane przez Google, trafią do jego biblioteki pozbawione już znaków wodnych.

W 1998 roku Kahle przekazał dotychczas zebrane dane do Biblioteki Kongresu, a rok później sprzedał Alexę Jeffowi Bezosowi, zainteresowanemu internetowymi indeksami, zawierającymi także dane o popularności określonych stron. Umowa z Amazonem opiewała na 250 milionów dolarów. Kahle postawił jeden warunek: rozwijane przez Alexę indeksy miały być wciąż wykorzystywane do archiwizowania stron w Internet Archive.

Dobry chaos w bibliotece

W wywiadzie udzielonym w 2006 roku Kahle przyznał, że budowa biblioteki cyfrowej zawsze była jego celem. Sam nie ma wykształcenia bibliotecznego, a jego relacje ze światem tradycyjnych bibliotek są złożone. Z jednej strony określa siebie jako „cyfrowego bibliotekarza”, współpracuje szeroko z Biblioteką Kongresu oraz bibliotekami regionalnymi i akademickimi, wspólnie ze środowiskiem bibliotecznym, w ramach Open Content Aliance, krytykował założenia i praktykę masowej digitalizacji zbiorów prowadzoną przez Google (obecnie Google prawie już nie skanuje książek). Z drugiej – jak piszą Deanna Marcum i Roger C. Schonfeld w „Along Came Google: A History of Library Digitization” – nie potrafił się odnaleźć w teoretycznych dyskusjach na temat metod digitalizacji czy standardów opisu dokumentów: „Jego celem było stworzenie kompleksowej biblioteki cyfrowej, a nie branie udziału w rozważaniach na temat względnych zalet tradycyjnych i cyfrowych bibliotek, które wydawały się dominować w środowisku bibliotecznym”.

Brewster Kahle, 2017 / fot. Brad Shirakawa, CC BY 4.0Brewster Kahle , 2017 / fot. Brad Shirakawa, CC BY 4.0

Być może stąd bierze się chaos organizacji zbiorów w Internet Archive: brak konsekwencji w metodach opisu materiałów, otwarcie katalogu na zasoby udostępniane przez użytkowników, specyficzny stosunek do praw autorskich. To koszmar każdego bibliotekarza i archiwisty. Za tę cenę Kahle jest jednak w stanie zapewnić prawdziwie uniwersalny dostęp, nie tylko do tradycyjnych publikacji, ale też tekstów kultury w nowych postaciach: audiobooków i bootlegów, starych gier komputerowych, audycji telewizyjnych, stron WWW.

Efemeryczność tych ostatnich wymagała od archiwistów niemałej aktywności. Między rokiem 1996 a marcem 2000 roku Internet Archive zabezpieczyło około miliarda stron WWW (13.8 TB danych), tymczasem między marcem 2000 a marcem 2001 roku zbiory powiększyły się już do 4 miliardów stron i 40 TB. Dla porównania: podczas tegorocznej wakacyjnej akcji archiwizacyjnej sama tylko Biblioteka Narodowa Luksemburga zgromadziła 28 TB danych, na które złożyło się ponad 200 tysięcy witryn i 200 milionów obiektów. Zbiory webowe Internet Archive to dziś około 619 miliardów stron, do 2016 roku nie udostępniano jednak żadnych narzędzi przeszukiwania tych zbiorów poza wyszukiwaniem po adresie URL. Jak pisze Ian Milligan w „History in the Age of Abundance?”, zbiory Internet Archive są bezcenne, ale również trudne do uchwycenia i wykorzystania.

Na YouTubie dostępne jest wideo z uruchomienia pierwszej akcji archiwizacyjnej Internet Archive. Kahle opisuje sprzęt, potem zwraca uwagę na kontekst polityczny: powinniśmy móc zabezpieczać naszą cyfrową historię równolegle w wielu miejscach, kontrolowanych przez różne władze, a do tego potrzeba organizacji. Kiedy Kahle porównuje Internet Archive do Biblioteki Aleksandryjskiej albo obiecuje dostępność zbiorów „na zawsze”, nie jest łatwo wyczuć, czy rzeczywiście wierzy w swoją dziejową misję, czy to język wykształcony podczas setek prezentacji i wykładów, jakaś wersja PR-owych zagrywek charakterystycznych dla branży technologicznej.


Mimo to wieczyste przechowywanie i uniwersalny dostęp do wiedzy to realne wyzwania: archiwa i biblioteki szukają metody taniego i ekologicznego przechowywania danych (prowadzi się nawet eksperymenty z przechowywaniem danych w DNA) i raczej nie mają problemu z uznawaniem obiektów cyfrowych za dziedzictwo kultury, o które należy zadbać. Idea powszechnego dostępu do wiedzy napędza nie tylko Wikipedię, ale też ruch Open Access czy zwykłe biblioteki osiedlowe.

Ale może bez wielkich słów nie da się dziś robić wielkich rzeczy. Warto przypomnieć, że w 1996 roku archiwizację Webu podjęła nie tylko Internet Archive, ale też biblioteki narodowe w Szwecji i Australii. Ich działania nie miały jednak takiej skali i takiego finansowania jak projekt Kahle ’a. Być może nie dostały szansy na samodzielne stworzenie opowieści o społecznej wadze zasobów rozwijającej się dynamicznie sieci WWW, bo funkcjonowały na marginesie nowego cyfrowego kapitalizmu.

Dla nowego Webu

Brewster Kahle to człowiek grający z kapitalizmem. Z jednej strony startupowiec, przedsiębiorca, człowiek negocjujący z Bezosem jak równy z równym (w latach 90. było to jeszcze możliwe). Z drugiej człowiek stojący za Open Content Aliance (grupą bibliotek i podmiotów komercyjnych, których współpraca przy skanowaniu książek miała stać się alternatywą dla projektu Google Books), nieustannie sprawdzający granice ochrony praw autorskich, czy to przy archiwizowaniu stron WWW, czy w sporze prawnym z wydawcami o National Emergency Library, która podczas pandemii udostępniła do darmowego wypożyczania online 2,5 miliona książek.

W jednym z wystąpień Kahle porównuje archiwizowanie stron WWW do piractwa, przy czym podkreśla, jak różne znaczenia nakłada się na to pojęcie w zależności od tego, kto się nim posługuje. Bez wątpienia prowadzenie największego archiwum internetu to działanie na granicy kapitalizmu i sfery publicznej. Kahle opowiada się tutaj jednoznacznie za wyłączaniem pewnych przestrzeni spoza logiki zysku i rynku, szczególnie kiedy ta zakłada usuwanie zasobów online, jeśli przestają przynosić zyski. Działający przy Internet Archive kolektyw Archive Team od lat archiwizuje zasoby zamykanych serwisów internetowych, platform blogowych czy forów.

Fundacja wspiera też ostatnio prace nad nowymi technicznymi podstawami sieci, pozwalającymi na samoarchiwizację publikowanych zasobów, omijanie pośrednictwa wielkich komercyjnych platform w dostępie do informacji i zapewnianie odpowiedniego poziomu ochrony prywatności użytkowników. Fundacja próbuje rozwiązać dwa wielkie problemy wynikające z oryginalnej koncepcji WWW zaproponowanej przez Bernersa-Lee: brak warstwy historycznej i podatność na centralizację. Dziś, kiedy biblioteki i archiwa na całym świecie prowadzą programy archiwizacji, a techniczną decentralizację sieci proponują społeczności rozwijające protokoły webowe peer to peer (takie jak IPFS) czy rozwiązania wykorzystujące blockchain, Kahle nie musi już działać sam. Jeśli w najbliższych latach uda się naprawić internet, będzie to zasługa wspólnych działań i demokratycznie rozwijanych standardów. Na działających w pojedynkę innowatorów z Doliny Krzemowej nikt już dziś nie liczy.

Tekst dostępny na licencji Creative Commons BY-NC-ND 3.0 PL (Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych).