W obronie danych: Zmyślone cele
adafruit / CC BY-NC-SA 2.0

11 minut czytania

/ Media

W obronie danych: Zmyślone cele

Holger Schott Syme

Tajemnicą do rozwikłania nie są sekrety języka, tylko działań wydawców, cenzorów, archiwistów i kolekcjonerów. Algorytmy nie są ostatecznym rozwiązaniem tych wszystkich zagadek. Ale nikt chyba nigdy nie twierdził, że miały nim być

Jeszcze 3 minuty czytania

Tekst Stephena Marche’a „Literatura to nie dane”, to atak na pisarzy i akademików. Albo na cyfrowych humanistów. Albo na algorytmy (uznane przez Marche’a za „faszystowskie”). To bardzo dziwny, niespójny i pełen błędów esej.

Zacznijmy od dziwacznej opowieści o Google Books. Marche zestawia w niej „otwartość i uczciwość inżynierów” ze „zwartymi szeregami ludzi pióra”. Biedne Google, które chce udostępnić nieodpłatnie wszystkie książki albo przynajmniej umożliwić ich przeszukiwanie, kontra „świat literatury”, który samolubnie „odrzuca dar digitalizacji”. Jeśli wierzyć autorowi, walka o Google Books toczy się pomiędzy grupą dobrodusznych innowatorów, nastawionych na praktyczne rozwiązania a koterią „pisarzy i badaczy”. Wspomina co prawda o tym, że proces przeciwko Google wytoczyła nie tylko Gildia Pisarzy, ale także Stowarzyszenie Amerykańskich Wydawców, natychmiast jednak o tym zapomina. Korporacje w jego opowieści mogą być tylko dobre: rozwiązują problemy. A pisarze i myśliciele są źli, ponieważ „tworzą problemy, zamiast je rozwiązywać”.

To oczywiście bzdura. Taka sama jak twierdzenie, że to „badacze” stanowili główne źródło oporu wobec szlachetnej misji demokratyzacji wiedzy, zaproponowanej przez Google. Marche ma zapewne świadomość, że tylko nieliczni akademicy zarabiają jakiekolwiek pieniądze na swoich publikacjach. Wydaje mi się, że większość z nas cieszyłaby się, gdyby ich teksty były powszechniej dostępne, zamiast tkwić w kosztujących po sto dolarów czasopismach, zamkniętych w uniwersyteckich bibliotekach. Ci, którzy najostrzej sprzeciwiali się projektom Google, to autorzy zagrożeni utratą tantiem oraz ich wydawcy.

Reakcje

Opublikowany na łamach „Los Angeles Review of Books” esej Stephena Marche’a „Literatura to nie dane: przeciw cyfrowej humanistyce” wywołał burzliwą dyskusję w Stanach Zjednoczonych i liczne reakcje, wiele z nich krytycznych. Publikujemy dwie z nich: autorstwa Scotta Seliskera literaturoznawcy z Uniwersytetu Arizony oraz Holgera Schotta Syme'a historyka teatru i literatury z Uniwersytetu Toronto.

Istotne jest również twierdzenie Marche’a, że to Google jako pierwsze wpadło na pomysł zdigitalizowania światowych zasobów literackich. To oczywiście nieprawda. Strona Internet Archive od 1996 roku, czyli znacznie wcześniej niż Google, publikuje kolejne teksty. Ich ogólnodostępne zasoby liczą już prawie trzy miliony tytułów. Nieprawdą jest również twierdzenie, że „do współpracy [z Google Books] przystąpiło pięć największych światowych bibliotek”. Żadna z nich tego nie zrobiła. Kilka dużych bibliotek wyraziło wstępne zainteresowanie projektem (Harward i Nowojorska Biblioteka Publiczna, czyli trzecia i czwarta największa biblioteka w Stanach). Nie uczestniczą w nim jednak żadne istotne Biblioteki Narodowe, w związku z czym większość działań skupia się wokół literatury anglojęzycznej.

Marche wykpiwa niechęć badaczy do „uczciwej pracy” i twierdzi, że wolą tkwić „w starych modelach publikacji” – modelach, które najwyraźniej nie służą rozpowszechnianiu tekstów. Przyznam szczerze, że w ogóle nie wiem, o co mu chodzi. Przez ostatnie dwie dekady olbrzymia rzesza badaczy starała się, by jak najwięcej rzetelnych tekstów zaistniało w sieci, pracując nad tym na własną rękę lub we współpracy z takimi firmami jak Google. To, że Marche znajduje prawdziwego naukowego ducha na korytarzach Googlepleksu, samo w sobie jest wielce wymowne. Opowiadając o Google Books, pomija całkowitym milczeniem interesy wydawców, a jego portret korporacji, toczącej heroiczną walkę o powszechny i bezpłatny dostęp do zasobów wiedzy, przemilcza komercyjne podejście Google do digitalizacji. Jako że każdy heros potrzebuje jakiegoś antagonisty, Marche wymyśla sobie ogarniętego zabójczym lenistwem, uporczywie konserwatywnego akademika, który przeciwstawia się idei udostępniania dóbr intelektualnych.

Pomimo tego, że Marche uznaje antynowoczesność za jedną z najważniejszych cech współczesnego akademika, ma sporo do powiedzenia o olbrzymim wpływie wywieranym ponoć przez digitalizację zasobów na badania naukowe. Rolę przykładową odgrywa w jego tekście strona EEBO – Early English Books Online. Marche zdaje się nie mieć świadomości, że dostęp do EEBO wymaga wykupienia kosztownej subskrypcji, a większość z opublikowanych na stronie tekstów była dostępna pod postacią mikrofilmów na długo przed nastaniem internetu. Nie wie również, że narzędzia umożliwiające przeszukiwanie tekstów na stronie EEBO powstały dzięki wysiłkom uczestników programu Text Creation Partnership, non-profitowej koalicji stu pięćdziesięciu bibliotek z całego świata, która zamierza już wkrótce nieodpłatnie udostępnić efekty swoich działań. (Inaczej mówiąc, EEBO to przedsięwzięcie komercyjne, obliczone na zysk, a dostęp do niego jest ograniczony, podczas gdy TCP działa na zasadach akademickich i zamierza udostępniać swoje zasoby na zasadach wolnego dostępu).

Prawdą jest, że zaszły pewne zmiany. Ci, którzy mają to szczęście, że pracują w instytucjach opłacających subskrypcję EEBO, mogą zapoznać się z o wiele większą ilością materiału bez ruszania się z domu. Dokładnie tak jak ci, którzy pracują w bibliotekach posiadających dostęp do kompletu starych mikrofilmów STC. Badacze nie przestali jednak odwiedzać archiwów. Nie ulega wątpliwości, że istnieje powiązanie pomiędzy dostępnością zdigitalizowanych tekstów a zwiększeniem zainteresowania badaniami manuskryptów. Przyjmując cyniczną perspektywę, można by stwierdzić, że podróżowanie w celu zobaczenia jakiegoś manuskryptu lub kopii danego dzieła, to przecież doskonała motywacja do podjęcia badań naukowych. Patrząc zaś idealistycznie, zauważamy, że działalność takich serwisów jak EEBO pozwala badaczom na o wiele dokładniejsze przeszukiwanie archiwów, niż było to wcześniej możliwe. Tak czy inaczej, archiwa na całym świecie wciąż odgrywają znaczącą rolę.

W innym miejscu Marche pisze „Desakralizacja literatury dokonuje się również dzięki stylometrii, analizie wzorców stylu literackiego”. Można tak powiedzieć. Ale stylometria nie ma żadnego związku z Google Books. Ani z internetem (co mógłby wypomnieć autorowi piętnastowieczny stylometra Lorenzo Valla). Jedynym przykładem sukcesu stylometrii przytoczonym przez Marche’a jest odkrycie wkładu Thomasa Middletona w „Tymona Ateńczyka”. Teza ta pochodzi z nieopublikowanego doktoratu R.V. Holdswortha, powstałego w 1982 roku. Streszczenie dyskusji wokół tej teorii można znaleźć w książce Briana Vickersa „Shakespeare as Co-Author”, wydanej w 2002 roku, na dwa lata przed digitalizacją pierwszych książek przez Google.

Potężna salwa odpalona przez Marche’a w początkowych partiach tekstu jest o tyle zaskakująca, że jego celem jest SPRZECIW wobec cyfrowej humanistyki. Przez połowę eseju wychwala Google Books, podkreśla zalety EEBO i nowej, zinternetyzowanej stylometrii, potępiając jednocześnie stetryczałych, powolnych naukowców za to, że nie chcą wziąć udziału w tej rewolucji. Jak dla mnie wygląda to na całkiem skuteczną obronę cyfrowej humanistyki, zwłaszcza jej wersji korporacyjnej.

Później jednak Marche znajduje sobie kolejny zmyślony cel. Choć akademicy są godni pogardy ze względu na swoje konserwatywne przywiązanie do papieru i niechęć do dzielenia się wiedzą, ich otwarci na cyfrowe nowinki koledzy są jeszcze gorsi, nie przyjmując do wiadomości szczególnego statusu literatury. „Literatura nie może być traktowana jako zbiór danych. Literatura to przeciwieństwo danych”. Jest to prawdziwe tylko wtedy, gdy nie rozumiemy, czym są „dane”.

Wątpię, by ktokolwiek wymyślił oprogramowanie zdolne wytłumaczyć, jak działają wielkie dzieła literackie (i mam nadzieję, że nikt tego nie zrobi). Jeśli kiedykolwiek uda się opracować program, zdolny dokonać kompleksowej analizy każdego tekstu, jaki do niego wprowadzimy, wykładowcy literatury przestaną być potrzebni. Podobnie jak autorzy – w końcu maszyna zdolna rozpracować tajemnicę literatury zapewne będzie w stanie naśladować akt twórczy; jak doskonale wiedzieli członkowie średniowiecznych gildii, odkrywszy raz jakąś tajemnicę, można ją odtwarzać w nieskończoność. Z tego co wiem, nikt jak na razie nie próbuje zdemistyfikować literatury za pomocą cyfrowych narzędzi.

Dziedziną, która może najmocniej skorzystać na „czytaniu z oddali” opartym na analizie wielu danych jest historia literatury – choć Marche wyobraża sobie, że „Proces przekształcania literatury w dane niweluje (…) całą historię danego dzieła”. Ma jednak rację, twierdząc, że podejście skupione na danych eliminuje wpływ „gustów”, moim zdaniem to akurat dobra rzecz. Historia literatury oparta na gustach to historia pisana przez zwycięzców. Innymi słowy – zła historia.

„Znaczenie jest rozdrobnione”, pisze Marche, nie bez racji. Kontemplacja i podejście krytyczne to dobre narzędzia do odnajdywania głębszych znaczeń poetyckiego wersu. Znaczenie i wpływ historycznych zjawisk w literaturze staną się jednak jasne dopiero wtedy, gdy zgromadzimy jak najwięcej danych – spojrzymy z dystansu na ich rozwój, przyjmując jak najszerszy kontekst, uzyskany właśnie dzięki kontekstowej analizie danych, która oferuje neutralną perspektywę. Łatwo ją zgubić, zajmując się kwestiami „gustu” i pragnieniem „subtelności”.

Marche zdaje się również myśleć, że „dane” w jakiś sposób implikują „kompletność”. Zauważa, że „literatura jest nieodwracalnie niekompletna”. Z tego, co rozumiem, chodzi mu o to, że nie wszystkie dzieła dotrwały do naszych czasów. Nie wiadomo jednak, dlaczego powinniśmy się tym przejmować. Żaden zbiór danych nie jest kompletny. Jako kontrprzykłady Marche podsuwa statystyki baseballowe i prawo. Wydaje się nie wiedzieć, że w obu tych przypadkach mamy do czynienia z niekompletnymi zbiorami. Statystyki baseballowe dopiero w ostatnich latach stały się bardziej szczegółowe i wyrafinowane, a wiele danych historycznych nie poddaje się analizie z powodu braku odpowiednich informacji. Zaś pomysł, że „Jesteśmy w stanie zbudować nawet taką bazę danych, która będzie zawierała wszystkie akta wszystkich spraw sądowych z całego świata” to czysty absurd. Podobnie jak każda ludzka działalność, akta sądowe również są przepisywane i przekazywane, podlegają redakcji, są skracane i ulegają zniszczeniu. Nie ma w tym niczego wyjątkowego, tak samo dzieje się z literaturą. Każdy analityk jest doskonale zaznajomiony z pracą na niekompletnych i niewiarygodnych zbiorach danych.

Nieokreśloność literatury czy też jej niekompletność to żaden kłopot. Dużo gorszy jest brak metadanych, dodatkowych informacji, które pomagają naświetlić status i genezę tych tekstów. Tajemnicą do rozwikłania nie są tajemnice języka, tylko sekrety działań wydawców, cenzorów, archiwistów i kolekcjonerów. Algorytmy nie są ostatecznym rozwiązaniem tych wszystkich zagadek. Ale nikt chyba nigdy nie twierdził, że miały nim być.

Przekład MS

Cykl tekstów dotyczących kultury cyfrowej powstaje we współpracy z Centrum Kompetencji ds. Digitalizacji Narodowego Instytutu Audiowizualnego.

Artykuł pochodzi z „Los Angeles Review of Books” (wydanie z 2 listopada 2012).