W razie wypadku / Media / dwutygodnik.com

ANNA DESPONDS: Na Międzynarodowym Festiwalu Filmów Dokumentalnych w Amsterdamie wraz z Halseyem Burgundem pokazaliście instalację „In Event of Moon Disaster”.

FRANCESCA PANETTA: Praca jest poświęcona świadomości deepfake’ów. Przedstawia świat, w którym lądowanie na Księżycu 50 lat temu zakończyło się katastrofą. Stworzyliśmy immersyjną instalację, w której widz przenosi się do lipca 1969 roku. Wchodzi do salonu, na szafce stoi telewizor z lat sześćdziesiątych. Odbiorca naciska guzik i na ekranie pojawia się relacja z lądowania na Księżycu. Astronauci szykują się do drogi, wsiadają do rakiety Apollo 11, startują, lecą w kosmos, wszystko idzie, jak trzeba. Wtem uruchamia się alarm z godziny 12.02, co rzeczywiście się wydarzyło. Komputer pokładowy był przeciążony. W instalacji narracja jest jednak skonstruowana tak, że ma się wrażenie, że alarm wyzwala lądownik księżycowy Eagle, który nieoczekiwanie zaczyna spiralnie schodzić w dół w stronę Księżyca. Wiemy, że coś poszło nie tak, ale dla odbiorcy pozostaje niejasne, co się dokładnie wydarzyło: czy astronauci rozbili się? czy zginęli? A może wylądowali na Księżycu i nie mogą już wrócić? To zresztą było realne ryzyko misji Apollo 11: jeden z największych zagrożeń stanowiła niemożność powrotu na statek kosmiczny, który krążył z astronautą Michaelem Collinsem wokół Księżyca i czekał na resztę załogi. Lądownik zaczyna spadać i następuje cięcie. Transmisja w telewizorze przenosi się do Białego Domu. Widzimy, jak Richard Nixon, ówczesny prezydent USA, przygotowuje się, by przemówić do narodu. Sięgnęliśmy po oryginalny tekst, który na wypadek katastrofy przygotował jeden z pisarzy Nixona, Bill Safire. Przy użyciu technologii deepfake stworzyliśmy półtoraminutowy film z przemówieniem, którego na szczęście Nixon w rzeczywistości nigdy nie musiał wygłosić.

Oprócz filmu na projekt składa się również przestrzeń fizyczna.
Chcieliśmy, aby instalacja przypominała amerykański dom z tamtego okresu. W salonie stoją meble z epoki, na ścianie jest tapeta z lat sześćdziesiątych, na półkach postawiliśmy książki związane z kosmosem i Księżycem. Wydrukowaliśmy też kopię instrukcji użytkowania statku, którą astronauci zabrali ze sobą na misję. Na ścianach wiszą dwa ekrany, początkowo wyglądają jak fotografie, ale z czasem obrazy zaczynają ożywać. W telewizorze lecą zapętlone reklamy z tamtego czasu. Wydrukowaliśmy też gazetę, w której można znaleźć informacje o projekcie, o naszej pracy z algorytmami i fałszywych filmach, ale też o awarii czy o tym, kim był Bill Safire.

Lądowanie na Księżycu to wielki krok dla ludzkości. Dlaczego wykorzystujecie je do opowiadania o deepfake’ach? Skąd akurat ten temat?
Wiele deepfake’ów ma charakter komiczny czy polityczny, dużo jest pornografii. Chcieliśmy pokazać, jak można je wykorzystać w szerszym społecznym kontekście, do przepisania na nowo historii. Szukaliśmy uniwersalnego wątku, który nie polaryzowałby momentalnie odbiorców, a wszyscy raczej lubią kosmos. Lądowanie na Księżycu jest również jednym z przełomowych współczesnych wydarzeń. Lubimy pytać: „Gdzie byliście, kiedy Kennedy został postrzelony”, „Gdzie byłaś 11 września?”, „Co robiłeś w trakcie lądowania na Księżycu?”. Chcieliśmy zbadać, co się dzieje, kiedy technologia podważa wiarygodność tych kluczowych zdarzeń. W jaki sposób może zdestabilizować nasze poczucie rzeczywistości. Zastanawia nas też, jakie mogły być alternatywne scenariusze, jak wyglądałaby współczesna historia.

Niektórzy wierzą, że lądowanie na Księżycu było inscenizacją wyreżyserowaną przez Stanleya Kubricka. Badacie zafałszowanie historii, podczas kiedy nie wszyscy nawet dają jej wiarę.
Dokładnie! W stworzonej przez nas gazecie jest zresztą artykuł o teoriach spiskowych związanych z lądowaniem na Księżycu. Pokazujemy w nim deepfaki na tle historycznym, przyglądamy się innym fałszywym narracjom, które od początku towarzyszyły temu wydarzeniu. Jest kilka głównych teorii spiskowych na temat lądowania. Jedna mówi, że flaga wygląda, jakby powiewała na wietrze, a na Księżycu panuje prawie zupełna próżnia. W rzeczywistości astronauci umieścili wewnątrz flagi poziomy pręt. Obawiali się, że zaraz po zatknięciu wywróci się, zdjęcie więc zostało zrobione dosłownie chwilę po tym, jak ją postawili. Stąd wrażenie ruchu. Inna teoria spiskowa dotyczy braku gwiazd na fotografii. Wynika to z kolei z czasu naświetlania zdjęć. W ciągu ostatniego roku pojawiło się wiele artykułów prasowych o tym, że deepfaki różnią się od innych rodzajów dezinformacji. Staramy się pokazać, że jest to tylko kolejna odsłona tego samego problemu.

Francesca Panetta
Artystka i dziennikarka, obecnie dyrektorka kreatywna w Centrum Zaawansowanej Wirtualności na MIT (Center for Advanced Virtuality). Wcześniej przez ponad dekadę pracowała w „The Guardian”, gdzie m.in. prowadziła studio wirtualnej rzeczywistości. Tworzy webdoki, aplikacje geolokalizacyjne, doświadczenia w rozszerzonej i wirtualnej rzeczywistości. Jest autorką pionierskich i wielokrotnie nagradzanych prac dziennikarskich na przecięciu reportażu, nauki i sztuki, które poruszają społecznie zaangażowane tematy. Jej prace pokazywane były m.in. w Białym Domu, na festiwalach w Cannes, Sundance czy Tribeca. Stypendystka Fundacji Niemana w 2019 roku na Harvardzie.W gazecie piszecie też o tym, że można odróżnić deepfake od prawdziwego filmu, przyglądając się detalom, np. obserwując rozmycia przy linii szczęki czy synchronizację dźwięku z ruchem ust. Niewiele się to różni od wypatrywania gwiazd na zdjęciu z Księżyca, aby sprawdzić, czy nie jest fałszywe. Jak funkcjonować w świecie, w którym nie możemy ustalić, że to, co widzimy, jest prawdą?
Inżynierowie twierdzą, że w ciągu najbliższych 6–12 miesięcy sztucznie generowane filmy staną się na oko nieodróżnialne od prawdziwych. Jedyne, co będziemy mogli zrobić, to sprawdzać wiarygodność źródła. Ważna jest więc przede wszystkim świadomość deepfake’ów. Samo uzmysłowienie sobie, że istnieją, pozwala krytycznie odnieść się do napotkanych materiałów.

Koledzy z wydziału mediów społecznych na MIT, m.in. Ethan Zuckerman, podkreślają, że fake newsy czy propaganda to nic nowego. Wraz z internetem zwiększyło się tylko prawdopodobieństwo, że się na nie natkniemy. Dziś po prostu dociera do nas przez różne kanały wiele wiadomości z nieznanych nam źródeł, a 20 lat temu istniało jedynie wąskie grono dystrybutorów mediów.

Fałszywe wiadomości można natomiast było pisać od zawsze. Od zarania fotografii modyfikowano zdjęcia, świetnie zdajemy sobie sprawę z manipulacji przy użyciu Photoshopa. My sami, pracując nad projektem, sięgnęliśmy po wachlarz technik, które budują mylny przekaz. Starannie wybraliśmy archiwalne kadry, tak żeby Eagle sprawiał wrażenie, że się rozbił na Księżycu. Przemontowaliśmy dźwięk. Puszczamy fragment filmu od końca, zmieniamy tempo. Deepfaki to tylko kolejna odmiana dezinformacji, z którymi media muszą sobie radzić od stuleci.

W filmie widzimy Nixona, który mówi zupełnie realistycznym, sztucznie wygenerowanym głosem. Jak powstają takie filmy? Czy robi się je tak łatwo, jak się obawiamy?
Zupełnie nie. Produkcja zajęła nam naprawdę sporo czasu, trzy czy cztery miesiące, a filmik trwa półtorej minuty. Współpracowaliśmy z dwiema firmami. Pierwszą jest ukraińska Respeecher , która specjalizuje się w mowie. Wykorzystaliśmy dwie czy trzy godziny oryginalnego głosu Nixona czytającego przemówienia, głównie o Wietnamie. Materiał został pocięty na tysiące maleńkich klipów, trwających od 1 do 3 sekund. Spędziliśmy trzy dni z aktorem w studiu, nagrywając króciutkie fragmenty mowy. Puszczaliśmy klip z głosem Nixona, a aktor powtarzał słowa w takim samym rytmie i z tą samą intonacją. Nie udawał jednak prezydenta – powiedziano nam, że tego absolutnie nie powinniśmy robić. I tak siedzieliśmy, puszczaliśmy fragment, nagrywaliśmy głos, powtarzaliśmy to tak długo, aż byliśmy zadowoleni. Wyobraź to sobie! Każde takie nagranie trwało zaledwie od jednej do trzech sekund! Były setki, jeśli nie tysiące kawałków.

IDFA

Międzynarodowy Festiwal Filmów Dokumentalnych w Amsterdamie (IDFA) to największy festiwal kina dokumentalnego na świecie. Odbywa się co roku w listopadzie. Oprócz filmów w sekcji programowej IDFA DocLab pokazywane są projekty wykorzystujące cyfrowe media do opowiadania dokumentalnych historii. Na festiwalu w 2019 roku praca „In Event of Moon Disaster” otrzymała specjalną nagrodę jury w kategorii „Digital Storytelling” za kreatywne wykorzystanie technologii.

Co potem?
Wysłaliśmy materiał do firmy Respeecher, która za pomocą sztucznej inteligencji stworzyła model: cokolwiek aktor powie, będzie brzmieć jak głos Richarda Nixona.

A co z obrazem?
Pracowaliśmy z jeszcze inną firmą, izraelską Canny AI. Tym razem użyliśmy przemówienia, które Nixon wygłosił, ustępując ze stanowiska. Nakręciliśmy naszego aktora, jak je czyta. Następnie Canny AI podmieniła w nagraniu Nixona wymawiane słowa – w zasadzie polega to na przeniesieniu samego ruchu ust, bez wykorzystania rzeczywistych fragmentów twarzy czy wizerunku aktora. Wygląda to, jakby Nixon wypowiadał wybrany przez nas tekst. Każda kartka, którą przewraca, mruganie oczami czy skinienie głową są natomiast takie same, jak w początkowym materiale, ta część się nie zmienia. Czasami ludzie twierdzą, że nasz Nixon za dużo mruga lub wygląda na zbyt ożywionego, a to akurat są elementy oryginalnego nagrania.

Czyli sztuczna inteligencja wcale nie pozwala z łatwością tworzyć deepfake’ów, czego wiele osób się obawia.
Na razie fałszywego wideo, które nie wyglądałoby jak podróbka, nie można stworzyć łatwo i szybko. Istnieją gotowe aplikacje, które podmieniają twarze, ale nie dają przekonujących efektów. Zależało nam na wiarygodnym rezultacie, dlatego zdecydowaliśmy się na współpracę z najlepszymi firmami i nie spieszyliśmy się.

Jak twoim zdaniem będzie się rozwijać ta technologia?
Deepfaki będzie można robić coraz łatwiej i szybciej, ale nie wiem, jaka będzie następna technologia dezinformacji.

A jaka będzie następna technologia do opowiadania historii?
Zajmuję się tak zwanym immersyjnym storytellingiem od dekady. Obecnie można zauważyć lekkie zmęczenie wirtualną rzeczywistością. Coraz trudniej znaleźć środki na produkcję VR, dystrybucja wciąż jest trudna. Nadal jestem podekscytowana możliwościami opowiadania historii, jakie daje wirtualna rzeczywistość, ale jeszcze trochę potrwa, zanim będzie można ją z łatwością tworzyć i oglądać. Z kolei twórcy rozszerzonej rzeczywistości wciąż próbują zrozumieć, do czego AR może się przydać.

Wywodzę się z radia, bardzo interesuje mnie więc audio AR. Wiele lat temu założyłam firmę, która tworzyła geolokalizacyjne aplikacje dźwiękowe. Wspólnie z inną producentką stworzyłyśmy serię dokumentów radiowych rozgrywających się w przestrzeni. Słuchacz eksplorował okolicę z telefonem i słuchawkami na uszach i poznawał nielinearne historie. Robiłyśmy to przez siedem lat, do czasu, aż uwaga branży przeniosła się na interaktywne dokumenty, a potem na VR.

Jak rozpoznać deepfake?

Technologia wciąż się zmienia, ale obecnie kilka sygnałów może wskazywać, że mamy do czynienia ze sfałszowanym wideo:
1. Zbyt mało mrugania oczami: zdrowy dorosły mruga co 2–10 sekund, jeszcze częściej, kiedy mówi. W niektórych fałszywych filmach ludzie mrugają rzadziej. Jest to wynik trenowania systemów na niedostatecznej liczbie obrazów osób z zamkniętymi oczami.
2. Zmiany koloru skóry, w szczególności na brzegu twarzy, przy linii włosów i szczęki.
3. Twarz nieostra w ruchu, szczególnie powolnym; nienaturalny ruch.
4. Słaba synchronizacja obrazu z dźwiękiem.
Jeśli masz wątpliwości:
– porównaj wideo z innymi, pochodzącymi z zaufanego źródła: czy głos brzmi dziwnie? czy gesty osoby są takie same?
– oglądaj deepfaki – oglądanie wysokiej jakości filmów, o których wiesz, że nie są prawdziwe, pozwala wytrenować oko i przypomina o tym, jak skuteczna i groźna może być technologia.
Na podstawie artykułu „How to Spot a Deepfake” J.J. Otto z gazety „The Informer” towarzyszącej instalacji „In Event of Moon Disaster”.

Wspomniałaś o rozszerzonej rzeczywistości dźwiękowej. Czym jest audio AR?
W moich pracach wyglądało to tak: wyobraź sobie, że spacerujesz po jakimś miejscu, twój telefon wie dokładnie, gdzie jesteś, dlatego może odtwarzać dźwięk specyficzny dla danej przestrzeni. Innym rodzajem audio AR jest na przykład ukierunkowany dźwięk. Słuchacza otacza muzyka, dajmy na to, kwartetu smyczkowego, którego każdy członek znajduje się w określonym miejscu. Gdziekolwiek się obrócisz, wiolonczela zawsze jest tu, a skrzypce tam.

Audio AR wydaje mi się kolejnym krokiem w opowiadaniu historii. Dźwięk jest naturalny, nie ingeruje w interakcje z otoczeniem, ale je rozszerza. Słuchać można w ruchu. Obecnie na rynku pojawiają się okulary AR, czyli okulary z wbudowanymi głośnikami, reagujące na głos. Pozwalają m.in. słuchać muzyki, odbierać i wykonywać połączenia telefoniczne. Częściowo pewnie będą wykorzystywane prozaicznie, do podawania recenzji knajpy, obok której właśnie przechodzimy. Ale mają też potencjał łatwego tworzenia i odbioru historii, bez słuchawek i dodatkowych sprzętów.

Wiele osób twierdzi, że audio to przyszłość interakcji. Też tak myślisz?
Jesteśmy przyzwyczajeni do komunikacji werbalnej, audio może być wygodne, szczególnie bez słuchawek. W domu mam zarówno Alexę, jak i Google Home – wciąż nie wiem, jak w pełni z nich korzystać. Używam budzika, minutnika, prognozy pogody, słucham wiadomości. Ale zasadniczo moje radio jest bardziej niezawodne niż Alexa. Interakcja jest wciąż bardzo trudna, wyszukanie czegokolwiek niezwykle problematyczne. Patrzysz na tę rzecz i zastanawiasz się, co masz powiedzieć, żeby cokolwiek odnaleźć. Zresztą w połowie wypadków urządzenie i tak cię nie zrozumie albo odpowie bez sensu. Mam nadzieję, że z czasem to się zmieni.

Masz wykształcenie muzyczne, byłaś związana z radiem BBC, spędziłaś ponad dekadę w „The Guardian”, teraz pracujesz na MIT. Patrząc z tej szerokiej perspektywy, jak myślisz, jaka przyszłość czeka media, nie tylko pod względem technologii, ale też środków przekazu?
Nie jestem wielką fanką futuryzmu i mówienia, że za pięć lat wszystko będzie wyglądać tak czy siak, ale z pewnością krajobraz medialny nie pozostanie taki sam. Obecnie najważniejsze wyzwanie dotyczy przyszłości finansowania mediów. Starsze organizacje potrzebują nowych modeli biznesowych, aby móc dalej działać. Mam szczerą nadzieję, że je znajdą. Rozmawiałyśmy o walce z dezinformacją. Zaufane źródła są w niej kluczowe, choć nie muszą to być organizacje z długą tradycją. Nadal wierzę w wysokiej jakości dziennikarstwo, dobrze wyszkolonych dziennikarzy, którzy mogą nam pomóc zrozumieć świat, potrafią pociągnąć ludzi, rządy i korporacje do odpowiedzialności. „Nowe modele biznesowe” brzmią niesamowicie nudno, ale tego właśnie potrzebujemy.

Jeżeli Alexa zacznie działać lepiej, to pewnie więcej będziemy korzystać z dźwięku. Już dziś można zauważyć tę tendencję, przyglądając się długim formom dziennikarskim. Codzienny podkast „New York Timesa”, The Daily, trwa 25 minut, czyli nieszczególnie długo jak na codzienną tematyczną audycję. Teraz wyobraź sobie artykuł w gazecie poświęcony jednemu zagadnieniu, którego przeczytanie zajmuje tyle czasu. Dziś takich tekstów już się nie publikuje. Audio jest natomiast nośnikiem wtórnym, odbiorca może robić jednocześnie coś innego, co pozwala na dłuższe formy.

Zmieniają się wzorce konsumpcji mediów, bo rozwój technologii pozwala korzystać z mediów na nowe sposoby. To trochę jak jajko i kura: technologia musi brać pod uwagę potrzeby użytkowników, ale też potrzeby użytkowników zmieniają się wraz z pojawianiem się kolejnych technologii.

Tekst dostępny na licencji Creative Commons BY-NC-ND 3.0 PL (Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych).