Fejk głosy czają się za winklem

Agnieszka Słodownik

Kanadyjska firma Lyrebird potrzebuje tylko jednominutowej próbki dźwięku, by tworzyć wypowiedzi, które nigdy nie wybrzmiały

Pamiętacie fejkowe wideo Baracka Obamy, wygenerowane przez naukowców z laboratorium Uniwersytetu Waszyngtońskiego? Dziś powiedzmy sobie o fejkowym głosie.

W 2016 roku firma Adobe – produkująca oprogramowanie do edycji zdjęć, montażu dźwięku i wideo – pochwaliła się na swojej dorocznej konferencji MAX projektem VoCo. Project VoCo potrzebował wówczas dwudziestominutowej próbki głosu, aby móc na jej podstawie generować nieistniejące wcześniej wypowiedzi. Wystarczyło zmienić treść wypowiedzi w okienku tekstowym, by sfotoszopować, czyli poprawić nagranie audio.

Project VoCo Project VoCo

Zeyu Jin, który prezentował projekt w San Diego, zmieniał na żywo wcześniej nagraną wypowiedź. Najpierw przestawiał kolejność wypowiadanych słów („Pocałowałem moje psy i moją żonę” na „Pocałowałem moją żonę i moje psy”), a potem kompletnie zmienił jej sens („Pocałowałem Jordana trzy razy”). Możliwość stworzenia wypowiedzi, która nigdy nie miała miejsca, wywołała śmiech i oklaski ze strony publiczności. Jedynie współgospodarz konferencji, komik Jordan Peele, żartobliwie nazwał Zeyu Jina szarlatanem i zapytał, co jeśli ta technologia dostanie się w niepowołane ręce. Jin miał gotową, przynoszącą otuchę odpowiedź. „Sprawdziliśmy już, jak zapobiec oszustwom, na przykład za pomocą znaków wodnych. Z jednej strony pracujemy nad tym, aby wygenerowany głos był nieodróżnialny od prawdziwego, z drugiej – nad tym, aby był on wykrywalny”. Które nagrania mają mieć owe znaki? Prawdziwe czy wygenerowane? Jak Adobe będzie ścigać się z samym sobą, aby idealna imitacja była jednocześnie rozpoznawalna? Przez kogo?

 

Dopiero w komentarzach do wideo z konferencji ludzie kpią z ewidentnej propagandy sukcesu: „jasne, na pewno nie będzie nadużyć. Wcale :D”. I boją się: „nagle sądy wypełnią się dowodami na rzeczy, których się nigdy nie powiedziało”, „to się dostanie do polityki i przyniesie wiele szkód”.

Wyobrażam sobie pewne walory tego oprogramowania w montażu dźwięku – ktoś się przejęzyczył, można to naprawić, jakby cofnąć czas.  Jednocześnie trudno nie myśleć o tym rozwiązaniu w kategoriach kolejnego narzędzia do tworzenia alternatywnej rzeczywistości, w której każdy cyfrowy ślad jest podejrzany o bycie wytworem czyjejś wyobraźni. Niczemu, co znajdzie się na ekranie bądź w słuchawkach, nie będzie można już zaufać.

Minęły już dwa lata, a oprogramowanie VoCo nadal nie zostało wypuszczone. Może doskonalą znaki wodne. Tymczasem…

Lirogony to ptaki, które według Wikipedii występują wyłącznie w Australii. David Attenborough pokazuje w programie BBC Wildlife, że lirogony potrafią nie tylko naśladować dźwięki innych gatunków, ale mogą także sfingować odgłos migawki aparatu fotograficznego, alarm samochodowy czy odgłos piły mechanicznej. Kanadyjska firma Lyrebird, która od owych stworzeń bierze swoją anglojęzyczną nazwę, potrzebuje tylko jednominutowej próbki dźwięku, by generować wypowiedzi. Jak piszą jej twórcy na stronie internetowej w dziale „Etyka”:

Nasza technologia jest póki co bardzo młoda, ale prawdopodobnie bardzo szybko się rozwinie i będzie w powszechnym użyciu już za kilka lat – to nieuchronne.

To nieuchronne. Rozwoju technologii nie da się zatrzymać, nawet jeśli zdajemy sobie sprawę, że negatywne konsekwencje jej działania najprawdopodobniej przewyższą pożytki. Lyrebird mówi – głosem Baracka Obamy – o pomocy ludziom, którzy w wyniku choroby stracili głos.

 

Na Twitterze @Lyrebird dominuje zastosowanie rozrywkowe nowej technologii. Użytkowników bawi możliwość posłuchania się w wersji cyfrowej – w wygenerowanych niedoskonałych próbkach mowy, póki co bardzo słychać ich komputerowość. Na razie rozwiązanie Lyrebird obsługuje jedynie język angielski (najlepiej działa z kopiowaniem akcentu amerykańskiego). @hennis na Twitterze sugeruje firmie pracę nad odtworzeniem wymarłych języków, aby dać nowym pokoleniom szansę obcowania z nimi.

Twórcy Lyrebird zdają sobie sprawę z kontrowersji, które budzą. Wracamy na podstronę „Etyka”:

Kluczowe pytanie, to jak wprowadzić tę technologię w świat w najlepszy z możliwych sposobów, aby zminimalizować ryzyko nadużyć na tyle, na ile jest to możliwe. Za najlepszą postawę uważamy:

  • po pierwsze, uświadomić opinię publiczną o istnieniu takiej technologii poprzez opublikowanie próbek cyfrowych głosów Donalda Trumpa i Baracka Obamy;

  • po drugie, chcemy dopilnować, by twój cyfrowy głos był tylko twój. Jesteśmy strażnikami twojego głosu, ale ty masz kontrolę nad jego użyciem: nikt nie może go użyć bez twojej wyraźnej zgody.

Wyobraź sobie, że decydujemy się w ogóle nie upubliczniać tej technologii. Ktoś inny mógłby stworzyć ją i rozwijać. Kto wie, jakie byłyby jego intencje: mógłby na przykład sprzedać ją konkretnej firmie lub organizacji mającej złe zamiary. Natomiast nasza technologia udostępniana jest każdemu i wprowadzamy ją stopniowo, aby społeczeństwo mogło się do niej zaadaptować i wykorzystać jej zalety, zapobiegając jej negatywnym skutkom.

Techno-przeznaczenie wypełnia się, a my możemy się do niego co najwyżej zaadaptować, zawczasu okopać się na pozycjach, przyzwyczaić. Dla mnie to jednak przede wszystkim początek nowej duchologii. Głosy, własne i innych, oderwane od ciała i sytuacji dziejących się teraz, będą krążyć i nawiedzać nas w miejscach, momentach i okolicznościach, których się nie spodziewamy. Ja często mam wrażenie, że coś ktoś kiedyś powiedział. Wkrótce to wrażenie poparte zostanie wiarygodnie brzmiącymi nagraniami z pogmatwanego cyfrowego pseudoarchiwum.

Jednak dla dobra ludzkości postanowiłam poddać się eksperymentowi i jako wasz dwutygodnikowy szczur doświadczalny mówię do was tu Foucaltem, a tu Szekspirem. Aby tego dokonać, założyłam konto na Lyrebird i nagrałam ponad 30 zdań po angielsku. Niektóre z nich były dziwne, na przykład:

I never saw that car before in my whole life. That hole in the wall was too small for him to fit through.

Lyrebird twierdzi, że w każdej chwili mogę usunąć swoje nagrania. Jednak po dwóch dniach z nosem w transmisji zeznań Marka Zuckerberga przed Kongresem Stanów Zjednoczonych jakoś nie do końca wierzę firmie Lyrebird.

***BONUS TRACK: Donald Trump mówi po koreańsku!!!!