Demony w krainie cukierków

Piotr Fortuna

Craiyon nieustannie przeczesuje sterty cyfrowych obrazów, zbiera je, rozkłada na kawałki i zgniata w nowe. Dziwność oscylująca między beką a grozą zrobiła z generowanych maszynowo ilustracji viralową sensację

Wpisujesz ciąg słów, które akurat przychodzą ci do głowy, klikasz w symbol kredki świecowej i po mniej więcej minucie mielenia danych dostajesz wizualną sieczkę… pardon, zestaw dziewięciu cyfrowych ilustracji czy też automatycznych przekładów z języka pisanego na obrazy. Potem pobierasz zrzut ekranu i publikujesz go na swojej ulubionej platformie. W ten sposób przyłączasz się do viralowego trendu, który od początku czerwca zaraża dziesiątki tysięcy internautów i z łatwością przenika do społecznościowych feedów. W skrócie tak działa Craiyon, do niedawna DALL-E Mini, dostępna dla wszystkich aplikacja internetowa, utworzona na wzór bardziej zaawansowanych generatorów DALL-E i DALL-E 2 (do których dopuszczeni zostali jak dotąd tylko wybrańcy). Oczywiście pod powierzchnią interfejsu sprawy się komplikują. Bebechy aplikacji składają się z dwóch modeli: jeden odpowiada za analizę języka, drugi – za przetwarzanie obrazu. Magia dzieje się na styku jednego z drugim, kiedy fragmenty wpisanych przez nas wyrażeń zostają algorytmicznie skorelowane z kawałkami zdjęć pochodzących z obszernej, wielomilionowej bazy.

Oryginalna nazwa „DALL-E” wydaje mi się całkiem zgrabna. Łączy personalia Salvadora Dalego oraz pociesznego robota WALL-E ze znanej animacji Pixara. Ma wyrażać ideę ludzkiej kreatywności na technologicznych dopalaczach. Choć trzeba przyznać, że filmowy WALL-E nie reprezentował żadnej potężnej technologii jutra. Był uroczym, niegroźnym, nieco przyrdzewiałym robotem do zbierania i zgniatania śmieci. Przekaz podprogowy jest więc taki, że tej technologii nie trzeba się bać. Ale kontekst wysypiska pasuje też z innych powodów, choćby dlatego, że DALL-E Mini/Craiyon nieustannie przeczesuje sterty cyfrowych obrazów, zbiera je, rozkłada na kawałki i zgniata w nowe formy.

Do tego jakość wyrzucanych przez aplikację materiałów jest śmieciowa. Mają one niską rozdzielczość, zawierają różne błędy przedstawienia, niedorzeczności, zagięcia przestrzeni, rozmazane kontury, poszarpane sylwetki, jakby rozpuszczone kwasem twarze itp. Taki mizerny wygląd ma podobno dawać jasny sygnał, że obrazy są wytwarzane sztucznie, w oderwaniu od rzeczywistości. Utrudniać łudzenie zmysłów i umysłów, np. produkcję fejków, scen drastycznych czy pornograficznych. Z pewnością chodzi także o pieniądze (przede wszystkim koszty rozwijania technologii i utrzymania serwerów przez niekomercyjną na razie inicjatywę). Niska jakość jest ceną za szeroką dostępność. Ceną, dodajmy, w sumie niewysoką, bo wizualne braki są tu jednocześnie największą zaletą. Nieporadność – dziwność oscylująca między beką a grozą, trochę śmieszna, trochę niesamowita – zrobiła z generowanych maszynowo ilustracji viralową sensację.

Jeden z pierwszych popularnych tweetów prezentował serię algorytmizowanych wizerunków brytyjskiej królowej:

Uwagę zwracają przede wszystkim wykoślawione twarze, czasem demoniczne, czasem karykaturalne. Przyjemność, jaka płynie z oglądania tych portretów, jest anarchiczna, bierze się z ośmieszania figury władzy. Jest przy tym swobodna, nieskrępowana, wolna od wyrzutów sumienia, ponieważ występek nie idzie na nasze konto – stanowi przecież dzieło sztucznej inteligencji. Kto wie, może ta inteligencja zna jakieś tajemnice dotyczące Elżbiety II, których my nie znamy? Choćby na temat charakteru ukrytego pod warstwami charakteryzacji (makijażu, stroju, symboli, etykiety)? Ten wciąż świeży, ale historyczny już przykład wydaje się zachowawczy, trzeba by go jakoś podrasować. Dodajmy hot doga:

Craiyon

I parę innych elementów („Jej Wysokość Elżbieta II bierze udział w konkursie jedzenia hot dogów, siedząc na przystanku autobusowym”):

Craiyon

Istnieją całe konta społecznościowewątki na forach poświęcone dziwnym obrazom, które ludzie generują we współpracy z Craiyonem. Podrzucam kilka udanych i wyjątkowo sprawnych plastycznie wytworów, ale zachęcam do scrollowania na własną rękę.

Głowa, która po operacji wygląda zupełnie jak piłka baseballowa:

Myszka Miki jako mikroorganizm pod mikroskopem:

Operacja, podczas której jeden z chirurgów wlewa nutellę do serca:

Oczywiście ja też dyktowałem Craiyonowi najróżniejsze sekwencje słów do zobrazowania. Przy okazji patrzyłem, co ginęło w przekładzie i co się w nim niespodziewanie znajdowało. Duża część frajdy bierze się tu właśnie z odkrywania różnic między pomysłami rodzącymi się w naszych głowach a tym, co się z nimi potem wyprawia na ekranie; z prób zrozumienia, jak „myślą” algorytmy, ale też z rozpoznawania mechanizmów (w tym nieświadomych automatyzmów) naszych własnych myśli, tj. z obserwowania, co dla nas jest oczywistym założeniem, a dla aplikacji – luką do wypełnienia.

Postanowiłem zacząć od rzeczy najsłodszych i najbardziej niewinnych: dzieci, psów, ciastek i cukierków. Mój partner często mówi półżartem, że „dzieci to demony”, mimo to nie spodziewałem się zobaczyć takiego obrazka:

Craiyon

A zwłaszcza tego:

Craiyon

Skoro Craiyon pchnął mnie w kierunku demonów i słodyczy, to poprosiłem go jeszcze o demona w sklepie z cukierkami. Smaczne i chyba niezdrowe:

Craiyon

Dość straszenia. Oto pies i kot tańczące w przestrzeni kosmicznej:

Craiyon

Nawet ładne, choć ciśnienie w kosmosie wyraźnie robi swoje. A tu kolejne pieski i kotki, ale na szczycie ONZ:

Craiyon

Podoba mi się, jak sztuczna inteligencja próbuje najróżniejszych wariantów, jakby usiłując zrozumieć, o co chodzi w moim zapytaniu, przede wszystkim: jaką rolę podczas obrad ONZ mogłyby odgrywać zwierzęta. Przykładowo, czy psy mają siedzieć na stole, za stołem czy pod stołem? Mieć na szyi obroże czy krawaty? Czy są głównymi uczestnikami wydarzenia, a ludzie im tylko asystują, czy na odwrót? Czy raczej występują w roli atrakcji, jak na wystawach psów? Albo zwyczajnie kręcą się pod nogami, czekając, aż „państwo” skończą się naradzać? A może są równorzędnymi partnerami w dyskusji i siedzą w jednym rzędzie z ludźmi, na przemian, w rytmie: pies, człowiek, pies, człowiek? A potem wspólnie przemawiają na konferencji? (Dla porządku pomijam koty wylegujące się na blatach czy wiszące na krawędzi).

Na koniec jeden przykład, który wyszedł jakby serio. Połączenie trzech wklepanych zupełnie od niechcenia wskazówek: Partenon, Degas i obcy:

Craiyon

Wyobrażam sobie, że niektóre z tych ilustracji mogłyby trafić na jakieś stronki z teoriami spiskowymi i robić za niezbity dowód, że starożytne cywilizacje zostały stworzone przez kosmitów. Albo że Degas pochodził z Marsa. Nie wiem, dlaczego przyszedł mi do głowy Degas, dlaczego akurat Degas spośród wszystkich malarzy świata, ale patrzcie tylko! Wystarczy włączyć/wyłączyć myślenie i otworzyć oczy.