Halo, czy mogę rozmawiać z człowiekiem?
rys. Cyprian Kamil Norwid, źródło: Polona

17 minut czytania

/ Media

Halo, czy mogę rozmawiać z człowiekiem?

Jerzy Stachowicz

Skoro stajemy się rozmówcami cyborgicznymi, hybrydami, to z kim rozmawiamy? Z innymi hybrydami, z automatami?

Jeszcze 4 minuty czytania

Mam znajomych, którzy nie są specjalnie zamknięci w sobie, ale kiedy mają zadzwonić do kogoś, z kim regularnie nie prowadzą rozmów telefonicznych (choć często do nich esemesują) lub, co gorsza, zadzwonić do jakiejś instytucji, by coś załatwić, nagle stają się niesamowicie nieśmiali. Czują ulgę, gdy mogą sprawę załatwić, wysyłając maila lub korzystając z komunikatora.

Też tak macie? Czy witacie z radością każdą możliwość ograniczenia do minimum rozmów telefonicznych z obcymi, chodzenia do okienek i urzędów? Wolicie pisać teksty lub rozmawiać z automatami?  W takim razie to, co wydarzyło się 8 maja w Shoreline Amphitheatre w Mountain View podczas Google I/O powinno wam się spodobać.

Prezentacja usługi Google Duplex sprawiła, że Tim Cook, szef Apple’a, może skręcać się z zazdrości, bo w tym roku jego firma wyraźnie przegrywa w kategorii „najlepszy występ sceniczny na festiwalu technologicznym” (przypomnijmy, że Google I/O oficjalnie nie nosi nudnej nazwy konferencji czy targów, lecz jest „festiwalem deweloperów”). Szef Google’a Sundar Pichai zademonstrował rozmowę telefoniczną, której nagranie błyskawicznie obiegło świat. Rozmowę wykonał nie on, lecz Google Assistant – głosowy pomocnik użytkownika telefonu wyposażonego w system Android.


Wydawałoby się, że to nic nowego – w końcu od czasu Siri takie udogodnienia, w bardziej lub mniej wyrafinowanej formie, pojawiają się w każdym smartfonie. Ba, głosowi asystenci stali się bohaterami popkultury. W „Big Bang Theory” z Siri romansuje nieśmiały Rajesh, a w filmie „Ona” Spike Jonze’a dostajemy poważną (i dającą do myślenia) historię skomplikowanej relacji uczuciowej między człowiekiem a sztuczną inteligencją zaklętą w telefoniczny głos. Jednak prezentacja przeprowadzona przez Pichaia robi wrażenie, bo zdaje się przybliżać fantastycznonaukową wizję Jonze’a.

Dotychczas głosowy asystent służył raczej do przeszukiwania sieci i sterowania telefonem. Usługa Google Duplex sprawia, że Google Assistant może zastąpić posiadacza smartfonu w wykonywaniu niegdyś najważniejszej czynności związanej z telefonem – rozmowy. Na razie przede wszystkim ma pomóc w ustalaniu naszego grafiku – może umawiać nas do fryzjera albo rezerwować stolik w restauracji, co zostało zademonstrowane przez Pichaia. My zlecamy wykonanie jakiejś czynności, a rozmową zajmuje się sztuczna inteligencja.

Od razu pojawili się sceptycy, którzy stwierdzili, że Google gra nieczysto i maszyna dzwoniła do podstawionych ludzi. Nikt jednak nie kwestionował samego faktu rozmowy między człowiekiem a maszyną. A ta rzeczywiście robi wrażenie. Usługa oparta na wykorzystaniu sztucznej inteligencji sprawia, że guglowy asystent nie tylko dzwoni i prosi o rezerwację w zleconym przez użytkownika terminie, ale potrafi doprecyzowywać swoje wypowiedzi, powtarzać zdania i ich fragmenty, jeśli rozmówca czegoś nie dosłyszał. Największy efekt na zebranych zrobiła jednak w sumie prosta sztuczka, która niezwykle uczłowieczała dupleksową rozmowę – nie dość, że cyfrowy głos jest praktycznie nie do odróżnienia od ludzkiego, to jeszcze wydaje się świadomy fatycznej funkcji języka. Duplex podtrzymuje kontakt z „żywym rozmówcą” przez rzucanie różnych „uhm” i „Yes, yhm”.

Czy Google Duplex stanie się powszechnie używaną usługą, a może skończy tak jak Google Glass – jako ciekawostka, której wdrożenie spotka więcej problemów niż tylko technologiczne: prawo, przyzwyczajenia? Na to pytanie chyba nie potrafię w tej chwili odpowiedzieć. Warto jednak spojrzeć na Dupleksa jako na część szerszego zjawiska.

W komentarzach pod wideorelacjami z prezentacji Google Duplex obok głosów zachwytu pojawiły się sceptyczne, a nawet przerażone głosy, że oto jesteśmy świadkami końca normalnych relacji interpersonalnych, że „this episode of Black Mirror sukcs” i wkrótce rozmowy telefoniczne zwyczajnie zanikną. AI klienta po prostu zadzwoni do AI fryzjera – odbędzie się piękna rozmowa, której efekty zainteresowane ludzkie jednostki dostaną np. formie tekstowego powiadomienia. To sytuacja ekstremalna i mogąca przerażać tę większość ludzkości, która nie ma na swoich usługach konsjerża czy sekretarki. Dodatkowy dreszcz może pojawić się, jeśli wyobrazimy sobie, że obie strony takiej rozmowy są właściwie „guglem” – może więc to nie będzie dialog? Może po prostu Google opanuje wszystko? To jednak pieśń (niedalekiej) przyszłości, która może nie wybrzmieć. Nie oznacza to jednak, że wujek Google i nieustanne korzystanie ze smarfonów nie zmieniły już naszych rozmów.

Jakieś 30 lat temu słownikowa definicja rozmowy jako „wzajemnej wymiany myśli za pomocą słów” wydawała się w miarę jasna. Rozmowa kojarzyła się przede wszystkim z komunikacją za pomocą głosu, najczęściej twarzą w twarz (rozmowa telefoniczna była wyraźnie odgraniczona jako inny typ doświadczenia). Wiązała się z przebywaniem w tej samej przestrzeni, bliskością cielesną – by rozmawiać, spotykaliśmy się, patrzyliśmy na siebie. Realizowaliśmy „orkiestralny model komunikacji” uznający złożoność procesu komunikacji: wielokanałowość, kontekst, uwikłanie we wcześniejsze sytuacje. Albo chociaż znajdowaliśmy się we wspólnej audiosferze telefonicznej. Jeśli rozmawialiśmy, to na jeden temat z dość wąskim gronem rozmówców. Nikt nie prowadził dziesięciu rozmów jednocześnie. Nikt nie próbował wspomagać się automatami, by rozmawiać wydajniej. Pisanie nie było tożsame z rozmową. Wszystko zmieniło się wraz z nadejściem mobilnej sieci. Zdaniem Sherry Turkle, amerykańskiej psycholog zajmującej się relacjami ludzi z technologią, jesteśmy świadkami kresu tradycyjnej rozmowy – tej twarzą w twarz, nastawionej na empatię, przebywanie z drugim człowiekiem, wzajemne szukanie porozumienia.

Użytkownicy smartfonów są always-on i przebywają w przestrzeniach hybrydowych – są jednocześnie wpięci do sieci i znajdują się na ulicy, w parku, w pracy, w domu. Komunikują się głosowo, piszą esemesy, czatują – z osobami znajdującymi się metr od siebie i na drugim końcu świata. Modny termin „hybrydowy” pasuje nie tylko do określenia przestrzeni i technologii (w hybrydowych przestrzeniach suną hybrydowe auta, a kobiety mają hybrydowe paznokcie). Niemiecki językoznawca i specjalista od lingwistyki komputerowej Henning Lobin, opisując dzisiejsze praktyki pisania i czytania, również sięga po kategorię hybrydowości. Uważa on, że nasze pisanie i czytanie jest coraz mocniej sprzężone z technologią. Piszemy jednocześnie my oraz algorytmy, programy, sztuczna inteligencja itp. Czytamy, ale też czytają z nami programy do optycznego rozpoznawania znaków (OCR), administratorzy serwisów społecznościowych, AI itd. Sama czynność czytania tekstu cyfrowego staje się złożonym, niemal cyborgicznym (a już na pewno cybernetycznym) procesem – bez odpowiedniego hardware’u i software’u stajemy się cyfrowymi analfabetami. Automatyzacja pisania (i czytania), zapoczątkowana przez maszyny do pisania i pierwsze procesory tekstu staje się coraz powszechniejsza. Jednak nie chodzi tu tylko o pisanie i czytanie.  To wszystko przekłada się na sposób, w jaki rozmawiamy. Rozmowa twarzą w twarz albo słuchawką w słuchawkę jest tylko jednym z wariantów komunikacji. Zamiast mówić możemy pisać, możemy też jednocześnie pisać i mówić.

Janina / Kajetan Obarski

Google w swojej podstawowej funkcji wyszukiwarki według mnie dawno stał się jednym ze wspomagaczy konwersacji i czynników wpływających na rozmowę. Prowadząc taką wspomaganą guglem konwersację, sięgamy co jakiś czas do wyszukiwarki, by podeprzeć się cyfrowym autorytetem. Zdobyć przewagę, zaimponować. W przeprowadzonych kilka lat temu przeze mnie badań wynikało, że zazwyczaj nie zdajemy sobie z tego sprawy, jak często „podpieramy się guglem”. Dla większości moich rozmówców korzystanie z wyszukiwarki było czynnością „przezroczystą”, niedostrzegalną. W końcu, po chwili namysłu przyznawali: „Jak siedzę ze znajomymi na piwie, zawsze w końcu pojawia się pytanie typu: «A jak się nazywał ten gość od tego filmu, kurwa, no wiesz…». W takim i podobnych temu przypadkach wkracza wujek Google”.

Jednak podstawowym narzędziem osób permanentnie podłączonych do sieci stały się rozmaite tekstowe komunikatory, esemesy. Dzięki nim prowadzimy nieustanny dialog z otaczającymi nas w przestrzeniach hybrydowych osobami – czasami jest to dialog bliski epistolografii – rozciągnięte w czasie rozmowy trwające dniami, tygodniami, miesiącami, a czasami rozmowy osadzone mocno w kontekście otaczającego nas świata, codziennych, małych spraw. Pamiętam, kiedy podczas studiów w pewnym momencie zacząłem rozmawiać z moim współlokatorem przez komunikator (niezapomniane GG). Choć dzieliła nas jedynie ściana, rozmawialiśmy na głos i jednocześnie pisaliśmy. W końcu przywykliśmy do takiej wielokanałowej, hybrydowej rozmowy. Rozmowy zapośredniczone, choćby częściowo, przez pisanie słów na ekranie wykorzystują właśnie owo pisanie hybrydowe, zautomatyzowane, coraz częściej wspomagane przez sztuczną inteligencję lub choćby bazę gotowych zwrotów. Chyba każdy z posiadaczy smartfona korzystał z technologii predictive text podczas pisania tekstowych wiadomości, która podpowiada nam kolejne słowa albo całe zwroty i „uczy się”, analizując naszą tekstową aktywność albo pozwala, żeby telefon „sam” odpisał, kiedy nie mogliśmy odebrać połączenia. Możemy też próbować zupełnie zautomatyzować nasze tekstowe rozmowy, korzystając z darmowych narzędzi do tworzenia czatbotów.

Skoro stajemy się rozmówcami cyborgicznymi, hybrydami, to z kim rozmawiamy? Z innymi hybrydami, z automatami?  W sumie coraz mniej możemy być pewni.

Google Duplex wydaje się więc logiczną kontynuacją tendencji do hybrydyzacji rozmowy – tym razem tej, można powiedzieć, klasycznej. Podobnie jak wcześniejszy gadżet Google’a, czyli Pixel Bud – słuchawki, które miały być realizacją marzenia wielu pisarzy SF – urządzenia na żywo tłumaczącego rozmowy w różnych językach.

Dla niektórych te udoskonalenia komunikacji są bardzo irytujące, ale trudno powiedzieć, czy przyczyną irytacji nie jest jedynie ich marne działanie, które zestawiamy z naszymi wyobrażeniami płynącymi z popkultury (filmy SF) i publicznych prezentacji nowych produktów. W końcu jednak większość z nas przyzwyczaja się do cyfrowych „pomocników” konwersacyjnych, a nasze rozmówcze praktyki ulegają przemianom, których często nawet nie zauważamy. Rozmawiamy i guglamy jednocześnie, piszemy i mówimy do tych samych osób jednocześnie. Sieć pozwala nad tym zapanować, a równocześnie konstrukcja interfejsów zdaje się zachęcać do multitaskingu. No właśnie, ale znów pojawia się pytanie, czy to jeszcze my rozmawiamy – a może nowe istoty cyborgi, w które się przemieniamy, kiedy cyfrowe narzędzia stają się częścią naszego zestawu tożsamościowego (tak jak wcześniej ubrania, fryzury, biżuteria). Przecież już od dawna technologia rozmawia za nas z innymi i pozwala nam mówić, kiedy jesteśmy niedostępni, jesteśmy offline – wystarczy wspomnieć automatyczne sekretarki, poczty głosowe, autorespondery w mailach.

Zapośredniczona cyfrowo komunikacja – czaty, serwisy społecznościowe – pozwala nam na poczucie bliskości i nieustannego kontaktu z innymi, zwłaszcza odkąd spopularyzowały się smartfony, ale to tylko iluzja. Jak ogłosiła Sherry Turkle w swojej przedostatniej książce, jesteśmy po prostu „samotni razem”. Z jednej strony rośnie intensywność cyfrowych form kontaktu, zwłaszcza tych tekstowych, z drugiej – jak wskazują przytaczane przez nią przykłady – jest coraz mniej okazji, żeby siąść naprzeciwko drugiej osoby, spojrzeć jej w oczy, odbyć szczerą rozmowę, poznać kontekst wypowiedzi, brzmienie głosu, mimikę twarzy, gesty. W dobie smartfonów skupienie się na dłużej na jednej osobie jest przecież nieekonomiczne – skoro prowadzimy tyle rozmów naraz, to nie możemy sobie pozwolić na takie „przestoje”, bo nie będziemy na czasie, bo skupiając się na tu i teraz, zgubimy poczucie hybrydyczności przestrzeni, przywrócimy stary podział offline – online. A przecież właśnie kontekst i skupienie na jednej osobie pozwala poznać swojego rozmówcę. Owszem, różnica między pisanym i mówionym słowem wydaje się zacierać – wszystko traktujemy jak rozmowę, a tekst jak wiadomo wyjaławia kontekst albo poszukuje tekstowych, graficznych odpowiedników, zastępników kontekstu – stąd wysyp memów, emoji, czy słynna kropka nienawiści. Zwolennicy komunikacji zapośredniczonej smartfonem będą twierdzić, że dynamiczna tekstowo-obrazowa komunikacja elektroniczna stała się już mocno ukontekstowiona i nie trzeba spoglądać w czyjeś oczy, by poznać jego emocje i nastroje. Wystarczy spojrzeć, jakie błędy robi jego słownik, jakich emoji i skrótów używa. To pisanie skupione na tu i teraz.

Fanpedź Kropka nienawiści.Fanpedż „Kropka nienawiści.”

Smartfony nie dają więc nam o sobie zapomnieć (pamiętacie skargi na facebookowego Messengera, że w telefonie nie można go w prosty sposób wyłączyć, wyciszyć powiadomienia?). Sieć walczy o naszą uwagę – w końcu to przemysł uwagi. Osoby always-on nie rezygnują więc z ciągłego kontrolowania powiadomień w smartfonie, nawet kiedy umawiają się z kimś na kawę właśnie po to, żeby pogadać. Rozmawiają z nami, ale jednocześnie rozmawiają z kimś innym. Łatwiej plotkować niż prowadzić poważne rozmowy. Cyfrowa sieć dała plotce, obeldze niesamowity potencjał – możemy rozmawiać i obmawiać w tym samym momencie. Prowadzimy swoiste metarozmowy. Słuchamy zwierzeń przyjaciółki, a jednocześnie komentujemy je i zdradzamy ich treść przyjacielowi. Brzmi dziwnie? Ale jeśli się zastanowicie, to zauważycie, że każde z was miało podobne sytuacje.

Przemiany rozmowy, jej utekstowienie i automatyzacja prowadzić też mogą w inną stronę – do tego, że stajemy się bardziej refleksyjni, nasze cyfrowe „ja” staje się, jak twierdzi Turkle, edytowalne.  Odpowiedzi na czaty i esemesy są bardziej przemyślane, a nawet jeśli są nieprzemyślane, to pozwalają nam na ciągły wgląd w przeszłość – stajemy się własnymi terapeutami, a konwersacja zaczyna przypominać pisanie dziennika intymnego w celu samodoskonalenia lub sesję u psychoanalityka. Analizując swoje rozmowy, świadomie budujemy swój (nie tylko) cyfrowy wizerunek. Turkle, sama będąca psychologiem, nawet tu widzi zagrożenia. Coraz wygodniej nam ukrywać się za technologią, zarządzać swoimi słowami i wizerunkiem, wyłączając lub kontrolując cały kontekst. Kontrola rozmowy pozwala nam czuć się bezpiecznie w czasach internetowego hejtu. To sprawia, że, zdaniem Turkle, prawdziwa rozmowa staje się coraz trudniejsza, jest wydarzeniem coraz bardziej intymnym, a co za tym idzie –  trudnym. Mając coraz więcej narzędzi, wybieramy więc esemes albo czat, a nie intymną wideorozmowę lub prawdziwą rozmowę w cztery oczy.

Jednak dzięki tego typu udoskonaleniom mamy coraz mniej okazji do treningu umiejętności społecznych, z których jedną z podstawowych jest właśnie rozmowa. Wolimy oddać je w ręce technologii. Nic dziwnego, że Turkle w swojej ostatniej książce „Reclaiming Conversation” podejmuje krucjatę na rzecz przywrócenia starych dobrych praktyk komunikacyjnych.

Z tej perspektywy Google Duplex to kolejna cegiełka w budowli posthumanistycznej rzeczywistości, w której ludzie zatracają podstawową zdolność komunikacji. Uciekają od „zwyczajnej” rozmowy – tej prowadzonej bez wsparcia nowoczesnych technologii, skupionej na komunikacji z drugim człowiekiem. Turkle nie protestuje przeciwko technologii cyfrowej jako takiej, ale przeciwko temu, jak jest projektowana – przeciwko ideologii kalifornijskiej, przeciwko traktowaniu użytkownika jako towaru w wielkim przemyśle reklamowym, przeciwko nazywaniu kreatywnością i wielozadaniowością rozproszenia, dzięki któremu wcale nie jesteśmy wydajniejsi ani bardziej twórczy. Ogólnie można powiedzieć, że Turkle należy do osób, które w pochodzie cyborgizacji widzą niebezpieczeństwo, że to ludzie mogą stawać się coraz bardziej podobni maszynom cyfrowym, a nie odwrotnie. Ile ma w tym racji? Czas pokaże. Widać jednak wyraźnie, że inspirowani fantastyką naukową inżynierowie czasem wydają się nie dostrzegać, że w tym gatunku rzadko mamy do czynienia z utopijnymi wizjami przyszłości, a częściej z ponurymi dystopiami. A może właśnie tę dystopię projektują i są tego świadomi, a robią to w imię zysku?

Duplex teoretycznie ma być narzędziem, które pozwoli nam mieć więcej czasu właśnie na istotne rozmowy, lekturę książki, namysł nad sobą. Sztuczna inteligencja zajmie się załatwianiem spraw, a my będziemy mogli się oddawać sztuce, filozofii, kreatywnemu programowaniu i rozmowom z przyjaciółmi, bo przecież usługa jest reklamowana jako pomoc w wykonywaniu tych najbardziej nudnych telefonów, ale jakoś nie chce mi się wierzyć, że firma z Mountain View zrezygnowałaby z wyświetlania mi reklam i chciała, żebym odłożył swój smartfon.

Tekst dostępny na licencji Creative Commons BY-NC-ND 3.0 PL (Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych).