Matematyka uprzedzeń
Bob May / CC BY-NC-SA 2.0

16 minut czytania

/ Media

Matematyka uprzedzeń

Kamil Fejfer

Sztuczna inteligencja może być pomocna w tworzeniu polityk publicznych opartych na danych. Problem pojawia się wtedy, kiedy zamiast działać na naszą korzyść algorytmy utrwalają płciowe, klasowe lub rasowe uprzedzenia

Jeszcze 4 minuty czytania

Trzeba stać przed lustrem kilka sekund. Najlepiej nie wykonywać gwałtownych gestów, bo algorytm głupieje i trzeba zaczynać od początku. Po kilku sekundach maszyna wypluwa z siebie ocenę twojej atrakcyjności w skali od 1 do 5. Dostałem 3, co mnie szczególnie nie zdziwiło. Ocenie mógł się poddać każdy, kto odwiedził wystawę „Machina Sapiens” podczas tegorocznego Festiwalu Przemiany w Centrum Nauki Kopernik. Praca Jakuba Koźniewskiego odwraca tradycyjny porządek sztuki. To nie odbiorca ocenia dzieło, tylko dzieło ocenia odbiorcę. „Beholder” jest lustrem z wmontowaną kamerą oraz wbudowanym algorytmem, który wyrokuje o urodzie osób wchodzących w interakcję z pracą. Pod pozorami obiektywności kryją się jednak preferencje twórcy dzieła: Koźniewski trenował algorytm „Beholdera” wedle swoich upodobań estetycznych. W tym przypadku to tylko niewinna, intencjonalnie zaprojektowana prowokacja. Ale pokazuje problem z efektami ubocznymi algorytmizacji świata.

W 2016 roku portal Beauty.AI zaproponował konkurs, w którym ludzie przysyłając swoje zdjęcia, mogli przekonać się, jak blisko im jest do rzekomo obiektywnego wzorca „ludzkiego piękna”. Na konkurs nadesłano ponad 6 tysięcy zdjęć ze stu krajów. Spośród nich algorytm wytypował 44 zwycięzców i zwyciężczyń. W tym gronie znalazło się zaledwie kilka osób o azjatyckich rysach twarzy i tylko jedna osoba czarnoskóra. Dlaczego tak się stało? Jak tłumaczył „Guardianowi” Alex Zhanvoronkow z Beauty.AI, algorytmy faworyzowały osoby białe, ponieważ dane użyte do uzyskania „standardu piękna” były tworzone głównie w oparciu o zdjęcia osób o jasnej karnacji skóry.

Badacze z MIT Media Lab i Uniwersytetu Stanforda przeprowadzili badania na trzech komercyjnych produktach służących identyfikowaniu twarzy. Naukowcy nie zdradzają, o jakich producentów chodzi, jednak wiadomo, że algorytmy zostały stworzone przez wiodące firmy ze świata nowych technologii. Producenci systemów twierdzili, że są one bardzo skuteczne. I rzeczywiście tak było: błędne rozpoznawanie twarzy nie przekraczało 0,8% wszystkich prób. Dla białych mężczyzn. Kiedy algorytmy miały rozpoznać ciemnoskóre kobiety, błąd sięgał od 20 do 34%. W niektórych przypadkach odsetek błędów wynosił ponad 46%. Błąd miał podobną genezę, jak w przypadku wzoru ludzkiego piękna: algorytmy „karmiono” zdjęciami głównie osób białych (83% zdjęć), i to w większości mężczyzn (77% zdjęć).

Instrukcje

Algorytm swoją nazwę wziął od nazwiska arabskiego matematyka, astronoma i geografa Muhammada ibn Musa al-Chuwarizmiego żyjącego na przełomie VIII i IX wieku. Zlatynizowana forma jego nazwiska to Algorismus lub Algorithmus. Al-Chuwarizmi rozpowszechnił pozycyjny sposób zapisywania liczb. Jemu też zawdzięczamy termin „algebra”, który pochodzi od tytułu jednego z jego dzieł.

Algorytm jest niczym innym jak instrukcją, czy też procedurą, którą należy wykonać, aby rozwiązać dany problem. Algorytm nie musi być wyrażony w liczbach. Może być instrukcją jazdy samochodem: jeśli chcesz ruszyć, najpierw przekręć kluczyk, wciśnij sprzęgło, wrzuć bieg, odpuszczaj sprzęgło, kiedy samochód zacznie się toczyć, odpuść sprzęgło, dodaj gazu. Każdą z tych czynności można rozbić na mniejsze części składowe i nadać im bardziej szczegółowe wartości. Instrukcja może być również przetłumaczona na język matematyki i programu komputerowego. Każdy program komputerowy jest algorytmem. Właśnie dzięki algorytmicznemu opracowaniu kroków potrzebnych do ruszenia pojazdu oraz rozwiązaniu na podobnym poziomie setek lub tysięcy innych problemów związanych z kierowaniem autem – możliwe są autonomiczne samochody.

Algorytmy stają się coraz ważniejszym tematem publicznych debat, bo rośnie ich realna siła oddziaływania na każdego z nas. Nie tylko decydują o tym, jakie reklamy widzimy w sieci, jakie treści wyświetlają się w naszych wyszukiwarkach i co oglądamy na Facebooku, ale wspomagają również procesy decyzyjne, a właściwie same decydują o tym, czy dostaniemy kredyt, jaką będziemy mieć polisę ubezpieczeniową, czy pracodawca zechce przyjąć nas do pracy.

Coraz większa władza algorytmów bierze się ze zderzenia dwóch trendów: rosnącej mocy obliczeniowej procesorów oraz rosnącej ilości danych, które mogą być analizowane. Tylko Google co sekundę analizuje 40 tysięcy zapytań. Co minutę na Snapchacie pojawia się ponad pół miliona zdjęć, w tym samym czasie użytkownicy oglądają ponad 4 miliony filmów na YouTubie. W minutę pojawia się pół miliona twittów, na Instagramie przybywa 50 tysięcy zdjęć, na Facebooku ponad pół miliona komentarzy, na Tinderze ludzie dokonują prawie miliona „swipów”. W tym samym czasie wysyłają ponad 150 milionów maili. Jedynie kilkadziesiąt milionów maili mniej wysyłają boty. A to przecież tylko część (choć bardzo istotna) naszych cyfrowych śladów. Generujemy informacje, logując się na konta bankowe, pobierając pieniądze, bukując hotele, przeglądając oferty kupna i sprzedaży na internetowych aukcjach. W 2013 roku ludzkość w internecie w ciągu dwóch dni generowała tyle danych, ile od początku swojej historii do 2003 roku. Każda z tych cyfrowych interakcji to zakodowana informacja, którą firmy mogą agregować i analizować.

Magia wielkich danych

Victor Mayer-Schonberger i Kenneth Cukier w książce „Big Data. Rewolucja, która zmieni nasze myślenie, pracę i życie” piszą, że fenomen big data polega głównie na tym, że z ilości (danych) powstaje nowa jakość. Dysponując taką masą informacji i wystarczającą mocą obliczeniową, możemy obserwować rzeczy, których nie mogliśmy zauważyć w mniejszej skali. Aby to zaistniało, potrzebne jest coś, co autorzy nazywają „danetyzacją”. Danetyzacja jest procesem nadawania ustandaryzowanej wartości informacyjnej rzeczom, które wcześniej istniały poza obrębem analiz ilościowych. Procesowi temu może podlegać niemal wszystko, co da się rejestrować i czemu można przypisać jakąś wartość liczbową. Wraz z taniejącą mocą obliczeniową, coraz większą ilością danych i rosnącą liczbą czujników wplecionych w nasze codzienne życie danetyzacji będą poddawane kolejne sfery naszego życia.

Mayer-Schonberger i Cukier przytaczają przykład pracy profesora Shigeomi Koshimizu, który za pomocą big data analizuje… pośladki. Okazuje się, że sposób, w jaki siedzimy – jak rozkłada się nasz ciężar na fotelu – jest czymś bardzo indywidualnym – ma związek z naszą posturą, wagą, systemem kostnym, systemem mięśniowym, kształtem ciała. Wszystko to można umieścić w matematycznym modelu, który nie tylko będzie nas rozpoznawał – w tej opcji pośladki stają się zamiennikiem odcisku palca – ale może również odczytywać nasze zdenerwowanie, znużenie, a nawet to, czy jesteśmy pod wpływem alkoholu. Takie dane mogą być przydatne np. producentom samochodów, którzy indywidualny odcisk pupy potraktują jako dodatkowe zabezpieczenie przed kradzieżą auta. Z kolei nasza pozycja za kierownicą może przydać się do sygnalizowania, kiedy przysypiamy lub kiedy w ogóle nie powinniśmy prowadzić, bo na przykład za dużo wypiliśmy albo jesteśmy zbyt zdenerwowani. W takich sytuacjach auto może się albo automatycznie i bezpiecznie zatrzymać, albo w ogóle nie ruszyć. Innym przykładem podawanym w książce jest wyposażona w czujniki wykładzina. Również ona może wiedzieć, czy w domu jesteśmy my (każdy z nas stąpa w inny sposób), ale także czy ktoś się wywrócił, czy doszło do jakiegoś gwałtownego ruchu, szamotaniny albo bójki. Zastosowania danych są nieograniczone. Podobnie jak błędy w oprogramowaniu.

Mayer-Schonberger i Cukier opisują narzędzie Google Flu Trends, które pomaga śledzić rozwój epidemii grypy w czasie rzeczywistym. Google porównał 50 milionów najczęściej wyszukiwanych fraz z dostarczonymi przez Centrum Zwalczania i Zapobiegania Chorobom (CDC) danymi dotyczącymi rozprzestrzeniania się wirusa grypy w latach 2003–2009. System został zaprojektowany, żeby wyszukiwać korelacje między pojawianiem się choroby i zapytaniami. Po przetestowaniu 450 milionów modeli matematycznych Google znalazł kombinację 45 wyszukiwanych fraz, które dzięki geolokalizacji mogą wskazać miejsca rozprzestrzeniania się wirusa. Po latach funkcjonowania Google Flu Trends okazało się, że w programie jest błąd. Według raportu Davida Lazera z Northeastern University w Bostonie narzędzie zawyżało i zaniżało przewidywania co do liczby osób, które zgłoszą się do lekarza. W latach 2012 i 2013 w USA do lekarza udało się o połowę mniej ludzi, niż wynikało to z prognoz Flu Trends. Skąd taka różnica? Była ona wynikiem sprzężenia zwrotnego w samym Google’u. Kiedy osoba chora wpisywała „gorączka”, wyszukiwarka sugerowała jej „grypę”, co miało wpływ na późniejsze szacunki.

Podejrzane korelacje

Algorytm komputerowy może wydawać się czymś obiektywnym i pozbawionym uprzedzeń. Program nie czuje, nie ma biologicznych dyspozycji do wykluczania osób spoza swojej grupy, nie bywa małostkowy i złośliwy, nie socjalizował się w toksycznej rodzinie, nie chowa urazy. Dość długo wśród technooptymistów panowało przeświadczenie, że algorytmy są sposobem na rugowanie ze społecznych procedur rasizmu czy seksizmu. Od kilku lat coraz głośniej mówi się, że algorytmy, choć pozbawione afektu, mogą przejawiać uprzedzenia. Mówiąc precyzyjniej: wyniki ich działania mogą być skażone błędami poznawczymi. Jak to możliwe?

Po pierwsze, wynik działania algorytmu opiera się na danych wejściowych. Widzieliśmy już, w jaki sposób algorytmy trenowane na zestawach zdjęć, w których niedoreprezentowane są mniejszości etniczne, może wpływać na ocenę atrakcyjności fizycznej czy trafność rozpoznawania twarzy. Innym przykładem zjawiska AI bias (błędów poznawczych sztucznej inteligencji) są choćby stosowane przez amerykańską policję algorytmy predykcyjne. Ich zadaniem jest zapobieganie przestępstwom, zanim się wydarzą. Prognozowanie przestępstw opiera się na danych historycznych wskazujących, które miejsca i w jakim czasie są narażone na pojawianie się aktów przemocy czy wandalizmu. Okazuje się jednak, że jeżeli system ma się uczyć na danych historycznych, to będzie powielał uprzedzenia, którymi kierowali się policjanci podczas interwencji. Istnieje wiele dowodów na to, że służby mundurowe w USA – świadomie lub nieświadomie – częściej zatrzymują i legitymują osoby ciemnoskóre. Częściej również, niż wynikałoby to z liczby przestępstw, pojawiają się w kolorowych dzielnicach. Algorytmy predykcyjne trenowane na historycznych danych mają więc wbudowane rasowe uprzedzenia: wyślą policjantów raczej do kolorowej dzielnicy, gdzie nastolatki popalają blanty, niż na domówkę, na której nastoletnie dzieci klasy średniej wyższej wciągają kokainę. Podobne przestępstwo ma więc inne skutki: czarnoskóre, uboższe nastolatki zetkną się z policją i zapewne poniosą karę, podczas gdy białe dzieciaki z zamożnej klasy średniej nie będą niepokojone przez stróżów prawa.

Po drugie, błąd może leżeć już u podstaw samego modelu matematycznego, który ma rozwiązać jakiś problem. Przykładem może być algorytm COMPAS, który w Stanach Zjednoczonych jest używany do prognozowania, czy skazany popełni kolejne przestępstwo. To z kolei przekłada się na wysokość kaucji czy wyroku wydawanego przez sędziów. Organizacja pozarządowa ProPublica analizując wyniki działania algorytmu, doszła do wniosku, że algorytm mylił się na korzyść białych i na niekorzyść czarnoskórych. W grupie skazanych, którzy nie weszli powtórnie na ścieżkę przestępczą, COMPAS przypisywał czarnym dwa razy większe prawdopodobieństwo recydywy niż białym. Algorytm analizuje ankietę zawierającą 137 pytań. Niektóre z nich odnoszą się do tego, czy rodzice skazanego rozeszli się, zanim ten skończył 5 lat, lub jak wielu jego znajomych popełniło przestępstwo bądź było aresztowanych. Wiemy, że osoby czarnoskóre i Latynosi są częściej bezpodstawnie aresztowani niż biali. Już to oznacza, że analiza będzie obarczona błędem. Ponadto działanie algorytmu prowadzi do czegoś w rodzaju odpowiedzialności zbiorowej. System surowiej karze tych, których znajomi mieli konflikt z prawem, chociaż podstawą współczesnych modeli sprawiedliwości jest założenie istnienia odpowiedzialności indywidualnej – karzemy osoby za ich czyny, a nie za czyny ich znajomych. Wokół samej analizy organizacji ProPublica pojawiły się kontrowersje, jednak trudno je jednoznacznie rozstrzygnąć, ponieważ mechanika działania algorytmu COMPAS jest objęta tajemnicą handlową firmy Northpointe, producenta oprogramowania.

Tu pojawia się napięcie między efektywnością analizy danych i sprawiedliwością społeczną. Victor Mayer-Schonberger i Kenneth Cukier podkreślają, że analizy big data w dużym stopniu opierają się na badaniu korelacji, a nie przyczynowości. Choć jako ludzie jesteśmy wyposażeni w psychiczny mechanizm rozpoznawania przyczynowości (co jest powodem jednego z podstawowych błędów poznawczych: często widzimy przyczynowość tam, gdzie jej nie ma), to realnie jest ona bardzo trudna do udowodnienia. Analizując dane, mamy w przeważającej mierze do czynienia z ciągiem korelacji. Jednak kiedy przełożymy analizy korelacji na język sądowych wyroków, to pojawią się problemy. Zapewne rzeczywiście istnieje korelacja między tym, jak często nasi znajomi byli aresztowani, a prawdopodobieństwem naszej recydywy, ale to nie powinno stanowić przesłanki do oceny nas samych. W tego typu przypadkach mamy do czynienia z konfliktem między efektywnością działania prewencyjnego i prawami jednostki. Jeśli zdecydujemy się przechylić szalę w stronę efektywności, to możemy również spodziewać się wystąpienia pętli sprzężenia zwrotnego – surowiej oceniani przestępcy mogą mieć później większą skłonność do popełniania kolejnych przestępstw w imię zasady: „Skoro osądzili mnie za coś, czego nie chciałem zrobić, to dlaczego miałbym tego nie zrobić?”. W tej gmatwaninie pojawia się jeszcze jedna kwestia: całkiem możliwe, że sędziowie opierając się jedynie na własnej intuicji, popełniają znacznie więcej błędów, niż kiedy posiłkują się algorytmami takimi jak COMPAS. I tak, istnieją naukowe dowody na to, że przynajmniej w przypadku grzywien i kaucji osoby ładniejsze mogą liczyć na łagodniejsze traktowanie niż te, które uważane są za mniej urodziwe. Inny interesujący przykład opisuje Daniel Kahneman w książce „Pułapki myślenia. O myśleniu szybkim i wolnym”. Zauważa on, że prawdopodobieństwo pozytywnej lub negatywnej decyzji o zwolnieniu warunkowym jest silnie skorelowane z tym, czy sędzia jest głodny. Im więcej czasu mija od ostatniego posiłku, tym większe prawdopodobieństwo, że decyzja o przedterminowym zwolnieniu będzie negatywna.

Jednostronne szkody

Sztuczna inteligencja przyczynia się do podnoszenia wydajności przedsięwzięć biznesowych i ułatwia życie wielu spośród nas. Może być pomocna również w tworzeniu polityk publicznych opartych na danych. Problem pojawia się wtedy, kiedy zamiast działać na naszą korzyść algorytmy utrwalają płciowe, klasowe lub rasowe uprzedzenia i reprodukują porządek, z którym wolelibyśmy zerwać. To tak jak z wolnym rynkiem: w wielu obszarach funkcjonuje on całkiem sprawnie, w innych wymaga regulacji, ponieważ w najlepszym razie działa suboptymalnie, a w najgorszym po prostu dewastuje środowisko albo tkankę społeczną.

Coraz więcej ekspertów zajmujących się tematyką sztucznej inteligencji uważa, że algorytmy – podobnie jak rynek – powinny zostać poddane instytucjonalnej kontroli. Jeżeli nasze życie w coraz większym stopniu zależy od matematycznych modeli, których nie tylko nie rozumiemy, ale do których, z uwagi na tajemnice handlowe, nie mamy dostępu, to powinna znaleźć się instytucja, która mogłaby nad nimi zapanować. Wraz z danetyzacją coraz większej ilości ludzkiej aktywności rosną korzyści nie tylko po stronie społecznej, ale – być może przede wszystkim – po stronie bogatych firm IT, twórców algorytmów. Źle skrojone albo trenowane w oparciu o błędne dane – algorytmy mogą działać na naszą niekorzyść. Pytanie, czy chętniej zgodzimy się na ich regulacje, czy zaakceptujemy szkody. Głównie po naszej stronie.

Tekst dostępny na licencji Creative Commons BY-NC-ND 3.0 PL (Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych).