Sztuczna inteligencja

O bocie, który twierdził, że jest chłopcem

eugene

Wiadomością zeszłego tygodnia była informacja o bocie, który potrafił przekonać ludzi, że jest 13-letnim chłopcem z Ukrainy i zdał sławny test Turinga. Momentalnie w mediach pojawiły się, niekiedy bardzo emocjonalne, newsy o tym wydarzeniu. Postanowiłem poczekać, aż sprawa ochłonie i na spokojnie przyjrzeć się, kim jest Eugene Goostman, „cudowne dziecko” z Ukrainy.

Zanim poznamy Eugene’a, przypomnijmy, czym jest test Turinga. Jest to sławny test Alana Turinga, wybitnego brytyjskiego matematyka i pioniera informatyki. Turing poszukiwał dobrego testu sprawdzającego, czy maszyna jest inteligentna. Przebieg testu jest banalnie prosty – maszyna rozmawiając z prawdziwymi ludźmi ma zadanie przekonać ich, że jest człowiekiem. Przez wiele lat test był uznawany za wyznacznik jakości sztucznej inteligencji, a jego zdanie miało być przełomem w rozwoju sztucznej inteligencji.

Poznajmy zatem bohatera wpisu, czyli Eugene’a Goostmana.

Jest to bot napisany przez żyjącego w USA Rosjanina Władimira Wiesełowa oraz Eugena Demczenko – Ukraińca mieszkającego w Rosji. Podczas testów na University of Reading z okazji 60 rocznicy śmierci Turinga ich program zdołał przekonać wymagane 33% sędziów, że jest 13-letnim nastolatkiem z Ukrainy o imieniu Eugene Goostman. I tu swój początek miał medialny boom. Redakcje na całym świecie rozpisywały się o tym wydarzeniu, zastanawiając się jakie będzie mieć konsekwencje.

Ale czy na pewno jest czym się emocjonować?

Krótko po ogłoszeniu wiadomości o zdaniu testu pojawiły się informacje o tym, że nie jest do końca tak, jak wszyscy sądzą. Podważano sprytnie dobraną osobowość bota. Autorzy specjalnie wybrali osobowość nastolatka, aby mógł wiarygodnie ukrywać braki w swojej wiedzy… zwykłą niewiedzą. Nastolatek nie może wiedzieć wszystkiego, więc niektóre błędy mogły być mu wybaczone. Wszelkie literówki i błędy językowe także były wiarygodne, ponieważ nastoletni chłopiec z Ukrainy niekoniecznie musi znać perfekcyjnie język angielski. Na miejscu byłyby również prostsze zdania niż rozbudowane, co trochę ułatwiało zadanie.

Problem w tym, że Eugene czasami nie potrafił udzielić poprawnej odpowiedzi na pytania, które każdy 13-latek zna, lub próbował zmienić temat rozmowy, albo gubił się. Redakcja WIRED zapytała „pochodzącego z Ukrainy chłopca” w jakim mieście mieszka. Odpisał, że w Odessie. Na następne pytanie, czy był na Ukrainie odpisał, że nie. Bot nie potrafił skojarzyć tych dwóch pytań ze sobą i dać spójną odpowiedź. Pojawiały się również inne zapisy z rozmów z Eugene (na przykład tu i tu) pokazujących, że nie jest on zbyt lotnym towarzyszem rozmów. Swoje zdanie wtrącił również Ray Kurzweil, który podzielił się swoją rozmową z Eugene i przemyśleniami na ten temat. Sądzi on, że wkroczyliśmy w okres „przedwczesnych informacji o zdanym teście Turinga”, który przewidywał jakiś czas temu. Według niego Eugene nie jest pierwszym ani ostatnim newsem o zdaniu testu i że będzie coraz więcej fałszywych wyników.

Wątpliwości budzi również sposób przeprowadzenia testu. Na stronie University of Reading można znaleźć opis testu. Głównym warunkiem zdania było przekonanie co najmniej 33% sędziów, że jest się człowiekiem. Dodatkowe warunki były następujące:

Simultaneous tests as specified by Alan Turing
Each judge was involved in five parallel tests – so 10 conversations
30 judges took part
In total 300 conversations
In each five minutes a judge was communicating with both a human and a machine
Each of the five machines took part in 30 tests
To ensure accuracy of results, Test was independently adjudicated by Professor John Barnden, University of Birmingham, formerly head of British AI Society

Już pierwszy punkt jest wątpliwy. Alan Turing nigdzie nie przedstawił dokładnych progów zdania testu. Turing przewidywał, że do 2000 roku maszyny będą w stanie oszukać 30% rozmówców w czasie 5 minutowych rozmów. To były jego przewidywania, a nie dokładne wyznaczniki zdania. Turing opisał tylko ideę testu, który miał zastąpić pełne emocji pytanie „Czy maszyny mogą myśleć?”. Dodatkowo, Eugene ledwo osiągnął minimum do zdania, a próg 33% nie jest zbyt wysoki. Zdarzały się w przeszłości programy, które potrafiły oszukać na krótki moment nawet 60% badanych.

Niektóre osoby, szczególnie ci na co dzień zajmujący się AI, podają w wątpliwość kompetencje składu sędziowskiego. Twierdzą, Eugene został tak zaprojektowany, że można wybaczyć mu wiele błędów. Odpowiednio wyszkolona osoba potrafiła by zadawać takie pytania, że momentalnie by wiedziała, czy ma do czynienia z maszyną lub nie.

Osobną kwestią jest to, czy obecnie przeprowadzanie testu Turinga ma sens. Tak naprawdę nie wiemy, czym jest inteligencja i jak ją testować. Kiedyś sądzono, że można ją zamknąć w jednej liczbie zwanej IQ. Teraz wiemy, że jest co najmniej kilka różnych typów inteligencji, każda o innej charakterystyce i roli. Niektórzy, zresztą słusznie, łączą inteligencję z umiejętnością łączenia faktów i uczenia się. Taka definicja może doprowadzić do zmiany testu Turinga na coś, co proponuje Gary Marcus z New York University. Proponuje on test, w którym bot ogląda jakiś film (np. Grę o Tron lub wiadomości) i po obejrzeniu potrafi odpowiedzieć na pytania o tym, co obejrzał.

Odpowiadając więc na pytanie „czy na pewno jest czym się emocjonować?” odpowiem – nie. Może Eugene jest małym krokiem do przodu, ale nie jest rewolucją, na którą się go kreuje. Wygląda mi on na sprytnie zaprojektowany i sprzedany produkt, którego zadaniem było „zdanie” testu i zdobycie rozgłosu.

Podobne wpisy