Turing-Test als Spiel: 1,5 Millionen Menschen haben schon mitgemacht
Eine Maschine ist dann intelligent, wenn sie uns in der Kommunikation weismachen kann, dass sie ein Mensch ist. Diesen Gradmesser für künstliche Intelligenz hat der große britische Mathematiker und Informatiker Alan Turing (1912-1954) bereits in den 1950er-Jahren aufgestellt – damals noch als rein hypothetisches Gedankenspiel.
Größtes Turing-Experiment aller Zeiten?
Durch die immer besseren Fähigkeiten von textgenerierenden KI wie ChatGPT ist Turings Idee heute bedeutungsvoller denn je. Das KI-Unternehmen AI21 hat im Rahmen eines Forschungsprojekts das laut eigener Aussage bisher größte Turing-Test-Experiment gestartet – in Form eines Spiels, das jede:r User:in ausprobieren kann.
Seit Mitte April ist der Test online, jetzt hat die israelische Firma die ersten Ergebnisse bekannt gegeben. 1,5 Millionen Menschen haben das „Social Turing Game“ namens „Human or not?“ (Deutsch: menschlich oder nicht?) laut AI21 bereits ausprobiert.
„Human or not?“: So läuft das Turing-Spiel ab
Die Versuchsanordnung von „Human or not?“ ist denkbar einfach: Zwei Minuten lang soll man mit einer zufällig zugelosten Partnerperson chatten, dann soll man entscheiden, ob man mit einer Maschine oder einem anderen menschlichen Probanden kommuniziert hat. Der Chatbot basiert auf Large Language Models (LLM) wie GPT-4 von OpenAI oder Jurassic-2 aus dem Hause AI21 Labs.
68 Prozent der User:innen lagen richtig
Wie die bisherigen Ergebnisse zeigen, haben 68 Prozent der Spieler:innen nach der zweiminütigen Konversation korrekt entschieden, ob sie mit Mensch oder Bot chatteten. Dies ergab laut AI21 Labs die Auswertung der ersten zwei Millionen Runden.
Dabei fiel es den Tester:innen leichter, einen Mitmenschen korrekt zu identifizieren. Hier rieten 73 Prozent richtig. Hatten die Proband:innen es mit einem Bot zu tun, lagen sie nur zu 60 Prozent richtig.
AI21 Labs hat die Ergebnisse zudem nach Ländern aufgedröselt. Am besten schlugen sich Nutzer:innen aus Frankreich mit im Schnitt 71,3 Prozent richtigen Zuordnungen. Ganz hinten landet Indien mit 63,5 Prozent. Deutschland liegt punktgleich mit den Niederlanden auf Rang 3 (68,1 Prozent).
Frauen schlossen minimal besser ab als Männer, mit 67,7 gegenüber 67,4 Prozent.
So unterscheidet sich das Spiel vom klassischen Turing-Test
„Human or not?“ unterscheidet sich übrigens in einem Punkt grundsätzlich von dem eigentlichen Turing-Test: In der klassischen Anordnung kommuniziert eine Testperson blind mit zwei Gesprächspartnern. Einer davon ist ein Mensch, der andere eine Maschine. Nun muss der:die Proband:in entscheiden, wer wer ist. Gelingt dies nicht, gilt der Test als bestanden, die Maschine als dem Menschen ebenbürtig.
Ob der Turing-Test bereits bestanden wurde, gilt trotz angeblich erfolgreicher Test (zum Beispiel mit dem Chatbot Eugene Goostman) als umstritten.