Turing-Test als Spiel: 1,5 Millionen Menschen haben schon mitgemacht

Eine Maschine ist dann intelligent, wenn sie uns in der Kommunikation weismachen kann, dass sie ein Mensch ist. Diesen Gradmesser für künstliche Intelligenz hat der große britische Mathematiker und Informatiker Alan Turing (1912-1954) bereits in den 1950er-Jahren aufgestellt – damals noch als rein hypothetisches Gedankenspiel.
Durch die immer besseren Fähigkeiten von textgenerierenden KI wie ChatGPT ist Turings Idee heute bedeutungsvoller denn je. Das KI-Unternehmen AI21 hat im Rahmen eines Forschungsprojekts das laut eigener Aussage bisher größte Turing-Test-Experiment gestartet – in Form eines Spiels, das jede:r User:in ausprobieren kann.
Seit Mitte April ist der Test online, jetzt hat die israelische Firma die ersten Ergebnisse bekannt gegeben. 1,5 Millionen Menschen haben das „Social Turing Game“ namens „Human or not?“ (Deutsch: menschlich oder nicht?) laut AI21 bereits ausprobiert.
Die Versuchsanordnung von „Human or not?“ ist denkbar einfach: Zwei Minuten lang soll man mit einer zufällig zugelosten Partnerperson chatten, dann soll man entscheiden, ob man mit einer Maschine oder einem anderen menschlichen Probanden kommuniziert hat. Der Chatbot basiert auf Large Language Models (LLM) wie GPT-4 von OpenAI oder Jurassic-2 aus dem Hause AI21 Labs.
Wie die bisherigen Ergebnisse zeigen, haben 68 Prozent der Spieler:innen nach der zweiminütigen Konversation korrekt entschieden, ob sie mit Mensch oder Bot chatteten. Dies ergab laut AI21 Labs die Auswertung der ersten zwei Millionen Runden.
Dabei fiel es den Tester:innen leichter, einen Mitmenschen korrekt zu identifizieren. Hier rieten 73 Prozent richtig. Hatten die Proband:innen es mit einem Bot zu tun, lagen sie nur zu 60 Prozent richtig.
AI21 Labs hat die Ergebnisse zudem nach Ländern aufgedröselt. Am besten schlugen sich Nutzer:innen aus Frankreich mit im Schnitt 71,3 Prozent richtigen Zuordnungen. Ganz hinten landet Indien mit 63,5 Prozent. Deutschland liegt punktgleich mit den Niederlanden auf Rang 3 (68,1 Prozent).
Frauen schlossen minimal besser ab als Männer, mit 67,7 gegenüber 67,4 Prozent.
„Human or not?“ unterscheidet sich übrigens in einem Punkt grundsätzlich von dem eigentlichen Turing-Test: In der klassischen Anordnung kommuniziert eine Testperson blind mit zwei Gesprächspartnern. Einer davon ist ein Mensch, der andere eine Maschine. Nun muss der:die Proband:in entscheiden, wer wer ist. Gelingt dies nicht, gilt der Test als bestanden, die Maschine als dem Menschen ebenbürtig.
Ob der Turing-Test bereits bestanden wurde, gilt trotz angeblich erfolgreicher Test (zum Beispiel mit dem Chatbot Eugene Goostman) als umstritten.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team