Studie: GPT‑4 kann emotionalen Zustand von Personen besser erkennen als Menschen
Der Mensch ist ein komplexes Wesen. Die Art und Weise, wie wir kommunizieren, ist vielschichtig – und selbst Psychologen haben Probleme, sie zu lesen. Daher gibt es eine ganze Reihe von Tests, die unsere Fähigkeit messen, aus Interaktionen miteinander die tatsächliche Bedeutung und das Verständnis gegenüber anderen abzuleiten.
KI-Modelle werden bei solchen Tests immer besser, zeigt sich nun. Forschungsergebnisse, die in Nature Human Behavior veröffentlicht wurden, zeigen, dass einige große Sprachmodelle (Large Language Models, LLMs) bei Aufgaben, mit denen die Fähigkeit, den mentalen Zustand von Menschen nachzuvollziehen (Theory of Mind), getestet wird, echte Menschen sogar schlagen.
Das bedeutet nicht, dass KI-Systeme tatsächlich in der Lage sind, menschliche Gefühle zu ergründen. Es zeigt jedoch, dass diese Modelle in Tests, mit denen diese Fähigkeiten bewertet werden sollen, immer besser werden – obwohl sie von Psychologen dafür entwickelt wurden, Menschen zu testen. Um mehr über die Prozesse zu erfahren, die hinter den Erfolgen und den Misserfolgen der LLMs bei diesen Aufgaben stehen, wurde von der Forschungsgruppe ein systematischer Ansatz verwendet, der die Fähigkeit zur Theory of Mind analysiert.
„Wir neigen von Natur aus dazu, menschliche mentale Zustände, Verstand und Intentionalität auch solchen Entitäten zuzuschreiben, die keinen Verstand haben“, sagt Cristina Becchio, Professorin für Neurowissenschaften am Universitätsklinikum Hamburg-Eppendorf, die an der Studie mitgearbeitet hat. „Es besteht die Gefahr, dass man großen Sprachmodellen eine Theory of Mind zuschreibt.“ Diese ist ein Merkmal der emotionalen und sozialen Intelligenz, die es uns ermöglicht, die Absichten anderer Menschen zu erkennen, uns in andere hineinzuversetzen und mit ihnen mitzufühlen. Die meisten Kinder erwerben diese Fähigkeiten zwischen dem dritten und dem fünften Lebensjahr.
Entitäten ohne Verstand
Theoretisch gilt für die KI: Je besser KI-Modelle Menschen nachahmen können, desto nützlicher und einfühlsamer können sie in ihren Interaktionen mit uns sein – oder zumindest erscheinen. Sowohl OpenAI als auch Google haben in der vergangenen Woche verbesserte KI-Assistenten angekündigt. GPT-4o (OpenAI) und Project Astra (Google Deepmind) sind so konzipiert, dass sie deutlich einfühlsamere und natürlichere Antworten geben als vorherige Versionen. Dabei dürfen wir allerdings nicht in die Falle tappen, zu glauben, dass diese Fähigkeiten menschlich seien – auch wenn sie sich so darstellen.
Die Forscher testeten bei ihrem Experiment zwei Familien von großen Sprachmodellen, GPT-3.5 und GPT‑4 von OpenAI sowie drei Versionen von Metas Llama. Dabei ging es stets um Aufgaben, die darauf abzielen, die Theory of Mind beim Menschen zu testen. Dazu gehörte das Erkennen falscher Überzeugungen, die Äußerung eines Fauxpas durch eine andere Person oder das Verstehen dessen, was angedeutet und nicht direkt gesagt wurde. Parallel dazu testete das Team auch 1.907 menschliche Teilnehmer, um die Ergebnisse zu vergleichen.
Die Gruppe führte insgesamt fünf Arten von Tests durch. Mit der ersten, der sogenannten Andeutungsaufgabe, soll die Fähigkeit gemessen werden, aus indirekten Äußerungen auf die wahren Absichten einer anderen Person zu schließen. Der zweite Test, die False-Belief-Aufgabe, prüft, ob jemand weiß, dass von einer anderen Person erwartet werden kann, dass sie etwas glaubt, von dem zufällig bekannt ist, dass es nicht der Fall ist.
In einem weiteren Test wurde die Fähigkeit gemessen, zu erkennen, wann jemand einen Fauxpas begeht. Der vierte Test prüfte, ob sich aus einer „seltesamen“ Geschichte beurteilen lässt, ob jemand den Kontrast zwischen dem Gesagten und dem Gemeinten erklären kann. Schließlich wurde getestet, ob eine Versuchsperson Ironie verstehen können.
GPT‑4 schlägt Llama 2
Den KI-Modellen wurde jeder Test 15-mal in getrennten Chats vorgelegt, sodass sie jede Anfrage unabhängig behandeln konnten. Ihre Antworten wurden auf dieselbe Weise wie bei Menschen bewertet. Anschließend testeten die Forscher die menschlichen Probanden und die beiden Ergebnisse wurden miteinander verglichen.
Beide GPT-Versionen schnitten bei Aufgaben mit indirekten Anfragen, Irreführung und falschen Überzeugungen gleich gut oder manchmal sogar besser ab als der menschliche Durchschnitt, während GPT‑4 bei den Tests zu Ironie, Andeutungen und seltsamen Geschichten besser abschnitt als der Mensch. Die drei Modelle von Llama 2 schnitten unter dem menschlichen Durchschnitt ab.
Llama 2, das größte der drei getesteten Meta-Modelle, übertraf jedoch den Menschen, wenn es um das Erkennen von Fauxpas-Szenarien ging, während GPT hier durchweg falsche Antworten gab. Die Autoren glauben, dass dies auf die generelle Abneigung des OpenAI-Systems zurückzuführen ist, Meinungen zu beurteilen. Das Modell antwortete zumeist, dass es für diese nicht genug Informationen habe, um eine Antwort in die eine oder die andere Richtung zu geben.
„Diese Modelle zeigen mit Sicherheit keine Theory of Mind eines Menschen“, so die Autoren. „Was wir aber zeigen, ist, dass es hier eine Kompetenz gibt, geistige Schlüsse zu ziehen und über die Gedanken von Figuren oder Menschen nachzudenken.“
Psychologische Tests in den Trainingsdaten
Ein Grund dafür, dass die LLMs so gut abgeschnitten haben, könnte sein, dass diese psychologischen Tests so breit etabliert sind. Sie könnten also mit hoher Wahrscheinlichkeit in den Trainingsdaten enthalten sein, sagt Maarten Sap, Assistenzprofessor an der Carnegie Mellon University, der die Studie kennt.
„Es ist wirklich wichtig, sich bewusst zu machen, dass ein Kind, dem man einen False-Belief-Test vorsetzt, genau diesen Test wahrscheinlich noch nie gesehen hat, die Sprachmodelle aber schon“, sagt er.
Letztendlich verstehen wir aber immer noch nicht, wie LLMs funktionieren. Untersuchungen wie diese können dazu beitragen, unser Verständnis dafür zu vertiefen, was diese Art von Modellen kann und was nicht, sagt Tomer Ullman, ein Kognitionswissenschaftler an der Harvard University, der nicht an dem Projekt mitgearbeitet hat. Es ist jedoch wichtig, sich vor Augen zu halten, was wir wirklich messen, wenn wir LLMs Aufgaben wie diese stellen. Wenn eine künstliche Intelligenz einen Menschen in einem Test zur Messung der Theory of Mind übertrifft, bedeutet das nicht, dass die künstliche Intelligenz über eine Theory of Mind verfügt.
„Ich bin nicht gegen Benchmarks, aber ich gehöre zu der Gruppe von Leuten, die sich Sorgen machen, dass wir mit der Art und Weise, wie wir solche Benchmarks verwenden, das Ende von deren Nützlichkeit erreichen“, sagt Ullman. „Wie auch immer dieses Ding gelernt hat, den Benchmark zu bestehen – es tut das nicht auf eine menschenähnliche Weise.“