Anzeige
Anzeige
MIT Technology Review News

Studie: GPT‑4 kann emotionalen Zustand von Personen besser erkennen als Menschen

Große Sprachmodelle sollten eigentlich nicht besonders gut einschätzen können, wie sich ein Mensch gerade fühlt. Tests zeigen: Das stimmt so nicht.

Von MIT Technology Review Online
5 Min.
Artikel merken
Anzeige
Anzeige

In welchem mentalen Zustand befindet sich ein Mensch? Auch aus Chats lässt sich das von KI längst ablesen.

Der Mensch ist ein komplexes Wesen. Die Art und Weise, wie wir kommunizieren, ist vielschichtig – und selbst Psychologen haben Probleme, sie zu lesen. Daher gibt es eine ganze Reihe von Tests, die unsere Fähigkeit messen, aus Interaktionen miteinander die tatsächliche Bedeutung und das Verständnis gegenüber anderen abzuleiten.

Anzeige
Anzeige

KI-Modelle werden bei solchen Tests immer besser, zeigt sich nun. Forschungsergebnisse, die in Nature Human Behavior veröffentlicht wurden, zeigen, dass einige große Sprachmodelle (Large Language Models, LLMs) bei Aufgaben, mit denen die Fähigkeit, den mentalen Zustand von Menschen nachzuvollziehen (Theory of Mind), getestet wird, echte Menschen sogar schlagen.

Das bedeutet nicht, dass KI-Systeme tatsächlich in der Lage sind, menschliche Gefühle zu ergründen. Es zeigt jedoch, dass diese Modelle in Tests, mit denen diese Fähigkeiten bewertet werden sollen, immer besser werden – obwohl sie von Psychologen dafür entwickelt wurden, Menschen zu testen. Um mehr über die Prozesse zu erfahren, die hinter den Erfolgen und den Misserfolgen der LLMs bei diesen Aufgaben stehen, wurde von der Forschungsgruppe ein systematischer Ansatz verwendet, der die Fähigkeit zur Theory of Mind analysiert.

Anzeige
Anzeige

„Wir neigen von Natur aus dazu, menschliche mentale Zustände, Verstand und Intentionalität auch solchen Entitäten zuzuschreiben, die keinen Verstand haben“, sagt Cristina Becchio, Professorin für Neurowissenschaften am Universitätsklinikum Hamburg-Eppendorf, die an der Studie mitgearbeitet hat. „Es besteht die Gefahr, dass man großen Sprachmodellen eine Theory of Mind zuschreibt.“ Diese ist ein Merkmal der emotionalen und sozialen Intelligenz, die es uns ermöglicht, die Absichten anderer Menschen zu erkennen, uns in andere hineinzuversetzen und mit ihnen mitzufühlen. Die meisten Kinder erwerben diese Fähigkeiten zwischen dem dritten und dem fünften Lebensjahr.

Entitäten ohne Verstand

Theoretisch gilt für die KI: Je besser KI-Modelle Menschen nachahmen können, desto nützlicher und einfühlsamer können sie in ihren Interaktionen mit uns sein – oder zumindest erscheinen. Sowohl OpenAI als auch Google haben in der vergangenen Woche verbesserte KI-Assistenten angekündigt. GPT-4o (OpenAI) und Project Astra (Google Deepmind) sind so konzipiert, dass sie deutlich einfühlsamere und natürlichere Antworten geben als vorherige Versionen. Dabei dürfen wir allerdings nicht in die Falle tappen, zu glauben, dass diese Fähigkeiten menschlich seien – auch wenn sie sich so darstellen.

Anzeige
Anzeige

Die Forscher testeten bei ihrem Experiment zwei Familien von großen Sprachmodellen, GPT-3.5 und GPT‑4 von OpenAI sowie drei Versionen von Metas Llama. Dabei ging es stets um Aufgaben, die darauf abzielen, die Theory of Mind beim Menschen zu testen. Dazu gehörte das Erkennen falscher Überzeugungen, die Äußerung eines Fauxpas durch eine andere Person oder das Verstehen dessen, was angedeutet und nicht direkt gesagt wurde. Parallel dazu testete das Team auch 1.907 menschliche Teilnehmer, um die Ergebnisse zu vergleichen.

Die Gruppe führte insgesamt fünf Arten von Tests durch. Mit der ersten, der sogenannten Andeutungsaufgabe, soll die Fähigkeit gemessen werden, aus indirekten Äußerungen auf die wahren Absichten einer anderen Person zu schließen. Der zweite Test, die False-Belief-Aufgabe, prüft, ob jemand weiß, dass von einer anderen Person erwartet werden kann, dass sie etwas glaubt, von dem zufällig bekannt ist, dass es nicht der Fall ist.

Anzeige
Anzeige

In einem weiteren Test wurde die Fähigkeit gemessen, zu erkennen, wann jemand einen Fauxpas begeht. Der vierte Test prüfte, ob sich aus einer „seltesamen“ Geschichte beurteilen lässt, ob jemand den Kontrast zwischen dem Gesagten und dem Gemeinten erklären kann. Schließlich wurde getestet, ob eine Versuchsperson Ironie verstehen können.

GPT‑4 schlägt Llama 2

Den KI-Modellen wurde jeder Test 15-mal in getrennten Chats vorgelegt, sodass sie jede Anfrage unabhängig behandeln konnten. Ihre Antworten wurden auf dieselbe Weise wie bei Menschen bewertet. Anschließend testeten die Forscher die menschlichen Probanden und die beiden Ergebnisse wurden miteinander verglichen.

Beide GPT-Versionen schnitten bei Aufgaben mit indirekten Anfragen, Irreführung und falschen Überzeugungen gleich gut oder manchmal sogar besser ab als der menschliche Durchschnitt, während GPT‑4 bei den Tests zu Ironie, Andeutungen und seltsamen Geschichten besser abschnitt als der Mensch. Die drei Modelle von Llama 2 schnitten unter dem menschlichen Durchschnitt ab.

Anzeige
Anzeige

Llama 2, das größte der drei getesteten Meta-Modelle, übertraf jedoch den Menschen, wenn es um das Erkennen von Fauxpas-Szenarien ging, während GPT hier durchweg falsche Antworten gab. Die Autoren glauben, dass dies auf die generelle Abneigung des OpenAI-Systems zurückzuführen ist, Meinungen zu beurteilen. Das Modell antwortete zumeist, dass es für diese nicht genug Informationen habe, um eine Antwort in die eine oder die andere Richtung zu geben.

„Diese Modelle zeigen mit Sicherheit keine Theory of Mind eines Menschen“, so die Autoren. „Was wir aber zeigen, ist, dass es hier eine Kompetenz gibt, geistige Schlüsse zu ziehen und über die Gedanken von Figuren oder Menschen nachzudenken.“

Psychologische Tests in den Trainingsdaten

Ein Grund dafür, dass die LLMs so gut abgeschnitten haben, könnte sein, dass diese psychologischen Tests so breit etabliert sind. Sie könnten also mit hoher Wahrscheinlichkeit in den Trainingsdaten enthalten sein, sagt Maarten Sap, Assistenzprofessor an der Carnegie Mellon University, der die Studie kennt.

Anzeige
Anzeige

„Es ist wirklich wichtig, sich bewusst zu machen, dass ein Kind, dem man einen False-Belief-Test vorsetzt, genau diesen Test wahrscheinlich noch nie gesehen hat, die Sprachmodelle aber schon“, sagt er.

Letztendlich verstehen wir aber immer noch nicht, wie LLMs funktionieren. Untersuchungen wie diese können dazu beitragen, unser Verständnis dafür zu vertiefen, was diese Art von Modellen kann und was nicht, sagt Tomer Ullman, ein Kognitions­wissenschaftler an der Harvard University, der nicht an dem Projekt mitgearbeitet hat. Es ist jedoch wichtig, sich vor Augen zu halten, was wir wirklich messen, wenn wir LLMs Aufgaben wie diese stellen. Wenn eine künstliche Intelligenz einen Menschen in einem Test zur Messung der Theory of Mind übertrifft, bedeutet das nicht, dass die künstliche Intelligenz über eine Theory of Mind verfügt.

„Ich bin nicht gegen Benchmarks, aber ich gehöre zu der Gruppe von Leuten, die sich Sorgen machen, dass wir mit der Art und Weise, wie wir solche Benchmarks verwenden, das Ende von deren Nützlichkeit erreichen“, sagt Ullman. „Wie auch immer dieses Ding gelernt hat, den Benchmark zu bestehen – es tut das nicht auf eine menschenähnliche Weise.“

Anzeige
Anzeige

 

Autorin des Textes ist Rhiannon Williams. Sie ist News-Redakteurin bei der US-amerikanischen Ausgabe der MIT Technology Review.
Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Schreib den ersten Kommentar!
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige