Soziale Intelligenz: Warum Menschen der KI noch überlegen sind

Ob selbstfahrende Autos, Roboterassistenten oder smarte Sicherheitslösungen: KI soll in Zukunft nicht nur Objekte erkennen, sondern auch soziale Situationen richtig einordnen können. Wie Science Daily berichtet, zeigt eine neue Studie der Johns Hopkins University allerdings, dass gängige KI-Modelle diesem Anspruch bislang nicht gerecht werden – vor allem, wenn es um dynamische soziale Interaktionen geht.
Menschen können soziale Interaktionen besser lesen
Für die Untersuchung baten die Forschenden menschliche Proband:innen, kurze Videoclips von drei Sekunden Länge zu bewerten. In den Szenen führten Menschen entweder gemeinsame, parallele oder voneinander unabhängige Handlungen aus. Die Teilnehmenden sollten unter anderem einschätzen, ob die Personen interagierten, miteinander kommunizierten oder einfach nur nebeneinander standen. Die Ergebnisse waren eindeutig: Menschen stimmten in ihren Bewertungen weitgehend überein – die getesteten KI-Modelle dagegen lagen häufig daneben.
Getestet wurden mehr als 350 KI-Systeme – darunter Sprach, Bild- und Videomodelle. Sie sollten vorhersagen, wie Menschen die Szenen beurteilen würden, und in manchen Fällen sogar, wie deren Gehirne auf die Clips reagieren könnten. Das Ergebnis: Die getesteten Videomodelle konnten nicht zuverlässig erkennen, was die Personen in den Clips taten. Selbst Bildmodelle, die auf eine Abfolge von Standbildern trainiert wurden, waren kaum in der Lage zu unterscheiden, ob die Personen miteinander kommunizierten oder nicht. Etwas besser schnitten Sprachmodelle ab, wenn es darum ging, menschliche Einschätzungen vorherzusagen – während Videomodelle stärker mit der neuronalen Aktivität im Gehirn korrelierten. Aber kein einziges Modell kam an die menschliche Leistung heran.
KI-Modelle denken noch zu statisch
Laut den Studienautor:innen könnte ein strukturelles Problem die Ursache sein: Die meisten heutigen neuronalen Netze orientieren sich an jenen Gehirnbereichen, die für die Verarbeitung statischer Bilder zuständig sind. Das menschliche Gehirn hingegen nutzt für dynamische soziale Szenen andere Regionen – ein Aspekt, der bei der Architektur aktueller Modelle bisher kaum berücksichtigt wurde.
„Es reicht nicht aus, nur ein Bild zu sehen und Objekte und Gesichter zu erkennen“, erklärt Kathy Garcia, Co-Autorin der Studie, die am 24. April auf der Konferenz ICLR 2025 vorgestellt wird. Das sei zwar der erste wichtige Schritt in der Entwicklung von KI-Systemen gewesen – aber das echte Leben ist nicht statisch. Deshalb brauche es Modelle, die über die Analyse einzelner Bilder hinausgehe und stattdessen dazu in der Lage sind, Beziehungen, Kontexte und die Dynamiken sozialer Interaktionen zu verstehen.
Ein blinder Fleck in der KI-Entwicklung
Die Erkenntnisse sind vor allem für Anwendungen relevant, bei denen KI im Alltag mit Menschen interagieren soll, also zum Beispiel in der Mobilität, im Pflegebereich oder bei smarten Assistenzsystemen. Ein autonomes Fahrzeug muss zum Beispiel einschätzen können, ob zwei Menschen am Straßenrand stehen und sich unterhalten – oder kurz davor sind, die Straße zu überqueren.
Dass aktuelle KI-Modelle bei sozialen Szenen hinterherhinken, stellt laut den Forschenden einen blinden Fleck in der KI-Entwicklung dar. Um ihn zu schließen, müsse die Forschung verstärkt darauf hinarbeiten, dynamische Kontexte, Beziehungsmuster und soziale Absichten in die Modellarchitektur zu integrieren. Bis dieser nächste Meilenstein geschafft ist, bleibt der Mensch im Lesen von sozialen Interaktionen den Maschinen weiterhin überlegen.