Tennis meets KI: Diese Software erkennt „affektive Zustände“ der Spieler

Mithilfe neuronaler Netze konnten Forscher:innen des Karlsruher Instituts für Technologie (KIT) und der Universität Duisburg-Essen Gefühlszustände von Tennisspielern aus ihrer Körpersprache während des Spiels bestimmen. Im Unterschied zu früheren Arbeiten, bei denen Videos von Schauspieler:innen für das KI-Training verwendet wurde, lernte und analysierte diese KI erstmals aus den Aufzeichnungen realer Spiele. Technische Einzelheiten beschreiben die Forschenden in einem Paper für die Fachzeitschrift Knowledge Based Systems.
Wozu ist das gut?
In ihrem Paper geht es Darko Jekauc vom KIT und seinen Kolleg:innen primär darum, zu zeigen, dass sich die zahlreichen technischen Probleme bei der Emotionserkennung lösen lassen. Als eine mögliche Anwendung ihrer Technologie nennen sie – etwas vage – den Gesundheitssektor und die Sicherheit im Autoverkehr. Andere Expert:innen halten den Markt für den potenziellen Einsatz allerdings für sehr viel größer – vor allem seit große KI-Modelle veröffentlicht worden sind, die in künstlich erzeugte Stimmen emotionalen Ausdruck legen können. Gäbe es Software, die auch die Gefühle der menschlichen User:innen verlässlich erkennen könnte, würde das den Dialog mit der künstlichen Intelligenz auf eine völlig neue Stufe heben. In einem kürzlich erschienenen Artikel zitiert der Guardian Andrew McStay vom Emotional Lab der Bangor University mit der Einschätzung, der Markt sei mit Sicherheit „mehr als 50 Milliarden Dollar“ schwer. Allerdings ist die Emotionserkennung mithilfe von Software ein politisches, wissenschaftliches und juristisches Minenfeld.
Warum ist dieser Forschungszweig umstritten?
Aus zwei Gründen: Es gibt vor allem beim Datenschutz und von Bürgerrechtler:innen massive Bedenken gegen die Anwendung von Emotionserkennung – zum Beispiel als eine Art Lügendetektor, der anschlägt, wenn eine Person „irgendwie schuldbewusst“ oder nervös wirkt. Tatsächlich hat einer der Pioniere auf diesem Gebiet, der Psychologe Paul Ekman, intensiv mit Organisationen wie der CIA zusammengearbeitet. Und in umstrittenen Projekten wie iBorder Ctrl zur EU-Grenzüberwachung kommt die Technologie ebenfalls zum Einsatz.
Zweitens gibt es in der Wissenschaftscommunity seit Jahren eine sehr kontroverse Diskussion um die wissenschaftlichen Grundlagen – insbesondere um die Frage, ob sich aus dem Gesichtsausdruck eines Menschen tatsächlich eindeutig auf seine Gefühle schließen lässt. Der Psychologe Paul Ekman hatte Ende der 1970er-Jahre eine Theorie entwickelt, nach der das tatsächlich der Fall sei. Seine Argumentation: Ein minimaler Satz von Basisemotionen ist in unserem genetischen Erbe gewissermaßen hart codiert – sie laufen als Reaktion auf äußere Reize quasi automatisch ab und erzeugen „micro expressions“ im Gesicht. Diese Signale lassen sich nicht oder zumindest nur sehr schwer bewusst steuern und sind, weil tief in der menschlichen DNA eingearbeitet, unabhängig vom kulturellen Hintergrund – also weltweit eindeutig.
Die Psychologin Lisa Feldman Barrett von der Northeastern University in Evanston, Illinois, sieht in dieser Theorie jedoch ein grundsätzliches Problem: Der Versuch, Emotionen einen „eindeutigen Fingerabdruck“ zuzuweisen, muss nach ihrer Auffassung grundsätzlich scheitern. Gefühlsregungen, schreibt Feldman Barrett in ihrem Buch „How Emotions Are Made“, entstehen aus dem Zusammenspiel körperlicher Reaktionen und im Gedächtnis gespeicherter Erfahrungen. Praktisch kein Gefühl sei ohne Kontext zu verstehen. In einer umfassenden Metastudie von 2019 konnte sie zeigen, dass es keine empirischen Belege für die These von Ekman gibt. Mikroexpressionen werden seither von immer mehr Expert:innen als „Pseudowissenschaft“ kritisiert. Zahlreiche Forschende forderten, die Technologie in den USA zu verbieten, konnten sich jedoch nicht durchsetzen.
In Europa ist die automatisierte Emotionserkennung bei der Grenzkontrolle, am Arbeitsplatz oder in der Schule zwar verboten. Das Gesetz verbietet allerdings nicht „Ausdrücke von Emotionen“ zu analysieren – verboten ist lediglich, aus diesen Ausdrücken auf den inneren emotionalen Zustand des Menschen zu schließen (Kritiker:innen sprechen deshalb auch davon, dass das Gesetz eine Hintertür offen halte).
Wie funktioniert das neue System?
Auch die Forscher:innen vom KIT nehmen die wissenschaftliche Kritik an der Emotionserkennung auf. Ihre Software, schreiben sie, erkennt „affektive Zustände“: positiv oder negativ beziehungsweise ruhig oder erregt. Ihre Idee: In Zusammenhang mit einem sportlichen Wettbewerb müssten sich Signale der Körpersprache, die solche affektiven Zustände ausdrücken, besonders leicht analysieren lassen, denn dabei ist die äußere Situation umittelbar mit der Reaktion der Spielenden verknüpft.
Bei Mannschaftssportarten kommt allerdings noch ein erschwerender Faktor dazu: Oft ist die Kommunikation in einem Team einerseits ziemlich emotional, andererseits oft mit einer Kommunikationsabsicht überlagert. Um die Analyse zu vereinfachen, entschieden sich die Forscher:innen daher für den individuellen und unmittelbaren Wettbewerb beim Tennis.
Um die Daten für ihre KI zu gewinnen, zeichneten sie Sequenzen aus realen Matches von Amateursportler:innen auf. Ein neuronales Netz extrahierte daraus typische Körpersignale wie jubelnd erhobene Arme, Kopfschütteln oder unterschiedliche Gehgeschwindigkeiten. Ein zweiter Modellteil extrahierte mit diesen Gesten zusammenhängende Ereignisse im Spiel wie erzielte oder verlorene Punkte.
Insgesamt konnte das Modell affektive Zustände mit einer Genauigkeit von bis knapp 69 Prozent identifizieren: Das klingt nicht nach viel, allerdings merken die Autor:innen an, das auch menschliche Beobachter:innen nicht besser seien. Zudem betonen die Forscher:innen, dass es erstmals gelungen sei, solch eine KI mit Videos realer Situationen zu trainieren. Allerdings ist der Datensatz mit insgesamt 122 Videos ziemlich klein, die noch dazu in nur einer Umgebung mit nahezu konstanter Beleuchtung aufgenommen wurden. Ob das System mit Videos anderer Spieler:innen funktioniert, ist also noch unklar.
Die Forscher:innen betonen zudem, dass bei weiteren Studien „auch die damit verbundenen potenziellen Risiken berücksichtigt werden (müssten), insbesondere in Bezug auf den Datenschutz und den Missbrauch von Daten“, schreibt Darko Jekauc. „Mit Blick auf zukünftige Anwendungen einer solchen Technologie in der Praxis wird es unerlässlich sein, ethische und rechtliche Fragen im Vorfeld zu klären.“