Computer und große Gefühle: Wie Emotionserkennung gelingen kann
Wenn die Roboter der Zukunft zunehmend direkt mit Menschen interagieren sollen, wenn wir Begegnungen haben wollen ohne Missverständnisse, wenn wir produktiv kooperieren wollen, dann müssen diese Roboter nicht nur funktionieren, sie müssen sich auch auf die Menschen einstellen können, mit denen sie zu tun haben. Das ist so gut wie Konsens in der Forschung der Mensch-Maschine-Interaktion. Weitestgehend einig sind sich Informatiker zudem darin, dass diese Maschinen dafür die Emotionen der Menschen erkennen und interpretieren können müssen. Schließlich stellen sich Menschen im Gespräch aufeinander ein, sie sprechen anders mit ihrem Chef als mit ihrer Praktikantin, anders mit aggressiven Zeitgenossen als mit schüchternen und so weiter. Sollen Maschinen das auch können, muss die automatische Emotionserkennung weit über das hinausgehen, was uns gerade meistens als solche verkauft wird: Apps, die allein aus dem Gesichtsausdruck schließen, was die Stimmung eines Menschen ist. Ein Lächeln wird hier in jedem Fall als Freude gedeutet – aber kann ein Lächeln nicht auch Schadenfreude bedeuten oder Scham – oder schlicht unecht sein?
Gefühle sind mehr als Gesichtsausdrücke
„Informatiker sind super Mustererkenner“, sagt Patrick Gebhardt vom Deutschen Forschungszentrum für künstliche Intelligenz DFKI in Saarbrücken. Das stimmt – und gleichzeitig steckt darin eine Kritik: Die Mustererkennung im Bereich der Emotionen hat ihre Grenzen, weil die Szene nicht kreativ genug ist. Denn noch sei nämlich die Meinung recht verbreitet, dass die Systeme zur Emotionserkennung ihre Muster nur im Gesichtsausdruck suchen müssten. Dank der Fortschritte des maschinellen Lernens sind moderne Systeme in der Tat sehr gut darin, Gesichtsausdrücke voneinander zu unterscheiden und beispielsweise ein Lächeln zu erkennen, ein Stirnrunzeln, ein empörtes Gesicht. Aber schon das Stirnrunzeln zeigt neben dem Lächeln die Grenzen dessen auf: Es könnte Ärger oder Überraschung bedeuten, es könnte aber auch bedeuten, dass sich jemand konzentriert – oder es ist schlicht eine Alterserscheinung.
„Wir brauchen nicht nur eine Mustererkennung, sondern vor allem auch ein Modell, das zu dem Muster passt“, erklärt Gebhardt. Doch diese Erkenntnis hat sich in der Informatik noch nicht durchgesetzt. Das DFKI-Team hat das anhand eines Avatars durchgespielt, der mit Menschen Bewerbungsgespräche trainiert. Dabei führen Mensch und Maschine zunächst ein möglichst realistisches Bewerbungsgespräch, in dem sich der virtuelle Gesprächspartner an die Stimmung des menschlichen Bewerbers anpasst. „Dafür haben wir den weltweit ersten Classifier entwickelt, der auch die Richtung einer Emotion erkennt“, so Gebhardt: Das virtuelle Gegenüber kann dank eines selbstlernenden Algorithmus beispielsweise ein zuversichtliches Lächeln von einem beschämten Lächeln unterscheiden.
Von der Mustererkennung zur Emotionserkennung
Der Weg dorthin sei weit gewesen, gibt Gebhardt zu. Jahrelang haben er und Kollegen gemeinsam mit Psychologen an einem Modell gearbeitet, das nun dem System hinterlegt ist und diesem hilft, zu erkennen, welchen sogenannten Regulationsmechanismus der Mensch gerade anwendet. Diese Mechanismen helfen uns dabei, uns sozial angepasst zu verhalten und beispielsweise die Fassung zu bewahren, wenn wir in einem Bewerbungsgespräch nach unseren Schwächen gefragt oder mit anderen Scham auslösenden Situationen konfrontiert werden. „Scham will man verstecken“, sagt Gebhardt. Deshalb sei das ein gutes Beispiel gewesen, um verschiedene Regulationsmechanismen der Menschen zu untersuchen und einer Maschine beizubringen, diese zu unterscheiden. Schließlich reagieren manche Menschen in beschämenden Situationen, indem sie sich verschließen, während andere sich herausreden und wieder andere zum Angriff übergehen. Wenn das Gegenüber in solchen Situationen nicht angepasst reagiert, kann es eskalieren. „Ein Bewerbungsgespräch ist eine prototypische Situation dafür, in der ich zeigen muss: Ich bin gut“, erklärt Gebhardt – gleichzeitig werden Bewerber häufig mit Scham auslösenden Fragen konfrontiert.
Zusammen mit Psychologen identifizierten die Informatiker vier solcher Strategien, die Menschen in Scham auslösenden Situationen anwenden: Rückzug (sich im Gespräch verschließen), Vermeidung („Ich war das nicht“), Selbstangriff („Ja, du hast Recht. Das habe ich falsch gemacht“) und Angriff („Was fällt dir ein, sowas zu mir zu sagen!“). Diese Regulationsmechanismen gehen teils mit charakteristischen, von außen zu beobachtenden Reaktionen einher: Vermeidung beispielsweise mit einem „falschen Lächeln“ – derjenige schaut seinem Gesprächspartner beim Lächeln nicht ins Gesicht. Auch ob sich ein Proband eher aktiv nach vorne oder in seinen Stuhl zurücklehnt, kann Hinweise auf seinen Gemütszustand geben.
Die Forscher programmierten zunächst dieses psychologische Modell regelbasiert in ihr System und ließen es anschließend unzählige Bewerbungsgespräche zwischen einer Schauspielerin als Fragende und Probanden als Bewerber beobachten. Wichtig war dabei, dass nicht nur Gesichtsausdrücke ausgewertet wurden, sondern auch Blickrichtung und Gestik. Mit zunächst menschlicher Hilfe ordnete das System diese Situationen einem der Regulationsmechanismen zu und lernte daraus. Das ist einerseits wichtig, damit der Avatar seine Reaktion im Gespräch entsprechend anpassen kann – nur so kommt eine Situation zustande, die sich natürlich anfühlt und aus der der Proband andererseits auch lernen kann. Aus allen Informationen aus Mimik, Gestik und hinterlegtem Modell berechnet das System schließlich auch das Feedback, beispielsweise: „An dieser Stelle hast du gelächelt, aber wir hatten keinen Blickkontakt – das wirkt unsicher.“
„Der Mensch bleibt eben doch ein Stückweit ein unberechenbares Wesen“
Die Auswertung am Ende des Gesprächs hat die Forscher übrigens erneut auf spannende Fragen gebracht, die nur entstehen, wenn Informatiker (und schließlich die von ihnen entwickelten Maschinen) Gefühle ernst nehmen: Zunächst sollte der Avatar selbst das Feedback samt Videoauswertung des Gesprächs mit den Nutzern besprechen. Doch so etwas würde im echten Leben nie geschehen, sagt Gebhardt: „Das ist eine Vermischung der Rollen.“ Die Nutzer können das Gespräch dann nicht ernst nehmen. Auch ein Feedback über Lichtsignale sei unnatürlich und störe das Gespräch. Aktuell gibt es zwei Optionen: Entweder ein anderer Avatar übernimmt die Auswertung – oder ein echter Mensch, der vom Computer alle nötigen Informationen bekommt. „Manche mögen es lieber mit einem echten Menschen, andere sind lieber mit der Maschine allein“, sagt Gebhardt. Warum? Das ist noch nicht geklärt. Der Mensch bleibt eben doch ein Stückweit ein unberechenbares Wesen, was sicher auch gut ist. Aber etwas näher kann man der Emotionserkennung doch noch kommen, als es gerade State-of-the-art ist, wie das Beispiel zeigt. Womöglich muss sich die Informatik daran gewöhnen, dass das aufwendig ist.
Dennoch lohnt sich der Aufwand, wenn man bedenkt, dass solche Systeme nur dann sinnvoll sind, wenn sie sich an den Menschen anpassen. Den DFKI-Forschern wurde das so richtig klar, als sie es anders versuchten: Ein Vorgängerprojekt des jetzigen Bewerbungsgesprächs-Trainers sollte Jugendliche mit sozialen Problemen unterstützen. „Nur ohne integriertes Emotionsmodell“, sagt Patrick Gebhardt. Das hat auch gleich eine weitere Frage der Forscher beantwortet: Kann eine virtuelle Figur überhaupt einen Menschen beschämen? Eindeutig ja: Einer der Nutzer fühlte sich offenbar zu sehr in die Enge getrieben von dem Avatar, der ihn wieder und wieder mit unangenehmen Erfahrungen konfrontierte, ohne Rücksicht zu nehmen auf dessen emotionale Verfassung. Der junge Mann warf den Monitor mit dem Avatar kurzerhand aus dem Fenster.