Was du für Voice-Technologie vom Dating lernen kannst
Langweilige Monologe, fehlende Aufmerksamkeit oder Ironie-Resistenz lassen ein romantisches erstes Date schnell zum Fiasko werden. Gleiches gilt auch für Unterhaltungen mit Sprachassistenten. Der Unterschied: In der Kommunikation mit Conversational Interfaces ist nicht der Mensch schuld, wenn der Dialog abbricht, man missverstanden oder nicht genügend respektiert wird, sondern meist die Technik.
Gesprochenes erkennen und richtig interpretieren
Die menschliche Sprache ist intuitiv, flexibel, natürlich und vor allem sehr komplex. Was für den Menschen manchmal schon schwer zu verstehen ist, wird für eine Maschine zu einer echten Herausforderung. Um besser nachvollziehen zu können, wie Sprachassistenten ticken und warum so manche Reaktion – genau wie beim Date – anders ausfällt als erwartet, ist es wichtig, die Funktionsweise von Voice-Technologie zu verstehen: Zunächst wird mithilfe der automatischen Spracherkennung die menschliche Sprache – Buchstabe für Buchstabe und Wort für Wort – in Machine-Language übertragen, verarbeitet und analysiert.
Erst im nächsten Schritt geht es um das eigentliche Verstehen, nämlich indem die einzelnen Bausteine wieder zusammengesetzt und dem gesprochenen Wort eine Bedeutung zugewiesen wird. Wie schwierig das sein kann, zeigt der Satz: Der Gefangene floh. Liest man diesen Satz, wird schnell klar, dass es sich um einen entflohenen Gefangenen handelt und nicht um einen gefangenen Floh. Der Sprachcomputer kann dies jedoch nur unter Einbeziehung des Kontextes erkennen. Denn der Kontext, in dem wir sprechen, beinhaltet viel mehr Informationen als das einzelne gesprochene Wort.
Stolpersteine menschlicher Kommunikation
Erkennt die Software den Kontext nicht, kommt es zu einem Missverständnis und oft zu einem Abbruch der Konversation. Zu vergleichen ist das gut mit einer stockenden Unterhaltung beim ersten Date, wenn sich beide Personen noch nicht gut kennen und Aussagen fehlinterpretiert werden.
Anhand der folgenden vier – eher hypothetischen und vor allem missratenen –Datingszenarien wird deutlich, was im Conversational-Interface-Design passieren muss, damit sich der Mensch (fast) genauso gerne und gut mit Sprachassistenten unterhält wie mit seinem Gegenüber:
1. Szenario: Auf die Betonung kommt es an
In einem Telefonat vor dem ersten Date stellt sie ihm die obligatorische Frage nach den Hobbys. Er freut sich über ihr Interesse an seiner Person und antwortet: „Meine Kinder, Jagen und Kochen.“ Würde sie das Komma in dieser Aufzählung nicht gleich intuitiv erkennen und korrekt interpretieren, wäre das Date nicht nur vorbei, bevor es überhaupt angefangen hätte, sondern wahrscheinlich auch die Polizei im Anmarsch.
Um dieses Problem in der Kommunikation mit Sprachassistenten zu beheben, müssen Voice-Interface-Designer und -Entwickler für eine flexiblere Menüführung sorgen. Denn oft kennt das Interface lediglich eine begrenzte Anzahl an Äußerungen und Synonymen. Weiterhin reagiert die Technologie häufig nicht auf gängige Aussprachefehler. Die Folge: Alexa und Co. beenden den Dialog mit der Ansage „Das habe ich leider nicht verstanden.“ Und das hört man nur ungern – weder vom Menschen noch von der Maschine.
2. Szenario: Sich an Gesagtes erinnern und darauf reagieren
Das erste Date kommt tatsächlich zustande – wir befinden uns jetzt im Restaurant. Er fragt: „Möchtest du auch das Schnitzel mit Bratkartoffeln essen?“ Sie antwortet: „Ich habe dir doch schon am Telefon gesagt, dass ich kein Fleisch esse.“ Natürlich findet sie ihn nun ignorant und unaufmerksam.
Mit Sprachassistenten ist es nicht anders: Ist die Anwendung in der Lage, sich situativ an mich zu „erinnern“, also an Details wie die letzte Urlaubdestination, Vorlieben oder den Inhalt des letzten Dialogs wiederzugeben, ist das Erlebnis deutlich besser und die Nutzerakzeptanz höher. Dazu müssen Designer und Entwickler sogenannte Multi-Turn-Conversations in den Anwendungen sicherstellen. Das heißt, es darf keine erneute Abfrage von bereits Gesagtem erfolgen, sondern die Technologie muss Folgeaufforderungen leisten und vor allem den Kontext berücksichtigen.
3. Szenario: Natürlich natürlich
Es läuft ganz gut zwischen den beiden und so ist man inzwischen beim Dessert angekommen. Auf ihre Frage, welch leckere Nachspeise er sich gerade bestellt hat, antwortet er: „Mein italienisches Tiramisu besteht aus Milch, Weizenmehl, Zucker, Hühnereigelb, Wasser, Mascarpone-Frischkäse, Sahne, Marsalawein, Kakao, pflanzlichem Fett, löslichem Kaffee.“ Sicher wäre sie sehr verblüfft über diese Antwort und würde ihre Abende möglicherweise lieber mit jemandem verbringen, der etwas natürlicher auf ihre Frage reagiert.
Auch bei Sprachassistenten gilt: Dialoge, die zu lang oder monoton sind, zu viele Listen enthalten oder semantisch und syntaktisch immer gleich ablaufen, empfinden Menschen als unangenehm. Interessant im Kontext des Zutaten-Beispiels: Wir sprechen schneller als wir schreiben, aber wir lesen schneller als wir hören – speziell, wenn es um monotone, eher schwer zu merkende Dinge geht. Deshalb lohnt es sich, Voice-Dialoge kurz und abwechslungsreich zu gestalten.
4. Szenario: Zwischen den Zeilen
Unsere beiden Datingpartner haben die Rechnung bezahlt und befinden sich nun vor dem Restaurant. Er fragt: „Sollen wir uns gemeinsam ein Taxi bestellen und bei mir noch einen Absacker trinken?“ Sie gähnt und antwortet: „Ich bin total müde und muss morgen wieder sehr früh aufstehen“. Er erwidert: „Okay, aber soll ich jetzt für uns ein Taxi bestellen?“ In unserem Fall gelingt es dem Protagonisten nicht, zwischen den Zeilen zu lesen.
Auch Sprachassistenten „leiden“ oft an Begriffsstutzigkeit. Und das schreckt Nutzer ab. Denn sie wollen ihre Art zu sprechen nicht dem Gerät anpassen. Oder wie Roboter die immer gleichen, sogenannten One-Turn-Befehle absetzen. Stattdessen erwarten sie von ihrem Gegenüber, dass er in der Lage ist, Inhalte intuitiv miteinander zu verknüpfen.
Um die Unterhaltung menschenähnlich zu führen, müssen Conversational-Designer eine möglichst breite Palette an Aussagen antizipieren und in der Programmierung erkennen. Ist diese zu engstirnig, sind Verständigungsprobleme unvermeidbar.
Konversation will gelernt sein
Wenn es Mensch wie Maschine gelingt, Interpunktion auch in der gesprochenen Sprache zu interpretieren, auf natürliche, umgangssprachliche oder dialektgeprägte Ausdrucksweise zu reagieren, sich an bereits Gesagtes zu erinnern und indirekte Aussagen „durch die Blume“ intuitiv zu erkennen, steht einer erfolgreichen Konversation nichts im Wege. Im Falle der Conversational Interfaces ist es die Aufgabe der Entwickler und Designer, die Komplexität der menschlichen Sprache in lernfähige, smarte Technologie umzuwandeln.
Ihr habt mein Tiramisurezept geklaut. Leistungsschutzrecht!