Was du für Voice-Technologie vom Dating lernen kannst

Ratgeber

Was du für Voice-Technologie vom Dating lernen kannst

Eine Konversation mit Alexa, Siri und Co. ist oft ein bisschen wie ein schlecht laufendes Date: eine falsche Formulierung und das Gespräch gerät ins Stocken. Mit den richtigen Kniffen ist die Unterhaltung aber noch zu retten.

Von Dan Fitzpatrick

06.03.2020, 08:24 Uhr • 5 Min.

Was du für Voice-Technologie vom Dating lernen kannst — (Foto: Frank Gaertner / Shutterstock)

Langweilige Monologe, fehlende Aufmerksamkeit oder Ironie-Resistenz lassen ein romantisches erstes Date schnell zum Fiasko werden. Gleiches gilt auch für Unterhaltungen mit Sprachassistenten. Der Unterschied: In der Kommunikation mit Conversational Interfaces ist nicht der Mensch schuld, wenn der Dialog abbricht, man missverstanden oder nicht genügend respektiert wird, sondern meist die Technik.

Gesprochenes erkennen und richtig interpretieren

Die menschliche Sprache ist intuitiv, flexibel, natürlich und vor allem sehr komplex. Was für den Menschen manchmal schon schwer zu verstehen ist, wird für eine Maschine zu einer echten Herausforderung. Um besser nachvollziehen zu können, wie Sprachassistenten ticken und warum so manche Reaktion – genau wie beim Date – anders ausfällt als erwartet, ist es wichtig, die Funktionsweise von Voice-Technologie zu verstehen: Zunächst wird mithilfe der automatischen Spracherkennung die menschliche Sprache – Buchstabe für Buchstabe und Wort für Wort – in Machine-Language übertragen, verarbeitet und analysiert.

Erst im nächsten Schritt geht es um das eigentliche Verstehen, nämlich indem die einzelnen Bausteine wieder zusammengesetzt und dem gesprochenen Wort eine Bedeutung zugewiesen wird. Wie schwierig das sein kann, zeigt der Satz: Der Gefangene floh. Liest man diesen Satz, wird schnell klar, dass es sich um einen entflohenen Gefangenen handelt und nicht um einen gefangenen Floh. Der Sprachcomputer kann dies jedoch nur unter Einbeziehung des Kontextes erkennen. Denn der Kontext, in dem wir sprechen, beinhaltet viel mehr Informationen als das einzelne gesprochene Wort.

Stolpersteine menschlicher Kommunikation

Erkennt die Software den Kontext nicht, kommt es zu einem Missverständnis und oft zu einem Abbruch der Konversation. Zu vergleichen ist das gut mit einer stockenden Unterhaltung beim ersten Date, wenn sich beide Personen noch nicht gut kennen und Aussagen fehlinterpretiert werden.

Anhand der folgenden vier – eher hypothetischen und vor allem missratenen –Datingszenarien wird deutlich, was im Conversational-Interface-Design passieren muss, damit sich der Mensch (fast) genauso gerne und gut mit Sprachassistenten unterhält wie mit seinem Gegenüber:

1. Szenario: Auf die Betonung kommt es an

In einem Telefonat vor dem ersten Date stellt sie ihm die obligatorische Frage nach den Hobbys. Er freut sich über ihr Interesse an seiner Person und antwortet: „Meine Kinder, Jagen und Kochen.“ Würde sie das Komma in dieser Aufzählung nicht gleich intuitiv erkennen und korrekt interpretieren, wäre das Date nicht nur vorbei, bevor es überhaupt angefangen hätte, sondern wahrscheinlich auch die Polizei im Anmarsch.

Um dieses Problem in der Kommunikation mit Sprachassistenten zu beheben, müssen Voice-Interface-Designer und -Entwickler für eine flexiblere Menüführung sorgen. Denn oft kennt das Interface lediglich eine begrenzte Anzahl an Äußerungen und Synonymen. Weiterhin reagiert die Technologie häufig nicht auf gängige Aussprachefehler. Die Folge: Alexa und Co. beenden den Dialog mit der Ansage „Das habe ich leider nicht verstanden.“ Und das hört man nur ungern – weder vom Menschen noch von der Maschine.

2. Szenario: Sich an Gesagtes erinnern und darauf reagieren

Das erste Date kommt tatsächlich zustande – wir befinden uns jetzt im Restaurant. Er fragt: „Möchtest du auch das Schnitzel mit Bratkartoffeln essen?“ Sie antwortet: „Ich habe dir doch schon am Telefon gesagt, dass ich kein Fleisch esse.“ Natürlich findet sie ihn nun ignorant und unaufmerksam.

Mit Sprachassistenten ist es nicht anders: Ist die Anwendung in der Lage, sich situativ an mich zu „erinnern“, also an Details wie die letzte Urlaubdestination, Vorlieben oder den Inhalt des letzten Dialogs wiederzugeben, ist das Erlebnis deutlich besser und die Nutzerakzeptanz höher. Dazu müssen Designer und Entwickler sogenannte Multi-Turn-Conversations in den Anwendungen sicherstellen. Das heißt, es darf keine erneute Abfrage von bereits Gesagtem erfolgen, sondern die Technologie muss Folgeaufforderungen leisten und vor allem den Kontext berücksichtigen.

3. Szenario: Natürlich natürlich

Es läuft ganz gut zwischen den beiden und so ist man inzwischen beim Dessert angekommen. Auf ihre Frage, welch leckere Nachspeise er sich gerade bestellt hat, antwortet er: „Mein italienisches Tiramisu besteht aus Milch, Weizenmehl, Zucker, Hühnereigelb, Wasser, Mascarpone-Frischkäse, Sahne, Marsalawein, Kakao, pflanzlichem Fett, löslichem Kaffee.“ Sicher wäre sie sehr verblüfft über diese Antwort und würde ihre Abende möglicherweise lieber mit jemandem verbringen, der etwas natürlicher auf ihre Frage reagiert.

Auch bei Sprachassistenten gilt: Dialoge, die zu lang oder monoton sind, zu viele Listen enthalten oder semantisch und syntaktisch immer gleich ablaufen, empfinden Menschen als unangenehm. Interessant im Kontext des Zutaten-Beispiels: Wir sprechen schneller als wir schreiben, aber wir lesen schneller als wir hören – speziell, wenn es um monotone, eher schwer zu merkende Dinge geht. Deshalb lohnt es sich, Voice-Dialoge kurz und abwechslungsreich zu gestalten.

4. Szenario: Zwischen den Zeilen

Unsere beiden Datingpartner haben die Rechnung bezahlt und befinden sich nun vor dem Restaurant. Er fragt: „Sollen wir uns gemeinsam ein Taxi bestellen und bei mir noch einen Absacker trinken?“ Sie gähnt und antwortet: „Ich bin total müde und muss morgen wieder sehr früh aufstehen“. Er erwidert: „Okay, aber soll ich jetzt für uns ein Taxi bestellen?“ In unserem Fall gelingt es dem Protagonisten nicht, zwischen den Zeilen zu lesen.

Auch Sprachassistenten „leiden“ oft an Begriffsstutzigkeit. Und das schreckt Nutzer ab. Denn sie wollen ihre Art zu sprechen nicht dem Gerät anpassen. Oder wie Roboter die immer gleichen, sogenannten One-Turn-Befehle absetzen. Stattdessen erwarten sie von ihrem Gegenüber, dass er in der Lage ist, Inhalte intuitiv miteinander zu verknüpfen.

Um die Unterhaltung menschenähnlich zu führen, müssen Conversational-Designer eine möglichst breite Palette an Aussagen antizipieren und in der Programmierung erkennen. Ist diese zu engstirnig, sind Verständigungsprobleme unvermeidbar.

Konversation will gelernt sein

Wenn es Mensch wie Maschine gelingt, Interpunktion auch in der gesprochenen Sprache zu interpretieren, auf natürliche, umgangssprachliche oder dialektgeprägte Ausdrucksweise zu reagieren, sich an bereits Gesagtes zu erinnern und indirekte Aussagen „durch die Blume“ intuitiv zu erkennen, steht einer erfolgreichen Konversation nichts im Wege. Im Falle der Conversational Interfaces ist es die Aufgabe der Entwickler und Designer, die Komplexität der menschlichen Sprache in lernfähige, smarte Technologie umzuwandeln.

Dan Fitzpatrick

Dan Fitzpatrick leitet als Head of Experience Technology das Technik-Team von Triplesense Reply. Mit seinem Vortrag „Getting Intimate with Alexa – Best Practice for Dating und Voice Interface Design“ ist er gerade auf Tour durch Deutschland.

Mehr zu diesem Thema

MIT Technology Review Siri

Verpasse keine News zu Hardware & Gadgets 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Ein Kommentar

Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Arnold

06.03.2020, 09:38 Uhr

Ihr habt mein Tiramisurezept geklaut. Leistungsschutzrecht!

Antworten

Kommentieren

Abbrechen