Voice-User-Interfaces: Erfolgreich designen für Sprachanwendungen

(Quelle: Shutterstock/ gonin)
„Nicht zu Ende gedacht.“ Das ist nur eine der vielen schlechten Bewertungen, die man in Amazons Skill-Shop liest. Viele der Voice-User-Interfaces (VUIs) für den Sprachassistenten Alexa erzeugen bei den Nutzern Frust, weil sie nicht zuverlässig funktionieren oder keinen Mehrwert bieten. Generell hinkt die Qualität der VUIs noch mächtig hinter den grafischen Benutzeroberflächen (GUIs) hinterher. Dabei lassen sich viele Methoden aus dem User-Centered-Design und Software-Engineering auf Sprachassistenten übertragen.
Eine der wichtigsten Regeln: Kenne deinen Nutzer. Das ist nicht neu, spielt aber eine zentrale Rolle beim Bau eines Voice-User-Interface. Welchen Nutzen eine Sprachanwendung bringen soll, lässt sich am besten beantworten, wenn sich ein Unternehmen oder ein Anbieter die potenzielle Zielgruppe direkt anschaut. Gerade bei VUIs ergeben sich eine Menge neuer Chancen. Dabei spielt der Kontext oder Anwendungsfall eine wichtige Rolle: Wenn der Nutzer beispielsweise gerade an etwas arbeitet, das seine Aufmerksamkeit erfordert – etwa eine Maschine repariert oder ein Gericht zubereitet –, kann ein Sprachassistent ihn anleiten, ohne dass er seinen Blick abwenden muss. Umso wichtiger ist es dabei allerdings, dass der VUI-Designer das Umfeld und die Sprache des Nutzers kennt, die Logik der jeweiligen Tätigkeit versteht und die Anwendung entsprechend konzipiert.
Ein Beispiel: Eine VUI-Anwendung zum Pfannkuchen backen wäre durchaus hilfreich – immerhin hat der Anwender so die Hände frei und kann der Anleitung direkt folgen. Da der Nutzer das Rezept während des Kochvorgangs immer mal wieder und Stück für Stück liest, muss die Sprachanwendung Sprünge und Wiederholungen erlauben. Das Ergebnis solcher Beobachtungen sollte eine konkrete Beschreibung der Zielgruppe und des Anwendungsszenarios sein. Geeignete Dokumentations- oder Planungsformate sind zum Beispiel Personas und User-Stories.
Die Konzeptionsphase
Bevor VUI-Designer an die eigentliche Umsetzung gehen, sollten sie alle möglichen Interaktionen mit dem VUI beschrieben haben. Dafür eignen sich etwa Flussdiagramme, die wesentliche Zustände der Anwendung verdeutlichen. Das zeigt zum Beispiel das Flussdiagramm für die Pfannkuchen-Beispielanwendung. Es verdeutlicht wichtige Prinzipien des User-Interface-Designs für Sprachassistenten:
- Die Absicht erkennen: Eine VUI-Anwendung muss die Absicht eines Anwenders erkennen können – auch wenn er dafür unterschiedliche Formulierungen wählt. Ob er „Ich will fünf Pfannkuchen machen“ oder „Gib mir das Rezept für fünf Pfannkuchen“ sagt, es sollte dieselbe Reaktion beim Sprachassistenten auslösen.
- Nachfragen: Wenn der VUI-Anwendung wichtige Informationen fehlen, muss sie nachhaken. In diesem Beispiel könnte das etwa die Menge der Pfannkuchen sein.
- Ausgaben wiederholen: Eine VUI-Anwendung muss Informationen stückchenweise ausgeben und sie wiederholen können, zum Beispiel, weil der Anwender sie akustisch nicht verstanden hat oder nicht im Kopf behält – etwa weil eine Zutatenliste zu lang ist.
- Bestätigungen einholen: Zur Sicherheit sollte die VUI-Anwendung immer wieder nach der Bestätigung des Nutzers fragen. So kann sie prüfen, ob sie die Eingabe richtig verstanden hat oder nicht.
- Funktionsweise vermitteln: Eine kurze Erklärung hilft dem Nutzer zu verstehen, was er mit der Anwendung alles tun kann. Dies lässt sich gut mit der Fehlerbehandlung kombinieren, die nicht erkannte Anweisungen oder nicht abgedeckte Funktionen abfängt.
Bei einem Projekt für grafische User-Interfaces wäre es nun Zeit für einen Klick-Prototypen. Ein VUI-Prototyp funktioniert natürlich anders. Die Inspiration dafür liefert die Geschichte vom „Zauberer von Oz“: Ein alter Mann gibt sich dabei mit Hilfe einer Maschine als mächtiger Zauberer aus, die jedem Angst und Schrecken einflößt – solange er nicht hinter den Vorhang schaut und den Trick erkennt. So ähnlich lässt sich auch ein VUI testen: Ein Kollege simuliert einfach die Ausgabe des Systems, indem er entsprechend der System-Spezifikation antwortet oder – je nach Projektart, Budget und Zeit – mit Sprach-Samples oder dem Sprach-Synthesizer eines Sprachassistenten arbeitet. Die BBC dokumentiert auf ihrer Website einen schönen Beispielfall inklusive Bildern.
Die technische Umsetzung starten
Erst nach einem erfolgreichen Prototyping geht es an die technische Umsetzung. Leider gibt es für Voice-User-Interfaces noch keinen einheitlichen, plattformübergreifenden Entwicklungsstandard. Ähnlich wie bei mobilen Apps müssen sich Entwickler also spätestens an dieser Stelle für einen der großen Anbieter von Sprachassistenten entscheiden – zumindest solange sie nicht die Ambition haben, einen Sprachassistenten mit eigener Intelligenz zu entwickeln. Für die Entwicklung des VUIs stellen die großen Anbieter von Sprachassistenten, namentlich Apple, Google, Microsoft, Amazon und Samsung, eigene Entwickler-Dokumentationen und Frameworks zur Verfügung. Darüber hinaus gibt es bereits auch erste unabhängige Frameworks, die bei der Entwicklung von VUI-Anwendungen helfen.
Die Plattformen und Frameworks unterscheiden sich zwar, setzen aber alle auf das Intent-Konzept. Ein Intent definiert in der Sprachanwendung die für den Nutzer relevanten Funktionen – also welche Absichten er mit der Anwendung verfolgen kann. Entwickler müssen mögliche Intents im Code über eine Zuordnung definieren, die die Äußerungen von Nutzern mit entsprechenden Intents verknüpft. Im Alexa-Framework funktioniert dies etwa über sogenannte Utterances, zu deutsch Äußerungen. Das ist ein Satz in natürlicher Sprache, mit dem der Nutzer möglicherweise auf eine Funktion zugreifen will. Entwickler können auch mehrere Utterances angeben, von denen Alexa automatisch Varianten berücksichtigt. Google bietet ein ähnliches Konzept. Dort heißen die Beispielsätze „Phrases“. Auch Microsoft folgt mit dem Cortana-Skills-Kit diesem Pfad.
Inhalte prüfen
Sobald das VUI auf eine Datenbank, einen Webservice oder eine andere Schnittstelle zugreift, sollten Entwickler kritisch prüfen, ob auch passende Daten zurückkommen. Viele Backends sind auf grafische User-Interfaces ausgelegt und liefern Daten in einer Form, die für VUIs nicht passt. Beispielsweise ist es bei einer GUI-Anwendung oft in Ordnung, wenn sie dem Nutzer eine Liste mit zwanzig Elementen anzeigt. Bei einer VUI-Anwendung würden die meisten User aber spätestens nach dem dritten vorgelesenen Listeneintrag genervt abbrechen, weil sie davon schlicht überfordert sind. Deswegen ist eine Schritt-für-Schritt-Aufbereitung erforderlich, was wiederum eine komplette Transformation der vorhandenen Datenbankinhalte bedeutet. Ein gut strukturiertes Backend und eine sprachspezifische Datenaufbereitung sind entscheidend für die Qualität eines Voice-User-Interfaces.
Nach dem Launch kommt das Lernen
Nach dem Launch sollten VUI-Designer die echten Interaktionsdaten der Nutzer gewinnen und damit die Anwendung optimieren. Spätestens, wenn die ersten kritischen Bewertungen eintrudeln, sollten sie sich dringend tiefer mit Analytics beschäftigen. Mit den Analytics-Lösungen der Plattformanbieter können sie nicht nur den Erfolg und die Reichweite ihrer Anwendung messen, sondern auch Informationen zur tatsächlichen Nutzung und zu möglichen Problemen finden. Dabei gibt es – ähnlich wie bei Web-Analytics – unterschiedliche Informationen und Herangehensweisen, die von den eigenen Zielen abhängen.
Geht ein Unternehmen hauptsächlich auf Reichweite, so sind in erster Linie die Anzahl der Installationen und Nutzer interessant. Zielt es eher auf starke Nutzer-Interaktion ab, dann sind andere Punkte wichtig. Stellt es etwa fest, dass die Kernfunktion der Anwendung weniger genutzt wird als erwartet oder dass Anwender immer wieder die Hilfe- oder Fehlerfunktion aufrufen, dann verstehen Nutzer die App wahrscheinlich nicht oder sie passt doch noch nicht ganz zu ihren Wünschen. Daraus lassen sich Maßnahmen ableiten: Bei geringer Nutzung könnten Unternehmen etwa in das Marketing für die Anwendung investieren. Bei unerwarteter Nutzung hilft es dagegen, sich noch einmal eingehend mit den Anwendern und ihren Erwartungen zu befassen. Wie bei allen digitalen Lösungen gilt natürlich auch für Voice User-Interfaces: So richtig fertig sind sie nie.
Fazit
Viele etablierte Vorgehensweisen aus der Software-Entwicklung lassen sich auch auf Sprachanwendungen und VUIs übertragen. Auch dort sollten sich Unternehmen und Designer mit den potenziellen Nutzern beschäftigen, sauber konzipieren und erst dann in die technische Umsetzung gehen, um anschließend laufend zu optimieren. Der generelle Prozess ist damit zwar der gleiche wie bei herkömmlichen Entwicklungen, jedoch müssen Entwickler an einigen Stellen umdenken. Anwender nutzen VUIs anders als GUIs und auch ihre Erwartungen sind damit andere. Darüber hinaus entwickelt sich die technische Landschaft noch sehr stark. Auch wenn alle großen Plattformanbieter schon eine ganze Reihe von Geräten und Frameworks bereitstellen, ist noch offen, wer das Rennen macht und in welche Richtung sich die Trends entwickeln.
Es ist zu erwarten, dass sich – ähnlich wie in der Frühphase der mobilen Apps – Standards mehr und mehr etablieren und die Plattformanbieter diese kontinuierlich weiterentwickeln. Damit dürfte es in den kommenden Jahren einen Reifeprozess bei den Sprachanwendungen geben – bis sie vielleicht genauso selbstverständlich zum digitalen Werkzeugkasten gehören wie Websites oder Apps heute.