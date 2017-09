Kein Bild und tausend Worte: Beim Gedanken an sprechende Geräte und Konversa­tion treibende Websites stöhnt so mancher Marketing-Verantwortliche auf. Zu Unrecht: Denn Unternehmen rücken mit Sprachassistenten so nah an ihre Kunden wie noch nie.

Bis wir so einfach mit Computern reden können wie die Mitglieder der Sternenflotte in Star Trek, wird es noch ein Weilchen dauern. Dazu ist die Spracherkennung zu komplex und die künstliche Intelligenz der digitalen Assistenten noch nicht ausgereift genug. Doch die Möglichkeiten des „Internet of Voice“ oder auch ­„Conversational Internet“ sind einfach zu verlockend: Immerhin lässt sich jedes Gerät und jede Anwendung mit Internetverbindung mit einem Sprachassistenten ausstatten. Anwendungs­beispiele gibt es schon – vom Kühlschrank über das Smartphone bis hin zum „sprechenden“ Auto. Und auch die Nutzer sind – zumindest theoretisch – alles andere als desinteressiert.

Umfragen wie die „Accenture Dynamic Digital Consumer“ Survey 2017“ oder die „Mindmeld Intelligent Voice Assistants Survey Q1 2016“ machen diese Tendenz deutlich. 30 Prozent der Befragten haben demnach Interesse an digitalen Sprachassistenten, jeder Zweite nutzt künstliche Intelligenz in unterschiedlicher Form schon heute mindestens einmal im Monat und 85 Prozent empfinden dies als Erleichterung. Marketing-Verantwortliche wird es freuen, dass sich bereits 54 Prozent der E-Commerce-Kunden von künstlicher Intelligenz zum Kauf motivieren ließen – und das, obwohl 90 Prozent Zweifel in Bezug auf die Datensicherheit bei der Nutzung von Sprachassistenten haben. Die Zahl der Erst- und Dauernutzer von Sprachassistenten nimmt kontinuierlich stark zu. Und dass die meisten Menschen Sprachassistenten nicht oder ungern in der Öffentlichkeit einsetzen, dürfte sich auch noch ändern – man denke nur an die privaten Gespräche, die viele Menschen heute schon in aller Öffentlichkeit an ihrem Handy führen.

Welche Systeme gibt es?

Die Potenziale, die im „Conversational Internet“ schlummern, treiben auch die großen Software-Hersteller an. Sie alle arbeiten an eigenen Sprachassistenten mit Schnittstellen zu Geräten und Software von Drittherstellern. Besonders relevant für deutsche Nutzer sind aktuell die Lösungen der großen Vier: Apples Siri, Microsofts Cortana, der Google Assistant und Amazon Alexa. Siri ist schon lange am Markt und bietet die hohen Qualitätsansprüche der Apple-Verifizierung. Amazon Alexa dagegen ist derzeit am häufigsten in Produkten von Drittherstellern zu finden.

Jedes dieser vier Systeme hat seine Schwerpunkte: Siri ist der mobile Assistent für die Hosentasche, der Nachrichten, Kalender und To-do-Listen verwaltet oder freihändiges Telefonieren ermöglicht. Google Assistant – der Nachfolger von Google Now – ist die Android-Alternative. Durch Googles breite Daten- und Wissensbasis mit Geodaten, Maps oder Google Books und vielem mehr ist er aber auch ein Suchassistent. Amazon Alexa ist vor allem für den privaten Raum konzipiert, spielt Musik, misst Kochzeiten, erzählt Witze und steuert das smarte Heim. Cortana schließlich ist der Assistent für den Computer, mit dem sich einige Aufgaben bequemer erledigen lassen. Doch das ist nur der aktuelle Stand. Generell sind die Leistungsfähigkeit und Intelligenz der Sprachassistenten heute noch verhältnismäßig gering, gemessen an dem, was in der Science-Fiction schon lange vorstellbar ist. Jede technische Lösung kann ihre Positionierung durch Weiterentwicklungen daher noch deutlich verändern. Nicht zuletzt bestimmen die Gerätehersteller, welche Assistenten künftig welche Anwendungszwecke bedienen.

Kein Wunder, dass alle Assistenten Schnittstellen aufweisen, um etwa Smart-Home-Geräte ansteuern oder sich in die Software Dritter integrieren zu können. Apple Homekit, Google Actions oder Cortana Devices schaffen die Verbindung zu fast allen gängigen Gerätemarken. Dazu gehören Homematic, Tado, Osram, Philips, Lenovo oder Bosch. Die Unternehmen freuen sich dank der Sprachassistenten über deutlich höhere Umsätze als die Softwarespezialisten selbst. Denn das Conversational Internet braucht nur wenige Sprachassistenten – aber unzählige schaltbare Steckdosen. Alleine in den USA soll laut Statista das Smart-Home-Entertainment-Segment mehr als 24 Prozent pro Jahr wachsen. Bis 2021 soll der gesamte Smart-Home-Markt weltweit rund 80 Milliarden US-Dollar wert sein. Das will sich keiner entgehen lassen.

Auch Amazon nicht. Für sein Voice-First-Gerät Echo bietet der Konzern in den USA mehr als 10.000 Apps – sogenannte „Voice Skills“, die den Sprachassistenten Alexa erweitern, etwa um Smart-Home-Schnittstellen oder Spiele. Letztere sind bald vielleicht auch in Gruppen möglich und eröffnen dann völlig neue Per­s­pektiven für das Gaming. Und auch die Gerätehersteller arbeiten daran, die Steuerung ihrer Geräte per Sprachassistent zu ermöglichen: So hat etwa der Autobauer Ford auf der CES 2017 in Las Vegas angekündigt, Alexa in sein Infotainment-System integrieren zu wollen.

Amazon übt mit dem Voice-First-­Gerät Echo Druck auf seine Mitbewerber Apple, Google und Microsoft aus. Die Echo-Erweiterungen „Voice Skills“ gelten jetzt schon als die Apps der Zukunft, obwohl es noch gar keinen Marktplatz gibt, auf dem sie sich vermarkten ließen. Google zieht mit einem sprechenden Lautsprecher nach: Google Home liefert auf ein „OK, Google“ Suchergebnisse, startet Playlists, schlägt Alarm, liest Kalendereinträge, Wetterberichte, Nachrichten oder Staumeldungen vor und steuert Smart-Home-Anwendungen. (Fotos: Amazon, Google)

Künstliche Intelligenz und Sprachoptimierung

Ob Suchanfrage, Kalendereintrag, Whatsapp-Nachricht oder SMS: Die meisten Funktionen heutiger Sprachassistenten basieren noch auf der Kommandoebene. Einen natürlichen Dialog, etwa mit Rückfragen oder Bestätigungen, gibt es zwischen Mensch und Maschine bisher kaum. Kein Wunder, mussten Entwickler doch bislang ganz anders vorgehen: Sie sind es gewohnt, den kürzesten Weg zu einem Ziel einzuschlagen und damit in Schlagworten – und nicht in ganzen Sätzen – zu denken. Doch genau dieser Kontext ist bei einer natürlichen Sprache das A und O. Auf dem Bildschirm kann jeder aus einer Liste einen Punkt wählen. Liest ein Sprachassistent die gleiche Liste vor, hat man den ersten Punkt schon wieder vergessen, bevor er fertig ist.