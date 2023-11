Nach dem Hickhack um die Entlassung und Wiedereinstellung von Mitbegründer und CEO Sam Altman gibt es wieder eine unkompliziert positive Nachricht um OpenAI: Das KI-Unternehmen hat für seinen Chatbot ChatGPT eine Voice-Option veröffentlicht. Das Feature ist für alle Nutzer:innen der frei zugänglichen App verfügbar. Das hat OpenAI auf der Plattform X bekannt gegeben.

Angekündigt hatte OpenAI das Update bereits im September 2023. Es war bisher nur für Plus- und Enterprise-Nutzer:innen zugängig.

Die Möglichkeit, gesprochene Sprache in Text umzuwandeln, beherrschte das Sprachmodell schon vorher. Nun antwortet ChatGPT auch mit einer menschenähnlicher Stimme.

So sprichst du mit ChatGPT Voice

Um ChatGPT Voice zu nutzen, musst du den Menüpunkt Einstellungen öffnen. Dort liegt die Sprachoption hinter dem Punkt „neue Funktionen“. Einmal aktiviert, taucht in den Chatverläufen ein Kopfhörer-Icon auf. Klickt man darauf, taucht ein großer weißer Kreis vor schwarzem Hintergrund auf. Das bedeutet, dass die KI bereit ist, dir zuzuhören.

Wenn du deine Frage einspricht, bewegen sich vier kleine Kreise in schwingungsartiger Form als Zeichen, dass die Aufnahme funktioniert. Ähnliches kennt man von Apps und Features im Stil von Tonaufnahmegeräten. Während die künstliche Intelligenz die Frage bearbeitet und die Antwort vorbereitet, bewegt sich eine comicartige Gedankenblase.

5 Stimmen stehen zur Wahl

Du kannst unter fünf synthetischen Stimmen wählen. Drei davon klingen weiblich, zwei männlich. Man kann sich Stimmproben aller fünf Optionen anhören. Alle sind betont unkünstlich, an natürlicher Sprache orientiert.

Standardmäßig antwortet die KI in amerikanischem Englisch. Es gibt aber auch Übersetzungen in andere Sprachen, darunter auch Deutsch.

Beispiel: So nahe am gewohnten Chat ist die Voice-Option

Auf X spielt ein Demovideo eine Konversation durch. Dabei wird ChatGPT Voice die Frage gestellt, wie viele Pizzen mit einem Durchmesser von 16 Inch (ca. 40 Zentimeter) man für eine Gruppe von 778 Personen bestellen sollte. 195 Pizzen lautet die Antwort, wenn man von drei Stücken pro Person ausgeht.

Das Beispiel zeigt, dass Voice genauso wie der von ChatGPT gewohnte Textmodus funktioniert. Die KI stellt Berechnungen an, greift dafür auf Weltwissen und statistische Wahrscheinlichkeiten zurück (drei Pizzastücke pro Person). Danach fragt die Stimme, ob man noch weitere Infos zur kulinarischen Versorgung großer Gruppen wünscht.

Whisper und neues Modell: So funktioniert ChatGPT Voice

Laut ChatGPT basiert Voice technisch auf zwei Schritten. Zunächst wird über das Spracherkennungstool Whisper die mündliche Rede in Schrift umgewandelt. Diesen Text verarbeitet dann der Chatbot wie gewohnt. Whisper verwendet OpenAI schon länger. In einem zweiten Schritt wird über ein neues Modell der Text, den der Bot liefert, wiederum in Sprache umgerechnet.

Dieses neue Tool kann aus einem Text und einer nur wenige Sekunden langen Sprachprobe eine menschenähnlich klingende Stimme generieren. Für die fünf zur Auswahl stehenden Stimmen hat OpenAI professionelle Sprecher:innen angeheuert. Künftig soll es aber auch möglich sein, aus seiner eigenen Stimme einen Sprach-Bot zu kreieren.