An dem Sprach-KI-Modell Voice Engine arbeitet OpenAI schon länger. Es ist unter anderem die Grundlage für Anwendungen wie ChatGPT Voice. Auch das KI-Avatar-Tool Heygen setzt auf Voice Engine. Jetzt hat OpenAI Voice Engine erstmals offiziell vorgestellt.
15-sekündige Audioaufnahme reicht aus
Das Besondere: Anhand einer nur 15 Sekunden dauernden Audiodatei soll die Sprach-KI menschliche Stimmen klonen können, wie der Guardian berichtet. KI-generierte Sprachaufnahmen wären dann nicht mehr von den Originalsprecher:innen zu unterscheiden.
Mit dem Tool, so die Befürchtung von Beobachter:innen, würde Missbrauch Tür und Tor geöffnet, etwa, was Falschinformationen angeht. Im Superwahljahr 2024, in dem unter anderem in den USA und Europa wichtige Wahlen anstehen, sei das sehr riskant.
OpenAI gewährt Blick unter die Haube
OpenAI hat die Gefahr derweil erkannt. Das Missbrauchspotenzial ist wohl der Hauptgrund dafür, dass das KI-Modul bisher nicht öffentlich zugänglich gemacht wurde. Erst jetzt hat OpenAI einen Blick unter die Haube gewährt.
In einem Blogeintrag stellte das Unternehmen klar, dass es sich entschieden habe, die Technologie zwar zu zeigen, aber noch nicht zu veröffentlichen. Dadurch sollte die Gesellschaft die Möglichkeit erhalten, sich gegen durch generative KI-Modelle hervorgebrachte Herausforderungen abzusichern.
So empfiehlt OpenAI etwa die Abschaffung sprachbasierte Authentifizierung als Sicherheitsmaßnahme für den Zugriff auf Bankkonten oder andere sensible Informationen. Darüber hinaus sollten Richtlinien erstellt werden, die den Schutz der Stimmen von Einzelpersonen im KI-Bereich sicherstellen sollen.
Wasserzeichen für Sprachaufnahmen
Die von der OpenAI-KI erstellten Sprachaufnahmen werden zwar mit einer Art Wasserzeichen versehen, wodurch der Ursprung der Audiodateien nachvollzogen werden kann. Zudem müssen die Nutzer:innen, aktuell einige ausgesuchte Organisationen, öffentlich machen, dass sie die KI verwendet haben.
Ob das aber gegen potenziellen Missbrauch hilft, ist fraglich. Schließlich steht gerade bei großen Wahlen sowie lukrativen Bankkonten viel auf dem Spiel.
Während die OpenAI-Sprach-KI aufgrund ihrer Leistungsfähigkeit heraussticht, hat die Konkurrenz allerdings längst entsprechende Lösungen auf den Markt gebracht, etwa Elevenlabs. Dessen KI-Tool benötigt allerdings einige Minuten Audiovorlage, um Stimmen zu klonen.
Schutzfunktion in Sprach-KI-Tool
Um mögliche Risiken zu minimieren, hat Elevenlabs mit No-go-Voices eine Schutzfunktion eingebaut. Die soll verhindern, dass die Stimmen politischer Kandidat:innen imitiert werden, die aktiv an wichtigen Wahlen teilnehmen.
Wie ein von KI-Fotos und Deepfakes geprägter Wahlkampf aussehen kann, hat zuletzt Argentinien gezeigt. Dort hatten die sich gegenüberstehenden politischen Lager versucht, die jeweils andere Seite mithilfe von KI zu diskreditieren.