An dem Sprach-KI-Modell Voice Engine arbeitet OpenAI schon länger. Es ist unter anderem die Grundlage für Anwendungen wie ChatGPT Voice. Auch das KI-Avatar-Tool Heygen setzt auf Voice Engine. Jetzt hat OpenAI Voice Engine erstmals offiziell vorgestellt.
15-sekündige Audioaufnahme reicht aus
Das Besondere: Anhand einer nur 15 Sekunden dauernden Audiodatei soll die Sprach-KI menschliche Stimmen klonen können, wie der Guardian berichtet. KI-generierte Sprachaufnahmen wären dann nicht mehr von den Originalsprecher:innen zu unterscheiden.
Mit dem Tool, so die Befürchtung von Beobachter:innen, würde Missbrauch Tür und Tor geöffnet, etwa, was Falschinformationen angeht. Im Superwahljahr 2024, in dem unter anderem in den USA und Europa wichtige Wahlen anstehen, sei das sehr riskant.
OpenAI gewährt Blick unter die Haube
OpenAI hat die Gefahr derweil erkannt. Das Missbrauchspotenzial ist wohl der Hauptgrund dafür, dass das KI-Modul bisher nicht öffentlich zugänglich gemacht wurde. Erst jetzt hat OpenAI einen Blick unter die Haube gewährt.
In einem Blogeintrag stellte das Unternehmen klar, dass es sich entschieden habe, die Technologie zwar zu zeigen, aber noch nicht zu veröffentlichen. Dadurch sollte die Gesellschaft die Möglichkeit erhalten, sich gegen durch generative KI-Modelle hervorgebrachte Herausforderungen abzusichern.
So empfiehlt OpenAI etwa die Abschaffung sprachbasierte Authentifizierung als Sicherheitsmaßnahme für den Zugriff auf Bankkonten oder andere sensible Informationen. Darüber hinaus sollten Richtlinien erstellt werden, die den Schutz der Stimmen von Einzelpersonen im KI-Bereich sicherstellen sollen.
Wasserzeichen für Sprachaufnahmen
Die von der OpenAI-KI erstellten Sprachaufnahmen werden zwar mit einer Art Wasserzeichen versehen, wodurch der Ursprung der Audiodateien nachvollzogen werden kann. Zudem müssen die Nutzer:innen, aktuell einige ausgesuchte Organisationen, öffentlich machen, dass sie die KI verwendet haben.
Ob das aber gegen potenziellen Missbrauch hilft, ist fraglich. Schließlich steht gerade bei großen Wahlen sowie lukrativen Bankkonten viel auf dem Spiel.
Während die OpenAI-Sprach-KI aufgrund ihrer Leistungsfähigkeit heraussticht, hat die Konkurrenz allerdings längst entsprechende Lösungen auf den Markt gebracht, etwa Elevenlabs. Dessen KI-Tool benötigt allerdings einige Minuten Audiovorlage, um Stimmen zu klonen.
Schutzfunktion in Sprach-KI-Tool
Um mögliche Risiken zu minimieren, hat Elevenlabs mit No-go-Voices eine Schutzfunktion eingebaut. Die soll verhindern, dass die Stimmen politischer Kandidat:innen imitiert werden, die aktiv an wichtigen Wahlen teilnehmen.
Wie ein von KI-Fotos und Deepfakes geprägter Wahlkampf aussehen kann, hat zuletzt Argentinien gezeigt. Dort hatten die sich gegenüberstehenden politischen Lager versucht, die jeweils andere Seite mithilfe von KI zu diskreditieren.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team