Anzeige
Anzeige
News

Nach Dall‑E kommt Vall‑E und imitiert menschliche Stimmen nahezu perfekt

Eine auf Meta-Technologie basierende Microsoft-KI soll Stimmen perfekt simulieren können – nur aufgrund eines dreisekündigen Audiosamples. Vall‑E ist eigentlich für Text-to-Speech-Anwendungen gedacht, hat aber hohes Missbrauchspotenzial.

2 Min.
Artikel merken
Anzeige
Anzeige

Die Sprach-KI Vall‑E imitiert menschliche Stimmen täuschend echt. (Bild: Luckystep/Shutterstock)

Während sich der KI-Bildgenerator Dall‑E mit dem Erschaffen von Bildern nach Textanweisungen beschäftigt, soll Vall‑E Text mit menschlichen Stimmen äußern – und dabei den Originalen erschreckend nahekommen. Die von Microsoft auf Basis der Meta-Technologie Encodec entwickelte KI benötigt dazu angeblich nicht mehr als ein dreisekündiges Audiosample.

Anzeige
Anzeige

Text to Speech: Vall‑E spricht menschlich

Hat Vall‑E eine bestimmte Stimme erlernt, können Nutzer:innen diese Stimme einen beliebigen Text nachsprechen lassen. Auch Emotionen und der typische Tonfall der Nachgeahmten sollen perfekt simuliert werden.

Das funktioniert zum Teil schon sehr gut, wie entsprechende Beispiele auf einer eigens eingerichteten Seite zeigen. Vall‑E soll künftig sogar die Sprechsituation simulieren können, etwa, ob die Person über ein Handy spricht. Das öffnet Audio-Deepfakes natürlich Tür und Tor.

Anzeige
Anzeige

Dabei ist es das erklärte Ziel der Microsoft-Entwickler:innen, hochwertige Text-to-Speech-Anwendungen möglich zu machen. So könnten etwa Podcasts oder Hörbücher mit den Originalstimmen der Autor:innen eingesprochen werden, ohne dass diese physisch im Studio sein müssten.

Detektor für Deepfake-Missbrauch mit Stimmen

Aber es ist natürlich ebenso denkbar, dass man einen Menschen etwas sagen lässt, das dieser nie gesagt hat – mit einer täuschend echt nachgeahmten Stimme. Das könnte nicht nur die Beweiskraft von Tonaufnahmen vor Gericht oder bei der journalistischen Arbeit zunichtemachen, sondern auch politische Konflikte auslösen oder anheizen.

Anzeige
Anzeige

Immerhin sind sich die Macher:innen dieses Problems bewusst. Bisher ist es entsprechend nicht möglich, an den Code zu gelangen und diesen zu testen oder weiterzuentwickeln. Zudem könnten Hürden für Betrugsversuche eingebaut werden, etwa eine Art Detektor, der Vall‑E-Fakes erkennen soll.

Imitation noch nicht immer ganz perfekt

Noch ist die Technologie wohl nicht ausgereift genug, um wirklich jede menschliche Stimme perfekt zu imitieren. So klingen einige der Beispiele der KI noch sehr nach Computerstimme.

Anzeige
Anzeige
Dall-E Mini Quelle:

Zudem beruht der aktuelle Entwicklungsstand auf dem Training mit 60.000 Stunden Audiomaterial von gut 7.000 englischsprachigen Sprecher:innen. Damit Vall‑E ein gutes Ergebnis erzielt, muss das dreisekündige Tonbeispiel einer der Stimmen in den Trainingsdaten sehr nahekommen.

Eine entsprechende Weiterentwicklung könnte aber freilich in kurzer Zeit vonstattengehen, wenn mehr und vielfältigere Sprachdaten zur Verfügung stehen. Wohin die Reise gehen könnte, haben sich die Entwickler:innen auch schon ausgemalt, wie Ars Technica berichtet: Gemeinsam mit anderen KI-Modellen wie GPT‑3 könnte Vall‑E ganze Audiowelten erschaffen.

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren

Anzeige
Anzeige