Nach Dall‑E kommt Vall‑E und imitiert menschliche Stimmen nahezu perfekt

News

Nach Dall‑E kommt Vall‑E und imitiert menschliche Stimmen nahezu perfekt

Eine auf Meta-Technologie basierende Microsoft-KI soll Stimmen perfekt simulieren können – nur aufgrund eines dreisekündigen Audiosamples. Vall‑E ist eigentlich für Text-to-Speech-Anwendungen gedacht, hat aber hohes Missbrauchspotenzial.

Von Jörn Brien

10.01.2023, 12:00 Uhr • 2 Min.

Nach Dall‑E kommt Vall‑E und imitiert menschliche Stimmen nahezu perfekt — Die Sprach-KI Vall‑E imitiert menschliche Stimmen täuschend echt. (Bild: Luckystep/Shutterstock)

Während sich der KI-Bildgenerator Dall‑E mit dem Erschaffen von Bildern nach Textanweisungen beschäftigt, soll Vall‑E Text mit menschlichen Stimmen äußern – und dabei den Originalen erschreckend nahekommen. Die von Microsoft auf Basis der Meta-Technologie Encodec entwickelte KI benötigt dazu angeblich nicht mehr als ein dreisekündiges Audiosample.

Text to Speech: Vall‑E spricht menschlich

Hat Vall‑E eine bestimmte Stimme erlernt, können Nutzer:innen diese Stimme einen beliebigen Text nachsprechen lassen. Auch Emotionen und der typische Tonfall der Nachgeahmten sollen perfekt simuliert werden.

Empfehlungen der Redaktion

Analyse

So sieht es aus, wenn KI einen automatisierten Podcast baut

Analyse

Speech2Text2Speech: Spreche ich mit KI?

News

ChatGPT: Mächtige Waffe in Händen von Skriptkiddies

Das funktioniert zum Teil schon sehr gut, wie entsprechende Beispiele auf einer eigens eingerichteten Seite zeigen. Vall‑E soll künftig sogar die Sprechsituation simulieren können, etwa, ob die Person über ein Handy spricht. Das öffnet Audio-Deepfakes natürlich Tür und Tor.

Dabei ist es das erklärte Ziel der Microsoft-Entwickler:innen, hochwertige Text-to-Speech-Anwendungen möglich zu machen. So könnten etwa Podcasts oder Hörbücher mit den Originalstimmen der Autor:innen eingesprochen werden, ohne dass diese physisch im Studio sein müssten.

Detektor für Deepfake-Missbrauch mit Stimmen

Aber es ist natürlich ebenso denkbar, dass man einen Menschen etwas sagen lässt, das dieser nie gesagt hat – mit einer täuschend echt nachgeahmten Stimme. Das könnte nicht nur die Beweiskraft von Tonaufnahmen vor Gericht oder bei der journalistischen Arbeit zunichtemachen, sondern auch politische Konflikte auslösen oder anheizen.

Immerhin sind sich die Macher:innen dieses Problems bewusst. Bisher ist es entsprechend nicht möglich, an den Code zu gelangen und diesen zu testen oder weiterzuentwickeln. Zudem könnten Hürden für Betrugsversuche eingebaut werden, etwa eine Art Detektor, der Vall‑E-Fakes erkennen soll.

Imitation noch nicht immer ganz perfekt

Noch ist die Technologie wohl nicht ausgereift genug, um wirklich jede menschliche Stimme perfekt zu imitieren. So klingen einige der Beispiele der KI noch sehr nach Computerstimme.

Zudem beruht der aktuelle Entwicklungsstand auf dem Training mit 60.000 Stunden Audiomaterial von gut 7.000 englischsprachigen Sprecher:innen. Damit Vall‑E ein gutes Ergebnis erzielt, muss das dreisekündige Tonbeispiel einer der Stimmen in den Trainingsdaten sehr nahekommen.

Eine entsprechende Weiterentwicklung könnte aber freilich in kurzer Zeit vonstattengehen, wenn mehr und vielfältigere Sprachdaten zur Verfügung stehen. Wohin die Reise gehen könnte, haben sich die Entwickler:innen auch schon ausgemalt, wie Ars Technica berichtet: Gemeinsam mit anderen KI-Modellen wie GPT‑3 könnte Vall‑E ganze Audiowelten erschaffen.

Bildergalerie ansehen

Mehr zu diesem Thema

MIT Technology Review Deepfake Künstliche Intelligenz Microsoft Meta

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren