Während sich der KI-Bildgenerator Dall‑E mit dem Erschaffen von Bildern nach Textanweisungen beschäftigt, soll Vall‑E Text mit menschlichen Stimmen äußern – und dabei den Originalen erschreckend nahekommen. Die von Microsoft auf Basis der Meta-Technologie Encodec entwickelte KI benötigt dazu angeblich nicht mehr als ein dreisekündiges Audiosample.
Text to Speech: Vall‑E spricht menschlich
Hat Vall‑E eine bestimmte Stimme erlernt, können Nutzer:innen diese Stimme einen beliebigen Text nachsprechen lassen. Auch Emotionen und der typische Tonfall der Nachgeahmten sollen perfekt simuliert werden.
Das funktioniert zum Teil schon sehr gut, wie entsprechende Beispiele auf einer eigens eingerichteten Seite zeigen. Vall‑E soll künftig sogar die Sprechsituation simulieren können, etwa, ob die Person über ein Handy spricht. Das öffnet Audio-Deepfakes natürlich Tür und Tor.
Dabei ist es das erklärte Ziel der Microsoft-Entwickler:innen, hochwertige Text-to-Speech-Anwendungen möglich zu machen. So könnten etwa Podcasts oder Hörbücher mit den Originalstimmen der Autor:innen eingesprochen werden, ohne dass diese physisch im Studio sein müssten.
Detektor für Deepfake-Missbrauch mit Stimmen
Aber es ist natürlich ebenso denkbar, dass man einen Menschen etwas sagen lässt, das dieser nie gesagt hat – mit einer täuschend echt nachgeahmten Stimme. Das könnte nicht nur die Beweiskraft von Tonaufnahmen vor Gericht oder bei der journalistischen Arbeit zunichtemachen, sondern auch politische Konflikte auslösen oder anheizen.
Immerhin sind sich die Macher:innen dieses Problems bewusst. Bisher ist es entsprechend nicht möglich, an den Code zu gelangen und diesen zu testen oder weiterzuentwickeln. Zudem könnten Hürden für Betrugsversuche eingebaut werden, etwa eine Art Detektor, der Vall‑E-Fakes erkennen soll.
Imitation noch nicht immer ganz perfekt
Noch ist die Technologie wohl nicht ausgereift genug, um wirklich jede menschliche Stimme perfekt zu imitieren. So klingen einige der Beispiele der KI noch sehr nach Computerstimme.
Zudem beruht der aktuelle Entwicklungsstand auf dem Training mit 60.000 Stunden Audiomaterial von gut 7.000 englischsprachigen Sprecher:innen. Damit Vall‑E ein gutes Ergebnis erzielt, muss das dreisekündige Tonbeispiel einer der Stimmen in den Trainingsdaten sehr nahekommen.
Eine entsprechende Weiterentwicklung könnte aber freilich in kurzer Zeit vonstattengehen, wenn mehr und vielfältigere Sprachdaten zur Verfügung stehen. Wohin die Reise gehen könnte, haben sich die Entwickler:innen auch schon ausgemalt, wie Ars Technica berichtet: Gemeinsam mit anderen KI-Modellen wie GPT‑3 könnte Vall‑E ganze Audiowelten erschaffen.