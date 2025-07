Eine Technik, die in Fachkreisen „maschinelles Entlernen“ genannt wird, könnte KI-Modellen beibringen, bestimmte Stimmen zu vergessen – ein wichtiger Schritt, um die Zunahme von Audio-Deep-Fakes zu stoppen, bei denen die Stimme einer Person kopiert wird, um Fake-News zu erzeugen oder zu betrügen. Jüngste Fortschritte im Bereich der KI-Sprachgeneratoren haben die Qualität der Sprache-zu-Text-Technologie revolutioniert, sodass Menschen einen Text überzeugend mit einer beliebigen Stimme wiedergeben können. Sprachmuster und Intonationen klingen natürlich. Roboterstimmen, die Wort für Wort vorlesen, waren gestern.

„Die Stimme einer beliebigen Person kann mit nur wenigen Sekunden ihrer Stimme reproduziert oder kopiert werden“, sagt Jong Hwan Ko, Professor an der Sungkyunkwan University in Korea und Mitautor eines neuen Fachartikels, das eine der ersten Anwendungen des maschinellen Nichtlernens für die Spracherzeugung zeigt.

KI-Firmen haben ihre Modelle im Allgemeinen fest im Griff, um Missbrauch zu verhindern. Wenn man beispielsweise unter ChatGPT bittet, einem die Telefonnummer von jemandem oder Anweisungen für etwas Illegales herauszugeben, wird es wahrscheinlich nur sagen, dass es nicht helfen kann. Wie jedoch viele Beispiele im Laufe der Zeit gezeigt haben, können geschicktes Prompt-Engineering oder Modell-Feinabstimmung diese Modelle manchmal dazu bringen, Dinge zu sagen, die sie sonst nicht sagen würden. Die unerwünschten Informationen können sich immer noch irgendwo in dem Modell verstecken, so dass man mit den richtigen Techniken darauf zugreifen kann.

Gegenwärtig neigen die Unternehmen dazu, dieses Problem gewissermaßen durch Leitplanken zu lösen. Die Idee dahinter ist, zu überprüfen, ob die Eingabeaufforderungen oder die Antworten der KI unzulässiges Material enthalten. Beim maschinellen Entlernen geht es stattdessen darum, ob eine KI dazu gebracht werden kann, eine Information zu vergessen, die das Unternehmen nicht wissen will.

KI-Modelle ist im Nachhinein verbessern

Bei dieser Technik werden ein sogenanntes undichtes Modell und die spezifischen Trainingsdaten, die geschwärzt werden sollen, verwendet, um ein neues Modell zu erstellen – im Wesentlichen eine Version des ursprünglichen Modells, das diese Daten nie gelernt hat. Obwohl das maschinelle Entlernen auf ältere Techniken in der KI-Forschung zurückgeht, wurde es erst in den letzten Jahren auf große Sprachmodelle angewandt.

Jinju Kim, ein Masterstudent an der Sungkyunkwan University, der zusammen mit Ko und anderen an der Studie gearbeitet hat, sieht die Leitplanken als Zäune um die schlechten Daten, die errichtet wurden, um die Menschen davon abzuhalten, sie zu verwenden. „Man kann den Zaun nicht durchbrechen, aber einige Leute werden trotzdem versuchen, unter dem Zaun hindurch oder über den Zaun zu gehen“, sagt Kim. Beim Verlernen wird jedoch versucht, die schlechten Daten ganz zu entfernen, so dass überhaupt nichts mehr hinter dem Zaun zu finden ist.

Die Art und Weise, wie die derzeitigen Sprache-zu-Text-Systeme konzipiert sind, erschwert die Sache allerdings noch ein wenig. Diese so genannten „Zero-Shot“-Modelle verwenden Sprachbeispiele von Menschen, um zu lernen, jede beliebige Stimme nachzubilden, auch solche, die nicht im Trainingssatz enthalten sind – mit genügend Daten kann es eine gute Nachahmung sein, wenn auch nur eine kleine Probe der Stimme einer Person erhält. „Verlernen“ bedeutet also, dass ein Modell nicht nur Stimmen „vergessen“ muss, auf die es trainiert wurde, sondern auch lernen muss, bestimmte Stimmen nicht nachzuahmen, auf die es nicht trainiert wurde. Gleichzeitig muss es aber auch bei anderen Stimmen nach wie vor gut funktionieren.

Um zu demonstrieren, wie sich das erzielen lässt, brachte Kim einer Nachbildung von VoiceBox, einem Spracherzeugungsmodell von Meta Folgendes bei: Es antwortet auf die Aufforderung, ein Textbeispiel in einer der zu vermeidenden Stimmen zu produzieren, mit einer zufälligen Stimme. Um diese Stimmen realistisch zu machen, „lehrt“ sich das Modell selbst, indem es zufällige, von ihm selbst erzeugte Stimmen verwendet.

Schlechtere Imitation

Laut den Ergebnissen des Teams, die es Mitte Juli auf der International Conference on Machine Learning vorgestellt hat, führt die Aufforderung, eine „verlernte“ Stimme zu imitieren – laut modernsten Werkzeugen, die die Ähnlichkeit der Stimme messen – dazu, dass die vergessene Stimme um mehr als 75 Prozent weniger effektiv imitiert wird als zuvor.

In der Praxis ist die neue Stimme damit unverkennbar anders. Aber die Vergesslichkeit hat einen Preis: Das Modell ist etwa 2,8 Prozent schlechter darin, erlaubte Stimmen zu imitieren. Während diese Prozentzahlen etwas schwer zu interpretieren sind, bietet die von den Forschern online veröffentlichte Demo sehr überzeugende Ergebnisse, sowohl dafür, wie gut bestimmte Sprecher vergessen werden, als auch dafür, wie gut der Rest in Erinnerung bleibt. Ein Beispiel aus der Demo ist hier zu sehen.

Laut Ko kann der Verlernprozess „mehrere Tage“ dauern, je nachdem, wie viele Sprecher die Forscher löschen wollen. Für jeden Sprecher, dessen Stimme vergessen werden soll, ist ein etwa fünf Minuten langer Audioclip nötig. Beim maschinellen Entlernen werden oft Teile der Daten durch Zufallsdaten ersetzt, damit sie nicht wieder in das Original zurückverwandelt werden können. In dieser Arbeit ist der Zufallswert für die vergessenen Sprecher sehr hoch – ein Zeichen dafür, so die Autoren, dass sie vom Modell wirklich vergessen werden.

„Ich habe schon in anderen Zusammenhängen gesehen, dass man die Zufälligkeit optimiert hat“, sagt die Doktorandin Vaidehi Patil von der University of North Carolina in Chapel Hill, die auf dem Gebiet des maschinellen Entlernens forscht. „Dies ist eine der ersten Arbeiten, die ich für Sprache gesehen habe.“ Patil organisiert im Rahmen der Konferenz einen Workshop zum maschinellen Entlernen, auf dem auch die Forschungsergebnisse zum Entlernen von Sprache vorgestellt werden.

Anfällig für Missbrauch

Sie weist darauf hin, dass das Verlernen selbst einen Kompromiss zwischen Effizienz und Vergesslichkeit darstellt, da der Prozess Zeit in Anspruch nimmt und die Benutzerfreundlichkeit des endgültigen Modells beeinträchtigen kann. „Es gibt nichts umsonst. Man muss gewisse Kompromisse eingehen“, sagt sie.

Das maschinelle Lernen befindet sich vielleicht noch in einem zu frühen Stadium, als dass Meta die Methoden von Ko und Kim in VoiceBox einführen könnte. Aber das Interesse der Industrie dürfte vorhanden sein. Patil erforscht in diesem Sommer für Google DeepMind das Verlernen von Sprache, und Meta hat zwar nicht mit einem Kommentar geantwortet, aber hat lange gezögert, VoiceBox für die breite Öffentlichkeit freizugeben, weil es so anfällig für Missbrauch ist.

Das Team für das Verlernen von Sprache scheint optimistisch zu sein, dass seine Arbeit eines Tages gut genug sein könnte, um im echten Leben einzusetzen. „In realen Anwendungen bräuchten wir schnellere und skalierbarere Lösungen“, sagt Ko. „Wir versuchen, diese zu finden.“

Peter Hall arbeitet als Editorial Fellow bei der US-amerikanischen Ausgabe von MIT Technology Review. Er ist Doktorand im Forschungsgebiet der theoretischen Kryptografie an der New York University.