Warum Microsoft eine beeindruckende KI vorstellt, die künftig unter Verschluss bleibt

Microsoft hat eine KI entwickelt, die weiter hinter verschlossenen Türen bleibt. Denn sonst könnte es Probleme geben. (Foto: Volodymyr Kyrylyuk/Shutterstock)
Vall-E 2 heißt die neue Version der KI, die Microsoft im Rahmen eines Research-Posts vorgestellt hat. Bei der künstlichen Intelligenz handelt es sich um ein Sprachmodell, das realistisch Sprache nachahmen kann. Alles, was die KI dafür benötigt, sind wenige Sekunden einer Audiovorlage.
So beeindruckend ist Microsofts neue KI
Auf der Ankündigungsseite zu Vall-E 2 zeigt Microsoft einige Beispiele, wie die KI arbeitet. Um die Fertigkeiten von Vall-E 2 zu demonstrieren, hat Microsoft Sprecher:innen um kurze Audioaufnahmen gebeten. Diese beinhalten meist nur einen einzigen Satz. Obwohl das Quellmaterial recht dünn ist, kann die KI diesen Satz reibungslos nachsprechen.
Und nicht nur das: Die KI ist anhand der Vorlage auch imstande, eigene Sätze mit der Stimme der Sprecher:innen zu sagen. So gibt es eine Sprecherin, die die Sätze „To teach reading, means lighting the fire. Every syllable spelled out sparkles“ vorgibt. Das bedeutet im Deutschen etwa: „Lesen zu lehren, bedeutet, ein Feuer zu entzünden. Jede Silbe funkelt.“ Die KI hat sich diesen Audioclip als Vorlage genommen und kann reibungslos einen komplett anderen Satz mit Zungenbrecher daraus machen.
Dabei kann Vall-E 2 nicht nur die Intonation des vorgetragenen Satzes anpassen. Die KI fügt auch bei manchen Audioclips das Luftholen am Anfang des Satzes hinzu, obwohl dies nicht in der Vorlage vorhanden waren. Das scheint auch in ersten Tests Wirkung zu zeigen. Proband:innen wurden mehrere Aufnahmen von verschiedenen KI-Tools vorgespielt, die eine Stimme nachbilden. Das Ergebnis: Vall-E 2 konnte viele KI-Tools überflügeln und ähnlich gut wie menschliche Sprecher:innen abschneiden.
Warum Microsoft die KI unter Verschluss hält
Am Ende der Ankündigung verrät Microsoft, dass es sich bei Vall-E 2 um ein rein internes Forschungsprojekt handelt. Zwar gibt es viele Anwendungsgebiete, die von der KI profitieren könnten – wie Menschen, die nicht mehr sprechen können und durch die KI eine neue Stimme bekommen würden –, doch die Risiken sind laut Microsoft noch zu groß.
Die KI könnte genauso missbraucht werden, um Stimmen von Personen nachzuahmen. Dadurch könnten beispielsweise Sprachidentifikationsdienste umgangen oder Desinformationen verbreitet werden. Bevor diese KI überhaupt auf die Menschheit losgelassen werden kann, will Microsoft ein Protokoll entwickeln, über das sichergestellt werden kann, dass der Mensch hinter der Stimme der KI-Nutzung zustimmt. Wie dieses Protokoll aussehen könnte, verriet Microsoft bisher nicht.