Nvidia, wertvollstes Unternehmen der Welt und Marktführer bei Chips, die für Künstliche Intelligenz genutzt werden können, hat ein KI-Modell entwickelt, das nicht nur in der Lage ist, aus einem Textprompt Musik und sonstige Audio-Klänge zu erstellen. Fugatto (Foundational Generative Audio Transformer Opus 1), so der Name des neuen Modells, kann auch bestehende Audioaufnahmen modifizieren und komplett neuartige Klänge erzeugen.
Text-zu-Sound-KI stößt auf kommerzielles Interesse
Das dürfte sicherlich für die kommerzielle Nutzung höchst interessant sein. Dazu wird es aber vorerst nicht kommen. Nvidia hat vielmehr angegeben, dass es keine unmittelbaren Pläne für eine Veröffentlichung der Technologie gibt, wie Reuters berichtet.
Auch andere Unternehmen, darunter das Startup Runway, aber ebenso die Branchengrößen Meta und OpenAI, haben Audio-KI im Portfolio. Was Fugatto von anderen unterscheidet, ist zugleich das größte Problem des neuen KI-Modells.
Fugatto mit massivem Unterscheidungsmerkmal
Denn Fugatto generiert aus einer Textbeschreibung nicht nur Soundeffekte, wie die anlässlich der Präsentation vorgestellte Trompete, die klingt wie ein bellender Hund. Sie ist zudem in der Lage, vorhandene Audiodaten aufzunehmen und zu modifizieren.
So könnte sie beispielsweise eine auf einem Klavier gespielte Melodie in eine von einer menschlichen Stimme gesungene Melodie umwandeln. Ebenso könnte sie eine Sprachaufnahme nehmen und etwa den verwendeten Akzent oder die ausgedrückte Stimmung ändern.
„Wenn wir an synthetische Klänge in den vergangenen 50 Jahren denken, klingt Musik heute anders, dank Computern und Synthesizern“, so Bryan Catanzaro, Vizepräsident für angewandte Deep-Learning-Forschung bei Nvidia. „Ich denke, dass die generative KI neue Möglichkeiten für Musik, Videospiele und ganz normale Menschen bieten wird, die etwas erschaffen wollen.“
Das neue Modell von Nvidia wurde mit Open-Source-Daten trainiert. Ob und wie es zugänglich gemacht werden soll, muss sich Nvidia noch genauestens überlegen. Catanzaro dazu: „Jede generative Technologie birgt immer gewisse Risiken, da Menschen sie nutzen könnten, um Dinge zu generieren, die wir lieber nicht hätten. Wir müssen vorsichtig sein, weshalb wir keine unmittelbaren Pläne haben, dies zu veröffentlichen.“
Fugattos Kehrseite: Deepfakes Tür und Tor geöffnet
Der bevorstehende Konflikt ist offensichtlich. Wenn Fugatto Stimmen ändern oder sogar austauschen oder deren Aussagen in einer anderen Stimmung erscheinen lassen kann, wie ist sichergestellt, dass das Modell nicht missbraucht wird?
Die Diskussion darüber ist bereits in vollem Gange. Vor einigen Monaten hatte Hollywood-Star Scarlett Johansson OpenAI beschuldigt, ihre Stimme künstlich zu imitieren. OpenAI steht bereits in Verhandlungen mit Hollywood-Studios darüber, ob und wie die KI in der Unterhaltungsindustrie eingesetzt werden könnte. Die Künstler:innen zeigen sich wenig begeistert.
Auch OpenAI und Meta haben sich bisher nicht dazu geäußert, wann sie planen, ihre Modelle, die Audio oder Video generieren, der Öffentlichkeit zugänglich zu machen.