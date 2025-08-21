Das Prinzip von verbreiteten KI-Musikgeneratoren wie Suno, Udio und Riffusion ist immer recht ähnlich: Die User:innen geben einen Prompt mit den gewünschten Kriterien für den Song sowie wahlweise einen konkreten Liedtext ein und sie erhalten wenig später eine fertige Komposition. Das ermöglicht so ziemlich jedem Menschen, unabhängig davon, ob er oder sie musikalisch geschult ist, die Möglichkeit, Musik selbst zu erzeugen.

Drei Forscher:innen der Universität KAIST in Südkorea und Carnegie Mellon University gehen mit ihrer Entwicklung einen anderen Weg. Sie richten sich mit ihrem Amuse genannten Tool an Songschreiber:innen, die musikalische Inspirationen suchen, erweitern die Optionen für die Eingabe der Prompts und machen den Output einfach editierbar. Dabei setzen Sung-Ju Lee, Yewon Kim und Chris Donahue auf ein zweistufiges Verfahren, in dem gleich drei KI-Modelle zusammenarbeiten. Das dazugehörige Paper stellten die Drei auf der ACM Conference on Human Factors in Computing Systems (CHI) in Japan vor.

Strandbild als Inspiration für eine Melodie

Für ihre Studie integrierten sie Amuse in das Musikprogramm Hookpad. In dieses Programm können Musiker:innen über das Keybord oder Midi-Geräte Melodien und Akkorde einspeisen. Amuse ist dann als Chrome Extension in Form eines Extra-Fensters benutzbar. Dort können Songschreiber:innen von Null auf starten oder ihren Melodie-Ideen auf die Sprünge helfen. Dazu können sie ein Bild, etwa von einem Strand mit Palmen, und Gedanken dazu als Prompt eingeben. Außerdem können dazu generierte Keywords ausgesucht werden, die zu dem Strandbild passen. Amuse generiert daraus neue Songsequenzen. In Hookpad können die Musiker:innen dann direkt die einzelnen Akkorde bearbeiten.

Um ein Tool zu entwickeln, das einen leicht editierbaren Output ausgibt, haben die Forscher:innen auf drei verschiedene KI-Modelle gesetzt, die in einem zweistufigen Verfahren arbeiten.

In einem ersten Schritt generiert ein großes Sprachmodell (LLM) mögliche Akkordfolgen auf Basis der multimodalen Eingaben der Nutzer:innen. In einem zweiten Schritt kommen zwei kleinere neuronale Netzwerke zum Einsatz, die die möglichen Kandidaten aus dem ersten Schritt prüfen und mit musikalischen Mustern aus der tatsächlichen Musikwelt in Einklang bringen. „Sie filtern die Ergebnisse nach ihrer musikalischen Qualität“, beschreibt es Doktorandin Yewon.

Musiker:innen befragt

Die Idee zu dem Tool kam Yewon und ihren Kollegen durch Gespräche mit einer kleinen Gruppe an Songschreiber:innen. „Sie erzählten, dass sie den Prozess des Liederschreibens sowohl mit musikalischen Inspirationen, etwa Lieblingssongs, als auch mit nicht-musikalischen Inspirationen, zum Beispiel einem Roman, den sie gerade lesen, oder persönlichen Erfahrungen, beginnen“, so Yewon. Wichtig seien ihnen im Schaffensprozess vor allem Eigeninitiative, Eigenverantwortung und Kreativität. „Aus diesem Grund schätzten sie“, sagt die Doktorandin weiter, „modulare und symbolische KI-Vorschläge, beispielsweise im MIDI-Format, die sie leicht modifizieren und weiterentwickeln konnten.“

Gerade für professionelle Musiker:innen kommt es darauf an, einzelne Spuren oder musikalische Details im Songwriting-Prozess zu bearbeiten. Doch KI-Programme wie Udio und Suno generieren vollständige Audiotracks. Aus dem Feedback der Songschreiber:innen erfuhr das Forscher:innen-Trio, dass es für die Musiker:innen schwer war, daraus die für sie nützlichen Elemente zu extrahieren. Genau das ist also der Ansatzpunkt für Amuse.

In ähnlichem Fahrwasser schwimmt auch das KI-basierte Tool Mozualization mit, das auf derselben Konferenz wie Amuse vorgestellt wurde. Beide Werkzeuge lassen zwar multimodalen Input zu, aber Mozualization fokussiert auf einen anderen Punkt in der Musikproduktion. So gehen die Forscher:innen um Wanfang Xu von der University Suzhou in China von einem bereits bestehenden Audiotrack aus, das durch multimodalen Eingaben geremixt werden soll. Im Output kommt eine Audiodatei mit tatsächlicher Musik heraus. Das ist bei Amuse mit seinem Output als „symbolischer Musik“ in Form eines notations-basierten Formats (wie etwa Midi) nicht der Fall.

Die Falle des KI-Trainings mit Musik

Wenn es um generative KI-Tools geht, stellt sich immer auch die Frage der Trainingsdaten. Da Amuse speziell auf das Musikprogramm Hookpad ausgerichtet ist, haben die Forscher:innen die Modelle von Amuse mit dem vom Hersteller Hooktheory hinterlegten Datensatz trainiert. „Dabei handelt es sich um einen symbolische Musikkorpus, der aus realen Songs abgeleitet wurde, aber so strukturiert ist, dass er sich auf übergeordnete Kompositionsmuster, zum Beispiel Akkordfolgen und Melodielinien, konzentriert und nicht auf rohe Audiodaten“, sagt Yewon. Insofern sollte Amuse nicht in die Falle des KI-Trainings mit lizenzierter Musik laufen, in der sich aktuell Suno und Udio befinden.

Während das Team Amuse in Hookpad integriert hat, betont Yewon aber, dass „der zugrunde liegende Algorithmus zur Akkordgenerierung als Python-Code frei verfügbar ist, sodass jeder ihn unabhängig für die Akkordgenerierung nutzen kann.“

Die Beispiele von der KI-basierten Software Amuse und Mozualization zeigen, dass es durchaus noch Spielraum gibt für eine differenzierte Zielgruppe im Anwendungsfeld Musik. Es wird außerdem klar, dass KI in verschiedenen Stadien der Musikproduktion den Musiker:innen als unterstützendes Werkzeug helfen kann.

