Erst im August 2023 hat Stability AI, das Startup hinter der Bild-KI Stable Diffusion, mit Stablecode ein KI-Modell angekündigt, das Programmier:innen bei der Erstellung von Code unter die Arme greifen soll. Jetzt nehmen die Stable-Diffusion-Macher den Musikmarkt aufs Korn.
Kurze Songs über Prompts selbst erstellen
Mit der Text-to-Audio-KI Stable Audio sollen Nutzer:innen über die Eingabe entsprechender Prompts Audioinhalte erstellen können. Das Besondere: Stable Audio soll die erste Audio-KI sein, die dank eines rudimentären Verständnisses für den Aufbau von Songs auch Musikstücke komponieren kann.
Darüber hinaus stellt Stable Audio Soundkulissen oder einzelne Spuren mit entsprechenden Instrumenten zur Verfügung, die in der Musikproduktion weiterverarbeitet werden können. Die Hörbeispiele, die Stability AI in seiner Ankündigungsmeldung bereitstellt, klingen schon recht beeindruckend.
Hier ist zugleich zu erkennen, welche Prompts für die Erstellung der entsprechenden Stücke genutzt wurden. Dazu gehören etwa Angaben zum Genre, zu den zu verwendenden Instrumenten, zur Geschwindigkeit sowie zur Grundstimmung oder Art der Produktion.
Stable Audio: Song in 1 Sekunde generiert
Daraus erstellt Stable Audio dann bis zu rund 90-sekündige Stereosounds mit einer Samplerate von 44,1 Kilohertz. Kommt eine Nvidia-A100-GPU zum Einsatz, soll das Ganze in weniger als einer Sekunde generiert werden können.
Wenn ihr Stable Audio ausprobieren wollt, könnt ihr das auf dieser Seite tun – und zwar kostenlos. Allerdings ist die Seite aktuell hoffnungslos überlastet. Wir kamen jedenfalls bisher nicht dazu, die Soundqualitäten selbst länger auszutesten.
Audio-KI kommt in Gratis- und Pro-Version
In der Gratis-Version ist die Zahl der erstellten Sounds allerdings auf 20 jeweils bis zu 45-sekündige Musikstücke pro Monat beschränkt. Wer mehr will, muss zur Bezahlversion greifen, die zwölf US-Dollar pro Monat kostet. Dann sind pro Monat 500 Audioinhalte mit jeweils bis zu 90 Sekunden Länge möglich.
Die mit der kostenlosen Version generierten Musikstücke dürfen nur privat verwendet werden. Für kommerzielle Nutzung (beschränkt auf 100.000 monatliche Nutzer:innen der Inhalte) muss die Pro-Version genutzt werden. Die Enterprise-Version gibt es auf Anfrage.
Mit 800.000 Audiofiles trainiert
Trainiert wurde Stable Audio übrigens mit rund 800.000 Audioausschnitten, Soundeffekten und Instrumenten aus der Audiodatenbank das Anbieters Audiosparks. Das macht die oben erwähnten kompositorischen Fähigkeiten möglich. Bisherige Audio-KI-Modelle wurden nur mit Auszügen aus längeren Stücken trainiert.
Über den Aufbau und Verlauf von Musik konnten sie so kaum etwas „lernen“, wie heise.de schreibt. Zudem nutzt Stable Audio auch die Metadaten der Trainingssounds zur Übung, etwa Startpunkt und Gesamtlänge. Nicht möglich ist es der auf einem ähnlichen System wie Stable Diffusion basierenden Audio-KI laut Stability AI aber, Stücke auszuspucken, die – dem Prompt zufolge – ähnlich wie ein bestimmtes Musikstück klingen sollen.
Urheber sollen an Gewinn beteiligt werden
Macht aber nichts, so das Unternehmen. Nutzer:innen würde ohnehin eher mit eigenen Audioschnipseln herumtüfteln. Und auch das Thema Urheberrecht könnte so elegant umgangen werden. Die Urheber:innen der für das Training verwendeten Musikstücke sollen laut Audiosparks übrigens vorab um eine Zustimmung zur Nutzung gefragt worden sein. Sie sollen an den potenziellen Gewinnen von Stable Audio beteiligt werden.