Stability AI, eines der Startups hinter der quelloffenen Bild-KI Stable Diffusion, hat ein KI-Modell für die Erstellung kurzer Videoclips vorgestellt. Das Stable Video Diffusion getaufte Modell funktioniert im Grunde wie sein auf statische Bilder ausgelegter Vorgänger: Ihr gebt eine Bildbeschreibung ein und die KI erzeugt euch daraus einen fertigen Videoclip.
Stability AI bleibt seiner bisherigen Vorgehensweise treu und macht auch für Stable Video Diffusion den Code und die für die Ausführung notwendigen Modellgewichte frei zugänglich. Damit unterscheidet sich das Startup deutlich von OpenAI und anderen KI-Anbietern, die ihre Forschungsergebnisse zunehmend für sich behalten.
Stable Video Diffusion: Das kann die Video-KI – und das nicht
Stability AI weist auf der Code-Plattform GitHub darauf hin, dass Stable Video Diffusion in seiner jetzigen Form nur zu Forschungszwecken und nicht für den kommerziellen Einsatz gedacht sei. Tatsächlich gibt es bei der Nutzung noch einige technische Einschränkungen.
Von Stable Video Diffusion gibt es zwei Modelle, die jeweils Video-Clips mit Bildrate von 14 beziehungsweise 25 Bildern pro Sekunde erzeugen. Die Auflösung liegt bei 576 zu 1.024 Pixeln. Doch es gibt noch weitere Einschränkungen.
Mit Stable Video Diffusion erzeugte Videos sind kürzer als vier Sekunden. Außerdem erreicht das Modell nach Angaben der Macher:innen keinen perfekten Fotorealismus. Darüber hinaus kann es passieren, dass Stable Video Diffusion Videos ohne jedwede Bewegung erzeugt. Auch lesbaren Text kann das KI-Modell derzeit nicht erzeugen.
Wie schlägt sich Stable Video Diffusion im Vergleich zur Konkurrenz?
Stability AI ist längst nicht das einzige Unternehmen, das sich derzeit mit der KI-Generierung von Bewegtbildern beschäftigt. Aktiv in dem Sektor ist unter anderem auch Runway. Das Unternehmen war wie Stability AI an der Entwicklung des ursprünglichen Stable-Diffusion-Modells beteiligt und hat mit Gen1 und Gen2 bereits zwei Video-KI-Modelle veröffentlicht. Ein weiterer Anbieter in dem Bereich ist Pika Labs.
Laut einem von Stability AI durchgeführten Test soll das Video-Modell zumindest bei Clips mit 25 Frames pro Sekunde besser abgeschnitten haben als die Modelle von Runway und Pika Labs. Unabhängige Vergleiche der Modelle gibt es bislang aber noch nicht.