Neue Video-KI von Bytedance: Was Goku kann und wie es sich im Vergleich mit OpenAIs Sora schlägt

Das chinesische Unternehmen Bytedance hat ein neues KI-Modell enthüllt. Dieses trägt den Namen Goku ist in der Lage, Videos und Bilder aus Text zu generieren. Daneben verarbeitet die KI auch Bilder zu Videos. Erste Beispiele zeigt das Unternehmen hinter Tiktok auf einer Website, die Goku gewidmet ist. Zudem haben die Verantwortlichen hinter dem KI-Modell ihre Arbeit in einem Research-Paper ausführlich festgehalten.
Das kann Goku von Bytedance
Um die Video-KI zu trainieren, haben die Entwickler:innen zunächst 160 Millionen Datenpaare aus Text und Bild bereitgestellt. Dazu kamen weitere 36 Millionen Paare aus Text und Video. Diese sollen laut den Verantwortlichen vornehmlich aus akademischen Trainingsdaten, Internetressourcen und von den Partnerunternehmen von Bytedance stammen.
Um Bilder und Videos gleichermaßen erstellen zu können, kommt eine neue Transformerarchitektur zum Einsatz. Diese soll je nach gewünschtem Ergebnis auf zwei bis acht Milliarden Parameter zurückgreifen können, wie Decoder berichtet. Zudem verlässt sich das Modell nicht auf die weitverbreitete Diffusionstechnik, sondern setzt auf einen Prozess namens Rectified Flow. Dadurch sollen Outputs eine höhere Qualität bekommen und in sich konsistenter sein.
In den Benchmarks, die die Verantwortlichen mit Goku durchgeführt haben, soll sich das Bytedance-KI-Modell fast durchweg besser als OpenAIs Sora geschlagen haben. Auch andere KI-Konkurrenten wie Pika, Kling und Luma sollen in vielen Bereichen hinter Goku zurückbleiben. Allerdings sollten Ergebnisse, die von den Entwickler:innen der KI-Modelle bereitgestellt werden, immer mit etwas Skepsis betrachtet werden.
Zeitgleich hat Bytedance Goku+ vorgestellt – eine Reihe von Video-Foundation-Modellen, die auf Goku aufbauen. Damit sind Videoclips mit mehr als 20 Sekunden Länge möglich. Diese sollen vorwiegend für Werbung interessant sein. Mit den KI-Modellen können laut Bytedance realistische Marketing-Avatare aus einfachen Text-Prompts erstellt werden. Diese sollen dann dank Lippensynchronisation Produkte oder Dienste bewerben. Die Produkte sollen sich dank der Bild-zu-Video-Fertigkeit von Goku ebenfalls in den Clip einarbeiten lassen.