Imagen Video: Auch Google präsentiert eine Video-KI
Erst vor ein paar Tagen hat Meta die Video-KI „Make a Video” gezeigt. Sie funktioniert im Prinzip ähnlich wie Text-zu-Bild-Generatoren wie Stable Diffusion, Dall-E oder Imagen. Der Unterschied ist, dass hier ein Video ausgespuckt wird, wie der Name bereits vermuten lässt.
Google hat nicht lange auf sich warten lassen und kurzerhand seinen eigenen Text-to-Video-Generator namens Imagen Video vorgestellt. Auf der offiziellen Webseite des Generators seht ihr, was die KI bereits jetzt kann.
Ganz oben auf der Seite seht ihr momentan zum Beispiel einen Panda, der mit einem Smartphone spielt, einen Teddybären beim Abwasch oder ein Segelschiff, das durch die Galaxie saust. Fahrt ihr mit dem Mauszeiger über das Video, seht ihr die entsprechende Eingabe, die verwendet wurde, um das Video zu erstellen.
Von niedriger Auflösung hochskaliert
Imagen Video kann Videos in HD-Auflösung, also 1280 x 768 Pixel, bei 24 Bildern pro Sekunde erstellen. In einem Forschungsbericht erklärt Google einige Details dazu, wie der Text-to-Video-Generator das anstellt.
Die Videos werden nämlich nicht direkt in der vollen HD-Auflösung gerendert. Im ersten Schritt erstellt der Generator ein Video mit einer Auflösung von 24 x 48 Pixel bei 3 Bildern pro Sekunde. Von dort skaliert die KI das Bild mit verschiedenen Diffusionsmodellen hoch und füllt es mit weiteren Bildern, bis es bei der HD-Auflösung mit 24 FPS ankommt.
Als Grundlage nutzt der Generator laut Google den LAION-400M-Datensatz zusätzlich zu 14 Millionen Video und Text Paaren und 60 Millionen Bild und Text Paaren. Im Forschungsbericht heißt es außerdem, dass das Unternehmen momentan daran arbeitet, problematische Daten herauszufiltern.
Dazu gehören solche, die die Erstellung von gewalttätigen oder pornografischen Inhalten erlauben. Auch stereotypische und rassistische Inhalte können momentan noch mit Imagen Video erstellt werden. Bevor diese Bedenken ausgeräumt sind, möchte Google den Generator oder dessen Source-Code nicht veröffentlichen.
Verschiedene Stile und FIlter
Laut Google kann Imagen Video Inhalte in verschiedenen Stilen erstellen, die vom Nutzer durch den Text vorgegeben werden. Das kann zum Beispiel der Stil von bekannten Künstlern wie Vincent van Gogh sein.
Außerdem kann die KI 3D-Objekte erstellen, diese rotieren und dabei die Struktur des Objektes beibehalten, egal aus welchem Winkel es gezeigt wird. Zusätzlich sind viele verschiedene Animationsstile sowie Arten der Beleuchtung möglich.
Welche Möglichkeiten die KI-zu-Video-Software bietet, werden wir wohl erst herausfinden, wenn die KI öffentlich verfügbar ist, wie es bei dem Text-zu-Bild-Generator Dall-E der Fall ist.