
Imagen Video erstellt Videos auf Grundlage von Texteingaben. (Foto: Google)
Erst vor ein paar Tagen hat Meta die Video-KI „Make a Video” gezeigt. Sie funktioniert im Prinzip ähnlich wie Text-zu-Bild-Generatoren wie Stable Diffusion, Dall-E oder Imagen. Der Unterschied ist, dass hier ein Video ausgespuckt wird, wie der Name bereits vermuten lässt.
Google hat nicht lange auf sich warten lassen und kurzerhand seinen eigenen Text-to-Video-Generator namens Imagen Video vorgestellt. Auf der offiziellen Webseite des Generators seht ihr, was die KI bereits jetzt kann.
Ganz oben auf der Seite seht ihr momentan zum Beispiel einen Panda, der mit einem Smartphone spielt, einen Teddybären beim Abwasch oder ein Segelschiff, das durch die Galaxie saust. Fahrt ihr mit dem Mauszeiger über das Video, seht ihr die entsprechende Eingabe, die verwendet wurde, um das Video zu erstellen.
Imagen Video kann Videos in HD-Auflösung, also 1280 x 768 Pixel, bei 24 Bildern pro Sekunde erstellen. In einem Forschungsbericht erklärt Google einige Details dazu, wie der Text-to-Video-Generator das anstellt.
Die Videos werden nämlich nicht direkt in der vollen HD-Auflösung gerendert. Im ersten Schritt erstellt der Generator ein Video mit einer Auflösung von 24 x 48 Pixel bei 3 Bildern pro Sekunde. Von dort skaliert die KI das Bild mit verschiedenen Diffusionsmodellen hoch und füllt es mit weiteren Bildern, bis es bei der HD-Auflösung mit 24 FPS ankommt.
Als Grundlage nutzt der Generator laut Google den LAION-400M-Datensatz zusätzlich zu 14 Millionen Video und Text Paaren und 60 Millionen Bild und Text Paaren. Im Forschungsbericht heißt es außerdem, dass das Unternehmen momentan daran arbeitet, problematische Daten herauszufiltern.
Dazu gehören solche, die die Erstellung von gewalttätigen oder pornografischen Inhalten erlauben. Auch stereotypische und rassistische Inhalte können momentan noch mit Imagen Video erstellt werden. Bevor diese Bedenken ausgeräumt sind, möchte Google den Generator oder dessen Source-Code nicht veröffentlichen.
Laut Google kann Imagen Video Inhalte in verschiedenen Stilen erstellen, die vom Nutzer durch den Text vorgegeben werden. Das kann zum Beispiel der Stil von bekannten Künstlern wie Vincent van Gogh sein.
Außerdem kann die KI 3D-Objekte erstellen, diese rotieren und dabei die Struktur des Objektes beibehalten, egal aus welchem Winkel es gezeigt wird. Zusätzlich sind viele verschiedene Animationsstile sowie Arten der Beleuchtung möglich.
Welche Möglichkeiten die KI-zu-Video-Software bietet, werden wir wohl erst herausfinden, wenn die KI öffentlich verfügbar ist, wie es bei dem Text-zu-Bild-Generator Dall-E der Fall ist.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team