Lumiere: Googles KI-Modell erstellt realistische Videos per Text- oder Bildeingabe
Vor wenigen Wochen hatte Google zugeben müssen, bei der Präsentation seines neuen KI-Modells Gemini geschummelt zu haben. Teile des Demovideos zu dem potenziellen ChatGPT-Herausforderer waren manipuliert.
Google Lumiere: Beeindruckender KI-Videogenerator
Entsprechend vorsichtig sollten auch die Aufnahmen bewertet werden, die Google jetzt zu seinem Videogenerator Lumiere veröffentlicht hat. Sollte aber stimmen, was in dem Präsentationsvideo zu sehen ist, können wir uns auf eine beeindruckende neue Video-KI freuen.
Denn Lumiere erstellt nicht nur bildgewaltige und realistische Videoschnipsel auf Zuruf – also per Textbefehl. Lumiere kann zudem Bilder animieren und vorhandene Videos auf Wunsch nachbearbeiten.
Stil oder Kleidung: Videos nachträglich verändern
Mit letzterer Funktion kann etwa die Kleidung einer Person im Video nachträglich geändert werden. Auch der Stil des Videos lässt sich anpassen – er lässt sich etwa in einen Comic- oder Legostil verwandeln. Animationen können zudem an einen Stil angepasst werden, der über ein Bild vorgegeben wird. Das kann etwa auch eine Kinderzeichnung werden.
Google hat für Lumiere eigenen Angaben zufolge auch eine neue Technologie erarbeitet. Anders als bei bestehenden Text-to-Video-Generatoren läuft die Videoerstellung bei Lumiere nicht über eine Reihe von aufeinanderfolgenden Keyframes ab, die zum Schluss zu einem höher auflösenden Video hochgerechnet werden.
Google setzt auf neue Raum-Zeit-Architektur
Stattdessen gibt Google an, dass bei Lumiere das Video ganzheitlich, in einem Durchlauf generiert wird. Dafür zeichnet die neue „Raum-Zeit-Architektur“ verantwortlich. Im Ergebnis sollen die Videos weniger ruckeln und keine unschönen Artefakte aufweisen.
Trainiert wurde die KI mit 30 Millionen Videos, inklusive der entsprechenden Bildbeschreibung in Textform. Die Videos sind jeweils 80 Frames lang. Bei der Rate von 16 Frames pro Sekunde ergibt sich eine Länge von jeweils fünf Sekunden.
Lumiere-Videos maximal 5 Sekunden lang
Aber: Lumiere hat auch seine Grenzen, wie Google in einem entsprechenden Paper erklärt. So können bisher lediglich fünf Sekunden lange Videoschnipsel mit einer maximalen Auflösung von 1.024 mal 1.024 Pixeln erzeugt werden. Das bezeichnen selbst die Google-Forscher:innen als „geringauflösend“.
Die wichtigste Einschränkung für Interessierte ist aber, dass man Lumiere derzeit nicht selbst ausprobieren kann. Noch ist unklar, ob und in welcher Form Google die Text-zu-Video-KI veröffentlicht. Möglich wäre ein Release als Open-Source-Modell. Oder Google bindet Lumiere in bestehende Produkte ein.
Irgendwie sind das seit Jahren nur Ankündigungen, aber nichts wirklich kommt auf den Markt