Google hat mit Videopoet eine neue KI-Technologie vorgestellt, die die Fähigkeiten bildgenerierender KI wie Dall‑E oder Stable Diffusion erweitert. Diese fortschrittliche KI ist nicht nur in der Lage, eigenständig Videos zu erstellen, sondern kann auch vorhandene Videos bearbeiten und einfache Bilder in bewegte Szenen verwandeln.

Videopoet unterstützt dabei verschiedene Modi: von Text zu Video und Bild zu Video über Videostilisierung bis hin zur Generierung von Audio für Videos. Was Videopoet kann, zeigt Google auf der offiziellen Website.

Rookie the Raccoon erlebt wilde Abenteuer

Um die Fähigkeiten der KI zu demonstrieren, haben Googles Forscher ein einminütiges Video mit dem Titel „Rookie the Raccoon“ erstellt. In diesem erlebt ein Waschbär spannende Abenteuer, die ihn um die Welt und sogar ins Weltall führen. Die KI zeigt dabei, wie sie mittels verschiedener Effekte in den kurzen Clips eine kohärente Geschichte erzählt.

Die Forschungsergebnisse gehen jedoch noch weiter: Auf der Research-Seite der KI wird gezeigt, wie bereits existierende Videos verändert werden können. So verwandelt die KI etwa einen Hamster, der ursprünglich mit einem Goldnugget in der Hand zu sehen war, in einen Hamster am Strand, komplett mit Hawaii-Hemd und einem aufblasbaren Ball.

Was die KI von Google besonders macht

Videopoet ist nicht die einzige Video-KI auf dem Markt, aber sie hebt sich durch einige besondere Merkmale hervor, wie die Forscher betonen. Ein herausragendes Feature von Videopoet ist die Fähigkeit, ein Standbild mittels eines Text-Prompts zum Leben zu erwecken.

Dies wird an Beispielen wie der „Mona Lisa“ demonstriert, die sich zur Kamera dreht oder gähnt. Ein weiterer Aspekt ist die präzise Kontrolle der Kamerabewegungen in den Clips, die durch gezielte Text-Prompts gesteuert werden können.

Für die Zukunft ist geplant, das Modell um die sogenannte Any-to-any-Generation zu erweitern. Dies bedeutet, dass Text, Audio, Bild und Video in jeder Kombination generiert werden können, was unter anderem die KI-gestützte Erstellung von Untertiteln ermöglichen würde.

