Die Spezialisten für maschinelles Lernen aus dem Hause Meta – ex Facebook – haben ein neues System namens Make-A-Video vorgestellt. Der Name ist Programm.
Funktioniert wie Dall-E
Um zu Ergebnissen zu gelangen, müssen Nutzende lediglich eine grobe Beschreibung einer Szene formulieren. Daraus generiert die KI ein kurzes Video, das – nach Auffassung der KI – zu der Eingabe passt.
Meta hat einige Beispiele parat. Und die können durchaus beeindrucken. Zwar sind die Videosequenzen mit fünf Sekunden sehr kurz und ohne Ton, dazu klar als künstlich generiert zu identifizieren und meist mit unscharfen Motiven und verzerrten Animationen versehen. Aber es ist bereits klar erkennbar, wohin die Reise geht.
In einem Blogbeitrag zum KI-Tool schreibt Meta: „Die generative KI-Forschung treibt den kreativen Ausdruck voran, indem sie den Menschen Werkzeuge an die Hand gibt, mit denen sie schnell und einfach neue Inhalte erstellen können“. Mit nur ein paar Worten oder Textzeilen könne Make-A-Video „die Fantasie zum Leben erwecken und einzigartige Videos voller lebendiger Farben und Landschaften erstellen.“
Meta-Chef Mark Zuckerberg bezeichnet das Tool in einem Facebook-Beitrag als „erstaunlichen Fortschritt“ und gibt zu bedenken, dass es viel schwieriger sei, „Videos zu erstellen als Fotos, weil das System nicht nur jedes Pixel korrekt erzeugen, sondern auch vorhersagen muss, wie es sich im Laufe der Zeit verändern wird.“
Leistungseinschränkungen optisch noch deutlich spürbar
Die Forschenden weisen in ihrer Veröffentlichung darauf hin, dass das Modell vor allem deshalb verschwommenes Material und unzusammenhängende Animationen zeigt, weil höhere Auflösungen mit den vorhandenen Kapazitäten nicht verarbeitet werden könnten.
So gebe Make-A-Video derzeit 16 Bilder pro Sekunde bei einer überaus mageren Auflösung von 64 mal 64 Pixeln aus. Die laufen danach durch ein separates KI-Modell, das sie auf 768 mal 768 Pixel aufbläst. Jeder, der schon mal Bilder bearbeitet hat, weiß: nicht vorhandene Details in Bildern kommen auch durch Skalierung nicht hinein.
Könnten wir also anhand der genannten Einschränkungen in der Qualität der Darstellung befürchten, Meta habe hier eine frühe Demo herausgegeben, um etwas Aufmerksamkeit zu generieren, zeigt die Breite der möglichen Aufforderungen an das System, dass dem nicht so ist.
Beispiele beeindrucken
Betrachten wir die von Meta bereitgestellten Videos, zeigt sich schnell, dass das KI-Tool offensichtlich ein durchaus solides Training genossen hat. Inwieweit Meta an den Beispielen tatsächlich nicht mehr nachgearbeitet hat, kann derzeit nicht zuverlässig beurteilt werden.
Eigene Versuche sind derzeit nicht möglich, weil Meta das System noch völlig geschlossen hält und bislang Dritten keinen Zugang gewährt.
Video-KI dürfte Forschende motivieren
Wenn wir allerdings davon ausgehen, was wir auch dürfen, dass sich die Video-KI ebenso rasant entwickeln wird, wie es die Bild-KI in den vergangenen Jahren tat, dann ist Metas Make-A-Video ein Blick in die nahe Zukunft, der Forschende motivieren dürfte, mehr Ressourcen auf dieses KI-Feld zu verwenden.
Natürlich sieht Meta Kreative und Kunstschaffende als wichtigste Zielgruppe. Für die könnte das Tool „von unschätzbarem Wert“ sein, schreibt das Unternehmen. Auf der Hand liegt aber eben auch, dass eine Video-KI sogar noch perfider missbraucht werden kann als eine Bild-KI.
Sicherheitsmodell steht offenbar noch nicht
Meta verspricht daher, „Gedanken darüber (zu) machen, wie wir neue generative KI-Systeme wie dieses aufbauen“. Anstelle tiefer Einblicke gibt es derzeit nur ein relativ unverbindliches Papier (PDF) zu dem KI-Modell von Make-A-Video.
Eine Demo werde es geben, lässt Meta wissen. Unklar bleibt, wann – und wie der Zugang zu dem Modell eingeschränkt sein wird.
Neben Metas Video-KI gibt es derzeit nur ein weiteres bekanntes Modell. Die Video-KI namens Cogview hatten chinesische Forschende der Tsinghua University und der Beijing Academy of Artificial Intelligence (BAAI) Anfang dieses Jahres vorgestellt.