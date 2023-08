Was ursprünglich vor der Kamera zu sehen war, spielt dank KI eine immer geringere Rolle. (Foto: Grusho Anna / Shutterstock.com)

Nach Chatbots und Bildgeneratoren ist die Erstellung und Bearbeitung der nächste Bereich, in dem KI schon bald eine große Rolle spielen wird. Neben KI-Firmen wie Runway ist auch Bytedance, die Betreiberfirma des Video-Netzwerks Tiktok, äußerst aktiv in dem Bereich. Mit Magicedit haben KI-Expert:innen des Unternehmens jetzt den aktuellen Stand ihrer Forschung vorgestellt.

Wie Runways Gen2 nimmt Magicedit bestehende Videos und verändert sie dann entsprechend einfacher Text-Prompts. So wird aus einer Katze im Video schnell ein Löwe und eine echte Person wird in einen Cartoon-Charakter verwandelt. Auch Hintergründe sollen sich so leicht austauschen lassen.

Aus KI-Bildgeneratoren wie Stable Diffusion oder Midjourney kennen wir auch eine weitere Funktion von Magicedit: Sie erlaubt es, den eigentlich nicht aufgenommenen Bereich um das Bild herum durch KI auszufüllen. Das hat bei Videos den Vorteil, dass beispielsweise im Hochformat aufgezeichnete Clips bildschirmfüllend im Querformat angezeigt werden können.

Videobearbeitung mit KI: Das macht Bytedance bei Magicedit anders

Bei KI-Video-Tools kommt derzeit in aller Regel eine von zwei gängigen Methoden zum Einsatz. Bei der ersten manipuliert die KI anhand des Prompts jeden einzelnen Frame. Diese Methode hat den Nachteil, dass es schnell zu Inkonsistenzen zwischen den Einzelbildern kommt. Die wiederum müssen bei entsprechenden Systemen daher durch verschiedene Tricks ausgeglichen werden.

Die zweite gängige Methode nimmt sich nicht jeden einzelnen Frame vor, sondern betrachtet das Video als Ganzes. Damit das funktioniert, müssen entsprechende KI-Modelle häufig für jeden Clip angepasst werden, was wenig effizient ist. Das Bytedance-Team versucht sich daher an einem ganz anderen Ansatz.

Beim Training des KI-Modells haben die Magicedit-Macher:innen Inhalt, Struktur und Bewegung von Videos jeweils getrennt betrachtet. Sprich: Sie haben die drei Aspekte jeweils getrennten KI-Modulen antrainiert. „Das steht im Gegensatz zu den meisten existierenden Methoden, die versuchen, sowohl die Erscheinung als auch die zeitliche Darstellung in einem einzigen Bild zu modellieren, was unserer Meinung nach zu einer Verschlechterung der Qualität pro Bild führen würde“, erläutern die Wissenschaftler:innen in ihrem Paper.

Sehen wir die Video-KI bald überall auf Tiktok?

Für Tiktok dürfte es sich sicherlich auszahlen, wenn die Nutzer:innen die weitreichenden KI-Features von Magicedit nutzen könnten. Auf absehbare Zeit bleibt das allerdings unwahrscheinlich. Täglich erscheinen rund 34 Millionen Videoclips auf Tiktok. Wenn die alle in der Cloud mit KI bearbeitet werden müssten, würden enorme Kosten entstehen, die vermutlich keinen profitablen Betrieb der Plattform zulassen würden.

