Ist auf Tiktok bald nichts mehr real? Bytedance zeigt innovative Video-KI

Nach Chatbots und Bildgeneratoren ist die Erstellung und Bearbeitung der nächste Bereich, in dem KI schon bald eine große Rolle spielen wird. Neben KI-Firmen wie Runway ist auch Bytedance, die Betreiberfirma des Video-Netzwerks Tiktok, äußerst aktiv in dem Bereich. Mit Magicedit haben KI-Expert:innen des Unternehmens jetzt den aktuellen Stand ihrer Forschung vorgestellt.
Wie Runways Gen2 nimmt Magicedit bestehende Videos und verändert sie dann entsprechend einfacher Text-Prompts. So wird aus einer Katze im Video schnell ein Löwe und eine echte Person wird in einen Cartoon-Charakter verwandelt. Auch Hintergründe sollen sich so leicht austauschen lassen.
Aus KI-Bildgeneratoren wie Stable Diffusion oder Midjourney kennen wir auch eine weitere Funktion von Magicedit: Sie erlaubt es, den eigentlich nicht aufgenommenen Bereich um das Bild herum durch KI auszufüllen. Das hat bei Videos den Vorteil, dass beispielsweise im Hochformat aufgezeichnete Clips bildschirmfüllend im Querformat angezeigt werden können.

Magicedit erlaubt die Bearbeitung von Videos mit einfachen Text-Prompts. (Grafik: Bytedance)
Bei KI-Video-Tools kommt derzeit in aller Regel eine von zwei gängigen Methoden zum Einsatz. Bei der ersten manipuliert die KI anhand des Prompts jeden einzelnen Frame. Diese Methode hat den Nachteil, dass es schnell zu Inkonsistenzen zwischen den Einzelbildern kommt. Die wiederum müssen bei entsprechenden Systemen daher durch verschiedene Tricks ausgeglichen werden.
Die zweite gängige Methode nimmt sich nicht jeden einzelnen Frame vor, sondern betrachtet das Video als Ganzes. Damit das funktioniert, müssen entsprechende KI-Modelle häufig für jeden Clip angepasst werden, was wenig effizient ist. Das Bytedance-Team versucht sich daher an einem ganz anderen Ansatz.
Beim Training des KI-Modells haben die Magicedit-Macher:innen Inhalt, Struktur und Bewegung von Videos jeweils getrennt betrachtet. Sprich: Sie haben die drei Aspekte jeweils getrennten KI-Modulen antrainiert. „Das steht im Gegensatz zu den meisten existierenden Methoden, die versuchen, sowohl die Erscheinung als auch die zeitliche Darstellung in einem einzigen Bild zu modellieren, was unserer Meinung nach zu einer Verschlechterung der Qualität pro Bild führen würde“, erläutern die Wissenschaftler:innen in ihrem Paper.
Für Tiktok dürfte es sich sicherlich auszahlen, wenn die Nutzer:innen die weitreichenden KI-Features von Magicedit nutzen könnten. Auf absehbare Zeit bleibt das allerdings unwahrscheinlich. Täglich erscheinen rund 34 Millionen Videoclips auf Tiktok. Wenn die alle in der Cloud mit KI bearbeitet werden müssten, würden enorme Kosten entstehen, die vermutlich keinen profitablen Betrieb der Plattform zulassen würden.
Bitte beachte unsere Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team