Wie eine Google-KI Videos vertont – und warum das so beeindruckend ist - t3n

News

Wie eine Google-KI Videos vertont – und warum das so beeindruckend ist

Kann KI künftig Videoclips erstellen und anschließend direkt vertonen? Google zeigt schon jetzt eine beeindruckende Video-to-Audio-Technik, mit der das bald möglich sein soll.

Von Marvin Fuhrmann

18.06.2024, 11:15 Uhr • 1 Min.

Wie eine Google-KI Videos vertont – und warum das so beeindruckend ist — Googles KI kann bereits Videos mit Sound unterlegen. (Bild: UladzimirZuyeu/Shutterstock)

Google hat in einem Blog-Beitrag eine neue KI-Technik präsentiert, mit der sich Videos automatisch mit Sound unterlegen lassen. Alles, was die künstliche Intelligenz dafür benötigt, ist ein Video ohne Ton sowie einen Prompt, was am Ende zu hören sein soll.

So funktioniert die künstliche Intelligenz mit V2A-Technik

Im Beitrag zeigt Google eine Vielzahl von Beispielvideos, die von der KI mit Ton unterlegt wurden. So gibt es etwa einen Clip von einem Schlagzeuger, der mit seinen Sticks auf eine Snare schlägt. Bevor die KI übernommen hat, hatte dieses Video keinen Ton. Google hat die V2A-Technik (Video-to-Audio) mit dem Clip und dem Prompt „Ein Drummer auf der Bühne bei einem Konzert, umgeben von aufblitzenden Lichtern und einer jubelnden Menge“ hinzugegeben.

Die KI war dadurch in der Lage, den Hintergrund mit der jubelnden Menge zu vertonen sowie die Schläge des Drummers genau mit dem Video übereinstimmen zu lassen. Tatsächlich hat die KI aus dem Prompt auch Dinge generiert, die nicht explizit genannt wurden. So hört man eine Bassdrum, die mit den Füßen bedient wird, obwohl nur die Hände des Drummers zu sehen sind.

Empfehlungen der Redaktion

News

Meta AI: Warum die KI vorerst doch nicht nach Europa kommt

News

ChatGPT, Midjourney und DALL-E: So viele Aufträge verlieren Freiberufler durch KI

Listicle

iOS 18: Auf diese Features müsst ihr noch länger warten

Bislang handelt es sich bei dem KI-Tool um ein internes Projekt von Google. Leider könnt ihr die neue V2A-Technik also noch nicht ausprobieren.

Google will in nächster Zeit noch weiter an der KI arbeiten. So gibt es derzeit noch Probleme, wenn die Videoqualität des Input-Clips schlecht ist. Artefakte und andere Störeffekte verwandelt die KI in hörbare Effekte und Verzerrungen.

Zudem will Google die Lippensynchronisation weiter verbessern. Aktuell gibt es noch Probleme, wenn ein KI-generiertes Video mit Lippenbewegungen in die V2A-Technik eingespielt wird. Wurde das Video-KI-Modell nicht dazu trainiert, auf Lippensynchronisation zu achten, kommt auch die V2A-Technik nicht hinterher. Das Ergebnis: Die Worte werden zwar über die Lippenbewegungen gelegt, wirken aber übertrieben und unecht, wie ein Beispielvideo zeigt.

Sora: Das sind die besten Clips von OpenAIs Video-KI Quelle: FilipArtLab / Shutterstock

Bildergalerie ansehen

Mehr zu diesem Thema

MIT Technology Review Google Künstliche Intelligenz

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren