
Google hat in einem Blog-Beitrag eine neue KI-Technik präsentiert, mit der sich Videos automatisch mit Sound unterlegen lassen. Alles, was die künstliche Intelligenz dafür benötigt, ist ein Video ohne Ton sowie einen Prompt, was am Ende zu hören sein soll.
So funktioniert die künstliche Intelligenz mit V2A-Technik
Im Beitrag zeigt Google eine Vielzahl von Beispielvideos, die von der KI mit Ton unterlegt wurden. So gibt es etwa einen Clip von einem Schlagzeuger, der mit seinen Sticks auf eine Snare schlägt. Bevor die KI übernommen hat, hatte dieses Video keinen Ton. Google hat die V2A-Technik (Video-to-Audio) mit dem Clip und dem Prompt „Ein Drummer auf der Bühne bei einem Konzert, umgeben von aufblitzenden Lichtern und einer jubelnden Menge“ hinzugegeben.
Die KI war dadurch in der Lage, den Hintergrund mit der jubelnden Menge zu vertonen sowie die Schläge des Drummers genau mit dem Video übereinstimmen zu lassen. Tatsächlich hat die KI aus dem Prompt auch Dinge generiert, die nicht explizit genannt wurden. So hört man eine Bassdrum, die mit den Füßen bedient wird, obwohl nur die Hände des Drummers zu sehen sind.
Bislang handelt es sich bei dem KI-Tool um ein internes Projekt von Google. Leider könnt ihr die neue V2A-Technik also noch nicht ausprobieren.
Google will in nächster Zeit noch weiter an der KI arbeiten. So gibt es derzeit noch Probleme, wenn die Videoqualität des Input-Clips schlecht ist. Artefakte und andere Störeffekte verwandelt die KI in hörbare Effekte und Verzerrungen.
Zudem will Google die Lippensynchronisation weiter verbessern. Aktuell gibt es noch Probleme, wenn ein KI-generiertes Video mit Lippenbewegungen in die V2A-Technik eingespielt wird. Wurde das Video-KI-Modell nicht dazu trainiert, auf Lippensynchronisation zu achten, kommt auch die V2A-Technik nicht hinterher. Das Ergebnis: Die Worte werden zwar über die Lippenbewegungen gelegt, wirken aber übertrieben und unecht, wie ein Beispielvideo zeigt.