Wie eine Google-KI Videos vertont – und warum das so beeindruckend ist
Kann KI künftig Videoclips erstellen und anschließend direkt vertonen? Google zeigt schon jetzt eine beeindruckende Video-to-Audio-Technik, mit der das bald möglich sein soll.
Googles KI kann bereits Videos mit Sound unterlegen. (Bild: UladzimirZuyeu/Shutterstock)
Google hat in einem Blog-Beitrag eine neue KI-Technik präsentiert, mit der sich Videos automatisch mit Sound unterlegen lassen. Alles, was die künstliche Intelligenz dafür benötigt, ist ein Video ohne Ton sowie einen Prompt, was am Ende zu hören sein soll.
Anzeige
Anzeige
So funktioniert die künstliche Intelligenz mit V2A-Technik
Empfohlene redaktionelle Inhalte
Hier findest du externe Inhalte von YouTube Video,
die unser redaktionelles Angebot auf t3n.de ergänzen.
Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden,
dass wir dir jetzt und in Zukunft Inhalte von YouTube Video auf unseren Seiten anzeigen dürfen.
Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden.
An dieser Stelle findest du normalerweise externe Inhalte von YouTube Video,
jedoch konnten wir deine Consent-Einstellungen nicht abrufen.
Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.
Im Beitrag zeigt Google eine Vielzahl von Beispielvideos, die von der KI mit Ton unterlegt wurden. So gibt es etwa einen Clip von einem Schlagzeuger, der mit seinen Sticks auf eine Snare schlägt. Bevor die KI übernommen hat, hatte dieses Video keinen Ton. Google hat die V2A-Technik (Video-to-Audio) mit dem Clip und dem Prompt „Ein Drummer auf der Bühne bei einem Konzert, umgeben von aufblitzenden Lichtern und einer jubelnden Menge“ hinzugegeben.
Anzeige
Anzeige
Die KI war dadurch in der Lage, den Hintergrund mit der jubelnden Menge zu vertonen sowie die Schläge des Drummers genau mit dem Video übereinstimmen zu lassen. Tatsächlich hat die KI aus dem Prompt auch Dinge generiert, die nicht explizit genannt wurden. So hört man eine Bassdrum, die mit den Füßen bedient wird, obwohl nur die Hände des Drummers zu sehen sind.
Empfohlene redaktionelle Inhalte
Hier findest du externe Inhalte von TargetVideo GmbH,
die unser redaktionelles Angebot auf t3n.de ergänzen.
Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden,
dass wir dir jetzt und in Zukunft Inhalte von TargetVideo GmbH auf unseren Seiten anzeigen dürfen.
Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden.
An dieser Stelle findest du normalerweise externe Inhalte von TargetVideo GmbH,
jedoch konnten wir deine Consent-Einstellungen nicht abrufen.
Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.
Bislang handelt es sich bei dem KI-Tool um ein internes Projekt von Google. Leider könnt ihr die neue V2A-Technik also noch nicht ausprobieren.
Google will in nächster Zeit noch weiter an der KI arbeiten. So gibt es derzeit noch Probleme, wenn die Videoqualität des Input-Clips schlecht ist. Artefakte und andere Störeffekte verwandelt die KI in hörbare Effekte und Verzerrungen.
Anzeige
Anzeige
Empfohlene redaktionelle Inhalte
Hier findest du externe Inhalte von YouTube Video,
die unser redaktionelles Angebot auf t3n.de ergänzen.
Mit dem Klick auf "Inhalte anzeigen" erklärst du dich einverstanden,
dass wir dir jetzt und in Zukunft Inhalte von YouTube Video auf unseren Seiten anzeigen dürfen.
Dabei können personenbezogene Daten an Plattformen von Drittanbietern übermittelt werden.
An dieser Stelle findest du normalerweise externe Inhalte von YouTube Video,
jedoch konnten wir deine Consent-Einstellungen nicht abrufen.
Lade die Seite neu oder passe deine Consent-Einstellungen manuell an.
Zudem will Google die Lippensynchronisation weiter verbessern. Aktuell gibt es noch Probleme, wenn ein KI-generiertes Video mit Lippenbewegungen in die V2A-Technik eingespielt wird. Wurde das Video-KI-Modell nicht dazu trainiert, auf Lippensynchronisation zu achten, kommt auch die V2A-Technik nicht hinterher. Das Ergebnis: Die Worte werden zwar über die Lippenbewegungen gelegt, wirken aber übertrieben und unecht, wie ein Beispielvideo zeigt.
Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.
Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen,
aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere
Finanzierung sehr wichtig.
Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌
Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.
Community-Richtlinien
Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht.
Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung
von
Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird.
Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.
Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer.
Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.
Dein t3n-Team
Kommentar abgeben
Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.