Youtubes automatische Synchronisierung zeigt, wie man generative KI besser nicht einsetzt

Automatische Synchronisierungen sind in der Theorie interessant, in der Praxis aber nervig. (Bild: Shutterstock / Roman Samborskyi)
Ich gebe es zu: Ich bin ein Sprachsnob. Ob Games, Bücher, Filme oder Serien: Wenn ich die Ausgangssprache des jeweiligen Medienprodukts leidlich gut beherrsche, lasse ich die deutsche Synchronisation links liegen. Denn in manchen Sprachen wie Japanisch stecken so viele Nuancen, so viele Eigenheiten, die sich mehr schlecht als recht übersetzen lassen.
Einer meiner Lieblingsbegriffe aus dem Japanischen ist zum Beispiel kuchisabishii. Die wortwörtliche Übersetzung ist „einsamer Mund“. Das dazugehörige Gefühl hat nichts mit Hunger zu tun. Sondern damit, satt zu sein, aber Lust auf Essen zu haben – damit kann ich mich hervorragend identifizieren. Im Deutschen ist Weltschmerz ein gutes Beispiel für einen unübersetzbaren Begriff.
Trotzdem finde ich es enorm wichtig, dass es patente und gut ausgebildete Synchronsprecher:innen gibt. Die sollen selbstverständlich auch fair bezahlt werden und ausgiebigen Schutz vor der ungeregelten Verwendung ihrer Arbeit für das allgegenwärtige Training von generativen Sprachmodellen genießen. Bei letzteren setzt auch mein Problem mit der Videoplattform Youtube an.
Erste Vorstöße gab es schon 2023, im Dezember 2024 kündigt Youtube an, automatische KI-Synchronisation für „hunderttausende Kanäle, die auf Wissen und Information fokussiert sind“ auf Basis der App-Sprache anzubieten. Laut des Youtube-Geschäftsführers Neal Mohan soll das Feature noch dieses Jahr an alle Teilnehmer:innen des Youtube-Partnerprogramms ausgerollt werden. Die Plattform argumentiert, damit Sprachbarrieren abzubauen. In der Realität ist das Ergebnis allerdings furchtbar.
Roboterstimmen statt echter Persönlichkeit
Denn wie ähnliche Online-Dienste geht es bei Youtube um Persönlichkeiten. Ich folge Reisevlogger:innen, Dokumentarfilmer:innen oder Youtube-Köch:innen, weil ich die Art der Personen dahinter schätze. Reine Informationen und Fakten suche ich mir woanders. Und was passiert mit dieser Art der Personen, wenn auf einmal nicht mehr der charmant-frotzelige Engländer, sondern eine emotionslose deutsche Computer-Stimme zu mir spricht? Genau, ich schalte ab.
Prinzipiell kann es in manchen Fällen gut sein, zusätzliche Audiospuren bereitzustellen. Gerade für Leute, die sich eben hauptsächlich über Youtube informieren, aber beispielsweise kein Englisch können. Aber so wie das gerade abläuft, ist das nicht aus Nutzer:innensicht gedacht, sondern allein auf Profitmaximierung durch größere Reichweite ausgerichtet.
Das fängt schon damit an, dass Content-Creator:innen sich aktiv entscheiden müssen, die Funktion nicht zu nutzen. Youtube aktiviert diese nämlich bei infrage kommenden Kanälen automatisch. Zuschauer:innen müssen sich erst umständlich durch Einstellungen klicken, anstatt gefragt zu werden, ob sie das Video auf Roboterdeutsch oder im Original schauen möchten. Und dann haben wir noch nicht darüber geredet, dass die Übersetzungen oft auch einfach faktisch falsch sind. Nuance lässt grüßen.
Das Mindeste, was Youtube tun könnte, wäre, das Ganze als Opt-in und nicht als Opt-out anzubieten. Wenn Youtube so weitermacht, verliert die Plattform als Unterhaltungsmedium völlig ihren Charme. Und das mit Sicherheit nicht nur für Sprachsnobs wie mich.