Wie ein neues KI-Echtzeit-System für Kopfhörer unterschiedliche Sprachen gleichzeitig übersetzt

Die neue Entwicklung ist zwar nicht das erste Live-KI-Übersetzungstool. Aber andere Systeme, wie das auf der Ray-Ban-Brille von Meta, konzentrieren sich auf einen einzelnen Sprecher und nicht auf mehrere gleichzeitig sprechende Personen.(Foto: pathodoc/Shutterstock)
Stell dir folgendes Szenario vor: Du gehst mit einer Gruppe von Freunden:innen essen. Sie alle sprechen in unterschiedlichen Sprachen, die du leider nicht beherrschst. Dennoch kannst du die Gruppe verstehen. Diese Situation ist der Anwendungsfall für ein neues KI-Kopfhörersystem, das die Sprache mehrerer Sprecher:innen gleichzeitig und in Echtzeit übersetzt.
„Es gibt so viele intelligente Menschen auf der Welt, und die Sprachbarriere hindert sie daran, sich zu trauen, zu kommunizieren“, sagt Shyam Gollakota, Professor an der University of Washington, der an der neuen Entwicklung mitgearbeitet hat. „Meine Mutter hat so unglaubliche Ideen, wenn sie in Telugu spricht, aber es ist so schwer für sie, mit Menschen in den USA zu kommunizieren, wenn sie aus Indien zu Besuch kommt. Wir glauben, dass diese Art von System für Menschen wie sie eine große Hilfe sein könnte“, gibt Gollakota ein praktisches Beispiel.
Spatial Speech Translation heißt das System. Es verfolgt die Richtung und die stimmlichen Merkmale der Sprecher:innen und hilft den Träger:innen des Kopfhörers zu erkennen, wer in einer Gruppe was sagt.
Unterschied zu anderen Live-KI-Übersetzern
Die neue Entwicklung ist zwar nicht das erste Live-KI-Übersetzungstool. So gibt es etwa das System, das auf der Ray-Ban-Brille von Meta läuft, aber sie konzentrieren sich auf einen einzelnen Sprecher und nicht auf mehrere gleichzeitig sprechende Personen. Außerdem klingt die Übersetzung oftmals wenig lebendig und eher wie ein Roboter.
Das neue System ist so konzipiert, dass es mit handelsüblichen Kopfhörern mit Geräuschunterdrückung und Mikrofonen. Letztere müssen an einen Laptop mit einem M2-Chip von Apple angeschlossen sein, da dieser neuronale Netze unterstützen kann. Derselbe Chip ist auch im Apple Vision Pro Headset enthalten.
Die Forschungsergebnisse stellten Gollakota und Kolleg:innen diesen Monat auf der ACM CHI Conference on Human Factors in Computing Systems in Yokohama, Japan, vor.
Wie das neue KI-Übersetzungssystem funktioniert
Spatial Speech Translation besteht aus zwei KI-Modellen, von denen das erste den Raum um die Person, die den Kopfhörer trägt, in kleine Regionen unterteilt und ein neuronales Netzwerk verwendet, um nach potenziellen Sprecher:innen zu suchen und deren Richtung zu bestimmen.
Das zweite Modell übersetzt dann die Worte der Sprechenden aus dem Französischen, Deutschen oder Spanischen ins Englische und verwendet dabei öffentlich verfügbare Datensätze. Dasselbe Modell extrahiert die Merkmale und den emotionalen Tonfall der Stimme jeder:s Sprechenden, wie etwa die Tonhöhe und die Lautstärke, und wendet diese Eigenschaften auf den erzeugten Text an. Im Endergebnis entsteht eine „geklonte“ Stimme. Das heißt, wenn die übersetzte Version der Worte von Sprechenden einige Sekunden später an den:die Kopfhörerträger:in weitergegeben wird, klingt es so, als käme sie aus der Richtung des Sprechenden, und die Stimme klingt sehr ähnlich wie die der:s Sprechenden und nicht wie die einer Maschine.
Übersetzung zwischen Sprachen ist bereits nahezu perfekt
In den letzten Jahren haben große Sprachmodelle zu großen Verbesserungen bei der Sprachübersetzung geführt. Infolgedessen ist die Übersetzung zwischen Sprachen, für die viele Trainingsdaten zur Verfügung stehen (wie die vier Sprachen, die in dieser Studie verwendet wurden), in Apps wie Google Translate oder in ChatGPT nahezu perfekt. Aber es ist immer noch nicht nahtlos und sofort über viele Sprachen hinweg möglich. Das ist ein Ziel, auf das viele Unternehmen hinarbeiten, sagt Alina Karakanta, eine Assistenzprofessorin an der Universität Leiden in den Niederlanden, die Computerlinguistik studiert und nicht an dem Projekt beteiligt war. „Ich glaube, dass dies eine nützliche Anwendung ist. Sie kann den Menschen helfen“, sagt sie.
Für KI-Systeme ist es schon schwierig genug, menschliche Stimmen herauszufiltern. Da ist laut Samuele Cornell, unbeteiligter Postdoc am Institut für Sprachtechnologien der Carnegie Mellon University, beeindruckend, diese Fähigkeit in ein Echtzeit-Übersetzungssystem zu integrieren, die Entfernung zwischen den Träger:innen und den Sprechenden abzubilden und eine vernünftige Latenzzeit auf einem realen Gerät zu erreichen.
„Sprache-zu-Sprache-Übersetzung in Echtzeit ist unglaublich schwierig“, sagt er. „Ihre Ergebnisse sind in den begrenzten Testumgebungen sehr gut. Aber für ein echtes Produkt bräuchte man viel mehr Trainingsdaten – möglicherweise mit Geräuschen und realen Aufnahmen vom Headset, anstatt sich nur auf synthetische Daten zu verlassen.“
Wie das Übersetzungssystem weiterentwickelt werden soll
Gollakotas Team konzentriert sich nun darauf, die Zeit zu verkürzen, die die KI-Übersetzung benötigt, um nach einer Äußerung eines Sprechers in Gang zu kommen, was natürlich klingende Gespräche zwischen Menschen mit unterschiedlichen Sprachen ermöglicht. „Wir wollen die Latenzzeit auf weniger als eine Sekunde reduzieren, so dass die Konversationsatmosphäre erhalten bleibt“, sagt Gollakota.
Dies bleibt eine große Herausforderung, denn die Geschwindigkeit, mit der ein KI-System eine Sprache in eine andere übersetzen kann, hängt von der Struktur der Sprachen ab. Von den drei Sprachen, für die Spatial Speech Translation trainiert wurde, übersetzte das System am schnellsten Französisch ins Englische, gefolgt von Spanisch und dann Deutsch – was darauf zurückzuführen ist, dass im Deutschen im Gegensatz zu den anderen Sprachen die Verben und ein Großteil der Bedeutung eines Satzes am Ende und nicht am Anfang stehen, sagt Claudio Fantinuoli, Forscher an der Johannes-Gutenberg-Universität Mainz, der nicht an dem Projekt mitgearbeitet hat.
Eine Verkürzung der Latenzzeit könnte die Genauigkeit der Übersetzungen beeinträchtigen, warnt er: „Je länger man [mit der Übersetzung] wartet, desto mehr Kontext hat man, und desto besser wird die Übersetzung. Es ist ein Balanceakt.“