Anzeige
Anzeige
Anzeige
Anzeige
MIT Technology Review News
Verpasse keine News mehr!

Wie ein neues KI-Echtzeit-System für Kopfhörer unterschiedliche Sprachen gleichzeitig übersetzt

Eine neue Entwicklung namens Spatial Speech Translation geht eine der größten Herausforderungen der automatischen Übersetzung an: viele Menschen, die gleichzeitig sprechen. Dabei kommen gleich zwei KI-Modelle zum Einsatz. So funktioniert es.

Von MIT Technology Review Online
4 Min.
Artikel merken
Anzeige
Anzeige

Die neue Entwicklung ist zwar nicht das erste Live-KI-Übersetzungstool. Aber andere Systeme, wie das auf der Ray-Ban-Brille von Meta, konzentrieren sich auf einen einzelnen Sprecher und nicht auf mehrere gleichzeitig sprechende Personen.(Foto: pathodoc/Shutterstock)

Stell dir folgendes Szenario vor: Du gehst mit einer Gruppe von Freunden:innen essen. Sie alle sprechen in unterschiedlichen Sprachen, die du leider nicht beherrschst. Dennoch kannst du die Gruppe verstehen. Diese Situation ist der Anwendungsfall für ein neues KI-Kopfhörersystem, das die Sprache mehrerer Sprecher:innen gleichzeitig und in Echtzeit übersetzt.

Anzeige
Anzeige

„Es gibt so viele intelligente Menschen auf der Welt, und die Sprachbarriere hindert sie daran, sich zu trauen, zu kommunizieren“, sagt Shyam Gollakota, Professor an der University of Washington, der an der neuen Entwicklung mitgearbeitet hat. „Meine Mutter hat so unglaubliche Ideen, wenn sie in Telugu spricht, aber es ist so schwer für sie, mit Menschen in den USA zu kommunizieren, wenn sie aus Indien zu Besuch kommt. Wir glauben, dass diese Art von System für Menschen wie sie eine große Hilfe sein könnte“, gibt Gollakota ein praktisches Beispiel.

Spatial Speech Translation heißt das System. Es verfolgt die Richtung und die stimmlichen Merkmale der Sprecher:innen und hilft den Träger:innen des Kopfhörers zu erkennen, wer in einer Gruppe was sagt.

Anzeige
Anzeige

Unterschied zu anderen Live-KI-Übersetzern

Die neue Entwicklung ist zwar nicht das erste Live-KI-Übersetzungstool. So gibt es etwa das System, das auf der Ray-Ban-Brille von Meta läuft, aber sie konzentrieren sich auf einen einzelnen Sprecher und nicht auf mehrere gleichzeitig sprechende Personen. Außerdem klingt die Übersetzung oftmals wenig lebendig und eher wie ein Roboter.

Das neue System ist so konzipiert, dass es mit handelsüblichen Kopfhörern mit Geräuschunterdrückung und Mikrofonen. Letztere müssen an einen Laptop mit einem M2-Chip von Apple angeschlossen sein, da dieser neuronale Netze unterstützen kann. Derselbe Chip ist auch im Apple Vision Pro Headset enthalten.

Anzeige
Anzeige

Die Forschungsergebnisse stellten Gollakota und Kolleg:innen diesen Monat auf der ACM CHI Conference on Human Factors in Computing Systems in Yokohama, Japan, vor.

Wie das neue KI-Übersetzungssystem funktioniert

Spatial Speech Translation besteht aus zwei KI-Modellen, von denen das erste den Raum um die Person, die den Kopfhörer trägt, in kleine Regionen unterteilt und ein neuronales Netzwerk verwendet, um nach potenziellen Sprecher:innen zu suchen und deren Richtung zu bestimmen.

Anzeige
Anzeige

Das zweite Modell übersetzt dann die Worte der Sprechenden aus dem Französischen, Deutschen oder Spanischen ins Englische und verwendet dabei öffentlich verfügbare Datensätze. Dasselbe Modell extrahiert die Merkmale und den emotionalen Tonfall der Stimme jeder:s Sprechenden, wie etwa die Tonhöhe und die Lautstärke, und wendet diese Eigenschaften auf den erzeugten Text an. Im Endergebnis entsteht eine „geklonte“ Stimme. Das heißt, wenn die übersetzte Version der Worte von Sprechenden einige Sekunden später an den:die Kopfhörerträger:in weitergegeben wird, klingt es so, als käme sie aus der Richtung des Sprechenden, und die Stimme klingt sehr ähnlich wie die der:s Sprechenden und nicht wie die einer Maschine.

Übersetzung zwischen Sprachen ist bereits nahezu perfekt

In den letzten Jahren haben große Sprachmodelle zu großen Verbesserungen bei der Sprachübersetzung geführt. Infolgedessen ist die Übersetzung zwischen Sprachen, für die viele Trainingsdaten zur Verfügung stehen (wie die vier Sprachen, die in dieser Studie verwendet wurden), in Apps wie Google Translate oder in ChatGPT nahezu perfekt. Aber es ist immer noch nicht nahtlos und sofort über viele Sprachen hinweg möglich. Das ist ein Ziel, auf das viele Unternehmen hinarbeiten, sagt Alina Karakanta, eine Assistenzprofessorin an der Universität Leiden in den Niederlanden, die Computerlinguistik studiert und nicht an dem Projekt beteiligt war. „Ich glaube, dass dies eine nützliche Anwendung ist. Sie kann den Menschen helfen“, sagt sie.

Für KI-Systeme ist es schon schwierig genug, menschliche Stimmen herauszufiltern. Da ist laut Samuele Cornell, unbeteiligter Postdoc am Institut für Sprachtechnologien der Carnegie Mellon University, beeindruckend, diese Fähigkeit in ein Echtzeit-Übersetzungssystem zu integrieren, die Entfernung zwischen den Träger:innen und den Sprechenden abzubilden und eine vernünftige Latenzzeit auf einem realen Gerät zu erreichen.

Anzeige
Anzeige

„Sprache-zu-Sprache-Übersetzung in Echtzeit ist unglaublich schwierig“, sagt er. „Ihre Ergebnisse sind in den begrenzten Testumgebungen sehr gut. Aber für ein echtes Produkt bräuchte man viel mehr Trainingsdaten – möglicherweise mit Geräuschen und realen Aufnahmen vom Headset, anstatt sich nur auf synthetische Daten zu verlassen.“

Wie das Übersetzungssystem weiterentwickelt werden soll

Gollakotas Team konzentriert sich nun darauf, die Zeit zu verkürzen, die die KI-Übersetzung benötigt, um nach einer Äußerung eines Sprechers in Gang zu kommen, was natürlich klingende Gespräche zwischen Menschen mit unterschiedlichen Sprachen ermöglicht. „Wir wollen die Latenzzeit auf weniger als eine Sekunde reduzieren, so dass die Konversationsatmosphäre erhalten bleibt“, sagt Gollakota.

Dies bleibt eine große Herausforderung, denn die Geschwindigkeit, mit der ein KI-System eine Sprache in eine andere übersetzen kann, hängt von der Struktur der Sprachen ab. Von den drei Sprachen, für die Spatial Speech Translation trainiert wurde, übersetzte das System am schnellsten Französisch ins Englische, gefolgt von Spanisch und dann Deutsch – was darauf zurückzuführen ist, dass im Deutschen im Gegensatz zu den anderen Sprachen die Verben und ein Großteil der Bedeutung eines Satzes am Ende und nicht am Anfang stehen, sagt Claudio Fantinuoli, Forscher an der Johannes-Gutenberg-Universität Mainz, der nicht an dem Projekt mitgearbeitet hat.

Anzeige
Anzeige

Eine Verkürzung der Latenzzeit könnte die Genauigkeit der Übersetzungen beeinträchtigen, warnt er: „Je länger man [mit der Übersetzung] wartet, desto mehr Kontext hat man, und desto besser wird die Übersetzung. Es ist ein Balanceakt.“

Der Artikel stammt von Rhiannon Williams. Sie ist Redakteurin bei der US-amerikanischen Ausgabe von MIT Technology Review und arbeitet dort als Nachrichtenreporterin für Technikthemen.

 

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren