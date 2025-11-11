Meta hat ein neues ASR, also ein mehrsprachiges automatisches Erkennungssystem, vorgestellt. Es soll mehr als 1.600 Sprachen unterstützen und stellt Whisper von OpenAI, das lediglich 99 Sprachen abdeckt, damit deutlich in den Schatten. Wie Venturebeat berichtet, können Entwickler:innen die Unterstützung außerdem auf Tausende weitere Sprachen ausweiten.

Meta arbeitete mit Muttersprachler:innen zusammen

Englisch ist mit rund 1,5 Milliarden Sprecher:innen die am weitesten verbreitete Sprache der Welt – gefolgt von Mandarin, Hindi und Spanisch. Insgesamt existieren allerdings mehrere Tausend aktive Sprachen, von denen viele regional begrenzt oder selten in großem Umfang dokumentiert sind. Meta ist es dennoch gelungen, verschiedene Modelle zu entwickeln, die auf mehr als 4,3 Millionen Stunden Audiomaterial aus über 1.600 Sprachen trainiert wurden. Laut der zugehörigen Forschungsarbeit deckt das System mehr als 500 Sprachen ab, die bislang von keinem ASR-Modell unterstützt wurden. Mithilfe von kontextbasiertem Zero-Shot-Lernen lässt sich die Abdeckung zudem potenziell auf über 5.400 Sprachen erweitern.

Meta arbeitete mit Forschungseinrichtungen und Community-Organisationen in Afrika, Asien und anderen Regionen zusammen, um den Omnilingual ASR Corpus gemeinsam zu entwickeln. Die Datensammlung konzentrierte sich auf natürliche, ungeskriptete Sprache und die Aufforderungen wurden bewusst kulturell relevant und offen gestaltet. Das größte Modell der Suite, das die Bezeichnung „omniASR_LLM_7B” trägt, benötigt rund 17 GB GPU-Speicher für die Inferenz und ist daher für leistungsstarke Hardware ausgelegt. Kleinere Varianten laufen auch auf weniger leistungsfähigen Geräten und ermöglichen Transkriptionen in Echtzeit. Trotz dieser Vielfalt erzielt das System robuste Ergebnisse. Laut Meta liegt die Zeichenfehlerrate in 78 Prozent der unterstützten Sprachen bei unter 10 Prozent.

Meta vollzieht strategischen Richtungswechsel

Alle Modelle und Datensätze stehen unter der offenen Apache-2.0-Lizenz zur Verfügung. Für Unternehmen, die in mehrsprachigen oder internationalen Märkten tätig sind, senkt Omnilingual ASR die Einstiegshürden für den Einsatz von Sprach-zu-Text-Systemen erheblich. Anstatt auf kommerzielle ASR-APIs mit begrenzter Sprachunterstützung angewiesen zu sein, können Entwickler:innen jetzt eine Open-Source-Pipeline nutzen, die auch seltene, regionale Sprachen abdeckt und sich mithilfe von Zero-Shot-Lernen individuell erweitern lässt. Diese Flexibilität ist insbesondere für Branchen wichtig, die auf lokale Sprachunterstützung angewiesen sind – dazu zählen zum Beispiel Kund:innenservice, Transkriptionsdienste oder Bildungseinrichtungen.

Nach einem Jahr voller Höhen und Tiefen erfolgt die Veröffentlichung zu einem entscheidenden Zeitpunkt für Metas KI-Strategie. Die Omnilingual-ASR-Suite, die mehrere Modellfamilien umfasst, ist die erste bedeutende Open-Source-Veröffentlichung seit Llama 4, Metas neuestem, großem Sprachmodell, das im April 2024 auf den Markt kam und zu großen Teilen negative Bewertungen erhielt. Insbesondere in Unternehmen konnte es sich nicht gegen Open-Source-Modelle chinesischer Anbieter durchsetzen. Omnilingual ASR steht daher für einen strategischen Neustart und knüpft an ein Feld an, in dem Meta traditionell stark ist – nämlich die mehrsprachige KI.