News

Mozilla veröffentlicht größte frei zugängliche Sprachdatensammlung der Welt

(Foto: Mozilla)

Mozilla hat die bislang größte frei zugängliche Sprachdatensammlung veröffentlicht. Darin befinden sich Aufnahmen von mehr als 42.000 Menschen in 18 Sprachen.

Spracherkennung ist ein gut dokumentiertes Feld. Dass dennoch kaum ernstzunehmende Open-Source-Alternativen zu Alexa, Siri oder dem Google Assistant existieren, liegt vor allem an der hohen Menge an Trainingsdaten, die entsprechende Systeme benötigen, um gesprochene Sprache zu erkennen. 2017 startete Mozilla daher das Common-Voice-Projekt. Unterstützerinnen und Unterstützer waren dazu aufgerufen, vorgegebene Sätze einzusprechen, um so eine gemeinfreie Sprachdatenbank aufzubauen. Das Projekt fand rege Unterstützung und Mozilla konnte jetzt die wohl weltweit größte gemeinfreie Sprachdatensammlung veröffentlichen.

Insgesamt enthält das Paket fast 1.400 Stunden an Sprachaufnahmen, die wiederum von 42.000 Freiwilligen beigesteuert wurden. Der Common-Voice-Datensatz beschränkt sich nicht nur auf das Englische, sondern enthält Aufnahmen in 17 weiteren Sprachen. Darunter auch Deutsch, Französisch und Mandarin. Alle Daten stehen unter der freien CC0-Lizenz. Sie sind damit gemeinfrei und können ohne jegliche Einschränkungen von jeder interessierten Partei genutzt werden.

Grundlage für freie Spracherkennungslösungen: Mozillas Common-Voice-Datensatz in Zahlen. (Grafik: Mozilla)

Grundlage für freie Spracherkennungslösungen: Mozillas Common-Voice-Datensatz in Zahlen. (Grafik: Mozilla)

Common Voice: Mozilla will eine möglichst diverse Sprachdatenbank aufbauen

Langfristig soll der Sprachkorpus noch deutlich anwachsen. Schon jetzt sammelt Common Voice Aufnahmen in 22 Sprachen. 70 weitere sind in Planung. Darunter befinden sich dann auch Sprachen, die einen eher geringen Verbreitungsgrad aufweisen oder in Regionen gesprochen werden, die eine geringe wirtschaftliche Bedeutung haben, und daher für die Tech-Großkonzerne uninteressant sind.

Common Voice sammelt beispielsweise Sprachdaten in Hakha Chin, einer Sprache aus dem Westen Myanmars, die von nur etwa 200.000 Menschen gesprochen wird. In Kooperation mit der Deutschen Gesellschaft für Internationale Zusammenarbeit hat das Projekt auch den Aufbau eines Sprachkorpus in Kinyarwanda angestoßen. Die Sprache ist in Ruanda sowie angrenzenden Gebieten des Kongos und Uganda verbreitet und wird von etwa zwölf Millionen Menschen gesprochen.

Ebenfalls interessant:

Zur Startseite
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Schreib den ersten Kommentar!

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!

Hey du! Schön, dass du hier bist. 😊

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team bestehend aus 65 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Danke für deine Unterstützung.

Digitales High Five,
Stephan Dörner (Chefredakteur t3n.de) & das gesamte t3n-Team

Anleitung zur Deaktivierung