Common Voice: Mozilla veröffentlicht freie Trainingsdaten für Spracherkennungsmodelle
Google, Amazon, Microsoft und Apple: Alle großen Tech-Konzerne haben eigene Spracherkennungslösungen entwickelt und bieten sie zumindest teilweise über ihre Cloud-Dienste auch zur Integration in Drittanbieterlösungen an. An konkurrenzfähigen Open-Source-Alternativen mangelt es allerdings. Dabei sind die grundlegenden Techniken dahinter in Form wissenschaftlicher Paper durchaus dokumentiert. Nur bringt auch das beste Spracherkennungsmodell erstmal wenig, wenn es nicht mit genug echten Sprachdaten trainiert werden kann.
Genau hier soll Mozillas Common-Voice-Projekt ins Spiel kommen: Hinter dem Namen verbirgt sich die derzeit zweitgrößte Sammlung frei verfügbarer Trainingsdaten. Die hat Mozilla jetzt unter einer freien Lizenz veröffentlicht, die Trainingsdaten können also für kommerzielle und nichtkommerzielle Zwecke verwendet werden. Über die Common-Voice-Website können interessierte Internet-Nutzer außerdem dabei helfen, den Bestand an Sprachdaten auszubauen, indem sie vorgefertigte Sätze ablesen, die dann ebenfalls in den Datenbestand integriert werden.
Zum jetzigen Zeitpunkt umfasst das Datenset insgesamt 500 Stunden an Sprachaufnahmen. Die setzen sich aus 400.000 Einzelaufnahmen zusammen, die wiederum von 200.000 unterschiedlichen Sprechern stammen. Je nach Interesse von freiwilligen Helfern könnte der Bestand aber natürlich noch deutlich anwachsen.
Quelloffene Spracherkennungssoftware von Mozilla
Gleichzeitig zu den Sprachdaten hat Mozilla auch eine quelloffene Spracherkennungssoftware auf Tensorflow-Basis veröffentlicht. Die setzt auf Deep Learning und basiert auf einem im Jahr 2014 von Forschern des chinesischen Internet-Riesen Baidu veröffentlichten Paper. Die Fehlerrate der Software liegt laut Mozilla derzeit bei 6,5 Prozent. Google hat im Mai 2017 erklärt, die Fehlerrate ihrer Spracherkennung läge mittlerweile knapp unter fünf Prozent. Allerdings ist unklar, welche Methode Google zur Bestimmung des Wertes eingesetzt hat. Ein Vergleich beider Angaben ist daher nur bedingt sinnvoll.
Die Software steht unter der Mozilla-Public-License 2.0 und kann auf Github heruntergeladen werden. Über die Entwickler-Plattform könnt ihr euch natürlich auch an der Weiterentwicklung beteiligen. Wer sich mit anderen Entwicklern über die Software austauschen möchte oder Fragen hat, die im offiziellen FAQ-Dokument nicht beantwortet werden, der kann das über das offizielle Discourse-Forum des Projekts tun.
Ebenfalls interessant:
- Was ist eigentlich der Unterschied zwischen AI, Machine Learning, Deep Learning und Natural Language Processing?
- Das ist der beste Sprachassistent für den deutschen Markt – laut Wissenschaft
- Alexa, Siri und Google Assistant: Warum die digitalen Assistenten unausgelastet sind
Bitte beachte unsere Community-Richtlinien