Common Voice

Mozilla veröffentlicht riesigen Sprachdatensatz

von Eva Mögele - 30.11.2017
Mozilla Common Voice
Foto: Mozilla
Mozilla hat einen riesigen Sprachdatensatz veröffentlicht, der nun Entwicklern frei zur Verfügung steht. Die Sammlung wurde im Rahmen des Common-Voice-Projekts erhoben.
Common-Voice-App
Common Voice: Über den Dienst haben Freiwillige Sprachmaterial für eine freie Sprachdatenbank beigesteuert.
(Quelle: Mozilla )
Seit Juli sammelt Mozilla über Common Voice unzählige Sprachproben, die Freiwillige über die Webseite des Projekts sowie über die dazugehörige iOS-App einsprechen. Jetzt veröffentlicht der Open-Source-Spezialist einen ersten Sprachdatensatz, der etwa 500 Stunden an Sprachaufnahmen enthält. Dieser setzt sich aus beinahe 400.000 Aufnahmen von 200.000 unterschiedlichen Sprechern zusammen und stellt damit laut Mozilla schon jetzt den zweitgrößten öffentlichen Sprachdatensatz dar. In Zukunft werde die Datenbank sukzessive ausgebaut und um weitere Sprachen ergänzt - derzeit beschränkt sich Common Voice auf Englisch.
Die Daten sollen Entwicklern als Grundlage für eine freie Spracherkennung dienen. Bislang fehlen vielen Forschern und Start-ups die notwendige Daten, um effizient an qualitativ hochwertigen Spracherkennungssystemen arbeiten zu können. Die derzeit verfügbaren Sprachdaten seien für dieses Vorhaben nicht ausreichend und gleichzeitig zu kostspielig. Diese Probleme sollen dank der neuen Sprachdatenbank der Vergangenheit angehören. Mozilla nutzt den Datensatz außerdem zur Entwicklung einer offenen Speech-To-Text-Engine, die sich als freie Alternative zu den Lösungen von Google, Microsoft und Co. etablieren soll.

Mozilla DeepSpeech

Neben den Common-Voice-Daten hat Mozilla des Weiteren die Open-Source-Spracherkennungs-Engine DeepSpeech veröffentlicht. Für diese hat das Machine-Learning-Team des Firefox-Entwicklers die DeepSpeech-Architektur des chinesischen Internet-Konzerns Baidu auf Googles AI-Bibliothek TensorFlow implementiert. Die Verarbeitung der Datensätze über diese Lösung erfolgte durch ein Rechnercluster mit insgesamt 20 Grafikkarten vom Typ Titan X / XPs. Die Hardware war eine ganze Woche mit der Berechnung der Daten beschäftigt, bis die Engine für die gewünschte Leistung trainiert war. Die fertige Engine erreicht dank des Trainings eine Fehlerquote bei der Spracherkennung von lediglich 6,5 Prozent. Zum Vergleich: Die menschliche Fehlerquote soll bei 5,83 Prozent liegen.
Das fertig trainierte Modell von DeepSpeech steht ebenfalls zum freien Download bereit. Die Engine kann auf herkömmlichen PCs für die Spracherkennung in Echtzeit eingesetzt werden. Sämtliche Berechnungen erfolgen dabei lokal ohne Cloud-Anbindung. Künftig wolle man die Effizienz von DeepSpeech weiter erhöhen, damit die Lösung schließlich auch auf mobilen Geräten oder Entwicklerboards wie dem Raspberry Pi lauffähig ist.
Verwandte Themen