
Spracherkennung für Schweizerdeutsch
Das Institut für Data Science der FHNW arbeitet an einer Spracherkennung und Übersetzung auf Hochdeutsch für die Schweizer Dialekte.
Ausgangslage
Während die Spracherkennung für Englisch oder Hochdeutsch schon ziemlich gut funktioniert und dank Siri und Co. in unserem Alltag angekommen ist, gestaltet sich die Sache für Schweizerdeutsch etwas schwieriger. Die Dialektvielfalt, die fehlende standardisierte Rechtschreibung und die vergleichsweise wenigen Sprecher sind die wichtigsten Gründe dafür. Es gibt zwar Lösungen, die Spracherkennung für einen bestimmten Use Case ermöglichen, z.B. für eine bestimmte Domäne in einem Dialekt. Diese sind aber teuer und nicht wiederverwendbar, weil sie zu stark auf eine bestimmte Aufgabe zugeschnitten sind.
Ziele
In diesem Projekt streben wir eine allgemeine Spracherkennung an, die für alle Domänen und Dialekte funktioniert. So könnten die Kosten deutlich gesenkt und die Anwendungsgebiete erweitert werden. Mögliche Anwendungen sind Sprachassistenten, Protokollierung von Meetings oder Telefongesprächen, Steuerung von Robotern und vieles mehr.
Ergebnis
Unser Ansatz basiert auf den neusten Erkenntnissen in den Bereichen Deep Learning und Natural Language Processing (NLP). Damit gelingt es uns, ein Modell zu trainieren, das Spracherkennung und Übersetzung kombiniert und somit direkt schweizerdeutsche Sprachaufnahmen auf hochdeutschen Text übersetzen kann. Solche Modelle brauchen allerdings grosse Mengen an Trainingsdaten, also hunderte bis tausende Stunden von gesprochenen Sätzen in Schweizerdeutsch aligniert mit dem entsprechenden hochdeutschen Text.
Um an genügend Trainingsdaten heranzukommen, haben wir eine Methode entwickelt, die aus langen schweizerdeutschen Aufnahmen mit zugehörigem hochdeutschem Text, z.B. Parlamentsdiskussionen mit Wortlautprotokoll, automatisch Sprach-Text-Paare auf Satzebene extrahiert. Details können in unserem Paper nachgelesen werden. Das Dataset ist öffentlich und steht hier zum Download bereit. Mit einem auf diesen Daten trainierten Modell konnten wir bereits erste Erfolge erzielen. Die Word Error Rate ist aktuell bei 29 % und der BLEU Score bei 54.
Projekt-Information | |
---|---|
Kooperationspartner | Institut für Data Science FHNW, SwissNLP, ZHAW, Universität Zürich |
Projektteam | Prof. Dr. Manfred Vogel, Michel Plüss, Lukas Neukom, Christian Scheller |