Skip to main content

Spracherkennung für Schweizerdeutsch

Das Institut für Data Science der FHNW arbeitet an einer Spracherkennung und Übersetzung auf Hochdeutsch für die Schweizer Dialekte.

Spracherkennung für Schweizerdeutsch-forschungsprojekt.jpg

Ausgangslage

Während die Spracherkennung für Englisch oder Hochdeutsch schon ziemlich gut funktioniert und dank Siri und Co. in unserem Alltag angekommen ist, gestaltet sich die Sache für Schweizerdeutsch etwas schwieriger. Die Dialektvielfalt, die fehlende standardisierte Rechtschreibung und die vergleichsweise wenigen Sprecher sind die wichtigsten Gründe dafür. Es gibt zwar Lösungen, die Spracherkennung für einen bestimmten Use Case ermöglichen, z.B. für eine bestimmte Domäne in einem Dialekt. Diese sind aber teuer und nicht wiederverwendbar, weil sie zu stark auf eine bestimmte Aufgabe zugeschnitten sind.

Ziele

    In diesem Projekt streben wir eine allgemeine Spracherkennung an, die für alle Domänen und Dialekte funktioniert. So könnten die Kosten deutlich gesenkt und die Anwendungsgebiete erweitert werden. Mögliche Anwendungen sind Sprachassistenten, Protokollierung von Meetings oder Telefongesprächen, Steuerung von Robotern und vieles mehr.

    Ergebnis

      Unser Ansatz basiert auf den neusten Erkenntnissen in den Bereichen Deep Learning und Natural Language Processing (NLP). Damit gelingt es uns, ein Modell zu trainieren, das Spracherkennung und Übersetzung kombiniert und somit direkt schweizerdeutsche Sprachaufnahmen auf hochdeutschen Text übersetzen kann. Solche Modelle brauchen allerdings grosse Mengen an Trainingsdaten, also hunderte bis tausende Stunden von gesprochenen Sätzen in Schweizerdeutsch aligniert mit dem entsprechenden hochdeutschen Text.

      Um an genügend Trainingsdaten heranzukommen, haben wir eine Methode entwickelt, die aus langen schweizerdeutschen Aufnahmen mit zugehörigem hochdeutschem Text, z.B. Parlamentsdiskussionen mit Wortlautprotokoll, automatisch Sprach-Text-Paare auf Satzebene extrahiert. Details können in unserem Paper nachgelesen werden. Das Dataset ist öffentlich und steht hier zum Download bereit. Mit einem auf diesen Daten trainierten Modell konnten wir bereits erste Erfolge erzielen. Die Word Error Rate ist aktuell bei 29 % und der BLEU Score bei 54.

      Projekt-Information

      Kooperationspartner

      Institut für Data Science FHNWSwissNLP, ZHAW, Universität Zürich

      Projektteam

      Prof. Dr. Manfred Vogel, Michel Plüss, Lukas Neukom, Christian Scheller


      Diese Seite teilen: