Schweizerdeutsche Spracherkennung und Übersetzung in Standarddeutsch
Schweizerdeutsch ist schwierig zu transkribieren. Unser Projekt hat ein einfach nutzbares, kommerzielles Tool entwickelt, das Schweizerdeutsch in Standarddeutsch transkribiert und übersetzt.
Die Erkennung gesprochener Sprache und deren Umwandlung in Text ist grundsätzlich gelöst – allerdings nur für die grossen Weltsprachen. Bisher hatten Schweizerdeutsch-Sprechende keinen Zugang zu geeigneten Transkriptionstools. Mit nur fünf Millionen Muttersprachlern stellen sie weder einen ausreichend grossen Datenpool noch einen kommerziell interessanten Markt für internationale Entwickler dar. Selbst diese fünf Millionen sprechen nicht dieselbe Sprache: Es gibt zahlreiche lokale Dialekte, die sich teilweise erheblich unterscheiden. Eine Muttersprachlerin aus St. Gallen versteht möglicherweise nicht, was ihr Landsmann aus dem Wallis sagt.
Die grösste Herausforderung ist jedoch, dass Schweizerdeutsch keine Schriftsprache ist. In professionellen Kontexten schreiben Schweizerdeutschsprachige normalerweise in Standarddeutsch. Deshalb gibt es keinen umfassenden Datensatz, der gesprochene Wörter mit geschriebenem Text in Schweizerdeutsch verbindet. Trotz vieler Ähnlichkeiten unterscheiden sich Schweizerdeutsch und Standarddeutsch hinsichtlich Wortschatz, Rechtschreibung und sogar Grammatik. Daher reicht es nicht, Audio einfach in Text zu transkribieren: Wir müssen zwischen den beiden Sprachen übersetzen.
Dies ist ein praktisches Problem, das praktische Lösungen erfordert, nicht bloss eine theoretische Methode. Unser Ziel war, dass unser Forschungsprojekt in einem benutzerfreundlichen und kommerziell erhältlichen Tool für Konsumenten und Unternehmen resultiert. Deshalb haben wir mit dem FHNW-Spin-off Ateleris zusammengearbeitet, einem Softwareunternehmen, das auf die Umsetzung von Forschungswissen in industrielle und kommerzielle Anwendungen spezialisiert ist. Unsere Rolle als Institut war es, unsere Expertise in Deep Learning, Machine Learning, Natural Language Processing sowie Sprach-zu-Text- und Text-zu-Sprach-Modellen einzubringen. Zudem haben wir den Datensatz des Schweizer Parlamentskorpus genutzt und nach Projektabschluss die aktualisierte Version 2.0 veröffentlicht.
Das Projekt war erfolgreich und brachte greifbare Ergebnisse: Ateleris hat Schweizerdeutsch in seinen mehrsprachigen Transkriptionsdienst Stenoris integriert, sowohl für Cloud- als auch für On-Premise-Nutzung. Unser Institut bietet zudem eine einfache browserbasierte Demoseite an, die für alle kostenlos zugänglich ist.
Englisch mag die globale Verkehrssprache sein, doch lokale Sprachen tragen lokale Kulturen und sind deshalb unersetzbar. Wenn Schweizerdeutschsprechende und -lernende Zugang zu guten digitalen Hilfsmitteln haben, kann auch die Schweizer Kultur online gedeihen.
Information

Hochschule / Institut | Hochschule für Informatik FHNW / Institut für Data Science FHNW |
Projektpartner | |
Förderung | |
Projektlaufzeit | Juni 2023 – August 2024 |
Projektleitung | Manfred Vogel (Institut für Data Science FHNW) |
Projektteam | Claudio Paonessa (Institut für Data Science FHNW) Yanick Schraner (Institut für Data Science FHNW) Vincenzo Timmel (Institut für Data Science FHNW) Laszlo Etesi (Ateleris) Silvan Laube (Ateleris) Andrea Zirn (Ateleris) Orell Bühler (Ateleris) Luca Schafroth (Ateleris) Simon Beck (Ateleris) Joel Blumer (Ateleris) Matthias Krebs (Ateleris) |
Mehr Informationen | Manfred Vogel (Institut für Data Science FHNW) |
Offene Ressourcen |