Unstrukturierte Daten mit Hilfe von zeitgemässen NLP Verfahren (z.B. RNN, CNN, Sequence-to-Sequence , Transformers) interpretieren und im Rahmen eines eigenen Projekts anwenden. Zudem erfolgt ein Einblick in Acoustic Language Processing (ALP).
Daten sind die Ressource des heutigen Informationszeitalters. Der grösste Teil dieser Daten steht in Form von unstrukturiertem Text zur Verfügung. Natural Language Processing (NLP) macht solche unstrukturierten Daten für Computer interpretierbar und ermöglicht das maschinelle prozessieren der in den Daten enthaltenen Informationen. NLP ist somit ein wichtiger Bestandteil des heutigen Informationszeitalters und birgt grosses Potenzial, einen Mehrwert für Unternehmen zu generieren. NLP ist eines der am schnellsten wachsender Felder der künstlichen Intelligenz und gehört demnach ins Repertoire eines jeden Data Scientists.
Modulübersicht
Das Ziel dieses Moduls ist es, zeitgemässe NLP Verfahren zu vermitteln und diese praxisnah an verschiedenen Use-Cases anzuwenden, sodass dass Sie eigene NLP-Projekte realisieren können. Dazu frischen Sie zuerst Ihr Wissen über Vektor-Repräsentationen von Dokumenten auf. Danach werden verschiedene Netzwerkarchitekturen wie RNN, CNN, Sequence-to-Sequence mit Attention und Transformer Architekturen vermittelt und gezeigt, wie vortrainierte Modelle auf neue Problemstellungen angewendet werden können. Es werden jeweils Vor- und Nachteile wie auch die Anwendungsfälle der verschiedenen Modelle erläutert. Die Zielsetzung dieses Moduls ist Ihnen zu vermitteln, wie Sie ein NLP Projekt umsetzen können. Neben der Verarbeitung von Text ist auch ein Einblick in Acoustic Language Processing (ALP) Teil des Moduls. Hier geht es um die Extraktion von non-semantische Informationen (z.B. Emotionen) aus gesprochener Sprache.
Sie lernen nicht nur verschiedene Verfahren anhand vorgegebener Use-Cases, sondern vertiefen auch die praktische Anwendung im Rahmen des eigenen NLP-Projekts.
In einem ersten Schritt wird jeweils ein grundlegendes Verständnis zu den behandelten NLP Verfahren und deren Algorithmen vermittelt und in einem zweiten Schritt wird das erarbeitete Wissen auf ein Praxisbeispiel angewendet und vertieft.
Sie können einen Text Datensatz mittels Explorativer Datenanalyse untersuchen und sich so einen Überblick über den Datensatz verschaffen.
Sie wissen, wie Wörter/Dokumente als Vektoren abgebildet und wie diese miteinander verglichen werden können. Sie wissen was Word Embeddings sind und wie diese erstellt und trainiert werden.
Sie kennen verschiedene Netzwerkarchitekturen, von Recurrent Neural Networks (RNN), über Convolutional Neural Networks (CNNs) und moderne Attention basierte Language Models. Sie können deren Vor- und Nachteile abschätzen und wissen, wie diese auf Textdaten angewandt werden können.
Sie wissen, wie mittels Sequence-to-Sequence (seq2seq) Modellen variable Inputsequenzen verarbeitet und in variable Outputsequenzen transferiert werden können (wie z.B. für die Sprachübersetzung).
Sie verstehen, wie die Transformer Architektur funktioniert. Sie haben einen Überblick über die verschiedenen Transformer Modelle und kennen deren Vor- und Nachteile. Sie wissen, wie vortrainierte Modelle mittels Fine Tuning auf neue Problemstellungen transferiert werden können.
Sie haben eine Übersicht über weiterführende Transformer-Architekturen und verstehen deren Verbesserungen.
Sie wissen, wie Sie ein NLP Projekt angehen und können Ihre Entscheidung für ein Modell begründen.
Sie kennen aktuelle (und zukünftigen) NLP Challenges und wie Forscher diese zu adressieren versuchen.
Sie haben eine Übersicht über NLP Cloud Services und wie sie diese für beispielsweise Speech-to-Text in ihre Arbeit einbinden können.
Sie verstehen die Ansätze von Acoustic Language Processing (ALP) und wie damit non-semantische Informationen wie Emotionen aus gesprochener Sprache extrahiert wird.
Python, Scikit-Learn, Tensorflow, Docker.
Folgende Vorkenntnisse sollten Sie mitbringen:
Sie verfügen über Python Grundkenntnisse und können Libraries wie Pandas, NumPy und Scikit-Learn.
Sie können ein einfaches Machine Learning Modell in Python mit scikit-learn trainieren, evaluieren und anwenden.
Sie wissen was Feedforward Neural Networks sind und wie diese trainiert werden.
Es wird erwartet, dass Sie vor dem Kursstart:
Eine Google Login erstellt und/oder Docker (möglichst mit GPU Beschleunigung) installiert und getestet haben.
Ihre Kenntnisse zu Python, Machine Learning Modellen und Feedforward Neural Networks aufgefrischt haben.
Sich in Tensorflow eingearbeitet haben.
Weitere Informationen
Sie erhalten in jedem Fall eine Teilnahmebestätigung. Falls Sie in der festgelegten Leistungsbeurteilung mindestens eine genügende Leistung erbringen, erhalten Sie einen Nachweis, dass Sie das Modul erfolgreich bestanden haben.
Teilnehmenden des DAS- oder MAS-Data-Science-Weiterbildungslehrgangs werden die entsprechenden ETCS-Punkte angerechnet.
Das Modul wird von zwei externen Dozierenden geleitet.
22. September 2023
29. September 2023
20. Oktober 2023
8 Teilnehmende
CHF 1‘500.- für ehemalige CAS / DAS Data Science-Teilnehmende CHF 2‘000.- (Externe)