Skip to main content

Modul: Advanced Machine Learning

Sie lernen komplexere und weiterführende Machine Learning Algorithmen & Ansätze kennen und erfahren, wie Sie mit den häufigsten in der Praxis auftretenden Problemen im Datenbestand umgehen können.

Machine Learning versammelt ein breites Feld von Methoden und Algorithmen. Im CAS Data Science werden die grundlegenden Konzepte eingeführt und am Beispiel von Standard-Algorithmen im Detail betrachtet und angewendet. Dieses Modul vermittelt methodische Erweiterungen, Beispiele dafür sind:

  • Clustering: Wir analysieren verschiedene Cluster-Algorithmen, diskutieren die Vor- und Nachteile und verschiedene Anwendungsgebiete.
  • Regression: Techniken aus dem letzten Jahr werden wiederholt und weitere Einblicke gewährt.
  • Model Selection revisited: RandomSearch, Cross Validation-Varianten
  • AutoML: Frameworks werden vorgestellt, die Modell-Selektion und Hyperparameter-Fine-Tuning für den Anwender wegabstrahieren.

Neben den methodischen Erweiterungen werden auch zusätzliche Konzepte eingeführt, z.B. Ensemble-Learning: Als Ensemble-Learning werden Verfahren bezeichnet, mehrere (einfache) Modelle miteinander zu kombinieren. Dies führt in der Praxis häufig zu besseren Resultaten, als wenn ein einzelnes Modell verwendet wird. Auf der Data Science Competition Plattform Kaggle kommen diese Ensemble-Modelle deshalb fast immer zum Einsatz. In diesem Modul lernen Sie verschiedene Ensemble-Learning Verfahren wie Bagging, Boosting oder Stacking kennen, so dass Sie die dahinterliegenden Konzepte verstehen und nachvollziehen können, welchen Mehrwert die unterschiedlichen Ansätze bringen.

Relevantes Machine Learning Praxiswissen besteht jedoch keineswegs nur aus Algorithmen, sondern beinhaltet auch den vertrauten Umgang mit im Alltag häufig anzutreffenden Problemen im Datenbestand. Eines dieser Probleme ist beispielsweise die Abhängigkeit der Daten untereinander. Wird dies nicht erkannt und im Training gebührend berücksichtigt, resultieren Algorithmen, die auf Trainingsdaten zu gute Resultate liefern und nicht oder nur schlecht auf neue Daten generalisieren. Oftmals treten auch Unsicherheiten im Umgang mit fehlenden Werten auf. Mittlerweile gibt es eine grosse Auswahl an Methoden dieser Problematik zu begegnen. Wann welche Methode vielversprechend ist und wie sie eingesetzt werden lernen Sie ebenfalls in diesem Modul. Nebenher werden auch andere Herausforderungen, wie beispielsweise Class Imbalance diskutiert.

Weitere Informationen

Administratives

Diese Seite teilen: