Skip to main content

Modul: Advanced Machine Learning

Sie lernen komplexere und weiterführende Machine Learning Algorithmen & Ansätze kennen und erfahren, wie Sie mit den häufigsten in der Praxis auftretenden Problemen im Datenbestand umgehen können.

Machine Learning versammelt ein breites Feld von Methoden und Algorithmen. Im CAS Data Science werden die grundlegenden Konzepte eingeführt und am Beispiel von Standard-Algorithmen im Detail betrachtet und angewendet. Dieses Modul vermittelt methodische Erweiterungen, Beispiele dafür sind:

  • Clustering: Hierarchisches Clustering, Gaussian Mixture Models, DBSCAN, etc. sowie vertiefter Einblick in die Untersuchung von Clustering-Resultaten.
  • Regression: Kernel Regression, Support Vector Regression
  • Model Selection revisited: RandomSearch, Cross Validation-Varianten

Neben den methodischen Erweiterungen werden auch zusätzliche Konzepte eingeführt, z.B. Ensemble-Learning: Als Ensemble-Learning werden Verfahren bezeichnet, mehrere (einfache) Modelle miteinander zu kombinieren. Dies führt in der Praxis häufig zu besseren Resultaten, als wenn ein einzelnes Modell verwendet wird. Auf der Data Science Competition Plattform Kaggle kommen diese Ensemble-Modelle deshalb fast immer zum Einsatz. In diesem Modul lernen Sie verschiedene Ensemble-Learning Verfahren wie Bagging, Boosting oder Stacking kennen, so dass Sie die dahinterliegenden Konzepte verstehen und nachvollziehen können, welchen Mehrwert die unterschiedlichen Ansätze bringen.

Relevantes Machine Learning Praxiswissen besteht jedoch keineswegs nur aus Algorithmen, sondern beinhaltet auch den vertrauten Umgang mit im Alltag häufig anzutreffenden Problemen im Datenbestand. Eines dieser Probleme ist beispielsweise, dass zu wenig Trainingsdaten vorhanden sind. Hier lernen Sie Strategien, wie Sie den Aufwand zum manuellen Kategorisieren von Datenpunkten minimieren und trotz des geringen Zuwachses an Trainingsdaten gute Verbesserungen Ihrer Modelle erreichen können. Ein anderes Problem liegt vor, wenn bei der Klassifikation die Menge der Trainingsdaten pro Klasse nicht gleich gross ist (Class Imbalance). Hier schauen Sie sich an, welche Algorithmen besser damit umgehen können und welche Ansätze es gibt, um trotzdem effizient trainieren zu können.

Weitere Informationen

Administratives

Diese Seite teilen: