Skip to main content

Modul: ML in Production

Eine nachhaltige Data-Management Strategie und ein permanent verfügbarer und überwachter Betrieb Ihrer ML-Projekte sind die Grundbausteine für einen professionellen Betrieb.

Viele angehende Data Scientists sind sich folgendes Setup gewohnt: Ein Machine Learning Modell wird mit einem vorhandenen Daten-Export lokal in einem Jupyter Notebook trainiert und evaluiert. Das so trainierte Modell mag zwar gute Resultate erbringen, dies ist jedoch nur der Anfang. Für die professionelle Überführung in den produktiven Betrieb müssen viele weitere Aspekte berücksichtigt werden.

Ein paar Beispiele:

  • Betreiben Sie selbst einen Service oder nutzen Sie die Cloud? Dazu müssen betriebliche, infrastrukturelle und rechtliche Gesichtspunkte berücksichtigt werden.
  • Wie kann ein produktiv betriebenes ML-Modell überwacht werden? Wird dies vernachlässigt, dann laufen Sie Gefahr, dass ihr ML-Modell mit der Zeit schlechtere Resultate liefert (z.B. aufgrund nicht erkannten Änderungen in den Input-Daten), Sie dies aber nicht bemerken.
  • Wie kann ein neues Modell trainiert resp. mit dem bisherigen verglichen werden um zu prüfen, ob sich dies in der Praxis bessere Resultate liefert?
  • Wie wird ein neues Modell ohne Service-Unterbruch bereitgestellt?
  • Wie kann ein nachhaltiges Datenmanagement (Informations-Beschaffung, -Bewirtschaftung & -Bereitstellung) aufgebaut werden? Die Informationen müssen häufig aus verschiedenen Systemen zusammengeführt, auf Konsistenz geprüft und zugriffsgeschützt abgelegt werden, um eine langfristige Data Science Strategie im Betrieb aufzubauen. Ein sauberes Datenmanagement ist auch dann von Vorteil, wenn Kunden von ihrem Auskunftsrecht über Ihre Daten Gebrauch machen.

Modulübersicht

In den ersten 1.5 Unterrichtstagen erhalten Sie eine Einführung in das Thema Enterprise- und Lösungsarchitektur mit Fokus auf Daten-Management, Data Warehousing und verwandte Konzepte wie Data Lakes. Damit werden die Grundlagen für ein nachhaltiges Daten-Management in Data Science Projekten geschaffen. Mit dem Wissen über die wichtigsten Technologien des Daten-Managements (SQL, No-SQL, On-Prem vs. Cloud) können Sie deren Einsatz für Data Science Projekte in der Praxis richtig einschätzen. Sie kennen die Anforderungen und Rahmenbedingungen an unternehmensweite Datenmodelle und können ein einfaches relationales Data Warehouse-Datenmodell erarbeiten, welches für Data Science Zwecke gut geeignet ist. Zusätzlich lernen Sie die Grundlagen von SQL im analytischen Umfeld kennen und sind in der Lage, selbst Abfragen und analytische Datasets zu erstellen.

In den nachfolgenden zwei Unterrichtstagen fokussieren sich auf die konkrete Umsetzung einer professionellen ML Infrastruktur auf Kubernetes in der Google Cloud und die dafür erforderlichen Konzepte. Sie erhalten zuerst einen Überblick über die zentralen Software-Entwicklungs Grundlagen wie Versionierung (auch bezüglich Machine Learning Modellen & Datasets), Packaging oder Pipelines. Im Anschluss steht das Deployment mit Themen wie Deployment Strategien (Canary Release, A/B Testing…), Monitoring/Metriken, High-Availability & Fault-Tolerance im Vordergrund. Abgerundet wird der Teil mit weiterführenden Themen wie Lifecycle Mangement oder Online-Learning. Am Ende dieses Kursteils wurden sämtliche Konzepte praktisch umgesetzt, so dass Sie im Anschluss selbst in der Lage sind, Ihr ML-Modell professionell zu betreiben.

Weitere Informationen

Diese Seite teilen: