Unternehmen sammeln immer mehr Daten mit dem Ziel, darin betriebswirtschaftlich relevante Informationen zu finden. Dies ist im Normalfall die Aufgabe von Data Scientists, deren Rolle in den Medien aktuell viel Aufmerksamkeit geschenkt wird. Bedauerlicherweise erhält die Rolle des Data Engineers vergleichsweise wenig Ruhm und Beachtung, obwohl diese für den produktiven Betrieb und Anwendung von Data Science mindestens so wichtig ist. Der Verantwortungsbereich von Data Engineers ist sehr breit. Zusammengefasst sind Data Engineers für die Planung, den Auf- und Ausbau, den Betrieb und die Überwachung einer On-Prem oder Cloud-basierten Daten-Infrastruktur verantwortlich.
Data Engineers können hochverfügbare Daten-Infrastrukturen planen, umsetzen und überwachen. Datenvisualisierungen in Dashboards helfen dabei, den Betrieb und die Daten zu überwachen. Data Engineers sorgen dafür, dass Daten über Datenpipelines zusammengeführt und in einer dafür geeigneten Datenbank, einem Data Warehouse oder einem Data Lake abgespeichert werden. Sie berücksichtigen dabei auch Data Governance Aspekte. Data Engineers behalten auch bei der Verarbeitung von grossen Datenmengen den Überblick und setzen anhand des vorliegenden Anwendungsfalls und bestehender Infrastruktur die geeignete Art der Datenprozessierung und das passendste Framework ein. Data Engineers sind auch mit den für eine Daten-Infrastruktur wichtigsten Cloud-Services vertraut und können diese einbinden. Dank dem Grundverständnis von Machine Learning sind Data Engineers in der Lage, Machine Learning Modelle in der Produktion zu betreiben und zu überwachen, um frühzeitig Verschlechterungen in der Vorhersage-Qualität zu erkennen. Zudem können sie Programmcode modular strukturieren, testen und auch als Service zur Verfügung stellen.
Melden Sie sich bei der Programmleitung, falls Sie eine individuelle Beratung oder sich mit aktuellen oder ehemaligen Teilnehmenden des Weiterbildungsprogramms CAS Data Engineering austauschen möchten.
Modulübersicht
Sie wissen, welche Anforderungen zur Planung einer Daten-Infrastruktur (u.a. Skalierbarkeit, Redundanz, Batch- vs. Realtime Processing, Data Governance) erhoben und berücksichtigt werden müssen.
Sie wissen, welche Komponenten zu einer Daten-Infrastruktur gehören.
Sie können eine Daten-Infrastruktur basierend auf den Anforderungen und den bisher eingesetzten IT-Infrastruktur planen und realisieren.
Sie können den laufenden Betrieb einer Daten-Infrastruktur überwachsen, so dass Sie im Fehlerfall alarmiert werden.
Sie können neben der produktiven Umgebung eine Testumgebung für die Entwicklung mit denselben Komponenten betreiben und haben eine Strategie für die Daten-Replikation aus dem produktiven System in die Testumgebung.
Sie können abschätzen, ob der Einsatz von «Big Data»-Technologien für Ihre Datenmenge und Ihre Anforderungen an Verarbeitungsgeschwindigkeit notwendig ist.
Sie können verfügbare, skalierbare und wartbare Datenpipelines erstellen.
Sie wissen welche Big-Data-Frameworks existieren und welche Vor- und Nachteile diese haben, so dass Sie die Wahl für ein Framework für Ihren Anwendungsfall begründen können.
Sie kennen die Möglichkeiten, um komplexe wiederkehrende Abläufe mittels eines Schedulers zu automatisieren.
Sie verstehen die Herausforderungen von verteilten Daten; insbesondere bei der Verarbeitung von Datenströmen (Streams).
Sie wissen, welche Abklärungen getroffen werden müssen, ob die Daten in der Cloud abgelegt werden dürfen resp. unter welchen Bedingungen.
Sie kennen die für eine Daten-Infrastruktur relevanten Services der Google Cloud und wissen, dass andere Cloud-Anbieter gliche oder zumindest ähnliche Funktionalitäten anbinden.
Sie kennen die Vorteile von «Infrastructure as Code» und können damit eine Cloud Infrastruktur aufsetzen und erweitern.
Sie können die Cloud-Services in Ihre Infrastruktur einbinden.
Sie können die Kosten für den Betrieb Ihrer Cloud Infrastruktur abschätzen.
Sie können den laufenden Betrieb und die Kosten Ihrer Cloud-Services überwachen.
Sie verstehen die Grundlagen und Vorteile von Containern und deren Verwendung
Sie können Container Images interaktiv als auch per Konfigurationsfile bauen und wissen, wie Container Images verteilt werden.
Sie kennen die Mechanismen, um den Datenaustausch als auch Netzwerkkommunikation zwischen verschiedenen Container sicherzustellen.
Sie verstehen die einfache Orchestrierung mehrerer Container.
Sie kennen die grundlegenden Konzepte und Möglichkeiten der Verwendung von Container in der Cloud
Sie kennen und wissen die Grundlagen von Kubernetes, dem Industrie-Standard für die Orchestrierung von Container in der Cloud und wissen, diese effektiv einzusetzen
Sie kennen das qualitätsorientierte Data Governance Framework.
Sie kennen die drei Handlungsfelder Strategie, Organisation und Informationssysteme.
Sie wissen, welche Methoden, Konzepte und Tools für Data Governance eingesetzt werden können.
Sie können Arten von Daten einordnen sowie deren Qualität messen und bewerten
Sie verstehen die Wichtigkeit von Data Governance im Unternehmen
Sie kennen verschiedene Data-Science-Methoden aus den Bereichen Machine Learning, Recommender Systeme und Data Mining
Sie kennen typische Anwendungsfälle von Data Science in den Unternehmen.
Sie wissen, wie wichtig qualitativ hochwertige Daten wie auch eine funktionierende Daten-Infrastruktur für die nachhaltige und korrekte Anwendung von Data Science ist.
Sie kennen die drei Arten (Regression, Klassifikation, Clustering) von Machine Learning sowie die wichtigsten Grundkonzepte (u.a. Aufteilung der Daten in Test- und Training Set, k-fold Cross Validation, Underfitting, Overfitting)
Sie können mit Hilfe bestehender Python Libraries einfache Data Science Methoden anwenden.
Sie können Daten aus verschiedenen Datenquellen integrieren und diese den Bedürfnissen entsprechend aufbereiten.
Sie können Daten in einer geeigneten Struktur speichern, weil sie wissen, welche Datenbank Technologien für welchen Use Case verwendet werden.
Sie können analytische Funktionen von SQL für Auswertungen anwenden.
Sie können relationale und NoSQL Datenmodelle erstellen und interpretieren.
Sie wissen, wie die Qualitätssicherung in Datenbanken erfolgt.
Sie wissen, wie sie Schnittstellen zwischen verschiedenen Datenbanken erstellen und umsetzen, damit Datenbezüge implementiert werden können.
Sie kennen Architekturen für real-time Analytics und können diese beschreiben.
Sie verstehen die Architektur und den Aufbau eines Data Warehouse und können Datenstrukturen nach den DWH Regeln aufbauen.
Sie kennen die Hauptwerte der deskriptiven Statistik.
Sie kennen die wichtigsten Datentypen.
Sie können die geeignete Darstellungsart nach Datentyp auswählen.
Sie können deskriptive Statistiken und Datenvisualisierung in einem Dashboard abbilden, um operative Aspekte ihrer Datenpipelines und die Kommunikation mit Projektbeteiligten zu verbessern.
Sie kennen verschiedene Möglichkeiten, um eine Machine-Learning Modell zu deployen.
Sie können Ihr Machine-Learning Modell lokal wie auch in der Cloud deployen.
Sie kennen verschiedene Deployment-Stratgien (z.B. Canary-Releases, A/B-Testing, Shadowing etc.) und können sich begründet für eine entscheiden und diese während dem laufenden Betrieb durchführen, ohne dass der Nutzer davon etwas merkt.
Sie können eine laufende Machine Learning Anwendung überwachen und warten.
Sie wissen, wie Sie einen hoch-verfügbaren Service in der Cloud anbieten können.
Sie kennen das Prinzip von Online-Learning und können dies umsetzen
Sie können Ihren Code in Module auslagern.
Sie können denselben Code aus verschiedenen Projekten verwenden.
Sie kennen Prinzipien zur professionellen Strukturierung des Codes und können diese umsetzen.
Sie sind in der Lage, Versionskontrolle für Ihren Code, Modelle und Daten anzuwenden.
Sie können die Funktionalität Ihres Codes mit Unit-Tests prüfen.
Sie können automatische Build-Systeme für ihren Code in das Versionsverwaltungssystem einbinden.
Sie können das Logging in eine Applikation integrieren, konfigurieren und überwachen.
Sie kennen verschiedene Möglichkeiten, Ihr Programm über eine Schnittstelle anzubieten und können begründet entscheiden, welche Variante für welchen Anwendungsfall geeignet ist.
Sie können ihr Programm über eine Schnittstelle anbieten.
Sie können die Zugriffsberechtigungen für Ihre Schnittstelle konfigurieren.
Sie können die Zugriffe und Applikation, welche über eine Schnittstelle veröffentlicht wurde, überwachen
Studium
Fachpersonen aus der IT oder Personen mit Interesse an IT-Infrastrukturen, die zukünftig für die Planung, Umsetzung und den produktiven Betrieb von Daten-Infrastrukturen zuständig sein möchten.
23 Kurstage jeweils freitags und samstags.
Pro ECTS-Punkt wird mit einem durchschnittlichen Zeitaufwand von 25 Stunden gerechnet. Der CAS Data Engineering hat einen Umfang von 15 ECTS-Punkten. Deshalb ist mit einem Arbeitsaufwand von 375 Stunden zu rechnen.
Die Hälfte des Zeitaufwands ist dabei für das Selbststudium ausserhalb des Unterrichts für Kursvorbereitungen, Übungen, Repetition des Unterrichtsinhalts, Projektarbeiten und Prüfungsvorbereitungen zu reservieren.
Die Aufnahmebedingungen umfassen:
Sie sind bereits in der Informatik tätig oder haben persönliches Interesse und Affinität für IT-Infrastrukturen. Zudem können Sie eine Programmiersprache anwenden. Python-Kenntnisse sind empfohlen.
Abschluss einer Fachhochschule, Universität, technischen Hochschule oder eine Berufsausbildung mit Praxiserfahrung. Studierende, die über keinen Hochschulabschluss verfügen, können (sur Dossier) zugelassen werden, wenn sich die Befähigung zur Teilnahme aus einem anderen Nachweis ergibt.
Sie arbeiten während der Kurszeit am eigenen Notebook. Sie müssen in der Lage sein, neue Software auf diesem Rechner zu installieren.
Über 90% der Dozierenden dieses Weiterbildungslehrgangs kommen aus der Privatwirtschaft; die restlichen aus der angewandten Forschung. Dies hat den grossen Vorteil, dass die Dozierenden nicht einfach nur den Inhalt aus Lehrbüchern vermitteln, sondern zusätzlich aufgrund ihrer langjährigen Erfahrungen in der Lage sind, begründet zu erklären, welche Konzepte und Technologien sich in verschiedenen Anwendungsfällen der Praxis bewährt haben.