Explorative Datenanalyse
Die explorative Datenanalyse ist Ausgangspunkt jeder vertieften Analysen im Bereich Data Science und Machine Learning. Sie hilft die Qualität der Daten zu überprüfen, garantiert, dass die Daten zur Beantwortung der Fragestellung geeignet sind, erlaubt eine Plausiblisierung von Hypothesen und ermöglicht es Wissen und Informationen aus Datenbeständen zu extrahieren.
Anhand von Daten mit Praxisbezug wird eine systematische und gleichzeitig iterative und interaktive Vorgehensweise entlang des Workflows «Importieren» – «Bereinigen» – «Transformieren» – «Visualisieren» – «Interpretieren» – «Kommunizieren» vermittelt.
Der in Forschung und Praxis bewährte Ansatz wird anhand von praxis-nahen Daten erlernt.
Die Studierenden sind in der Lage auf Papier einen strukturierten Analyseplan zu entwerfen und diesen mittels sequentieller Programmierung zu implementieren. Der Code verwendet bestehende Funktionen & Packages und einfache eigene Funktionen. Der Code erfüllt Best-practices hinsichtlich Strukturierung, Namensgebung und Dokumentierung und läuft fehlerfrei durch.
Die Studierenden verstehen es Informationen aus relationalen Datenbeständen zu kombinieren und zu importieren. Sie wissen wie die Datenqualität zu prüfen ist, Attribute zu bereinigen und durch Transformation neue zu erzeugen sind. Schliesslich können sie Informationen aggregieren und für Analysen in konsistenter Form aufbereiten.
Die Studierenden können unterschiedliche Informationen mittels deskriptiver Statistik zielführend in tabellarischer und/oder grafischer Form charakterisieren. Dabei stehen sowohl einzelne Attribute wie auch die Beziehung zwischen zwei oder drei Attributen im Vordergrund.
Die Studierenden wissen geeignete Fragestellungen zu formulieren, welche mit verfügbaren Informationen beantwortet und schlüssig interpretiert werden können (siehe z.B. Repräsentativität von Daten, Bildung von Vergleichs-gruppen und Unterschied zwischen Kausalität und Korrelation).
Die Studierenden sind in der Lage Methoden der multivariaten Analyse (z.B. Clustering, PCA, Entscheidungsbäume) anzuwenden, um versteckte Strukturen in den Daten offenzulegen, um den Analyseprozess effizient und effektiv zu steuern.
- Grundkompetenz Datenbanken
- Data Wrangling
- Grundkompetenz Datenvisualisierung
