Data Wrangling

Nummer

daw

ECTS

4.0

Spezifizierung

Importieren, Bereinigen und Transformieren von Daten

Anspruchsniveau

Intermediate

Inhalt

Bevor ein Modell auf einem Datensatz vernünftig trainiert werden kann, muss dieser entsprechend bereinigt und aufbereitet werden. Dieses sogenannte Data Wrangling ist nicht zu unterschätzen und umfasst ca. 80% der täglichen Arbeit eines Data Scientists. Es beinhaltet alle Schritte vom Importieren der Daten aus einer geeigneten Quelle über das Bereinigen der Daten, das Anfügen weiterer Datenquellen bis hin zur Transformation der Daten in ein für das gewünschte Modell geeignetes Format. Oft müssen Data Processing Pipelines erstellt werden, die im Verlauf der Modellierung kontinuierlich Anpassungen erfahren. Die Studierenden haben in der Kompetenz Explorative Datenanalyse bereits einen ersten Einblick in die Grundtechniken des Data Wrangling mit R/RStudio bekommen und bauen die erlernten Techniken hier weiter mit praxisnahen Beispielen aus.

Lernergebnisse

Die Studierenden sind in der Lage, Daten aus den üblichen Dateiformaten (Text, CSV, Excel) und Datenformaten (JSON, XML) in eine geeignete Datenstruktur zu importieren und können Daten aus relationalen und nicht-relationalen Datenbanken beschaffen.

Die Studierenden können Datensätze bereinigen und dabei Ausreisser und Fehler finden, Duplikate entfernen, fehlende Werte als solche markieren oder durch plausible Werte ersetzen und für das Problem geeignete Datentypen definieren. Die Auswirkungen von Verunreinigungen auf einfache Modelle wurden verstanden und selbst ausprobiert.

Die Studierenden verstehen es, Daten im Hinblick auf die Beantwortung einer Fragestellung geeignet zu transformieren, speziell zu sortieren, filtern, gruppieren, aggregieren, kombinieren, umformen und für die Fragestellung sinnvollere abgeleitete Variablen zu erzeugen.

Die Studierenden sind imstande, externe Datenquellen auf geeignete Art und Weise mit den vorhandenen Daten zu verknüpfen (Joins) und können auch mit Unsicherheit behaftete Informationen unter Verwendung von Ähnlichkeitsmassen (reguläre Ausdrücke, Stringdistanzen, ..) kombinieren.

Die Studierenden verstehen es, häufig wiederbenutzte Abläufe geeignet als Funktionen zu abstrahieren, um die Übersichtlichkeit und Robustheit der Pipeline entsprechend zu verbessern.

Die Studierenden können mit der Skriptsprache R (speziell mit den Paketen aus dem tidyverse) bzw. mit der Software RStudio umgehen und damit Data Processing Pipelines erstellen, pflegen und dokumentieren. Sie kennen die üblichen Datentypen und –strukturen und können diese sinnvoll einsetzen.

Die Studierenden sind dazu fähig, in R erstellte Data Processing Pipelines auch in der Programmiersprache Python (speziell mit dem Paket pandas) zu implementieren und kennen die Vor- und Nachteile beider Sprachen.

Modulbewertung

Note

Baut auf folgenden Modulen auf

Grundkompetenz Programmieren, Explorative Datenanalyse, Grundkompetenz Datenbanken

Modultyp

Portfoliomodul