Data Wrangling
Die Studierenden sind in der Lage, Daten aus den üblichen Dateiformaten (Text, CSV, Excel) und Datenformaten (JSON, XML) in eine geeignete Datenstruktur zu importieren und können Daten aus relationalen und nicht-relationalen Datenbanken beschaffen.
Die Studierenden können Datensätze bereinigen und dabei Ausreisser und Fehler finden, Duplikate entfernen, fehlende Werte als solche markieren oder durch plausible Werte ersetzen und für das Problem geeignete Datentypen definieren. Die Auswirkungen von Verunreinigungen auf einfache Modelle wurden verstanden und selbst ausprobiert.
Die Studierenden verstehen es, Daten im Hinblick auf die Beantwortung einer Fragestellung geeignet zu transformieren, speziell zu sortieren, filtern, gruppieren, aggregieren, kombinieren, umformen und für die Fragestellung sinnvollere abgeleitete Variablen zu erzeugen.
Die Studierenden sind imstande, externe Datenquellen auf geeignete Art und Weise mit den vorhandenen Daten zu verknüpfen (Joins) und können auch mit Unsicherheit behaftete Informationen unter Verwendung von Ähnlichkeitsmassen (reguläre Ausdrücke, Stringdistanzen, ..) kombinieren.
Die Studierenden verstehen es, häufig wiederbenutzte Abläufe geeignet als Funktionen zu abstrahieren, um die Übersichtlichkeit und Robustheit der Pipeline entsprechend zu verbessern.
Die Studierenden können mit der Skriptsprache R (speziell mit den Paketen aus dem tidyverse) bzw. mit der Software RStudio umgehen und damit Data Processing Pipelines erstellen, pflegen und dokumentieren. Sie kennen die üblichen Datentypen und –strukturen und können diese sinnvoll einsetzen.
Die Studierenden sind dazu fähig, in R erstellte Data Processing Pipelines auch in der Programmiersprache Python (speziell mit dem Paket pandas) zu implementieren und kennen die Vor- und Nachteile beider Sprachen.