Data Wrangling

Nummer

dawr

ECTS

3.0

Anspruchsniveau

intermediate

Inhaltsübersicht

Jedes datenbasierte Projekt beginnt mit ‘Data Wrangling’. Darunter verstehen wir die Beschaffung, die Vor- und Aufbereitung von Daten. ‘Data Wrangling’ deckt deshalb drei Bereiche ab: «Find», «Load» und «Clean» von Daten.

Find: Evaluieren von Datenquellen und Beschaffung von Daten durch Crawling.
Load: Effizientes Speichern und Verarbeiten von grossen Datenmengen unter Verwendung geeigneter Datenablagesystemen.
Clean: Daten auf Auffälligkeiten prüfen und validieren, bereinigen und erweitern der Daten.

In diesem Modul wird der Inhalt anhand konkreter Beispiele in Python vermittelt. Vertieft werden die Beispiele mit Elasticsearch (zur Verarbeitung von Textdaten) und Apache Spark (für verteilte Berechnungen). Zum Schluss wird beispielhaft gezeigt, wie Grafikkarten (GPU’s) helfen, Daten effizient zu verarbeiten.

Lernziele

Die Studierenden sind vertraut mit den für ‘Data Wrangling’ gebräuchlichen Bibliotheken und können damit Daten beschaffen, speichern, aufbereiten und analysieren. Die Studierenden können Daten in verschiedenen Formaten aus bestehenden Quellen beziehen oder aus dem Web crawlen und diese miteinander kombinieren. Die Studierenden können eine fundierte Entscheidung treffen bezüglich der Ablage von Daten unterschiedlicher Natur. Die Studierenden kennen Methoden zur Datenaufbereitung (Feature Engineering, Anomaly Detection, etc.) und können diese auf eigene Datensätzen anwenden. Sie sind in der Lage, effizient und effektiv mit grossen Datensätzen (im Terrabyte Bereich) umzugehen.

Empfohlene Vorkenntnisse

oopI2
eana
dsp

Leistungsbewertung

Erfahrungsnoten