Hauptinhalt überspringenNavigation überspringenFooter überspringen
Logo der Fachhochschule Nordwestschweiz
Studium
Weiterbildung
Forschung und Dienstleistungen
Internationales
Die FHNW
De
Standorte und KontaktBibliothek FHNWKarriere an der FHNWMedien

      Logo der Fachhochschule Nordwestschweiz
      • Studium
      • Weiterbildung
      • Forschung und Dienstleistungen
      • Internationales
      • Die FHNW
      De
      Standorte und KontaktBibliothek FHNWKarriere an der FHNWMedien
      Module
      Data Wrangling

      Data Wrangling

      Nummer
      daw
      ECTS
      4.0
      Spezifizierung
      Importieren, Bereinigen und Transformieren von Daten
      Anspruchsniveau
      Intermediate
      Inhalt
      Bevor ein Modell auf einem Datensatz vernünftig trainiert werden kann, muss dieser entsprechend bereinigt und aufbereitet werden. Dieses sogenannte Data Wrangling ist nicht zu unterschätzen und umfasst ca. 80% der täglichen Arbeit eines Data Scientists. Es beinhaltet alle Schritte vom Importieren der Daten aus einer geeigneten Quelle über das Bereinigen der Daten, das Anfügen weiterer Datenquellen bis hin zur Transformation der Daten in ein für das gewünschte Modell geeignetes Format. Oft müssen Data Processing Pipelines erstellt werden, die im Verlauf der Modellierung kontinuierlich Anpassungen erfahren. Die Studierenden haben in der Kompetenz Explorative Datenanalyse bereits einen ersten Einblick in die Grundtechniken des Data Wrangling mit R/RStudio bekommen und bauen die erlernten Techniken hier weiter mit praxisnahen Beispielen aus.
      Lernergebnisse

      Die Studierenden sind in der Lage, Daten aus den üblichen Dateiformaten (Text, CSV, Excel) und Datenformaten (JSON, XML) in eine geeignete Datenstruktur zu importieren und können Daten aus relationalen und nicht-relationalen Datenbanken beschaffen.


      Die Studierenden können Datensätze bereinigen und dabei Ausreisser und Fehler finden, Duplikate entfernen, fehlende Werte als solche markieren oder durch plausible Werte ersetzen und für das Problem geeignete Datentypen definieren. Die Auswirkungen von Verunreinigungen auf einfache Modelle wurden verstanden und selbst ausprobiert.


      Die Studierenden verstehen es, Daten im Hinblick auf die Beantwortung einer Fragestellung geeignet zu transformieren, speziell zu sortieren, filtern, gruppieren, aggregieren, kombinieren, umformen und für die Fragestellung sinnvollere abgeleitete Variablen zu erzeugen.


      Die Studierenden sind imstande, externe Datenquellen auf geeignete Art und Weise mit den vorhandenen Daten zu verknüpfen (Joins) und können auch mit Unsicherheit behaftete Informationen unter Verwendung von Ähnlichkeitsmassen (reguläre Ausdrücke, Stringdistanzen, ..) kombinieren.


      Die Studierenden verstehen es, häufig wiederbenutzte Abläufe geeignet als Funktionen zu abstrahieren, um die Übersichtlichkeit und Robustheit der Pipeline entsprechend zu verbessern.


      Die Studierenden können mit der Skriptsprache R (speziell mit den Paketen aus dem tidyverse) bzw. mit der Software RStudio umgehen und damit Data Processing Pipelines erstellen, pflegen und dokumentieren. Sie kennen die üblichen Datentypen und –strukturen und können diese sinnvoll einsetzen.


      Die Studierenden sind dazu fähig, in R erstellte Data Processing Pipelines auch in der Programmiersprache Python (speziell mit dem Paket pandas) zu implementieren und kennen die Vor- und Nachteile beider Sprachen.

      Modulbewertung
      Note
      Baut auf folgenden Modulen auf
      Grundkompetenz Programmieren, Explorative Datenanalyse, Grundkompetenz Datenbanken
      Modultyp
      Portfoliomodul
      (Englische Version)

      Studium

      Angebot

      • Studium
      • Weiterbildung
      • Forschung & Dienstleistungen

      Über die FHNW

      • Hochschulen
      • Organisation
      • Leitung
      • Facts and Figures

      Hinweise

      • Datenschutz
      • Accessibility
      • Impressum

      Support & Intranet

      • IT Support
      • Login Inside-FHNW

      Member of: