Skip to main content

Modulbeschreibung - Statistisches Lernen

Nummer
stl
ECTS 4.0
Spezifizierung Finde optimales f für y = f(x) mit Mitteln der Statistik
Anspruchsniveau Advanced
Inhalt Viele Statistiker argumentieren, dass Data Science und Machine Learning nur neue Namen für Statistik seien. Die Diskussion dieser Aussage sei den Studierenden überlassen, Machine Learning ist aber tatsächlich nicht viel mehr als das Anpassen einer Funktion an einen Trainingsdatensatz, mit der Hoffnung, dass die gefundene Funktion auch auf Testdaten generalisiert.

    Statistical Learning behandelt das Schätzen einer Funktion f, die das Regressions- oder Klassifikationsproblem y = f(x) optimal löst. In diesem Modul sollen verschiedene mögliche Funktionsfamilien für f untersucht werden und insbesondere, wie sich die eine gegen eine andere bezüglich eines Fehler- oder Performance-Masses unterscheidet und welche sich schliesslich am besten für das betrachtete Problem eignet. Wichtig in diesem Modul: All dies soll unter Berücksichtigung der beschränkten Natur der gewählten Stichprobe geschehen.
Lernergebnisse LE1: Theoretische Grundlagen des STL

    Die Studierenden können das Regressions- und das Klassifikationsproblem und deren optimale Lösungen statistisch formulieren. Sie verstehen den Unterschied zwischen parametrischen und nicht-parametrischen Funktionsfamilien, kennen geeignete Masse zur Beurteilung der Güte eines Fits und sind insbesondere mit dem Bias-Variance-Tradeoff vertraut.

      LE2: Lineare Regression

        Die Studierenden verstehen die Regressionsparameter als statistische Grössen und können kategorische Variablen, Interaktionen zwischen Variablen und nicht-lineare Beziehungen in Regressionsprobleme einbeziehen. Sie sind sich bewusst, wo die Grenzen des Einsatzes der Methode der linearen Regression liegen.

          LE3: Klassifikationsprobleme

            Die Studierenden kennen die bekanntesten Ansätze zur Lösung von Klassifikationsproblemen (logistische Regression, lineare Diskriminantenanalyse (LDA), Naive Bayes) und können diese auf entsprechende Datensätze anwenden.

              LE4: Generalisierte Lineare Modelle (GLMs)

                Die Studierenden verstehen GLMs als Verallgemeinerung des klassischen Regressionsmodells. Sie kennen die Anwendungsbereiche der häufig benutzten Link-Funktionen und können damit entsprechende Datensätze modellieren.

                  LE4: Resampling

                    Der Einfluss beschränkter Stichproben auf Performance-Grössen kann mittels Cross-Validation (CV) und Bootstrap von den Studierenden statistisch betrachtet werden.

                      LE5: Model Selection

                        Die Studierenden können mittels verschiedener Selektionskriterien (Subset Selection, AIC, BIC, Adjusted R2) und unter Berücksichtigung der beschränkten Grösse der Stichprobe aus einer Gruppe von Modellen das beste auswählen.

                          LE6: Nicht-lineare Regression

                            Die Studierenden erkennen die Anwendungsgebiete von nicht-linearer Regression und können insbesondere Polynomiale Regression, Splines, Lokale Regression und Generalisierte Additive Modelle (GAMs) an Daten anpassen.



Modulbewertung Note
Baut auf folgenden Modulen auf Wahrscheinlichkeitsrechnen (WER), Explorative Datenanalyse (EDA), Grundlagen der linearen Algebra (GLA), Grundlagen der Analysis (GAN), Lineare und logistische Regression (LLR)
Modultyp Portfoliomodul
Diese Seite teilen: