Statistisches Lernen

Nummer: stl
Leitung: -
ECTS: 4.0
Spezifizierung: Finde optimales f für y = f(x) mit Mitteln der Statistik
Anspruchsniveau: Advanced
Inhalt: Viele Statistiker argumentieren, dass Data Science und Machine Learning nur neue Namen für Statistik seien. Die Diskussion dieser Aussage sei den Studierenden überlassen, Machine Learning ist aber tatsächlich nicht viel mehr als das Anpassen einer Funktion an einen Trainingsdatensatz, mit der Hoffnung, dass die gefundene Funktion auch auf Testdaten generalisiert.
Statistical Learning behandelt das Schätzen einer Funktion f, die das Regressions- oder Klassifikationsproblem y = f(x) optimal löst. In diesem Modul sollen verschiedene mögliche Funktionsfamilien für f untersucht werden und insbesondere, wie sich die eine gegen eine andere bezüglich eines Fehler- oder Performance-Masses unterscheidet und welche sich schliesslich am besten für das betrachtete Problem eignet. Wichtig in diesem Modul: All dies soll unter Berücksichtigung der beschränkten Natur der gewählten Stichprobe geschehen.
Lernergebnisse: LE1: Theoretische Grundlagen des STL
Die Studierenden können das Regressions- und das Klassifikationsproblem und deren optimale Lösungen statistisch formulieren. Sie verstehen den Unterschied zwischen parametrischen und nicht-parametrischen Funktionsfamilien, kennen geeignete Masse zur Beurteilung der Güte eines Fits und sind insbesondere mit dem Bias-Variance-Tradeoff vertraut.
LE2: Lineare Regression
Die Studierenden verstehen die Regressionsparameter als statistische Grössen und können kategorische Variablen, Interaktionen zwischen Variablen und nicht-lineare Beziehungen in Regressionsprobleme einbeziehen. Sie sind sich bewusst, wo die Grenzen des Einsatzes der Methode der linearen Regression liegen.
LE3: Klassifikationsprobleme
Die Studierenden kennen die bekanntesten Ansätze zur Lösung von Klassifikationsproblemen (logistische Regression, lineare Diskriminantenanalyse (LDA), Naive Bayes) und können diese auf entsprechende Datensätze anwenden.
LE4: Generalisierte Lineare Modelle (GLMs)
Die Studierenden verstehen GLMs als Verallgemeinerung des klassischen Regressionsmodells. Sie kennen die Anwendungsbereiche der häufig benutzten Link-Funktionen und können damit entsprechende Datensätze modellieren.
LE4: Resampling
Der Einfluss beschränkter Stichproben auf Performance-Grössen kann mittels Cross-Validation (CV) und Bootstrap von den Studierenden statistisch betrachtet werden.
LE5: Model Selection
Die Studierenden können mittels verschiedener Selektionskriterien (Subset Selection, AIC, BIC, Adjusted R2) und unter Berücksichtigung der beschränkten Grösse der Stichprobe aus einer Gruppe von Modellen das beste auswählen.
LE6: Nicht-lineare Regression
Die Studierenden erkennen die Anwendungsgebiete von nicht-linearer Regression und können insbesondere Polynomiale Regression, Splines, Lokale Regression und Generalisierte Additive Modelle (GAMs) an Daten anpassen.
Modulbewertung: Note
Baut auf folgenden Modulen auf: Wahrscheinlichkeitsrechnen (WER), Explorative Datenanalyse (EDA), Grundlagen der linearen Algebra (GLA), Grundlagen der Analysis (GAN), Lineare und logistische Regression (LLR)
Modultyp: Portfoliomodul

Statistisches Lernen,

Statistisches Lernen