GR22-Kapitel1 2

Vorlesung: Generalisierte Regression
Dozent: Fabian Scheipl – Material: Helmut Küchenhoff
Institut für Statistik, LMU München
WS 22/23
Version: 4. November 2022

Vorlesung: Generalisierte Regression
Dozent: Fabian Scheipl – Material: Helmut Küchenhoff
Institut für Statistik, LMU München
WS 22/23
Termine und Informationen
Homepage: https://moodle.lmu.de/course/view.php?id=24352
Vorlesung: Mo 12-14 & Mi 10 - 12; M018
Fabian Scheipl
Übung: Mo 14-16 & 16-18; S002 (Schelling 3)
Martje Rave & Cornelia Gruber
Tutorium: Di 10-12 A214 & Do 14-16 B006
Nurzhan Sapargali & und David Prokosch
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 3

Prüfungsleistung & Anrechnung
Veranstaltung umfasst 2 Teilmodule:

”Grundlagen der Generalisierten Regression”(P11.1 + P11.2; 6 ECTS);
”Fortgeschrittene Generalisierte Regression”(P11.3 + P11.4; 3 ECTS).
120 min Klausur am Ende des Semesters, je 60 min pro Teilmodul.
Statistik BA 2010: Müssen Prüfungen für beide Teilmodule gemeinsam

ablegen und bestehen.
Statistik MA 2010: Können Prüfungen für Teilmodule
getrennt/teilweise ablegen.
Statistics & Data Science BA/MA 2021: This is not for you.
Grundlagen der GR: bis Weihnachten –

GLM, Bayes, Regularisierung & Random Effects, GAM
Fortgeschrittene GR: nach Weihnachten –
GAMLSS, Klassifikation, Messfehler, Survival

Literatur
L.Fahrmeir, Th. Kneib, S. Lang, B.Marx:

Regression, Models Methods and Applications
Springer-Verlag, 2013
Hinweise auf bestimmte Kapitel aus diesem Buch in den Folien
Simon Wood:
Generalized Additive Models: An Introduction with R
Chapman & Hall 2017

Inhalt und Lernziele
1 Es werden Regressionstechniken als zentrales Instrument
statistischer Modellierung behandelt.
2 Insbesondere werden parametrische Ansätze für Querschnittsdaten
in Form der generalisierten linearen Modelle eingeführt.
3 Als Erweiterung der einfachen univariaten Responsemodelle werden
auch mehrkategoriale Modelle mit multinomial verteilter abhängiger
Variable betrachtet.
4 Die Abschwächung der linearen Prädiktorstruktur führt zu flexiblen,
nonparametrischen Regressionsmodellen, die in ihren Grundzügen
eingeführt werden.
5 Es soll ein weit reichendes Verständnis erworben werden für das
Potential der vielfältigen regressionsanalytischen Ansätze zur
Datenmodellierung.
6 Dies umfasst insbesondere die Fähigkeit, zu gegebener Datenlage
adäquate Modelle zu identifizieren, anzupassen und zu vergleichen.

Termine und Informationen
Homepage: https://moodle.lmu.de/course/view.php?id=24352
Vorlesung: Mo 12-14 & Mi 10 - 12; M018
Fabian Scheipl
Übung: Mo 14-16 & 16-18; S002 (Schelling 3)
Martje Rave & Cornelia Gruber
Tutorium: Di 10-12 A214 & Do 14-16 B006
Nurzhan Sapargali & und David Prokosch

Prüfungsleistung & Anrechnung
Veranstaltung umfasst 2 Teilmodule:

”Grundlagen der Generalisierten Regression”(P11.1 + P11.2; 6 ECTS);
”Fortgeschrittene Generalisierte Regression”(P11.3 + P11.4; 3 ECTS).
120 min Klausur am Ende des Semesters, je 60 min pro Teilmodul.
Statistik BA 2010: Müssen Prüfungen für beide Teilmodule gemeinsam

ablegen und bestehen.
Statistik MA 2010: Können Prüfungen für Teilmodule
getrennt/teilweise ablegen.
Statistics & Data Science BA/MA 2021: This is not for you.
Grundlagen der GR: bis Weihnachten –

GLM, Bayes, Regularisierung & Random Effects, GAM
Fortgeschrittene GR: nach Weihnachten –
GAMLSS, Klassifikation, Messfehler, Survival

Literatur
L.Fahrmeir, Th. Kneib, S. Lang, B.Marx:

Regression, Models Methods and Applications
Springer-Verlag, 2013
Hinweise auf bestimmte Kapitel aus diesem Buch in den Folien
Simon Wood:
Generalized Additive Models: An Introduction with R
Chapman & Hall 2017

Inhalt und Lernziele
1 Es werden Regressionstechniken als zentrales Instrument
statistischer Modellierung behandelt.
2 Insbesondere werden parametrische Ansätze für Querschnittsdaten
in Form der generalisierten linearen Modelle eingeführt.
3 Als Erweiterung der einfachen univariaten Responsemodelle werden
auch mehrkategoriale Modelle mit multinomial verteilter abhängiger
Variable betrachtet.
4 Die Abschwächung der linearen Prädiktorstruktur führt zu flexiblen,
nonparametrischen Regressionsmodellen, die in ihren Grundzügen
eingeführt werden.
5 Es soll ein weit reichendes Verständnis erworben werden für das
Potential der vielfältigen regressionsanalytischen Ansätze zur
Datenmodellierung.
6 Dies umfasst insbesondere die Fähigkeit, zu gegebener Datenlage
adäquate Modelle zu identifizieren, anzupassen und zu vergleichen.

0. Einführung: Motivation und Beispiele

Beispiel 1: Fehler bei einem Lesetest
Daten von Christa Kieferle (Pädagogik, LMU)

Daten von 180 Kindern aus den 8 Klassen (3. und 4. Klassen
Grundschule)
Zielgröße:
Anzahl der Fehler bei einem Lesetest
Potentielle Einflussgrößen:
Geschlecht, Jahrgang, Leseförderzeit, sonstiges lesen (1= fast nie,.. 5=
oft), Gameboy (1= fast nie ,.. 5= oft), Jahrgang.

Multiples lineares Regressionsmodell
E (Y ) = β0 +β1 ·GE +β2 ·JG +β3 ·LZ +β4 ·WOL+β5 ·WOG +β6 ·WOTV
Y: Anzahl der Fehler

GE: Indikator für männlich (= 1 für männlich, 0 sonst)
JG: Indikator für Klassenstufe (=1 für 3. Klasse, 0 für 4.Klasse)
LZ: Lesezeit in der Schule
WOL: Wie oft wird sonst gelesen
WOG: Wie oft wird Gameboy gespielt
WOTV: Wie oft TV

Beispiel 2: Risiko bei Covid–19
Liang et al. (JAMA, 2020): Development and Validation of a Clinical

Risk Score to Predict the Occurrence of Critical Illness in Hospitalized
Patients With COVID-19
”What epidemiological and clinical characteristics are associated
with the development of critical illness among patients with novel
coronavirus disease 2019 (COVID-19)?”
”Can these characteristics be used to predict which patients
admitted to the hospital with COVID-19 will need admission to an
intensive care unit, mechanical ventilation, or will die?”
Study with a development cohort of 1590 patients
Welche Prädiktoren sind relevant (Variablenselektion) ?

Mögliche Prädiktoren

LASSO, Elastic Net und Component-wise Boosting
Verfahren, die Schätzung und Variablenselektion kombinieren

P
1 Modelle mit Penalisierung (shrinkage), z.B. | βk |≤ c (LASSO)
2 Schrittweiser Aufbau durch wiederholte Schätzung einfacher

Modelle (Boosting)

Ergebnis

Beispiel 3: Modelle für die tägliche Anzahl von
Neuerkrankungen COVID-19
Fragestellung: Zusammenhang zwischen der Anzahl von
Neuerkrankungen
Zielgröße: Anzahl der Fälle
Einflussgröße: Zeit (Trend)
Modell: Poisson-Regression, da Zielgröße Y eine Zählgröße ist: Modell
mit Bruchpunkten
K
!
X
E (Yt ) = exp β0 + β1 t + γk (t − CPk )+ ,
k=1
E (Yt ) Erwartungswert der neuen Fälle zum Tag t, K Anzahl der

Bruchpunkte , CPk sind die Bruchpunkte, x+ = max(x, 0), γk ist die
Änderung der Steigung zum Zeitpunkt t.

Ergebnis Bayern und München 30.10.2020

Das verallgemeinerte lineare Modell
Zielgröße: Y
Einflussgrößen : x1 , x2 ....
Modellgleichung
E (Y ) = g (β0 + β1 x1 + β2 x2 + . . .)
Additiv und linear, Bedingte Verteilung von Y |x gehört zur

Exponentiellen Familie
Modellklasse der verallgemeinerten linearen Modelle

Beispiel 4: Lebenszufriedenheit und Alter
Gibt es eine Midlife Crisis?

Analysen von Panel-Daten zur subjektiven Lebenszufriedenheit
In Zusammenarbeit mit Sonja Greven, Andrea Wiencierz, Christoph
Wunder

Das gemischte Modell
Mehrere Messungen für eine Person (longitudinale Daten)

Unabhängigkeitsannahme verletzt
Allgemeines lineares Modell
Gemischtes Modell
Yij = β0 + β2 · altij + β3 · altij2 + β4 · altij3 + β5 · eink + β6 · ges... + τi + ϵij
Yij : Lebenszufriedenheit von Person i zum Zeitpunkt j

iid
τi ∼ N(0, στ2 ): zufälliger Personeneffekt

Beispiel 5: Wahlanalysen auf Kreisebene
Welche Assoziationen gibt es zwischen Anteil der Stimmen für eine

Partei und Merkmalen der Wahlbezirke (Arbeitslosigkeit, Zahl der
Autos pro Einwohner etc.
Zielgröße: Wahlergebnisse zu den Wahlbezirken bei den
Bundestagswahlen 2013 und 2017.
Einflussgrößen: Merkmale der Wahlbezirke
Die Form der Assoziation soll durch die Daten bestimmt werden.

Generalisierte additive Modelle
E (Y ) = f1 (x1 ) + f2 (x2 )
Die Funktionen fk sind stetig differenzierbare (glatte) Funktionen

Stimmanteil der Grünen und ausgewählte Variable
Ergebnisse Bundestag 2013
30 % 30 % 30 %
24 % 24 % 24 %
18 % 18 % 18 %
fmarginal x
fmarginal x
fmarginal x
12 % 12 % 12 %
6% 6% 6%
0% | ||||||||||||||||
|||||||||||
|||||||||||||||||||||||||||||||||
|||||
|||||||||||||||||
||||||||||
||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||||||||||||||||||||||| || | 0% ||| |||||||||||||||
||||||||||||||||||||
|||||||||||
||||||||||||||||
||||||||||
||||||||||||
|||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||||||| ||||| | | ||| | 0% | | |||||||||||||
|||||||||||||
||||||||||||||||||||||||||||||||||||||||
|||||
|||
||||||||||||||||||||||||||||||||||
||||||||||||||||||||||||||||||| ||||||||||||||||||||| || |
0.4 0.6 0.8 1.0 5% 15 % 25 % 35 % 5% 15 % 25 %

(a) (b) (c)
30 % 30 % 30 %

Stimmanteil der Grünen und ausgewählte Variable
Ergebnisse Bundestag 2017
30 % 30 % 30 %
24 % 24 % 24 %
18 % 18 % 18 %
fmarginal x
fmarginal x
fmarginal x
12 % 12 % 12 %
6% 6% 6%
0% | | | | |||||||||||
|||||||||||||||
|||||||||||
||||||
|||||||||
|||||||||||||||||||||
|||||||||
||||||||
|||||||||||||||||||
|||||||||||||||||||||||||||||||||||||||
||||||||||||||||
||||||||||||||||||| | | | 0% ||||||||||||||||||||
|||||||||
|||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||
||||||||||||||||||||||||||||||||||
||||||||||||||||||||| | || |||||| ||| |||| | | 0% | | | ||||||||||||||||||||||
|||
|||||||||||
||||||||||||||||||||||
||||||
|||
|||||||||||||
|||||
|||
|||||
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||| ||||
0.2 0.4 0.6 0.8 1.0 10 % 20 % 30 % 5% 10 % 20 %

(a) (b) (c)

Beispiel 6: Referenzkurve für den BMI
Große Stichprobe zum BMI von Kindern und Jugendlichen

wo liegen Median, 95% Quantil, 99%-Quantil des BMI abhängig
von Alter

Quantilregression und GAMLSS
Quantilregression: Quantifiziere Modell zum Zusammenhang zwischen

Quantilen von Qτ (Y ) und Prädiktoren x
Qτ (Y ) = x ′ β
GAMLSS : Generalized Additive Models for Location, Scale and Shape

Modellgleichungen für mehrere Parameter der Verteilung in Abhängigkeit
von Kovariablen
E (Y |x) = x ′β
V (Y |x) = x ′γ
S(Y |X ) = x ′δ

Beispiel 7: Wahl und Personenmerkmale
Fragestellung: Welche Einstellungen beeinflussen das

Wahlverhalten?
Daten: Wahlentscheidung und Fragebogen zu Einstellungen
Zielgröße: Wahlentscheidung mit mehr als zwei Möglichkeiten

Kategoriale Regressionsmodelle
Multinomiales Logit-Modell mit k Kategorien
exp(x′i β r )
P(Yi = r ) = k
r = 1, . . . , k
exp(x′i β s )
P
s=1

Beispiel 8: Überlebensdauer von Intensivpatienten
Beobachtungsstudie von Patienten der Intensivstation am Klinikum

in Großhadern
Fragestellung : Von welchen Größen hängt das Überleben der
Patienten ab?
Einflussgrößen sind: Zustand des Patienten, Alter, Typ der
Krankheit, etc.
Zielgröße ist Überlebensdauer Y
Besonderheit: Vorhandensein von zensierten Daten (Patienten leben
bei Beendigung der Studie)

Proportional Hazards - Modell
λ(t) = λ0 (t) exp(β1 x1 + β2 x2 + ...)

λ(t) : Hazardrate; P(Y ∈ (t, t + δ)|Y > t, x) ≈ λ(t)δ
Das Modell kann auch mit zensierten Daten geschätzt werden. Es
benötigt keine parametrischen Verteilungsannahmen

Beispiel 9: Staubexpostion und Brochitis
Bei einer retrospektiven Erhebung der Staubkonzentration am

Arbeitsplatz gibt es erhebliche Messfehler. Die Nichtberücksichtigung des
Messfehlers führt zu fehlerhaften Schätzen

Modell mit additivem Messfehler
Y Indikator für chronische Bronchitis, X Staubkonzentration, X ∗

gemessene Staubkonzentration
Modell:
P(Y = 1|X ) = G (β0 + β1 X )
X∗ = X + U
U: Messfehler
Verwende Methoden zur Berücksichtigung von Messfehlern: Likelihood,
SIMEX

Programm
1 Das lineare Modell (3.1-3.3)
2 Statistische Regularisierung, LASSO, Boosting und Bayesianische
Analyse (4.2-4.4)
3 Das verallgemeinerte lineare Modell (5.4,5.2,5.3)
4 Gemischte Modelle (7.1-7.3)
5 Das generalisierte additive Modell GAM (8.1-8.2,9.1,9.5,9.6)
6 Beyond Mean regression: GAMLSS, Quantil-Regression,
Verteilungsregression (10)
7 Kategoriale Regression (4)
8 Lebensdauermodelle
9 Messfehler und Fehlklassifikation
In Klammern: Kapitel in Fahrmeir et al. (2013) Regression: Models,
Methods and Applications

Machine Learning vs Statistik
Statistik :
Y : Zielgröße,abhängige Variable, Outcome, Response, Regressand
x: Einflussgröße, unabhängige Variable, Kovariable, Prädiktor, Regressor
Prinzip:
“Schätze bedingte Verteilung/Momente von Y |x”
=⇒ probabilistisches Modell (fast immer)
Fokus eher auf Interpretation wie x die bedingte Verteilung von Y
beeinflusst.
Machine Learning:
Regression: Teil von supervised learning
Y : output, target
x: input, feature
Prinzip:
“Lerne funktionalen Zusammenhang zwischen x und Y aus Daten.”
=⇒ empirical risk minimization: minimiere Abstände zw. f (xi ) und yi
Fokus meist auf Vorhersage von Y basierend auf x.
Y binär oder kategorial: “classification”nicht “regression”
1. Das multiple lineare Regressionsmodell

Das multiple lineare Regressionsmodell
Siehe: Fahrmeir et al. Kap. 3.1 - 3.3, Vorlesung lineare Modelle
Yi = β0 + β1 xi1 + β2 xi2 + . . . βp xip +εi ; i = 1, . . . n

| {z }
x′i β
x′i = (1, xi1 , . . . , xip )
Y = Xβ + ε (1.1)
mit
       
Y1 1 x11 ··· x1p β0 ε1
Y =  ...  X =  .. .. .. ..  β =  ..  ε =  .. 
  
. . . .   .   . 
Yn 1 xn1 ··· xnp βp εn

Modellannahmen
E (εi ) = 0
E (ε) = 0 (1.2)
2
V (εi ) = σ (1.3)
{εi | i = 1, . . . , n} unabh. (1.4)
2
Aus (1.3), (1.4) folgt: V (ε) = σ I
εi ∼ N(0, σ 2 ) und (1.4)
ε ∼ N(0, σ 2 I) (1.5)
Y: Zufallsvektor der Zielgröße

X: feste Design-Matrix (Matrix der Einflussgrößen)
β: Vektor der Regressionskoeffizienten
ε: Störgröße

Interpretation des Modells
Erwartungswertdarstellung
E (Y |x) = β0 + β1 x1 + β2 x2 + . . . βp xp
| {z }
x′ β
Erwartungswert von Y bedingt auf x ist Linearkombination der

Einflussgrößen
Steigt xk um eine Einheit, so steigt Y im Erwartungswert um βk
Einheiten, wenn alle anderen X-Variablen festgehalten werden
Linearer Zusammenhang von E (Y |x) und xk bei Festhalten der
übrigen Variablen
βk charakterisiert Stärke und Richtung dieser Assoziation unter
Berücksichtigung der übrigen Variablen ( Confounder-Korrektur“,
”
“partielle Korrelation”)

Schätzung im linearen Modell: KQ-Schätzer
Wir betrachten Modell (1.1). Dann heißt
β̂ = arg min (y − Xβ)′ (y − Xβ) (1.6)

β | {z }
P n ′ 2
i=1 (yi −xi β)
KQ-Schätzer.
εˆi = yi − x′i β (1.7)

′
Es gilt für (X X) invertierbar: β̂ existiert, ist eindeutig und
β̂ = (X′ X)−1 X′ y. (1.8)

Eigenschaften des KQ-Schätzers
Sei das Modell (1.1) mit (1.2) gegeben.

1 Der KQ-Schätzer ist erwartungstreu:
E (β̂) = β (1.9)
2 Für die Varianz-Kovarianz-Matrix von β̂ gilt unter (1.3) und (1.4):
V (β̂) = σ 2 (X′ X)−1 (1.10)
3 Unter (1.5) gilt:

β̂ ∼ N β, σ 2 (X′ X)−1

(1.11)
4 Der KQ Schätzer ist auch ML Schätzer

Konfidenzintervalle und Wald Test
Die (asymptotische) Normalität von β̂ nutzt man zur Konstruktion von

Konfidenzintervallen und Tests:
Betrachte zur linearen Hypothese
H0 : Aβ = c die quadratische Form
−1
(Aβ̂ − c)′ σ 2 A(X′ X)−1 A′ (Aβ̂ − c)

Allgemeine lineare Hypothese: Wald-Test
′
Sei das Modell (1.1) mit (1.5) und A ∈ R a×p , rg (A) = a, c ∈ R a
gegeben.
V (Aβ̂ − c) = V (Aβ̂) = σ 2 A(X′ X)−1 A′ (1.12)

′ −1
Wald-Statistik w := (Aβ̂ − c)′ σ 2 A(X′ X)−1 A

(Aβ̂ − c) (1.13)
′
= V (Aβ̂)−1/2 (Aβ̂ − c) V (Aβ̂)−1/2 (Aβ̂ − c)
=⇒ Mahalanobis-Abstand zwischen unrestringierter Schätzung Aβ̂ und

Hypothese c.
H
=⇒ w ∼0 χ2 (a) (1.14)
Wald-Test für H0 : Aβ = c also: Lehne H0 ab, falls:
w > χ21−α (a) (1.15)

ML-Schätzung
Die Likelihood des Modells (1.1) - (1.5) für die Daten (yi , xi ) ist:
" n #
X ε2
−n/2 −n i
L(Y, X; β, σ) = (2π) · σ · exp −
2σ 2
i=1
′
mit ϵi = yi − xi β

Likelihood Quotienten-Test
Grundidee des Likelihood-Quotienten-Tests:
Vergleiche (Bilde den Quotienten) maximierte Likelihood des Modells
unter H0 mit maximierter Likelihood ohne H0
Wir betrachten also den ML - Schätzer mit und ohne die Restriktion
Aβ = c:
ˆε̂ : Residuen unter dem Modell mit H0

ε̂ : Residuen unter dem Modell ohne Einschränkung
Die LQ- Teststatistik lautet dann:
!−n !−n/2
ˆ
σ̂ ˆε̂′ ˆε̂ H0
τLQ = = ∼ χ2 (a) (1.16)
σ̂ ε̂′ ε̂

Quadratsummenzerlegung
Gegeben sei das Modell (1.1) mit Design-Matrix X und
rg (X) = p + 1 =: p ′ . (1.17)
Dann gilt:
(Y − Ȳ)′ (Y − Ȳ) = (Y − Ŷ)′ (Y − Ŷ) + (Ŷ − Ȳ)′ (Ŷ − Ȳ) (1.18)

| {z } | {z } | {z }
SST SSE SSM
Interpretation:
SST : Gesamt-Streuung, (korrigierte) Gesamt-Quadratsumme, “Total”
SSE : Fehler-Quadratsumme, “Error”
SSM : Modell-Quadratsumme, “Model”
Bestimmtheitsmaß
r 2 = SSM/SST

Nominale Einflussgrößen
Binäre Größen werden einfach mit 0 und 1 codiert, eine

Dummyvariable (Beispiel: Geschlecht, Zustimmung oder Ablehnung
bei einer Frage)
Bei nominalen Merkmalen verwendet man für jede Kategorie eine
Dummyvariable (0-1). Wir betrachten ein nominales Merkmal C mit
K Ausprägungen.

1 für C = k;
Zk (C ) = k = 1, . . . , K (1.19)
0 für C ̸= k;

Modell mit Referenzkategorie K :
Ykl = µK + τk + εkl , τK = 0;
 
µK
 τ1 
Y = (e Z1 (C ) . . . ZK −1 (C ))  +ε (1.20)
 
..
 . 
τK −1
 
1 1 0
 1 1 0 
Design-Matrix X für 3 Gruppen 
 1 0 1


mit je 2 Beobachtungen pro X= 
 1 0 1 
Gruppe: 
 1 0 0


1 0 0

Interaktion
Wichtiger Begriff bei der Modellierung

Bedeutung: Der Einfluss einer Variable hängt von dem Wert einer
anderen Variablen ab. Beispiele für Interaktionen bei zwei Einflussgrößen:
Die Wirkung des Medikaments ist bei Männern anders als bei Frauen
Der Geschlechtsunterschied in der Lebenszufriedenheit ist abhängig vom
Alter
Andere Begriffe: Moderation (Psychologie), Synergieefffekte

Modell mit Interaktion
Interaktionen lassen sich durch Aufnahme von Produkttermen

beschreiben.
Diskrete Variablen: Verwende alle Kombinationen von
Dummy-Variablen
Stetige Einflussgrößen: Einfaches Produkt
Gemischter Fall (stetig diskret)

Erweiterung auf Kombination von diskreten und
stetigen Merkmalen (Kovarianzanalyse)
Beispiel für Design-Matrix X für K = 3 Gruppen mit je nk = 2

Beobachtungen pro Gruppe und stetigem Merkmal x:
 
1 1 0 x1  

 1 1 0 x2 
 α3
 1 0 1 x3   α1 
X = β =  

 1 0 1 x4 

 α2 
 1 0 0 x5  β
1 0 0 x6
Interpretation:
In den drei Gruppen drei parallele Geraden und Steigung β3

Interaktion stetige diskrete Variable
Modell:
Ykl = α3 + αk + β3 Xkl + βk Xkl + εkl (k = 1, 2)

Ykl = α3 + β3 Xkl + εkl (k = 3)
Matrixdarstellung (3 Gruppen 2 Beobachtungen pro Gruppe)

   
1 1 0 x1 x1 0 α3
 1 1 0 x2 x2 0   α1 
   
 1 0 1 x3 0 x3   α2 
X = 
 β =  β3 
  
 1 0 1 x4 0 x4   
 1 0 0 x5 0 0   β1 
1 0 0 x6 0 0 β2
Interaktion bedeutet Steigungen verschieden.
Test auf Interaktion: β1 = β2 = 0

Wilkinson-Rogers-Notation & R Formelsyntax
Regressionsmodelle mit kategoriellen Variablen und/oder Interaktionen

werden häufig wie folgt dargestellt:
Abkürzung R-Notation linearer Prädiktor

x lm(y ∼ x1) β0 + β1 x1
c lm(y ∼ c) y ∼ factor(c) β0 + β1 Z1 (C ) + . . . βK −1 Zk (C )
x1 + x2 lm(y ∼ x1 + x2) β0 + β1 x 1 + β2 x 2
x1.x2 lm(y ∼ x1 : x2) β0 + β12 x1 x2
x1 ∗ x2 lm(y ∼ x1 ∗ x2) β0 + β1 x1 + β2 x2 + β12 x1 x2
analog: lm(y ∼ (x1 + x2)ˆ2)
x1 ∗ c lm(y ∼ x1 ∗ factor(c)) β0 + β1 x1 + βz1 Z1 (C ) + . . . + βzK −1 ZK −1 (C )
+β11 x1 · Z1 (C ) + . . . + β1zK −1 x1 · ZK −1 (C )
Es dürfen auch Klammern zur Konstruktion von komplexeren Termen
verwendet werden.

2. Statistische Regularisierung und
Bayesianische Analyse

Hochdimensionale Regression
Herausforderungen bei hochdimensionaler multipler Regression

p > n-Problem: KQ-Lösung weder eindeutig noch sinnvoll
Unplausible und instabile Parameterschätzungen bei multikollinearen
Prädiktoren
Interpretation oft nur mit Variablenselektion und Modellwahl
möglich
Modellvarianten mit vielen Interaktionen, Polynomen, etc. führen zu
hochdimensionalen Prädiktoren
Also: Daten alleine nicht informativ genug um (sinnvolle) Schätzung
(eindeutig) zu bestimmen
→ Definiere zusätzliches Kriterium (Regularisierung / Penalisierung /
Priori / “inductive bias”) um Problemlösung zu definieren: Welche der
möglichen Lösungen sind wünschenswerter als andere?

Statistische Regularisierung
Grundprinzip: Penalisierung (”Bestrafung”)
Der penalisierte KQ - Schätzer (penalized least squares) ist wie folgt
definiert:
PLS(β) = (y − X′ β)′ (y − X′ β) + λ pen(β) (2.1)

β̂ PLS = arg min PLS(β) (2.2)
β
pen(β) ist die Bestrafungsfunktion (“penalty”). Für diese gibt es viele

Möglichkeiten. Im einfachsten Fall zählt sie die Anzahl der verwendeten
Kovariablen:
p
X
pen(β) = I (βk ̸= 0)
k=1
Dies führt zu bekannten Modellwahl-Kriterien wie AIC und BIC.

Dabei ist λ ein Tuning–Parameter, der den Kompromiss zwischen
guter Modellanpassung und niedriger Modellkomplexität steuert.
Die Bestimmung des Parameters λ ist ein zentrales Problem.

Penalisierung und Shrinkage
Aus der Optimierungstheorie weiß man:

Zu jedem λ gibt es ein t, so dass in (2.2)
β̂ PLS = arg min(y − Xβ)′ (y − Xβ)

β
unter Nebenbedingung pen(β) ≤ t
Für festes λ ist penalisierte Punktschätzung also Optimierung unter

Nebenbedingungen.
Extremfälle:
λ → 0 =⇒ t → ∞ =⇒ β̂ PLS → β̂ KQ
λ → ∞ =⇒ t → 0 =⇒ β̂ PLS → 0

Geometrische Intuition: Ridge & LASSO
LASSO-penalty: Ridge-penalty:
Pp Pp
pen(β) := ∥β∥1 = k=1 |βk | pen(β) := ∥β∥22 = k=1 βk2
2 2
6
6
4
4
^ ^
 
2
2
0
0
1 1
−2
−2
−4
−4
−4 −2 0 2 4 6 −4 −2 0 2 4 6
Ellipsen: Höhenlinen von (y − Xβ)′ (y − Xβ).

Graue Regionen: Nebenbedingung {β : pen(β) ≤ t} für wachsendes t.
Schwarze Punkte: β̂ PLS für verschiedene t

Ridge-Regression
Klassischer Ansatz von Andrey Nikolayevich Tikhonov (1943), Hoerl

Kenard(1970)
Grundidee: (Quadrierte) Größe der Parameter in β wird bestraft
PLS(β) = (y − Xβ)′ (y − Xβ) + λ∥β∥22 (2.3)
Alternative Bezeichnungen: Tikhonov-Regularisierung, L2 -Penalty

Eigenschaften des Ridge-Schätzers
Der Ridgeschätzer kann wie folgt bestimmt werden:
β̂ Ridge = (X′ X + λIp )−1 X′ y (2.4)
Für orthonormales X (also: X′ X = I; β̂ OLS = X′ y) ergibt sich:
1
β̂Ridge,k = β̂OLS,k
1+λ
=⇒ Koeffizienten werden proportional “geschrumpft”.
Der Ridgeschätzer ist also verzerrt:
E (β̂ Ridge ) ̸= β
hat aber kleinere Varianz als der KQ-Schätzer:
V (β̂ Ridge ) = σ 2 (X′ X + λIp )−1 X′ X(X′ X + λIp )−1

Bias-Variance Tradeoff
Der Ridgeschätzer existiert auch für Designmatrizen X, die nicht vollen

Rang haben.
Ridgeschätzer hat durch Shrinkage kleinere Varianz, aber Bias.
Betrachte MSE :
MSE = Bias 2 + Var

Der Tuningparameter λ steuert den Ausgleich zwischen Varianz und Bias.

Parameterpfade
β̂ PLS als Funktion von λ:
Abb.: James et al. (2013) An Introduction to Statistical Learning, Fig. 6.4

LASSO
Least Absolute Shrinkage and Selection Operator
Die Penalisierung wird durch die Funktion

p
X
pen(β) = |βk | = ∥β∥1
k=1
definiert.
p
X
β LASSO := arg min 12 (y − X′ β)′ (y − X′ β) + λ |βk | (2.5)
β
k=1
Tibshirani (1996). Regression shrinkage and selection via the lasso. Journal of the
Royal Statistical Society: Series B (Methodological), 58(1), 267-288.
Alternative Bezeichnung: L1 -Penalty

Optimierungsproblem
Beachte: Zielfunktion für βk = 0 nicht stetig differenzierbar!

Es ergibt sich folgende Bestimmungsgleichung für den LASSO–Schätzer:
−X′ Xβ + X′ y + λsign(β) = 0
Diese Gleichung ist im allgemeinen Fall nur numerisch lösbar.
Für orthonormales X ergibt sich:
β̂LASSO,k = sign(β̂KQ,k ) max(0, |β̂KQ,k | − λ)
=⇒ “soft thresholding”: Koeffizienten, deren OLS-Lösung kleinen

Betrag haben, werden auf 0 gesetzt und alle werden um konstanten Wert
reduziert.

LASSO: Eigenschaften
1 Variablenselektion: Typischerweise werden viele Koeffizienten des

Modells auf 0 “geschrumpft”
2 Numerik manchmal instabil wegen lokalen Maxima, aber hoch
effiziente und skalierbare Algorithmen verfügbar.
3 Varianten: Adaptive/Weighted LASSO, Grouped LASSO, Fused
LASSO

Geometrische Veranschaulichung (LASSO)
2 2
6
6
4
4
^
 ^

2
2
0
1
0
1
−2
−2
−4
−4
−6
−6 −4 −2 0 2 4 6 −4 −2 0 2 4 6

Geometrische Veranschaulichung (Ridge)
2 2
6
6
4
4
^
 ^

2
2
0
1
0
1
−2
−2
−4
−4
−6
−6 −4 −2 0 2 4 6 −4 −2 0 2 4 6

Parameterpfade: LASSO vs Ridge
β̂ PLS als Funktion von λ:
LASSO-penalty:
Pp Ridge-penalty:
Pp
pen(β) := k=1 |βk | pen(β) := k=1 βk2
Abb.: James et al. (2013) An Introduction to Statistical Learning, Figs. 6.4, 6.6

Bias-Variance-Tradeoff
LASSO hat durch Shrinkage und Variablenselektion kleinere Varianz, aber

einen größeren Bias als der KQ Schätzer
Betrachte MSE :
MSE = Bias 2 + Var

Der Tuningparameter λ steuert den Ausgleich zwischen
Varianz und Bias
Modellanpassung und Modellkomplexität

Kreuzvalidierung
1 Teile den Datensatz zufällig in K ungefähr gleich große Teile (z.B.
K=5 oder K=10)
2 Verwende den ersten Datensatz D1 zur Validierung und die übrigen
K-1 Datensätze zu Parameterschätzung β̂ PLS,−1 (λ). Mit Hilfe der
Schätzung wird die folgende Funktion bestimmt:
X
CV (λ)1 = (Yi − x′i β PLS,−1 (λ))2
i∈D1
3 Nun wird entsprechend der zweite, dritte,... K-te Datenssatz

benutzt und entsprechend CV (λ)k berechnet.
4 Insgesamt wird das Mittel über die alle Beobachtungen gebildet
K
X
CV (λ) = 1/n CV (λ)k (2.6)
k=1

Schätzung des Tuning-Parameters
Kreuzvalidierung liefert Zielfunktion
CV (λ)
Minimiere Funktion CV (λ) bezüglich des Parameters λ.

Optimiert wird Prognosegüte bei neuen“Daten
”
Overfitting wird dadurch vermieden
Das Konzept ist auf andere Zielfunktionen erweiterbar

Schätzung des Tuning-Parameters
Abb: Nguyen et al. (2019). Hybrid multivariate pattern analysis combined with
extreme learning machine for Alzheimer’s dementia diagnosis using multi-measure
rs-fMRI spatial patterns. PLOS ONE 14.e0212582
“One-sigma rule”
Häufig werden trotz CV zu komplexe Modelle gewählt. Daher

Modifikation:
1 Bestimme λ mit kleinstem MSE
2 Bestimme zugehörige Standardabweichung s(λ0 ) aus den
CV-Wiederholungen
3 Wähle größtes λ mit MSE (λ) < MSE (λ0 ) + s(λ0 )
Dies führt zu stärker regularisierten Modellen (weniger Parameter / mehr
Shrinkage)

Skalierung und Verallgemeinerungen
1 Zu beachten ist die mögliche unterschiedliche Skalierung der

Kovariablen. Zur Penalisierung verwendet man häufig
standardisierte Variablen
2 Der konstante Term β0 wird typischerweise nicht penalisiert.
3 Es können auch bestimmte Größen von der Penalisierung
ausgenommen werden
4 Es können auch andere Größen penalisiert werden, z.B. Differenzen
von Parametern

Grouped LASSO
Bei manchen Effekten (z.B. kategorielle Variablen) möchte man entweder

alle Terme gemeinsam auswählen oder entfernen.
Wir fassen die Einflussgrößen zu Gruppen x1 , . . . , xG zusammen:
Y = β0 + x1′ β 1 + ...xG′ β G + ϵ
G q
X
pen(β) = β ′g β g
g =1
Dadurch können alle Koeffizienten einer Gruppe gemeinsam auf 0 gesetzt

werden.

Fused LASSO
Wird z.B bei ordinalen Einflussgrößen verwendet.
Bei einer Variablen mit K geordneten Kategorien verwende:
K
X
pen(β) = |βk − βk−1 |
k=2
Bei einer Variablen mit K ungeordneten Kategorien verwende

K
X −1 K
X
pen(λ) = λ |βj − βk |
j=1 k=j+1
Dies führt dazu, dass einige Differenzen auf 0 geschätzt werden (“fused
categories”), also mehrere Kategorien den selben Effekt haben.
Gertheiss, Tutz (2010) Sparse modeling of categorial explanatory variables. Ann. Appl.
Stat. 4 (4) 2150 - 2180. R-Paket {glmsmurf}

Generalisiertes LASSO
Fused LASSO allgemeiner aufgeschrieben:
pen(β) = ∥Dβ∥1
z.B. mit
 
  1 −1 0 ... 0
1 −1 0 ... 0
 .. 
 1
 0 −1 0 . . .

0 1 −1 0 . 
 oder D = . . .
 ... ... ... . . .
D=
 .. .. 

.. .. ..  0 1 −1 0 . . .
. . . . .   
 0 1 0 −1 . . .
0 ... ... 1 −1
... ... ... ... ...
Sehr allgemeine Struktur:

D kann Nachbarschaften/Ähnlichkeiten in Raum oder Zeit oder Netzwerk
etc. codieren um räumlich/zeitlich homogene, stückweise konstante
Effekte zu schätzen.
Arnold, Tibshirani (2016). Efficient implementations of the generalized lasso dual path
algorithm. JCGS, 25(1), 1-27. R-paket {genlasso}
Bayes Inferenz: Ansatz
Alle Parameter θ des Modells werden als Zufallsgrößen mit

(unbekannten) Verteilungen aufgefasst.
Vor der Erhebung der Daten D: a priori-Verteilung p(θ)

Nach der Erhebung: a posteriori-Verteilung p(θ|D)
Satz von Bayes liefert das Werkzeug zur Berechnung von p(θ|D):
p(θ|D) = R P(D|θ)·p(θ) ∝ p(D|θ) · p(θ)

p(D|θ)·p(θ)dθ
↑ ↑
Posteriori ∝ Likelihood · Priori

Bayes Inferenz: Idee
Gesamte Information aus Daten (und priori-Wissen) liegt in der

Posteriori-Verteilung
Punktschätzer: Posteriori-Modus, -Erwartungswert oder -Median
Interpretation intuitiv: Verteilung für Parameter des Modells bedingt
auf Prioriannahmen und beobachteten Daten.
Spezifikation der Priori-Verteilung kann Ergebnis stark beeinflussen,
falls sie wesentlich informativer ist als die Daten selbst und/oder
stark im Widerspruch zur Likelihood steht (“prior-data-conflict”).

Bayes-Inferenz für LM: Bekannte Fehlerkovarianz
y |β ∼ Nn (Xβ, Σ); Σ bekannt

β ∼ Np (β 0 , Σ0 )
Posteriori-Verteilung von β ist Normalverteilung mit
−1
E (β|Y) = X′ Σ−1 X + Σ−1
0 (X′ Σ−1 Y + Σ−1
0 β0 )
−1
V (β|Y) = X′ Σ−1 X + Σ−1
0
“Uninformative” Priori:
Σ0 → ∞, also: p(βk ) → N(β0,k , ∞)
=⇒ β|Y ∼ Np (X′ X)−1 X′ Y, X′ Σ−1 X)−1

identisch zu KQ- bzw. ML-Schätzung.

Bayesianische Ridgeregression
Y|β ∼ Nn (Xβ, σ 2 In ); σ 2 bekannt

β ∼ Np (β 0 , τ 2 Ip )
ergibt also eine normalverteilte Posteriori von β mit

−1
σ2

E (β|Y) = X′ X + 2 Ip (X′ Y)
τ
−1
σ2

2 ′
V (β|Y) = σ X X + 2 Ip
τ
σ2
=⇒ E (β|Y) = β̂ Ridge = (X′ X + λIp )−1 X′ y mit λ = τ2 !
Wahl von τ 2 entspricht hier also Wahl des Penaltyparameters λ:
τ 2 → ∞ ⇐⇒ λ → 0 bzw. τ 2 → 0 ⇐⇒ λ → ∞
.
Allgemein gilt: Diffuse Priori ⇐⇒ wenig Penalisierung;
informative Priori ⇐⇒ viel Penalisierung.
Skalenmischungen von Normalverteilungen
Priori β|τ 2 ∼ N(0, τ 2 ) und Hyperpriori p(τ 2 ) definieren eine
Skalenmischung von Normalverteilungen:
Z ∞
p(β) = p(β|τ 2 )p(τ 2 )dτ 2
0
Einige Spezialfälle:
(
2 1 τ 2 = τ02
p(τ ) = =⇒ β ∼ N(0, τ02 ) =⇒ Bayes. Ridge-Reg.
0 sonst
τ −2 ∼ G (a/2, a/2) =⇒ β ∼ t(df = a)
λ
τ 2 ∼ E (λ2 /2) =⇒ p(β)= exp (−λ|β|) =⇒ Bayesianisches LASSO
2
Darstellung der Prioris als Skalenmischungen hilfreich für MCMC-Inferenz

wegen Konjugiertheit der Normalverteilung mit sich selbst.

Allgemeine Bayesianische Ridgeschätzung
Annahmen
Y | β, τ ∼ N(β0 1 + Xβ, Σ2 I)
p(β0 ) = const
2
Σ ∼ IG (a, b)
2
β|τ ∼ N(0, τ 2 I)
τ2 ∼ IG (aτ 2 , bτ 2 )

Allgemeine Bayesianische LASSO–Schätzung
Annahmen
Y | β, τ ∼ N(β0 1 + Xβ, Σ2 I)
p(β0 ) = const
Σ2 ∼ IG (a, b)
β|τ12 , . . . , τp2 ∼ N(0, diag(τ12 , . . . , τp2 )
τj |λ ∼ E (λ2 /2)
eventuell auch noch: λ2 ∼ G (aλ , bλ ) =⇒ Normal-Exponential-Gamma-Prior

Priori-Verteilungen für beta
Links: Ridge-Priori p(β|τ 2 ) = N(0, τ 2 ) durchgezogen, marginale Priori

p(β) = t(df ) gestrichelt.
Rechts: LASSO-Priori p(β|λ) (Laplace-Verteilung) durchgezogen,
marginale Priori p(β) (Normal-Exponential-Gamma-Verteilung) integriert
über λ ∼ G (a, b) gestrichelt.
=⇒ “marginale” Prioris werden für kompliziertere Priori-Hierarchien oft
recht ähnlich
Regularisierung/Penalisierung vs. Prioris
Penalisierte ML-Inferenz maximiert
lpen (θ|y ) = log(f (y |θ)) − λ pen(θ)
Für y ∼ Nn (X′ β, σ 2 In ) z.B. analog zu:

Minimiere PLS(β) = (y − X′ β)′ (y − X′ β) + λ pen(β)!
Bayes-Posteriori Modus maximiert (log-)posteriori
log(p(θ|y ) = log(f (y |θ)) + log(p(θ))
=⇒
Bestrafungsterm λ pen(θ) entspricht negativer log-Priori − log(p(θ))
=⇒ Prioriverteilung und Bestrafungsterm erfüllen identische Funktion:
Sie definieren, welche Parameterwerte wir (a priori....) für wie
wünschenswert/plausibel oder unplausibel halten.
Regularisierung/Penalisierung vs. Prioris
Unterschiede:
penalisierte Likelihood ist i.A. kein probabilistisches Modell mehr
und liefert nur Punktschätzung des Maximums der Zielfunktion.
Bayes liefert komplette Posterior-Verteilung.
nicht alle Strafterme ergeben propere Priori-Verteilungen
=⇒ Darstellung als Bayes-Modell mit properer Posteriori nicht
immer möglich
unterschiedliche pragmatische Kriterien:
(Einfache) Differenzierbarkeit und Konvexität der Penalty v.a. für
Likelihood-Inferenz wichtig.
Für Bayes oft wichtiger wie einfach aus der Priori bzw. den full
conditionals gezogen werden kann.

Boosting
Wichtige Technik der regularisierten Regression

Grundidee: durch wiederholtes Anwenden einfacher Modelle (weak
learner, base learner) auf “Fehler”der vorherigen Iteration ergibt
sich insgesamt ein leistungsfähiges Ensemble-Modell (strong
learner).
Neben Random Forests wichtigste und leistungsfähigste
Algorithmenklasse in Machine Learning (außer DL....)
Implementationen für alle möglichen Arten von base learners,
Responses und Features verfügbar, s.u.a. XGboost, LightGBM,
{mboost}, {gbm}, etc.

Boosting: lineare Regression
KQ-Boosting-Algorithmus:
Gegeben sei lineares Modell
y = Xβ + ε
(0)
Definiere Startwert β̂ , Schrittweite v ∈ (0, 1], Iterationszahl mstop .
Setze t = 1.
1 Berechne Residuen
(t−1)
u(t) = y − Xβ̂
und passe KQ–Schätzer an sie an:
−1
b̂(t) = (X′ X) X′ u(t)
2 Update:
(t) (t−1)
β̂ = β̂ + v b̂(t)
Setze t=t+1.
3 Wiederhole 1 und 2 bis t = mstop
Bemerkungen
Parameter v ≪ 1 (oft v=0.1 oder 0.01) verhindert zu große

Updateschritte
Für t → ∞ konvergiert der Schätzer gegen den klassischen
KQ-Schätzer
=⇒ Regularisierung durch maximale Anzahl Iterationen mstop
Hier: base learner ist KQ-Regression

Gradient Boosting für allgemeine Zielfunktionen
Für KQ-Zielfunktion L(y, β) = 12 ∥y − ŷ∥22 mit base learner ŷ = Xβ sind

die negativen Residuen gleich der Ableitung nach der Modellschätzung ŷ:

∂
= − y − ŷ(t) = −ϵ(t)

L(y, β)
∂ŷ β=β̂
(t)
=⇒ KQ-Boosting-Algorithmus ist Spezialfall einer allgemeineren Idee

um beliebige Zielfunktionen zu minimieren:
∂
Schiebe ŷ in jedem Schritt entgegen der Gradientenrichtung ∂ŷ L(y, β):

∂
ŷ(t+1) = ŷ(t) − v ∂ŷ L(y, β)

(t)
β=β̂

Gradient Boosting für allgemeinere Zielfunktionen

∂
Definiere allgemein “Pseudo-Residuen” r(t) = − L(y, β) .

∂ŷ (t)
β=β̂
Idee:
∂
Schiebe ŷ in jedem Schritt entgegen der Gradientenrichtung ∂ŷ L(y, β),
also ŷ(t+1) = ŷ(t) + v r(t)
Problem:
∂
Die Updaterichtung r = ∂ŷ L(y, β) ist üblicherweise nicht durch den base
learner (hier: Xb) darstellbar.
Lösung:
Schiebe ŷ in “ähnlichste Richtung”, die der base learner erreichen kann:
2
b(t) = arg min r(t) − Xb

b 2
=⇒ erlaubt Anpassung beliebiger(!) Modelle mit differenzierbarer

Zielfunktion durch Iteration einfacher KQ-Fits.

Komponentenweises Boosting
Boosting mit eingebauter Variablenselektion
Idee:
Definiere statt globalem Xb einen base learner Xj bj für jede
Kovariable xj ; j = 1, . . . , k
Aktualisiere in jeder Iteration nur einen dieser base learner:
diejenige Komponente, welche die Zielfunktion am meisten reduziert
=⇒ separate KQ-Schätzungen für jeden base learner in jeder
Iteration
Eigenschaften:
Anwendung im hochdimensionalen Fall möglich, skaliert gut.
Variablenselektion & Shrinkage: nur base learner die (oft)
ausgewählt werden haben (große) Effekte
auch gruppierte Selektion einfach möglich durch Definition
entsprechender Baselearner: Spline-Basen, Faktorvariablen, etc.
Zusätzliche Regularisierung durch “early stopping”
Componenwise Gradient Boosting
Für lineares Modell y = Xβ + ε.
(0)
Definiere Startwert β̂ j und base learner {Xj bj : j = 1, . . . , k};
Schrittweite v ∈ (0, 1], Iterationszahl mstop . Setze t = 1.
1 Berechne Residuen
(t−1)
u(t) = y − Xβ̂
und den KQ-Schätzer für jeden base learner:
(t) −1 ′ (t)
b̂j = X′j Xj Xj u ; j = 1, . . . , k
2 Finde den base learner mit der besten Anpassung:
2
(t)
j ∗ = arg min u(t) − Xj b̂j

j=1,...,k 2
(t) (t−1) (t)

Update: β̂j ∗ = β̂j ∗ + v b̂j ∗
(t) (t−1)
β̂j = β̂j , j ̸= j ∗
Setze t=t+1.
4 Wiederhole 1-3 bis t = mstop
Grafische Darstellung
Analog zum LASSO können die Verläufe der Koeffizienten β (t) über die
Iterationen dargestellt werden:
Quelle: Fahrmeir et al. (2013), Abb. 4.17

Bestimmung des Tuning–Parameters mstop
über (approximatives) AIC:

führt oft zu schwächerer Regularisierung, kein Resampling nötig
über Resampling (Kreuzvalidierung, Bootstrap)
andere Stoppkriterien: Anzahl inkludierter Kovariablen, Rechenzeit,
etc.

Grafische Darstellung
Verlauf von AIC oder Verlustfunktion über die Iterationen:
CV-MSE Replikationen in grau, Mittelwert in schwarz.

Optimaler Wert ca. mstop = 80
Quelle: Fahrmeir et al. (2013), Abb. 4.18

Konfidenzintervalle
Bestimmung mit Bootstrap:

1 Ziehe B Bootstrap–Stichprobe mit Zurücklegen aus den Daten
2 Schätze aus Bootstrap–Stichprobe mit Bootstrap oder
Kreuzvalidierung die Parameter incl. Stoppkriterium
3 Verwende empirische Quantile als Grenzen der (punktweisen)
Konfidenzintervalle

Verallgemeinerung und Ausblick
Bei jedem Schritt im Boosting kann auch allgemein zwischen

verschiedenen Arten von base-learner gewählt werden, z.B.
Indikatorfunktionen von Kovariablen I (xk > c) (“tree stumps”)
Polynomiale Terme oder Splinebasen
Komplexere Submodelle wie Regressionsbäume oder zufällige Effekte
Es können auch andere Verlustfunktionen verwendet werden, wie z.B.
gewichtete KQ, Summe der absoluten Abstände oder (negative)
Log-Likelihoods.

GR22-Kapitel1 2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

GR22-Kapitel1 2

Uploaded by

Copyright:

Available Formats

Vorlesung: Generalisierte Regression

Dozent: Fabian Scheipl – Material: Helmut Küchenhoff

Institut für Statistik, LMU München

Version: 4. November 2022

Dozent: Fabian Scheipl – Material: Helmut Küchenhoff

Institut für Statistik, LMU München

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 3

Veranstaltung umfasst 2 Teilmodule:

120 min Klausur am Ende des Semesters, je 60 min pro Teilmodul.

Statistik BA 2010: Müssen Prüfungen für beide Teilmodule gemeinsam

Grundlagen der GR: bis Weihnachten –

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 4

L.Fahrmeir, Th. Kneib, S. Lang, B.Marx:

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 5

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 6

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 7

Veranstaltung umfasst 2 Teilmodule:

120 min Klausur am Ende des Semesters, je 60 min pro Teilmodul.

Statistik BA 2010: Müssen Prüfungen für beide Teilmodule gemeinsam

Grundlagen der GR: bis Weihnachten –

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 8

L.Fahrmeir, Th. Kneib, S. Lang, B.Marx:

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 9

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 10

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 11

Daten von Christa Kieferle (Pädagogik, LMU)

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 12

Y: Anzahl der Fehler

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 13

Liang et al. (JAMA, 2020): Development and Validation of a Clinical

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 14

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 15

Verfahren, die Schätzung und Variablenselektion kombinieren

2 Schrittweiser Aufbau durch wiederholte Schätzung einfacher

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 16

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 17

E (Yt ) Erwartungswert der neuen Fälle zum Tag t, K Anzahl der

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 18

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 19

Additiv und linear, Bedingte Verteilung von Y |x gehört zur

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 20

Gibt es eine Midlife Crisis?

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 21

Mehrere Messungen für eine Person (longitudinale Daten)

Yij = β0 + β2 · altij + β3 · altij2 + β4 · altij3 + β5 · eink + β6 · ges... + τi + ϵij

Yij : Lebenszufriedenheit von Person i zum Zeitpunkt j

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 22

Welche Assoziationen gibt es zwischen Anteil der Stimmen für eine

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 23

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 24

0.4 0.6 0.8 1.0 5% 15 % 25 % 35 % 5% 15 % 25 %

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 25

0.2 0.4 0.6 0.8 1.0 10 % 20 % 30 % 5% 10 % 20 %

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 26

Große Stichprobe zum BMI von Kindern und Jugendlichen

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 27

Quantilregression: Quantifiziere Modell zum Zusammenhang zwischen

GAMLSS : Generalized Additive Models for Location, Scale and Shape

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 28

Fragestellung: Welche Einstellungen beeinflussen das

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 29

Multinomiales Logit-Modell mit k Kategorien

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 30