You are on page 1of 100

Vorlesung: Generalisierte Regression

Dozent: Fabian Scheipl – Material: Helmut Küchenhoff

Institut für Statistik, LMU München

WS 22/23

Version: 4. November 2022


Vorlesung: Generalisierte Regression

Dozent: Fabian Scheipl – Material: Helmut Küchenhoff

Institut für Statistik, LMU München

WS 22/23
Termine und Informationen

Homepage: https://moodle.lmu.de/course/view.php?id=24352
Vorlesung: Mo 12-14 & Mi 10 - 12; M018
Fabian Scheipl
Übung: Mo 14-16 & 16-18; S002 (Schelling 3)
Martje Rave & Cornelia Gruber
Tutorium: Di 10-12 A214 & Do 14-16 B006
Nurzhan Sapargali & und David Prokosch

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 3


Prüfungsleistung & Anrechnung

Veranstaltung umfasst 2 Teilmodule:


”Grundlagen der Generalisierten Regression”(P11.1 + P11.2; 6 ECTS);
”Fortgeschrittene Generalisierte Regression”(P11.3 + P11.4; 3 ECTS).

120 min Klausur am Ende des Semesters, je 60 min pro Teilmodul.

Statistik BA 2010: Müssen Prüfungen für beide Teilmodule gemeinsam


ablegen und bestehen.
Statistik MA 2010: Können Prüfungen für Teilmodule
getrennt/teilweise ablegen.
Statistics & Data Science BA/MA 2021: This is not for you.

Grundlagen der GR: bis Weihnachten –


GLM, Bayes, Regularisierung & Random Effects, GAM
Fortgeschrittene GR: nach Weihnachten –
GAMLSS, Klassifikation, Messfehler, Survival

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 4


Literatur

L.Fahrmeir, Th. Kneib, S. Lang, B.Marx:


Regression, Models Methods and Applications
Springer-Verlag, 2013
Hinweise auf bestimmte Kapitel aus diesem Buch in den Folien

Simon Wood:
Generalized Additive Models: An Introduction with R
Chapman & Hall 2017

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 5


Inhalt und Lernziele
1 Es werden Regressionstechniken als zentrales Instrument
statistischer Modellierung behandelt.
2 Insbesondere werden parametrische Ansätze für Querschnittsdaten
in Form der generalisierten linearen Modelle eingeführt.
3 Als Erweiterung der einfachen univariaten Responsemodelle werden
auch mehrkategoriale Modelle mit multinomial verteilter abhängiger
Variable betrachtet.
4 Die Abschwächung der linearen Prädiktorstruktur führt zu flexiblen,
nonparametrischen Regressionsmodellen, die in ihren Grundzügen
eingeführt werden.
5 Es soll ein weit reichendes Verständnis erworben werden für das
Potential der vielfältigen regressionsanalytischen Ansätze zur
Datenmodellierung.
6 Dies umfasst insbesondere die Fähigkeit, zu gegebener Datenlage
adäquate Modelle zu identifizieren, anzupassen und zu vergleichen.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 6


Termine und Informationen

Homepage: https://moodle.lmu.de/course/view.php?id=24352
Vorlesung: Mo 12-14 & Mi 10 - 12; M018
Fabian Scheipl
Übung: Mo 14-16 & 16-18; S002 (Schelling 3)
Martje Rave & Cornelia Gruber
Tutorium: Di 10-12 A214 & Do 14-16 B006
Nurzhan Sapargali & und David Prokosch

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 7


Prüfungsleistung & Anrechnung

Veranstaltung umfasst 2 Teilmodule:


”Grundlagen der Generalisierten Regression”(P11.1 + P11.2; 6 ECTS);
”Fortgeschrittene Generalisierte Regression”(P11.3 + P11.4; 3 ECTS).

120 min Klausur am Ende des Semesters, je 60 min pro Teilmodul.

Statistik BA 2010: Müssen Prüfungen für beide Teilmodule gemeinsam


ablegen und bestehen.
Statistik MA 2010: Können Prüfungen für Teilmodule
getrennt/teilweise ablegen.
Statistics & Data Science BA/MA 2021: This is not for you.

Grundlagen der GR: bis Weihnachten –


GLM, Bayes, Regularisierung & Random Effects, GAM
Fortgeschrittene GR: nach Weihnachten –
GAMLSS, Klassifikation, Messfehler, Survival

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 8


Literatur

L.Fahrmeir, Th. Kneib, S. Lang, B.Marx:


Regression, Models Methods and Applications
Springer-Verlag, 2013
Hinweise auf bestimmte Kapitel aus diesem Buch in den Folien

Simon Wood:
Generalized Additive Models: An Introduction with R
Chapman & Hall 2017

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 9


Inhalt und Lernziele
1 Es werden Regressionstechniken als zentrales Instrument
statistischer Modellierung behandelt.
2 Insbesondere werden parametrische Ansätze für Querschnittsdaten
in Form der generalisierten linearen Modelle eingeführt.
3 Als Erweiterung der einfachen univariaten Responsemodelle werden
auch mehrkategoriale Modelle mit multinomial verteilter abhängiger
Variable betrachtet.
4 Die Abschwächung der linearen Prädiktorstruktur führt zu flexiblen,
nonparametrischen Regressionsmodellen, die in ihren Grundzügen
eingeführt werden.
5 Es soll ein weit reichendes Verständnis erworben werden für das
Potential der vielfältigen regressionsanalytischen Ansätze zur
Datenmodellierung.
6 Dies umfasst insbesondere die Fähigkeit, zu gegebener Datenlage
adäquate Modelle zu identifizieren, anzupassen und zu vergleichen.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 10


0. Einführung: Motivation und Beispiele

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 11


Beispiel 1: Fehler bei einem Lesetest

Daten von Christa Kieferle (Pädagogik, LMU)


Daten von 180 Kindern aus den 8 Klassen (3. und 4. Klassen
Grundschule)

Zielgröße:
Anzahl der Fehler bei einem Lesetest

Potentielle Einflussgrößen:
Geschlecht, Jahrgang, Leseförderzeit, sonstiges lesen (1= fast nie,.. 5=
oft), Gameboy (1= fast nie ,.. 5= oft), Jahrgang.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 12


Multiples lineares Regressionsmodell

E (Y ) = β0 +β1 ·GE +β2 ·JG +β3 ·LZ +β4 ·WOL+β5 ·WOG +β6 ·WOTV

Y: Anzahl der Fehler


GE: Indikator für männlich (= 1 für männlich, 0 sonst)
JG: Indikator für Klassenstufe (=1 für 3. Klasse, 0 für 4.Klasse)
LZ: Lesezeit in der Schule
WOL: Wie oft wird sonst gelesen
WOG: Wie oft wird Gameboy gespielt
WOTV: Wie oft TV

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 13


Beispiel 2: Risiko bei Covid–19

Liang et al. (JAMA, 2020): Development and Validation of a Clinical


Risk Score to Predict the Occurrence of Critical Illness in Hospitalized
Patients With COVID-19
”What epidemiological and clinical characteristics are associated
with the development of critical illness among patients with novel
coronavirus disease 2019 (COVID-19)?”
”Can these characteristics be used to predict which patients
admitted to the hospital with COVID-19 will need admission to an
intensive care unit, mechanical ventilation, or will die?”
Study with a development cohort of 1590 patients
Welche Prädiktoren sind relevant (Variablenselektion) ?

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 14


Mögliche Prädiktoren

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 15


LASSO, Elastic Net und Component-wise Boosting

Verfahren, die Schätzung und Variablenselektion kombinieren


P
1 Modelle mit Penalisierung (shrinkage), z.B. | βk |≤ c (LASSO)

2 Schrittweiser Aufbau durch wiederholte Schätzung einfacher


Modelle (Boosting)

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 16


Ergebnis

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 17


Beispiel 3: Modelle für die tägliche Anzahl von
Neuerkrankungen COVID-19
Fragestellung: Zusammenhang zwischen der Anzahl von
Neuerkrankungen
Zielgröße: Anzahl der Fälle
Einflussgröße: Zeit (Trend)
Modell: Poisson-Regression, da Zielgröße Y eine Zählgröße ist: Modell
mit Bruchpunkten
K
!
X
E (Yt ) = exp β0 + β1 t + γk (t − CPk )+ ,
k=1

E (Yt ) Erwartungswert der neuen Fälle zum Tag t, K Anzahl der


Bruchpunkte , CPk sind die Bruchpunkte, x+ = max(x, 0), γk ist die
Änderung der Steigung zum Zeitpunkt t.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 18


Ergebnis Bayern und München 30.10.2020

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 19


Das verallgemeinerte lineare Modell

Zielgröße: Y
Einflussgrößen : x1 , x2 ....
Modellgleichung

E (Y ) = g (β0 + β1 x1 + β2 x2 + . . .)

Additiv und linear, Bedingte Verteilung von Y |x gehört zur


Exponentiellen Familie
Modellklasse der verallgemeinerten linearen Modelle

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 20


Beispiel 4: Lebenszufriedenheit und Alter

Gibt es eine Midlife Crisis?


Analysen von Panel-Daten zur subjektiven Lebenszufriedenheit
In Zusammenarbeit mit Sonja Greven, Andrea Wiencierz, Christoph
Wunder

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 21


Das gemischte Modell

Mehrere Messungen für eine Person (longitudinale Daten)


Unabhängigkeitsannahme verletzt
Allgemeines lineares Modell
Gemischtes Modell

Yij = β0 + β2 · altij + β3 · altij2 + β4 · altij3 + β5 · eink + β6 · ges... + τi + ϵij

Yij : Lebenszufriedenheit von Person i zum Zeitpunkt j


iid
τi ∼ N(0, στ2 ): zufälliger Personeneffekt

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 22


Beispiel 5: Wahlanalysen auf Kreisebene

Welche Assoziationen gibt es zwischen Anteil der Stimmen für eine


Partei und Merkmalen der Wahlbezirke (Arbeitslosigkeit, Zahl der
Autos pro Einwohner etc.
Zielgröße: Wahlergebnisse zu den Wahlbezirken bei den
Bundestagswahlen 2013 und 2017.
Einflussgrößen: Merkmale der Wahlbezirke
Die Form der Assoziation soll durch die Daten bestimmt werden.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 23


Generalisierte additive Modelle

E (Y ) = f1 (x1 ) + f2 (x2 )
Die Funktionen fk sind stetig differenzierbare (glatte) Funktionen

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 24


Stimmanteil der Grünen und ausgewählte Variable
Ergebnisse Bundestag 2013
30 % 30 % 30 %

24 % 24 % 24 %

18 % 18 % 18 %
fmarginal x

fmarginal x

fmarginal x
12 % 12 % 12 %

6% 6% 6%

0% | ||||||||||||||||
|||||||||||
|||||||||||||||||||||||||||||||||
|||||
|||||||||||||||||
||||||||||
||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||||||||||||||||||||||| || | 0% ||| |||||||||||||||
||||||||||||||||||||
|||||||||||
||||||||||||||||
||||||||||
||||||||||||
|||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||||||| ||||| | | ||| | 0% | | |||||||||||||
|||||||||||||
||||||||||||||||||||||||||||||||||||||||
|||||
|||
||||||||||||||||||||||||||||||||||
||||||||||||||||||||||||||||||| ||||||||||||||||||||| || |

0.4 0.6 0.8 1.0 5% 15 % 25 % 35 % 5% 15 % 25 %


(a) (b) (c)

30 % 30 % 30 %

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 25


Stimmanteil der Grünen und ausgewählte Variable
Ergebnisse Bundestag 2017

30 % 30 % 30 %

24 % 24 % 24 %

18 % 18 % 18 %
fmarginal x

fmarginal x

fmarginal x
12 % 12 % 12 %

6% 6% 6%

0% | | | | |||||||||||
|||||||||||||||
|||||||||||
||||||
|||||||||
|||||||||||||||||||||
|||||||||
||||||||
|||||||||||||||||||
|||||||||||||||||||||||||||||||||||||||
||||||||||||||||
||||||||||||||||||| | | | 0% ||||||||||||||||||||
|||||||||
|||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||
||||||||||||||||||||||||||||||||||
||||||||||||||||||||| | || |||||| ||| |||| | | 0% | | | ||||||||||||||||||||||
|||
|||||||||||
||||||||||||||||||||||
||||||
|||
|||||||||||||
|||||
|||
|||||
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||| ||||

0.2 0.4 0.6 0.8 1.0 10 % 20 % 30 % 5% 10 % 20 %


(a) (b) (c)

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 26


Beispiel 6: Referenzkurve für den BMI

Große Stichprobe zum BMI von Kindern und Jugendlichen


wo liegen Median, 95% Quantil, 99%-Quantil des BMI abhängig
von Alter

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 27


Quantilregression und GAMLSS

Quantilregression: Quantifiziere Modell zum Zusammenhang zwischen


Quantilen von Qτ (Y ) und Prädiktoren x

Qτ (Y ) = x ′ β

GAMLSS : Generalized Additive Models for Location, Scale and Shape


Modellgleichungen für mehrere Parameter der Verteilung in Abhängigkeit
von Kovariablen

E (Y |x) = x ′β
V (Y |x) = x ′γ
S(Y |X ) = x ′δ

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 28


Beispiel 7: Wahl und Personenmerkmale

Fragestellung: Welche Einstellungen beeinflussen das


Wahlverhalten?
Daten: Wahlentscheidung und Fragebogen zu Einstellungen
Zielgröße: Wahlentscheidung mit mehr als zwei Möglichkeiten

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 29


Kategoriale Regressionsmodelle

Multinomiales Logit-Modell mit k Kategorien

exp(x′i β r )
P(Yi = r ) = k
r = 1, . . . , k
exp(x′i β s )
P
s=1

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 30


Beispiel 8: Überlebensdauer von Intensivpatienten

Beobachtungsstudie von Patienten der Intensivstation am Klinikum


in Großhadern
Fragestellung : Von welchen Größen hängt das Überleben der
Patienten ab?
Einflussgrößen sind: Zustand des Patienten, Alter, Typ der
Krankheit, etc.
Zielgröße ist Überlebensdauer Y
Besonderheit: Vorhandensein von zensierten Daten (Patienten leben
bei Beendigung der Studie)

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 31


Proportional Hazards - Modell

λ(t) = λ0 (t) exp(β1 x1 + β2 x2 + ...)


λ(t) : Hazardrate; P(Y ∈ (t, t + δ)|Y > t, x) ≈ λ(t)δ
Das Modell kann auch mit zensierten Daten geschätzt werden. Es
benötigt keine parametrischen Verteilungsannahmen

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 32


Beispiel 9: Staubexpostion und Brochitis

Bei einer retrospektiven Erhebung der Staubkonzentration am


Arbeitsplatz gibt es erhebliche Messfehler. Die Nichtberücksichtigung des
Messfehlers führt zu fehlerhaften Schätzen

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 33


Modell mit additivem Messfehler

Y Indikator für chronische Bronchitis, X Staubkonzentration, X ∗


gemessene Staubkonzentration
Modell:
P(Y = 1|X ) = G (β0 + β1 X )
X∗ = X + U
U: Messfehler
Verwende Methoden zur Berücksichtigung von Messfehlern: Likelihood,
SIMEX

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 34


Programm
1 Das lineare Modell (3.1-3.3)
2 Statistische Regularisierung, LASSO, Boosting und Bayesianische
Analyse (4.2-4.4)
3 Das verallgemeinerte lineare Modell (5.4,5.2,5.3)
4 Gemischte Modelle (7.1-7.3)
5 Das generalisierte additive Modell GAM (8.1-8.2,9.1,9.5,9.6)
6 Beyond Mean regression: GAMLSS, Quantil-Regression,
Verteilungsregression (10)
7 Kategoriale Regression (4)
8 Lebensdauermodelle
9 Messfehler und Fehlklassifikation
In Klammern: Kapitel in Fahrmeir et al. (2013) Regression: Models,
Methods and Applications

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 35


Machine Learning vs Statistik
Statistik :
Y : Zielgröße,abhängige Variable, Outcome, Response, Regressand
x: Einflussgröße, unabhängige Variable, Kovariable, Prädiktor, Regressor
Prinzip:
“Schätze bedingte Verteilung/Momente von Y |x”
=⇒ probabilistisches Modell (fast immer)
Fokus eher auf Interpretation wie x die bedingte Verteilung von Y
beeinflusst.

Machine Learning:
Regression: Teil von supervised learning
Y : output, target
x: input, feature
Prinzip:
“Lerne funktionalen Zusammenhang zwischen x und Y aus Daten.”
=⇒ empirical risk minimization: minimiere Abstände zw. f (xi ) und yi
Fokus meist auf Vorhersage von Y basierend auf x.
Y binär oder kategorial: “classification”nicht “regression”
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 36
1. Das multiple lineare Regressionsmodell

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 37


Das multiple lineare Regressionsmodell
Siehe: Fahrmeir et al. Kap. 3.1 - 3.3, Vorlesung lineare Modelle

Yi = β0 + β1 xi1 + β2 xi2 + . . . βp xip +εi ; i = 1, . . . n


| {z }
x′i β

x′i = (1, xi1 , . . . , xip )

Y = Xβ + ε (1.1)

mit
       
Y1 1 x11 ··· x1p β0 ε1
Y =  ...  X =  .. .. .. ..  β =  ..  ε =  .. 
  
. . . .   .   . 
Yn 1 xn1 ··· xnp βp εn

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 38


Modellannahmen

E (εi ) = 0
E (ε) = 0 (1.2)
2
V (εi ) = σ (1.3)
{εi | i = 1, . . . , n} unabh. (1.4)
2
Aus (1.3), (1.4) folgt: V (ε) = σ I
εi ∼ N(0, σ 2 ) und (1.4)
ε ∼ N(0, σ 2 I) (1.5)

Y: Zufallsvektor der Zielgröße


X: feste Design-Matrix (Matrix der Einflussgrößen)
β: Vektor der Regressionskoeffizienten
ε: Störgröße

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 39


Interpretation des Modells
Erwartungswertdarstellung

E (Y |x) = β0 + β1 x1 + β2 x2 + . . . βp xp
| {z }
x′ β

Erwartungswert von Y bedingt auf x ist Linearkombination der


Einflussgrößen
Steigt xk um eine Einheit, so steigt Y im Erwartungswert um βk
Einheiten, wenn alle anderen X-Variablen festgehalten werden
Linearer Zusammenhang von E (Y |x) und xk bei Festhalten der
übrigen Variablen
βk charakterisiert Stärke und Richtung dieser Assoziation unter
Berücksichtigung der übrigen Variablen ( Confounder-Korrektur“,

“partielle Korrelation”)

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 40


Schätzung im linearen Modell: KQ-Schätzer

Wir betrachten Modell (1.1). Dann heißt

β̂ = arg min (y − Xβ)′ (y − Xβ) (1.6)


β | {z }
P n ′ 2
i=1 (yi −xi β)

KQ-Schätzer.

εˆi = yi − x′i β (1.7)



Es gilt für (X X) invertierbar: β̂ existiert, ist eindeutig und

β̂ = (X′ X)−1 X′ y. (1.8)

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 41


Eigenschaften des KQ-Schätzers

Sei das Modell (1.1) mit (1.2) gegeben.


1 Der KQ-Schätzer ist erwartungstreu:

E (β̂) = β (1.9)

2 Für die Varianz-Kovarianz-Matrix von β̂ gilt unter (1.3) und (1.4):

V (β̂) = σ 2 (X′ X)−1 (1.10)

3 Unter (1.5) gilt:


β̂ ∼ N β, σ 2 (X′ X)−1

(1.11)
4 Der KQ Schätzer ist auch ML Schätzer

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 42


Konfidenzintervalle und Wald Test

Die (asymptotische) Normalität von β̂ nutzt man zur Konstruktion von


Konfidenzintervallen und Tests:
Betrachte zur linearen Hypothese
H0 : Aβ = c die quadratische Form
−1
(Aβ̂ − c)′ σ 2 A(X′ X)−1 A′ (Aβ̂ − c)

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 43


Allgemeine lineare Hypothese: Wald-Test

Sei das Modell (1.1) mit (1.5) und A ∈ R a×p , rg (A) = a, c ∈ R a
gegeben.

V (Aβ̂ − c) = V (Aβ̂) = σ 2 A(X′ X)−1 A′ (1.12)


′ −1
Wald-Statistik w := (Aβ̂ − c)′ σ 2 A(X′ X)−1 A

(Aβ̂ − c) (1.13)
 ′  
= V (Aβ̂)−1/2 (Aβ̂ − c) V (Aβ̂)−1/2 (Aβ̂ − c)

=⇒ Mahalanobis-Abstand zwischen unrestringierter Schätzung Aβ̂ und


Hypothese c.

H
=⇒ w ∼0 χ2 (a) (1.14)

Wald-Test für H0 : Aβ = c also: Lehne H0 ab, falls:

w > χ21−α (a) (1.15)

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 44


ML-Schätzung

Die Likelihood des Modells (1.1) - (1.5) für die Daten (yi , xi ) ist:
" n #
X ε2
−n/2 −n i
L(Y, X; β, σ) = (2π) · σ · exp −
2σ 2
i=1

mit ϵi = yi − xi β

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 45


Likelihood Quotienten-Test
Grundidee des Likelihood-Quotienten-Tests:
Vergleiche (Bilde den Quotienten) maximierte Likelihood des Modells
unter H0 mit maximierter Likelihood ohne H0

Wir betrachten also den ML - Schätzer mit und ohne die Restriktion
Aβ = c:

ˆε̂ : Residuen unter dem Modell mit H0


ε̂ : Residuen unter dem Modell ohne Einschränkung

Die LQ- Teststatistik lautet dann:

!−n !−n/2
ˆ
σ̂ ˆε̂′ ˆε̂ H0
τLQ = = ∼ χ2 (a) (1.16)
σ̂ ε̂′ ε̂

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 46


Quadratsummenzerlegung
Gegeben sei das Modell (1.1) mit Design-Matrix X und

rg (X) = p + 1 =: p ′ . (1.17)
Dann gilt:

(Y − Ȳ)′ (Y − Ȳ) = (Y − Ŷ)′ (Y − Ŷ) + (Ŷ − Ȳ)′ (Ŷ − Ȳ) (1.18)


| {z } | {z } | {z }
SST SSE SSM

Interpretation:
SST : Gesamt-Streuung, (korrigierte) Gesamt-Quadratsumme, “Total”
SSE : Fehler-Quadratsumme, “Error”
SSM : Modell-Quadratsumme, “Model”
Bestimmtheitsmaß
r 2 = SSM/SST

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 47


Nominale Einflussgrößen

Binäre Größen werden einfach mit 0 und 1 codiert, eine


Dummyvariable (Beispiel: Geschlecht, Zustimmung oder Ablehnung
bei einer Frage)
Bei nominalen Merkmalen verwendet man für jede Kategorie eine
Dummyvariable (0-1). Wir betrachten ein nominales Merkmal C mit
K Ausprägungen.

1 für C = k;
Zk (C ) = k = 1, . . . , K (1.19)
0 für C ̸= k;

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 48


Modell mit Referenzkategorie K :

Ykl = µK + τk + εkl , τK = 0;
 
µK
 τ1 
Y = (e Z1 (C ) . . . ZK −1 (C ))  +ε (1.20)
 
..
 . 
τK −1

 
1 1 0
 1 1 0 
Design-Matrix X für 3 Gruppen 
 1 0 1


mit je 2 Beobachtungen pro X= 
 1 0 1 
Gruppe: 
 1 0 0


1 0 0

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 49


Interaktion

Wichtiger Begriff bei der Modellierung


Bedeutung: Der Einfluss einer Variable hängt von dem Wert einer
anderen Variablen ab. Beispiele für Interaktionen bei zwei Einflussgrößen:

Die Wirkung des Medikaments ist bei Männern anders als bei Frauen
Der Geschlechtsunterschied in der Lebenszufriedenheit ist abhängig vom
Alter

Andere Begriffe: Moderation (Psychologie), Synergieefffekte

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 50


Modell mit Interaktion

Interaktionen lassen sich durch Aufnahme von Produkttermen


beschreiben.
Diskrete Variablen: Verwende alle Kombinationen von
Dummy-Variablen
Stetige Einflussgrößen: Einfaches Produkt
Gemischter Fall (stetig diskret)

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 51


Erweiterung auf Kombination von diskreten und
stetigen Merkmalen (Kovarianzanalyse)

Beispiel für Design-Matrix X für K = 3 Gruppen mit je nk = 2


Beobachtungen pro Gruppe und stetigem Merkmal x:

 
1 1 0 x1  

 1 1 0 x2 
 α3
 1 0 1 x3   α1 
X = β =  

 1 0 1 x4 

 α2 
 1 0 0 x5  β
1 0 0 x6

Interpretation:
In den drei Gruppen drei parallele Geraden und Steigung β3

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 52


Interaktion stetige diskrete Variable
Modell:

Ykl = α3 + αk + β3 Xkl + βk Xkl + εkl (k = 1, 2)


Ykl = α3 + β3 Xkl + εkl (k = 3)

Matrixdarstellung (3 Gruppen 2 Beobachtungen pro Gruppe)


   
1 1 0 x1 x1 0 α3
 1 1 0 x2 x2 0   α1 
   
 1 0 1 x3 0 x3   α2 
X = 
 β =  β3 
  
 1 0 1 x4 0 x4   
 1 0 0 x5 0 0   β1 
1 0 0 x6 0 0 β2

Interaktion bedeutet Steigungen verschieden.

Test auf Interaktion: β1 = β2 = 0

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 53


Wilkinson-Rogers-Notation & R Formelsyntax

Regressionsmodelle mit kategoriellen Variablen und/oder Interaktionen


werden häufig wie folgt dargestellt:

Abkürzung R-Notation linearer Prädiktor


x lm(y ∼ x1) β0 + β1 x1
c lm(y ∼ c) y ∼ factor(c) β0 + β1 Z1 (C ) + . . . βK −1 Zk (C )
x1 + x2 lm(y ∼ x1 + x2) β0 + β1 x 1 + β2 x 2
x1.x2 lm(y ∼ x1 : x2) β0 + β12 x1 x2
x1 ∗ x2 lm(y ∼ x1 ∗ x2) β0 + β1 x1 + β2 x2 + β12 x1 x2
analog: lm(y ∼ (x1 + x2)ˆ2)
x1 ∗ c lm(y ∼ x1 ∗ factor(c)) β0 + β1 x1 + βz1 Z1 (C ) + . . . + βzK −1 ZK −1 (C )
+β11 x1 · Z1 (C ) + . . . + β1zK −1 x1 · ZK −1 (C )
Es dürfen auch Klammern zur Konstruktion von komplexeren Termen
verwendet werden.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 54


2. Statistische Regularisierung und
Bayesianische Analyse

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 55


Hochdimensionale Regression

Herausforderungen bei hochdimensionaler multipler Regression


p > n-Problem: KQ-Lösung weder eindeutig noch sinnvoll
Unplausible und instabile Parameterschätzungen bei multikollinearen
Prädiktoren
Interpretation oft nur mit Variablenselektion und Modellwahl
möglich
Modellvarianten mit vielen Interaktionen, Polynomen, etc. führen zu
hochdimensionalen Prädiktoren
Also: Daten alleine nicht informativ genug um (sinnvolle) Schätzung
(eindeutig) zu bestimmen
→ Definiere zusätzliches Kriterium (Regularisierung / Penalisierung /
Priori / “inductive bias”) um Problemlösung zu definieren: Welche der
möglichen Lösungen sind wünschenswerter als andere?

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 56


Statistische Regularisierung
Grundprinzip: Penalisierung (”Bestrafung”)
Der penalisierte KQ - Schätzer (penalized least squares) ist wie folgt
definiert:

PLS(β) = (y − X′ β)′ (y − X′ β) + λ pen(β) (2.1)


β̂ PLS = arg min PLS(β) (2.2)
β

pen(β) ist die Bestrafungsfunktion (“penalty”). Für diese gibt es viele


Möglichkeiten. Im einfachsten Fall zählt sie die Anzahl der verwendeten
Kovariablen:
p
X
pen(β) = I (βk ̸= 0)
k=1

Dies führt zu bekannten Modellwahl-Kriterien wie AIC und BIC.


Dabei ist λ ein Tuning–Parameter, der den Kompromiss zwischen
guter Modellanpassung und niedriger Modellkomplexität steuert.
Die Bestimmung des Parameters λ ist ein zentrales Problem.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 57


Penalisierung und Shrinkage

Aus der Optimierungstheorie weiß man:


Zu jedem λ gibt es ein t, so dass in (2.2)

β̂ PLS = arg min(y − Xβ)′ (y − Xβ)


β
unter Nebenbedingung pen(β) ≤ t

Für festes λ ist penalisierte Punktschätzung also Optimierung unter


Nebenbedingungen.
Extremfälle:

λ → 0 =⇒ t → ∞ =⇒ β̂ PLS → β̂ KQ
λ → ∞ =⇒ t → 0 =⇒ β̂ PLS → 0

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 58


Geometrische Intuition: Ridge & LASSO
LASSO-penalty: Ridge-penalty:
Pp Pp
pen(β) := ∥β∥1 = k=1 |βk | pen(β) := ∥β∥22 = k=1 βk2
2 2
6

6
4

4
^ ^
 
2

2
0

0
1 1
−2

−2
−4

−4
−4 −2 0 2 4 6 −4 −2 0 2 4 6

Ellipsen: Höhenlinen von (y − Xβ)′ (y − Xβ).


Graue Regionen: Nebenbedingung {β : pen(β) ≤ t} für wachsendes t.
Schwarze Punkte: β̂ PLS für verschiedene t

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 59


Ridge-Regression

Klassischer Ansatz von Andrey Nikolayevich Tikhonov (1943), Hoerl


Kenard(1970)

Grundidee: (Quadrierte) Größe der Parameter in β wird bestraft

PLS(β) = (y − Xβ)′ (y − Xβ) + λ∥β∥22 (2.3)

Alternative Bezeichnungen: Tikhonov-Regularisierung, L2 -Penalty

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 60


Eigenschaften des Ridge-Schätzers
Der Ridgeschätzer kann wie folgt bestimmt werden:

β̂ Ridge = (X′ X + λIp )−1 X′ y (2.4)

Für orthonormales X (also: X′ X = I; β̂ OLS = X′ y) ergibt sich:

1
β̂Ridge,k = β̂OLS,k
1+λ
=⇒ Koeffizienten werden proportional “geschrumpft”.
Der Ridgeschätzer ist also verzerrt:

E (β̂ Ridge ) ̸= β

hat aber kleinere Varianz als der KQ-Schätzer:

V (β̂ Ridge ) = σ 2 (X′ X + λIp )−1 X′ X(X′ X + λIp )−1

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 61


Bias-Variance Tradeoff

Der Ridgeschätzer existiert auch für Designmatrizen X, die nicht vollen


Rang haben.
Ridgeschätzer hat durch Shrinkage kleinere Varianz, aber Bias.
Betrachte MSE :

MSE = Bias 2 + Var


Der Tuningparameter λ steuert den Ausgleich zwischen Varianz und Bias.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 62


Parameterpfade
β̂ PLS als Funktion von λ:

Abb.: James et al. (2013) An Introduction to Statistical Learning, Fig. 6.4


GRM WS 22/23 Scheipl/Küchenhoff (LMU) 63
LASSO
Least Absolute Shrinkage and Selection Operator

Die Penalisierung wird durch die Funktion


p
X
pen(β) = |βk | = ∥β∥1
k=1

definiert.
p
X
β LASSO := arg min 12 (y − X′ β)′ (y − X′ β) + λ |βk | (2.5)
β
k=1

Tibshirani (1996). Regression shrinkage and selection via the lasso. Journal of the
Royal Statistical Society: Series B (Methodological), 58(1), 267-288.

Alternative Bezeichnung: L1 -Penalty


GRM WS 22/23 Scheipl/Küchenhoff (LMU) 64
Optimierungsproblem

Beachte: Zielfunktion für βk = 0 nicht stetig differenzierbar!


Es ergibt sich folgende Bestimmungsgleichung für den LASSO–Schätzer:

−X′ Xβ + X′ y + λsign(β) = 0

Diese Gleichung ist im allgemeinen Fall nur numerisch lösbar.

Für orthonormales X ergibt sich:

β̂LASSO,k = sign(β̂KQ,k ) max(0, |β̂KQ,k | − λ)

=⇒ “soft thresholding”: Koeffizienten, deren OLS-Lösung kleinen


Betrag haben, werden auf 0 gesetzt und alle werden um konstanten Wert
reduziert.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 65


LASSO: Eigenschaften

1 Variablenselektion: Typischerweise werden viele Koeffizienten des


Modells auf 0 “geschrumpft”
2 Numerik manchmal instabil wegen lokalen Maxima, aber hoch
effiziente und skalierbare Algorithmen verfügbar.
3 Varianten: Adaptive/Weighted LASSO, Grouped LASSO, Fused
LASSO

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 66


Geometrische Veranschaulichung (LASSO)

2 2
6

6
4

4
^
 ^

2

2
0

1

0
1
−2

−2
−4

−4
−6

−6 −4 −2 0 2 4 6 −4 −2 0 2 4 6

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 67


Geometrische Veranschaulichung (Ridge)

2 2
6

6
4

4
^
 ^

2

2
0

1

0
1
−2

−2
−4

−4
−6

−6 −4 −2 0 2 4 6 −4 −2 0 2 4 6

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 68


Parameterpfade: LASSO vs Ridge
β̂ PLS als Funktion von λ:

LASSO-penalty:
Pp Ridge-penalty:
Pp
pen(β) := k=1 |βk | pen(β) := k=1 βk2

Abb.: James et al. (2013) An Introduction to Statistical Learning, Figs. 6.4, 6.6

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 69


Bias-Variance-Tradeoff

LASSO hat durch Shrinkage und Variablenselektion kleinere Varianz, aber


einen größeren Bias als der KQ Schätzer
Betrachte MSE :

MSE = Bias 2 + Var


Der Tuningparameter λ steuert den Ausgleich zwischen
Varianz und Bias
Modellanpassung und Modellkomplexität

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 70


Kreuzvalidierung
1 Teile den Datensatz zufällig in K ungefähr gleich große Teile (z.B.
K=5 oder K=10)
2 Verwende den ersten Datensatz D1 zur Validierung und die übrigen
K-1 Datensätze zu Parameterschätzung β̂ PLS,−1 (λ). Mit Hilfe der
Schätzung wird die folgende Funktion bestimmt:
X
CV (λ)1 = (Yi − x′i β PLS,−1 (λ))2
i∈D1

3 Nun wird entsprechend der zweite, dritte,... K-te Datenssatz


benutzt und entsprechend CV (λ)k berechnet.
4 Insgesamt wird das Mittel über die alle Beobachtungen gebildet
K
X
CV (λ) = 1/n CV (λ)k (2.6)
k=1

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 71


Schätzung des Tuning-Parameters

Kreuzvalidierung liefert Zielfunktion

CV (λ)

Minimiere Funktion CV (λ) bezüglich des Parameters λ.


Optimiert wird Prognosegüte bei neuen“Daten

Overfitting wird dadurch vermieden
Das Konzept ist auf andere Zielfunktionen erweiterbar

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 72


Schätzung des Tuning-Parameters

Abb: Nguyen et al. (2019). Hybrid multivariate pattern analysis combined with
extreme learning machine for Alzheimer’s dementia diagnosis using multi-measure
rs-fMRI spatial patterns. PLOS ONE 14.e0212582
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 73
“One-sigma rule”

Häufig werden trotz CV zu komplexe Modelle gewählt. Daher


Modifikation:
1 Bestimme λ mit kleinstem MSE
2 Bestimme zugehörige Standardabweichung s(λ0 ) aus den
CV-Wiederholungen
3 Wähle größtes λ mit MSE (λ) < MSE (λ0 ) + s(λ0 )
Dies führt zu stärker regularisierten Modellen (weniger Parameter / mehr
Shrinkage)

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 74


Skalierung und Verallgemeinerungen

1 Zu beachten ist die mögliche unterschiedliche Skalierung der


Kovariablen. Zur Penalisierung verwendet man häufig
standardisierte Variablen
2 Der konstante Term β0 wird typischerweise nicht penalisiert.
3 Es können auch bestimmte Größen von der Penalisierung
ausgenommen werden
4 Es können auch andere Größen penalisiert werden, z.B. Differenzen
von Parametern

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 75


Grouped LASSO

Bei manchen Effekten (z.B. kategorielle Variablen) möchte man entweder


alle Terme gemeinsam auswählen oder entfernen.
Wir fassen die Einflussgrößen zu Gruppen x1 , . . . , xG zusammen:

Y = β0 + x1′ β 1 + ...xG′ β G + ϵ
G q
X
pen(β) = β ′g β g
g =1

Dadurch können alle Koeffizienten einer Gruppe gemeinsam auf 0 gesetzt


werden.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 76


Fused LASSO
Wird z.B bei ordinalen Einflussgrößen verwendet.
Bei einer Variablen mit K geordneten Kategorien verwende:
K
X
pen(β) = |βk − βk−1 |
k=2

Bei einer Variablen mit K ungeordneten Kategorien verwende


K
X −1 K
X
pen(λ) = λ |βj − βk |
j=1 k=j+1

Dies führt dazu, dass einige Differenzen auf 0 geschätzt werden (“fused
categories”), also mehrere Kategorien den selben Effekt haben.

Gertheiss, Tutz (2010) Sparse modeling of categorial explanatory variables. Ann. Appl.
Stat. 4 (4) 2150 - 2180. R-Paket {glmsmurf}

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 77


Generalisiertes LASSO
Fused LASSO allgemeiner aufgeschrieben:

pen(β) = ∥Dβ∥1

z.B. mit
 
  1 −1 0 ... 0
1 −1 0 ... 0
 .. 
 1
 0 −1 0 . . .

0 1 −1 0 . 
 oder D = . . .
 ... ... ... . . .
D=
 .. .. 

.. .. ..  0 1 −1 0 . . .
. . . . .   
 0 1 0 −1 . . .
0 ... ... 1 −1
... ... ... ... ...

Sehr allgemeine Struktur:


D kann Nachbarschaften/Ähnlichkeiten in Raum oder Zeit oder Netzwerk
etc. codieren um räumlich/zeitlich homogene, stückweise konstante
Effekte zu schätzen.

Arnold, Tibshirani (2016). Efficient implementations of the generalized lasso dual path
algorithm. JCGS, 25(1), 1-27. R-paket {genlasso}
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 78
Bayes Inferenz: Ansatz

Alle Parameter θ des Modells werden als Zufallsgrößen mit


(unbekannten) Verteilungen aufgefasst.

Vor der Erhebung der Daten D: a priori-Verteilung p(θ)


Nach der Erhebung: a posteriori-Verteilung p(θ|D)

Satz von Bayes liefert das Werkzeug zur Berechnung von p(θ|D):

p(θ|D) = R P(D|θ)·p(θ) ∝ p(D|θ) · p(θ)


p(D|θ)·p(θ)dθ
↑ ↑
Posteriori ∝ Likelihood · Priori

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 79


Bayes Inferenz: Idee

Gesamte Information aus Daten (und priori-Wissen) liegt in der


Posteriori-Verteilung
Punktschätzer: Posteriori-Modus, -Erwartungswert oder -Median
Interpretation intuitiv: Verteilung für Parameter des Modells bedingt
auf Prioriannahmen und beobachteten Daten.
Spezifikation der Priori-Verteilung kann Ergebnis stark beeinflussen,
falls sie wesentlich informativer ist als die Daten selbst und/oder
stark im Widerspruch zur Likelihood steht (“prior-data-conflict”).

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 80


Bayes-Inferenz für LM: Bekannte Fehlerkovarianz

y |β ∼ Nn (Xβ, Σ); Σ bekannt


β ∼ Np (β 0 , Σ0 )

Posteriori-Verteilung von β ist Normalverteilung mit

−1
E (β|Y) = X′ Σ−1 X + Σ−1
0 (X′ Σ−1 Y + Σ−1
0 β0 )
−1
V (β|Y) = X′ Σ−1 X + Σ−1
0

“Uninformative” Priori:
Σ0 → ∞, also: p(βk ) → N(β0,k , ∞)
=⇒ β|Y ∼ Np (X′ X)−1 X′ Y, X′ Σ−1 X)−1


identisch zu KQ- bzw. ML-Schätzung.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 81


Bayesianische Ridgeregression

Y|β ∼ Nn (Xβ, σ 2 In ); σ 2 bekannt


β ∼ Np (β 0 , τ 2 Ip )

ergibt also eine normalverteilte Posteriori von β mit


−1
σ2

E (β|Y) = X′ X + 2 Ip (X′ Y)
τ
−1
σ2

2 ′
V (β|Y) = σ X X + 2 Ip
τ
σ2
=⇒ E (β|Y) = β̂ Ridge = (X′ X + λIp )−1 X′ y mit λ = τ2 !

Wahl von τ 2 entspricht hier also Wahl des Penaltyparameters λ:

τ 2 → ∞ ⇐⇒ λ → 0 bzw. τ 2 → 0 ⇐⇒ λ → ∞
.
Allgemein gilt: Diffuse Priori ⇐⇒ wenig Penalisierung;
informative Priori ⇐⇒ viel Penalisierung.
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 82
Skalenmischungen von Normalverteilungen
Priori β|τ 2 ∼ N(0, τ 2 ) und Hyperpriori p(τ 2 ) definieren eine
Skalenmischung von Normalverteilungen:
Z ∞
p(β) = p(β|τ 2 )p(τ 2 )dτ 2
0

Einige Spezialfälle:
(
2 1 τ 2 = τ02
p(τ ) = =⇒ β ∼ N(0, τ02 ) =⇒ Bayes. Ridge-Reg.
0 sonst
τ −2 ∼ G (a/2, a/2) =⇒ β ∼ t(df = a)
λ
τ 2 ∼ E (λ2 /2) =⇒ p(β)= exp (−λ|β|) =⇒ Bayesianisches LASSO
2

Darstellung der Prioris als Skalenmischungen hilfreich für MCMC-Inferenz


wegen Konjugiertheit der Normalverteilung mit sich selbst.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 83


Allgemeine Bayesianische Ridgeschätzung

Annahmen

Y | β, τ ∼ N(β0 1 + Xβ, Σ2 I)
p(β0 ) = const
2
Σ ∼ IG (a, b)
2
β|τ ∼ N(0, τ 2 I)
τ2 ∼ IG (aτ 2 , bτ 2 )

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 84


Allgemeine Bayesianische LASSO–Schätzung

Annahmen

Y | β, τ ∼ N(β0 1 + Xβ, Σ2 I)
p(β0 ) = const
Σ2 ∼ IG (a, b)
β|τ12 , . . . , τp2 ∼ N(0, diag(τ12 , . . . , τp2 )
τj |λ ∼ E (λ2 /2)
eventuell auch noch: λ2 ∼ G (aλ , bλ ) =⇒ Normal-Exponential-Gamma-Prior

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 85


Priori-Verteilungen für beta

Links: Ridge-Priori p(β|τ 2 ) = N(0, τ 2 ) durchgezogen, marginale Priori


p(β) = t(df ) gestrichelt.
Rechts: LASSO-Priori p(β|λ) (Laplace-Verteilung) durchgezogen,
marginale Priori p(β) (Normal-Exponential-Gamma-Verteilung) integriert
über λ ∼ G (a, b) gestrichelt.
=⇒ “marginale” Prioris werden für kompliziertere Priori-Hierarchien oft
recht ähnlich
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 86
Regularisierung/Penalisierung vs. Prioris

Penalisierte ML-Inferenz maximiert

lpen (θ|y ) = log(f (y |θ)) − λ pen(θ)

Für y ∼ Nn (X′ β, σ 2 In ) z.B. analog zu:


Minimiere PLS(β) = (y − X′ β)′ (y − X′ β) + λ pen(β)!

Bayes-Posteriori Modus maximiert (log-)posteriori

log(p(θ|y ) = log(f (y |θ)) + log(p(θ))

=⇒
Bestrafungsterm λ pen(θ) entspricht negativer log-Priori − log(p(θ))
=⇒ Prioriverteilung und Bestrafungsterm erfüllen identische Funktion:
Sie definieren, welche Parameterwerte wir (a priori....) für wie
wünschenswert/plausibel oder unplausibel halten.
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 87
Regularisierung/Penalisierung vs. Prioris

Unterschiede:
penalisierte Likelihood ist i.A. kein probabilistisches Modell mehr
und liefert nur Punktschätzung des Maximums der Zielfunktion.
Bayes liefert komplette Posterior-Verteilung.
nicht alle Strafterme ergeben propere Priori-Verteilungen
=⇒ Darstellung als Bayes-Modell mit properer Posteriori nicht
immer möglich
unterschiedliche pragmatische Kriterien:
(Einfache) Differenzierbarkeit und Konvexität der Penalty v.a. für
Likelihood-Inferenz wichtig.
Für Bayes oft wichtiger wie einfach aus der Priori bzw. den full
conditionals gezogen werden kann.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 88


Boosting

Wichtige Technik der regularisierten Regression


Grundidee: durch wiederholtes Anwenden einfacher Modelle (weak
learner, base learner) auf “Fehler”der vorherigen Iteration ergibt
sich insgesamt ein leistungsfähiges Ensemble-Modell (strong
learner).
Neben Random Forests wichtigste und leistungsfähigste
Algorithmenklasse in Machine Learning (außer DL....)
Implementationen für alle möglichen Arten von base learners,
Responses und Features verfügbar, s.u.a. XGboost, LightGBM,
{mboost}, {gbm}, etc.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 89


Boosting: lineare Regression
KQ-Boosting-Algorithmus:
Gegeben sei lineares Modell

y = Xβ + ε
(0)
Definiere Startwert β̂ , Schrittweite v ∈ (0, 1], Iterationszahl mstop .
Setze t = 1.
1 Berechne Residuen
(t−1)
u(t) = y − Xβ̂
und passe KQ–Schätzer an sie an:
−1
b̂(t) = (X′ X) X′ u(t)

2 Update:
(t) (t−1)
β̂ = β̂ + v b̂(t)
Setze t=t+1.
3 Wiederhole 1 und 2 bis t = mstop
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 90
Bemerkungen

Parameter v ≪ 1 (oft v=0.1 oder 0.01) verhindert zu große


Updateschritte
Für t → ∞ konvergiert der Schätzer gegen den klassischen
KQ-Schätzer
=⇒ Regularisierung durch maximale Anzahl Iterationen mstop
Hier: base learner ist KQ-Regression

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 91


Gradient Boosting für allgemeine Zielfunktionen

Für KQ-Zielfunktion L(y, β) = 12 ∥y − ŷ∥22 mit base learner ŷ = Xβ sind


die negativen Residuen gleich der Ableitung nach der Modellschätzung ŷ:

∂  
= − y − ŷ(t) = −ϵ(t)

L(y, β)
∂ŷ β=β̂
(t)

=⇒ KQ-Boosting-Algorithmus ist Spezialfall einer allgemeineren Idee


um beliebige Zielfunktionen zu minimieren:

Schiebe ŷ in jedem Schritt entgegen der Gradientenrichtung ∂ŷ L(y, β):


ŷ(t+1) = ŷ(t) − v ∂ŷ L(y, β)

(t)
β=β̂

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 92


Gradient Boosting für allgemeinere Zielfunktionen


Definiere allgemein “Pseudo-Residuen” r(t) = − L(y, β) .

∂ŷ (t)
β=β̂
Idee:

Schiebe ŷ in jedem Schritt entgegen der Gradientenrichtung ∂ŷ L(y, β),
also ŷ(t+1) = ŷ(t) + v r(t)

Problem:

Die Updaterichtung r = ∂ŷ L(y, β) ist üblicherweise nicht durch den base
learner (hier: Xb) darstellbar.

Lösung:
Schiebe ŷ in “ähnlichste Richtung”, die der base learner erreichen kann:
2
b(t) = arg min r(t) − Xb

b 2

=⇒ erlaubt Anpassung beliebiger(!) Modelle mit differenzierbarer


Zielfunktion durch Iteration einfacher KQ-Fits.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 93


Komponentenweises Boosting
Boosting mit eingebauter Variablenselektion
Idee:
Definiere statt globalem Xb einen base learner Xj bj für jede
Kovariable xj ; j = 1, . . . , k
Aktualisiere in jeder Iteration nur einen dieser base learner:
diejenige Komponente, welche die Zielfunktion am meisten reduziert
=⇒ separate KQ-Schätzungen für jeden base learner in jeder
Iteration
Eigenschaften:
Anwendung im hochdimensionalen Fall möglich, skaliert gut.
Variablenselektion & Shrinkage: nur base learner die (oft)
ausgewählt werden haben (große) Effekte
auch gruppierte Selektion einfach möglich durch Definition
entsprechender Baselearner: Spline-Basen, Faktorvariablen, etc.
Zusätzliche Regularisierung durch “early stopping”
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 94
Componenwise Gradient Boosting
Für lineares Modell y = Xβ + ε.
(0)
Definiere Startwert β̂ j und base learner {Xj bj : j = 1, . . . , k};
Schrittweite v ∈ (0, 1], Iterationszahl mstop . Setze t = 1.
1 Berechne Residuen
(t−1)
u(t) = y − Xβ̂
und den KQ-Schätzer für jeden base learner:
(t) −1 ′ (t)
b̂j = X′j Xj Xj u ; j = 1, . . . , k
2 Finde den base learner mit der besten Anpassung:
2
(t)
j ∗ = arg min u(t) − Xj b̂j

j=1,...,k 2

(t) (t−1) (t)


Update: β̂j ∗ = β̂j ∗ + v b̂j ∗
(t) (t−1)
β̂j = β̂j , j ̸= j ∗
Setze t=t+1.
4 Wiederhole 1-3 bis t = mstop
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 95
Grafische Darstellung
Analog zum LASSO können die Verläufe der Koeffizienten β (t) über die
Iterationen dargestellt werden:

Quelle: Fahrmeir et al. (2013), Abb. 4.17

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 96


Bestimmung des Tuning–Parameters mstop

über (approximatives) AIC:


führt oft zu schwächerer Regularisierung, kein Resampling nötig
über Resampling (Kreuzvalidierung, Bootstrap)
andere Stoppkriterien: Anzahl inkludierter Kovariablen, Rechenzeit,
etc.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 97


Grafische Darstellung
Verlauf von AIC oder Verlustfunktion über die Iterationen:

CV-MSE Replikationen in grau, Mittelwert in schwarz.


Optimaler Wert ca. mstop = 80

Quelle: Fahrmeir et al. (2013), Abb. 4.18

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 98


Konfidenzintervalle

Bestimmung mit Bootstrap:


1 Ziehe B Bootstrap–Stichprobe mit Zurücklegen aus den Daten
2 Schätze aus Bootstrap–Stichprobe mit Bootstrap oder
Kreuzvalidierung die Parameter incl. Stoppkriterium
3 Verwende empirische Quantile als Grenzen der (punktweisen)
Konfidenzintervalle

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 99


Verallgemeinerung und Ausblick

Bei jedem Schritt im Boosting kann auch allgemein zwischen


verschiedenen Arten von base-learner gewählt werden, z.B.
Indikatorfunktionen von Kovariablen I (xk > c) (“tree stumps”)
Polynomiale Terme oder Splinebasen
Komplexere Submodelle wie Regressionsbäume oder zufällige Effekte
Es können auch andere Verlustfunktionen verwendet werden, wie z.B.
gewichtete KQ, Summe der absoluten Abstände oder (negative)
Log-Likelihoods.

GRM WS 22/23 Scheipl/Küchenhoff (LMU) 100

You might also like