Professional Documents
Culture Documents
WS 22/23
WS 22/23
Termine und Informationen
Homepage: https://moodle.lmu.de/course/view.php?id=24352
Vorlesung: Mo 12-14 & Mi 10 - 12; M018
Fabian Scheipl
Übung: Mo 14-16 & 16-18; S002 (Schelling 3)
Martje Rave & Cornelia Gruber
Tutorium: Di 10-12 A214 & Do 14-16 B006
Nurzhan Sapargali & und David Prokosch
Simon Wood:
Generalized Additive Models: An Introduction with R
Chapman & Hall 2017
Homepage: https://moodle.lmu.de/course/view.php?id=24352
Vorlesung: Mo 12-14 & Mi 10 - 12; M018
Fabian Scheipl
Übung: Mo 14-16 & 16-18; S002 (Schelling 3)
Martje Rave & Cornelia Gruber
Tutorium: Di 10-12 A214 & Do 14-16 B006
Nurzhan Sapargali & und David Prokosch
Simon Wood:
Generalized Additive Models: An Introduction with R
Chapman & Hall 2017
Zielgröße:
Anzahl der Fehler bei einem Lesetest
Potentielle Einflussgrößen:
Geschlecht, Jahrgang, Leseförderzeit, sonstiges lesen (1= fast nie,.. 5=
oft), Gameboy (1= fast nie ,.. 5= oft), Jahrgang.
E (Y ) = β0 +β1 ·GE +β2 ·JG +β3 ·LZ +β4 ·WOL+β5 ·WOG +β6 ·WOTV
Zielgröße: Y
Einflussgrößen : x1 , x2 ....
Modellgleichung
E (Y ) = g (β0 + β1 x1 + β2 x2 + . . .)
E (Y ) = f1 (x1 ) + f2 (x2 )
Die Funktionen fk sind stetig differenzierbare (glatte) Funktionen
24 % 24 % 24 %
18 % 18 % 18 %
fmarginal x
fmarginal x
fmarginal x
12 % 12 % 12 %
6% 6% 6%
0% | ||||||||||||||||
|||||||||||
|||||||||||||||||||||||||||||||||
|||||
|||||||||||||||||
||||||||||
||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||||||||||||||||||||||| || | 0% ||| |||||||||||||||
||||||||||||||||||||
|||||||||||
||||||||||||||||
||||||||||
||||||||||||
|||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||||||||||| ||||| | | ||| | 0% | | |||||||||||||
|||||||||||||
||||||||||||||||||||||||||||||||||||||||
|||||
|||
||||||||||||||||||||||||||||||||||
||||||||||||||||||||||||||||||| ||||||||||||||||||||| || |
30 % 30 % 30 %
30 % 30 % 30 %
24 % 24 % 24 %
18 % 18 % 18 %
fmarginal x
fmarginal x
fmarginal x
12 % 12 % 12 %
6% 6% 6%
0% | | | | |||||||||||
|||||||||||||||
|||||||||||
||||||
|||||||||
|||||||||||||||||||||
|||||||||
||||||||
|||||||||||||||||||
|||||||||||||||||||||||||||||||||||||||
||||||||||||||||
||||||||||||||||||| | | | 0% ||||||||||||||||||||
|||||||||
|||||||||||||||||||||||||||||||||
|||||||||||||||||||||||||||
||||||||||||||||||||||||||||||||||
||||||||||||||||||||| | || |||||| ||| |||| | | 0% | | | ||||||||||||||||||||||
|||
|||||||||||
||||||||||||||||||||||
||||||
|||
|||||||||||||
|||||
|||
|||||
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| |||||||| ||||
Qτ (Y ) = x ′ β
E (Y |x) = x ′β
V (Y |x) = x ′γ
S(Y |X ) = x ′δ
exp(x′i β r )
P(Yi = r ) = k
r = 1, . . . , k
exp(x′i β s )
P
s=1
Machine Learning:
Regression: Teil von supervised learning
Y : output, target
x: input, feature
Prinzip:
“Lerne funktionalen Zusammenhang zwischen x und Y aus Daten.”
=⇒ empirical risk minimization: minimiere Abstände zw. f (xi ) und yi
Fokus meist auf Vorhersage von Y basierend auf x.
Y binär oder kategorial: “classification”nicht “regression”
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 36
1. Das multiple lineare Regressionsmodell
Y = Xβ + ε (1.1)
mit
Y1 1 x11 ··· x1p β0 ε1
Y = ... X = .. .. .. .. β = .. ε = ..
. . . . . .
Yn 1 xn1 ··· xnp βp εn
E (εi ) = 0
E (ε) = 0 (1.2)
2
V (εi ) = σ (1.3)
{εi | i = 1, . . . , n} unabh. (1.4)
2
Aus (1.3), (1.4) folgt: V (ε) = σ I
εi ∼ N(0, σ 2 ) und (1.4)
ε ∼ N(0, σ 2 I) (1.5)
E (Y |x) = β0 + β1 x1 + β2 x2 + . . . βp xp
| {z }
x′ β
KQ-Schätzer.
E (β̂) = β (1.9)
H
=⇒ w ∼0 χ2 (a) (1.14)
Die Likelihood des Modells (1.1) - (1.5) für die Daten (yi , xi ) ist:
" n #
X ε2
−n/2 −n i
L(Y, X; β, σ) = (2π) · σ · exp −
2σ 2
i=1
′
mit ϵi = yi − xi β
Wir betrachten also den ML - Schätzer mit und ohne die Restriktion
Aβ = c:
!−n !−n/2
ˆ
σ̂ ˆε̂′ ˆε̂ H0
τLQ = = ∼ χ2 (a) (1.16)
σ̂ ε̂′ ε̂
rg (X) = p + 1 =: p ′ . (1.17)
Dann gilt:
Interpretation:
SST : Gesamt-Streuung, (korrigierte) Gesamt-Quadratsumme, “Total”
SSE : Fehler-Quadratsumme, “Error”
SSM : Modell-Quadratsumme, “Model”
Bestimmtheitsmaß
r 2 = SSM/SST
Ykl = µK + τk + εkl , τK = 0;
µK
τ1
Y = (e Z1 (C ) . . . ZK −1 (C )) +ε (1.20)
..
.
τK −1
1 1 0
1 1 0
Design-Matrix X für 3 Gruppen
1 0 1
mit je 2 Beobachtungen pro X=
1 0 1
Gruppe:
1 0 0
1 0 0
Die Wirkung des Medikaments ist bei Männern anders als bei Frauen
Der Geschlechtsunterschied in der Lebenszufriedenheit ist abhängig vom
Alter
1 1 0 x1
1 1 0 x2
α3
1 0 1 x3 α1
X = β =
1 0 1 x4
α2
1 0 0 x5 β
1 0 0 x6
Interpretation:
In den drei Gruppen drei parallele Geraden und Steigung β3
λ → 0 =⇒ t → ∞ =⇒ β̂ PLS → β̂ KQ
λ → ∞ =⇒ t → 0 =⇒ β̂ PLS → 0
6
4
4
^ ^
2
2
0
0
1 1
−2
−2
−4
−4
−4 −2 0 2 4 6 −4 −2 0 2 4 6
1
β̂Ridge,k = β̂OLS,k
1+λ
=⇒ Koeffizienten werden proportional “geschrumpft”.
Der Ridgeschätzer ist also verzerrt:
E (β̂ Ridge ) ̸= β
definiert.
p
X
β LASSO := arg min 12 (y − X′ β)′ (y − X′ β) + λ |βk | (2.5)
β
k=1
Tibshirani (1996). Regression shrinkage and selection via the lasso. Journal of the
Royal Statistical Society: Series B (Methodological), 58(1), 267-288.
−X′ Xβ + X′ y + λsign(β) = 0
2 2
6
6
4
4
^
^
2
2
0
1
0
1
−2
−2
−4
−4
−6
−6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
2 2
6
6
4
4
^
^
2
2
0
1
0
1
−2
−2
−4
−4
−6
−6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
LASSO-penalty:
Pp Ridge-penalty:
Pp
pen(β) := k=1 |βk | pen(β) := k=1 βk2
Abb.: James et al. (2013) An Introduction to Statistical Learning, Figs. 6.4, 6.6
CV (λ)
Abb: Nguyen et al. (2019). Hybrid multivariate pattern analysis combined with
extreme learning machine for Alzheimer’s dementia diagnosis using multi-measure
rs-fMRI spatial patterns. PLOS ONE 14.e0212582
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 73
“One-sigma rule”
Y = β0 + x1′ β 1 + ...xG′ β G + ϵ
G q
X
pen(β) = β ′g β g
g =1
Dies führt dazu, dass einige Differenzen auf 0 geschätzt werden (“fused
categories”), also mehrere Kategorien den selben Effekt haben.
Gertheiss, Tutz (2010) Sparse modeling of categorial explanatory variables. Ann. Appl.
Stat. 4 (4) 2150 - 2180. R-Paket {glmsmurf}
pen(β) = ∥Dβ∥1
z.B. mit
1 −1 0 ... 0
1 −1 0 ... 0
..
1
0 −1 0 . . .
0 1 −1 0 .
oder D = . . .
... ... ... . . .
D=
.. ..
.. .. .. 0 1 −1 0 . . .
. . . . .
0 1 0 −1 . . .
0 ... ... 1 −1
... ... ... ... ...
Arnold, Tibshirani (2016). Efficient implementations of the generalized lasso dual path
algorithm. JCGS, 25(1), 1-27. R-paket {genlasso}
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 78
Bayes Inferenz: Ansatz
Satz von Bayes liefert das Werkzeug zur Berechnung von p(θ|D):
−1
E (β|Y) = X′ Σ−1 X + Σ−1
0 (X′ Σ−1 Y + Σ−1
0 β0 )
−1
V (β|Y) = X′ Σ−1 X + Σ−1
0
“Uninformative” Priori:
Σ0 → ∞, also: p(βk ) → N(β0,k , ∞)
=⇒ β|Y ∼ Np (X′ X)−1 X′ Y, X′ Σ−1 X)−1
τ 2 → ∞ ⇐⇒ λ → 0 bzw. τ 2 → 0 ⇐⇒ λ → ∞
.
Allgemein gilt: Diffuse Priori ⇐⇒ wenig Penalisierung;
informative Priori ⇐⇒ viel Penalisierung.
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 82
Skalenmischungen von Normalverteilungen
Priori β|τ 2 ∼ N(0, τ 2 ) und Hyperpriori p(τ 2 ) definieren eine
Skalenmischung von Normalverteilungen:
Z ∞
p(β) = p(β|τ 2 )p(τ 2 )dτ 2
0
Einige Spezialfälle:
(
2 1 τ 2 = τ02
p(τ ) = =⇒ β ∼ N(0, τ02 ) =⇒ Bayes. Ridge-Reg.
0 sonst
τ −2 ∼ G (a/2, a/2) =⇒ β ∼ t(df = a)
λ
τ 2 ∼ E (λ2 /2) =⇒ p(β)= exp (−λ|β|) =⇒ Bayesianisches LASSO
2
Annahmen
Y | β, τ ∼ N(β0 1 + Xβ, Σ2 I)
p(β0 ) = const
2
Σ ∼ IG (a, b)
2
β|τ ∼ N(0, τ 2 I)
τ2 ∼ IG (aτ 2 , bτ 2 )
Annahmen
Y | β, τ ∼ N(β0 1 + Xβ, Σ2 I)
p(β0 ) = const
Σ2 ∼ IG (a, b)
β|τ12 , . . . , τp2 ∼ N(0, diag(τ12 , . . . , τp2 )
τj |λ ∼ E (λ2 /2)
eventuell auch noch: λ2 ∼ G (aλ , bλ ) =⇒ Normal-Exponential-Gamma-Prior
=⇒
Bestrafungsterm λ pen(θ) entspricht negativer log-Priori − log(p(θ))
=⇒ Prioriverteilung und Bestrafungsterm erfüllen identische Funktion:
Sie definieren, welche Parameterwerte wir (a priori....) für wie
wünschenswert/plausibel oder unplausibel halten.
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 87
Regularisierung/Penalisierung vs. Prioris
Unterschiede:
penalisierte Likelihood ist i.A. kein probabilistisches Modell mehr
und liefert nur Punktschätzung des Maximums der Zielfunktion.
Bayes liefert komplette Posterior-Verteilung.
nicht alle Strafterme ergeben propere Priori-Verteilungen
=⇒ Darstellung als Bayes-Modell mit properer Posteriori nicht
immer möglich
unterschiedliche pragmatische Kriterien:
(Einfache) Differenzierbarkeit und Konvexität der Penalty v.a. für
Likelihood-Inferenz wichtig.
Für Bayes oft wichtiger wie einfach aus der Priori bzw. den full
conditionals gezogen werden kann.
y = Xβ + ε
(0)
Definiere Startwert β̂ , Schrittweite v ∈ (0, 1], Iterationszahl mstop .
Setze t = 1.
1 Berechne Residuen
(t−1)
u(t) = y − Xβ̂
und passe KQ–Schätzer an sie an:
−1
b̂(t) = (X′ X) X′ u(t)
2 Update:
(t) (t−1)
β̂ = β̂ + v b̂(t)
Setze t=t+1.
3 Wiederhole 1 und 2 bis t = mstop
GRM WS 22/23 Scheipl/Küchenhoff (LMU) 90
Bemerkungen
Problem:
∂
Die Updaterichtung r = ∂ŷ L(y, β) ist üblicherweise nicht durch den base
learner (hier: Xb) darstellbar.
Lösung:
Schiebe ŷ in “ähnlichste Richtung”, die der base learner erreichen kann:
2
b(t) = arg min
r(t) − Xb
b 2