You are on page 1of 87

Ampliar ML GLM Propietats Ajust pred.

Plantejament i Validació

T1 - INTRODUCCIÓ ALS MODELS LINEALS

GENERALITZATS

Grau d'Estadística UB-UPC

Curs 2020-2021
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

MLGz també els anomenarem glm I


1 Necessitat d'ampliar els Models lineals
Transformacions en models lineals
Models normals (no lineals)
Altres exemples que no es poden resoldre amb models lineals
Models amb variable discreta
Dels models lineals als models lineals generalitzats

2 Models lineals generalitzats


Denició de MLGz
Algunes famílies dels MLGz
Exemples de famílies de MLGz

3 Propietats de les famílies dels MLGz


Funció de variància
Funció link
θ y −b θ
Les tres parts de `i = i Φ i + c (y , φ)


La funció de variància V (µ) determina la família

4 Ajust del predictor lineal del model


Estimació m.v. dels paràmetres β
Quasiversemblança

5 Plantejament del model


Plantejament
Eina gràca per analitzar la validesa del model
Exemples
Necessitat d'ampliar els Models lineals
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Necessitat d'ampliar els Models lineals

En els models lineals són models normals amb l'esperança com a

funció lineal de les variables predictores, per tant suposem que:

les dades són independents

la distribució és normal amb:

esperança: X β , especicada en forma matricial


variància: constant
Es poden resumir de la forma Y |X = Xβ +  on  ∈ N (0, σ)
independents i σ no depèn de les X .

Amb dades experimentals el podem ajustar per mínims quadrats

(lm) de fet coincideix amb màxima versemblança


Exemple 1, model lineal

Variable resposta contínua que compleix la tendència central i

l'homoscedasticitat

És una recta de regressió, sense problemes


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Transformacions I

En algunes ocasions, si es pot, s'apliquen transformacions, és a dir

s'utilitza com a variable resposta una funció de la que volíem

estudiar, l'objectiu pot ser:

adaptar l'esperança per que quedi lineal

canviar la distribució de les dades així la variància de la

variable original ja no és constant

normalitzar la distribució de les dades experimentals


Exemple 2, transformació

Variable resposta contínua que no compleix les condicions, però es

pot linealitzar.
No compleix ni la tendència central ni l'homoscedasticitat
Exemple 2 transformat

L'exemple transformant la y pel log (y )


Amb log (y ) és una recta de regressió, compleix les condicions
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Models normals

En els models normals suposem que

les dades són independents

la distribució és normal amb:

la esperança que hem especicat


variància constant
Es poden resumir de la forma

Y |X = f (X ) + e

on e ∈ N (0, σ) independents i σ no depèn de les X .

Si tenim dades experimentals el podem ajustar per mínims quadrats

(nls) de fet coincideix amb màxima versemblança


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 3: model normal però no lineal. I

No es pot linealitzar en un model lineal, però és un model no lineal

No és una recta de regressió, no compleix la tendència central


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 3: model normal però no lineal. II


L'exemple transformant la y pel log (y )
Amb log (y ) no és una recta de regressió, no compleix

l'homoscedasticitat
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 3: model normal però no lineal. III


L'exemple com a model no lineal,

nls(y3∼exp(a+b*x),start=list(a=2,b=0.5))
Compleix les condicions, tendència central i homoscedasticitat
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 4: no es resol amb Models Lineals I

Variable resposta contínua que no compleix homoscedasticitat


Podria ser una recta de regressió però no es compleix la homoscedasticitat
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 4: no es resol amb Models Lineals II


Si transformem l'exemple anterior per obtenir homoscedasticitat
Ara el problema no és la variància, si no els valors predits: la recta no descriu la
concavitat de les dades ←→ els residus no són aleatòriament al voltant de 0
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Models de variable discreta I

Casos en que la variable resposta no és contínua

Y Bernoulli

Y Binomial, en alguns casos pot funcionar la transformació


q
y
arcsin N
, o similars.

Y Poisson, en alguns casos pot funcionar la transformació y,

o similars.
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 5: resposta Poisson I

Variable resposta Poisson


Podria ser una recta de regressió però no es compleix la homoscedasticitat
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 5: resposta Poisson II



Si transformem, y , l'exemple anterior per obtenir
homoscedasticitat. Ara el problema no és la variància, si no els valors
predits, la recta no descriu la concavitat de les dades, i més clar, els residus no
són aleatòriament al voltant de 0
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Resum models lineals (xes) I

Components dels models lineals

En un model lineal tenim la variable resposta Y = (Y1 , . . . , YN )t i


tenim les variables explicatives (X1 , . . . , XK )i = (Xi ,1 , . . . , Xi ,K ) que
t
donen X i el paràmetres β = (β1 , . . . , βK ) .

Els ML tenen les següents components:


Aleatòria: Yi ∼ N (µi , σ) independents. També s'escriu
Yi ∼ µi + ei amb ei ∼ N (0, σ) independents. ∀i el mateix

valor de σ .

Esperança: E [Yi |Xi ] = Xi · β , que dona E [Y |X ] =X ·β


Resumint queda: Y = Xβ + e amb e ∼ N (0, σ · IK )
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Resum models lineals (xes) II

Tipus de models lineals

Regressió lineal, simple o múltiple, quan les variables

explicatives són covariables.

Anàlisi de la variància, quan les variables explicatives són

factors.

Anàlisi de la covariància, quan les variables explicatives són

covariables i factors.

En aquest curs no tenim en compte els models mixtes.


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Resum models lineals (xes) III

Limitacions dels models lineals

Només admet la distribució normal.

La variància ha de ser constant.

L'esperança ha de ser X β ,

lineal respecte les variables explicatives .


Introducció als Models lineals Generalitzats
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Denició dels models lineals generalitzats I

Denició dels models lineals generalitzats:


Com en els models lineal també tenim Y = (Y1 , . . . , YN )t ,
X = (Xi ,j ) i β = (β1 , . . . , βK )t .
Per poder ser MLGz s'ha de tenir les següents components:
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Denició dels models lineals generalitzats II

Component Determinista, esperança de Y = (Y ) donada per: i

Predictor lineal: ηi = (Xi ,1 , . . . , Xi ,K ) β , en global η= X β.


Com en els ML hi ha una component lineal, però ara no cal que
sigui la µ.
Funció d'enllaç (link): és la funció (bijectiva) que relaciona el

valor esperat µi amb el predictor lineal ηi , g (µi ) = ηi és a dir

g (µ) = η = X β. En conseqüència tindrem que


µi = g −1 (ηi ) i globalment quedarà
µ = g −1 (η) = g −1 (X β).
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Denició dels models lineals generalitzats III

Component Aleatòria, per cada Y : i

La funció de densitat és fYi (y ; θi , φ) = e


θi y −b (θi )
a (φ) c (y ,φ)
+
.

Les Yi han de ser independents.

θi és el paràmetre canònic i és funció de µi , θi = θ (µi ).



Anomenarem Φ = a (φ) paràmetre de dispersió i a Φ
s'anomena paràmetre de escala, per totes les Yi tenen el
mateix valor.

Nota: La f Yi ( y ) quan la distribució és la normal es pot escriure

d'aquesta forma.
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Denició dels models lineals generalitzats IV


Comentaris sobre els MLGz's
Contenen els models lineals.

La matriu X del predictor lineal η = X β, es construeix igual

que en els models lineals.

Admeten altres distribucions. Escollirem la família (distribució).


La variància no cal que sigui constant, només ho serà per la

família normal. Com canvia la variància en funció de

l'esperança depèn de la família, i per cada família és diferent.

La funció link l'escollim en funció de com és l'esperança del

model que volem descriure.

Estimarem els paràmetres per màxima versemblança, amb les

propietats que això comporta.


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Algunes famílies dels MLGz: log (fYi (y )) = θi ya−(φ)


b(θi ) + c (y , φ) I

Normal, família gaussiana:

y −µi
 2
1

Funció de densitat: fYi (y ; µi , σ) = √


1 e− 2 σ
2πσ 2
`i = log fYi (y ; µi , σ) = − 2yσ2 + µσi2y − 2σi 2 − 12
2 µ2 2

log 2πσ =
µ2
= µi y σ−2 i /2 − 2yσ2 − 12 log 2πσ 2
2 

Agafant: Φ= a (φ) = φ = σ2 i θi = µi
θi2
− 2ay(φ) − 12 log (2πφ) ⇒
θi y − 2 2
queda `i = a(φ)

θi2 2
b (θi ) = 2 ,Φ= a (φ) = φ i c (y , φ) = − y
2 φ − 1
2
log (2 πφ)

θi y − b (θi )
`i = + c (y , φ)
a (φ)
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Algunes famílies dels MLGz: log (fYi (y )) = θi ya−(φ)


b(θi ) + c (y , φ) II

Poisson:

λyi
fYi (y ; λi ) = e −λi y!

`i = log fYi (y ; λi ) = y log λi − λi − log y !

Agafant: φ = Φ = a (φ) = 1 i θi = log λi


queda `i = y θi −1 e − log y ! ⇒
θi

b (θi ) = e θi i c (y , φ) = − log y ! ⇒
θi y − b (θi )
`i = + c (y , φ)
a (φ)
Exercici: Altres famílies en que es pot escriure
θi y −b (θi )
`i = a(φ)
+ c (y , φ). Comproveu la taula següent:

Família f Yi ( y ) θi φ Φ b (θi )
 y −µ 2
1 i θi2
Normal √ 1

2πσ 2e
−2 σ µi σ2 φ 2

y
Poisson e −λi yi! θi
λ
log λi 1 1 e

Binomial
!
N y pi
pi 1 − piN −y

log 1− pi log 1 + e θi

1 1 N
N x y

Gamma βα
Γ(α)
y α− e −βi y
1
θi = − βφi α φ −1 − log (−θi )
λ(y −νi )
2


−1

φ−1
q
λ y νi2
Inv.Gaussiana 2π y 3 e
2

2νi2
λ − −2θi
Propietats de les famílies dels GLM
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Propietats dels MLGz I

Esperança d'un MLGz µi = E [Yi | (θi , φ)] = b 0 (θi )


(y ; θi , φ) dy = 1 respecte θi tenim:
R
Derivant fYi
R ∂ θi y −b(θi ) +c (y ,φ)

(y ; θi , φ) dy = ∂θ dy = 0 ⇒
R
fYi e Φ
∂θi i
−b 0 (θi )
y
d
R
fYi (y ; θi , φ) y = 0 ⇒
h Φ0
b0 (θi )
0
i
y −b (θi )
E
Φ | (θ i , φ) = µi −bΦ (θi ) = 0 ⇒ µi =

Amb la funció inversa de b obtenim:


0 θi = b0−1 (µi ) = q (µi ),
l'anomenem q per simplicar.
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Propietats dels MLGz II

Var (Yi | (θi , φ)) = Φb 00 (θi )


fYi (y ; θi , φ) dy = 1 respecte θi tenim:
R
Derivant dues vegades
R ∂ θi y −b(θi ) +c (y ,φ)
fYi (y ; θi , φ) dy = dy = 0
2 2

R
2 e2
Φ
∂θi ∂θi
2
 
fYi (y ; θi , φ) dy = 0
R −b00 (θi )  0

Φ + y −bΦ(θi )
 2 
−b 00 (θi ) 0

y −b (θi )
E
Φ + Φ | (θi , φ) =
−b 00 (θi ) Var Yi
( |(θi ,φ))
= Φ + Φ2
=0⇒

Var (Yi | (θi , φ)) = Φb00 (θi )

funció de variància de la família és V (µi ) = b00 b0−1 (µi )



La .
Propietats d'algunes famílies de MLGz.

Comproveu la taula següent:

Família b (θi ) µi = b 0 (θi ) θi = q (µi ) b


00
(θi ) V (µi )
θ2 i
Normal
2 θi µi 1 1
θi θi θi
Poisson e e log µi e µi
µi
µi 1 − Ni
 
µ 
Binomial i Ne θi log N −µi Ne θi 2
N log +e
 
1+e θi (1+e θi )
θ
N x 1 
pi

log 1− pi Npi (1 − pi )
1 1 1
Gamma − log (−θi ) − θi − µi θi2
µ2i
Inversa √
− −2θi √ 1 − 2µ1 2 √1 µ3i
Gaussiana −2θi i −8θi3

En totes les fam ı́lies : Var (Yi | (θi , φ)) = ΦV (µi )


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Funció link g (µ ) = η
i i

Parametritzacions: D'entrada cada família té la seva.

Per a que sigui MLGz utilitzem la parametrització


y θi −b (θi )
(θi , φ) → `i = a(φ)
+ c (y , φ)
Per les propietats dels MLGz podem parametritzar per

l'esperança µi = b0 (θi ) ↔ θi = b0−1 (µi )


i el paràmetre de dispersió Φ = a (φ), així tindrem

`i = yq(µi )−Φb(q(µi )) + c (y , φ)
Necessitem parametritzar pel predictor lineal ηi = Xi β
en lloc de lesµi , això ho fem a partir la funció d'enllaç

g (µi ) = ηi ↔ g
−1 (η ) = µ −→
i i

−1 (η −1 (η
 
y ·q g i ) −b q g i )
`i = + c (y , φ)
Φ
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Link canònic I

Anomenarem canònic als link's que, amb s = ctnt però podeu pensar

s = 1, compleixen:

−1 (η ) = θi = s ηi ↔ g −1 (ηi ) = µi = b0 (s ηi ) →

q g i

ηi = s −1 q (µi ) ⇒ g (µi ) = s −1 q (µi )

Amb el que la funció de densitat se simplica molt

y (s η)i − b (s ηi ) yXi (s β) − b (Xi (s β))


`i = + c (y , φ) = + c (y , φ)
Φ Φ

Nota: En principi s =1 però si cal podem escollir el signe i el valor.


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Link canònic II

Avantatges del link canònic:

No sempre podem escollir el link canònic, ja que el link l'escollim en

funció dels valors esperats del model, però en el cas que el puguem

utilitzar:

X tY serà un estadístic sucient.

L'estimador màxim versemblant β̂ serà més fàcil de calcular.

Facilitarà la interpretació del model


Link canònic de les famílies exemple. Comproveu la taula.

Link
Família b (θi ) µi = b 0 (θi ) θi = q (µi )
can ònic

θi2
Normal
2 θi µi µi

Poisson e i
θ e i
θ log µi log µi

Binomial
   
log N µ−µi log N −µµi
θi
N log 1 + e θi Ne i i

1+e θi p
 
N x pi i
log 1−pi log 1−p
i

1
Gamma − log (−θi ) − θ1i 1
µi µ−
i
Inversa √
√1 − 21 µ1 µ− 2
Gaussiana
− −2θi −2θi 2
i
i
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Resum: Les tres parts de ` = i


θi y −b (θi )
Φ + c (y , φ) I

1) θ y − b (θ ) Part central de la família exponencial


i i

És on intervenen:

el paràmetre µi = q (θi ) = b0−1 (θi )


la funció link ηi = g (µi )
el predictor lineal ηi = xi β ,
Només és necessita aquesta part per estimar les β 's
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Resum: Les tres parts de ` = i


θi y −b (θi )
Φ + c (y , φ) II

2) Φ = a (φ) Paràmetre de dispersió


És important perquè Var (Yi |µi ) = ΦV (µ).
No es necessita ni afecta a les estimacions de β.
Afectarà a la variància dels paràmetres estimats.

Segons la família pot ser conegut o desconegut, en aquest cas

l'estimarem quan ja tinguem β̂ .

θi y −b (θi )
3) c (y , φ) Constant normalitzadora de e Φ

No depèn de les θ→ ni de µ ni de η = xβ
No afecta a la inferència. Només es útil per poder calcular el

logLik , i els seus derivats com AIC , BIC , ...


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

La funció de variància V (µ) determina la família

Si tenim V (µi ), algunes vegades ho tenim de les dades,


dµi i b (θi ) = V µ(µi i ) dµi amb el que,
R 1
aleshores θi = V (µ
R
i)
si existeix, queda determinada la família.

Per denició tenim que: µi = b0 (θi ), θi = q (µi ) i

V (µi ) = b00 (θi ) = b00 (q (µi )) ⇒


b
0 (q (µ
)) = µi ⇒ b00 (q (µi )) q 0 (µi ) = 1 ⇒
i
0
q (µi ) = 00
1 1
= V (µ
b (q (µi )) i)

V (µ ) dµi
1
per tant θi = q (µi ) = 0
(µi ) dµ =
R R
q
i

0 µi
b (q (µi )) = B (µi ) ⇒ b (q (µ
i )) q 0 (µ
)=
i
0
i ) = V (µ ) ⇒
B (µ
i
per tant b (θi ) = B (µi ) = B (µi ) dµi =
V (µ ) dµi
0 µ
R R i

i
Exemples: Obtenir θi i b (θi ) a partir de V (µi )
Comproveu la taula:

θi (µi ) = B (µi ) =
V (µi ) R dµi µi (θi ) R µi dµi b (θi ) Família
V (µi ) V (µi )
R µi dµi
R dµi = θi2
= 1
1 1
θi µ2i 2 Normal
µi
R µi dµi 2
R dµi = =
µi θi µi θi
µi e e Poisson
= log µi µi
R dµi R µi dµi
µ2
= = µ2
µ2i i
−1
− θ1i i − log (−θi ) Gamma

µi log µi
R d µi
=
R µi dµi
= √
3
µi
µ3
i √ 1 µ3 i − −2θi Inversa
− 2µ1 2 −2θi −1 Gaussiana
dµi
i µi
µ2 Ne θi
µi dµµi  Binomial
Ni
R
=
Ni
R
i =
µ 
i 1− + e θi

i 1− N log
  
µi − µ
N 1+e θi
µ 1
µi N x

log N −µi −N log (N − x )
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Ajust del predictor lineal del model


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Ajust del model

En els MLGz tenim:

Y , variable aleatòria resposta, en coneixem la família.

Variables explicatives que poden ser contínues i/o factors, amb

elles es construeix la matriu X de η = X β. x és la la de X

que correspondria a uns valors concrets de les var. explicatives.

La funció link g (µi ) = ηi = xi β

Estimarem els paràmetres del model βiΦ en dos passos:

1 β̂ , estimació per màxima versemblança de β.


Un fet important serà que per estimar β no es necessita Φ.
2 Φ̂, estimació pel mètode dels moments de Φ, quan ja

coneixem β̂ . (al Tema 2)


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Estimació m.v. dels paràmetres β I

La funció de log-versemblança del MLGz és:


PN  θi yi −b(θi ) 
`= i =1 Φ + c (yi , φ) =
PN
i =1 (θi yi −b (θi )) + N
P
= Φ i =1
c (yi , φ)

onθi = q (µi ) = b0−1 (µi ), µi = g −1 (ηi ) = g −1 (xi β)


=⇒ θi = θ(xi β)
g (µ) és la funció link i b (θ) la de la denició de MLGz
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Estimació m.v. dels paràmetres β II


∂`
Per tant les equacions de m.v.
∂βj =0 queden:

PN  
∂` i =1
(yi − b0 (θ(xi β))) · θ0 (xi β) xi ,j
= =0⇔
∂βj Φ
N  
X
0
 0
yi −b (θ(xi β)) · θ (xi β) xi ,j = 0 ⇒
i =1

β̂ no depèn del paràmetre de dispersió Φ.


Resoldrem numèricament les equacions amb un mètode
iteratiu de mínims quadrats amb pesos.
Aquest mètode, de la família de distribucions només necessita
la funció de variància.
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Esquema del mètode iteratiu per calcular β̂

β̂ (0) −−→ β̂ (1) −−→ β̂ (2) · · · −−→ β̂ (r −1) −−→ β̂ (r ) · · · −−−→ β̂


pas pas pas pas

1 2 r −1 r r →∞

β̂ (0) = (X t · X ) (X t · g (y ))
−1
Inici: Comencem amb

Pas r: β̂ (r −1) η̂ (r −1) = X β̂ (r −1) , µ̂(r −1) = g −1 η̂ (r −1)



De tenim:
!
(r −1)
Calculem: W = Diag 1 
2 i
V µi(r −1) g 0 µi(r −1)


(r −1) (r −1) (r −1) (r − 1)


   
z
i = η̂i + yi − µ̂i g
0
µ̂i
Ara ja podem calcular:
 −1 
β̂ (r ) = t · W (r −1) · X t · W (r −1) · z (r −1)
 
X X
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Resultat de l'estimació de β I

Quan l'aproximació del mètode iteratiu és prou bona agafarem

β̂ = β̂ (r )
on r indica l'ultim pas del mètode iteratiu.
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Resultat de l'estimació de β II

Distribució asimptòtica de β̂ (per màx.versemblança)

Asimptòticament és:

Normal,
No esbiaixat: E β̂ = β
h i
i

Matriu de covariàncies: Σβ̂ = Φ · (x t · ŵ · x )−1


ŵ = Diag 1
 
on 0 2
V (µ̂i )g (µ̂i )
amb µ̂i = g −1 xi β̂ i g (µ) = η la funció link .
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Resultat de l'estimació de β III

En els casos en que Φ sigui desconeguda l'haurem d'estimar, Φ̂


Ho farem més endavant, però obtindrem que Φ̂ tindrà
χ2ν
(asimptòticament) una distribució Φ· ν
on els graus de llibertat

són: ν= 0
nombre d observacions − nombre de par àmetres .

Matriu de covariàncies de β̂
Σβ̂ = Φ (x t · ŵ · x )
−1
o la seva estimació

Σ̂β̂ = Φ̂ (x t · ŵ · x )
−1
s'anomena escalada (cov.scaled)

(x t · ŵ · x )
−1
s'anomena no escalada (cov.unscaled)
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Estimacions que només depenen de β̂

Prediccions i funció de variància:

Per una x = (xj ) qualsevol, no cal que correspongui a les dades

experimentals del model, tenim la variable yx = (Y |X = x ) i els

paràmetres ηx = x β i µx = E [yx ] = g
−1 (η ) que els podem
x

estimar puntualment:

Predictor lineal de x (predicció tipus link): η̂x = x β̂


Valor esperat de yx (predicció tipus resposta):

µ̂x = g −1 (η̂x ) = g −1
 
x β̂ normalment s'indica amb ŷx .

També tenim la funció de variància V (µx ) que estimarem:

\
V (µx ) = V (µ̂x ) = V (ŷx )
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Estimacions que també depenen de Φ (o de Φ̂) I

Variància de yx

Per estimar Var (yx ) = ΦV (µx ) necessitem Φ, però sabem que és

constant. Per tant es donen els dos casos següents:

Φ és una constant coneguda (famílies Binomial, Poisson,...)


d (yx ) = ΦV (ŷx ) per tant ja tenim l'estimació de la
Var

variància

Φ és una constant desconeguda (famílies Normal, Gamma...)


d (yx ) = Φ̂V (ŷx ) per tant ns que no tinguem Φ̂ no
Var

tindrem l'estimació de la variància, però si coneixem que les

variàncies són proporcionals a V (ŷx ).


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Estimacions que també depenen de Φ (o de Φ̂) II


Interval de conança de ηx
 
Com que sabem que asimptòticament β̂ ∼ N β, Σβ̂ aleshores

= N η, ση̂2
   
t
η̂x = x β̂ ∼ N x β, x Σ x
β̂ per tant:

si coneixem Φ: IC1−α (ηx ) = η̂x + zα/ ση̂ , η̂x + z1−α/ ση̂
2 2

si no coneixem Φ:

IC1−α (ηx ) = η̂x + tν,α/ σ̂η̂ , η̂x + tθ,1−α/ σ̂η̂
2 2
on ν són els

graus de llibertat de Φ̂

Interval de conança de µx
Com que g (µx ) = ηx i g (µ̂x ) = η̂x (per màx.versemblança)
aleshores si IC1−α (ηx ) = (a, b ) tindrem que
−1 (a ) , g −1 (b ) .

IC1−α (µx ) = g
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Estimacions que també depenen de Φ (o de Φ̂) III

Interval de predicció de yx

En els models lineals és fàcil obtenir-los ja que sabem que


2 + σŷ2x
 
yx − ŷx ∼ N 0, σe i la comanda prediction els calcula.

En els MLG es complica bastant, però tenim les 3 opcions següents:

 p 
1 El que seria un pseudo IP95% (µx ) = µ̂x ± 2 ΦV (µ̂x ) o
 q 
µ̂x ± 2 Φ̂V (µ̂x ) . És intuïtiu, fàcil de calcular i bon

indicador de la variància (si convingues es podria canviar el 2

per altres valors), però gens rigorós.


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Estimacions que també depenen de Φ (o de Φ̂) IV


2 IP asimptòtic: es considera que β = β̂ , i si convé Φ = Φ̂.
Aleshores si Fyx (s ) és la funció de distribució de yx que dona
−1 α
, Fy−x 1 − α2
 
la família del MLG, IC1−α (yx )as . = Fy 1
x 2
on Fy
−1 és la funció inversa de F .
x yx

3 IP per simulació (bootstrap paramètric), consisteix en generar


un nombre alt de valors de yx ,j en dos passos:

1 Si Φ és desconegut, generem el seu valor a partir de


 −1
χ2ν

Φj = Φ̂ ν i si és conegut Φj = Φ.
Generem el valor de βj a partir de N β̂, ΦΦ̂j Σ̂β̂ .
 
2

3 Generem el valor de yx ,j a partir Fx que és la distribució de la


família amb els paràmetres µx ,j = g −1 (x βj ) i
σµ2 x ,j = Φj V (µx ,j ).
α
Un cop tenim les (yx ,j ) en calculem els percentils
2 i 1 − α2 .
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Quasiversemblança

En l'estimació de les β0s , de la família de distribucions només

es necessita la funció de variància.


Si no coneixem la família però sí V (µ) ⇒ podem calcular β̂ .

S'anomena, estimar β per quasiversemblança

No tenim la distribució ⇒ no podem calcular Pr (Y ), IP (yx ),



L β, Φ|y (funció de versemblança), AIC, BIC,...

És un mètode no paramètric (com mínims quadrats) que té

bones propietats asimptòtiques, com els estimadors

màxim-versemblants.
Plantejament del model i validació
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Plantejament del model, necessitem determinar:

1 El predictor lineal, η = X β , de forma anàloga als models lineals.


2 La funció link, g (µ) = η , segons els casos:
Quan hi ha variables explicatives contínues està estretament
relacionat amb la funció de regressió que volem modelar.
Quan el model no hi ha covariables contínues:
1 Si és d'un sol factor, no importa la funció link que utilitzem.
2 Si hi ha diversos factors, la signicació de les interaccions pot
canviar segons el link ⇒ afecta a les simplicacions del model.
3 En el cas factorial les estimacions µ̂x i Φ̂ no depenen del link.
3 Família de distribucions (només se'n necessita la funció de variància).
Coneixem la família teòricament, o bé, de les dades en veiem
la funció de variància que tenen i això determina la distribució.
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Eina gràca per analitzar la validesa del model I


Amb β̂ i X =x (∀x ) es té: ŷx , V (ŷx ) i que Var
d (Yx ) ∝V (ŷx ).

Residus:
El teòrics són yi − µi , sabem que tenen esperança = 0 i
vari ància ∝V (µi ). Substituint µi per la predicció queden:
ri= yi − ŷi , que són el residus bruts, sabem que tenen
esperan ça = 0 i asimptòticament vari ància ∝ V (µi ).

Si tipiquem el residus teòrics queden:

√yi −µi , sabem que tenen esperan ça =0 i vari ància = ctnt .
V (µi )
Substituint el valor esperat per la predicció queda:

rpearson,i = √yi −ŷi , que anomenem residus de Pearson.


V (ŷi )
Tenen esperan ça =0 i asimptòticament vari ància = ctnt .
La família normal té V (µ) = 1 ⇒ els dos tipus de residus coincideixen (és l'única).
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Eina gràca per analitzar la validesa del model II


Eina gràca: Residus tipus Pearson vs valors predits
1 A la gràca, aquests residus, han d'anar al voltant de zero,
sense patrons, ja que E [rpearson,i ]
=0
Si no es compleix és que no hem escollit be:
1 El predictor lineal, η = X β , o
2 La funció link g (µ) = η .
2 Com que la variància d'aquests residus és constant, a la
gràca, la seva dispersió no ha de créixer, ni decréixer, en
funció dels valors predits.

Si la 1a no es compleix, aquesta ja no importa.


Si aquesta no es compleix, és que no hem escollit bé la funció
de variància, V (µ) ,és a dir, no hem escollit bé la família.
Més endavant denirem els residus deviance amb les mateixes propietats,

podrem escollir el tipus de residus.


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 2 de la 1a secció, com a MLGz I

1 Predictor lineal: η = α + βx
2 Funció link: sembla que les

prediccions han de seguir la

funció µ = e α+β x , per tant el

link és la seva inversa

g (µ) = log (µ)


3 Família: De les dades veiem que

Var (yx ) ∝ µ2x per tant ha de

ser la família Gamma.


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 2 de la 1a secció, com a MLGz II

Call: glm(formula = y2 ∼ x, family = Gamma(link = log))


Deviance Residuals:
Min 1Q Median 3Q Max
-1.1799 -0.3390 -0.1233 0.2189 1.0136
Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.387464 0.135526 2.859 0.00627 **
x 0.068855 0.004625 14.886 < 2e-16 ***
(Dispersion parameter for Gamma family taken to be 0.2227708)
Null deviance: 60.122 on 49 degrees of freedom Residual
deviance: 11.401 on 48 degrees of freedom
AIC: 278.8
Number of Fisher Scoring iterations: 5
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 2 de la 1a secció, com a MLGz III


Comparació gràca rpearson vs predicció,

que pot ser tipus resposta µ̂x o tipus link η̂x (aquest últim

normalment resulta més clar)


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 2 de la 1a secció, com a MLGz IV


Comparació gràca: models amb el link diferent.

Amb el link identitat no es compleix E [rperason ] = 0.


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 2 de la 1a secció, com a MLGz V


Comparació gràca: models amb diferent família.

Amb la família normal no es compleix Var [rperason ] = ctnt .


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 2 de la 1a secció, com a MLGz VI


Com que són models amb una sola variable regressora, també ajuda

a veure l'efecte del link i/o la família que hem escollit, la gràca de

la pseudo banda de predicció: µ̂x ± 2Sx .


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 2 de la 1a secció, com a MLGz VII

Pseudo banda de predicció: µ̂x ± 2Sx .


Ara canviem la família, no el link.
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 3 de la 1a secció I

1 Predictor lineal: η = α + βx
2 Funció link: sembla que les

prediccions han de seguir la

funció µ = e α+β x , per tant el

link és la seva inversa

g (µ) = log (µ)


3 Família: La variància sembla

constant ⇒ Normal
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 3 de la 1a secció II

Call: glm(formula = y3 ∼ x, family = gaussian(link = log))


Deviance Residuals:
Min 1Q Median 3Q Max
-14.670 -2.697 0.882 3.011 9.759
Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.275433 0.065654 34.66 <2e-16 ***
x 0.048195 0.001579 30.53 <2e-16 ***
(Dispersion parameter for gaussian family taken to be 27.48464)
Null deviance: 40348.2 on 49 degrees of freedom
Residual deviance: 1319.3 on 48 degrees of freedom
AIC: 311.53
Number of Fisher Scoring iterations: 4
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 3 de la 1a secció III

gràca rpearson vs predicció (link) i

Pseudo banda de predicció: µ̂x ± 2Sx .


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 4 de la 1a secció I

1 Predictor lineal: η = α + βx
2 Funció link: sembla que les

prediccions han de seguir la

funció µ = α + βx , per tant el

link és la identitat g (µ) = µ


3 Família: De les dades veiem que

Var (yx ) ∝ µ2x per tant ha de

ser la família Gamma.


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 4 de la 1a secció II

glm(formula = y4 ∼ x, family = Gamma(link = identity))


Deviance Residuals:
Min 1Q Median 3Q Max
-0.73495 -0.19121 -0.02964 0.14083 0.59370
Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.99004 0.41773 4.764 1.79e-05 ***
x 0.47991 0.03223 14.892 < 2e-16 ***
(Dispersion parameter for Gamma family taken to be 0.08598135)
Null deviance: 19.5132 on 49 degrees of freedom
Residual deviance: 4.3873 on 48 degrees of freedom
AIC: 272.17
Number of Fisher Scoring iterations: 5
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 4 de la 1a secció III

gràca rpearson vs predicció (link) i

Pseudo banda de predicció: µ̂x ± 2Sx .


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 5 de la 1a secció, Poisson I

1 Predictor lineal: η = α + βx
2 Funció link: sembla que les

prediccions han de seguir la

funció µ = α + βx , per tant el

link és la identitat g (µ) = µ


3 Família: Sabem que és Poisson
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 5 de la 1a secció, Poisson II

Call: glm(formula=y5∼x, family=poisson(link=identity))


Deviance Residuals:
Min 1Q Median 3Q Max
-2.1766 -0.8760 0.1338 0.7920 1.9138
Coefficients: Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.90758 0.77021 -1.178 0.239
x 2.06696 0.05061 40.841 <2e-16 ***
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 986.466 on 49 degrees of freedom
Residual deviance: 50.644 on 48 degrees of freedom
AIC: 328.71
Number of Fisher Scoring iterations: 4
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple 5 de la 1a secció, Poisson III

gràca rpearson vs predicció (link) i

Pseudo banda de predicció: µ̂x ± 2Sx .


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple de dos factors I

Es veu interacció

F2

F1 1 2

A N 20.00 20.00

mitjana 12.04 23.83

B N 20.00 20.00

mitjana 36.97 72.32


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple de dos factors II

Amb log(Y ) no es veu interacció

log(Y)

F2

F1 1 2

A N 20.000 20.000

mitjana 2.445 3.156

B N 20.000 20.000

mitjana 3.605 4.279


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple de dos factors III

glm(Y ∼ F1 ∗ F2, family = gaussian(link = identity ))


Analysis of Deviance Table (Type II tests)
Response: Y
Error estimate based on Pearson residuals
Sum Sq Df F value Pr(>F)
F1 26951.0 1 1716.26 < 2.2e-16 ***
F2 11110.4 1 707.52 < 2.2e-16 ***
F1:F2 2775.1 1 176.72 < 2.2e-16 ***
Residuals 1193.5 76
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple de dos factors IV

glm(Y ∼ F1 ∗ F2, family = gaussian(link = log ))


Analysis of Deviance Table (Type II tests)
Response: Y
Error estimate based on Pearson residuals
Sum Sq Df F value Pr(>F)
F1 29725.9 1 1892.9661 <2e-16 ***
F2 13885.3 1 884.2250 <2e-16 ***
F1:F2 0.3 1 0.0184 0.8925
Residuals 1193.5 76
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple de dos factors V

Estimacions de les µij . Model factorial amb els dos links

µ̂ij amb link = identity µ̂ij amb link = log

F1 F2 emmean SE F1 F2 response SE
1 A 1 12.0400 0.886096 1 A 1 12.0400 0.8860898
2 B 1 36.9695 0.886096 2 B 1 36.9695 0.8860973
3 A 2 23.8300 0.886096 3 A 2 23.8300 0.8860971
4 B 2 72.3185 0.886096 4 B 2 72.3185 0.8860973
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple de dos factors VI


glm(Y ∼ F1 + F2, family = gaussian(link = log ))
Analysis of Deviance Table (Type II tests)
Response: Y
Error estimate based on Pearson residuals
Sum Sq Df F value Pr(>F)
F1 29725.9 1 1917.41 < 2.2e-16 ***
F2 13885.3 1 895.64 < 2.2e-16 ***
Residuals 1193.7 77
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple de dos factors VII


gràca rpearson vs predicció (link)

Amb interacció i sense


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple de dos factors VIII


gràca rpearson vs predicció (link). Sense interacció i link=identitat
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple quasiversemblança I

1 Predictor lineal: η = α + βx
2 Funció link: sembla que les

prediccions han de seguir la

funció µ = α + βx , per tant el

link és la identitat g (µ) = µ


3 Família: De les dades veiem que

la variància augmenta però

Var (yx ) ∝ µx , com la Poisson,

però són dades contínues,

família desconeguda, utilitzarem

quasiversemblança amb

V (µ) = µ.
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple quasiversemblança II

glm(formula=yq∼x,family=quasi(link=identity,variance="mu"))
Deviance Residuals:
Min 1Q Median 3Q Max
-2.2437 -0.5135 0.0132 0.4549 1.8768
Coefficients: Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.25941 0.85830 6.128 1.6e-07 ***
x 0.73786 0.03819 19.323 < 2e-16 ***
(Dispersion parameter for quasi family taken to be 0.7799602)
Null deviance: 284.295 on 49 degrees of freedom
Residual deviance: 38.335 on 48 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 5
Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple quasiversemblança III


gràca rpearson vs predicció (link) i

Pseudo banda de predicció: µ̂x ± 2Sx .


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple quasiversemblança IV
V (µ) = 1 ⇔ Normal : gràca rpearson vs predicció (link) i

Pseudo banda de predicció: µ̂x ± 2Sx . No compleix.


Ampliar ML GLM Propietats Ajust pred. Plantejament i Validació

Exemple quasiversemblança V

V (µ) = µ2 ⇔ Gamma: gràca rpearson vs predicció (link) i

Pseudo banda de predicció: µ̂x ± 2Sx . No compleix.

You might also like