Cap´ıtulo 5

Modelos Lineares
Em uma situa¸c˜ao mais geral, a vari´avel de interesse (vari´avel resposta) tem sua
descri¸c˜ ao probabil´ıstica afetada por outras vari´aveis (vari´aveis explicativas ou
covari´aveis). No caso mais simples a influˆencia sobre a resposta m´edia ´e linear e
aditiva e pode ser vista como uma aproxima¸c˜ao de primeira ordem para fun¸ c˜oes
mais complexas.
Usando uma nota¸c˜ao matricial, o modelo linear normal pode ser escrito como
y = Xβ +,
onde y ´e um vetor n × 1 de observa¸c˜oes, X ´e uma matriz n × p conhecida, β
´e um vetor p × 1 de parˆametros e ´e um vetor n × 1 de erros aleat´orios tais
que
i
∼ N(0, σ
2
) e E(
i

j
) = 0, para i = 1, · · · , n e j = i. O modelo nos diz
ent˜ao que, a distribui¸c˜ao condicional de y dados β e σ
2
´e normal multivariada,
i.e. y ∼ N(Xβ, σ
2
I
n
) sendo I
n
´e a matriz identidade de ordem n. Definindo
φ = σ
−2
e usando a fun¸c˜ao de densidade da normal multivariada (ver apˆendice
A) segue que
f(y|β, φ) = (2π)
−n/2

−1
I
n
|
−1/2
exp


1
2
(y −Xβ)


−1
I
n
)
−1
(y −Xβ)

∝ φ
n/2
exp


φ
2
(y −Xβ)

(y −Xβ)

. (5.1)
A forma quadr´atica em (5.1) pode ser reescrita em termos de
ˆ
β = (X

X)
−1
X

y
que ´e o estimador de m´axima verossimilhan¸ca de β,
(y −Xβ)

(y −Xβ) = (y −X
ˆ
β −X(β −
ˆ
β))

(y −X
ˆ
β −X(β −
ˆ
β))
= (y −X
ˆ
β)

(y −X
ˆ
β) + (β −X
ˆ
β)

X

X(β −X
ˆ
β)
−2(β −X
ˆ
β)X

(y −X
ˆ
β)
= (y −X
ˆ
β)

(y −X
ˆ
β) + (β −X
ˆ
β)

X

X(β −X
ˆ
β)
88
89
pois X

(y − X
ˆ
β) = 0. Denotando por S = (y − X
ˆ
β)

(y − X
ˆ
β) a soma de
quadrados residual, podemos escrever ent˜ao a fun¸c˜ao de verossimilhan¸ca como,
f(y|β, φ) ∝ φ
n/2
exp


φ
2
[(β −
ˆ
β)

X

X(β −
ˆ
β) + S]

.
A distribui¸ c˜ao a priori adotada aqui ´e uma generaliza¸ c˜ao multivariada da
distribui¸c˜ao Normal-Gama vista na Se¸c˜ao 2.3.5. Assim, a distribui¸ c˜ao a priori ´e
especificada como
β|φ ∼ N
p

0
, (C
0
φ)
−1
)
onde C
0
´e agora uma matriz p ×p e
φ ∼ Gama

n
0
2
,
n
0
σ
2
0
2

.
Com isso a densidade a priori conjunta de (β, φ) fica completamente especificada
e assim como no caso univariado a distribui¸c˜ao marginal de β ´e obtida integrando-
se p(β, φ) em rela¸c˜ao a φ onde,
p(β, φ) ∝ φ
n
0
+p
2
−1
exp


φ
2

n
0
σ
2
0
+ (β

−µ
0
)

C
0

−µ
0
)

.
´
E f´acil verificar que
p(β) ∝
¸
1 +
(β −µ
0
)

C
0
(β −µ
0
)
n
0
σ
2
0

−(n
0
+p)/2
de modo que a distribui¸ c˜ao a priori marginal de β ´e β ∼ t
n
0

0
, σ
2
0
C
−1
0
). Note
que, como C
0
´e sim´etrica, ´e necess´ario especificar p(p + 1)/2 de seus elementos.
Na pr´atica, podemos simplificar esta especifica¸c˜ao assumindo que C
0
´e diagonal,
i.e. que os componentes de β s˜ao n˜ao correlacionados a priori.
Combinando-se com a verossimilhan¸ca via teorema de Bayes obtem-se as
seguintes distribui¸ c˜oes a posteriori
β|φ, y ∼ N(µ
1
, (C
1
φ)
−1
)
φ|y ∼ Gama

n
1
2
,
n
1
σ
2
1
2

ou n
1
σ
2
1
φ ∼ χ
2
n
1
β|y ∼ t
n
1

1
, σ
2
1
C
−1
1
)
90 CAP
´
ITULO 5. MODELOS LINEARES
onde os parˆametros atualizados s˜ao
n
1
= n
0
+ n
C
1
= C
0
+X

X
µ
1
= (C
0
+X

X)
−1
(C
0
µ
0
+X

X
ˆ
β)
n
1
σ
2
1
= n
0
σ
2
0
+ (y −Xµ
1
)

y + (µ
0
−µ
1
)

C
0
µ
0
= n
0
σ
2
0
+ (n −p)ˆ σ
2
+ (µ
0

ˆ
β)

[C
−1
0
+X

X
−1
]
−1

0

ˆ
β)
onde
ˆ σ
2
=
1
n −p
(y −X
ˆ
β)

(y −X
ˆ
β).
Os estimadores pontuais de β e φ s˜ao dados respectivamente por µ
1
e σ
−2
1
.
Intervalos de confian¸ca para β
j
e φ s˜ao obtidos atrav´es dos percentis das
distribui¸c˜oes univariadas t
n
1

j
, σ
2
1
(C
−1
1
)
jj
), j = 1, · · · , p e χ
2
n
1
. Em particular,
note que µ
1
´e obtida como uma pondera¸c˜ao matricial entre a estimativa a priori
de β e sua estimativa de m´axima verossimilhan¸ca
ˆ
β. Inferˆencia conjunta sobre
β tamb´em pode ser feita usando o fato que a forma quadr´atica
(β −µ
1
)

C
1
(β −µ
1
)/p
σ
2
1
∼ F(p, n
1
).
Note que o modelo visto na se¸c˜ao anterior ´e na verdade o caso mais simples
de um modelo linear quando p = 1 e X ´e um vetor n ×1 de 1’s. Neste caso β ´e
um escalar podendo ser denotado por µ e o modelo se reduz a y
i
= µ +
i
.
A priori n˜ao informativa ´e tamb´em uma generaliza¸c˜ao multivariada da se¸c˜ao
anterior. Aqui o vetor β ´e um parˆametro de loca¸c˜ao e φ ´e um parˆametro de escala,
e portanto a priori n˜ao informativa de Jeffreys ´e p(β, φ) ∝ φ
−1
. Vale notar
que esta priori ´e um caso particular (degenerado) da priori conjugada natural
com C
0
= 0 e n
0
= −p. Fazendo as substitui¸ c˜oes adequadas obt´em-se que as
distribui¸c˜oes a posteriori s˜ao dadas por
β|y ∼ t
n−p
(
ˆ
β, s
2
(X

X)
−1
)
(n −p)s
2
φ|y ∼ χ
2
n−p
(β −
ˆ
β)

X

X(β −
ˆ
β)
s
2
|y ∼ F(p, n −p)
e estimadores pontuais bem como intervalos de confian¸ca coincidir˜ao com os obti-
dos usando m´etodos cl´assicos.
5.1. AN
´
ALISE DE VARI
ˆ
ANCIA COM 1 FATOR DE CLASSIFICA¸ C
˜
AO 91
5.1 An´alise de Variˆancia com 1 Fator de Classi-
fica¸c˜ao
Considere o modelo y
ij
= β
j
+
ij
, i = 1, · · · , n
j
e j = 1, · · · , p. Assim, todas as
n
j
observa¸c˜oes do grupo j tˆem a mesma m´edia β
j
. Neste problema, o n´ umero
total de observa¸c˜oes independentes ´e n = n
1
+ · · · + n
p
. Em outras palavras,
Y
1j
, · · · , Y
n
j
j
∼ N(β
j
, σ
2
). Se os y
ij
forem“empilhados” em um ´ unico vetor n×1
ent˜ao podemos reescrever o modelo na forma matricial y = Xβ + sendo
X =

1 0 · · · 0
.
.
.
.
.
.
.
.
.
1 0 · · · 0
.
.
.
.
.
.
.
.
.
0 0 · · · 1
.
.
.
.
.
.
.
.
.
0 0 · · · 1
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
¸
.
Note que X

X = diagonal(n
1
, · · · , n
p
) e a forma quadr´atica (β−
ˆ
β)

X

X(β−
ˆ
β)
se reduz a
p
¸
j=1
n
j

j
−y
j
)
2
e a fun¸ c˜ao de verossimilhan¸ca ´e dada por
l(β
1
, · · · , β
p
, φ; y) ∝ φ
n/2
exp


φ
2
¸
(n −p)s
2
+
p
¸
j=1
n
j

j
−y
j
)
2
¸¸
com
s
2
=
1
n −p
(y −X
ˆ
β)

(y −X
ˆ
β).
Assumindo que β
j
|φ ∼ N(µ
j
, (c
j
φ)
−1
), j = 1, · · · , p s˜ao condicionalmente
independentes e que n
0
σ
2
0
φ ∼ χ
2
n
0
ent˜ao as distribui¸ c˜oes a posteriori s˜ao
β
j
|φ, y ∼ N(µ

j
, (c

j
φ)
−1
)
n
1
σ
2
1
φ|y ∼ χ
2
n
1
β
j
|y ∼ t
n
1


j
, σ
2
1
/c

j
)
92 CAP
´
ITULO 5. MODELOS LINEARES
onde
µ

j
=
c
j
µ
j
+ n
j
y
j
c
j
+ n
j
c

j
= c
j
+ n
j
n
1
= n
0
+ n
n
1
σ
2
1
= n
0
σ
2
0
+ (n −p)s
2
+
p
¸
i=1
n
j
c
j
c
j
+ n
j
(y
j
−µ
j
)
2
e os β
j
|φ, y permanecem independentes.
A priori n˜ao informativa p(β, φ) ∝ φ
−1
´e obtida fazendo-se c
j
= 0, j = 1, · · · , p
e n
0
= −p. Assim, as distribui¸c˜oes a posteriori marginais s˜ao dadas por
β
j
|y ∼ t
n−p
(y
j
, s
2
/n
j
)
(n −p)s
2
φ ∼ χ
2
n−p
e as estimativas pontuais e intervalos de confian¸ca coincidir˜ao com os da inferˆencia
cl´assica. Em particular, se estamos interessados em testar
H
0
: β
1
= · · · = β
p
= β
ent˜ao pode-se mostrar que (DeGroot,1970, p´aginas 257 a 259) deve-se rejeitar H
0
se
P

¸
¸
¸
¸
¸
F >
p
¸
j=1
n
j
(y
j
−y)
2
/(p −1)
s
2

onde F ∼ F(p −1, n −p) for pequena.
Note que as hip´oteses equivalentes s˜ao
H
0
: α
1
= · · · = α
p
= 0
sendo
α
j
= β
j
−β, β =
1
n
p
¸
j=1
n
j
β
j
e
p
¸
j=1
n
j
α
j
= 0
e α
j
´e o efeito da j-´esima popula¸ c˜ao. Neste caso, X

X = diagonal(n
1
, · · · , n
p
) e
a forma quadr´atica (β −
ˆ
β)

X

X(β −
ˆ
β) fica
¸
n
j

j
−y
j
−y)
2
+n(β −y
j
−y)
2
.

Sign up to vote on this title
UsefulNot useful