You are on page 1of 117

ANALISE

ESTATISTICA DE DADOS

USANDO METODOS
BAYESIANOS

CEMEQ - Centro de Metodos Quantitativos

Ribeirao Preto
2008

Sum
ario
1 Conceitos B
asicos: M
etodos Bayesianos
1.1 Introducao . . . . . . . . . . . . . . . . .
1.2 Distribuicoes a priori conjugadas . . . .
1.3 Priori normal e verossimilhanca normal .
1.4 Inferencia Bayesiana . . . . . . . . . . .
1.4.1 Estimacao por intervalo: . . . . .
1.4.2 Testes de hipoteses: . . . . . . . .
1.4.3 Teoria Bayesiana Assintotica: . .
1.4.4 Estimacao por ponto: . . . . . . .
1.5 Vetores parametricos . . . . . . . . . . .
1.6 Exerccios . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

3
3
7
8
9
9
9
9
10
13
15

2 Densidades Preditivas e Discriminac


ao de Modelos
2.1 Uso da Densidade Preditiva para Verificacao da Adequabilidade de um Modelo .
2.2 O Fator de Bayes a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Distribuicoes Preditivas Alternativas . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Uso da Densidade Preditiva na Discriminacao de Modelos . . . . . . . . . . . . .
2.5 Resduos Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6 Pseudo-Fator de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7 Outros Criterios para Discriminacao de modelos . . . . . . . . . . . . . . . . . .
2.8 Teoria Bayesiana de De Finetti . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.8.1 Teorema da Representacao de De Finetti para Quantidades Aleatorias 0-1
2.9 Uma nota sobre Testes de Hipotese . . . . . . . . . . . . . . . . . . . . . . . . .
2.9.1 Hipotese simples contra alternativa composta . . . . . . . . . . . . . . .
2.10 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17
19
19
20
20
20
22
22
23
24
24
25
27

3 Distribuic
oes a Priori
3.1 Metodo Estrutural de Elicitacao . . . .
3.2 Metodo Preditivo de Elicitacao . . . .
3.3 Distribuicoes a Priori Nao-informativas
3.4 Exerccios . . . . . . . . . . . . . . . .

.
.
.
.

28
28
29
30
36

.
.
.
.
.

38
38
41
42
44
47

.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

4 Aproximaco
es Num
ericas e M
etodos de Monte Carlo
4.1 Aproximacao de Laplace . . . . . . . . . . . . . . . . . . .
4.2 Metodo de Monte Carlo Ordinario . . . . . . . . . . . . . .
4.3 Metodo de Monte Carlo por Importancia . . . . . . . . . .
4.4 Algoritmo de Amostragem-Reamostragem por Importancia
4.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . .
1

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.


SUMARIO

5 M
etodos de Monte Carlo em Cadeias de Markov
5.1 O Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 Metodo de Gelman e Rubin para monitorar a convergencia
5.2 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . .
5.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49
. . . . . . . . 49
do algoritmo 51
. . . . . . . . 59
. . . . . . . . 73

6 Algumas aplicac
oes
76
6.1 Modelos Bayesianos Hierarquicos . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.2 Analise Bayesiana Emprica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Ap
endices
A Resoluc
ao de Alguns Exerccios
A.1 Capitulo 1 . . . . . . . . . . . .
A.1.1 Item 1 . . . . . . . . . .
A.1.2 Item 2 . . . . . . . . . .
A.1.3 Item 3 . . . . . . . . . .
A.1.4 Item 4 . . . . . . . . . .
A.1.5 Item 5 . . . . . . . . . .
A.1.6 Item 6 . . . . . . . . . .
A.2 Capitulo 2 . . . . . . . . . . . .
A.2.1 Item 1 . . . . . . . . . .
A.2.2 Item 2 . . . . . . . . . .
A.2.3 Item 3 . . . . . . . . . .
A.2.4 (a) . . . . . . . . . . . .
A.2.5 (c) . . . . . . . . . . . .
A.3 Capitulo 3 . . . . . . . . . . . .
A.3.1 Item 1 . . . . . . . . . .
A.3.2 Item 2 . . . . . . . . . .
A.4 Capitulo 4 . . . . . . . . . . . .
A.4.1 Item 1 . . . . . . . . . .
A.4.2 Item 2 . . . . . . . . . .
A.4.3 Item 3 . . . . . . . . . .
A.5 Capitulo 5 . . . . . . . . . . . .
A.5.1 Item 1 . . . . . . . . . .
A.5.2 Item 2 . . . . . . . . . .

CEMEQ - Centro de Metodos Quantitativos

94

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

94
94
94
94
96
97
98
99
100
100
101
102
102
103
103
103
103
104
104
107
110
110
110
113

Captulo 1
Conceitos B
asicos: M
etodos Bayesianos
1.1

Introduc
ao

O uso de metodos Bayesianos tem se tornado uma alternativa poderosa na analise de dados.
A fundamentacao da teoria de inferencia Bayesiana e baseada na formula de Bayes dada a
seguir:
Formula de Bayes: Sejam os eventos A1 , A2 , . . . , Ak formando uma seq
uencia de eventos
mutuamente exclusivos e exaustivos formando uma particao do espaco amostral
, isto e,
!
k
k
k
[
[
X
Aj = e Ai Aj = (conjunto vazio) para i 6= j tal que P
Aj =
P (Aj ) =
j=1

j=1

j=1

1.
Entao para qualquer outro evento B (B ), temos,
P (Ai | B) =

P (B | Ai ) P (Ai )
k
X
P (B | Aj ) P (Aj )

(1.1)

j=1

para todo i variando de 1 ate k.


Podemos interpretar a formula de Bayes (1.1) da seguinte forma: antes do conhecimento de
qualquer informacao sobre o evento Ai , atribuir uma probabilidade a priori para Ai , dada por
P (Ai ); essa probabilidade e atualizada a partir da ocorrencia do evento B. Essa probabilidade
atualizada, ou probabilidade condicional do evento Ai dado a ocorrencia do evento B, ou seja,
P (Ai | B) e dada pela formula de Bayes (1.1).
Exemplo 1.1: Um novo teste diagnostico para detectar o vrus HIV e apresentado como
tendo 95% de sensitividade e 98% de especificidade. Em uma populacao com um prevalencia
de 1/1000 para o vrus HIV, qual e a chance de alguma pessoa com teste positivo ter realmente
o vrus HIV?
Seja A o evento que representa o indivduo que realmente e portador do vrus HIV; denotar
por A o evento complementar, isto e, o indivduo realmente nao e portador do vrus HIV e seja
B o evento que representa um resultado positivo para o teste. Temos interesse em determinar
P (A | B).
Observe que uma sensibilidade igual a 95% e dada por
P (B | A) = (teste positivo | indivduo e portador do vrus HIV) = 0, 95
3


1.1. INTRODUC
AO

e que uma especificidade igual a 98% e dada por



| A = (teste negativo | indivduo nao e portador do vrus HIV) = 0, 98
P B


| A = 0, 02.
isto e, P B | A = 1 P B
Pela formula de Bayes (1.1), temos
P (A | B) =

P (B | A) P (A)


P (B | A) P (A) + P B | A P A

(1.2)

Observe que neste caso os eventos A e A particionam o espaco amostral .


Assim,
P (A | B) =

0, 95 0, 001
= 0, 045
0, 95 0, 001 + 0, 02 0, 999

Observe que P (A) = 0, 001 e a probabilidade a priori de um indivduo ser portador do


virus HIV (prevalencia do virus HIV na populacao) e P (A | B) = 0, 045 e a probabilidade a
posteriori atualizada com a informacao de um teste com resultado positivo para o indivduo.
Desse resultado, observamos que mais de 95% dos indivduos com resultados positivos para o
teste nao tem o virus HIV.
0

Assumindo agora que temos um vetor de dados y = (y1 , . . . , yn ) e quantidades desconhecidas representando os parametros de uma distribuicao de probabilidade associada com a
variavel aleatoria Yi com valores observados yi , i = 1, . . . , n.
Considerando uma amostra aleatoria y = (y1 , . . . , yn ), isto e, os dados sao independentes e
identicamente distribudos com uma distribuicao conjunta dada pela densidade f (y | ), tambem definida como funcao de verossimilhanca para quando os dados foram observados e uma
distribuicao a priori para , dada por (), assumindo os valores discretos 1 , . . . , k , temos de
(1.1), a distribuicao a posteriori para i dado y,
(i | y) =

f (y | i ) (i )
k
X
f (y | j ) (j )

(1.3)

j=1

Observar que o parametro tambem e considerado como uma quantidade aleatoria sob o
enfoque Bayesiano.
Supondo agora que o parametro assume valores contnuos num dado intervalo, podemos
escrever (1.3) por
f (y | ) ()
( | y) = Z
(1.4)
f (y | ) ()
em que a integral no denominador de (1.4) e definida no intervalo de variacao de .
Exemplo 1.2: Seja Y uma variavel aleatoria com distribuicao binomial denotada por
b (n, ), em que e assumida com uma distribuicao a priori beta, denotada por beta(a, b), com
hiperparametros a e b conhecidos. Assim,
 
n y
f (y | ) =
(1 )ny
(1.5)
y
CEMEQ - Centro de Metodos Quantitativos


1.1. INTRODUC
AO

em que y = 0, 1, 2, . . . , n, e
() =

1
a1 (1 )b1 ; 0 < < 1
B (a, b)

(1.6)

em que
B (a, b) =

(a) (b)
(a + b)

e a funcao beta.
Observar que (a) denota uma funcao gama, dada por
Z
(a) =

ta1 exp (t) dt

A distribuicao a posteriori para e dada, a partir de (1.4), por


( | y) = Z

y+a1 (1 )n+by1
1

y+a1 (1 )n+by1 d
0

Como

Z1

y+a1 (1 )n+by1 d =

(y + a) (n + b y)
(n + a + b)

temos,
( | y) =

1
y+a1 (1 )n+by1
B (y + a, n + b y)

(1.7)

para 0 < < 1. Observar que a distribuicao a posteriori para tambem e dada por uma
distribuicao beta, agora com parametros y + a e n + b y.
Exemplo 1.3: Seja Y uma variavel aleatoria com distribuicao de Poisson, denotada por
P oisson (), com parametro . Assumir que e uma quantidade aleatoria com distribuicao
gama, denotada por gama(, ), com hiperparametros e conhecidos. Assim,
f (y | ) =
em que y = 0, 1, 2, . . . e
() =

exp () y
y!

(1.8)

exp ()
()

(1.9)

em que > 0.
Considerando uma amostra aleatoria (denotada por a.a.) y1 , . . . , yn de tamanho n da distribuicao de Poisson com parametro , a funcao de verossimilhanca para e dada por
L () = f (y | ) =

n
Y

f (yi | ) =

i=1
yi

n
Y
exp ()
i=1

yi !

exp (n) ny
n
Y
yi !
i=1

CEMEQ - Centro de Metodos Quantitativos

(1.10)


1.1. INTRODUC
AO

em que n
y=

n
X

yi .

i=1

De (1.4), a distribuicao a posteriori para e dada por


( | y) = Z

() L ()

(1.11)

() L () d
0

= Z

+ny1 exp [ (n + ) ]
+ny1 exp [ (n + ) ] d

Como,

+ny1 exp [ (n + ) ] d =

( + n
y)
+n
(n + ) y

encontramos,
(n + )+ny +ny1 exp [ (n + ) ]
( | y) =
( + n
y)

(1.12)

Observar que a distribuicao a posteriori para tambem e uma distribuicao gama, agora com
parametros + n
y e n + .
Exemplo 1.4 (Ensaios de Bernoulli com priori discreta): Assumir que uma droga
pode ter taxa de resposta para igual a 0, 2; 0, 4; 0, 6 ou 0, 8, cada uma com mesma probabilidade
a priori. Se observamos uma u
nica resposta positiva (y = 1), como nossa crenca pode ser
revisada?
Neste caso, a funcao de verossimilhanca e dada por
f (y | ) = y (1 )1y
Assim temos, conforme tabela 1.1,
Tabela 1.1: Ensaios de Bernoulli com priori discreta.
i
0, 2
0, 4
0, 6
0, 8
X

priori verossimilhanca priori


posteriori
(i )
f (y = 1 | i ) (i )
(i | y = 1)
0, 25
0, 05
0, 10
0, 25
0, 10
0, 20
0, 25
0, 15
0, 30
0, 25
0, 20
0, 40
1, 00
0, 50
1, 00

Observar que a distribuicao a posteriori (i | y = 1) e encontrada a partir de (1.3).


Sob o enfoque Bayesiano, como Y e sao quantidades aleatorias, podemos determinar a
predicao de forma direta.
Supor que desejamos prever o resultado de uma nova observacao, digamos Z, dado que foi
observado o resultado y.
CEMEQ - Centro de Metodos Quantitativos


1.2. DISTRIBUIC
OES
A PRIORI CONJUGADAS

Como e discreto, temos


f (z | y) =

f (z, j | y)

(1.13)

Assumindo Z condicionalmente independente de y dado , temos:


X
f (z | y) =
f (z | j ) wj

(1.14)

em que wj = (j | y), representa os pesos a posteriori.


Dos resultados da tabela 1.1, encontradas de (1.14), a probabilidade preditiva de que o
proximo tratamento seja bem sucedido (sucesso, isto e, z = 1) dado que foi observado um
tratamento bem sucedido (y = 1) dado por,
X
f (z = 1 | y = 1) =
j wj
j

= 0, 2 0, 1 + 0, 4 0, 2 + 0, 6 0, 3 + 0, 8 0, 4
= 0, 60
Observar que f (z | j ) = j para z = 1 e wj = (j | y) = (j | y = 1).
Nota: Uma distribuicao a priori () nao precisa ser uma densidade propria para que
( | y) seja uma distribuicao propria.

1.2

Distribuico
es a priori conjugadas

Uma famlia de distribuicoes e conjugada se as distribuicoes a posteriori pertencem a` esta


mesma famlia de distribuicoes.
Como um caso especial, considere observacoes independentes e identicamente distribudas
(observacoes i.i.d.) cuja distribuicao pertence a famlia exponencial,
f (yi | ) = exp [a () b (yi ) + c () + d (yi )]
Com as observacoes yi , a funcao de verossimilhanca para e dada por,
"
#
n
X
L () exp a ()
b (yi ) + nc ()

(1.15)

(1.16)

i=1

Uma distribuicao a priori conjugada para com k1 e k2 conhecidos e dada por,


( | k1 , k2 ) exp [k1 a () + k2 c ()]

(1.17)

Combinando (1.16) e (1.17), a distribuicao a posteriori para e dada por,


(
" n
#
)
X
( | y) exp a ()
b (yi ) + k1 + c () [n + k2 ]

(1.18)

i=1

Isto e,
"
( | y) = | k1 +

n
X

#
b (yi ) , n + k2

(1.19)

i=1

Nota: Uma distribuicao a priori para um parametro pode ser elicitada de varias formas:
CEMEQ - Centro de Metodos Quantitativos

1.3. PRIORI NORMAL E VEROSSIMILHANCA


NORMAL

a partir da opiniao de um ou varios especialistas, a partir de procedimentos objetivos ou a


partir procedimentos subjetivos.
Um caso especial e dado por distribuicoes a priori uniformes, isto e, () 1, em que
0 < < 1. A distribuicao a posteriori para usualmente sera uma distribuicao propria
(integral igual a 1 em toda variacao de ) independentemente da priori ser ou nao propria.

1.3

Priori normal e verossimilhan


ca normal

Supor que temos uma amostra aleatoria de tamanho n de uma variavel aleatoria Y com
distribuicao normal N (; 2 ) com media desconhecida e variancia 2 conhecida.
Assumir que tenha uma distribuicao a priori normal N (; 2 ) com e 2 conhecidos, isto
e,


1
1
2
() =
exp 2 ( )
(1.20)
2
2 2
A funcao de verossimilhanca para baseada numa amostra aleatoria y = (y1 , . . . , yn )0 e
dada por,
"
#
n
1 X
L ( | y) exp 2
(yi )2
(1.21)
2 i=1
Combinando (1.20) com (1.21), encontramos a densidade a posteriori para dada por:
( | y) () L ( | y)
"
#)
(
n
1 X
1 ( )2
+ 2
(yi )2
exp
2
2
i=1

(1.22)

Apos um pequeno desenvolvimento algebrico podemos ver, a partir de (1.22), que esta
expressao define o n
ucleo de uma distribuicao normal para .
Assim,


y
+ n
1
2
2
;
( | y) = N 1
(1.23)
+ n2 12 + n2
2
Isto e,

2
(1 )
| y vN + (1 ) y;
n


(1.24)

em que
=

1
2
1
2

n
2

2
n
2
n

+ 2

Assim, a media de (1.24) e a media ponderada da media da priori com a media amostral.
Na combinacao de uma priori normal com uma verossimilhanca normal, podemos usar o
seguinte resultado:
Resultado 1.1:
A (z a)2 + B (z b)2 = (A + b) (z c)2 +
para
c=
(ver Box e Tiao, 1973).
CEMEQ - Centro de Metodos Quantitativos

(Aa + Bb)
(A + B)

AB
(a b)2
A+B


1.4. INFERENCIA
BAYESIANA

1.4
1.4.1

Infer
encia Bayesiana
Estima
c
ao por intervalo:

Seja um parametro unidimensional e assumir que a distribuicao a posteriori para seja


unimodal. Um estimador por intervalo Bayesiano com probabilidade (1 ) e dado por ( , )
para
Z

( | y) d =
2

e
Z

( | y) d =
2

O intervalo ( , ) e chamado um intervalo de credibilidade para com probabilidade


(1 ).
Nota: No procedimento classico, se y1 , y2 , . . . , yn e uma a. a. de uma populacao com
densidade f (yi ; ) e S = g (y1 , . . . , yn ) e uma estatstica com uma distribuicao amostral fS (s; ),
usamos fS (s; ) para encontrarmos um intervalo de confianca para .
Com uma confianca 100 (1 ) %, temos
P [s () S s ()] = 1
e assim encontramos h (s) e h (s) tal que
P [h (s) h (s)] = 1
O intervalo de confianca [h (s) ; h (s)] e interpretado da seguinte forma: 100 (1 ) % dos
intervalos construdos contem o verdadeiro valor de .
Observar que os intervalos de credibilidade Bayesianos baseados na distribuicao a posteriori
tem uma interpretacao mais simples do que os intervalos de confianca classicos.

1.4.2

Testes de hip
oteses:

Na inferencia classica consideramos a hipotese H0 (hipotese de nulidade) contra H1 (hipotese


alternativa). Na inferencia Bayesiana, em geral consideramos as probabilidades baseadas na
distribuicao a posteriori de que > 0 , com 0 conhecido.

1.4.3

Teoria Bayesiana Assint


otica:

Para tamanhos amostrais grandes, a distribuicao a posteriori depende quase que exclusivamente da funcao de verossimilhanca. Considere y1 , y2 , . . . , yn uma a. a. da distribuicao f (y | )
e assumir com uma distribuicao a priori (). Assim temos:
( | y) exp [l () + ln ()]

(1.25)

onde l () = ln L () (logaritmo natural da funcao de verossimilhanca L ()).


Considerando o desenvolvimento de uma serie de Taylor na vizinhanca do estimador de maxima verossimilhanca (EMV) (obtido derivando-se o logaritmo de verossimilhanca e igualando= 0), temos,
se a zero, isto e, dl()
d
  1
2 d2 l ()
l () ' l +

|
2
d2
CEMEQ - Centro de Metodos Quantitativos

(1.26)


1.4. INFERENCIA
BAYESIANA

10

Dessa forma,
a distribui
cao a posteriori para pode ser aproximada por uma distribuicao
i
h
normal N ; I 1 , onde
 
d2 l ()
I =
|
d2
(informacao de Fisher observada). Isto e,
h
 i
a
| y v N ; I 1
(1.27)

1.4.4

Estima
c
ao por ponto:

Um estimador Bayesiano para dado por = d (y) e obtido minimizando-se o erro esperado
(funcao de risco) com respeito a` distribuicao a posteriori para . Para isso, consideramos uma
funcao de perda (d; ).
Uma funcao de perda muito usada na inferencia Bayesiana aplicada e dada pela funcao de
perda quadratica,
(d, ) = (d )2
(1.28)
Assim, devemos encontrar d (y) que minimiza o risco Bayesiano dado por,
R (d, ) = E|y [ (d, )]
Z
[d (y) ]2 ( | y) d
=

(1.29)

Sendo uma funcao diferenciavel, o estimador de Bayes com respeito a` funcao de perda
quadratica e dada por,
Z
dR (d, )
= 2 (d ) ( | y) d = 0
d (d)
Isto e,
= d (y) = E ( | y)

(1.30)

(media a posteriori de ).
Observar que,
Z
E ( | y) =

R
() L () d
( | y) d = R
() L () d

(1.31)

Exemplo 1.5: Seja y1 , . . . , yn uma a. a. de uma distribuicao de Poisson com funcao de


probabilidade,
exp () yi
P (Yi = yi ) = f (yi | ) =
(1.32)
yi !
em que i = 1, 2, . . . , n.
Assumir uma priori para dada pela distribuicao gama com hiperparametros conhecidos
e (ver (1.9)). Isto e, v gama (, ).
A distribuicao a posteriori para (ver (1.12)) e dada por uma distribuicao gama com
parametros + n
y e n + . Isto e,
| y v gama ( + n
y ; n + )
Considerando uma funcao de perda quadratica, um estimador pontual para (ver (1.30)) e
dado pela media a posteriori,
y)
= E ( | y) = ( + n
(n + )
CEMEQ - Centro de Metodos Quantitativos


1.4. INFERENCIA
BAYESIANA

11

Como uma ilustracao numerica, seja Y uma variavel aleatoria representando o n


umero de
consultas medicas feitas por 10 pessoas pelo perodo de 5 anos num dado centro medico:
(y1 , . . . , y10 ) = (10, 12, 8, 7, 9, 15, 10, 12, 13, 8)
10
X

Assim, y =

i=1

10

yi

= 10, 4 e, desta forma, n


y=

10
X

yi = 104. Assumir que a priori para

i=1

seja uma distribuicao gama, isto e, v gama (; ), com E () = e var () = 2 . A partir da


opiniao de um especialista em sa
ude, assumir E () = 10 e var () = 4. Dessa forma, considerar
= 25 e = 2, 5 que determinamos a partir das equacoes E () = = 10 e var () = 2 = 4.
O estimador pontual para com respeito `a funcao de perda quadratica e dado por,
E ( | y) =

( + n
y)
25 + 104
=
= 10, 32
(n + )
10 + 2, 5

Exemplo 1.6: Seja (y1 , . . . , yn ) uma a. a. de uma distribuicao normal N (; 2 ) com 2


conhecido. Assumir uma priori normal N (; 2 ) para , com e 2 conhecidos. A distribuicao
a posteriori para (de (1.23)) e dada por,


y
+ n
1
2
2
|yN 1
;
(1.33)
+ n2 12 + n2
2
em que y = (y1 , . . . , yn ) e o vetor dos dados.
Um estimador por ponto para e dado pela media a posteriori E ( | y) dada por,

= E ( | y) =

2
1
2

+
+

n
y
2
n
2

(1.34)

Como uma ilustracao numerica, considere yi , i = 1, . . . , 100 como os pesos das criancas
com 10 meses de idade com media amostral y = 11, 85. Assumir que yi N (; 4). A partir
da informacao de um medico pediatra, considerar uma priori N (13; 25) para . Neste caso,
100
X
2
2
= 13; = 25 e = 4. Tambem
yi = 1185.
i=1

De (1.34), a media a posteriori para e dada por,

= E ( | y) =

2
1
2

+
+

n
y
2
n
2

13
+ 1185
25
4
1
100
+
25
4

= 11, 825

Nota: Outras funcoes de perda tambem podem ser consideradas. Um caso especial e dado
pela funcao de perda (d, ) = |d |; o estimador de Bayes que minimiza o erro esperado e
dado pela mediana a posteriori.
Exemplo 1.7: Assumir o modelo estatstico,
yi = + i

(1.35)

para i = 1, 2, . . . , n em que i e um erro suposto com uma distribuicao normal N (0, 4), isto e,
i v N (0, 4).
Assumir tambem que a distribuicao a priori para seja dada por v N (2; 1).
De (1.35), observar que a variavel aleatoria Yi tem uma distribuicao normal N (; 4). Assim,
CEMEQ - Centro de Metodos Quantitativos


1.4. INFERENCIA
BAYESIANA

12

a funcao de verossimilhanca para e dada por,


#
"
n
1X
(yi )2
L () exp
8 i=1

(1.36)

e a priori para e dada por,




1
() exp ( 2)2
2


(1.37)

Combinando-se a verossimilhanca normal (1.36) com a priori normal (1.37), obtemos (ver
(1.23)), a distribuicao a posteriori para dada por,


8 + n
y
4
|yvN
;
(1.38)
4+n 4+n
Como uma ilustracao numerica, assumir uma a. a. de tamanho 10, representando os tempos
ate a recuperacao (em semanas) de 10 pacientes: 2, 3, 1, 2, 4, 3, 2, 3, 5, 2 cuja media amostral e
dada por y = 2, 7.
Assim, um estimador por ponto para assumindo uma funcao de perda quadratica e dada
por,
8 + 27
y
= E ( | y) = 8 + n
=
= 2, 5
4+n
4 + 10
Notas:
(1) Observar que o EMV (estimador de maxima verossimilhanca) para e obtido maximizandose a funcao de verossimilhanca (1.36) ou o logaritmo da funcao de verossimilhanca l (), isto
e,
n
X
1
dl ()
= (2)
(yi ) = 0
d ()
8
i=1
n
X

Ou seja,

n
X

yi = n ou =

yi

i=1

. Com os dados, =

27
10

= 2, 7.

i=1

(2) Supondo uma priori nao-informativa para , os resultados devem ser proximos (estimador
de maxima verossimilhanca para e a media a posteriori E ( | y)).
Assim, se considerarmos uma priori normal N (2; 103 ) (variancia muito grande), a distribuicao a posteriori para e dada por,


0, 008 + n
y
4
|yvN
;
0, 004 + n 0, 004 + n
Com os dados,
E ( | y) =

0, 008 + 27
27, 008
=
= 2, 69972
0, 004 + 10
10, 004

ou seja E ( | y) 2, 70 (resultado bem proximo ao EMV: = 2, 7).


(3) Assumindo a mesma priori N (2; 1) para , mas considerando uma amostra muito
grande, os resultados classico e Bayesiano tambem devem ser muito proximos.
n
X
Assim, se considerarmos uma a. a. de tamanho n = 1000 com n
y =
yi = 2758,
i=1

CEMEQ - Centro de Metodos Quantitativos


1.5. VETORES PARAMETRICOS

13

observamos que (ver (1.38)),


E ( | y) =

8 + n
y
8 + 2758
2766
=
=
4+n
4 + 1000
1004

Isto e, E ( | y) = 2, 755. Tambem observar que o EMV para e dado por = y = 2, 758
(resultados muito proximos).

1.5

Vetores param
etricos

Seja Y uma variavel aleatoria com distribuicao de probabilidade dada pela densidade f (y | )
em que e um vetor de dimensao k, isto e, = (1 , 2 , . . . , k )0 . Seja () uma distribuicao
a priori conjunta para ; a funcao de verossimilhanca para dada uma a. a. y = (y1 , . . . , yn )0
da variavel aleatoria Y e dada por,
L () =

n
Y

f (yi | )

(1.39)

i=1

A distribuicao a posteriori conjunta para e dada por,


( | y) = c L () ()

(1.40)

onde c e uma constante normalizadora, cuja integracao devera ser igual a 1 (assumir todos
parametros contnuos), isto e,
Z Z
Z
1
L () () d1 d2 . . . dk
(1.41)
c =
...
1

(uma integral m
ultipla).
Para simplificacao, vamos denotar (1.41) por
Z
1
c = L () () d
A media a posteriori para uma funcao g () de = (1 , 2 , . . . , k )0 e dada por,
Z Z
Z
E [g () | y] =
...
g () ( | y) d1 . . . dk
1

(1.42)

(1.43)

Ou, simplesmente,
Z
E [g () | y] =

g () ( | y) d

(1.44)

Dessa forma, observar que precisamos resolver integrais m


ultiplas para encontrar c1 dado
em (1.42) e E [g () | y] dado em (1.44).
Para encontrarmos a distribuicao marginal para alguns componentes de ou mesmo para
um componente individual, tambem precisamos resolver uma integral m
ultipla. Como caso
especial, a distribuicao a posteriori marginal para 1 e dada por,
Z Z
Z
(1 | y) =
...
(1 , 2 , . . . , k | y) d2 . . . dk
(1.45)
2

Exemplo 1.8: Seja Y uma variavel aleatoria com distribuicao normal N (; 2 ). Neste caso
CEMEQ - Centro de Metodos Quantitativos


1.5. VETORES PARAMETRICOS

14

= (, 2 ) e um vetor de dois parametros. Supor uma a. a. y = (y1 , . . . , yn )0 de tamanho n


0
da distribuicao N (; 2 ). A funcao de verossimilhanca para = (, 2 ) e dada por,
#
"

 n2
n
X

1
1
(yi )2
(1.46)
L ; 2 =
exp 2
2 2
2 i=1
Assumir as seguintes distribuicoes a priori para e 2 :

v N 0; a2 ; a conhecido
2 v IG (b; d) ; b, d conhecidos

(1.47)

em que IG (b; d) denota uma distribuicao gama inversa (isto e, se V v IG (b; d), entao a funcao
densidade de probabilidade para V e dada por f (v) v (b+1) exp vd , v > 0). Tambem
assumir independencia a priori entre e 2 .
A distribuicao a posteriori conjunta para e 2 e dada por,


n


2
2
2 (b+ 2 +1)
exp 2
, | y
2a
"
(
#)
n
1X
1
exp 2 d +
(yi )2

2 i=1

(1.48)

A distribuicao a posteriori marginal para e obtida integrando-se 2 em (1.48), isto e,


Z

( | y) =
, 2 | y d 2
(1.49)
0

Isto e,

2
( | y) = k exp 2
2
(
"
#)
Z
n
X
n

1
1
(b+ 2 +1)

2
exp 2 d +
(yi )2
d 2

2 i=1
0


(1.50)

em que k e uma constante normalizadora.


Observar que,
Z
0

 a
(p)
dx = p
x(p+1) exp
x
a

(1.51)

Assim, usando (1.51) em (1.50), encontramos,


 2

k1 exp 2
2

( | y) = "
d+

1
2

n
X

#b+ n2
(yi )2

i=1

para < < e k1 e uma constante normalizadora.


CEMEQ - Centro de Metodos Quantitativos

(1.52)

1.6. EXERCICIOS

15

Da mesma forma, a distribuicao a posteriori marginal para 2 e dada por,


Z


2
|y =
, 2 | y d



n

d
2 (b+ 2 +1)
exp 2
= k

"
#
Z
n
2
X

1
exp 2 2

(yi )2 d
2a
2 i=1

1.6

Exerccios

(1) Assumir que a distribuicao a posteriori de um parametro dado o vetor de dados y tem
uma densidade Beta com parametros e , isto e,

( + ) 1
(1 ) 1
( | y) =

( ) ( )

em que 0 < < 1. Assumir uma funcao de perda L (d, ) = 2 (d )2 , d 0.


Achar a decisao de Bayes que minimiza o erro esperado.
(2) Considerar a funcao de confiabilidade S (t) = P (T > t), em que T e uma variavel
aleatoria positiva representando o tempo de vida de um componente. Assumir que S (t) para t
fixado, assume dois valores possveis: S (t) = 1 = 0, 50 ou S (t) = 2 = 0, 90.
Assumir duas decisoes possveis:
d1 : o estimador de S (t) e 1 ou
d2 : o estimador de S (t) e 2 .
Considerar a seguinte funcao de perda L (d; ):
Tabela 1.2: Decisao.
S (t) = 1
S (t) = 2

d1
0
3

d2
5
0

Tambem assumir a seguinte distribuicao a priori discreta: (1 ) = 1/4; (2 ) = 3/4.


(a) Achar a solucao Bayesiana.
(b) Retirar uma unidade e testa-la para o tempo t: falha ou sobrevivencia.
Assumir Z = 1 (sobrevivencia) e Z = 0 (falha) e assumir f (z = 1 | 1 ) = 0, 50; f (z = 1 | 2 ) =
0, 90; f (z = 0 | 1 ) = 0, 50 e f (z = 0 | 2 ) = 0, 10.
Achar a solucao de Bayes quando retiramos uma unidade.
(3) Assumir que X representa o tempo de sobrevivencia de uma unidade com distribuicao
exponencial com densidade f (x | ) = exp (x) , x > 0. Assumir uma amostra aleatoria
de tamanho n (X = (x1 , . . . , xn )). Tambem assumir uma distribuicao a priori nao-informativa
para dada por () 1/, > 0.
(a) Achar a densidade a posteriori para dado X.
(b) Achar o estimador Bayesiano para considerando o erro quadratico medio.
(c) Qual e a moda da distribuicao a posteriori?
CEMEQ - Centro de Metodos Quantitativos

1.6. EXERCICIOS

16

(d) Achar a distribuicao a posteriori para o tempo de sobrevivencia mediano.


(4) Assumir uma densidade normal N (, 4), isto e,


1
1
2
f (x | ) = exp (x )
8
2 2
em que < x < .
Considerar uma distribuicao a priori normal N (0, 2 ), com 2 conhecido, para .
(a) Achar a distribuicao a posteriori para .
(b) Achar o estimador de Bayes para com respeito `a funcao de perda quadratica.
(c) Em qual situacao a solucao obtida pelo estimador de maxima verossimilhanca coincide
com a solucao de Bayes com respeito `a perda quadratica?
(5) Assumir que voce tenha uma distribuicao subjetiva para a temperatura media dos proximos dias, dada pela densidade,
() =

exp () , > 0
()

em que e sao conhecidos (E () = / e var () = / 2 ).


Escolher valores para E () e var () que representam sua opiniao sobre a temperatura e
calcular os valores correspondentes de e . Achar a decisao de Bayes d para quando a
funcao de perda e dada por
d2 2
L (d, ) = (d )2 +
1000
e comentar porque esse estimador e maior do que E ().
(6) Supor que (x1 , . . . , xn ) seja uma amostra aleatoria de uma distribuicao de Poisson com
media e que tem uma priori gama com parametros conhecidos e .
(a) Achar a distribuicao a posteriori para e escrever a media a posteriori como uma media
ponderada da media a priori / e a media amostral x.
(b) Mostrar que a variancia a posteriori e dada por
var ( | x) =

+ n
x
( + n)2

(c)
 Mostrar
 que a variancia a posteriori e menor do que a variancia a priori se e somente se
x < 2 + n E ().

CEMEQ - Centro de Metodos Quantitativos

Captulo 2
Densidades Preditivas e Discrimina
c
ao
de Modelos
Seja y1 = (y1 , . . . , yn )0 o vetor dos dados observados e seja y2 = (yn+1 , . . . , ym )0 um vetor de
observacoes futuras. A densidade preditiva para y2 dado y1 e dada por,
Z
(2.1)
f (y2 | y1 ) = f (y2 | ) ( | y1 ) d
em que f (y2 p ) e a distribuicao conjunta de y2 dado e ( p y1 ) e a distribuicao a posteriori
para dado y1 . Observe que y1 e y2 sao independentes dado .
Isto e,
f (y2 | y1 ) = E|y1 [f (y2 | )]
(2.2)
Exemplo 2.1: Supor que yi , i = 1, 2, . . . , n sejam medidas de uma carga viral em uma
amostra de sangue supostos com distribuicao normal N (; V ) com V conhecido. Assim,
f (y1 | ) =

n
Y

f (yi | )

(2.3)

i=1

em que


1
1
2
exp
(yi ) ,
f (yi | ) =
2V
2V
para i = 1, . . . , n.
Assumir uma distribuicao normal N (m; W ) para , com m e W conhecidos. Dessa forma,
a distribuicao a posteriori para dado
y1 e dada por uma distribuicao normal N (m1 ; W1 ) com
Pn
1
1
1
i=1 yi
m1 = W1 (W m + nV y), y = n e W1 = (W 1 + nV 1 ).
A densidade preditiva para uma observacao futura yn+1 e dada por,
Z
f (yn+1 | y1 ) =
f (yn+1 | ) ( | y1 )



Z
1  1
21
1 1
2
2
1
2
= (2) V W1
exp V ( yn+1 ) + W1 ( m1 )
d
2

Apos alguma algebra, encontramos a densidade preditiva para yn+1 dado y1 dada por,
yn+1 | y1 v N (m1 ; V + W1 )

(2.4)

Exemplo 2.2: Supor Yi , i = 1, 2, . . . , n variaveis aleatorias i. i. d. com densidade expo17

18
nencial,
f (yi | ) = exp (yi )
em que yi > 0.
Assumir uma distribuicao Gama (, ) para com e conhecidos.
A funcao de verossimilhanca para e dada por,
!
n
X
L () = n exp
yi

(2.5)

(2.6)

i=1

Combinando-se a priori gama (, ) para com a verossimilhanca (2.6), encontramos a


distribuicao a posteriori para dada por uma distribuicao Gama (1 , 1 ) com 1 = + n e
1 = + n
y.
A densidade preditiva para uma observacao futura yn+1 e dada por,
Z
f (yn+1 | y) =
exp (yn+1 ) ( | y) d
(2.7)
0
Z
1 1
(1 +1)1 exp [ ( 1 + yn+1 )] d
=
(1 ) 0
Isto e,
f (yn+1 | y) =

1 1 (1 + 1)
(1 ) ( 1 + yn+1 )1 +1

(2.8)

Observando que (1 + 1) = 1 (1 ) temos,


f (yn+1 | y) =

1 1 1
( 1 + yn+1 )1 +1

(2.9)

(uma densidade de Pareto).


Como ilustracao numerica, considere o trabalho cir
urgico de um medico que exige o uso de
uma maquina de controle de batimentos cardacos por um perodo de 4 horas consecutivas de
funcionamento. A taxa de falhas por hora dessa maquina varia dependendo de onde e usada,
mas o fabricante garante que a taxa media de falha da maquina e de 10 vezes a cada 100
horas de uso. A variancia de e dada por V = 0, 01.
Com o objetivo de controle de qualidade, supor uma a. a. com m = 5 funcionamentos
consecutivos do equipamento ate falhar: 3, 2; 12, 7; 20, 6; 7, 9 e 10, 2 (tempos em horas).
A partir desses dados, encontramos a media amostral y = 10, 92. Para achar a probabilidade
de que a proxima falha ocorrera antes do termino do trabalho cir
urgico, assumir:
(a) Os tempos de vida (funcionamento ate falhar) yi , i = 1, 2, . . . , 5 sao variaveis aleatorias
i. i. d. com distribuicao exponencial com taxa de falhas igual a` ;
(b) O parametro tem uma distribuicao a priori Gama (, ) com e conhecidos;
(c) E () = = 0, 10 e V ar () = 2 = 0, 01. Assim encontramos = 1 e = 10, a partir
da informacao do fabricante do equipamento.
Assim, a distribuicao a posteriori para e uma distribuicao Gama (1 , 1 ) com 1 = +n =
1 + 5 = 6 e 1 = + n
y = 10 + 54, 6 = 64, 6. Assim,
f (y6 | y) =

1 1 1
6 (64, 6)6
=
( 1 + y6 )1 +1
(64, 6 + y6 )7

Portanto,
P (y6 > 4) = 1 P (y6 4) ,
CEMEQ - Centro de Metodos Quantitativos

DA ADEQUABILIDADE
2.1. USO DA DENSIDADE PREDITIVA PARA VERIFICAC
AO
DE UM MODELO
19
em que
6 (64, 6)6
P (y6 4) =
7 dy6
0 (64, 6 + y6 )
(64, 6)6
= 0, 26
= 1
(4 + 64, 6)6
Z

Isto e, P (y6 > 4) = 0, 74.

2.1

Uso da Densidade Preditiva para Verifica


c
ao da Adequabilidade de um Modelo

Seja f (y | ) a densidade conjunta para os dados e seja () a densidade a priori para .


Uma definicao alternativa para a densidade preditiva e dada por,
Z
f (y) = f (y | ) () dy
(2.10)
A densidade preditiva (2.10) tambem e definida como funcao de verossimilhanca marginal.
Supor que M1 e M2 sejam dois modelos distintos.
Fator de Bayes: O fator de Bayes e definido por,
B12 =

f (y | M1 )
f (y | M2 )

(2.11)

Usamos o fator de Bayes (2.11) para comparar dois modelos M1 e M2 .


Observar que o fator de Bayes B12 requer a especificacao da distribuicao a priori () sob
ambos os modelos. Quando consideramos distribuicoes a priori nao informativas improprias
para , essas distribuicoes a priori sao definidas em termos de constantes arbitrarias ci , i = 1, 2.
Dessa forma B12 e definida em termos da razao cc21 que e arbitraria. Isso e um problema que
pode limitar o uso do fator de Bayes na discriminacao de dois modelos quando consideramos
distribuicoes a priori nao informativas improprias para os parametros dos modelos.
Para contornar esse problema, algumas modificacoes sao sugeridas na literatura para o fator
de Bayes (ver por exemplo, Spiegelhalter e Smith, 1982; Berger e Perichi, 1996; Aitkin, 1991).
Quando consideramos distribuicoes a priori proprias para , o fator de Bayes e reduzido
para um problema de testes de hipoteses.

2.2

O Fator de Bayes a posteriori

Sob o modelo Mi , i = 1, 2, dada a funcao de verossimilhanca f (y p i ) e a distribuicao a


priori ( i ), a distribuicao a posteriori e dada por,
( i | y) = R

f (y | i ) ( i )
f (y | i ) ( i ) d i

(2.12)

para i = 1, 2.
Aitkin (1991) define o fator de Bayes a posteriori do modelo M1 contra o modelo M2 , por,
A
B12
=

CEMEQ - Centro de Metodos Quantitativos

LA
1
LA
2

(2.13)


2.3. DISTRIBUIC
OES
PREDITIVAS ALTERNATIVAS

20

em que
LA
i

Z
=

f (y | i ) (i | y) di

para i = 1, 2 e i representa o vetor dos parametros sob o modelo Mi , i = 1, 2.


e a media a posteriori da funcao de verossimilhanca
Observar que LA
i = E i |y [f (y | i )]
f (y | i ). Observar tambem que o fator de Bayes a posteriori existe sob distribuicoes a priori
nao-informativas.

2.3

Distribuico
es Preditivas Alternativas

Para discriminacao de modelos podemos definir uma versaocross-validationda distribuicao


preditiva dada por,
Z


f yr | y(r) = f (yr | ) | y(r) d
(2.14)

para y(r) = (y1 , . . . , yr1 , yr+1 , . . . , yn ) em que | y(r) e a densidade a posteriori para
dado y(r) (ver por exemplo, Geisser, 1975; ou Gelfand e Dey, 1994).

Para a verificacao da adequabilidade de um modelo, a densidade preditiva f yr | y(r) e
usada com yr , r = 1, . . . , n no sentido de que um modelo e adequado se yr pode ser considerado
como uma observacao aleatoria da densidade f yr | y(r) .
Definir a ordenada preditiva condicional (CP O) por

dr = f yr | y(r)
(2.15)
(ver Geisser, 1990).
Podemos discriminar dois ou mais modelos, a partir de graficos de dr versus r, r = 1, 2, . . . , n;
maiores valores de dr em media, indicam o melhor modelo.
Outra alternativa e usar o produto de CP O0 s dado por
c (l) =

n
Y

dr (l)

(2.16)

r=1

em que l indexa modelos. Assim, o modelo M1 e melhor do que o modelo M2 , se c (1) > c (2).

2.4

Uso da Densidade Preditiva na Discrimina


c
ao de
Modelos

Para comparar um modelo M1 com um modelo M2 , podemos usar o fator de Bayes B12 =

f (y|M1 )
.
f (y|M2 )

Com os dados observados y, o modelo M1 e melhor do que o modelo M2 se B12 > 1.


Em geral, podemos considerar 2 log B12 (ver Raftery, 1996; ou Kass e Raftery, 1995) e sua
intepretacao e baseada no criterio proprosto por Jeffreys (1961) e apresentada na tabela 2.1.

2.5

Resduos Bayesianos

Seja x = (x1 , . . . , xn )0 uma amostra observada e ( | x) a distribuicao a posteriori para


dado x.
Seja y = (y1 , . . . , yn )0 uma amostra de validacao, isto e, uma amostra independente de x
usada para validar o modelo em estudo.
CEMEQ - Centro de Metodos Quantitativos

2.5. RESIDUOS BAYESIANOS

21

Tabela 2.1: Escala de evidencia do modelo M1 .


B12
<1
1, 2, 3
3, . . . , 12
12, . . . , 150
> 150

2 log B12
<0
0, 1, . . . , 2
2, . . . , 5
5, . . . , 10
> 10

Evidencia de M1
negativa
difcil decisao
positiva
forte
muito forte

A densidade preditiva para y dado x (ver (2.1)) e dada por:


Z
f (y | x) = f (y |) ( | x) d

(2.17)

Usamos f (y | x) para avaliacao do modelo. O valor medio e a variancia preditiva para cada
componente de y sao dados, respectivamente, por,
Z
yi f (y | x) dy
(2.18)
E (yi | x) =
Z
V ar (yi | x) =
[yi E (yi | x)]2 f (y | x) dy
para i = 1, 2, . . . , n.
Os resduos Bayesianos padronizados sao dados por:
yi E (yi | x)
di = p
V ar (yi | x)

(2.19)

para i = 1, 2, . . . , n.
O uso dos resduos Bayesianos e semelhante ao uso dos resduos na inferencia classica:
graficos de resduos versus preditos (valores medios preditos); graficos de resduos em ordem
temporal.
Na pratica, podemos particionar uma amostra grande em duas amostras: uma parte (amostra observada) e usada para construir a distribuicao a posteriori e a outra parte (amostra de
validacao) e usada para obter a distribuicao preditiva.
Outra possibilidade na construcao de resduos Bayesianos e o uso de tecnicas Jacknife
(leave one out) considerados na secao 2.3. Assim, considerar x(i) = (x1 , . . . , xi1 , xi+1 , . . . , xn )0
e achar a densidade preditiva de xi dado x(i) para i = 1, 2, . . . , n:
Z


f xi | x(i) = f (xi | ) | x(i) d
(2.20)
Definir os resduos Bayesianos por:
d0
i


xi E xi | x(i)
= q

V ar xi | x(i)

(2.21)

para i = 1, 2, . . . , n.

Nota: Os valores observados de f xi p x(i) (ordenadas preditivas condicionais ou CPO)
podem ser usados em um diagnostico informal. Valores baixos de CPO devem corresponder a
CEMEQ - Centro de Metodos Quantitativos

2.6. PSEUDO-FATOR DE BAYES

22

observacoes mal ajustadas.

2.6

Pseudo-Fator de Bayes

Como alternativa ao fator de Bayes, usar o produto das preditivas para xi dado x(i) , dado
n

Q
por,
f xi | x(i) na comparacao de modelos.
i=1

Sejam M1 e M2 dois modelos propostos para analisar os dados. O pseudo-fator de Bayes e


dado por,
n

Q
f xi | x(i) , M1
PF
B12
= i=1
(2.22)
n

Q
f xi | x(i) , M2
i=1

Na presenca de mais de dois modelos, calcular para cada modelo o produto

n
Q


f xi | x(i) ,

i=1

ou equivalentemente, a soma dos logaritmos das ordenadas preditivas condicionais e escolher o


modelo que apresentar o maior valor.
Nota: A soma dos quadrados (ou dos valores absolutos) dos resduos padronizados tambem
podem ser usados na selecao de modelos.

2.7

Outros Crit
erios para Discrimina
c
ao de modelos

Para discriminar modelos, tambem podemos considerar o criterio AIC (Akaike information
criterion); o criterio BIC (Bayesian information criterion) e o criterio DIC (Deviance information
criterion). Esses criterios penalizam a funcao de verossimilhanca (a complexidade do modelo
entra no criterio de selecao).
Crit
erio AIC: Assumir dois modelos M1 e M2 . O criterio AIC e dado por:


supM1 f (y | 1 , M1 )
2 (p2 p1 )
(2.23)
AIC = 2 ln
supM2 f (y | 2 , M2 )
em que pi , i = 1, 2 representa o n
umero de parametros em cada modelo (criterio baseado na
eficiencia classica freq
uentista). A funcao de verossimilhanca f 
(y | i , M
 i ) deve ser maximizada
sob cada modelo. Tambem poderamos definir AICi = 2 ln L i | Mi 2pi , i = 1, 2 em que
i e o estimador de maxima verossimilhanca para i e assim maiores AICi indicam melhores
modelos.
Crit
erio BIC: Assumir dois modelos M1 e M2 . O criterio BIC e dado por:


supM1 f (y | 1 , M1 )
BIC = 2 ln
2 (p2 p1 ) ln(n)
(2.24)
supM2 f (y | 2 , M2 )
em que n e a dimensao da amostra e pi , i = 1, 2 e o n
umero
 de par
 ametros no modelo Mi .
Da mesma forma poderiamos definir BICi = 2 ln L i | Mi pi ln (n) para i = 1, 2 em
que i e o estimador de maxima verossimilhanca para i .
Notas (1): Para amostras grandes, Schwarz (1978) mostra que BIC e uma boa aproximacao
para 2 ln B12 , em que B12 (2.23) e o fator de Bayes.
CEMEQ - Centro de Metodos Quantitativos

2.8. TEORIA BAYESIANA DE DE FINETTI

23

Notas (2): Carlin e Louis (2000) introduzem uma modificacao do BICi para a forma,
[ i = 2E [ln L ( i | y, Mi )] pi ln(n)
BIC

(2.25)

[ i . Essa forma do BIC e muito usada


escolhendo o modelo Mi que apresenta maior valor de BIC
quando metodos MCMC (Monte Carlo em cadeias de Markov) sao utilizados.
Crit
erio DIC: O criterio DIC e muito utilizado em inferencia Bayesiana aplicada especialmente usando metodos de Monte Carlo em Cadeias de Markov.
Definir o desvio (deviance) por:
D () = 2 ln L () + C

(2.26)

em que e um vetor de parametros desconhecidos do modelo; L () e a verossimilhanca e C e


uma constante nao necessariamente conhecida na comparacao de dois modelos.
O criterio DIC definido por Spiegelhalter et al (2002) e dado por,
 
+ 2pD
DIC = D
(2.27)
 
e o desvio calculdado na media a posteriori
= E ( | y) e pD e o n
em que D
umero efetivo
 
= E [D () | y] e a media
D
, em que D
de parametros no modelo, dado por pD = D
a posteriori do desvio que mede a qualidade do ajuste dos dados para cada modelo. Menores
valores de DIC indicam melhores modelos e esses valores podem ser negativos.
O criterio DIC e implementado em softwares usados para obter inferencias Bayesianas
usando metodos MCMC (Monte Carlo em cadeias de Markov). Um software muito utilizado e
o software Winbugs (Spiegelhalter et al, 1999).

2.8

Teoria Bayesiana de De Finetti

Um metodo mais formal para a metodologia Bayesiana foi introduzida por De Finetti
(1930, 1937, 1964) baseada nas distribuicoes preditivas.
Dessa forma, um modelo preditivo para uma seq
uencia de variaveis aleatorias X1 , X2 , . . .
e uma medida de probabilidade P , que matematicamente especifica a forma da distribuicao
conjunta para qualquer subconjunto de X1 , X2 , . . . que deve incorporar alguma forma de dependencia entre as quantidades aleatorias.
Isso e baseado na especificacao da permutabilidade e no teorema da representacao de De
Finetti (ver por exemplo, Bernardo e Smith, 1995).
Permutabilidade Finita: As quantidades aleatorias X1 , . . . , Xn sao permutaveis sob uma
medida de probabilidade P se,

P (X1 , . . . , Xn ) = P X(1) , . . . , X(n)
(2.28)
para todas as permutacoes definidas no conjunto {1, 2, . . . , n}. Em termos de densidade ou
funcao de probabilidade,

p (x1 , . . . , xn ) = p x(1) , . . . , x(n)
(2.29)
Nota: Observar que a suposicao de permutabilidade captura em essencia a ideia de amostra
aleatoria, aqui sem sentido pois implica a ideia de independencia condicional dado o valor
do parametros do modelo.
CEMEQ - Centro de Metodos Quantitativos


2.9. UMA NOTA SOBRE TESTES DE HIPOTESE

2.8.1

24

Teorema da Representac
ao de De Finetti para Quantidades
Aleat
orias 0-1

Se X1 , X2 , . . ., e uma seq
uencia infinita permutavel de quantidades aleatorias 0 1 com
medida de probabilidade P , existe uma funcao distribuicao Q tal que a funcao de probabilidade
conjunta p (x1 , . . . , xn ) para X1 , . . . , Xn tem a forma,
Z
p (x1 , . . . , xn ) =
0

em que Q () = limn P

yn
n

n
1Y

xi (1 )1xi dQ ()

(2.30)

i=1

n

P
com yn =
Xi e = limn
i=1

yn
n

(demonstracao: ver

Bernardo e Smith, 1995).


Uma interpretacao subjetivista para esse resultado:
(a) Os Xi sao julgados como variaveis aleatorias de Bernoulli independentes condicional em
uma quantidade aleatoria ;
(b) A quantidade aleatoria tem uma distribuicao de probabilidade
Q;

yn
(c) Pela lei forte dos grandes n
umeros, = limn n , tal que Q pode ser interpretada
como a crenca sobre a freq
uencia relativa limite dos resultados yi = 1.
(d) Condicional na quantidade aleatoria , X1 , . . . , Xn e uma amostra aleatoria de uma
distribuicao de Bernoulli com parametro gerando uma distribuicao amostral conjunta
p (x1 , . . . , xn | ) =
=

n
Y
i=1
n
Y

p (xi | )

(2.31)

xi (1 )1xi

i=1

em que o parametro tem uma distribuicao a priori Q ().


Considerado como uma funcao de , a distribuicao amostral conjunta e denominada funcao
de verossimilhanca.

2.9

Uma nota sobre Testes de Hip


otese

Na pratica, um estatstico Bayesiano nao considera testes de hipoteses, mas determina


densidades a posteriori para parametros de interesse, por exemplo, 12 ou 1 2 . Apesar disso
podemos sugerir um teste de hipoteses sob o enfoque Bayesiano.
Exemplo 2.3 : Assumir que Y seja uma variavel aleatoria com densidade f (y | ) e supor
o teste de hipoteses H0 : = 0 versus H1 : = 1 em que 0 e 1 sao valores especificados.
Supor que baseado numa amostra aleatoria de tamanho n, y = (y1 , . . . , yn ) temos a estatstica
T = T (y1 , . . . , yn ) apropriada com uma dada distribuicao de probabilidade amostral.
Pela formula de Bayes temos,
P (H0 | T ) =

P (T | H0 ) P (H0 )
P (T | H0 ) P (H0 ) + P (T | H1 ) P (H1 )

em que P (H0 ) e P (H1 ) sao probabilidades a priori para H0 e H1 .


Tambem,
P (T | H1 ) P (H1 )
P (H1 | T ) =
P (T | H0 ) P (H0 ) + P (T | H1 ) P (H1 )
CEMEQ - Centro de Metodos Quantitativos


2.9. UMA NOTA SOBRE TESTES DE HIPOTESE
Observar que P (H0 | T ) + P (H1 | T ) = 1.
Portanto,



P (H0 | T )
P (H0 ) P (T | H0 )
=
P (H1 | T )
P (H1 ) P (T | H1 )

25

(2.32)

De (2.32) observar que a razao das probabilidades a posteriori um favor de H0 e igual ao


produto da razao a priori pela razao de verossimilhancas.
Assim,
(i) Se P (H0 | T ) > P (H1 | T ) aceitar H0 ;
(ii) Se P (H0 | T ) < P (H1 | T ) rejeitar H0 .
Observar que esse procedimento pode ser aplicado com varias hipoteses possveis. Entao
achar a hipotese com maior probabilidade a posteriori.
Exemplo 2.4 : Supor que Y seja uma variavel aleatoria com distribuicao normal N (; 1).
Considerar as hipoteses H0 : = 0 versus H1 : = 1. Assumir a priori que P (H0 ) = P (H1 ) =
0, 5.

Observar que T = y (estatstica suficiente para ), y v N ; n1 , isto e,

 n 
n
P (T | H0 ) = exp y2
2
2
e

i
h n
n
y 1)2
P (T | H1 ) = exp (
2
2
Assim,

exp n2 y2
P (H0 | T )


=
P (H1 | T )
y 1)2
exp n2 (
n n
o
= exp y2 (
y 1)2
2
Isto e,
h n
i
P (H0 | T )
= exp (2
y 1)
P (H1 | T )
2
Como ilustracao numerica supor n = 10 e y = 2 (dos dados). Portanto,
h n
i
P (H0 | T )
= exp (2
y 1) = 3, 1 107
P (H1 | T )
2
Como esse valor e muito pequeno conclumos que devemos rejeitar H0 em favor de H1 : = 1.

2.9.1

Hip
otese simples contra alternativa composta

Supor que H0 seja uma hipotese simples e que H1 seja uma hipotese composta. Supor que
seja o parametro de interesse e que T = T (y1 , . . . , yn ) seja a estatstica do teste.
A razao da posteriori de H0 comparada com a posteriori de H1 e dada por,
P (H0 | T )
P (T | H0 ) P (H0 )
=
P (H1 | T )
P (T | H1 ) P (H1 )
P (H0 ) P (T | H0 , 0 )
R
=
P (H1 ) P (T | H1 , ) () d
em que () e a densidade a priori para sob H1 .
CEMEQ - Centro de Metodos Quantitativos

(2.33)
(2.34)


2.9. UMA NOTA SOBRE TESTES DE HIPOTESE

26

Observar que com mais de um parametro devemos integrar os parametros adicionais.


Exemplo 2.5 : Supor que a variavel aleatoria Y tenha uma distribuicao normal N (; 1) e
assumir o teste de hipoteses H0 : = 0 versus H1 : 6= 0. Tambem supor que selecionamos
uma amostra aleatoria de tamanho 10 com y = 2 (dos dados observados).
Observar que T = y e uma
 estatstica suficiente para . Assumir P (H0 ) = P (H1 ) = 0, 5.
Observar que y | v N ; n1 .
Portanto,
 n  21
 n 
P (T | H0 , = 0) =
exp y2
2
2
e

 n  12
h n
i
2
P (T | H1 , ) =
exp (
y )
2
2
Assumir uma priori normal N (1, 1) para sob H1 , isto e,


1
1
2
() = exp ( 1)
2
2
De (2.33) temos:
P (H0 | T )
= R

P (H1 | T )

n
2

 12

 12

exp n2 y2

 12

 n
2
2
1
exp

(
y

1)
d
2
2


1
(2) 2 exp n2 y2


=
R
[(1)2 +n(
y )2 ]
exp
d
2

n
2

1
2

Desenvolvendo o denominador temos:


( 
)


Z
( 1)2 + n ( y)2
(n
y + 1)
1
exp
d = exp (n
y + 1) +

2
2
2 (n + 1)

"

2 #
Z
1
n
y+1
exp

d
n+1
2 (n + 1)1

Como
Z

"

1
exp
2 (n + 1)1


2 #

 12
n
y+1
2

d =
n+1
n+1

temos:
 21


1
exp n2 y2 (2) 2
h
i
 1 2  12
(n
y +1)2
n 2
1
n
y
+
1
+
exp

2
n+1
2
2(n+1)

1
(n + 1) 2 exp n2 y2
h
i
=
y +1)2
n
y2
1
1 (n
exp 2 2 + 2 (n+1)
(
"
#)
2
1
1
(n
y
+
1)
= (n + 1) 2 exp
1
2 (n + 1)

P (H0 | T )
=
P (H1 | T )

CEMEQ - Centro de Metodos Quantitativos

n
2

2.10. EXERCICIOS

27

Com n = 10 e y = 2 temos:
P (H0 | T )
= 1, 1 108
P (H1 | T )
Assim devemos rejeitar H0 : = 0 em favor de H1 : 6= 0.

2.10

Exerccios

(1) Seja y = (y1 , . . . , yn ) representando uma amostra aleatoria da distribuicao exponencial


com densidade f (y | ) = exp (y) , y > 0, y > 0. Considerar uma distribuicao a priori
conjugada para . Achar:
(a) A densidade a posteriori para .
(b) Um aproximacao normal para a densidade a posteriori para .
(c) A densidade preditiva para uma observacao futura yn+1 .
(d) Achar a moda da distribuicao preditiva para uma observacao futura de yn+1 .
(2) Seja y = (y1 , . . . , yn ) representando uma amostra aleatoria da distribuicao uniforme
com densidade f (y | ) = 1/, 0 < y < e considere uma densidade a priori para dada por
() = a (+1) , > a, > 0 e a > 0 (a conhecido).
(a) Achar a densidade a posteriori para .
(b) Achar a densidade preditiva para uma observacao futura yn+1 .
(3) Considerar uma distribuicao Gaussiana inversa IG (, ) com densidade, f (y | , ) =
 12
i
h
2
2y 3

(y

)
, y > 0; > 0 e > 0. Observar que E (y) = e var (y) = 3 /.
exp

2 y
Assumir uma amostra aleatoria y = (y1 , . . . , yn ) e uma priori nao informativa conjunta para
e dada por
1
(, )
, > 0, > 0

Achar:
(a) A densidade a posteriori conjunta para e . Tambem achar a densidade a posteriori
marginal para .
(b) Considerar duas amostras independentes com distribuicoes Gaussianas inversas IG (1 , 1 )
e IG (2 , 2 ) com 1 e 2 conhecidos. Achar a densidade a posteriori marginal para 1 /2 (razao
de medias).
(c) Achar a densidade preditiva para uma observacao futura yn+1 dado y1 , . . . , yn .

CEMEQ - Centro de Metodos Quantitativos

Captulo 3
Distribui
c
oes a Priori
Uma distribuicao a priori para um parametro pode ser elicitada de varias formas:
(a) Podemos assumir distribuicoes a priori definidas no domnio de variacao do parametro
de interesse. Como caso particular, poderamos considerar uma distribuicao a priori Beta que
e definida no intervalo (0, 1) para proporcoes que tambem sao definidas no intervalo (0, 1) ou
considerar uma priori normal para parametros definidos em toda reta;
(b) Podemos construir uma priori baseada em informacoes de um ou mais especialistas;
(c) Podemos considerar metodos estruturais de elicitacao de distribuicoes a priori (ver por
exemplo, Paulino et al, 2002);
(d) Podemos considerar distribuicoes a priori nao-informativas quando temos total ignorancia sobre parametros de interesse;
(e) Podemos usar metodos Bayesianos empricos em dados ou experimentos previos para
construir a priori de interesse.
Alguns casos especiais sao dados a seguir:

3.1

M
etodo Estrutural de Elicita
c
ao

Metodo estrutural e qualquer metodo de elicitacao da distribuicao a priori para um parametro baseados em questoes relacionadas diretamente com o parametro (Kadane, 1980).
Como um caso especial assumir que pode assumir um entre os valores 1 , . . . , k ; a partir
da informacao de um especialista podemos atribuir as probabilidades a priori para cada valor
possvel .
M
etodo do Histograma: Considerar uma particao do espaco parametrico em k ink
S
tervalos, isto e, =
i e consultar um especialista para atribuir probabilidades para cada
i=1

intervalo i . Entao, construir um histograma com essas probabilidades.


Exemplo 3.1: Seja um parametro representando a proporcao de componentes defietuosos
em um equipamento hospitalar.
Supor que atribumos a moda da distribuicao como
 M igual a MM=3M0,1. Assim,3Mdividir

,
Q
=
,
,
Q
=
,
M
,
o intervalo [0, 1] em k = 6 subintervalos:
Q
=
0,
1
2
3
2
4
4

2
Q4 = M, 3M4+1 , Q5 = 3M4+1 , M6+1 e Q6 = M6+1 , 1 . Da, solicitar a um especialista as
probabilidades pi para cada intervalo, i = 1, . . . , 6 como um exemplo (ver tabela 3.1), considerar:
A partir dos resultados da tabela 3.1, ajustar uma distribuicao Beta(a, b) com a = 2, 4 e
b = 13, 6 que melhor se ajusta a esses histograma.
Assim, considerar a priori v Beta (2, 4; 13, 6).
28

3.2. METODO
PREDITIVO DE ELICITAC
AO

29

Tabela 3.1: Distribuicao a priori para pi .


Qi
pi
[0; 0, 05]
0, 096
(0, 05; 0, 075] 0, 108
(0, 075; 0, 1] 0, 1233
(0, 1; 0, 325] 0, 6308
(0, 325; 0, 55] 0, 0415
(0, 55; 1]
0, 0004

3.2

M
etodo Preditivo de Elicita
c
ao

Na pratica, um especialista pode achar mais simples fornecer informacao nas observacoes
do que em parametros (ou sumarios ou estatsticas dessas observacoes).
Assumir que f (y | ) e o modelo formulado pelo estatstico. Solicitar a informacao de um
especialista sobre uma estatstica T com distribuicao pT (t).
Seja fT (t | ) a distribuicao dessa estatstica baseada no modelo estatstico elaborado pelo
estatstico.
Se h () e a distribuicao a priori desconhecida, entao pT (t) e h () estao relacionadas a partir
da relacao,
Z
(3.1)
pT (t) = fT (t | ) h () d

Da, escolher h () tal que a integral acima leve a uma boa aproximacao para pT (t) (nem
sempre e um problema simples).
Uma simplificacao possvel e escolher uma famlia de distribuicao a priori h () e da escolher
os valores dos hiperparametros que melhor se aproxime de pT (t).
Exemplo 3.2: Supor o parametro de uma distribuicao binomial; assumir que a distribuicao a priori seja uma distribuicao Beta(a, b); a seguir, o estatstico solicita a um especialista
a distribuicao para o n
umero de sucessos T em uma amostra imaginaria de dimensao m. A
distribuicao marginal (preditiva) para T e dada por,
Z 1 
m t
1
a1 (1 )b1 d
(3.2)
pT (t) =
(1 )mt
B (a, b)
t
0
 
m B (a + t, m t + b)
=
t
B (a, b)
para t = 0, 1, 2, . . . , m e B (a, b) = (a)(b)
e a funcao Beta.
(a+b)
Entao, achar os hiperparametros a e b. Winkler (1980) sugere pedir ao especialista elicitacao
da probabilidade de se observar um sucesso (T = 1) na seguintes situacoes:
(i) m = 1
(ii) m = 2
Supor que ele responde p1 e p2 , respectivamente. De (3.2), temos:
a
; (m = 1)
a+b
2ab
=
; (m = 2)
(a + b) (a + b + 1)

p1 =
p2

CEMEQ - Centro de Metodos Quantitativos

(3.3)

3.3. DISTRIBUIC
OES
A PRIORI NAO-INFORMATIVAS

30

Assim, resolver o sistema em (3.3) para achar os valores de a e b.

3.3

Distribuico
es a Priori N
ao-informativas

O uso de distribuicoes a priori nao-informativas tem varios objetivos:


(a) Deduzir crencas a posteriori para quem parte de um conhecimento escasso, isto e, quando
os dados fornecem grande parte da informacao sobre o parametro (ignorancia a priori).
(b) Permitir a comparacao com os resultados obtidos da inferencia classica que so usa a
informacao amostral.
(c) Averiguar a influencia de uma priori subjetiva quando comparada com os resultados
obtidos usando uma priori nao-informativa.
M
etodo de Bayes-Laplace: Assumir que o parametro seja discreto tomando k valores
1 , . . . , k . Uma priori nao-informativa para e dada pela distribuicao uniforme discreta,
(i ) =

1
k

(3.4)

em que i = 1, 2, . . . , k.
Observar que quando e contnuo, o uso de distribuicoes a priori uniformes para pode
levar a distribuicoes a priori nao-uniformes para transformacoes = () de . Neste caso, se
() e uma distribuicao a priori para , entao,

d
(3.5)
() = [ ()]
d
Observar que () nao e necessariamente uniforme.
Exemplo 3.3: Seja o parametro de uma distribuicao de Bernoulli, 0 < < 1. Pela
regra de Bayes-Laplace, uma priori nao-informativa para e dada pela distribuicao uniforme
contnua em (0, 1), isto e, () = 1, 0 < < 1.


Considerando a reparametrizacao = ln 1
, tem uma distribuicao logstica padronizada (o parametro de locacao e igual a zero e o parametro de escala e igual a um), isto
e,
exp ()
(3.6)
() =
[1 + exp ()]2
em que < < .
Supor agora uma distribuicao a priori uniforme para (priori impropria). Isso corresponde
a` uma distribuicao a priori para dada por,
() 1 (1 )1

(3.7)

para 0 < < 1, que e o n


ucleo de uma distribuicao beta (a, b) com a = b = 0 (priori impropria).
Dessa forma, precisamos ter muito cuidado em usar a priori nao-informativa de BayesLaplace a`s aplicacoes em geral.
M
etodo de Jeffreys: Considerar a medida de informacao de Fisher para um parametro
em toda reta,
(
2 )
d ln f (y |)
I () = E
(3.8)
d
em que o valor esperado e determinado sob a distribuicao f (y|) .
CEMEQ - Centro de Metodos Quantitativos

3.3. DISTRIBUIC
OES
A PRIORI NAO-INFORMATIVAS
Para qualquer transformacao um a um de , temos,
 2
d
I () = I [ ()]
d

31

(3.9)

(ver Box e Tiao, 1973).


Assumir que nessa nova parametrizacao , a funcao de verossimilhanca so muda em amostras diferentes de mesmo tamanho em locacao e nao em escala. Assim, teramos variancia
constante na aproximacao assintotica (ver 1.27) para a distribuicao a posteriori para , ou seja
I () =constante (informacao de Fisher constante).
Dessa forma, teramos de (3.9),


d
d

2

= I 1 [ ()]

(3.10)

Isto e,
1
d
= I 2 [ ()]
d

(3.11)

Como nessa parametrizacao , a funcao de verossimilhanca so muda em locacao para amostras diferentes de mesmo tamanho, uma priori nao-informativa para e dada por uma distribuicao localmente uniforme, isto e,
() constante

(3.12)

Isso implica que na parametrizacao , a priori nao-informativa correspondente e dada por,



d
(3.13)
() = [ ()]
d

d
constante
d
De (3.11), observar que
para dada por,

d
d

= I 2 (), o que leva a uma priori nao-informativa de Jeffreys


1

() I 2 ()

(3.14)

importante salientar que a priori de Jeffreys e invariante.


E
Exemplo 3.4: Seja
Pn Xi uma variavel aleatoria com distribuicao de Bernoulli, i = 1, . . . , n.
dessa forma, Y =
cao binomial b (n, ) em que a informacao de
i=1 Xi tem uma distribui
1
1
Fisher e dada por I () = n (1 ) .
Portanto, uma priori nao-informativa de Jeffreys para e dada por,
1

() 2 (1 ) 2

(3.15)


Isto e, v Beta 12 , 12 .
Nota: Observar que a informacao de Fisher (3.8), tambem pode ser dada na forma,
 2

d ln f (y p )
I () = E
(3.16)
d2
Exemplo 3.5: Seja Yi uma variavel aleatoria com distribuicao de Poisson com parametro
CEMEQ - Centro de Metodos Quantitativos

3.3. DISTRIBUIC
OES
A PRIORI NAO-INFORMATIVAS

32

, i = 1, . . . , n. Assumindo observacoes i.i.d., a funcao de verossimilhanca para e dada por,


L () =

n
Y
exp () yi

(3.17)

yi !

i=1

Isto e,
exp (n)
L () =
n
Q
yi !

Pn

i=1

yi

(3.18)

i=1

O logaritmo da verossimilhanca e dado por,


l () = n + n
y log () log

n
Y

!
yi !

(3.19)

i=1

P
em que n
y = ni=1 yi .
A primeira e segunda derivadas de l () sao dadas, respectivamente por,
dl
n
y
= n +
(3.20)
d

n
y
d2 l
2 = 2
d


Observando que E (Y ) = , isto e, E Y = , a informacao de Fisher para e dada por,
 2 
dl
n
I () = E 2 =
(3.21)

d
Dessa forma, a priori de Jeffreys para e dada por,
1

() I 2 ()
Isto e,
()

(3.22)
1 , > 0
2
Combinando-se (3.18) com (3.22) , encontramos a distribuicao a posteriori para dada por,
1

( | y) (ny+ 2 )1 exp (n)

(3.23)

Isto e,



1
| y v Gama n
y + ,n
2
Um estimador de Bayes com respeito a` funcao perda quadratica para e dado por,
y+
= E ( | y) = n
n

1
2

= y +

1
2n

(3.24)

Observar que o EMV (estimador de maxima verossimilhanca) para e dado por = y.


Exemplo 3.6: Assumir que Y seja uma variavel aleatoria com densidade exponencial
f (y | ) = exp (y) , y > 0. Assumir uma amostra aleatoria de tamanho n dada por
y = (y1 , . . . , yn ).
CEMEQ - Centro de Metodos Quantitativos

3.3. DISTRIBUIC
OES
A PRIORI NAO-INFORMATIVAS

33

A funcao de verossimilhanca para e dada por,


L () =

n
Y

exp (yi )

(3.25)

i=1

Isto e,
L () = n exp

n
X

!
yi

(3.26)

i=1

Observar que E (Y ) = 1 .
O logaritmo da funcao de verossimilhanca para e dado por,
l () = n log n
y

(3.27)

A primeira e segunda derivada de l () sao dadas, respectivamente, por


dl
n
=
n
y
d

n
d2 l
2 = 2
d

(3.28)

A informacao de Fisher e dada por,




d2 l
n
I () = E 2 = 2
d

(3.29)

Portanto, a priori de Jeffreys para e dada por,


()

(3.30)

Combinando-se (3.26) com (3.30), encontramos a distribuicao a posteriori para dada por,
( | y) n1 exp (n
y)

(3.31)

| y v Gama (n; n
y)

(3.32)

Isto e,
Observar que o estimador de Bayes para com respeito a funcao de perda quadratica e
dado por,
= E ( | y) = n = 1

(3.33)
n
y
y
Neste caso, o estimador de Bayes coincide com estimador de maxima verossimilhanca para
.
Caso Multiparam
etrico: De forma similar ao caso uniparametrico (ver Box e Tiao, 1973),
determinamos a priori de Jeffreys para um vetor de parametros = (1 , . . . , k )0 .
O logaritmo da funcao de verossimilhanca para um vetor = (1 , . . . , k )0 pode ser aproxi na forma,
mado por uma serie de Taylor na vizinhanca do EMV
0


  n

D

(3.34)
l () = log L () =l

2
CEMEQ - Centro de Metodos Quantitativos

3.3. DISTRIBUIC
OES
A PRIORI NAO-INFORMATIVAS

34

em que
1 2l
D =
n i j



(3.35)

para i, j = 1, 2, . . . , k. Observar que D e uma matriz k k.


 
 
, em que In
e a matriz de informacao de Fisher,
Para n grande, D =
n1n In

   
2l

In = E
i j

(3.36)

Considerar uma transformacao () tal que In () seja uma matriz de constantes indepedentes de tal que a funcao de verossimilhanca so muda em locacao. Isto e,
I () = AIn () A0

(3.37)

em que

A=

(1 , . . . k )
(1 , . . . k )

Portanto,
|In ()| = |A|2 |In ()|

(3.38)

em que || denota determinante. Entao considerar




(1 , . . . k )
1

|In ()| 2
|A| =

(1 , . . . k )

(3.39)

em que conclui-se que a priori de Jeffreys e dada por,


1

() |In ()| 2

(3.40)

A matriz de informacao de Fisher dada por,



 2

 2

 2
ln f (yp)
ln f (yp)
E lnf 2(yp)
E
.
.
.
E

 2 1 2 
 21 k 

ln f (yp)
ln f (yp)
E 2
. . . E

2 k
2

.
.
I () =

.
.

.
.


 2
ln f (yp)
E 2

(3.41)

Exemplo 3.7: Seja y = (y1 , . . . , yn ) uma a. a. de tamanho n da distribuicao normal


0
N (; 2 ). Aqui, = (, 2 ) .
A funcao de verossimilhanca para = (, 2 ) e dada por,
"
#
n
X
n

1

L () = f (y | ) 2 2 exp 2
(yi )2
(3.42)
2 i=1
O logaritmo l () da funcao de verossimilhanca L () e dada por,
n

n
1 X
2
l () = ln L () ln 2
(yi )2
2
2 i=1

CEMEQ - Centro de Metodos Quantitativos

(3.43)

3.3. DISTRIBUIC
OES
A PRIORI NAO-INFORMATIVAS

35

As segundas derivadas de l () com respeito `a e 2 sao dadas por,


2l
1
= 2n
2

n
2
n
2 X
l
(yi )2
2 =
2
3
2
2
2
( )
2 ( )
2 ( ) i=1
n
1 X
2l
=

(yi )
( 2 )
( 2 )2 i=1
 2 
l
Como E (Yi ) = e E (Yi )2 = 2 , observamos que E
=
2


2l
E (
= 0.
2)
Portanto, a informacao de Fisher e dada por,
n


0
2
2
I , =
0 2n4

(3.44)

n
,
2



2l
E (
=
2 )2

n
2 4

(3.45)

A priori de Jeffreys (ver 3.40) e dada por,



1
, 2 3

(3.46)

para < < e 2 > 0.


A distribuicao a posteriori conjunta para e 2 e dada por,
"
#
n
X
(n+3)


1

2
exp 2
(yi )2
, 2 p y 2
2 i=1
M
etodo da Entropia M
axima: Supor inicialmente que seja um parametro discreto
com funcao de probabilidade h (). A entropia e definida como o valor esperado de ln h (),
dada por,
X
E [h ()] =
ln [h (i )] h (i )
(3.47)
i

Da, usar esse conceito para encontrar uma distribuicao a priori nao-informativa.
Exemplo 3.8: Supor que o parametro assume um n
umero finito de valores distintos
1 , . . . , k , com probabilidade P ( = i ) = pi > 0, i = 1, . . . , k.
Pk Dessa forma, usar o metodo de entropia
Pk maxima para achar pi , i = 1, . . . , k com a restricao
i=1 pi = 1 que maximize E [h ()] =
i=1 pi ln pi .
Introduzindo multiplicadores de Lagrange, devemos maximizar,
!
k
k
X
X
E [h ()] =
pi ln pi +
pi 1
(3.48)
i=1

De

E [h()]
pi

i=1

= 0, i = 1, . . . , k temos o sistema de equacoes,


ln pi 1 + = 0

(3.49)

para i = 1, . . . , k, isto e, ln pi = 1 para todo i = 1, . . . , k, o que leva pi a ser contante. Assim


pi = k1 , i = 1, . . . , k e uma priori nao-informativa que maximiza a entropia.
Outra possibilidade e assumir uma ignorancia parcial (e nao total) onde se conhece alguns
CEMEQ - Centro de Metodos Quantitativos

3.4. EXERCICIOS

36

momentos da distribuicao. Como um caso especial, assumir novamente discreto tal que
conhecemos para m funcoes gj () , j = 1, . . . , m os seus momentos E [gj ()] = j .
Com a introducao de multiplicadores de Lagrange devemos maximizar E [h ()] dado por,
!
"
#
m
X
X
X
X
E [h ()] =
pi ln pi +
pi 1 +
j
gj (i ) pi j
(3.50)
i

j=1

No caso contnuo a entropia de uma distribuicao h () e definida por,


Z
E [h ()] = h () ln h () d

(3.51)

Nota: Outros metodos para obtencao de distribuicoes a priori nao-informativas sao introduzidos na literatura. Bernardo (1979) introduz a priori de referencia explorando a medida de
divergencia de Kullback-Leibler (ver Bernardo e Smith, 1995).

3.4

Exerccios

(1) Seja X = (X1 , . . . , Xn ) uma amostra aleatoria de uma distribuicao normal N (, 2 ).


(a) Assumindo conhecido, achar uma priori nao-informativa de Jeffreys para .
(b) Assumindo conhecido, achar uma priori nao-informativa de Jeffreys para .
(c) Com e desconhecidos, achar a priori de Jeffreys para e .
(2) Seja T uma variavel aleatoria representando o tempo de vida de um componente, com
distribuicao exponencial com densidade,
f (t | i ) = i exp (i t) , t > 0; i 0
em que i =

1
,
i

i = E (T | i ) e o modelo de potencia inversa i =

,
Vi

i = 1, . . . , k usado em

testes acelerados industriais (Vi e fixo) .


Considere k = 2 e os dados de um teste acelerado com dois nveis para a variavel stress Vi :
i
1
2

Vi ni
10 5
20 8

tji ; i = 1, 2; j = 1, . . . , ni
6, 8, 10, 12, 14
4, 5, 5, 6, 8, 8, 9, 14

(a) Escrever a funcao de verossimilhanca para e ;


(b) Achar uma priori nao-informativa para e usando a regra de Jeffreys;
(c) Achar a posteriori conjunta para e ;
(d) Achar a posteriori marginal para .
(3) Considerar uma variavel aleatoria Y com densidade Gaussiana inversa com parametros
e e densidade,


 1
2
1 1
1
1 3 2
f (y | , ) = 2 y
exp y
y 1
2
3

em que y > 0; > 0; > 0, E (y) = e var (y) = .


(a) Assumindo uma amostra aleatoria de tamanho n (y1 , . . . , yn ) achar uma densidade a
priori nao informativa conjunta para e usando a regra de Jeffreys;
CEMEQ - Centro de Metodos Quantitativos

3.4. EXERCICIOS

37

(b) Achar a distribuicao a posteriori conjunta para e usando a priori obtido em (a) ;
(c) Achar a densidade a posteriori marginal para ;
(d) Assumindo conhecido, achar uma priori nao-informativa para usando a regra de
Jeffreys.

CEMEQ - Centro de Metodos Quantitativos

Captulo 4
Aproxima
co
es Num
ericas e M
etodos de
Monte Carlo
Na obtencao de sumarios a posteriori de interesse, geralmente precisamos resolver integrais
Bayesianas que nao apresentam solucao analtica. Isto e comum quando temos um vetor de
parametros.
Varias alternativas sao introduzidas na literatura para resolver essas integrais Bayesianas.
A seguir, apresentaremos alguns casos especiais.

4.1

Aproximac
ao de Laplace

Supor que estamos interessados em achar momentos a posteriori da forma,


Z
E [g () | y] = g () ( | y) d

(4.1)

em que g () e uma funcao de interesse.


Como a distribuicao a posteriori para e dada por,
( | y) = R

f (y | ) ()
f (y | ) () d

(4.2)

em que f (y | ) e a funcao de verossimilhanca para e () e uma priori para , podemos


escrever (4.1) na forma:
R
g () f (y | ) () d
E [g () | y] = R
(4.3)
f (y | ) () d
em que = (1 , . . . , k )0 e y = (y1 , . . . , yn )0 e o vetor de dados.
Supor g () uma funcao positiva. Assim podemos reescrever (4.3) por,
R
exp [nh ()] d
R
E [g () | y] =
exp [nh ()] d

(4.4)

em que nh () = ln () + ln f (y | ) e nh () = ln g () + ln () + ln f (y | ).

Caso Uniparam
etrico: Seja unidimensional ( R) em que maximiza h () e
h  i 21
h
 i 12

00
00
maximiza h (). Definir
= h
e
= h

(h00 (.) e a segunda derivada


de h (.)).
38

DE LAPLACE
4.1. APROXIMAC
AO

39

As aproximacoes de Laplace para as integrais no numerador e denominador de (4.4) sao


dadas respectivamente por,
Z
h
 i

1
exp [nh ()] d =

2
n 2 exp nh
(4.5)
Z
h
 i

1
exp [nh ()] d =

2
n 2 exp nh
Observe que as aproximacoes de Laplace sao aproximacoes normais para os integrandos.
Assim, obtem-se a aproximacao
 
 io
n
h  

\
(4.6)
exp n h h
E [g () | y]
=

Tierney e Kadane (1986) mostram que a aproximacao (4.6) e bem precisa e satisfaz,


(4.7)
E [g () | y] =
E [g () | y] 1 + o n2
em que o [(n2 )] e a ordem do erro de aproximacao (observar que an = (bn ) se abnn 0 quando
n ).

Caso Multiparam
etrico: Seja = (1 , . . . , k ) Rk . Neste caso a aproximacao de
Laplace e dada por,
Z

  12
h
 i
k
exp nh

exp [nh ()] =


(2) 2 n 52 h
(4.8)


 
 2
2
h()

em que maximiza h () e 5 h = i j |= e a matriz hessiana de H calculada


ij

em .


  21
  21


e
, em que
mazimiza h () e

Escrevendo
= n 52 h
= n 52 h
maximiza h ( ), encontramos a aproximacao de Laplace,
 
 io
n
h  

(4.9)
E [g () | y]
=
exp n h h

Podemos usar a aproximacao de Laplace para calcular momentos a posteriori de interesse,


densidades preditivas e densidades a posteriori marginais de interesse (ver Tierney e Kadane,
1986).
Exemplo 4.1: Seja Y uma vari
avel aleatoria com distribuicao binomial b (n, ) e assumir
1 1
uma distribuicao a priori Beta 2 , 2 para o par
 ametro . A distribuicao a posteriori para e
dada pela distribuicao Beta y + 12 , n y + 21 .
Neste caso, observamos que a media a posteriori para e dada (forma exata) por E ( | y) =
(y+ 12 )
.
(n+1)

Como ilustracao numerica, vamos considerar a aproximacao de Laplace para a media a


posteriori para . Observar que (ver 4.4),
R1
E ( | y) =

0
R1
0

CEMEQ - Centro de Metodos Quantitativos

y+ 2 (1 )ny 2 d
y 2 (1 )ny 2 d

(4.10)

DE LAPLACE
4.1. APROXIMAC
AO

40

Considerar a aproximacao de Laplace para a integral,


Z 1
Z 1
b
a
exp [nh ()] d
(1 ) d =

(4.11)

em que nh () = a ln + b ln (1 ). O maximo de h () e dado (de h0 () = 0) por


3
= a . A segunda derivada de nh () calculada em e dada por nh00 () = (a+b) , isto
(a+b)
ab
h
 i
h  i 12
1

2
aa bb
e,
= h00
= n(ab)3 . Tambem exp nh = (a+b)
a+b .
(a+b) 2

Dessa forma, a aproximacao de Laplace para (4.11) e dada (ver (4.5)) por,

Z 1
1
1
2aa+ 2 bb+ 2
b
a
(1 ) d=

3
0
(a + b)a+b+ 2

(4.12)

Com a = y + 12 , b = n y 21 (numerador de (4.10)) e a = y 12 , b = n y 12 (denominador


de 4.10), encontramos
y+1
1
(n 1)n+ 2 y + 21
E ( | y) =

(4.13)

3
nn+ 2 y 12
Nota: A aproximacao de Laplace para integrais nao e invariante `a reparametrizacoes (ver
Achcar e Smith, 1989).
Exemplo 4.2: Considerar a razao das medias de duas distribuicoes exponenciais com
medias e , respectivamente. Seja y11 , . . . , y1n uma a. a. de tamanho n de uma distribuicao
exponencial com media e seja y21 , . . . , y2n uma a. a. de tamanho n de uma distribuicao
exponencial com media . Assumir independencia entre as duas amostras.
A funcao de verossimilhanca para e e dada por,
L (, ) ()n exp n
y1 1 n
y2 1
P
P
y2 = ni=1 y2i .
em que n
y1 = ni=1 y1i e n

(4.14)

A distribuicao a priori de Jeffreys para e e dada por,


(, )

(4.15)

em que > 0 e > 0.


A razao das medias e dada por = . A media a posteriori para e dada por,


R R n (n+2)
n
y1
n
y2



exp

dd



|y = RR
E

(n+1) (n+1) exp ny1 ny2 dd

Considerar a aproximacao de Laplace para a integral,




Z Z
Z Z
n
y1 n
y2
a b
exp

dd =
exp [nh (, )]

em que nh (, ) = a ln b ln

n
y1

=
O maximo de h (, ) e dado por
CEMEQ - Centro de Metodos Quantitativos

(4.16)

(4.17)

n
y2
.

n
y1
a

=
e

n
y2
.
b

h
Tambem n
|(,

) =
2

a3
;
(n
y1 )2

4.2. METODO
DE MONTE CARLO ORDINARIO
2

h
n
| ) =
2 (,

b3
(n
y2 )2

41

n h
e dada por,
e
|(,

) = 0. Portanto a matriz hessiana (ver 4.8)


!
a3


0
2

= (ny1 )
n2 h ,
(4.18)
b3
0
(n
y )2
2

n
h

io 21

isto e, det n2 h ,
=

(n
y1 )(n
y2 )
3

a2 b2

h

i

=
. Tambem, exp nh ,

aa bb
(n
y1 )a (n
y2 )b

exp (a b).

Assim a aproximacao de Laplace (ver 4.8) para (4.17) e dada por,


Z Z

a b



3
3
y2
2aa 2 bb 2 exp [ (a + b)]
n
y1 n

dd=

exp

na+b2 y1a1 y2b1

(4.19)

Dessa forma, usando (4.19) no numerador e denominador de (4.16) encontramos,


1 

 n 3

\

n 2 (n + 2)n+ 2 y1
E
|y =

y2
(n + 1)2n1

Observar que o resultado exato para esse caso e dado por,



 


n
y1
E
|y =

n 1 y2

4.2

(4.20)

(4.21)

M
etodo de Monte Carlo Ordin
ario

Supor que estamos interessados em aproximar uma integral na forma,


Z
E [g () | y] = g () ( | y) d

(4.22)

em que y e podem ser vetores.


Pelo metodo de Monte Carlo ordinario, simular uma amostra 1 , . . . , n da distribuicao a
posteriori ( | y). Assim, (4.22) e aproximado por,
n

1X
E [g () | y] =
g (i )
n i=1

(4.23)

Observar que pela lei forte dos grandes n


umeros, E [g () | y] converge quase certamente
para E [g () | y].
A precisao dessa aproximacao pode ser medida pelo erro-padrao de Monte Carlo, dado por,

"
n
X

1
p
n (n 1) i=1

#2 12
n

X
1
g (i )
g (i )

n i=1

(4.24)

Intervalos de credibilidade para podem ser obtidos usando o metodo de Monte Carlo
ordinario. Ordenar a amostra simulada de ( | y) : (1) < (2) < . . . < (n) . Um intervalo de
credibilidade 100% para e dado por,
h
i
Rc () = (1) ; (1+)
(4.25)
2

CEMEQ - Centro de Metodos Quantitativos

4.3. METODO
DE MONTE CARLO POR IMPORTANCIA

42

(1)
cujos extremos
de probabilidade
a posteriori
e (1+)
de .
2
2
h definem quantis
i
h
i
Isto e, P (1) | y = (1)
e P (1+) | y = 1 (1)
= (1+)
.
2
2
2
2

4.3

M
etodo de Monte Carlo por Import
ancia

Observar que em muitas aplicacoes, nao podemos simular uma amostra diretamente da
distribuicao a posteriori ( | y), como considerado usando o metodo de Monte Carlo ordinario.
Uma alternativa seria simular uma amostra de uma distribuicao semelhante a` distribuicao
a posteriori ( | y), uma amostragem via funcao de importancia.
Seja p () uma densidade da qual seja facil simular amostras e que aproxime a distribuicao
( | y).
Assim, podemos escrever (4.22) na forma,
R
Z
g () f (y | ) () d
R
(4.26)
g () ( | y) d =
f (y | ) () d
R
g () f (y|)()
p () d
p()
=
R f (y|)()
p () d
p()
R
g () w () p () d
R
=
w () p () d
em que w () = f (y|)()
, f (y | ) e a funcao de verossimilhanca para e () e a distribuicao
p()
a priori para .
Obtendo uma amostra 1 , . . . , n de p (), encontramos a aproximacao de Monte Carlo para
E [g () | y] dada por,
n
X
1
\
P
wi g (i )
(4.27)
E [g () | y] = n
i=1 wi i=1
em que
wi =

f (y | i ) (i )
p (i )

Nota: Observar que o metodo de amostragem via funcao de importancia atribui mais peso
a` regioes em que p () < ( | y) e menos peso `as regioes em que p () > ( | y). Geweke
(1989) mostra que se o suporte de p R() inclui suporte de ( | y), os i , i = 1, . . . , n sao os
elementos de uma a. a. de p () e se g () ( | y) d existe e e finito, entao,
n
X

1
Pn

i=1

wi

Z
wi g (i )

i=1

q.c

g () ( | y) d

(4.28)

O erro-padrao dessa estimativa de Monte Carlo via funcao de importancia e dado por,
1
Pn

"
n
X

j=1 wj i=1

g (i ) Pn

j=1 wj

n
X
i=1

#2
wi g (i )

wi2

1
2

(4.29)

Observar que a razao de convergencia depende de como p (), a funcao de importancia, esta
proxima de ( | y).
Uma boa escolha da funcao de importancia segue as propriedades:
1. Simplicidade na geracao de amostras;
CEMEQ - Centro de Metodos Quantitativos

4.3. METODO
DE MONTE CARLO POR IMPORTANCIA

43

2. Ter caudas mais pesadas do que ( | y);


3. Ser uma boa aproximacao para ( | y).
Para vetores parametricos , podemos considerar como funcao de importancia distribuicoes
normais multivariadas ou distribuicoes t de Student multivariada.
Exemplo 4.3: De acordo com um modelo genetico, animais de uma determinada especie
estao distribudos em 4 categorias, de acordo com as probabilidades: p1 = (2+)
; p2 = (1)
; p3 =
4
4
(1)

; p4 = 4 , 0 < < 1. Assumir que o parametro de interesse tem uma distribuicao a priori
4
Beta(a, b) com a e b conhecidos ePpara uma amostra de tamanho n se observa yi animais na
i esima categoria, i = 1, 2, 3, 4; ni=1 yi = n. Assim a distribuicao a posteriori para e dada
por:
( | y) (2 + )y1 (1 )y2 +y3 +b1 y4 +a1
(4.30)
para 0 < < 1.
O logaritmo da posteriori e dado por
L () = ln [ ( | y)] y1 ln (2 + ) + (y2 + y3 + b 1) ln (1 ) + (y4 + a 1) ln ()
A primeira e segunda derivadas de L () sao dadas, respectivamente, por
y1
y4 + a 1 (y2 + y3 + b 1)
+

2+

1
y1
(y2 + y3 + b 1) y4 + a 1
+
L00 () =
2 +
2
(2 + )
(1 )2
L0 () =

 i1
 
h
; assumir esses valores como
Seja o valor total que L0 = 0 e 2 = L00
aproximacao para a media e para a variancia da distribuicao importancia. Possveis candidatas:
distribuicao normal e distribuicao beta.
Entao, seguir o seguinte roteiro:
1. Simular 1 , . . . , m de p () a funcao de importancia escolhida;
2. Calcular wi =
3. Calcular

Pm1

f (y|i )(i )
,
p(i )

i=1 wi

Pm

i=1

i = 1, . . . , m;

wi g (i ) com,

g () = para o calculo aproximado da media a posteriori;


g () = 2 para obter uma aproximacao para a variancia a posteriori.
Exemplo 4.4: Considerar uma amostra aleatoria de tamanho n = 5 (11, 4; 7, 3; 9, 8; 13, 7; 10, 6)
de uma densidade de Cauchy

1
f (y | ) = 1 1 + (y )2

(4.31)

em que < y < . A media amostral e dada por y = 10, 56.


Assumindo uma priori nao informativa localmente uniforme () constante, < y <
, a densidade a posteriori para e dada por,
( | y) = cH ()
CEMEQ - Centro de Metodos Quantitativos

(4.32)


4.4. ALGORITMO DE AMOSTRAGEM-REAMOSTRAGEM POR IMPORTANCIA

44

em que

1
H () = 105 1 + (11, 4 )2




1 
1
1
1 + (7, 3 )2
1 + (9, 8 )2
1 + (13, 7 )2


2 1
e
1 + (10, 6 )
Z
H () d
c1 =

(4.33)

(ver Box e Tiao, 1973).


Observar que a variacao de na posteriori esta entre 6 e 16 com media amostral y = 10, 56.
Portanto, escolher uma funcao importancia p () dada por uma densidade normal com media
11 e variancia igual a` 4. Entao, gerar M = 1000 observacoes da distribuicao normal N (11; 4)
e aproximar a media a posteriori para por (4.27), isto e,
E\
( | y) =

1000
X

wi i

(4.34)

i=1
H ( i )

em que wi =

p( i )
P1000
H( m )
i=1
p( m )

e H (i ) e dado por (4.33) e p (m ) e dado por p (m ) =

1
2 2

h
1
exp 2(4)
(m 11)2

Assim encontramos E\
( | y)=10,

620.
(Colocar programa em R!!!)

4.4

Algoritmo de Amostragem-Reamostragem por Import


ancia

Outra forma para simular amostras para uma distribuicao a posteriori de interesse e dada
pelo algoritmo SIR (sampling-importance-resampling).
Assumir que a posteriori de interesse g () = ( | y) e difcil para simular amostras
diretamente. Dessa forma, considerar uma funcao importancia p () que aproxima g () e e
simples para simulacao de amostras.
O algoritmo SIR apresenta duas etapas:
1. Gerar m amostras 1 , 2 , . . . , m de p (). Calcular os pesos wi = w ( i ) =
i = 1, 2, . . . , m.

g ( i )
p( i )

para

2. Selecionar uma amostra 1 , . . . , n com reposicao de 1 , 2 , . . . , m com probabilidades


proporcionais a` [w ( 1 ) , . . . , w ( m )].
Rubin (1987) mostra que a amostra ( i ) e aproximadamente distribuda da densidade a
posteriori de interesse g ( ).
Alguns autores denominam este procedimento como bootstrap ponderado pois selecionamos
amostras com reposicao de ( 1 , . . . , m ) usando pesos (probabilidades) diferentes w ( i ).
importante salientar que:
A precisao aumenta quando m na amostra original aumenta. E
1. Se as medias de p () e g () sao muito diferentes, e importante que um n
umero suficiente

de pontos amostrais de p () seja selecionado na regiao em que g () esta concentrado.


CEMEQ - Centro de Metodos Quantitativos


4.4. ALGORITMO DE AMOSTRAGEM-REAMOSTRAGEM POR IMPORTANCIA

45

2. Em inferencia Bayesiana, g () seria a posteriori ( | y) e p () poderia ser a distribuicao


a priori para se a priori for propria; dessa forma, os pesos seriam proporcionais `a funcao
de verossimilhanca, pois,
w ( i ) =

L ( i ) ( i )
= L ( i )
( i )

Exemplo 5.4: Considerar a razao de medias de duas distribuicoes exponenciais com parametros e . Assumir uma amostra de tamanho n, y11 , . . . , y1n de uma distribuicao exponencial
com media e uma amostra de tamanho n, y21 , . . . , y2n de uma distribuicao exponencial com
media . A funcao de verossimilhanca para e , assumindo independencia entre as duas
amostras e dada por

L (, ) ()n exp n
y1 1 n
y2 1
em que
n
y1 =

n
X

y1i ; n
y2 =

i=1

n
X

y2i

i=1

(a) Achar a priori de Jeffreys para e ;


(b) Achar a aproximacao de Laplace para E ( | y) quando = g (, ) =
meidas);
(c) Considerando a reparametrizacao =

(e) Considerar n = 10, y1 = 4 e y2 = 2. Calcular E ( | y) em cada caso.


Soluc
ao:
(b)


| y =
E ( | y) = E



R R n (n+2)
n
y1
n
y2

exp

dd

0
0


= RR
(n+1) (n+1) exp ny1 ny2 dd
0
0


Resultado:

I1 =

a b



y2
n
y1 n
exp

dd

Z Z
=

exp [nh (, )] dd

em que
nh (, ) = a log () b log ()

n
y1 n
y2

Laplace:
h

i 12
h

i
2

I1 u (2) det nD h ,
exp nh ,
CEMEQ - Centro de Metodos Quantitativos

(razao de

e = , achar a priori de Jefreys para e ;

(d) Achar a aproximacao de Laplace para E ( | y) na parametrizacao =

Z Z

e = .


4.4. ALGORITMO DE AMOSTRAGEM-REAMOSTRAGEM POR IMPORTANCIA

46

n
y1
a
n
y2
b

nh
a n
y1
=
= + 2 =0

b n
y2
nh
=
= + 2 =0

n 2 h
a
2n
y1
=
2
2
3

2
n h
b
2n
y2

=
2
2
3

n 2 h
= 0

n 2 h
a3
|
=

)
(,
2
n (n
y1 )2
n 2 h
b3
|
=

(,) n (n
2
y2 )2
a3
n(n
y1 )2


2

nD h , =

0
b3
n(n
y2 )2

isto e,
n
h

io 12
(n
y1 ) (n
y2 )
2

det nD h ,
=
3 3
a2 b2





h

i  n
a
b
n
y
a
n
y
b
n
y
y
1
1
2
2

=
exp

exp nh ,
a
b
n
y1
n
y2
Assim,
h

i

exp nh , =

aa b b

(n
y1 )a (n
y2 )b

exp (a b)

Conclus
ao:
3

2aa 2 bb 2 exp [ (a + b)]


I1 u
na+b2 y1a1 y2b1
Observar que com a = n, b = n + 2 no numerador de I1 e com a = n + 1 e b = n + 1 no
denominador de I1 , temos:

E

|y

nn 2 (n + 2)n+ 2
u
(n + 1)2n1

y1
y2

Nota: O resultado exato neste caso e dado por:



 
 

n
y1
E
|y =

n1
y2
(c)
Priori de Jefreys para e :
(, ) 1 1 , > 0, > 0
CEMEQ - Centro de Metodos Quantitativos

4.5. EXERCICIOS

47

Posteriori conjunta para e :




n1
y1 + y2 ) , > 0, > 0
(, | y) 2n1 exp n1 (

(d)
A media a posteriori para e dada por:


R R n (2n+1)

exp n1 (
y1 + y2 ) dd
0
0
E ( | y) = R R n1 (2n+1)


1

exp
n
(
y
+
y

)
dd
1
2
0
0
Aproximac
ao de Laplace:
Z

a b

exp n


(2) aa+ 2 (b a)ba 2 exp (b)
(
y1 + y2 ) dd u
3
nb 2 y1ba2 y2a+1

entao:

E\
( | y) u

nn+ 2 (n + 1)n 2
1


1

(n 1)n 2 (n + 2)n 2

y1
y2

Ilustrac
ao Num
erica:
n = 10; y1 = 4; y1 = 2
(a) Exato:
 
 

n
y1

|y =
= 2, 2222
E

n1
y2
(b) Laplace na parametrizacao e :
1 



3
\

nn 2 (n + 2)n+ 2 y1
E
|y u
= 2, 21805

y2
(n + 1)2n1

(c) Laplace na parametrizacao =

e :
3

E\
( | y) u

nn+ 2 (n + 1)n 2
1


1

(n 1)n 2 (n + 2)n 2

y1
y2


= 2, 16442

Conclus
ao: Melhor aproximacao na parametrizacao e .

4.5

Exerccios

(1) Seja y1, . . . , yn uma amostra aleat


 oria de tamanho n de uma distribuicao exponencial
y
1
com media f (y | ) exp . Assumir n = 30 e y = 12, e considerar uma priori de
Jeffreys para .
(a) Achar a aproximacao de Laplace para E ( | y) e var ( | y);
(b) Achar a aproximacao de Laplace para a confiabilidade em y = 10;
(c) Determinar os valores exatos de E ( | y) e var ( | y). Comparar com as aproximacoes
obtidas em (a);
(d) Considerar a parametrizacao = ln (). Qual e a priori de Jeffreys para ?
(e) Achar as aproximacoes de Laplace para E ( | y) e var ( | y) na parametrizacao =
ln () ou = exp (); Comparar os resultados exatos obtidos em (c);
(f ) Conclusoes.
CEMEQ - Centro de Metodos Quantitativos

4.5. EXERCICIOS

48

(2) Seja y1 , . . . , yn uma a. a. de tamanho n de uma distribuicao de Poisson com parametro


.
(a) Considerar uma distribuicao a priori de Jeffreys para . Calcular aproximacoes de
Laplace para E (a | y) ; (n = 5, y = 10) para a = 1, 2, 3, 5 e 10;
1
(b) Considerar a parametrizacao = 2 . Qual e a priori de Jeffreys para ? Na pa
rametrizacao achar aproximacoes de Laplace para E (a | y) , a = 1, 2, 3, 5 e 10 = 2 .
Conclusoes?
(3) Seja T uma variavel aleatoria representando o tempo de vida de um componente, com
distribuicao exponencial dom densidade,
f (t | i ) = i exp (i t) , t > 0; i 0
em que i =

1
,
i

i = E (T | i ) e o modelo de potencia inversa i =

,
Vi

i = 1, . . . , k usado em

testes acelerados industriais (Vi e fixo) .


Considere k = 2 e os dados de um teste acelerado com dois nveis para a variavel stress Vi :
i
1
2

Vi ni
10 5
20 8

tji ; i = 1, 2, ; j = 1, . . . , ni
6, 8, 10, 12, 14
4, 5, 5, 6, 8, 8, 9, 14

Assumir uma priori de Jeffreys para e .


(a) Achar a aproximacao de Laplace para E ( | D) e E ( | D);
(b) Achar E (1 | ) (Tempo de vida sob nvel usual de stress) usando metodo de Laplace;
(c) Achar ( | D) e ( | D). (Distribuicoes Marginais).

CEMEQ - Centro de Metodos Quantitativos

Captulo 5
M
etodos de Monte Carlo em Cadeias
de Markov
Supor que temos interesse em gerar uma amostra de uma distribuicao a posteriori ( | y),
Rk mas nao podemos fazer isso diretamente. Entretanto, supor que podemos construir
uma cadeia de Markov com espaco de estados no espaco parametrico (conjunto de todos
valores possveis de ) que e simples para simular e cuja distribuicao de equilbrio seja dada por
( | y). Se temos muitas simulacoes dessa cadeia, os valores simulados da cadeia podem ser
usados como uma base para sumarizar caractersticas da posteriori ( | y).
Resultado: (Besag, 1994). Se a distribuicao conjunta a posteriori ( | y) for positiva
em 1 2 k , com i sendo suporte para a distribuicao de i , i = 1, . . . , k, entao
a distribuicao a posteriori
 ( | y) e unicamente determinada pelas distribuicoes condicionais
completas i | y, (i) para i = 1, . . . , k em que = (1 , . . . , k ) e (i) e o vetor de todos os
componentes de exceto i , isto e, (i) = (1 , . . . , i1 , i+1 , . . . , k ).
Sob algumas condicoes de regularidade e facil ver que os resultados simulados da cadeia com
distribuicao de equilbrio ( | y) podem ser supostos com uma amostra aleatoria de ( | y).
Se (1) , (2) , . . . , (t) , . . . e uma realizacao de uma cadeia, temos,
D

(t) v ( | y)

(5.1)

em que o smbolo D significa convergencia em distribuicao.


Da mesma forma para estimar o valor esperado de g () com respeito `a ( | y), isto e,
Z
E [g ( | y)] = g () ( | y) d
(5.2)
observamos que
t

1 X  (i)  q.c.
g
E [g ( | y)]
t i=1

(5.3)

(q.c.: convergencia quase certa).


Na pratica, (i) pode estar correlacionado, mas poderamos considerar espacos adequados
entre os (i) gerados para garantir uma amostra aleatoria de ( | y).

5.1

O Amostrador de Gibbs

Supor que estamos interessados em obter inferencias da distribuicao a posteriori conjunta,


( | y), = (1 , . . . , k ). Para isso simulamos quantidades aleatorias de distribuicoes condici49

5.1. O AMOSTRADOR DE GIBBS




50

onais completas i | y, (i) que produzem uma cadeia de Markov.




Observar que i | y, (i) sao facilmente identificadas como funcoes de i por inspecao da
forma de ( | y) a distribuicao a posteriori para dado y. (ver por exemplo, Gamermam,
1997).
(0) (0)
(0)
Supor que atribumos um conjunto arbitrario de valores iniciais 1 , 2 , . . . , k para o
vetor de parametros .
Da, escrevemos o algoritmo:


(1)
(0)
(0)
(i) Gerar 1 de 1 | y, 2 , . . . , k ;
(5.4)


(1)
(1) (0)
(0)
(ii) Gerar 2 de 2 | y, 1 , 3 , . . . , k ;


(1)
(1) (1) (0)
(0)
(iii) Gerar 3 de 3 | y, 1 , 2 , 4 , . . . , k ;
.
.
.


(1)
(1) (1)
(1)
(k) Gerar k de k | y, 1 , 2 , . . . , k1


(1) (1)
(1)
de
Entao, substituir os valores iniciais com uma nova realizacao (1) = 1 , 2 , . . . , k
e repetir o processo acima.
(t) (t)
(t)
Para t suficientemente grande, observar que o valor 1 , 2 , . . . , k converge para um valor
da quantidade aleatoria com distribuicao ( | y) (ver Geman e Geman, 1984). Alem disso,
(t)
j pode ser considerado como uma observacao simulada da distribuicao a posteriori marginal
(j | y), j = 1, 2, . . . , k.
(t) (t)
(t)
Replicando o processo acima B vezes obtemos B vetores 1g , 2g , . . . , kg ; g = 1, 2, . . . , B.
Da convergencia do amostrador de Gibbs, qualquer caracterstica da densidade a posteriori
marginal (j | y) podeser obtida.
Em particular, se j | (j) , y e dada em forma fechada, entao
B

1 X 
g
\
(j | y) =
j | (j) , y
B g=1

(5.5)

em que j = 1, . . . , k.
Nota: Observar que
Z
(j | y) =


j | (j) , y (j) | y d (j)


(1)
(g)
(B)
Assim, gerar (s) , . . . , (s) , . . . , (s) de (s) | y .
Para verificar a convergencia do algoritmo, podemos considerar varias tecnicas. Gelfand e
Smith (1990) sugerem o uso de tecnicas graficas; dessa forma considerar varias cadeias paralelas
geradas a partir de valores iniciais diferentes. Apos um grande n
umero de interacoes em cada
cadeia, comparar os histogramas para cada componente j de . Histogramas similares, indicam
convergencia da cadeia.
Geweke (1992) sugere metodos graficos baseados em series temporais das amostras selecionadas.
Uma tecnica para monitorar a convergencia do algoritmo e proposta por Gelman e Rubin
CEMEQ - Centro de Metodos Quantitativos

5.1. O AMOSTRADOR DE GIBBS

51

(1992) baseada na analise de variancia.


Nota: Na geracao de amostras de Gibbs devemos considerar as l primeiras iteracoes como
perodo de aquecimento (burn-in-samples) que devem ser descartadas para eliminar o efeito
de valores iniciais.

5.1.1

M
etodo de Gelman e Rubin para monitorar a converg
encia do
algoritmo

Supor varios pontos iniciais dispersos. O metodo proposto por Gelman e Rubin funciona
da seguinte forma:
(a) Simular m 2 seq
uencias; cada seq
uencia de comprimento 2n, considerando pontos ou
valores iniciais diferentes. Ficar somente com as n u
ltimas iteracoes de cada seq
uencia.
(b) Seja U a quantidade de interesse que se pretende estimar (U e uma funcao de ). Seja Uij
o valor de U na j esima iteracao (entre as n u
ltimas das 2n amostras geradas) da i esima
cadeia. Calcular,
n

ui. =

1X
uij
n j=1

s2i =

1 X
(uij ui. )2
n 1 j=1

(5.6)

Observar que ui. e s2i sao, respectivamente, a media e a variancia amostral de U para cada
seq
uencia i = 1, 2, . . . , m.
(c) Calcular as seguintes componentes de variancia:
m

1 X 2
W =
s
m i=1 i

(5.7)

que e a media das m variancias dentro das seq


uencias, cada uma baseada em n 1 graus de
liberdade e
m
1 X
B
=
(
ui. u.. )2
(5.8)
n
m 1 i=1
que e a variancia entre as medias das m seq
uencias ui. cada uma baseada em n valores de uij .
(d) Estimar a media de U como uma media amostral de todos os nm valores simulados de
U , isto e,
m
1 X

= u.. =
ui.
(5.9)
m i=1
(e) Estimar a variancia de U como uma media ponderada de W e B, isto e,

2 =

n1
1
W+ B
n
n

(5.10)

Observar que
2 superestima 2 se a distribuicao inicial for superdispersa e nao e viciada
sob estacionaridade.
(f ) Criar uma distribuicao t de Student conservativa (com poucos graus de liberdade) para
CEMEQ - Centro de Metodos Quantitativos

5.1. O AMOSTRADOR DE GIBBS

U com media
e dispersao

V =

52

2 +

B
mn

e graus de liberdade V =

2V 2
,
var(V )

em que


2
2

 

m
+
1
1
2B 2
n

1
2

var V
var si +
+
=
n
m
mn
m1


2 (m 1) (n 1) n 
2
2
2
+
cov
s
,
u

2
u
cov
s
,
u

..
i.
i
i.
i
mn2
m

(5.11)

As variancias e covariancias sao estimadas a partir dos m valores amostrais de s2i , ui. e u2i. .
(g) Estimar o fator de reducao de escala por,
s
p
V V
=
(5.12)
R
W V 2
=1
Observar que esta razao (dada em 5.12) decresce para 1 quando n . Valores R

sugerem que o perodo de aquecimento e suficiente e o processo iterativo continua.


Exemplo 5.1: Considere os dados de confiabilidade de um novo software usado em um
equipamento de diagnostico computadorizado para ser usado em hospitais. Antes desse novo
software ser colocado no mercado, os analistas fazem um teste para detectar possveis erros que
devem ser corrigidos antes do software ser colocado em uso. Dessa forma, diferentes inputs
sao colocados em teste por uma dado perodo de funcionamento contnuo do equipamento e
cada vez que um erro e detectado, o software e inspecionado e refeito para tentar corrigir esse
erro. Na tabela 5.1 temos os dados representando as datas xi em que ocorrem os erros (tempos
desde o inicio da fase de teste ate a ocorrencia do erro) e os tempos entre falhas ti = xi xi1 ,
i = 1, . . . , n. O teste termina quando observamos um n
umero previamente fixado de erros.
Tabela 5.1: Dados de confiabilidade de um software.
i
1
2
3
4
5
6
7
8
9
10

ti
9
12
11
4
7
2
5
8
5
7

xi
9
21
32
36
43
45
50
58
63
70

i
11
12
13
14
15
16
17
18
19
20

ti
1
6
1
9
4
1
3
3
6
1

xi
71
77
78
87
91
92
95
98
104
105

i
21
22
23
24
25
26

ti
xi
11 116
33 149
1 150
97 247
2 249
1 250

Seja N o n
umero total (desconhecido) de erros no software. Assumir uma distribuicao
exponencial para os tempos entre falhas ti , com densidade,
f (ti | i ) = i exp (i ti )

(5.13)

em que i = 1, 2, 3, . . . ; ti > 0 e a taxa de falhas i e dada por,


i = (N i + 1)

(5.14)

Esse modelo e conhecido como modelo de confiabilidade de software de Jelinski e Moranda


CEMEQ - Centro de Metodos Quantitativos

5.1. O AMOSTRADOR DE GIBBS

53

(1972).
Assumir que o teste termina quando encontramos n erros, isto e, temos uma amostra aleatoria de tamanho n para os tempos entre falhas ti , i = 1, . . . , n.
A aleatoriedade e dada a partir de inputs aleatorios na fase de teste. A funcao de verossimilhanca para e N e dada por,
L (, N ) = n A (N ) exp [B (N )]
n
Q

Pn

(N i + 1) ti . Em termos das estatsticas de


P
ordem xi , podemos reescrever B (N ) por B (N ) = ni=1 xi + (N n) xn .
Considerar as seguintes distribuicoes a priori para e N :
em que A (N ) =

(N i + 1) e B (N ) =

(5.15)

i=1

i=1

v Gama (a, b)
N v P oisson ()

(5.16)

em que a, b e sao hiperparametros conhecidos; Gama (a, b) denota uma distribuicao Gama
com media ab e variancia ba2 e P oisson () denota uma distribuicao de Poisson com media e
variancia iguais `a .
Assumindo independencia a priori entre e N , a distribuicao a priori conjunta para e N
e dada por,
exp () N a1
exp (b)
(5.17)
(, N )
N!
A distribuicao a posteriori conjunta para e N e dada por,
(, N | t)

n+a1 A (N ) N

(N ! "
exp b + (N n) xn +

(5.18)
n
X

# )
xi

i=1

em que > 0 e N = n, n + 1, n + 2, . . ..
Escrevendo N 0 = N n, isto e, N = N 0 + n, encontramos as distribuicoes condicionais
necessarias para o amostrador de Gibbs dadas por:
!
n
X
(i) | N 0 , t v Gama a + n, b + N 0 xn +
xi
(5.19)
i=1

(ii) N

| , t v P [ exp (xn )]

Para os dados da tabela 5.1 temos n = 26 e X26 = 250. Assumir a = 0, 2; b = 20 e = 30


na priori (5.17) para e N (a escolha dos hiperparametros da distribuicao a priori foi feita
a partir de metodos Bayesianos empricos; neste caso consideramos os estimadores de maxima
verossimilhanca para e N ).
Dessa forma, as distribuicoes condicionais (5.19) sao dadas por:
!
26
X
(i) | N 0 , t v Gama 26, 2; 20 + 250N 0 +
xi
(5.20)
i=1

(ii) N

| , t v P [30 exp (250)]

Para obter amostras simuladas da distribuicao a posteriori (5.18), geramos amostras das
CEMEQ - Centro de Metodos Quantitativos

5.1. O AMOSTRADOR DE GIBBS

54

distribuicoes condicionais (5.20).


Considerando um programa usando o software MINITAB geramos 5 cadeias de Markov
com 1000 amostras cada
 cadeia. Cada cadeia foi gerada a partir dos seguintes valores iniciais
diferentes: N 0(0) , (0) = (3; 0, 01) , (2, 5; 0, 02) , (3; 0, 03) , (3, 5; 0, 01) e (3, 5; 0, 02).
Em cada cadeia descartamos as 800 primeiras amostras simuladas e ficamos com as 200
u
ltimas, o que totaliza 1000 amostras.
O codigo do programa MINITAB usado e dado por:
Listagem 5.1: Programa MINITAB
1

SET C1 ( Xi )

2
3

9 21 32 36 43 45 50 58 63 70 71 77 78 87

4
5

91 92 95 98 104 105 116 149 156 247 249 250

6
7

END

8
9

LET K1=3 (N i n i c i a l )

10
11

LET K2=0 ,01 ( Lambda i n i c i a l )

12
13

SUM C1 K3

14
15

STORE a

16
17

LET K4=1/(20+250 k1+k3 )

18

RANDOM 3 C2 ;
GAMMA 2 6 , 2 K4 .
LET K2=C2 ( 2 )

19
20
21
22
23

LET K5=30EXPONENTIAL( 250K2)

24

RANDOM 3 C3 ;
POISSON K5 .
LET K1=C3 ( 2 )

25
26
27
28
29

STACK C10 K1 C10

30
31

STACK C11 K2 C11

32
33

END

34
35

EXEC a 1000

A partir de 1000pamostras finais, determinamos sumarios a posteriori


p de interesse. Assim
E (N 0 | t) =5,
933 e var (N 0 | t)=3,
720. Tambem E ( | t) =0,
00680 e var ( | t)=0,
00205.
0
Com N = N 26 temos E (N | t) = 26 + 5, 933 = 31, 933. Intervalos de credibilidade 95%
para N 0 e sao dados, respectivamente, por (0; 13) e (0, 00352; 0, 01058).
Uma grande simplificacao na obtencao dos sumarios a posteriori de interesse e dado pelo
software WinBugs (Spiegelhalter et al, 1999) em que so precisamos especificar a distribuicao
conjunta para os dados e as distribuicoes a priori para os parametros.
O codigo do programa WinBugs e dado por:
CEMEQ - Centro de Metodos Quantitativos

5.1. O AMOSTRADOR DE GIBBS

55

Listagem 5.2: Programa WinBugs


1
2
3
4
5
6
7
8
9
10

model
{
for ( i in 1: n)
{
t [ i ] dexp ( lambda [ i ] )
lambda [ i ]<lambda0 (Ni +1)
}
lambda0 dgamma ( 0 . 2 , 2 0 )
N dpois (30)
}

11
12
13

l i s t ( t=c ( 9 , 1 2 , 1 1 , 4 , 7 , 2 , 5 , 8 , 5 , 7 , 1 , 6 , 1 , 9 , 4 , 1 , 3 , 3 , 6 , 1 , 1 1 , 3 3 , 7 , 9 1 , 2 , 1 ) ,
n=26)

14
15
16
17
18
19

list
list
list
list
list

( lambda0 =0.01 ,N=29)


( lambda0 =0.02 ,N=28)
( lambda0 =0.03 ,N=29)
( lambda0 =0.01 ,N=28)
( lambda0 =0.02 ,N=30)

Os sumarios a posteriori obtidos para os parametros (lambda0), N e i considerando 5


cadeias iniciais sao apresentados na tabela 5.2. Um burn-in de tamanho 1000 e um salto de 10
foram considerados para a geracao das 5000 amostras.
Na figura 5.1 temos os graficos das series temporais das amostras de Gibbs simuladas para
lambda0 () e N ; observamos que o algoritmo converge para series estacionarias. Tambem
apresentamos, na figura 5.1, os graficos das autocorrelacoes das amostras de Gibbs simuladas
para e N ; os graficos das distribuicoes a posteriori marginais aproximadas para lambda0 ()
e N e os graficos dos ndices de Gelman e Rubin para as amostras de Gibbs simuladas para
lambda0 () e N ; observa-se convergencia das series pois os fatores de reducao de Gelman e
Rubin se estabilizam em torno do valor um.
Exemplo 5.2: Na tabela 5.3 temos os dados de um estudo medico considerado para avaliar
a influencia de 3 covariaveis: X1 (proporcao de pacientes com escolaridade de pelo menos 8
anos na escola); X2 (proporcao de pacientes do sexo feminino); X3 (salario mensal medio dos
pacientes em unidades de $1000,00) na resposta y (ndice medio de resposta para pacientes
recebendo uma nova terapia contra o virus HIV) realizado por 8 hospitais (um estudo de
metanalise).
Para analisar esses dados foi considerado um modelo de regressao linear dado por
yi = + 1 X1i + 2 X2i + 3 X3i + i

(5.21)

em que os termos de erros i sao supostos independentes e identicamente distribudos com


distribuicao normal N (0; 2 ) , para i = 1, . . . , 8.
Assumindo independencia a priori entre os parametros , 1 , 2 , 3 e 2 , assumir as seguintes
distribuicoes a priori:

v N 0; a20
(5.22)

2
1 v N 0; a1

2 v N 0; a22

3 v N 0; a23
2 v IG (b, d)
CEMEQ - Centro de Metodos Quantitativos

5.1. O AMOSTRADOR DE GIBBS

56

Tabela 5.2: Sumarios a posteriori (dados de confiabilidade de um software).


node
mean
sd
MC error
2.5%
median
N
32.2
3.749
0.05924
26.51
31.66
lambda[1]
0.2129
0.04837 5.919E-4
0.1325
0.2083
lambda[2]
0.2061
0.04645 5.684E-4
0.1286
0.2017
lambda[3]
0.1994
0.04454 5.452E-4
0.1251
0.1952
lambda[4]
0.1926
0.04264 5.221E-4
0.1212
0.1888
lambda[5]
0.1858
0.04075 4.993E-4
0.1173
0.1822
lambda[6]
0.179
0.03887 4.768E-4
0.1135
0.1758
lambda[7]
0.1722
0.03701 4.546E-4
0.1099
0.1693
lambda[8]
0.1655
0.03517 4.328E-4
0.1061
0.1628
lambda[9]
0.1587
0.03336 4.115E-4
0.1024
0.1562
lambda[10] 0.1519
0.03157 3.907E-4 0.09835
0.1497
lambda[11] 0.1451
0.02981 3.706E-4 0.09393
0.143
lambda[12] 0.1384
0.02808 3.511E-4 0.08996
0.1365
lambda[13] 0.1316
0.0264
3.325E-4 0.08598
0.1299
lambda[14] 0.1248
0.02478
3.15E-4
0.08186
0.1234
lambda[15]
0.118
0.02321 2.986E-4 0.07741
0.1166
lambda[16] 0.1112
0.02173 2.836E-4 0.07303
0.11
lambda[17] 0.1045
0.02034 2.703E-4 0.06836
0.1033
lambda[18] 0.09768 0.01906 2.588E-4 0.06378 0.09651
lambda[19] 0.0909
0.01793 2.494E-4 0.05872 0.08984
lambda[20] 0.08412 0.01696 2.425E-4 0.05355 0.08307
lambda[21] 0.07734 0.01619 2.381E-4
0.0484
0.07625
lambda[22] 0.07056 0.01565 2.364E-4 0.04293 0.06942
lambda[23] 0.06378 0.01536 2.376E-4 0.03683 0.06258
lambda[24]
0.057
0.01534 2.415E-4 0.02997 0.05589
lambda[25] 0.05022 0.01558
2.48E-4
0.02233 0.04916
lambda[26] 0.04344 0.01608
2.57E-4
0.01401 0.04266
lambda0
0.006779 0.002031 2.574E-5 0.003626 0.006523

Tabela 5.3: Dados de n = 8 hospitais.


y
0,10
0,65
0,30
0,30
0,28
0,78
0,28
0,45

CEMEQ - Centro de Metodos Quantitativos

X1
0,08
0,17
0,08
0,30
0,05
0,18
0,09
0,45

X2
0,40
0,40
0,38
0,50
0,52
0,32
0,45
0,65

X3
0,75
1,02
1,09
1,35
1,20
2,20
2,95
2,50

97.5% start sample


40.74
1001
5000
0.3205 1001
5000
0.3095 1001
5000
0.2982 1001
5000
0.2871 1001
5000
0.2761 1001
5000
0.2645 1001
5000
0.2539 1001
5000
0.2431 1001
5000
0.2325 1001
5000
0.2213 1001
5000
0.2107 1001
5000
0.2004 1001
5000
0.1898 1001
5000
0.1792 1001
5000
0.1685 1001
5000
0.1584 1001
5000
0.1479 1001
5000
0.1387 1001
5000
0.1294 1001
5000
0.121
1001
5000
0.1121 1001
5000
0.1044 1001
5000
0.0971 1001
5000
0.08951 1001
5000
0.08297 1001
5000
0.07723 1001
5000
0.01154 1001
5000

5.1. O AMOSTRADOR DE GIBBS

57

N chains 1:5
60.0
50.0
40.0
30.0
20.0
1001

1250

1500

1750

2000

1750

2000

iteration

lambda0 chains 1:5


0.02
0.015
0.01
0.005
0.0
1001

1250

1500
iteration

Sries Temporais
N chains 1:5

lambda0 chains 1:5

1.0
0.5
0.0
-0.5
-1.0

1.0
0.5
0.0
-0.5
-1.0
0

20

40

20

lag

40
lag

Autocorrelaes
N chains 1:5 sample: 5000

lambda0 chains 1:5 sample: 5000

0.15

300.0

0.1

200.0

0.05

100.0

0.0

0.0
20.0

30.0

40.0

50.0

0.0

0.005

0.01

Distribuies a posteriori marginal


N chains 1:5

lambda0 chains 1:5

1.0

1.5
1.0

0.5

0.5

0.0

0.0
1001

1500

1001

iteration

1500
iteration

ndices de Gelman e Rubin

Figura 5.1: Graficos das amostras simuladas.

CEMEQ - Centro de Metodos Quantitativos

0.015

5.1. O AMOSTRADOR DE GIBBS

58

em que a0 , a1 , a2 , a3 , b e d sao supostos conhecidos e IG (b, d) denota uma distribuicao gama


2
d
inversa com media (b1)
e variancia (b1)d2 (b2) , b > 2.
[
]
Observar que se 2 v IG (b, d) entao =
para = (, 1 , 2 , 3 , 2 ) e dada por:
L () =

n
Y
i=1

1
2

v Gama (b, d). A funcao de verossimilhanca

2

exp i 2
2
2 2



(5.23)

em que i = yi 1 X1i 2 X2i 3 X3i , i = 1, 2, . . . , n (n = 8).


A distribuicao a posteriori conjunta para e dada por,





d
2
2 (b+1)
exp 2 exp 2
( | x, y)

2a0




2 
2 
2
23
1
exp 2 exp 2 exp 2
2a1
2a2
2a3
!
n
 n
1 X 2
2 2 exp 2

2 i=1 i

(5.24)

em que y = (y1 , . . . , yn )0 ; x denota o vetor das covariaveis e i e dado em (5.23).


As distribuicoes condicionais necessarias para o amostrador de Gibbs sao dadas por:
(i)
2 | , 1 , 2 , 3 , x, y


n

2 (b+ 2 +1)

"

1
exp 2

1X 2
d+

2 i=1 i

!#

que define o n
ucleo de uma distribuicao gama inversa, isto e,
"
#
n
X
n
1
2 | , 1 , 2 , 3 , x, y v IG b + ; d +
2
2
2 i=1 i
em que
i = yi 1 x1i 2 x2i 3 x3i , i = 1, . . . , n
(ii)
#
"


n
2
2
1 X
(0)
i
| 1 , 2 , 3 , , X, y exp 2 exp 2
2a0
2 i=1
2

em que
(0)

i = yi 1 x1i 2 x2i 3 x3i , i = 1, . . . , n


Desenvolvendo-se essas expressoes encontramos o n
ucleo de uma distribuicao normal; isto
e,

n
P

| 1 , 2 , 3 , 2 , x, y v N

i=1

2
a0

(0)
i

;
2

2 + na0

a20 2

2 + na20

(iii)
"
#


n
2
2l
1 X
(l)
l | ( l ) , x, y exp 2 exp 2
l xli i
2al
2 i=1


CEMEQ - Centro de Metodos Quantitativos

5.2. ALGORITMO DE METROPOLIS-HASTINGS

59

em que
(l)

i = y i

3
X

j xji , i = 1, . . . , n; l = 1, 2, 3

j=1;j6=l

( l ) denota o vetor de todos os parametros exceto l . Isto e,

n
P
(l)
2

al i=1 xli i
a2l 2

;
l | ( l ) , x, y v N
n
n

P
P
x2li 2 + a2l
x2li
2 + a2l
i=1

i=1

para l = 1, 2, 3.
Para analise dos dados da tabela (5.3), vamos assumir a20 = a21 = a22 = a23 = 106 , isto e,
distribuicoes a priori nao informativas para , 1 , 2 e 3 . Tambem assumir b = d = 1. Para
(0)
(0)
(0)
iniciar o amostrador de Gibbs, assumir os valores iniciais (0) = 0, 1 = 2 = 3 = 0 e
1
(0) = (0)
coes condicionais (5.22).
2 = 1. Gerar amostras da posteriori (5.24) usando as distribui
Usando o software Winbugs escrevemos os seguinte programa:
Listagem 5.3: Programa WinBugs
1
2
3
4
5
6
7
8
9
10
11
12
13
14

model
{
f o r ( i i n 1 :N)
{
y [ i ] dnorm (mu[ i ] , tau )
mu[ i ] < a l p h a + b e t a 1 x1 [ i ] + b e t a 2 x2 [ i ] + b e t a 3 x3 [ i ]
}
tau dgamma ( 1 , 1 )
sigma < 1/ s q r t ( tau )
a l p h a dnorm ( 0 , 1 . 0 E6)
b e t a 1 dnorm ( 0 , 1 . 0 E6)
b e t a 2 dnorm ( 0 , 1 . 0 E6)
b e t a 3 dnorm ( 0 , 1 . 0 E6)
}

15
16
17
18
19

l i s t ( y=c ( 0 . 1 0 , 0 . 6 5 , 0 . 3 0 , 0 . 3 0 , 0 . 2 8 , 0 . 7 8 , 0 . 2 8 , 0 . 4 5 ) ,
x1=c ( 0 . 0 8 , 0 . 1 7 , 0 . 0 8 , 0 . 3 0 , 0 . 0 5 , 0 . 1 8 , 0 . 0 9 , 0 . 4 5 ) ,
x2=c ( 0 . 4 0 , 0 . 4 0 , 0 . 3 8 , 0 . 5 0 , 0 . 5 2 , 0 . 3 2 , 0 . 4 5 , 0 . 6 5 ) ,
x3=c ( 0 . 7 5 , 1 . 0 2 , 1 . 0 9 , 1 . 3 5 , 1 . 2 0 , 2 . 2 0 , 2 . 9 5 , 2 . 5 0 ) , N=8)

Os sumarios a posteriori de interesse considerando um burn-in de 1000 amostras e tomando


uma amostra final de tamanho 1000 escolhidas de 10 em 10 sao apresentadas na tabela 5.4.
A convergencia do amostrador de Gibbs e verificada a partir de graficos de series temporais
das amostras geradas para cada parametro do modelo (5.21) (ver figura 5.2).
Dos sumarios a posteriori dados na tabela 5.4 observa-se que as 3 covariaveis X1 , X2 e X3 nao
apresentam evidencias de efeitos significativos na resposta y, pois os intervalos de credibilidade
com probabilidade 0, 95 para 1 , 2 e 3 incluem o valor zero.

5.2

Algoritmo de Metropolis-Hastings

O amostrador de Gibbs seleciona amostras de todas densidades a posteriori condicionais de


( | y), a distribuicao a posteriori conjunta para . Quando usamos uma priori conjugada, as
CEMEQ - Centro de Metodos Quantitativos

5.2. ALGORITMO DE METROPOLIS-HASTINGS

60

alpha
10.0
5.0
0.0
-5.0
-10.0
1001

1250

1500

1750

2000

1750

2000

1750

2000

1750

2000

1750

2000

iteration
beta1
20.0
10.0
0.0
-10.0
-20.0
-30.0
1001

1250

1500
iteration

beta2
30.0
20.0
10.0
0.0
-10.0
-20.0
1001

1250

1500
iteration

beta3
2.0
1.0
0.0
-1.0
-2.0
1001

1250

1500
iteration

tau
15.0
10.0
5.0
0.0
1001

1250

1500
iteration

Figura 5.2: Graficos das amostras simuladas.

CEMEQ - Centro de Metodos Quantitativos

5.2. ALGORITMO DE METROPOLIS-HASTINGS

61

Tabela 5.4: Sumarios a posteriori (dados da tabela 5.3).


node
mean
alpha 0,8686
beta1
1,222
beta2 -1,807
beta3 0,07857
sigma 0,6867
tau
2,794

sd
MC error
2,5
median
97,5 start sample
1,394
0,04484 -1,919 0,8628
3,72
1001
1000
2,834
0,08975 -4,315
1,217
6,574 1001
1000
3,548
0,1078
-8,904 -1,878
5,276 1001
1000
0,3643
0,0114
-0,636 0,08039 0,8091 1001
1000
0,2504 0,006468 0,3859 0,6351 1,293 1001
1000
1,588
0,04337 0,6504
2,48
6,72
1001
1000

distribuicoes condicionais em geral sao de forma conhecida como, por exemplo, as distribuicoes
normal, gama, Poisson, beta, etc, e a simulacao de amostras dessas distribuicoes sao disponveis
em qualquer software.
Quando as distribuicoes condicionais nao sao facilmente identificadas, devemos usar o algoritmo de Metropolis-Hastings ou metodos de amostragem por importancia.

Supor que desejamos simular amostras de uma densidade nao-regular i | (i) , y , ou
simplesmente i | (i) , em que (i) = (1 , . . . , i1 , i+1 , . . . , k ).

Definir o n
ucleo de transicao q (, ) da distribuicao p () que representa i | (i) e que
transforma em . Se e uma variavel real com amplitude em toda reta R, podemos construir
q tal que + z, com Z v N (0, 2 ), em que 2 reflete a variancia condicional de em
p ().
Se e limitado com amplitude (a, b) usar uma transformacao que leva (a, b) em (, )
e da usar o n
ucleo de transicao q e aplicar o algoritmo de Metropolis para a densidade da
variavel transformada. O algoritmo de Metropolis e dado por:
(i) Iniciar com um valor (0) e indicador de esta
gio, j =0;
(ii) Gerar um ponto do n
ucleo de transicao q (j) , ;

(iii) Atualizar (j) por (j+1) = com probabilidade,


h
i

(j)

p () q ,
i
p = min 1, h i h
p (j) q , (j)

(5.25)

Ficar com (j) com probabilidade 1 p;


(iv) Repetir os estagios (ii) e (iii) ate conseguir uma distribuicao estacionaria. Observar
que:
(a) O algoritmo de Metropolis Hastings e especificado pela densidade candidata para geracao
q (x, y) ;
(b) Se um valor candidato e rejeitado, o valor atual e considerado na proxima etapa;
(c) O calculo de p em (5.25) nao depende da constante normalizadora;
(d) Se a densidade candidata para geracao das amostras e simetrica, histo ie, q (x, y) = q (y, x),
a probabilidade de movimento se reduz `a pp()
. Assim, se p () > p (j) , a cadeia se move
[(j) ]
. Em outras palavras:
para ; em caso contrario, ela se move para com probabilidade pp()
[(j) ]
um salto na direcao ascendente e sempre aceito; um salto na direcao descendente e aceito
com uma dada probabilidade.
Casos Especiais para q (y, x):
Alguns casos especiais sao dados para q (y, x), a densidade usada para gerar amostras canCEMEQ - Centro de Metodos Quantitativos

5.2. ALGORITMO DE METROPOLIS-HASTINGS

62

didatas no processo de simulacao. Assim temos:


(i) Seja q (y, x) = q1 (y x) em que q1 (.) e uma densidade multivariada. Entao, o candidato
y e selecionado de acordo com o processo y = x + z, em que z e chamada variavel aleatoria
incremento e segue a distribuicao q1 . Assim, candidato = valor atual + rudo, isto e, temos uma
cadeia de passeio ao acaso.
Como escolhas possveis para q1 , podemos considerar a densidade normal multivariada ou a
distribuicao t de Student multivariada.
(ii) Seja q (x, y) = q2 (y), em que q2 e uma densidade normal multivariada ou t de Student
multivariada. Neste caso e necessario especificar a locacao e a variabilidade da distribuicao
q (x, y).

(iii) Explorar a forma conhecida da distribuicao condicional i | (i) , y para especificar
uma densidade geradora de amostras candidatas (ver por exemplo, Chib e Greenberg, 1995).
Por exemplo, se (t) (t) h (t) em que h (t) e uma densidade conhecida que pode ser facilmente simulada e (t) e uma funcao uniformemente limitada, considerar q (x, y) = h (y) para
gerar amostras candidatas. Neste caso, a probabilidade de movimento so exige o calculo da
funcao que e dada por,
i
h

(j+1)
h i
(5.26)
p = min 1,
(j)
(iv) Outras possibilidades: cadeias autoregressivas, metodo de aceitacao-rejeicao (ver Tierney, 1994).
Escolha da locac
ao e da escala da distribuic
ao geradora:
O desempenho do algoritmo Metropolis-Hastings pode ser afetado pela escolha da locacao
e da escala da distribuicao geradora. Assim podemos ter:
(i) A variabilidade da densidade geradora de amostras candidatas afeta o comportamento
da cadeia em pelo menos duas dimensoes: uma e a taxa de aceitacao (% de vezes que uma
mudanca e feita para um novo ponto) e a outra e a regiao do espaco amostral que e coberta
pela cadeia.
(ii) Se a variabilidade e muito grande, alguns dos candidatos gerados estarao muito distantes
do valor atual e terao uma probabilidade pequena de aceitacao, pois a ordenada do candidato
e pequena em relacao a ordenada perto da moda da distribuicao.
(iii) A reducao da variabilidade corrige esse problema, mas se a variabilidade for muito
pequena, a cadeia levara muito tempo para cobrir o suporte da densidade.
Exemplo 5.3: Supor que um novo software e desenvolvido para um equipamento de tomografia computadorizada usado por centros medicos. Numa fase de testes e correcoes de possveis
erros do software, o mesmo e testado por um dado perodo de tempo fixado. Os dados de confiabilidade do software sao dados pelas contagens de erros (em que o software e tentativamente
corrigido) que ocorrem em intervalos fixos de tempo durante esse perodo de testes.
Considerar os dados da tabela 5.5, representando os n
umeros de falhas ou erros do software
testado por 25 horas, continuamente.
Assumir um processo de Poisson homogeneo com funcao intensidade i = a k1i , em que
0 < k1 < 1, a > 0 para i = 1, 2, 3, . . . com distribuicao para o n
umero de falhas mi no
i esimo perodo de tempo dada por,
P (Mi = mi ) =

i
exp (i ) m
i
mi !

(5.27)

em que mi = 0, 1, 2, . . ..
Considerando m1 , m2 , . . . , mn (n = 25), os n
umeros de falhas observadas durante os n peCEMEQ - Centro de Metodos Quantitativos

5.2. ALGORITMO DE METROPOLIS-HASTINGS

63

Tabela 5.5: Dados de confiabilidade de software de um equipamento medico.


hora n falhas
1
27
2
16
3
11
4
10
5
11
6
7
7
2
8
5
9
3
10
1

hora n
11
12
13
14
15
16
17
18
19
20

falhas
4
7
2
5
5
6
0
5
1
1

hora n
21
22
23
24
25

falhas
2
1
2
1
1

rodos de tempo, a funcao de verossimilhanca para a e k1 e dada por,


!
n
X
L (a , k1 ) da1 k1d2 exp a
k1i

(5.28)

i=1

P
P
em que d1 = ni=1 mi e d2 = ni=1 imi .
Assumindo independencia a priori entre a e k1 , considerar as seguintes distribuicoes a
priori:
a v Gama (b1 , b2 )
k1 v Beta (e1 , e2 )

(5.29)

em que b1 , b2 , e1 e e2 sao hiperparametros conhecidos.


A distribuicao a posteriori conjunta para a e k1 e dada por:
"
! #
n
X
d1 +b1 1
i
(a , k1 | m) a
exp b2 +
k1 a

(5.30)

i=1

k1d2 +e1 1 (1 k1 )e2 1


em que m = (m1 , m2 , . . . , mn )0 .
As distribuicoes condicionais para o amostrador de Gibbs sao dadas por:
!
n
X
(i) a | k1 , m v Gama d1 + b1 , b2 +
k1i
i=1
n
X

(ii) (k1 | a , m) k1d2 +e1 1 (1 k1 )e2 1 exp a

(5.31)

!
k1i

i=1

Observar que a quantidade aleatoria k1 deve ser simulada usando o algoritmo de MetropolisHastings, pois a distribuicao condicional (k1 | a , m) nao apresenta uma forma conhecida.
Neste caso, observar que a densidade condicional para k1 dado a e m pode ser reescrita na
forma,
(k1 | a , m) k1e1 1 (1 k1 )e2 1 (a , k1 )
(5.32)
CEMEQ - Centro de Metodos Quantitativos

5.2. ALGORITMO DE METROPOLIS-HASTINGS

64

em que
(a , k1 ) = exp d2 ln k1 a

n
X

!
k1i

i=1

Assim o valor de k1 e simulado da seguinte forma: na s esima iteracao (dado o valor atual
(s)
simular um candidato k1 de uma distribuicao Beta (e1 , e2 ); mover para este ponto com
probabilidade dada por,



(s)
(s)

,
k
1
a

min 1, 
(5.33)
(s) , k (s1)
1
a

(s)
a ),

(s)

(s1)

em outro caso, fazer k1 = k1


.
Apos uma analise preliminar dos dados (observar que os estimadores de maxima verossimi a = 18, 8849 e k = 0, 88285) considerar
lhanca para a e k1 sao dados, respectivamente, por
os valores dos hiperparametros para as distribuicoes a priori (5.29) dadas por b1 = 16; b2 =
0, 8; e1 = 2, 5 e e2 = 0, 6. Observar que
b1
b1
= 20; V ar (a ) = 2 = 25;
b2
b2
e1 e2
e1
 = 0, 04
= 0, 8; V ar (k1 ) = 
E (k1 ) =
2
(e1 + e2 )
(e1 + e2 ) (e1 + e2 + 1)

E (a ) =

Entao usar as distribuicoes condicionais (5.31) para gerar amostras da distribuicao a posteriori (5.30).
Alternativamente, podemos usar o software WinBugs (ver listagem 5.4).
Listagem 5.4: Programa WinBugs
1
2
3
4
5
6
7
8
9
10

model
{
f o r ( i i n 1 :N)
{
m[ i ] d p o i s ( lambda [ i ] )
lambda [ i ] < lambda0 pow ( k1 , i )
}
lambda0 dgamma ( 1 6 , 0 . 8 )
k1 dbeta ( 2 . 5 , 0 . 6 )
}

11
12
13

l i s t (m=c ( 2 7 , 1 6 , 1 1 , 1 0 , 1 1 , 7 , 2 , 5 , 3 , 1 , 4 , 7 , 2 , 5 , 5 , 6 , 0 , 5 , 1 , 1 , 2 , 1 , 2 , 1 , 1 ) ,
N=25)

Observar que estamos considerando lambda0=a .


Os sumarios a posteriori de interesse considerando um burn-in de 1000 amostras e tomando uma amostra final de tamanho 1000 escolhidas de 10 em 10 para se ter uma amostra
aproximadamente nao-correlacionada e dada na tabela 5.6.
Graficos das series temporais das amostras geradas para os parametros a (lambda 0) e k1
sao dados na figura 5.3. Desses graficos observamos convergencia para o algoritmo.

CEMEQ - Centro de Metodos Quantitativos

5.2. ALGORITMO DE METROPOLIS-HASTINGS

Tabela 5.6: Sumarios a posterioride interesse (dados da tabela 5.5).


node
mean
sd
MC error
k1
0,8823 0,01243 3,134E-4
lambda[1] 16,88
1,974
0,05333
lambda[2] 14,88
1,59
0,04408
lambda[3] 13,11
1,284
0,03664
lambda[4] 11,56
1,044
0,03072
lambda[5] 10,19 0,8604
0,02608
lambda[6] 8,989 0,7245
0,0225
lambda[7]
7,93
0,6274
0,01977
lambda[8] 6,996 0,5603
0,01771
lambda[9] 6,174 0,5148
0,01615
lambda[10] 5,45
0,4836
0,01495
lambda[11] 4,811
0,461
0,014
lambda[12] 4,248 0,4428
0,01321
lambda[13] 3,752 0,4266
0,01252
lambda[14] 3,314
0,411
0,01189
lambda[15] 2,928
0,395
0,0113
lambda[16] 2,587 0,3785
0,01074
lambda[17] 2,287 0,3615
0,01018
lambda[18] 2,022
0,344
0,009641
lambda[19] 1,787 0,3262 0,009111
lambda[20] 1,581 0,3084 0,008591
lambda[21] 1,398 0,2906 0,008085
lambda[22] 1,237
0,273
0,007594
lambda[23] 1,095 0,2558 0,007119
lambda[24] 0,9687 0,2392 0,006661
lambda[25] 0,8575 0,2231 0,006222
lambda0
19,16
2,45
0,06471

CEMEQ - Centro de Metodos Quantitativos

2,5% median 97,5% start sample


0,8567 0,8822 0,9066 1001
1000
13,16
16,81
20,98 1001
1000
11,85
14,86
18,22 1001
1000
10,71
13,12
15,84 1001
1000
9,668
11,55
13,71 1001
1000
8,588
10,18
11,88 1001
1000
7,592
8,987
10,42 1001
1000
6,695
7,921
9,19
1001
1000
5,919
6,978
8,125 1001
1000
5,173
6,183
7,213 1001
1000
4,483
5,464
6,416 1001
1000
3,901
4,809
5,754 1001
1000
3,378
4,249
5,166 1001
1000
2,918
3,745
4,613 1001
1000
2,521
3,301
4,118 1001
1000
2,165
2,908
3,71
1001
1000
1,878
2,571
3,362 1001
1000
1,616
2,272
3,023 1001
1000
1,387
2,008
2,746 1001
1000
1,187
1,778
2,488 1001
1000
1,026
1,569
2,253 1001
1000
0,884
1,387
2,029 1001
1000
0,7569 1,224
1,838 1001
1000
0,647
1,079
1,656 1001
1000
0,5531 0,954
1,494 1001
1000
0,4728 0,8429 1,347 1001
1000
14,71
19,02
24,36 1001
1000

65

5.2. ALGORITMO DE METROPOLIS-HASTINGS

66

k1
0.925
0.9
0.875
0.85
0.825
1001

1250

1500

1750

2000

1750

2000

iteration
lambda0
35.0
30.0
25.0
20.0
15.0
10.0
1001

1250

1500
iteration

Figura 5.3: Graficos das amostras simuladas para a (lambda0) e k1 .

CEMEQ - Centro de Metodos Quantitativos

5.2. ALGORITMO DE METROPOLIS-HASTINGS

67

Exemplo 5.4: (Regressao logstica)


Uma droga muito usada para tratar certos tipos de cancer (droga adriamicina) pode apresentar problemas de toxidade. Alguns pacientes recebendo essa droga apresentam falha coronaria congestiva (CHF) e outros pacientes nao apresentam. Com intuito de verificar se alguns
fatores especficos podem aumentar o risco de desenvolver CHF, duas covariaveis foram consideradas no estudo: X1 representando a dose total da droga e X2 representando o percentual
de decrescimo da voltagem eletrocardiografica QRS. Na tabela 5.7 temos os dados de um estudo considerando 53 pacientes (dados em Lee 1980, pag. 359) em que yi e a resposta CHF

(1 =sim; 0 =nao) e as duas covariaveis sao dadas numa escala transformada: X1i = X1i
X
1

2 , i = 1, . . . , 53.
X
e X2i = X2i
Neste caso, temos uma variavel aleatoria y binaria (CHF) com distribuicao de Bernoulli
com funcao de probabilidade,
P (Yi = yi ) = pyi i (1 pi )1yi

(5.34)

em que pi = P (yi = 1) e a probabilidade de sucesso (apresentar CHF) e 1 pi = P (yi = 0) e


a probabilidade de fracasso (nao apresentar CHF).
Assumir um modelo de regressao logstica,
pi =

exp (0 + 1 X1i + 2 X2i )


1 + exp (0 + 1 X1i + 2 X2i )

(5.35)

para i = 1, 2, . . . , n.
A funcao de verossimilhanca para 0 , 1 e 2 e dada por,
L (0 , 1 , 2 ) =

n
Y

pyi i (1 pi )1yi

(5.36)

i=1

em que pi e dado por (5.35).


Assim temos,
L (0 , 1 , 2 ) =

exp (0

Pn

i=1

n
Q

yi + 1

Pn

i=1

X1i yi + 2

Pn

i=1

X2i yi )

(5.37)

[1 + exp (0 + 1 X1i + 2 X2i )]

i=1

Assumir as seguintes distribuicoes a priori para os parametros:



l v N al , b2l

(5.38)

em que l = 0, 1, 2 e al e bl sao hiperparametros conhecidos. Assumir independencia a priori


entre 0 , 1 e 2 . A distribuicao a posteriori conjunta para 0 , 1 e 2 e dada combinando-se
(5.37) com (5.38), isto e,
2
Y


1
2
(0 , 1 , 2 | x, y) =
exp 2 (l al )
2bl
l=0
Pn
P
P
exp (0 i=1 yi + 1 ni=1 X1i yi + 2 ni=1 X2i yi )

n
Q
[1 + exp (0 + 1 X1i + 2 X2i )]

(5.39)

i=1

Amostras da distribuicao a posteriori (5.39) podem ser geradas usando metodos MCMC.
Observar de (5.39) que as distribuicoes condicionais (0 | 1 , 2 , x, y), (1 | 0 , 2 , x, y) e
CEMEQ - Centro de Metodos Quantitativos

5.2. ALGORITMO DE METROPOLIS-HASTINGS

68

Tabela 5.7: Dados medicos para 53 pacientes com cancer.


paciente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53

yi
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

CEMEQ - Centro de Metodos Quantitativos

X1i
-82,6792
82,3208
82,3208
22,3208
-7,6792
222,3208
307,3208
17,3208
-7,6792
-34,6792
-57,6792
-57,6792
32,3208
22,3208
-207,6792
-17,6792
-117,6792
-77,6792
82,3208
-7,6792
-107,6792
22,3208
57,3208
46,3208
-67,6792
52,3208
-37,6792
67,3208
-97,6792
-47,6792
22,3208
67,3208
82,3208
52,3208
52,3208
-7,6792
-47,6792
-112,6792
57,3208
22,3208
-17,6792
-67,6792
2,3208
-22,6792
67,3208
-67,6792
-67,6792
-17,6792
22,3208
-77,6792
-37,6792
32,3208
-17,6792

X2i
14,9811
44,9811
24,9811
13,9811
36,9811
52,9811
34,9811
17,9811
26,9811
0,9811
26,9811
33,9811
38,9811
31,9811
14,9811
37,9811
17,9811
-17,0189
15,9811
-7,0189
-2,0189
-50,0189
12,9811
8,9811
-16,0189
-20,0189
-20,0189
-5,0189
-12,0189
-25,0189
6,9811
6,9811
-22,0189
-24,0189
-21,0189
-14,0189
-27,0189
17,9811
-12,0189
-36,0189
-69,0189
-3,0189
-27,0189
2,9811
13,9811
3,9811
-3,0189
-14,0189
-37,0189
-19,0189
-48,0189
-6,0189
-7,0189

5.2. ALGORITMO DE METROPOLIS-HASTINGS

69

(2 | 0 , 1 , x, y) nao apresentam formas conhecidas. Assim, usar o algoritmo MetropolisHasting para gerar amostras de (5.39).
Como uma analise preliminar dos dados e tambem para obtermos informacoes empricas para
os hiperparametros das distribuicoes a priori para l , l = 0, 1, 2 dada em (5.38), considerar uma
analise classica do modelo de regressao logstica definido por (5.34) e (5.35) usando o software
MINITAB. A sada do programa MINITAB e dada a seguir:

CEMEQ - Centro de Metodos Quantitativos

Binary Logistic Regression: CHF versus dose-total; %decrscimo-QRS


Link Function: Logit
Response Information
Variable
CHF

Value
1
0
Total

Count
17
36
53

(Event)

Logistic Regression Table


Predictor
Constant
dose-total
%decrscimo-QRS

Coef
-3,27360
-0,0090453
0,230609

SE Coef
1,19331
0,0068396
0,0760250

Z
-2,74
-1,32
3,03

Odds
Ratio

P
0,006
0,186
0,002

0,99
1,26

95% CI
Lower Upper
0,98
1,09

Log-Likelihood = -9,225
Test that all slopes are zero: G = 48,058, DF = 2, P-Value = 0,000
Goodness-of-Fit Tests
Method
Pearson
Deviance
Hosmer-Lemeshow

Chi-Square
27,4813
18,4503
1,8345

DF
49
49
8

P
0,994
1,000
0,986

Table of Observed and Expected Frequencies:


(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Value
1
Obs
Exp
0
Obs
Exp
Total

Group
5
6

0
0,0

0
0,0

0
0,0

0
0,0

0
0,1

5
5,0
5

5
5,0
5

5
5,0
5

6
6,0
6

5
4,9
5

10

Total

1
0,4

1
1,8

4
4,0

5
4,7

6
6,0

17

4
4,6
5

5
4,2
6

1
1,0
5

0
0,3
5

0
0,0
6

36

Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total

Number
598
13
1
612

Percent
97,7
2,1
0,2
100,0

Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a

0,96
0,96
0,42

53

1,00
1,46

5.2. ALGORITMO DE METROPOLIS-HASTINGS

71

Assim, o modelo ajustado por metodos de maxima verossimilhanca e dado por,




pi
= 3, 27361 0, 0090453X1 + 0, 230609X2
ln
1 pi
Dos resultados obtidos usando o software MINITAB observamos que X1 nao apresenta efeito
significativo na incidencia de CHF (p-value igual a 0, 186) mas a covariavel X2 apresenta um
grande efeito na incidencia de CHF (p-value igual a 0, 002).
Para uma analise Bayesiana dos dados da tabela 5.7 assumir os seguintes valores para os
hiperparametros das distribuicoes a priori (5.38) para 0 , 1 e 2 : a0 = 3; b20 = 1; a1 =
0, 009; b21 = 0, 01; a2 = 0, 23 e b22 = 1 (Observar que a variancia da distribuicao normal usando
o software WinBugs e invertida).
Usando o software WinBugs, escrevemos o seguinte programa para analisar os dados:
Listagem 5.5: Programa WinBugs
1
2
3
4
5
6
7
8
9
10
11

model
{
f o r ( i i n 1 :N)
{
y [ i ] dbin ( p [ i ] ,N)
l o g i t ( p [ i ])< a l p h a 0 + a l p h a 1 x1 [ i ]+ a l p h a 2 x2 [ i ]
}
a l p h a 0 dnorm ( 3 ,1)
a l p h a 1 dnorm ( 0 . 0 0 9 , 1 0 0 )
a l p h a 2 dnorm ( 0 . 2 3 , 1 )
}

12
13
14
15
16
17
18
19
20
21
22
23
24

l i s t ( y=c ( 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0) ,
x1=c ( 8 2 . 6 7 9 2 , 8 2 . 3 2 0 8 , 8 2 . 3 2 0 8 , 2 2 . 3 2 0 8 , 7 . 6 7 9 2 , 2 2 2 . 3 2 0 8 , 3 0 7 . 3 2 0 8 ,
17.3208 , 7.6792 , 34.6792 , 57.6792 , 57.6792 ,32.3208 ,22.3208 , 207.6792 ,
17.6792 , 117.6792 , 77.6792 ,82.3208 , 7.6792 , 107.6792 ,22.3208 ,57.3208 ,
46.3208 , 67.6792 ,52.3208 , 37.6792 ,67.3208 , 97.6792 , 47.6792 ,22.3208 ,
67.3208 ,82.3208 ,52.3208 ,52.3208 , 7.6792 , 47.6792 , 112.6792 ,57.3208 ,
22.3208 , 17.6792 , 67.6792 ,2.3208 , 22.6792 ,67.3208 , 67.6792 , 67.6792 ,
17.6792 ,22.3208 , 77.6792 , 37.6792 ,32.3208 , 17.6792) ,
x2=c ( 4 1 , 7 1 , 5 1 , 4 0 , 6 3 , 7 9 , 6 1 , 4 4 , 5 3 , 2 7 , 5 3 , 6 0 , 6 5 , 5 8 , 4 1 , 6 4 , 4 4 , 9 , 4 2 , 1 9 , 2 4 ,
24 ,39 ,35 ,10 ,6 ,6 ,21 ,14 ,1 ,33 ,33 ,4 ,2 ,5 ,12 , 1 ,44 ,14 , 10 , 43 ,23 , 1 ,29 ,40 ,
3 0 , 2 3 , 1 2 , 1 1 , 7 , 2 2 , 2 0 , 1 9 ) ,N=53)

Os sumarios a posteriori de interesse considerando um burn-in de 1000 amostras que sao


descartadas para eliminar o efeito dos valores iniciais e tomando uma amostra final de tamanho
1000 escolhidas de 10 em 10 para se ter uma amostra aproximadamente nao-correlacionada e
dada na tabela 5.8.
Dos resultados da tabela 5.8, observe que a covariavel X1 nao apresenta efeito significativo
na resposta CHF (zero includo no intervalo de credibilidade com probabilidade 0, 95 para 1 )
e a covariavel X2 apresenta um efeito significativo na resposta CHF (zero nao e includo no
intervalo de credibilidade com probabilidade 0, 95 para 2 ).
Dos graficos das amostras geradas para os parametros 0 , 1 e 2 (ver figura 5.4), observamos
a convergencia do algoritmo de simulacao de amostras para a posteriori (5.39).
CEMEQ - Centro de Metodos Quantitativos

5.2. ALGORITMO DE METROPOLIS-HASTINGS

72

Tabela 5.8: Sumarios a posteriori de interesse (dados da tabela 5.7).


node
alpha0
alpha1
alpha2
p[1]
p[2]
p[3]
p[4]
p[5]
p[6]
p[7]
p[8]
p[9]
p[10]
p[11]
p[12]
p[13]
p[14]
p[15]
p[16]
p[17]
p[18]
p[19]
p[20]
p[21]
p[22]
p[23]
p[24]
p[25]
p[26]
p[27]
p[28]
p[29]
p[30]
p[31]
p[32]
p[33]
p[34]
p[35]
p[36]
p[37]
p[38]
p[39]
p[40]
p[41]
p[42]
p[43]
p[44]
p[45]
p[46]
p[47]
p[48]
p[49]
p[50]
p[51]
p[52]
p[53]

mean
-6,294
-0,001871
0,03598
0,009789
0,02121
0,01019
0,007605
0,01862
0,02365
0,01167
0,008847
0,01286
0,005374
0,01432
0,01858
0,01853
0,01457
0,01371
0,01974
0,0119
0,003193
0,007406
0,003887
0,005684
9,618E-4
0,006924
0,006129
0,003232
0,002309
0,002671
0,003689
0,003943
0,002316
0,00595
0,005537
0,002086
0,002034
0,002237
0,00308
0,002172
0,01175
0,00297
0,001461
5,934E-4
0,005014
0,001991
0,005625
0,007061
0,006394
0,005014
0,003135
0,001417
0,002989
0,001117
0,003758
0,003959

sd
0,4814
0,002417
0,01026
0,003031
0,007361
0,002756
0,001704
0,005723
0,01289
0,008474
0,00195
0,003223
0,00147
0,00441
0,006457
0,005569
0,003807
0,008173
0,006384
0,004564
0,001323
0,002048
0,00123
0,002089
7,295E-4
0,001747
0,001559
0,001291
0,001078
0,001121
0,001331
0,001578
0,001079
0,001455
0,001591
0,001097
0,001027
0,001065
0,001141
0,001052
0,004384
0,001196
8,734E-4
5,808E-4
0,001598
9,799E-4
0,001456
0,001845
0,001872
0,001598
0,001156
8,625E-4
0,001283
7,86E-4
0,001237
0,00125

MC error
0,0164
8,9E-5
3,388E-4
9,697E-5
2,688E-4
1,011E-4
5,904E-5
1,895E-4
5,076E-4
3,202E-4
6,727E-5
1,07E-4
4,876E-5
1,407E-4
2,061E-4
1,928E-4
1,306E-4
2,487E-4
2,096E-4
1,432E-4
4,249E-5
7,394E-5
4,048E-5
6,748E-5
2,23E-5
6,189E-5
5,437E-5
4,158E-5
3,495E-5
3,581E-5
4,493E-5
5,097E-5
3,409E-5
4,99E-5
5,567E-5
3,579E-5
3,302E-5
3,446E-5
3,696E-5
3,31E-5
1,379E-4
3,951E-5
2,725E-5
1,714E-5
5,236E-5
3,093E-5
4,86E-5
6,586E-5
6,132E-5
5,236E-5
3,742E-5
2,687E-5
4,108E-5
2,376E-5
4,12E-5
4,109E-5

CEMEQ - Centro de Metodos Quantitativos

2,5%
-7,294
-0,006526
0,01544
0,004774
0,009167
0,005473
0,004722
0,008713
0,005529
0,002126
0,005575
0,00726
0,002995
0,006956
0,008522
0,009126
0,008121
0,003525
0,009021
0,00486
0,001355
0,004046
0,00193
0,002629
1,681E-4
0,003976
0,003532
0,001392
8,139E-4
0,001072
0,001699
0,001678
8,491E-4
0,00354
0,002983
6,41E-4
6,449E-4
7,689E-4
0,001362
7,701E-4
0,004908
0,001212
3,59E-4
7,402E-5
0,002559
6,369E-4
0,003225
0,003974
0,003432
0,002559
0,0014
3,394E-4
0,001229
2,426E-4
0,001827
0,002006

median
-6,3
-0,001759
0,03634
0,009309
0,02023
0,009998
0,007481
0,01808
0,0211
0,009761
0,008732
0,01271
0,005249
0,01369
0,01764
0,01809
0,01433
0,01161
0,01906
0,01109
0,002915
0,007262
0,003724
0,005375
7,616E-4
0,006804
0,005949
0,002959
0,00208
0,002416
0,003468
0,003655
0,00205
0,005818
0,005339
0,001826
0,001813
0,002009
0,002885
0,001904
0,01099
0,002751
0,001255
4,045E-4
0,004812
0,00176
0,005523
0,006925
0,006179
0,004812
0,002947
0,001212
0,002702
8,804E-4
0,003573
0,003789

97,5%
-5,383
0,002974
0,0564
0,01675
0,03873
0,01628
0,01116
0,03097
0,05689
0,03494
0,01285
0,01954
0,008619
0,02366
0,03264
0,0305
0,02253
0,03357
0,03411
0,02231
0,006227
0,01197
0,00673
0,01069
0,002944
0,01068
0,00956
0,006242
0,00483
0,005409
0,006789
0,007646
0,005131
0,009196
0,009073
0,004853
0,004579
0,00474
0,005805
0,004918
0,02169
0,005821
0,003868
0,002248
0,00871
0,004454
0,008792
0,01102
0,01065
0,00871
0,005916
0,003794
0,006052
0,003241
0,006608
0,006803

start
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001
1001

sample
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000
1000

5.3. EXERCICIOS

73

alpha0
-5.0
-6.0
-7.0
-8.0
1001

1250

1500

1750

2000

1750

2000

1750

2000

iteration

alpha1
0.005
1.73472E-18
-0.005
-0.01
-0.015
1001

1250

1500
iteration

alpha2
0.08
0.06
0.04
0.02
0.0
1001

1250

1500
iteration

Figura 5.4: Graficos das amostras simuladas para 0 , 1 e 2 .

5.3

Exerccios

(1) Dados de economia informal (8 firmas); y = ndice de funcionarios registrados; x1 =


ndice de funcionarios com segundo grau completo; x2 = ndice de funcionarios do sexo feminino;
x3 = capital da firma (em $1000000,00). Dados:
F irma :
y
x1
x2
x3

1
2
3
4
5
6
7
8
0, 10 0, 65 0, 30 0, 30 0, 28 0, 78 0, 28 0, 45
0, 08 0, 17 0, 08 0, 30 0, 05 0, 18 0, 09 0, 45
0, 40 0, 40 0, 38 0, 50 0, 52 0, 32 0, 45 0, 65
0, 75 1, 02 1, 09 1, 35 1, 20 2, 20 2, 95 2, 50

(a) Considerar um modelo linear para analizar estes dados:


yi = + 1 x1i + 2 x2i + 3 x3i + i
em que i sao variaveis aleatorias normais independentes com media zero e variancia 2 para
i = 1, . . . , 8. Assumir diferentes distribuicoes a priori para os parametros. Em cada caso,
assumir 5 cadeias paralelas e verificar a convergencia do algoritmo Gibbs sampling. Usar o
software Winbugs.

CEMEQ - Centro de Metodos Quantitativos

5.3. EXERCICIOS

74
Listagem 5.6: Programa WinBugs

1
2
3
4
5
6
7
8
9
10
11
12
13

model
{
f o r ( i i n 1 :N)
{
y [ i ] dnorm (mu[ i ] , tau )
mu[ i ] < a l p h a + b e t a 1 x1 [ i ] + b e t a 2 x2 [ i ] + b e t a 3 x3 [ i ]
}
a l p h a dnorm ( 0 , 1 . 0 E6)
b e t a 1 dnorm ( 0 , 1 . 0 E6)
b e t a 2 dnorm ( 0 , 1 . 0 E6)
b e t a 3 dnorm ( 0 , 1 . 0 E6)
tau dgamma ( 1 , 1 )
}

14
15
16
17
18

l i s t ( y=c ( 0 . 1 0 , 0 . 6 5 , 0 . 3 0 , 0 . 3 0 , 0 . 2 8 , 0 . 7 8 , 0 . 2 8 , 0 . 4 5 ) ,
x1=c ( 0 . 0 8 , 0 . 1 7 , 0 . 0 8 , 0 . 3 0 , 0 . 0 5 , 0 . 1 8 , 0 . 0 9 , 0 . 4 5 ) ,
x2=c ( 0 . 4 0 , 0 . 4 0 , 0 . 3 8 , 0 . 5 0 , 0 . 5 2 , 0 . 3 2 , 0 . 4 5 , 0 . 6 5 ) ,
x3=c ( 0 . 7 5 , 1 . 0 2 , 1 . 0 9 , 1 . 3 5 , 1 . 2 0 , 2 . 2 0 , 2 . 9 5 , 2 . 5 0 ) , N=8)

19
20

l i s t ( a l p h a =1, b e t a 1 =0, b e t a 2 =0, b e t a 3 =0, tau =1)

(b) Escrever as distribuicoes condicionais necessarias para o amostrador de Gibbs;


(c) Escrever um programa pra resolver esse problema (MINITAB, R, SAS, etc). Comparar
os resultados obtidos.
(2) Seja I uma variavel denotando o investimento de uma firma e seja K denotando o seu
ativo imobilizado. Definir uma variavel resposta y como o ndice y = KI de investimento da
da firma
caixa
; x2 = financiamento
; e x3
firma. Sejam x1 , x2 e x3 covariaveis dadas por x1 = fluxo de
K
K
denotando o custo anual com empregados. Dados para 8 firmas acompanhadas durante os anos
de 1990, 1991 e 1992, respectivamente. Dados:

y
0, 06
0, 65
0, 25
0, 32
0, 28
0, 67
0, 25
0, 37

1990
x1
x2
x3
0, 02 0, 36 0, 98
0, 12 0, 45 1, 32
0, 07 0, 38 1, 84
0, 32 0, 49 1, 26
0, 02 0, 51 0, 85
0, 18 0, 28 2, 34
0, 08 0, 36 3, 20
025 0, 38 1, 96

y
0, 12
0, 72
0, 32
0, 26
0, 25
0, 83
0, 32
0, 42

Ano
1991
x1
x2
0, 07 0, 42
0, 15 0, 38
0, 10 0, 42
0, 35 0, 53
0, 01 0, 55
0, 15 0, 30
0, 09 0, 30
0, 32 0, 32

x3
0, 85
1, 42
1, 86
1, 32
0, 92
2, 45
2, 86
2, 65

y
0, 10
0, 65
0, 30
0, 30
0, 28
0, 78
0, 28
0, 45

1992
x1
x2
0, 08 0, 40
0, 17 0, 40
0, 08 0, 38
0, 30 0, 50
0, 05 0, 52
0, 18 0, 32
0, 09 0, 45
0, 45 0, 65

x3
0, 75
1, 02
1, 09
1, 35
1, 20
2, 20
2, 95
2, 50

(a) Considerar um modelo linear para analizar esses dados:


yij = i + j + ij + 0 + 1 x1ij + 2 x2ij + 3 x3ij + ij
em que ij sao variaveis aleatorias independentes com media zero e variancia 2 para i = 1, . . . , 8;
j = 1, 2, 3 (tempos) e assumir diferentes distribuicoes a priori para os parametros. Em cada
caso, assumir 5 cadeias paralelas e verificar a convergencia do algoritmo Gibbs sampling. Usar
o software Winbugs.
CEMEQ - Centro de Metodos Quantitativos

5.3. EXERCICIOS

75
Listagem 5.7: Programa WinBugs

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34

model {
f o r ( i i n 1 :N)
{
f o r ( j i n 1 :T)
{
y [ i , j ] dnorm (mu[ i , j ] , tau . c )
mu[ i , j ] < a l p h a [ i ] + tau [ j ] + gamma [ i , j ] + b e t a 0+ b e t a 1 x1 [ i , j ] +
b e t a 2 x2 [ i , j ] + b e t a 3 x3 [ i , j ]
}
}
for ( i in 1:8)
{
a l p h a [ i ] dnorm ( 0 , tau . a l p h a )
}
for ( j in 1:3)
{
tau [ j ] dnorm ( 0 , tau . b e t a )
}
f o r ( i i n 1 :N)
{
f o r ( j i n 1 :T)
{
gamma [ i , j ] dnorm ( 0 , tau . gamma)
}
}
tau . gamma dgamma ( 1 , 1 )
tau . c dgamma ( 1 , 1 )
b e t a 0 dnorm ( 0 , 1 . 0 E6)
b e t a 1 dnorm ( 0 , 1 . 0 E6)
b e t a 2 dnorm ( 0 , 1 . 0 E6)
b e t a 3 dnorm ( 0 , 1 . 0 E6)
tau . a l p h a dgamma ( 1 , 1 )
tau . b e t a dgamma ( 1 , 1 )
}

35
36
37
38
39
40
41
42
43
44
45

l i s t ( y=s t r u c t u r e ( . Data =
c (0.06 ,0.12 ,0.1 ,0.65 ,0.72 ,0.65 ,0.25 ,0.32 ,0.3 ,0.32 , 0.26 ,0.3 ,0.28 ,0.25 ,0.28 ,
0 . 6 7 , 0 . 8 3 , 0 . 7 8 , 0 . 2 5 , 0 . 3 2 , 0 . 2 8 , 0 . 3 7 , 0 . 4 2 , 0 . 4 5 ) , . Dim=c ( 8 , 3 ) ) ,
x1=s t r u c t u r e ( . Data = c ( 0 . 0 2 , 0 . 0 7 , 0 . 0 8 , 0 . 1 2 , 0 . 1 5 , 0 . 1 7 , 0 . 0 7 , 0 . 1 , 0 . 0 8 , 0 . 3 2 , 0 . 3 5 ,
0 . 3 , 0 . 0 2 , 0 . 0 1 , 0 . 0 5 , 0 . 1 8 , 0 . 1 5 , 0 . 1 8 , 0 . 0 8 , 0 . 0 9 , 0 . 0 9 , 0 . 2 5 , 0 . 3 2 , 0 . 4 5 ) , . Dim=c ( 8 , 3 ) ) ,
x2=s t r u c t u r e ( . Data = c ( 0 . 3 6 , 0 . 4 2 , 0 . 4 , 0 . 4 5 , 0 . 3 8 , 0 . 4 , 0 . 3 8 , 0 . 4 2 , 0 . 3 8 , 0 . 4 9 , 0 . 5 3 ,
0 . 5 , 0 . 5 1 , 0 . 5 5 , 0 . 5 2 , 0 . 2 8 , 0 . 3 , 0 . 3 2 , 0 . 3 6 , 0 . 3 , 0 . 4 5 , 0 . 3 8 , 0 . 3 2 , 0 . 6 5 ) , . Dim=c ( 8 , 3 ) ) ,
x3=s t r u c t u r e ( . Data = c ( 0 . 9 8 , 0 . 8 5 , 0 . 7 5 , 1 . 3 2 , 1 . 4 2 , 1 . 0 2 , 1 . 8 4 , 1 . 8 6 , 1 . 0 9 , 1 . 2 6 , 1 . 3 2 ,
1 . 3 5 , 0 . 8 5 , 0 . 9 2 , 1 . 2 , 2 . 3 4 , 2 . 4 5 , 2 . 2 , 3 . 2 , 2 . 8 6 , 2 . 9 5 , 1 . 9 6 , 2 . 6 5 , 2 . 5 ) , . Dim=c ( 8 , 3 ) ) ,
N=8,T=3)

46
47
48
49
50

l i s t ( tau . c =1, a l p h a=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ) , b e t a 0 =0, b e t a 1 =0, b e t a 2 =0,


b e t a 3 =0, tau . a l p h a =1, tau . gamma=1, tau . b e t a =1, tau=c ( 0 , 0 , 0 ) ,
gamma=s t r u c t u r e ( . Data=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ) ,
. Dim=c ( 8 , 3 ) ) )

(b) Escrever as distribuicoes condicionais necessarias para o amostrador de Gibbs.


CEMEQ - Centro de Metodos Quantitativos

Captulo 6
Algumas aplica
c
oes
6.1

Modelos Bayesianos Hier


arquicos

Considerar uma estrutura de varios nveis de relacao a priori do modelo com verossimilhanca f (y | ) e priori () em que () e decomposto pelas distribuicoes condicionais
1 ( | 1 ) , 2 (1 | 2 ) , . . . , l1 (l2 | l1 ) e na distribuicao marginal l (l1 ) . Assim temos:
Z
() = 1 ( | 1 ) 2 (1 | 2 ) . . . l1 (l2 | l1 ) l (l1 ) d1 d2 . . . dl1
(6.1)
em que i denota o hiperparametro no nvel i = 1, 2, . . . e a integral e considerada para
1 , 2 , . . . , l1 .
Exemplo 6.1: (Modelo Poisson/exponencial hierarquico)
Seja Yi , i = 1, . . . , n uma variavel aleatoria denotando o n
umero de acidentes de trabalho
durante um dado perodo fixado de tempo em n linhas de producao de uma ind
ustria.
Assumir uma distribuicao de Poisson para Yi ,
Yi | i v P oisson (i )

(6.2)

em que 1 , 2 , . . . , n e suposto como uma amostra aleatoria de uma distribuicao exponencial


com hiperparametro desconhecido.
Assumir uma distribuicao a priori nao-informativa para , dada por 2 () 1 , > 0.
Dessa forma, temos um modelo Bayesiano hierarquico definido pela distribuicao conjunta
para y = (y1 , . . . , yn )0 dado = (1 , 2 , . . . , n ) ,
f (y | ) =

n
Y
exp (i ) yi
i

yi !

i=1

(6.3)

Assim uma priori para no primeiro estagio e dada por,


1 ( | ) =

n
Y

exp (i )

(6.4)

i=1

e uma priori para no segundo estagio e dada por,


2 ()
em que > 0.
76

(6.5)


6.1. MODELOS BAYESIANOS HIERARQUICOS

77

Combinando-se (6.3) , (6.4) e (6.5) temos a distribuicao a posteriori conjunta para e


dada por,
(, | y) f (y | ) 1 ( | ) 2 ()
(6.6)
Isto e,
"
(, | y) n1 exp ( + 1)

n
X
i=1

#
i

n
Y

yi i

(6.7)

i=1

As distribuicoes condicionais necessarias para o amostrador de Gibbs sao dadas por:


!
n
X
(i) | , y v Gama n,
i
(6.8)
i=1

(ii) i | , (i) , y v Gama (yi + 1, + 1)


em que i = 1, 2, . . . , n e (i) = (1 , 2 , . . . , i1 , i+1 , . . . , n )
Exemplo 6.2: (modelo normal/normal hierarquico)
Sejam y1 , . . . , yn observacoes independentes de uma distribuicao normal, isto e, yi | i v
N (i , 21 ) para i = 1, . . . , n e com 21 conhecido.
Assumir no primeiro nvel de um modelo Bayesiano hierarquico, a distribuicao a priori para
i dada por,

iid
i | , 22 v N , 22
(6.9)
para i = 1, . . . , n.
No segundo nvel de hierarquia, assumir independencia a priori entre e 22 e uma distribuicao localmente uniforme para , isto e,


, 22 2 22
(6.10)
em que 2 ( 22 ) e uma priori para 22 .
Dessa forma, a distribuicao a posteriori para 1 , . . . , n , , 22 e dada por:
( n

)
Y

1
1
p
exp 2 (yi i )2

1 , . . . , n , , 22 | y
2
2
2
1
1
i=1
( n

)
Y
1
1
p

exp 2 (i )2

2
2
2
2
2
i=1

2
2 2

(6.11)

em que < i < ; < < e 22 > 0.


Assumir uma distribuicao a priori gama inversa para 22 , isto e,
22 v IG (a, b)

(6.12)

em que a e b sao conhecidos.


Portanto,

1 , . . . , n , , 22

|y



b
exp 2

2
"
#
n
n
1 X
1 X
2
2
(yi i ) 2
(i )
exp 2
2 1 i=1
2 2 i=1
(a+ n2 +1)
22

CEMEQ - Centro de Metodos Quantitativos

(6.13)


6.2. ANALISE
BAYESIANA EMPIRICA

78

As distribuicoes condicionais necessarias para o amostrador de Gibbs sao dadas por,


#
"
n
X
1
n
(i )2
(6.14)
(a) 22 | , , y v IG a + ; b +
2
2 i=1


2

2
2
(b) | , 2 , y v N ;
n

 2
yi 2 + 21 21 22
2
,
(c) i | (i) , , 2 , y v N
21 + 22 21 + 22
P
em que = (1 , . . . , n ); = n1 ni=1 i ; i = 1, . . . , n.

6.2

An
alise Bayesiana Emprica

Em muitas aplicacoes podemos usar os dados y para elicitar uma distribuicao a priori ()
para os parametros do modelo f (y | ). A funcao de verossimilhanca marginal e dada por
Z
f (y) = f (y | ) () d
(6.15)
Assim usar o metodo da maxima verossimilhanca marginal para a escolha da priori ().
Supor n observacoes yi independentes com distribuicoes f (yi | i ) em que os parametros
i , i = 1, . . . , n sao considerados como gerados independentemente da mesma priori () desconhecida. Para simplificacao assumir que ( | ) e especificada, mas com desconhecido.
A verossimilhanca marginal para e dada por,
Z
Z
f (y | ) = . . . f (yi | i ) (i | ) d1 . . . dn
(6.16)
em que
Z
f (yi | ) =

f (yi | i ) (i | ) di

Usando o metodo de maxima verossimilhanca ou o metodo dos momentos obter uma estimativa
do hiperparametro . Entao considerar esse valor para o hiperparametros da
distribuicao a priori ( | ).
Como um caso particular considerar o modelo Poisson/exponencial, com funcao de probabilidade,
exp (i ) yi i
(6.17)
f (yi | i ) =
yi !
para yi = 0, 1, 2, . . . e a priori,
(i | ) = exp (i )
(6.18)
para i > 0.
Dessa forma,

Z
f (yi | ) =

f (yi | i ) (i | ) di
0

(yi +1)1

i
0

(yi + 1)
( + 1)yi +1

CEMEQ - Centro de Metodos Quantitativos

exp [ ( + 1) i ] di

(6.19)


6.2. ANALISE
BAYESIANA EMPIRICA

79

Portanto, a funcao de verossimilhanca para assumindo n observacoes independentes e dada


por,
n
Q
(yi + 1)
n
i=1
Pn
L ()
(6.20)
( + 1)n+ i=1 yi
O logaritmo da funcao de verossimilhanca L () e dado por,
!
n
X
l () = ln L () n ln () n +
yi ln ( + 1)

(6.21)

i=1
Pn

i
De l0 () = 0, encontramos = y1 , em que y = i=1
.
n
A distribuicao a posteriori para i e dada por,


(i | y) exp i yi i exp (i )

(6.22)

Isto e,
(i | y)

(y +1)1
i i

 
 
1
+ 1 i
exp
y

(6.23)

i = 1, . . . , n.
Ou seja,


1
i | yi v Gama yi + 1; + 1
y


(6.24)

Exemplo 6.3: Qualidade do atendimento em um hospital.


Considerar n = 400 pacientes com AMI (acute myocardial infarction) tendo um ataque
cardaco apos 30 dias do diagnostico de AMI durante o perodo janeiro/2000 a dezembro/2003
por um grande hospital.
A variavel resposta e o status da mortalidade (1 = morte;0 = sobrevivencia). Denotar
essa variavel aleatoria por Y com uma distribuicao de Bernoulli com probabilidade de sucesso
[ = P (Y = 1)]. Assumir uma distribuicao a priori Beta (, ) para . Observar que essas
400 pessoas nao formam uma amostra aleatoria de uma populacao. Apesar disso, assumir
permutabilidade para as observacoes yi , i = 1, . . . , n. O teorema da representacao de DeFinetti
para variaveis 0 1 mostra que dado as variaveis Yi sao independentes.
Supor que um especialista da area de cardiologia afirma que a taxa de mortalidade para
pacientes com 30 dias de AMI e em media de 15%. Alem disso, o especialista fornece outra
informacao: a taxa de mortalidade a partir de estudos previos e um valor entre 5% e 30%.
Com essas informacoes do especialista, escolher os valores dos hiperparemetros da distribui
c
p ao beta por = 4, 5 e = 25, 5 o que leva a uma media E () 0, 15 e desvio-padrao
var () 0, 064 para a distribuicao Beta (, ).
A funcao de verossimilhanca para e dada por,
f (y | ) = L () = S (1 )nS

(6.25)

P
em que S = ni=1 yi .
Combinando a funcao de verossimilhanca (6.25) com a distribuicao a priori Beta (4, 5; 25, 5)
para , a distribuicao a posteriori para e uma distribuicao Beta ( + S; + n S). Com os
dados | y, , v Beta (76, 5; 353, 5).
Um estimador de Bayes com respeito a funcao de perda quadratica e dado pela media a
CEMEQ - Centro de Metodos Quantitativos


6.2. ANALISE
BAYESIANA EMPIRICA

80

posteriori para , isto e,


E ( | y) =

+S
++n

(6.26)

Isto e, E ( | y) = 0, 178.
Exemplo 6.4: (Meta-analise para efeitos de aspirina em ataques cardacos)
Supor um experimento realizado por 6 centros medicos para comparar o uso de aspirina e
placebo em pacientes apos um ataque cardaco (ver tabela 6.1).
Tabela 6.1: Estudo de 6 centro medicos.
Centro
Aspirina

Medico N pacientes Taxa Mortalidade (%)


UK-1
615
7, 97
CDPA
758
5, 80
GAMS
317
8, 52
UK-2
832
12, 26
Paris
810
10, 49
AMIS
2267
10, 58
Total
5599
9, 88

Placebo
N pacientes Taxa Mortalidade (%)
624
10, 74
771
8, 30
309
10, 36
850
14, 82
406
12, 81
2257
9, 70
5217
10, 73

Considerando inicialmente um estudo classico, temos na tabela 6.2 os sumarios obtidos para
as diferencas entre as taxas de mortalidade para cada uma dos centros medicos considerados.
Tabela 6.2: Sumarios da inferencia classica para os 6 centros medicos.
Centro Medico yi =diferenca em %
UK-1
2, 77
CDPA
2, 50
GAMS
1, 84
UK-2
2, 56
Paris
2, 31
AMIS
1, 15
Total
0, 86

E. P. da diferenca em %
zi
1, 65
1, 68
1, 31
1, 91
2, 34
0, 79
1, 67
1, 54
1, 96
1, 17
0, 90
1, 27
0, 59
1, 47

pi
0, 047
0, 028
0, 216
0, 062
0, 129
0, 898
0, 072

Observar que zi dado na tabela 6.2 representa a razao das diferencas em taxas de mortalidade
em relacao aos seus erros-padrao (EP). Da mesma forma, pi denota o p-value (teste unicaudal)
associado com zi , usando uma aproximacao normal.
A partir dos resultados da tabela 6.2 observamos que os 5 primeiros estudos levam a um
declnio na taxa de mortalidade usando aspirina, apesar de alguns estudos nao mostrarem
evidencias de significancia (p-values maiores do que 0, 05). O u
ltimo estudo (AMIS) leva a uma
aumento na taxa de mortalidade para pacientes recebendo aspirina. Observar que esse grupo
tem o maior n
umero de pacientes.
Uma dificuldade com o uso de metodos classicos aplicados a meta-analise e a combinacao
dos resultados para os diferentes grupos em termos de um p-value geral para todos os estudos.
O uso de metodos Bayesianos tem sido uma alternativa promissora para meta-analise aplicada
a estudos medicos.
CEMEQ - Centro de Metodos Quantitativos


6.2. ANALISE
BAYESIANA EMPIRICA

81

Assumir um modelo Bayesiano hierarquico com as taxas de mortalidade para os dois grupos
(aspirina e placebo) com distribuicoes normais, isto e,

y1i v N 1i , 21
(6.27)

2
y2i v N 2i , 2
para i = 1, . . . , 6; y1i e a taxa de mortalidade para pacientes recebendo aspirina e y2i e a taxa
de mortalidade para pacientes recebendo placebo.
Assumir em um primeiro estagio da analise Bayesiana as seguintes distribuicoes a priori
para os parametros do modelo:

1i v N 1i , 21
(6.28)

2
2i v N 2i , 2
21 v Gama (a1 , b1 )
22 v Gama (a2 , b2 )
para i = 1, . . . , 6; a1 , a2 , b1 e b2 hiperparametros conhecidos. Assumir independencia a priori
entre os parametros.
Em um segundo estagio da analise Bayesiana hierarquica assumir as distribuicoes a priori,

1i v N c1i , d21i
(6.29)

2
2i v N c2i , d2i
21 v Gama (e1 , f1 )
22 v Gama (e2 , f2 )
para i = 1, . . . , 6 e com todos os hiperparametros de (6.29) assumidos conhecidos. Com a
informacao obtida dos resultados da inferencia classica (ver tabela 6.2), escolhemos os valores
dos hiperparametros para as distribuicoes a priori (6.28) e (6.29) (Uso de metodos Bayesianos
Empricos).
Usando o software Winbugs, considere o programa:
Listagem 6.1: Programa WinBugs
1
2
3
4
5
6

model
{
f o r ( i i n 1 :N)
{
y1 [ i ] dnorm ( t h e t a 1 [ i ] , tau1 )
y2 [ i ] dnorm ( t h e t a 2 [ i ] , tau2 )

7
8
9

t h e t a 1 [ i ] dnorm ( a l p h a 1 [ i ] , e t a 1 )
t h e t a 2 [ i ] dnorm ( a l p h a 2 [ i ] , e t a 2 )

10
11
12

d [ i ] < t h e t a 2 [ i ] t h e t a 1 [ i ]
}

13
14
15
16
17
18
19

alpha1 [ 1 ]
alpha1 [ 2 ]
alpha1 [ 3 ]
alpha1 [ 4 ]
alpha1 [ 5 ]
alpha1 [ 6 ]

dnorm ( 8 , 1 )
dnorm ( 5 . 8 , 1 )
dnorm ( 8 . 5 , 1 )
dnorm ( 1 2 . 3 , 1 )
dnorm ( 1 0 . 5 , 1 )
dnorm ( 1 0 . 6 , 1 )

CEMEQ - Centro de Metodos Quantitativos


6.2. ANALISE
BAYESIANA EMPIRICA

20
21
22
23
24
25

alpha2 [ 1 ]
alpha2 [ 2 ]
alpha2 [ 3 ]
alpha2 [ 4 ]
alpha2 [ 5 ]
alpha2 [ 6 ]

82

dnorm ( 1 0 . 7 , 1 )
dnorm ( 8 . 3 , 1 )
dnorm ( 1 0 . 4 , 1 )
dnorm ( 1 4 . 8 , 1 )
dnorm ( 1 2 . 8 , 1 )
dnorm ( 9 . 7 , 1 )

26
27
28
29
30
31

tau1
tau2
eta1
eta2
}

dgamma ( 0 . 1
dgamma ( 0 . 1
dgamma ( 0 . 1
dgamma ( 0 . 1

,0.1)
,0.1)
,0.1)
,0.1)

32
33
34

l i s t ( y1=c ( 7 . 9 7 , 5 . 8 , 8 . 5 2 , 1 2 . 2 6 , 1 0 . 4 9 , 1 0 . 5 8 ) ,
y2=c ( 1 0 . 7 4 , 8 . 3 , 1 0 . 3 6 , 1 4 . 8 2 , 1 2 . 8 1 , 9 . 7 ) , N=6)

Na geracao de amostras para a distribuicao a posteriori usando o amostrador de Gibbs,


consideramos um burn-in de tamanho 1000 e geramos uma amostra final de tamanho 1000
escolhendo amostras de 10 em 10.
Na tabela 6.3 temos os sumarios a posteriori obtidos usando o software WinBugs.
A partir dos resultados da tabela 6.3 observamos que os intervalos de credibilidade 95%
para as diferencas di = 2i 1i , i = 1, . . . , 6 para os 5 primeiros tratamentos nao incluem o
valor zero, isto e, a aspirina apresenta um ganho em relacao ao placebo em termos de taxas
de mortalidade menores. Alem disso todas as estimativas de Monte Carlo baseadas nas 1000
amostras geradas de Gibbs para as medias a posteriori de di , isto e, E (di | y) sao positivas. O
intervalo de credibilidade 95% para o u
ltimo estudo (i = 6, AMIS) inclui o valor zero, isto e,
indicando um efeito nao significativo da aspirina na taxa de mortalidade para os pacientes apos
um ataque cardaco.
Exemplo 6.5: Supor os dados de um experimento conduzido com pessoas idosas na Dinamarca nos anos 1980 considerando 572 idosos vivendo em diferentes cidades pequenas que
foram aleatorizados para dois grupos: um grupo com 287 pessoas (grupo experimental recebendo um novo tipo de medicina preventiva). O objetivo do estudo foi verificar se a nova terapia
preventiva aplicada aos idosos melhora a sa
ude.
A resposta associada a cada idoso foi relacionada ao n
umero de hospitalizacoes durante o
perodo de 2 anos (tempo de duracao do estudo). Os dados desse estudo sao apresentados na
tabela 6.4.
Considerando inicialmente uma analise preliminar descritiva dos dados, observar que a reducao do mnimo de hospitalizacoes e dado pela
 diferenca 0, 944 0, 768 = 0, 176, isto e, levando
= 19%.
a uma reducao no nvel de controle de 100 0,9440,768
0,768
Uma analise classica (erronea) poderia ser feita assumindo distribuicoes normais para Ci
(controle) e Ej (experimental), isto e,

Ci | c , 2c v N c , 2c
(6.30)

2
2
Ej | e , e v N e , e
para i = 1, . . . , nc (nc e o n
umero de pacientes do grupo controle; nc = 287) e j = 1, . . . , ne (ne
e o numero de pacientes idosos no grupo experimental, ne = 285).
Usando a estatstica Z (comparacao de amostras independentes), temos para o efeito de
tratamento uma media amostral igual a 0, 176 (diferenca das medias); um desvio-padrao
amostral igual a 0, 0944 e um intervalo de confianca para a diferenca de medias dado por
(0, 361; 0, 009).
CEMEQ - Centro de Metodos Quantitativos


6.2. ANALISE
BAYESIANA EMPIRICA

83

Tabela 6.3: Sumarios a posteriori (analise Bayesiana para os dados da tabela 6.2).
node
mean
sd
MC error
alpha1[1] 8,012 0,6213 0,02164
alpha1[2] 5,811 0,6123 0,02328
alpha1[3] 8,528 0,6122 0,01645
alpha1[4]
12,3
0,5966 0,01637
alpha1[5] 10,48 0,6407 0,02329
alpha1[6] 10,57 0,6314 0,01924
alpha2[1] 10,76 0,5948 0,01458
alpha2[2]
8,31
0,6122 0,01985
alpha2[3] 10,35 0,6145 0,01964
alpha2[4] 14,82 0,6256 0,02158
alpha2[5] 12,78 0,6041 0,01527
alpha2[6] 9,682 0,6171 0,01849
d[1]
2,754 0,7151 0,02227
d[2]
2,505 0,6918 0,02022
d[3]
1,852 0,6981 0,02203
d[4]
2,535 0,7298
0,0262
d[5]
2,308
0,671
0,01984
d[6]
-0,8969 0,7191 0,02416
eta1
6,674
7,068
0,2017
eta2
6,878
7,07
0,2111
tau1
6,719
7,011
0,1986
tau2
6,591
6,687
0,1972
theta1[1] 7,997 0,5034 0,01628
theta1[2] 5,791 0,4899 0,01648
theta1[3] 8,507 0,4986 0,01677
theta1[4] 12,29 0,5215 0,01575
theta1[5] 10,49 0,4792 0,01726
theta1[6] 10,59 0,5237 0,01746
theta2[1] 10,75
0,485
0,01476
theta2[2] 8,297 0,4868 0,01444
theta2[3] 10,36 0,5144
0,0154
theta2[4] 14,83 0,5133 0,01761
theta2[5]
12,8
0,4805 0,01253
theta2[6] 9,688 0,5225 0,01696

2,5% median 97,5% start sample


6,805
8,002
9,332 1001
1000
4,573
5,812
7,014 1001
1000
7,381
8,508
9,765 1001
1000
11,17
12,29
13,46 1001
1000
9,307
10,48
11,8
1001
1000
9,31
10,58
11,78 1001
1000
9,621
10,75
11,96 1001
1000
6,991
8,316
9,541 1001
1000
9,141
10,31
11,61 1001
1000
13,56
14,82
16,09 1001
1000
11,47
12,78
13,96 1001
1000
8,405
9,691
10,94 1001
1000
1,247
2,777
4,149 1001
1000
1,214
2,505
3,926 1001
1000
0,3278 1,841
3,277 1001
1000
1,032
2,539
4,053 1001
1000
0,934
2,331
3,642 1001
1000
-2,364 -0,8849 0,5441 1001
1000
0,5855 4,191
27,23 1001
1000
0,4839 4,639
26,1
1001
1000
0,5612 4,317
28,34 1001
1000
0,6053 4,307
25,24 1001
1000
7,006
7,997
9,065 1001
1000
4,727
5,812
6,792 1001
1000
7,54
8,51
9,577 1001
1000
11,22
12,28
13,44 1001
1000
9,513
10,49
11,46 1001
1000
9,423
10,57
11,65 1001
1000
9,742
10,76
11,78 1001
1000
7,345
8,284
9,303 1001
1000
9,281
10,36
11,43 1001
1000
13,78
14,81
16,0
1001
1000
11,78
12,8
13,76 1001
1000
8,621
9,702
10,71 1001
1000

Tabela 6.4: Dados de pacientes idosos.


N
umero de
Grupo
0
1 2
(C) Controle
140 75 46
(E) Experimental 147 83 37

CEMEQ - Centro de Metodos Quantitativos

hospitalizacoes
n
3 4 5 6 7
12 8 4 0 2 287
13 3 1 1 0 285

media

D.P.

0, 944
0, 768

1, 24
1, 01


6.2. ANALISE
BAYESIANA EMPIRICA

84

Observar que os dados da tabela 6.4 sao dados de contagem (dados discretos). Portanto
assumir para uma analise Bayesiana uma distribuicao de Poisson para as variaveis aleatorias
Ci e Ej dados por:
Ci | c v P oisson (c )
Ej | e v P oisson (e )

(6.31)

para i = 1, . . . , nc e j = 1, . . . , ne .
Assumir as seguintes distribuicoes a priori (independentes) para c e e .
c v Gama (0, 01; 0, 01)
e v Gama (0, 01; 0, 01)

(6.32)

Observar que as distribuicoes a priori (6.32) sao nao-informativas para os parametros. Tambem observar que temos interesse no efeito de tratamento dado por = e c .
Um programa usando o software WinBugs considerando as respostas para cada indivduo
nos grupos C e E e dado a seguir:
Listagem 6.2: Programa WinBugs
1
2
3
4
5
6
7
8
9
10
11
12
13

model {
lambda . c
lambda . e
for ( i in
{
C[ i ]
}
for ( i in
{
E[ i ]
}
e f f e c t <
}

dgamma ( 0 . 0 1 , 0 . 0 1 )
dgamma ( 0 . 0 1 , 0 . 0 1 )
1:n . c )
d p o i s ( lambda . c )
1:n . e )
d p o i s ( lambda . e )
lambda . e lambda . c

14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

l i s t (C=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,
2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,4 ,4 ,4 ,4 ,4 ,4 ,4 ,4 ,5 ,5 ,
5 , 5 , 7 , 7 ) , n . c =287 ,
E=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,
2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,4 ,4 ,4 ,5 ,6) ,
n . e =285)
l i s t ( lambda . c =1.0 , lambda . e =1.0)
CEMEQ - Centro de Metodos Quantitativos


6.2. ANALISE
BAYESIANA EMPIRICA

85

Na tabela 6.5, temos os sumarios a posteriori de interesse assumindo um burn-in de tamanho 2000 e gerando 1000 amostras finais selecionadas de 10 em 10.

Tabela 6.5: Sumarios a posteriori (analise Bayesiana para os dados da tabela 6.6).
node
mean
sd
MC error 2, 5% median 97, 5% start sample
effect
-0,1711 0,07823 0,002539 -0,3272 -0,1691 -0,01809 2001
1000
lambda.c 0,9375 0,05813 0,001708 0,8253 0,9372
1,056
2001
1000
lambda.e 0,7664 0,05143 0,00174
0,67
0,766
0,8693 2001
1000

A partir dos resultados da tabela 6.5, observar que uma estimativa de Monte Carlo para a
media a posteriori da diferenca = e c baseada nas 1000 amostras de Gibbs e dada por
= 0, 1711, um resultado similar ao obtido na inferencia classica assumindo a estatstica

Z. Entretanto, observa-se um intervalo de credibilidade 95% para essa diferenca dado por
(0, 3272; 0, 01809) que tem comprimento menor ao obtido pelo intervalo de confianca 95%
usando a estatstica Z. Tambem observamos que o valor zero nao esta includo no intervalo de
credibilidade 95%, um indicativo de que a nova terapia diminui o n
umero de internacoes dos
[
idosos. O criterio DIC para esse valor foi estimado por DIC = 1497, 21.
Na figura 6.1 temos os graficos de series temporais para as amostras geradas de Gibbs para
cada parametro. Observa-se convergencia do algoritmo.
Observar que sob os dois modelos considerados, classico e Bayesiano, estamos assumindo
um efeito de tratamento aditivo, isto e,
E = C + Ef eito

(6.33)

Outros modelos poderiam ser considerados para analisar os dados de contagem (n


umero
de hospitalizacoes por idosos em um perodo de 2 anos). Dessa forma, assumir um modelo
multiplicativo dado por,
E = (1 + Ef eito) C
(6.34)
Portanto, considerar um modelo de regressao da resposta y (contagem de hospitalizacoes
por indivduo) versus uma variavel independente dummy especificando os dois grupos: 1 para
o grupo experimental e 0 para o grupo controle.
Assim, assumir o modelo,
ind
yi | i v P oisson (i )
(6.35)
em que log (i ) = 0 + 1 Xi , i = 1, 2, . . . , 572 (n
umero total de idosos no estudo).
Assumir as seguintes distribuicoes a priori nao-informativas para os parametros 0 e 1 :

0 v N 0, 104
(6.36)

4
1 v N 0, 10
Observar do modelo (6.35) que o parametro c da distribuicao de Poisson para as pessoas
no grupo controle e dado por,
c = exp [ 0 + 1 (0)]
= exp ( 0 )
CEMEQ - Centro de Metodos Quantitativos

(6.37)


6.2. ANALISE
BAYESIANA EMPIRICA

86

effect
0.2
5.55112E-17
-0.2
-0.4
-0.6
2001

2250

2500

2750

3000

2750

3000

2750

3000

iteration

lambda.c
1.2
1.1
1.0
0.9
0.8
0.7
2001

2250

2500
iteration

lambda.e
1.0
0.9
0.8
0.7
0.6
2001

2250

2500
iteration

Figura 6.1: Graficos das amostras simuladas.

CEMEQ - Centro de Metodos Quantitativos


6.2. ANALISE
BAYESIANA EMPIRICA

87

e o parametro e da distribuicao de Poisson para as pessoas no grupo experimental e dado por,


e = exp [ 0 + 1 (1)]
exp ( 0 + 1 )

(6.38)

Como exp ( 1 ) 1 + 1 , observar que e (1 + 1 ) c (modelo de efeito multiplicativo).


Um programa usando o software Winbugs para esse modelo e dado por:
Listagem 6.3: Programa WinBugs
1
2
3
4
5
6
7
8
9
10
11
12
13

model
{
gamma . 0 dnorm ( 0 . , 0 . 0 0 0 1 )
gamma . 1 dnorm ( 0 . , 0 . 0 0 0 1 )
for ( i in 1: n)
{
l o g ( lambda [ i ])< gamma . 0 + gamma . 1 x [ i ]
y [ i ] d p o i s ( lambda [ i ] )
}
lambda . c< exp (gamma . 0 )
lambda . e< exp (gamma.0+gamma . 1 )
mult . e f f e c t < exp (gamma . 1 )
}

14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44

l i s t ( y=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,
2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,4 ,4 ,
4 ,4 ,4 ,4 ,4 ,4 ,5 ,5 ,5 ,5 ,7 ,7 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,2 ,2 ,2 ,
2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,3 ,
3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,4 ,4 ,4 ,5 ,6) ,
x=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
CEMEQ - Centro de Metodos Quantitativos


6.2. ANALISE
BAYESIANA EMPIRICA

45
46
47
48
49

88

1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1) ,
n=572)

50
51

l i s t (gamma.0=0 , gamma.1=0)

Na tabela 6.6 temos os sumarios obtidos para os parametros de interesse considerando um


burn-in de tamanho 2000 e uma amostra de Gibbs de tamanho 1000 em que as amostras
foram escolhidas de 10 em 10.

Tabela 6.6: Sumarios a posteriori considerando um modelo multiplicativo.


node
mean
sd
MC error
2, 5%
median
97, 5%
start sample
gamma.0 0, 07006 0, 06091 0, 002074 0, 1851 0, 0686 0, 04647 2001
1000
gamma.1
0, 1952 0, 08916 0, 00296 0, 3624 0, 1939 0, 01261 2001
1000
lambda.c
0, 9341
0, 05685 0, 001948
0, 831
0, 9337
1, 048
2001
1000
lambda.e
0, 7687
0, 05082 0, 001731
0, 674
0, 7663
0, 8755
2001
1000
mult.effect
0, 826
0, 07414 0, 00242
0, 696
0, 8238
0, 9875
2001
1000

Observar que as estimativas de Monte Carlo para as medias a posteriori para c e e (ver
tabela 6.6) usando um modelo multiplicativo sao muito proximas dos resultados obtidos usando
um modelo aditivo (ver tabela 6.5).
[ = 1497, 10
Para o modelo multiplicativo, encontramos uma valor para DIC dado por DIC
que e um valor muito proximo ao obtido assumindo um modelo aditivo e assim conclumos que
os dois modelos (aditivo e multiplicativo) levam a` resultados similares.
Outra possibilidade e considerar um modelo com variabilidade extra-Poisson. Dos dados para cada indivduo nos dois grupos observamos que as medias amostrais e as variancias amostrais nao sao iguais (media(C) = 0, 9373; var(C) = 1, 5416; media(E) = 0, 7649 e
var(E) = 1, 044). Observar que para uma distribuicao de Poisson devemos ter media igual a`
variancia e isso nao ocorre para os dados dos dois grupos. Assim temos a presenca de variabilidade extra-Poisson.
Isso pode ser interpretado da seguinte forma: cada indivduo tem sua taxa propria de
hospitalizacao que depende de sua sa
ude, idade, etc.
Portanto, assumir o modelo de regressao de Poisson com efeitos aleatorios,
ind

yi | i v P oisson (i )

(6.39)

em que log (i ) = 0 + 1 Xi + ei , em que ei e um efeito aleatorio ou variavel latente com


distribuicao normal com media zero e variancia 2 , isto e,
ind

ei v N 0, 2
para i = 1, . . . , n.
CEMEQ - Centro de Metodos Quantitativos

(6.40)


6.2. ANALISE
BAYESIANA EMPIRICA

89

Assumir as seguintes distribuicoes a priori para os parametros do modelo:


0 v N (0, 10)
1 v N (0, 10)
2 v Gama (1, 1)

(6.41)

Tambem assumir independencia a priori entre os parametros 0 , 1 e 2 . O codigo em


WinBugs para esse modelo e dado a seguir:
Listagem 6.4: Programa WinBugs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

model
{
for ( i in 1: n)
{
l o g ( lambda [ i ])< gamma . 0 + gamma . 1 x [ i ] + e [ i ]
y [ i ] d p o i s ( lambda [ i ] )
e [ i ] dnorm ( 0 , sigma )
}
gamma . 0 dnorm ( 0 , 0 . 1 )
gamma . 1 dnorm ( 0 , 0 . 1 )
sigma dgamma ( 1 , 1 )
lambda . c< exp (gamma . 0 )
lambda . e< exp (gamma.0+gamma . 1 )
mult . e f f e c t < exp (gamma . 1 )
}

16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43

l i s t ( y=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,
2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,4 ,4 ,
4 ,4 ,4 ,4 ,4 ,4 ,5 ,5 ,5 ,5 ,7 ,7 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,2 ,2 ,2 ,
2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,3 ,
3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,3 ,4 ,4 ,4 ,5 ,6) ,
x=c ( 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,
0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
CEMEQ - Centro de Metodos Quantitativos


6.2. ANALISE
BAYESIANA EMPIRICA

44
45
46
47
48
49
50
51

90

1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,
1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1 ,1) ,
n=572)

Na tabela 6.7 temos os sumarios a posteriori obtidos a partir de uma amostra de Gibbs com
1000 amostras simuladas tomadas de 10 em 10 apos burn-in de 1000 amostras descartadas
para eliminar o efeito dos valores iniciais.
Tabela 6.7: Sumarios a posteriori (modelo multiplicativo na presenca de um efeito aleatorio).
node
gamma.0
gamma.1
lambda.c
lambda.e
mult.effect
sigma

mean
-0,3229
-0,1828
0,7269
0,6058
0,8384
2,059

sd
MC error 2, 5% median 97, 5% start
0,08896 0,003453 -0,5035 -0,3228 -0,1564 1001
0,1143 0,003771
-0,39
-0,1839 0,04032 1001
0,06445 0,002513 0,6044 0,7241 0,8552 1001
0,05749 0,002029 0,5043 0,6053 0,7266 1001
0,09634 0,003231 0,6771
0,832
1,041
1001
0,416
0,01761
1,383
2,005
3,061
1001

sample
1000
1000
1000
1000
1000
1000

Considerando o modelo multiplicativo na presenca de um efeito aleatorio encontramos o


[ = 1414, 25. Conclumos que
valor de DIC baseado nas 1000 amostras de Gibbs dado por DIC
o modelo multiplicativo na presenca do efeito
 aleatorio ei leva
 a melhor ajuste para os dados
[ = 1497, 21 e com o modelo multiplicativo
quando comparado com o modelo aditivo DIC


[ = 1497, 10 .
sem efeito aleatorio DIC
Na figura 6.2 temos os graficos das amostras de Gibbs simuladas para cada parametro. Da
figura 6.2 observamos convergencia do amostrador de Gibbs.

CEMEQ - Centro de Metodos Quantitativos


6.2. ANALISE
BAYESIANA EMPIRICA

91

gamma.0
5.55112E-17
-0.2
-0.4
-0.6
1001

1250

1500

1750

2000

1750

2000

1750

2000

1750

2000

1750

2000

iteration
gamma.1
0.4
0.2
5.55112E-17
-0.2
-0.4
-0.6
1001

1250

1500
iteration

lambda.c
1.0
0.9
0.8
0.7
0.6
0.5
1001

1250

1500
iteration

lambda.e
0.9
0.8
0.7
0.6
0.5
0.4
1001

1250

1500
iteration

sigma
4.0
3.0
2.0
1.0
1001

1250

1500
iteration

Figura 6.2: Graficos das amostras simuladas (modelo multiplicativo na presenca de um efeito
aleatorio).

CEMEQ - Centro de Metodos Quantitativos

Refer
encias Bibliogr
aficas
ACHCAR, J. A.; SMITH, A. F. M. Aspects of reparametrization in approximate Bayesian
inference. Bayesian and Likelihood methods in Statistics and Econometrics: Essays in Honor of
George A. Bernard. S. Geisser, J.S. Hodges, S.J. Press, A. Zellner, eds. Amsterdan:
North Holland, p. 439452, 1989.
AITKIN, M. Posterior Bayes factors. Journal of Royal Statistical Society, B, v. 53, p.
111142, 1991.
BERGER, J. O.; PERICCHI, L. R. The intrinsic Bayes factor for model selection and
prediction. [S.l.], 1993.
BERNARDO, J.; SMITH, A. (Ed.). Bayesian Theory. New York: Wiley Series in Probability
and Statistics, 2000.
BERNARDO, J. M. Reference posterior distribuions for Bayesian inference (with discussion).
Journal of the Royal Statistical Society, B, v. 41, p. 113148, 1979.
BESAG, J.; GREEN P, J. Spatial statistics and Bayesian computation. Journal of the
Royal Statistical Society, B, v. 55, p. 2537, 1993.
BOX, G.; TIAO, G. Bayesian Inference in Statistical Analysis. New York: AddisonWesley, 1973.
CARLIN, B. P.; T., L. Bayes and empirical Bayes methods for data analysis, Segunda
Edic
ao. London: Chapman Hall, 2000.
CHIB, S.; GREENBERG, E. Understanding the Metropolis-Hastings algorithm. The
American Statistician, v. 49, p. 327335, 1995.
FINETTI, B. de. Funzione caratteristica di un fenomeno aleatorio. Memorias Academicas
Naz. Lincei, v. 4, p. 86133, 1930.
FINETTI, B. de. La prevision: ser lois logiques, ses sources subjects.. Ann. Inst. H.
Poincar
e, v. 7, p. 168, 1937/1964.
GAMERMAN, D. Markov Chain Monte Carlo: Stochastic simulation for Bayesian
inference. London: Chapman and Hall, 1997.
GEISSER, S. Predictive inference: an introduction. London: Chapman and Hall, 1993.
GELFAND, A. E.; DEY, D. K. Bayesian model choice: asymptotics and exact calculations.
Journal of the Royal Statistical Society, B, v. 56, n. 56, p. 501514, 1994.
GELFAND, A. E.; SMITH, A. F. M. Sampling-based approaches to calculating marginal
distributions. Journal of the American Statistical Association, v. 85, n. 410, p. 398409,
1990.
92

REFERENCIAS
BIBLIOGRAFICAS

93

GELMAN, A.; RUBIN, D. B. Inference from iterative simulation using multiple sequences.
Statistical Science, v. 7, p. 457511, 1992.
GEMAN, S.; GEMAN, D. Stochatisc relaxation, Gibbs distribution and the bayesian
restoration of images. IEEE Tramsaction on Patterm Analysis and Machine
Intelligence, v. 6, p. 721741, 1984.
GEWEKE, J. Bayesian inference in econometric models using Monte Carlo integration.
Econometrica, v. 57, p. 13171339, 1989.
GEWEKE, J. Evaluating the accuracy of sampling-based approaches to calculating posterior
moments. In: Bayesian Statistics 4. [S.l.]: Oxford: Clarendon Press, 1992.
JELINSKI, Z.; MORANDA, P. B. Software realibility research. New York: Academic
Press: Freiberger, W (ed). Statistical Computer Performance Evaluation, 1972. 465497 p.
KADANE, J. B. Predictive and structural methods for eliciting prior distributions.
North-Holland, Amsterdam: Bayesian Analysis and econometrics and statistics (A. Zellner,
ed), 1980. 8993 p.
KASS, R. E.; RAFTERY, A. E. Bayes factor. Journal of the American Statistical
Association, v. 90, p. 773795, 1995.
LEE, T. E. Statistical Methods for Survival Data Analysis. New York: John Wiley and
Sons, 1992.
PAULINO, C.; TURKMAN, M.; MURTEIRA, B. Estatstica Bayesiana. Lisboa: Fundacao
Calouste Gulbenkian, 2003.
RAFTERY, A. E.; LEWIS, S. M. Implementing MCMC. In: Markov chain Monte Carlo
in practice. London: Chapman and Hall, 1996. p. 115130.
RUBIN, H. A weak system of axioms for rational behaviour and the non-separability of utility
from the prior. Statistical and Decisions, v. 5, p. 4758, 1987.
SCHWARZ, G. Estimating the dimension of a model. Annals of Statistics, v. 6, p. 461466,
1978.
SPIEGELHALTER, D. J. et al. Bayesian measures of model complexity and fit (with
discussion). Journal of the Royal Statistical Society, B, v. 64, p. 583639, 2002.
SPIEGELHALTER, D. J.; SMITH, A. F. M. Bayes factors for linear and log-linear models
with vague prior information. Journal of the Royal Statistical Society, B, v. 44, p.
377387, 1982.
SPIEGELHALTER, D. J. et al. WinBUGS Version 1.4 User Manual. [S.l.], 2003.
TIERNEY, L. Markov chains of exploring posterior distributions. Annals of Statistics,
v. 22, p. 17011762, 1994.
TIERNEY, L.; KADANE, J. B. Accurate approximations for posterior moments and marginal
densities. Journal of the American Statistical Association, v. 81, p. 8286, 1996.
WINKLER, R. L. Prior information, predictive distribution and Bayesian modelbuilding. North-Holland, Amsterdam: Bayesian Analysis and econometrics and statistics (A.
Zellner, ed), 1980. 95109 p.

CEMEQ - Centro de Metodos Quantitativos

Ap
endice A
Resolu
c
ao de Alguns Exerccios
A.1

Capitulo 1

A.1.1

Item 1

Seja a distribuicao a posteriori ( | y) beta com parametros e (funcoes dos dados).


Considerar a funcao de perda:
L (d , ) = 2 (d )2 , d 0 e 0 1
Assim:


( + )
1
1
( | y) =

(1

)
, 01

( ) ( )


Achar a decisao de Bayes que minimiza o erro esperado.


Seja a decisao de Bayes dada por:


Z

( + )
1

2
R=
1 (1 ) 1 d

2 (d )

( ) ( )

A decisao de Bayes que minimiza o erro esperado e dada por:


Z
( + )
2
R (d , )
1
1
(d

)
=

(1

)
d = 0

2
d
( ) ( )

d =

A.1.2

2
+ 2

Item 2

Considerar a funcao de confiabilidade S (t) = P (T > t) onde S (t) = 1 = 0, 50 ou S (t) =


2 = 0, 90. Assim, as decisoes A1 (estimador de S (t) e 1 ) e (estimador de S (t) e 2 ) e a
seguinte funcao de perda L (d, ):

S (t) = 1
S (t) = 2
Assumir a priori (1 ) = 14 e (2 ) = 34 .
(a)
Qual e a solucao Bayesiana?
94

A1 A2
0 5
3 0

A.1. CAPITULO 1

95

Tomando a Acao 1:
E [L (A1 , )] = L (A1 , 1 ) (1 ) + L (A1 , 2 ) (2 )
E [L (A1 , )] = 0

1
3
+ 3 = 2, 25
4
4

Tomando a Acao 2:
E [L (A2 , )] = L (A2 , 1 ) (1 ) + L (A2 , 2 ) (2 )
E [L (A2 , )] = 5

1
3
+ 0 = 1, 25
4
4

Assim, A2 minimiza o erro esperado.


(b)
Retirar uma unidade e testa-la para o tempo t : falha ou sobrevivencia. Seja Z = 1 para
sobrevivencia e Z = 0 para falha e a distribuicao f (z = 1 | 1 ) = 0, 50; f (z = 1 | 2 ) = 0, 90;
f (z = 0 | 1 ) = 0, 50 e f (z = 0 | 2 ) = 0, 10. Qual e a solucao Bayesiana quando voce retira
uma unidade?
Para Z = 1 tem-se:
(1 | z = 1) =

(1 ) f (z = 1 | 1 )
(1 ) f (z = 1 | 1 ) + (2 ) f (z = 1 | 2 )

(1 | z = 1) =

1
4

1
4

0, 50
= 0, 15
0, 50 + 34 0, 90

(2 | z = 1) = 1 (1 | z = 1)
(2 | z = 1) = 0, 85
Para Z = 0 tem-se:
(1 | z = 0) =

(1 ) f (z = 0 | 1 )
(1 ) f (z = 0 | 1 ) + (2 ) f (z = 0 | 2 )

(1 | z = 0) =

1
4

1
4

0, 50
= 0, 62
0, 50 + 34 0, 10

(2 | z = 0) = 1 (1 | z = 0)
(2 | z = 0) = 0, 38
O risco de Bayes, com relacao a posteriori, se z = 1 e, executando a Acao 1, e dado por:
E [L (A1 , )] = L (A1 , 1 ) (1 | z = 1) + L (A1 , 2 ) (2 | z = 1)
E [L (A1 , )] = 0 0, 15 + 3 0, 85 = 2, 25
O risco de Bayes, com relacao a posteriori, se z = 1 e, executando a Acao 2, e dado por:
E [L (A2 , )] = L (A2 , 1 ) (1 | z = 1) + L (A2 , 2 ) (2 | z = 1)
E [L (A2 , )] = 5 0, 15 + 0 0, 85 = 0, 75
Logo, se z = 1, ficar com A2 .
CEMEQ - Centro de Metodos Quantitativos

A.1. CAPITULO 1

96

O risco de Bayes, com relacao a posteriori, se z = 0 e, executando a Acao 1, e dado por:


E [L (A1 , )] = L (A1 , 1 ) (1 | z = 0) + L (A1 , 2 ) (2 | z = 0)
E [L (A1 , )] = 0 0, 62 + 3 0, 38 = 1, 14
O risco de Bayes, com relacao a posteriori, se z = 1 e, executando a Acao 2, e dado por:
E [L (A2 , )] = L (A2 , 1 ) (1 | z = 0) + L (A2 , 2 ) (2 | z = 0)
E [L (A2 , )] = 5 0, 62 + 0 0, 38 = 3, 10
Logo, se z = 0 ficar com A1 .

A.1.3

Item 3

Supor que o tempo de sobrevivencia X de um componente eletronico tenha uma distribuicao


exponencial com densidade:
f (x | ) = exp (x) , x > 0 e > 0
Assumir uma amostra aleatoria de n unidades (x1 , x2 , ..., xn ) e a distribuicao a priori () =
> 0.
(a)
Achar a densidade a posteriori para .
Assumindo independencia entre as informacoes (x1 , x2 , ..., xn ), a funcao de verossimilhanca
e dada por:
!
n
X
L ( | x) = n exp
xi
1
,

i=1

A densidade a posteriori e dada por:


( | x) n1 exp

n
X

!
xi

i=1

| x v Gama n,

n
X

!
xi

i=1

(b)
Achar o estimador de Bayes para considerando a funcao de perda quadratica:
L (d , ) = (d )2
Z

(d )2 ( | x) d

R=

R (d , )
=
d

2 (d ) ( | x) d = 0

d = E [ ( | x)]
d =
CEMEQ - Centro de Metodos Quantitativos

1
x

A.1. CAPITULO 1
Pn

97

i
em que x = i=1
.
n
(c)
Qual e a moda da densidade a posteriori para ?
A moda da densidade a posteriori e dada por

log [ ( | x)]
= 0

(n 1)
para n 1
=
n
x
P
em que n
x = ni=1 xi .
(d)
Qual e a densidade a posteriori para o tempo de sobrevivencia mediano?
A mediana e dada por


(n
x)n [log (2)]
log (2) log (2)
f (tmed | x) =
exp n
x
(n) tmed
tmed
t2med
tmed | x v IG (n, n
x log (2))
Dica: Usar transformacao de variaveis.

A.1.4

Item 4

Assumir uma amostra de tamanho n de uma distribuicao normal com media e variancia
4. Considerar uma priori normal para com media 0 e variancia conhecida 2 .
(a)
Achar a densidade a posteriori para .
Assumindo independencia entre as informacoes (x1 , x2 , ..., xn ), a funcao de verossimilhanca
e dada por:
"
#
n
1X
L ( | x) exp
(xi )2
8 i=1
A priori para e dada por:


1
() exp 2 2
2

A densidade a posteriori e dada por:


"

1X
1
(xi )2 2 2
( | x) exp
8 i=1
2

N

n
x 2
4 2
;
4 + n 2 4 + n 2

(b)
Achar o estimador de Bayes com respeito a funcao de perda quadratica.
Z
R = (d )2 ( | x) d

R (d , )
= d
d

Z
( | x) d

CEMEQ - Centro de Metodos Quantitativos

( | x) d = 0

A.1. CAPITULO 1

98

Z
( | x) d = E ( | x)

d =

n
x 2
4 + n 2

(c)
Em qual situacao a solucao obtida pelo estimador de maxima verossimilhanca (EM V )
coincide com a solucao de Bayes com respeito a perda quadratica?
Igualando o EM V ao estimador bayesiano com respeito a perda quadratica tem-se:
n
x 2
= x
4 + n 2
2n
=1
4 + n 2

(A.1)

Logo, os mesmos serao iguais se 2 ou n .

A.1.5

Item 5

Supor que voce tenha uma distribuicao subjetiva para a temperatura media dos proximos
dias, dada por uma distribuicao gama com parametros e com media E () = e variancia
V ar () = 2 , em que e sao valores especificados. Escolher valores para a media e a variancia
que representam a sua opiniao sobre a temperatura e calcular os valores correspondentes de
e .
Achar a decisao de Bayes d (ou estimador de Bayes) para quando a funcao de perda e
dada por
2
L (d , ) = (d )2 + (d )2
1000
e comentar porque esse estimador e menor que E ( | y).
Seja,
E () = 30; V ar () = 5
Logo, a partir de E () =

= 30 e V ar () =

= 5 encontramos:

= 180
= 6
Da funcao de perda dada tem-se que o risco Bayesiano e dado por:
Z 
2 
2

2
R=
(d ) + (d )
( | y) d
1000


Z 
R (d , )
d 2

=
d +
( | y) d = 0
d
1000

Z
Z
Z
d
2

d ( | y) d +
( | y) d ( | y) d = 0
1000

R
Como integral ( | y) d = 1 temos
d +


d
E 2 | y d = E ( | y)
1000

CEMEQ - Centro de Metodos Quantitativos

A.1. CAPITULO 1

99
E ( | y)

d = 
E (2 |y)
1 + 1000



1
Observar que 1 + 1000
E 2 | y > 1, pois E 2 | y > 0.
.
Conclusao: E ( | y) >  E(|y)
E ( 2 |y)
1+

1000

Para os dados deste problema


d =

1000
1000 + (1 + )

d = 27, 99 < E () = 30.

A.1.6

Item 6

Supor que (x1 , ..., xn ) seja uma amostra aleatoria de uma distribuicao de Poisson com media
e que tem uma priori gama com parametros conhecidos e .
a) Achar a distribuicao a posteriori para e escrever a media a posteriori como uma media
ponderada da media a priori e a media amostral x.
De resultados observados no captulo 1 observamos que:

( | x) v Gama (n
x + , n + )
Potanto
E( | x) =

( + n
x)
( + n)

(b) Como a posteriori e uma funcao gama sabemos que a variancia e dada por
var( | x) =

( + n
x)
( + n)2

(c)
Mostrar que a variancia a posteriori e menor do que a variancia a priori x < (2 + n )E().
var( | X) < var()
( + n
x)

<
(n + )2
2
(n + )2
n
x<

2
(n2 + 2n + 2 )
x <

n
x < (2 + )

n
x < E()(2 + )

CEMEQ - Centro de Metodos Quantitativos

A.2. CAPITULO 2

A.2
A.2.1

100

Capitulo 2
Item 1

Seja y = (y1 , y2 , ..., yn ) representando uma amostra aleatoria da distribuicao exponencial


com densidade
f (y | ) = exp (y) , y > 0 e > 0
Considerar uma priori conjugada para . Achar:
(a)
A densidade a posteriori para .
Assumindo independencia entre as observacoes, a funcao de verossimilhanca L e dada por:
!
n
X
L (y | ) = n exp
yi
i=1

Assumindo como priori Gama (a, b) com a e b conhecidos, a distribuicao a posteriori e


dada por:
"
!#
n
X
( | y) (n+a)1 exp
yi + b
i=1

Logo:
| y Gama n + a,

n
X

!
yi + b

i=1

(b)
Uma aproximacao normal para a densidade a posteriori para .
 i
h
a 1

I
| y ,
 
1
=

EMV: = y ; I

n
.
2

| y ,
n
"

Vide equacao (1.27).


(c)
A densidade preditiva para uma observacao futura Yn+1 .
Z
f (yn+1 | y) = f (yn+1 | ) ( | y) d

Z
f (yn+1 | y) =

exp (yn+1 )
0

v z z1
exp (v) d
(z)

em que v = n
y + b e z = n + a.
f (yn+1

vz
| y) =
(z)

f (yn+1 | y) =
Como (z + 1) = z (z)
CEMEQ - Centro de Metodos Quantitativos

exp (yn+1 + v) z+11 d


vz
(z + 1)
(z) (yn+1 + v)z+1

A.2. CAPITULO 2

f (yn+1

101

vz
para yn+1 v ; Densidade de Pareto
| y) = z
(yn+1 + v)z+1

(d)
Para achar a moda da distribuicao de Pareto podemos construir um grafico ou utilizar
resultados conhecidos.

A.2.2

Item 2

Seja y = (y1 , y2 , ..., yn ) representando uma amostra aleatoria da distribuicao uniforme com
densidade
1
f (y | ) = , 0 < y <

e considere uma densidade a priori para dada por


() = a (+1) , > a, > 0 e a > 0 (a conhecido)
(a)
Achar a densidade a posteriori para dado y1 , y2 , ..., yn e a densidade preditiva para uma
observacao futura yn+1 dado y1 , y2 , ..., yn .
A funcao de verossimilhanca (L) e dada por:
L () =

n
Y

I(0,) (yi )

i=1

Observar que 0 < y1 < , 0 < y2 < , . . . , 0 < yn < , isto e


y(n) = max (y1 , . . . , yn )
L () = n I[y(n) ,] ()
Posteriori:
( | y) (+1) n I[y(n) ,] ()
(+n+1) I[y(n) ,] ()
Conclusao:

( | y) =

em que
k

+n+1 ,

> max a, y(n)

(+n+1) d

=
max(a,y(n) )

A densidade preditiva para uma observacao futura e dada por:


Z
f (yn+1 | y) = f (yn+1 | ) ( | y) d

em que > yn+1 e > max a, y(n) . Assim:


Z
Z
1 k
f (yn+1 | y) =
(+n+1) d
+n+1 d = k

max(y(n+1) ,A)
max(y(n+1) ,A)
CEMEQ - Centro de Metodos Quantitativos

A.2. CAPITULO 2

102

Portanto:
f (yn+1 | y) = k

f (yn+1 | y) =

A.2.3

(+n+2)+1
|
( + n + 2) + 1 max((yn+1 ),k)

( + n + 2 1) [max ((yn+1 ) , k)](n++3)

Item 3

Considerar uma distribuicao gaussiana inversa IG (, ) com densidade


!#
"
 21

(y )2

, y > 0; > 0 e > 0


exp
f (y | , ) =
2y 3
22 y
Observar que
E (Y ) =
3
V ar (Y ) =

Considerando uma amostra aleatoria (y1 , y2 , ..., yn ) e uma priori nao informativa para e
dada por
1
(, )

achar:

A.2.4

(a)

A densidade a posteriori conjunta para e . Tambem achar a densidade a posteriori


marginal para .
Assumindo independencia entre as observacoes, a funcao de verossimilhanca (L) e dada por
(
#)
"
  n2 Y
 21
n 
n

1
X (yi )2
L (y | , ) =
exp 2
2
yi3
2 i=1
yi
i=1
A densidade a posteriori conjunta para para e e dada por
(
"
#)
  n2 Y
n 
n
2
X
3
1

(y

)
i
yi2 exp 2
(, | y)
2
2
yi
i=1
i=1
A densidade a posteriori marginal para e dada por:
"
#)
(
  n2 Y
Z
n 
n
2
X
3

(y

)
1

i
d
( | , y)
yi2 exp 2

2
2
y
i

i=1
i=1
( | , y)
Como

n 
Y

1
n

(2) 2

3
2

yi

Z

i=1

()

n
1
2

"
#)
n
2
X

(yi )
exp 2
d
2 i=1
yi

xa1 exp (bx) dx =

CEMEQ - Centro de Metodos Quantitativos

(a)
ba

A.3. CAPITULO 3

103

temos
( | , y)
em que:

n
1 Y 
n

(2) 2

i=1

3
(a)
yi2 a
b

n
n
2
"
#
n
1 X (yi )2
b= 2
2 i=1
yi
a=

A.2.5

(c)

Achar a densidade preditiva para uma observacao futura Yn+1 dado y1 , y2 , ..., yn .
Z
f (yn+1 | y) = f (yn+1 | ) ( | y) d

( "
#)
 21

(yn+1 )2
| y) =

exp
3
2yn+1
22 yn+1

"
(
#)
  n2 Y

n 
n
1
1

X (yi )2
exp 2
dd
2
yi3
2 i=1
yi
i=1
Z Z 

f (yn+1

f (yn+1

A.3
A.3.1

Z
 
n 
Y
1
1
n+1
| y) =

3
yi
2

i=1

#) n+1
"
n
2
1 (yn+1 )2 X (yi )2
d
+
22
yn+1
y
i
i=1

Capitulo 3
Item 1

(a)
p
I () n. Uma constante.
(b)
p
p
I ( 2 ) n2 1
(c)
Ver exemplo 3.7.

A.3.2

Item 2

(a)
L (, ) =

V1

!n1

n1
V1 X
exp
t1j
j=1

(b)
(, )
(c)
CEMEQ - Centro de Metodos Quantitativos

V2

!n2

n2
V2 X
exp
t2j
j=1

A.4. CAPITULO 4

104

 
1
f (, | y)

V1

!n1

n1
V1 X
exp
t1j
j=1

V2

!n2

n2
V2 X
exp
t2j
j=1

(d)
!n1
!
!n2
!
n1
n2
V1
V1 X
V2
V2 X
exp
t1j
exp
t2j d

j=1

j=1


Z
1
n1 n2
(n1 +n2 +1)
f ( | y) = V1 V2

exp () d

Z  
1
f ( | y) =

em que
Z

(n1 +n2 +1)

exp n1 +

A.4
A.4.1

n2 , V1

n1
X

t1j +

V2

j=1

n2
X

!
t2j

j=1

Capitulo 4
Item 1

Seja y1 , ..., yn uma amostra aleatoria com distribuicao exponencial


 y
1
f (y | ) = exp , y > 0

Supor n = 30 e y = 12 e assumir uma priori de Jeffreys para .


A priori de Jeffreys para e dada por
1
() , > 0

(a)
Achar uma aproximacao de Laplace para E ( | y) e V ar ( | y).
A esperanca de dado y e dada por
R
() L () d
E ( | y) = R0
() L () d
0
em que

(A.2)

 n
y
L () = n exp

Logo


n
y
n
d

exp

E ( | y) = R 0 (n+1)

n
y

exp

0
Assumindo I, como uma expressao auxiliar tem-se, por Laplace,
 
Z
b
a
I=
exp
d = exp [nh ()]

h
 i
2
I exp nh
n
CEMEQ - Centro de Metodos Quantitativos

(A.3)

(A.4)

A.4. CAPITULO 4

105

em que
12

= [h00 ()]

Os termos necessarios para a resolucao da integral por Laplace sao


nh () = a log ()

a
b
nh0 () = + 2 = 0

= b
a
2b
a
nh00 () = 2 3

 
3
a
nh00 = 2
b

nb
= 3
a2
h
 i aa
exp nh = a exp (a)
b
Retomando a expressao dada em A.4 tem-se

3
2aa 2 exp (a)
I=
ba1
Para o numerador da expressao dada em A.3, tem-se
a = n
b = (n
y)
e para o denominador
a = (n + 1)
b = (n
y)
Assim
1
3
n2

E ( | y) =

1
3
(n+1) 2

n(n)
(n
y )n

exp (n)

(n+1)(n+1)
(n
y )(n+1)

exp [ (n + 1)]
1

n(n 2 ) ye
E ( | y) =
1
(n + 1)(n 2 )
A variancia de dado y e dada por

V ar ( | y) = E 2 | y [E ( | y)]2
Logo, o objetivo e encontrar a esperanca de 2 dado y e dada por
R 2

() L () d
2
E | y = R0
() L () d
0
CEMEQ - Centro de Metodos Quantitativos

(A.5)

A.4. CAPITULO 4

106
R
2

R0
0

E |y =


y
(n1) exp n
d


n
y
(n+1)

exp d

(A.6)

A expressao dada em A.4 pode ser usada neste caso onde, para o numerador tem-se
a = (n 1)
b = (n
y)
e para o denominador
a = (n + 1)
b = (n
y)
Assim
1
2

E |y =

3
(n1) 2

1
3
(n+1) 2

(n1)(n1)
(n
y )(n1)

exp [ (n 1)]

(n+1)(n+1)
(n
y )(n+1)

exp [ (n + 1)]


1
5
E 2 | y = (n
y )2 (n 1)(n 2 ) e2 (n + 1)( 2 n)
Logo
"

(n 52 ) 2

V ar ( | y) = (n
y ) (n 1)

e (n + 1)(

n(n 2 ) ye
)
1
(n + 1)(n 2 )

#2

1
n
2

h
i
1
5
1
1
V ar ( | y) = (
y e)2 n2 (n 1)(n 2 ) (n + 1)( 2 n) n2(n 2 ) (n + 1)2( 2 n)
(b)
Achar uma aproximacao de Laplace para a confiabilidade em y = 10.
Seja a confiabilidade em y = 10 dada por


10
g () = exp

Logo

 1 n

y
exp 10
exp n
d


R 1 n
E [g () | y] =
n
y
exp d
0

R (n+1)
n
y +10

exp

E [g () | y] = 0R (n+1)

y

exp n
d

0
0

A expressao dada em (A.4) pode ser usada neste caso onde, para o numerador tem-se
a = (n + 1)
b = (n
y + 10)
e para o denominador
a = (n + 1)
b = (n
y)
CEMEQ - Centro de Metodos Quantitativos

A.4. CAPITULO 4

107

Logo
1
(n
y + 10) (ny+10)
(n+1)

E [g () | y] =

(n
y ) (ny)1(n+1)

E [g () | y] = (n
y + 10)n (n
y )n
(c)
Achar os valores exatos para E ( | y), V ar ( | y) e a confiabilidade em y = 10.
Exato Laplace
12, 0
12, 4
4, 8
5, 5
0, 43
0, 44

E ( | y)
V ar ( | y)
S (10)

(d)
Considerar a reparametrizacao = log (). Qual a priori de Jeffreys?
A priori de Jeffreys para a reparametrizacao apresentada e dada por
() constante

A.4.2

Item 2

(a)
Seja y1 , ..., yn uma amostra aleatoria com distribuicao de Poisson
f (y | ) =

y exp ()
, y>0
y!

Assumir uma priori de Jeffreys para . Achar aproximacoes de Laplace para E (c | y),
sendo n = 5 e y = 10 para c = 1, 2, 3, 5 e 10.
A priori de Jeffreys para e dada por
1
() , > 0

A esperanca de c dado y e dada por


R

E (c | y) = R0
0

R
c

E ( | y) =

c 2 ny exp (n) d

R0
0

2 ny exp (n) d
1

c 2 +ny exp (n) d


1

2 +ny exp (n) d


Z
Z
a
I1 =
exp (n) d = exp [nh ()]
0

nh () = a log () n
a
nh0 () = n = 0

= a
n
a
nh00 () = 2

CEMEQ - Centro de Metodos Quantitativos

(A.7)

A.4. CAPITULO 4

108

Laplace:
Z
exp [nh ()] d

h
 i
1
2n 2 exp nh

h  i 12
= h00
 
an2
n2
nh00 = 2 =
a
a
 
n
h00 =
a
 na 
h
 i

  a a
a

exp
exp nh
= exp n =
n
n
a
a
=
exp (a)
nn
Assim,

12

 n  12 aa
exp (a)
a
nn

2n

2n1 a+ 1
u
a 2 exp (a)
nn

I1 u

Isto e,

1
2
I1 u n+1 aa+ 2 exp (a)
n

y no numerador e a = 21 + n
y no denominador de (A.7) temos:
Assim com a = c 12 + n

E (c | y) u

c 1 +ny+ 21


y 2
y
c 12 + n
exp c 12 + n
n

 y 12 + 21


2
1 n
1
n
y

exp

n
y

1
2
2
nn+ 2
 y+c
1 n
exp (c)
n
y+c 2

n
y
n
y 21
2

n+ 1
2

(b)
1

Considerar a reparametrizacao = 2 .
()

1
1

, > 0

2
Transformacao:
1

= 2
1 1 1
d =
2 d
2
isto e

d
2
= 1 ; = 2
d
2

CEMEQ - Centro de Metodos Quantitativos

A.4. CAPITULO 4

109

1 d
()
d
1 2
= constante

isto e,
() constante

E (c | y) = E 2c | y
R 2c
() L () d
R
=
() L () d
ny

exp n2 d
2
E ( | y) =

ny
exp n2 d
2

R 2 ny+c
exp n2 d

0
= R 2 ny

2

exp
n
d
0
2
R

Resultado:

Z
I2 =

c

exp n

Z
d =

exp [nh ()]

em que
nh () = a log () n2
entao

a
2n = 0

a
2 = a
= 2n

2n

nh0 () =

a
2n
2
a
nh00 () = a  2n
nh00 () =

2n

2na
=
2n = 4n
a
 
00
h =4
 i

  2  a2


a
2
2

exp nh
= exp n =
exp n
 a  a2


a
exp n
=
2n
2n
a
 a
a2
=

a exp
2
(2n) 2
h

CEMEQ - Centro de Metodos Quantitativos

A.5. CAPITULO 5

110

Portanto:
 a
n 12 a a2
2
exp

a
2
4 (2n) 2

a


2a 2
a

exp
a
1 a
+
+1
2
n2 222

I2

Entao substituir a = 2 (n
y + c) no numerador de E (c | y) e a = 2n
y no denominador de
1
c
c
E ( | y) para achar a aproximacao de Laplace para E ( | y) na parametrizacao = 2 .

A.4.3

Item 3

(a)
Seja T uma variavel aleatoria representando o tempo de vida de um componente, com
distribuicao exponencial com densidade,
f (t | i ) = i exp (i t) , t > 0; i 0
em que i =

1
,
i

i = E (T | i ) e o modelo de potencia inversa i =

,
Vi

i = 1, . . . , k usado em

testes acelerados industriais (Vi e fixo). A priori de Jeffreys e dada por (, ) 1 .

A.5
A.5.1

Capitulo 5
Item 1

(b)
Ver exemplo 5.2.
(c)
Listagem A.1: Programa R
1
2

#Entrada de dados

3
4

< c ( 0 . 1 0 , 0 . 6 5 , 0 . 3 0 , 0 . 3 0 , 0 . 2 8 , 0 . 7 8 , 0 . 2 8 , 0 . 4 5 )

x1

< c ( 0 . 0 8 , 0 . 1 7 , 0 . 0 8 , 0 . 3 0 , 0 . 0 5 , 0 . 1 8 , 0 . 0 9 , 0 . 4 5 )

x2

< c ( 0 . 4 0 , 0 . 4 0 , 0 . 3 8 , 0 . 5 0 , 0 . 5 2 , 0 . 3 2 , 0 . 4 5 , 0 . 6 5 )

x3

< c ( 0 . 7 5 , 1 . 0 2 , 1 . 0 9 , 1 . 3 5 , 1 . 2 0 , 2 . 2 0 , 2 . 9 5 , 2 . 5 0 )

5
6
7
8
9
10
11
12

< 21000 #Amostras g e r a d a ( sem burni n e sem s a l t o )

sigma2
alfa
beta1
beta2
beta3

<
<
<
<
<

13
14
15
16
17
18

vector ()
vector ()
vector ()
vector ()
vector ()

19
20

#Chute i n i c i a l

21

CEMEQ - Centro de Metodos Quantitativos

A.5. CAPITULO 5

22
23
24
25
26

sigma2 [ 1 ]
alfa [1]
beta1 [ 1 ]
beta2 [ 1 ]
beta3 [ 1 ]

<
<
<
<
<

111

1
1
0
0
0

27
28

#H i p e r p a r a m e t r o s

29
30
31
32
33
34
35
36

n
a0
a1
a2
a3
b
d

<
<
<
<
<
<
<

length (y)
1 e+06
1 e+06
1 e+06
1 e+06
1
1

37
38

#Algoritmo Gibbs Sampling

39
40
41

f o r (m i n 2 :M)
{

42
43
44

e
sigma2 [m]

< y a l f a [m1] b e t a 1 [m1] x1 b e t a 2 [m1] x2 b e t a 3 [m1] x3


< 1 / ( rgamma ( 1 , ( b+n / 2 ) , ( d+0.5sum ( e 2 ) ) ) )

mu0
media alfa
var alfa
a l f a [m]

<
<
<
<

y b e t a 1 [m1] x1 b e t a 2 [m1] x2 b e t a 3 [m1] x3


( ( a0 2 ) sum (mu0 ) ) / ( sigma2 [m] + ( n a0 2 ) )
( ( a0 2 ) sigma2 [m] ) / ( sigma2 [m] + ( n a0 2 ) )
rnorm ( 1 , m e d i a a l f a , s q r t ( v a r a l f a ) )

mu1
media b e ta 1
var beta1
b e t a 1 [m]

<
<
<
<

y a l f a [m] b e t a 2 [m1] x2 b e t a 3 [m1] x3


( ( a1 2 ) sum ( x1 mu1 ) ) / ( sigma2 [m] + ( a1 2 ) sum ( x1 2 ) )
( ( a1 2 ) sigma2 [m] ) / ( sigma2 [m] + ( a1 2 ) sum ( x1 2 ) )
rnorm ( 1 , media beta1 , s q r t ( v a r b e t a 1 ) )

mu2
media b e ta 2
var beta2
b e t a 2 [m]

<
<
<
<

y a l f a [m] b e t a 1 [m] x1 b e t a 3 [m1] x3


( ( a2 2 ) sum ( x2 mu2 ) ) / ( sigma2 [m] + ( a2 2 ) sum ( x2 2 ) )
( ( a2 2 ) sigma2 [m] ) / ( sigma2 [m] + ( a2 2 ) sum ( x2 2 ) )
rnorm ( 1 , media beta2 , s q r t ( v a r b e t a 2 ) )

mu3
media b e ta 3
var beta3
b e t a 3 [m]

<
<
<
<

y a l f a [m] b e t a 1 [m] x1 b e t a 2 [m] x2


( ( a3 2 ) sum ( x3 mu3 ) ) / ( sigma2 [m] + ( a3 2 ) sum ( x3 2 ) )
( ( a3 2 ) sigma2 [m] ) / ( sigma2 [m] + ( a3 2 ) sum ( x3 2 ) )
rnorm ( 1 , media beta3 , s q r t ( v a r b e t a 3 ) )

45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66

67
68

#G r a f i c o s das a mo s tra s g e r a d a s

69
70
71
72
73
74

par ( mfrow=c ( 2 , 3 ) )
p l o t ( sigma2 , type =l )
p l o t ( a l f a , type =l )
p l o t ( beta1 , type =l )
p l o t ( beta2 , type =l )
CEMEQ - Centro de Metodos Quantitativos

A.5. CAPITULO 5

75

112

p l o t ( beta3 , type =l )

76
77

#G r a f i c o s de A u t o c o r r e l a c
ao

78
79
80
81
82
83
84

par ( mfrow=c ( 2 , 3 ) )
a c f ( sigma2 )
acf ( alfa )
a c f ( beta1 )
a c f ( beta2 )
a c f ( beta3 )

85
86

bur

< 1000 #Burni n

87
88
89

s a l t o < 20
S
< (M/ s a l t o )

90
91
92
93
94
95

sigma2 a
< v e c t o r ( )
alfa a
< v e c t o r ( )
beta1 a
< v e c t o r ( )
beta2 a
< v e c t o r ( )
b e t a 3 a < v e c t o r ( )

96
97
98
99
100
101
102
103
104

for ( s in 1: S)
{
sigma2 a [ s ]
alfa a [ s ]
beta1 a [ s ]
beta2 a [ s ]
beta3 a [ s ]
}

<
<
<
<
<

sigma2 [ s a l t o s ]
alfa [ salto s ]
beta1 [ s a l t o s ]
beta2 [ s a l t o s ]
beta3 [ s a l t o s ]

105
106
107
108
109
110
111

par ( mfrow=c ( 2 , 3 ) )
a c f ( sigma2 a [ ( bur / s a l t o ) : S ] )
a c f ( a l f a a [ ( bur / s a l t o ) : S ] )
a c f ( b e t a 1 a [ ( bur / s a l t o ) : S ] )
a c f ( b e t a 2 a [ ( bur / s a l t o ) : S ] )
a c f ( b e t a 3 a [ ( bur / s a l t o ) : S ] )

112
113

#Medias e d e s v i o padr
a o a p o s t e r i o r i das q u a n t i d a d e de i n t e r e s s e

114
115
116

mean ( sigm a2 a [ ( bur / s a l t o ) : S ] )


sd ( sigma2 a [ ( bur / s a l t o ) : S ] )

117
118
119

mean ( a l f a a [ ( bur / s a l t o ) : S ] )
sd ( a l f a a [ ( bur / s a l t o ) : S ] )

120
121
122

mean ( b e t a 1 a [ ( bur / s a l t o ) : S ] )
sd ( b e t a 1 a [ ( bur / s a l t o ) : S ] )

123
124
125

mean ( b e t a 2 a [ ( bur / s a l t o ) : S ] )
sd ( b e t a 2 a [ ( bur / s a l t o ) : S ] )

126
127

mean ( b e t a 3 a [ ( bur / s a l t o ) : S ] )
CEMEQ - Centro de Metodos Quantitativos

A.5. CAPITULO 5

128

113

sd ( b e t a 3 a [ ( bur / s a l t o ) : S ] )

A.5.2

Item 2

(b)
Seja Yij uma variavel aleatoria que indica o investimento de uma firma (i = 1, . . . , 8; (firmas)
e j = 1, 2, 3 (tempos))e X1 , X2 e X3 as demais variaveis regressoras apresentadas neste exerccio.
yij = i + j + ij + 0 + 1 x1ij + 2 x2ij + 3 x3ij + ij

(A.8)

em que ij sao variaveis aleatorias independentes com media zero e variancia 2 para i = 1, . . . , 8;
j = 1, 2, 3 (tempos).
Utilizar uma analise Bayesiana hierarquica em dois estagios No primeiro estagio assumir as
seguintes distribuicoes a priori:

i v N 0, 2 ; i = 1, . . . , 8
(A.9)

2
j v N 0, ; j = 1, 2, 3

ij v N 0, 2 ; i = 1, . . . , 8; j = 1, 2, 3

0 v N 0; a20

1 v N 0; a21

2 v N 0; a22

3 v N 0; a23
2 v IG (b, d)
em que a0 , a1 , a2 , a3 , b e d sao supostos conhecidos e IG (b, d) denota uma distribuicao gama
2
d
e variancia (b1)d2 (b2) , b > 2.
inversa com media (b1)
[
]
Em um segundo estatio assumir:
2 v IG (b , d )
2 v IG (b , d )
2 v IG (b , d )

(A.10)


A funcao de verossimilhanca para = i , j , ij , 0 , 1 , 2 , 3 , 2 , 2 , 2 , 2 e dada por:
L () =

3 Y
n
Y
j=1 i=1



2i

exp 2
2
2 2
1

em que i = yij i j ij 0 1 X1i 2 X2i 3 X3i , i = 1, 2, . . . , n (n = 8).


CEMEQ - Centro de Metodos Quantitativos

(A.11)

A.5. CAPITULO 5

114

A distribuicao a posteriori conjunta para e dada por,


n
Y


 Y


3
2j
1
2i
1
p
p
( | x, y)
exp 2
exp 2
2
2
2
2
2
2

i=1
j=1




3 Y
n
Y
1
2i
20
p
exp 2 exp 2
2
2a0
2 2
j=1 i=1






21
22
23
exp 2 exp 2 exp 2
2a1
2a
2a3

 2




d
d
2 (b+1)
2 (b +1)

exp 2
exp 2



 
(b +1)
(b +1)
d
d
2
exp 2 2
exp 2

!
3
n
 3n
1 XX 2
2 2 exp 2

2 j=1 i=1 ij

(A.12)

(A.13)
(A.14)

em que y = (y1 , . . . , yn )0 ; x denota o vetor das covariaveis e i e dado em (5.23).


As distribuicoes condicionais para as quantidades aleatorias sao dadas a seguir:
(i)
i | (i )

!


3
n
2
1 XX
2i
()
i ij
exp 2 exp 2
2
2 j=1 i=1

(A.15)

em que
()

ij = yij j ij 0 1 X1i 2 X2i 3 X3i , i = 1, . . . , n; j = 1, 2, 3

(A.16)

Desenvolvendo-se essas expressoes encontramos o n


ucleo de uma distribuicao normal; isto
e,

i | (i )

3
P

()
ij

2 2
j=1

vN 2
; 2

2
2
+ 3 + 3

(A.17)

(ii)
j | ( j )

!


3
n
2
2j
1 XX
( )
j ij
exp 2 exp 2
2
2 j=1 i=1

(A.18)

em que
( )

ij = yij i ij 0 1 X1i 2 X2i 3 X3i , i = 1, . . . , n; j = 1, 2, 3

(A.19)

Desenvolvendo-se essas expressoes encontramos o n


ucleo de uma distribuicao normal; isto
e,

n
P

j | ( j ) v N

i=1

CEMEQ - Centro de Metodos Quantitativos

( )
ij

2 + n 2

2 2

2 + n 2

(A.20)

A.5. CAPITULO 5

115

(iii)
2ij
ij | ( ij ) exp 2
2


3
n
2
1 XX
()
exp 2
ij
2 j=1 i=1 ij

!
(A.21)

em que
()

ij = yij i j 0 1 X1i 2 X2i 3 X3i , i = 1, . . . , n; j = 1, 2, 3

(A.22)

Desenvolvendo-se essas expressoes encontramos o n


ucleo de uma distribuicao normal; isto
e,
"

()

2 ij
2 2
;
ij | ( ij ) v N
2 + 2 2 + 2

#
(A.23)

(iv)


0 | ( 0 ) exp

20
2
2 0

3
n
2
1 XX
( 0 )
0 ij
exp 2
2 j=1 i=1

!
(A.24)

em que
( )

ij 0 = yij i j ij 1 X1i 2 X2i 3 X3i , i = 1, . . . , n; j = 1, 2, 3

(A.25)

Desenvolvendo-se essas expressoes encontramos o n


ucleo de uma distribuicao normal; isto
e,

0 | ( 0 )

2
a0

3 P
n
P

( )
ij 0

a20 2

j=1 i=1
vN 2
; 2
2
2
+ 3na0 + 3na0

(A.26)

(v)
l | ( l )

#
"


n
2
2l
1 X
(l)
l xlij ij
exp 2 exp 2
2al
2 i=1

(A.27)

em que
(l)
ij

= yij i j ij

3
X

j xji , i = 1, . . . , n; l = 1, 2, 3

(A.28)

j=1;j6=l

( l ) denota o vetor de todos os parametros exceto l . Isto e,

3 P
n
P
(l)
2
xli i
al

a2l 2
j=1 i=1

l | ( l ) v N
;

3
n
3
n
PP 2
PP 2
2
2
2
2
+ al
xlij + al
xlij
j=1 i=1

(A.29)

j=1 i=1

para l = 1, 2, 3.
(vi)
2 | (2 )


3n

2 (b+ 2 +1)

CEMEQ - Centro de Metodos Quantitativos

"

1
exp 2

1X 2
d+

2 i=1 i

!#
(A.30)

A.5. CAPITULO 5

116

que define o n
ucleo de uma distribuicao gama inversa, isto e,
#
"
n
X
1
3n
2
2 | (2 ) v IG b + ; d +
2
2 i=1 i

(A.31)

em que
i = yij i j ij 0 1 X1i 2 X2i 3 X3i , i = 1, 2, . . . , n (n = 8)

(A.32)

(vii)
n

2 (b + 2 +1)

2 | (2 )


"

1
exp 2

1X 2
d +

2 i=1 i

!#
(A.33)

que define o n
ucleo de uma distribuicao gama inversa, isto e,
"
#
n
X
n
1
2 | (2 ) v IG b + ; d +
2
2
2 i=1 i

(A.34)

(vii)
3

2 (b + 2 +1)

2 | (2 )


"

1
exp 2

1X 2
d +

2 j=1 j

!#
(A.35)

que define o n
ucleo de uma distribuicao gama inversa, isto e,
#
"
n
X
1
3
2j
2 | (2 ) v IG b + ; d +
2
2 i=1

(A.36)

(ix)


3n

2 (b + 2 +1)

2 | (2 )

"

1
exp 2

que define o n
ucleo de uma distribuicao gama inversa, isto e,
"
#
3 X
n
X
3n
1
2 | (2 ) v IG b + ; d +

2
2 j=1 i=1 ij

CEMEQ - Centro de Metodos Quantitativos

1 XX
d +

2 j=1 i=1 ij

!#
(A.37)

(A.38)