You are on page 1of 9

21073 - Introdução às probabilidades e estatı́stica

bayesianas
Ano lectivo 2021/22
Docente: António Araújo

e-fólio A

Para a resolução do e-fólio, aconselha-se que:


• Verifique se o ficheiro que recebeu está correcto. O e-fólio consiste de
2 páginas com 3 problemas e termina com a palavra FIM.

• Como o e-fólio tem um tempo prolongado de resolução, espera-se


que as respostas que enviar estejam legı́veis, com boa apresentação
e organização. Deve fazer à parte o trabalho auxiliar e enviar ape-
nas uma versão final, ”limpa”. Deve digitalizar a sua resolução de
forma legı́vel, ou executá-la directamente em formato digital (aceita-
se word, pdf, ou scans em jpeg, png ou tiff - se usar varios ficheiros
envie apenas um arquivo com todos eles, em rar ou zip). Respostas
ilegı́veis não serão cotadas, por isso verifique bem o seu ficheiro antes
de enviar.

• Justifique cuidadosamente todas as suas respostas. Apresente to-


dos os cálculos que julgue necessários para a compreensão do seu
raciocı́nio.

• Tenha em atenção o prazo de entrega do e-fólio e as indicações para


submeter a resolução disponibilizadas na sala de aulas virtual.

• O e-fólio é um trabalho individual. Pode utilizar recursos externos


(pesquisa online, literatura, etc) mas não pode pedir ajuda a terceiros
nem discutir os problemas com os seus colegas.

Critérios de avaliação e cotação:


• Este e-fólio tem a cotação total de 4 valores, assim distribuı́dos:
questão 1: 1 valor; questão 2: 1,5 valores; questão 3: 1,5 valores.
Por favor preencha os seus dados:
• Nome:

• B.I:

• No de Estudante

• Curso:

1. Diga, justificando, se as seguintes atribuições de probabilidades são con-


sistentes, ou se resultam numa contradição:

a)

p(A|C) = 2p(B|C)
p(A|BC) = 0.9
p(A + B|C) = 0.5

b)

p(A ⇔ B|C) = 0.5


p(A + B|C) = 0.4
p(AB|C) = 0.1

Solução:

a) Temos

p(A + B|C) = p(AB|C)


= 1 − p(AB|C)
= 1 − p(A|BC)p(B|C)

pelo que
1 − p(A + B) 1 − 0.5
p(B|C) = = = 0.55
p(A|BC) 0.9
Mas então p(A|C) = 2p(B|C) = 1.1 > 1, o que é impossı́vel, pelo que as
atribuições resultam numa contradição.

1
b) Notamos que A ⇔ B ≡ AB + A B. Então

p(A ⇔ B|C) = p(AB + A B|C) = p(AB|C) + p(A B|C) − p(ABA B|C)


= p(AB|C) + p(A B|C) = p(AB|C) + p(A + B|C)
= 1 + p(AB|C) − p(A + B|C)

Então 0.5 = 1 + 0.1 − 0.4 = 0.7, pelo que a atribuição proposta é incon-
sistente.

2. Um concurso de televisão consiste no seguinte: São apresentadas três


portas fechadas ao concorrente, que tem que escolher uma. Por detrás de
uma, e apenas uma, encontra-se o prémio. Suponhamos que o concorrente
escolheu a porta número 3. Após essa escolha, e antes da porta ser aberta,
o apresentador (que sabe onde está o prémio), abre a porta número 1 e
mostra ao concorrente que o prémio não estava lá. Restam portanto apenas
a porta 3, que o concorrente escolheu, e a porta 2. O apresentador diz ao
concorrente que, se quiser, ele ainda pode mudar a sua escolha da porta 3
para a porta 2. Pergunta: Será que vale a pena mudar de escolha? Quais
são as probabilidades so prémio estar atrás de cada uma das portas, antes e
depois do apresentador ter aberto a porta 1?

Solução:
Vamos começar por enunciar duas possı́veis soluções ”intuitivas”.
Primeira: Tem que ser vantajoso mudar a escolha. Consideremos desta
forma: qual é a probabilidade de eu ter acertado na minha escolha? é 1/3.
Dito de outra forma, qual é a probabilidade de eu ter falhado? É 2/3. Por-
tanto há uma probabilidade de 2/3 do prémio estar no conjunto das portas
1 e 2. Quando o apresentador abre a porta 2 e permite-me mudar a minha
escolha para a porta 1 ele está a dar-me a oportunidade de escolher o con-
junto de portas 1 e 2, cuja probabilidade de conter o carro é 2/3. Portanto é
vantajoso mudar. (nota: esta solução parece visualizar a probabilidade como
algo que está ”contido”no ”conjunto”das duas portas, e que ”colapsa”sobre
a porta que resta, como numa ”lei de conservação”)
O problema das soluções intuitivas é que um dia provam uma coisa e
outro dia provam outra:
Contra-Solução intuitiva: Se ele abre uma porta restam duas. Eu não sei
nada acerca de uma ou outra. Então a probabilidade passa a ser 1/2 para
cada porta. Não vale a pena mudar de porta.
Vamos então abandonar a intuição e recorrer ao formalismo das probabi-
lidades:

Consideremos as proposições seguintes:


Xi =”o prémio está atrás da porta i”(para i ∈ {1, 2, 3})

2
Ei =”o concorrente escolheu a porta i”(para i ∈ {1, 2, 3})
Yi =”o apresentador abriu a porta i”(para i ∈ {1, 2, 3})
Sabemos do enunciado que os Xi são mutuamente exclusivos e a sua
disjunção é verdadeira (o prémio tem que estar atrás de uma e uma só porta).
Então p(X1 ) + p(X2 ) + p(X3 ) = 1, e p(Xi Xj ) = δij . É-nos também dito que
p(E3 ) = 1 e que p(Yi ) = 1 (sendo os outros p(Ej ) = 0).
Então

p(Y1 |X3 E3 )p(X3 |E3 ) (1/2) · (1/3)


p(X3 |E3 Y1 ) = =
p(Y1 |E3 ) p(Y1 |E3 )
Porque é que p(Y1 |X3 E3 ) = 1/2? Porque se o prémio está na porta 3,
o apresentador pode escolher livremente entre abrir a porta 1 ou a porta 2,
pois ambas estão vazias. Como não temos informação em prol de uma ou
outra, atribuimos probabilidades iguais a essa escolha.

p(Y1 |X2 E3 )p(X2 |E3 ) 1 · (1/3)


p(X2 |E3 Y1 ) = =
p(Y1 |E3 ) p(Y1 |E3 )
Porque é que p(Y1 |X2 E3 ) = 1? Porque se o concorrente escolheu a porta
3 e o prémio está na porta 2 então o apresentador não tem outra escolha que
não abrir a porta 1, senão estragava o jogo! (note que o enunciado diz que o
apresentador sabe onde está o prémio)
Mas então p(X2 |E3 Y1 ) = 2p(X3 |E3 Y1 ) > p(X3 |E3 Y1 ). Portanto vale a
pena mudar de porta!
Na verdade, podemos dizer mais do que isso. Como p(X P1 |E3 Y1 ) = 0 (foi
essa a porta que o apresentador mostrou estar vazia) e como i p(Xi |E3 Y1 ) =
1, temos que p(X3 |E3 Y1 ) = 1/3 e p(X2 |E3 Y1 ) = 2/3.

Mas vamos ver agora algo mais chocante: às vezes as soluções formais
também parecem provar uma vez uma coisa e outra vez a oposta:
Seja Ci a proposição ”o prémio está atrás da porta i.
Então quando o apresentador abre a porta 1 eu fico a saber que o prémio
não está lá. Ou seja fico a saber que C1 é falsa, portanto C1 é verdadeira.
Pergunto agora qual é o valor de p(C2 ) sabendo que C1 é verdadeira.

p(C2 )p(C2 |C2 ) + p(C3 )p(C3 |C2 )


p(C2 |C1 ) = P (C2 |C2 + C3 ) =
p(C2 ) + p(C3 )
1/3 · 1 + 1/3 · 0
= = 1/2
1/3 + 1/3

Será que isto é uma prova bayesiana do argumento inverso? Ou será que
nos enganámos? Não nos enganámos nem é uma inconsistência do forma-
lismo. A resposta está correcta, ”as far as it goes”... mas não responde à
pergunta certa! De facto p(C2 |C1 ) = 1/2, ou seja, não vale a pena mudar
de porta se tudo o que sabemos é que o prémio não está em C1 . Mas isso

3
não é toda a informação que nos foi dada! A informação é que sabemos que
p(C1 ) = 0, mas sabemos isso porque sabemos que p(E3 ) = 1 (ou seja, que
escolhemos a porta 3) e que p(Y1 ) = 1, ou seja, que o apresentador escolheu
abrir de seguida a porta 1. Estes dois factos expressam mais informação do
que apenas p(C1 ) = 0. É interessante notar que em termos lógicos de facto
E3 Y1 ⇒ C1 , mas a informação suplementar contida em E3 e Y1 não pode
ser expressa na forma de uma implicação do mesmo género; mas pode ser
expressa em probabilidades. Foi precisamente para lidar com este género de
informação, que permite silogismos fracos (por oposição ao silogismo forte
permitido por E3 Y1 ⇒ C1 ≡ 1) que generalizámos a lógica ao domı́nio das
probabilidades. A prova de que existe mais informação no enunciado é pre-
cisamente que p(C2 |Y1 E3 ) > (C2 |C1 ).

Tradução intuitiva da solução bayesiana: O apresentador está a transmitir


informação ao escolher a porta 1, porque há uma certa probabilidade da
sua escolha estar determinada pela do concorrente, e essa probabilidade é
calculável: O concorrente escolheu a porta 3; a probabilidade da porta 3 ser
uma das portas sem prémio é 2/3; mas se a porta 3 não tem o prémio então o
apresentador (que só pode abrir uma das portas se ela não esconde o prémio)
é forçado a abrir a porta que não tem o prémio, e portanto ao abrir a porta
1, comunica-nos que a porta 2 contém o prémio, isto se de facto estamos na
situação descrita (se o concorrente escolheu bem, então o apresentador tem
duas portas por onde escolher). Mas qual é a probabilidade de estarmos nessa
situação? É 2/3 (porque a situação ocorre se e só se o concorrente falhou na
escolha). Então é de 2/3 a probabilidade do prémio estar na porta 2 sabendo
que o concorrente escolheu a porta 3 e o apresentador abriu a porta 1. O
apresentador está a telegrafar informação porque, com uma probabilidade de
2/3, ele não está a escolher a porta que quer, mas a única que pode escolher.

3. Suponha que existe um marcador genético cuja prevalência numa po-


pulação estamos interessados em determinar. Em dois dias consecutivos
é-lhe permitido testar a existência desse marcador numa certa amostra de
indı́viduos.
Suponha no primeiro dia observa 10 pessoas e verifica que 8 têm o marca-
dor. No dia seguinte observa 40 pessoas e verifica que 30 possuem o marcador.
a) Seja θ a proporção de indı́viduos da população que possuem o mar-
cador. Diga quais as distribuições de probabilidade posterior de θ ao fim
de cada dia, tomando um prior uniforme para θ antes da primeira amostra.
Usando o R, faça os gráficos dos posteriores dos dois dias, sobrepostos para
que se perceba a evolução do prior com o efeito das amostras sucessivas.
b) Calcule um intervalo de credibilidade a 95% para os posteriores de
θ nos dois dias sucessivos, ou seja, um intervalo que tenha 95 por cento
da probabilidade de conter o verdadeiro valor de θ. O intervalo deve ser
simétrico, no sentido em que as regiões que lhe são exteriores à esquerda e à
direita devem ter igual probabilidade (use adequadamente o comando qbeta

4
do R, ou uma tabela de Betas).
c) Na continuação da alı́nea a), calcule a aproximação Normal da distribuição
posterior de θ (quando todas as medições foram realizadas). Use ainda essa
aproximação para obter um intervalo de credibilidade a 95 por cento para
o valor de θ (recorde que um intervalo do tipo [µ ± 1.96σ] contém 95 por
cento da probabilidade de uma distribuição Normal). Faça um gráfico desta
normal e acrescente-o aos gráficos da alı́nea a).
Nota: usando o R pode sobrepor dois gráficos (digamos de funções f e g)
fazendo curve(f(x), col=”blue”’) para o primeiro (por exemplo) e curve(g(x),
col=”red”, add=TRUE) para o segundo (e seguintes). A instrução “add=TRUE”
para os gráficos a seguir ao primeiro assegura a sobreposição.
d) Um intervalo de densidade máxima (“Highest density interval”, ou HDI )
a x% para uma densidade de probabilidade f (x) define-se como um intervalo
Rb
I = [a, b] da variável x tal que a f (x)dx = x/100 e tal que o mı́nimo de f
em I é maior ou igual que o máximo de f fora de I. Diga justificando se os
intervalos de credibilidade que obteve acima para as Betas são HDIs.
Solução:

Para um prior Beta(a, b) e um modelo Binomial temos

p(θ|x, I) ∝ p(x|θ)p(θ|I) ∝ θx (1 − θ)n−x θa−1 (1 − θ)b−1 = θa+x−1 (1 − θ)b+n−x−1

que é o núcleo de uma Beta(a + x, b + n − x). Podemos exprimir isto


através de um sistema de update de parâmetros que forma uma trajectória
(na verdade um sistema dinâmico) no espaço de parâmetros das Betas. A
regra de update é
(a, b) 7→ (a + x, b + n − x).
Então:
a) Um prior constante é o mesmo que um prior Beta(a0 , b0 ) com a0 =
b0 = 1. No primeiro dia temos n1 = 10 peças das quais x1 = 8 estão
fora dos parâmetros. Então o posterior do primeiro dia é (a1 , b1 ) = (a0 +
x1 , b0 + n1 − x1 ) = (1 + 8, 1 + 10 − 8) = (9, 3) e o do segundo dia, em
que temos n2 = 40 peças das quais x2 = 30 estão fora dos parâmetros, é
(a2 , b2 ) = (a1 + x2 , b1 + n2 − x2 ) = (9 + 30, 4 + 40 − 30) = (39, 13). Portanto
no fim do segundo dia

p(θ|x1 +x2 , n1 +n2 , I) = Beta(1+x1 +x2 , 1+n1 +n2 −x1 −x2 ) = Beta(39, 13) ∝ θ38 (1−θ)12 .

b) Usando o comando qbeta do R obtemos o intervalo para o θ posterior


à primeira amostra (dada pela Beta(9,3))

> qbeta(0.025,9,3)
[1] 0.4822441

que tem 0.025 de probabilidade à sua esquerda, e

5
> qbeta(0.975,9,3)
[1] 0.9397823

que tem 0.025 de probabilidade à sua direita.


Entre os dois extremos está portanto 95% da probabilidade.
Depois de observar a segunda amostra obtemos da mesma forma o se-
guinte intervalo a 95%, dado que θ segue uma Beta(15,83):

> qbeta(0.025,39,13)
[1] 0.6250695
> qbeta(0.975,39,13)
[1] 0.8567374

Ou seja, aproximadamente, passamos de um intervalo [0.48, 0.94] para


um intervalo [0.63, 0.86] com a segunda amostra.
c) A aproximação normal de uma Beta(a, b) é uma normal N (µ, σ 2 ) com
a−1 µ(1 − µ)
µ = e σ2 = . Com a = 15, b = 83, temos µ1 = 0.76,
a+b−2 a+b−2
σ 2 = 0.003648, e σ = 0.06039868, portanto o intervalo pretendido é [µ ±
1.96σ] ≈ [0.64, 0.88].
Abaixo comparamos as duas betas da alı́nea a e a aproximação normal
à segunda destas. Note-se que o pico da beta coincide bastante bem com
o pico da normal, mas a beta é assimétrica e favorece mais os valores mais
elevados de θ.
Para fazer os gráficos utilizámos os seguintes comandos de R (os comandos
estão comentados):

#imprime a curva do prior, a vermelho


#ylab e xlab definem as legendas dos eixos
#ylim define o range do eixo y (entre 0 e 7, para caberem os máximos
# de todas as curvas)
curve(dbeta(x,9,3), col="red", ylab="p(theta)", xlab="theta", ylim=c(0,7))
#imprime o posterior, a preto. o commando add=TRUE acrescenta
# esta curva sem apagar a anterior
curve(dbeta(x,39,13), col="black", add=TRUE)
#imprime a normal a azul claro
curve(dnorm(x,mean=0.76,sd=0.06), col="lightblue", add=TRUE)
# imprime a legenda nas coordenadas especificadas do gráfico
legend(0.85,6,legend=c("prior","posterior","normal aprox."),pch=19,col=c("red"
, "black", "lightblue"))
# define o tı́tulo
title("Densidade de probabilidade de theta")

Uma nota puramente gráfica: podı́amos colocar o “theta” da legenda


explı́citamente como θ usando a library latex2exp do R. Neste último caso
farı́amos previamente a instalação e carregamento da library:

6
Densidade de probabilidade de theta
7
6

prior
posterior
normal
5
4
p(θ)

3
2
1
0

0.0 0.2 0.4 0.6 0.8 1.0

Figura 1: Distribuições de θ.

install.packages("latex2exp")
library("latex2exp")

e de seguida só terı́amos que modificar a linha que imprime o prior, para
o seguinte:

curve(dbeta(x,9,3), col="red", ylab=TeX("$p(\\theta)$"), xlab=TeX("$\\theta$")


, ylim=c(0,7))

e tudo o resto permaneceria idêntico.


Em alternativa poderı́amos utilizar o comando “expression” mas isso tem
uma sintaxe um pouco mais desagradável.

d) O intervalo não é um HDI porque a beta é enviesada. Basta calcu-


lar dbeta nos extremos do intervalo obtido acima para ver que o valor da
distribuição não é idêntico nesses extremos:

> dbeta(qbeta(0.025,39,13),39,13)
[1] 0.8403737
> dbeta(qbeta(0.975,39,13),39,13)
[1] 1.298957

7
Como a distribuição é continua e unimodal, seria possivel mover o inter-
valo um pouco para a direita para descer um pouco o valor da distribuição
no extremo desse lado, e manter os 95% de probabilidade compensando isto
com um movimento para a direita do extremo esquerdo, até encontrar um
par de extremos em que os valores de dbeta fossem iguais. Este par define
necessariamente o HDI para o caso da beta (para distribuições multimodais
ou com descontinuidades este processo complica-se). Seria um exercı́cio in-
teressante programar este algoritmo em R. Mas o estudante que pretenda
simplesmente calcular HDIs poderá encontrar packages de R que o fazem de
forma muito geral. Por exemplo o package HDInterval:
https://cran.r-project.org/web/packages/HDInterval/HDInterval.
pdf
Vemos abaixo como se instala o package em R como se faz o cálculo do
HDI para a nossa Beta(39,13)

>install.packages("HDInterval")
>library("HDInterval")
> hdi(qbeta, 0.95, shape1=39, shape2=13)
lower upper
0.6321762 0.8624441
attr(,"credMass")
[1] 0.95

Note-se que nos extremos temos valores idênticos da distribuição, tal como
esperávamos,

> dbeta(0.6321762,39,13)
[1] 1.026396
> dbeta(0.8624441,39,13)
[1] 1.026396

e isto implica que todos os valores da distribuição fora do intervalo são


menores que qualquer valor no seu interior.

FIM

You might also like