You are on page 1of 82

Curso de Verão PUC-Rio

João Manoel Pinho de Mello

13 de fevereiro de 2007
2
Sumário

I Notas de Aula: Estatística 5

1 Teoria da Probabilidade 7
1.1 Espaço Amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Classes e Álgebras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Probabilidade: Axiomas e Modelo Probabilístico . . . . . . . . . . . . . . . . . 12
1.4 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Independência de Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6 Variável Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7 Função Distribuição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 20
1.8 Variáveis Aleatórias Discretas e Contínuas . . . . . . . . . . . . . . . . . . . . . 21
1.9 Mudança de Variável: Caso Univariado . . . . . . . . . . . . . . . . . . . . . . 23
1.10 Várias Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.11 Independência de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . 34
1.12 Mudança de Variável: Caso Multivariado . . . . . . . . . . . . . . . . . . . . . 37

2 Momentos 41
2.1 Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2 Outros Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3 Conceitos de Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4 Variância Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.5 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.5.1 Melhor Previsor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.5.2 Melhor Previsor Linear (BLP) . . . . . . . . . . . . . . . . . . . . . . . 55

3 Amostras Aleatórias 59
3.1 Distribuições Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.1.1 A Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3
4 SUMÁRIO

4 Teoria Assintótica 71
4.0.2 Convergência em Quase Certeza . . . . . . . . . . . . . . . . . . . . . . 73
4.0.3 Teorema do Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.0.4 Método Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

5 Estatísticas de Ordem 83

6 Princípio da Redução de Dados 85


6.1 Estatística Suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

7 Estimação 91
7.0.1 Julgamento de Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.0.2 Estimador de Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . 92
7.0.3 Propriedades do Estimador de Máxima Verossimilhança . . . . . . . . . 94
7.0.4 Estimação de um intervalo . . . . . . . . . . . . . . . . . . . . . . . . . 98
7.1 Teste de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.1.1 Testes de Hipóteses: Simples versus Simples . . . . . . . . . . . . . . . . 103
7.2 Testes de Hipóteses: Simples versus Composto . . . . . . . . . . . . . . . . . . 105
7.3 Testes de Hipóteses: Composto versus Composto . . . . . . . . . . . . . . . . . 108
Parte I

Notas de Aula: Estatística

5
Capítulo 1

Teoria da Probabilidade

1.1 Espaço Amostral e Eventos

Definição 1.1.1 (Espaço Amostral) Um espaço amostral (Ω) é o conjunto de todos os pos-
síveis resultados de um experimento.

Exemplos O experimento lançamento de um dado tem como espaço amostral {1, 2, 3, 4, 5, 6}.
O experimento sortear um habitante da cidade do Rio de Janeiro e medir seu peso em
quilogramas tem como um espaço amostral Ω = R. Contudo, este não é o único espaço amostral
possível para este experimento. É difícil imaginar que algum habitante do Rio de Janeiro (ou
do planeta Terra!) pese −10 quilogramas. Portanto, poderíamos definir o espaço amostral
deste experimento como o conjunto Ω = [0, +∞). Ainda assim, nosso espaço espaço amostral
contém valores que nunca iríamos observar ao realizar o experimento. Outra alternativa seria
definidir Ω = [ 13 , 103 ]. Já Ω = [0, 20] não é um espaço amostral, pois certamente existem
pessoas que pesam mais que 20 quilos.
O relevante, na definição espaço amostral, é que ele contenha todos os possíveis re-
sultados de um experimento. Para o experimento de lançamento de dados, um possível
espaço amostral é o conjunto {0, 1, 2, 3, 4, 5, 6, 7}. No caso do experimento de medir o peso de
um morador do Rio, seria difícil, senão impossível, chegar a um consenso acerca do valor máx-
imo e mínimo que poderíamos encontrar. Então, por convência, podemos adotar como espaço
amostral um conjunto que certamente contém todos os resultados possíveis do experimento,
como o conjunto dos números reais, mesmo que neste conjunto existam elementos que não são
possíveis.

7
8 CAPÍTULO 1. TEORIA DA PROBABILIDADE

Definição 1.1.2 (Evento) Seja Ω o espaço amostral de um experimento. Todo subconjunto


A ⊆ Ω é chamado de evento. Ω é chamado de evento certo. ∅ é o evento impossível. O evento
ω, onde ω ∈ Ω, é chamado é um evento elementar.

Quando ω ∈ Ω e ω ∈ A ⊂ Ω dizemos que ω é favorável ao evento A.

Exemplos Voltando ao lançamento de um dado, observar um número par é um evento


representado pelo subconjunto A = {2, 4, 6} de Ω. Outro evento seria observar um número
menor que 5, representado pelo subconjunto B = {1, 2, 3, 4}.
No experimento escolher um ponto no círculo unitário, cujo espaço amostral é dado por
Ω = {(x, y) ∈ R2 : x2 + y 2 ≤ 1}, tem como eventos:

• Distância entre o ponto escolhido e o ponto (0,0) é menor que 12 , representado por
½ ¾
2 2 2 1
A = (x, y) ∈ R : x + y ≤ ⊂ Ω.
4

• A coordenada x do ponto escolhido é menor que a coordenada y, representado por

B = {(x, y) ∈ Ω : x < y} ⊂ Ω.

Exemplos
Figura 1
1.1. ESPAÇO AMOSTRAL E EVENTOS 9

A teoria da probabilidade tem como objetivo assinalar números aos eventos. Estes números
são chamados de probabilidades. Uma pergunta: a quais eventos (sub-conjuntos do espaço
amostral) vamos atribuir probabilidade? Ora, por que não a todos os possíveis sub-conjuntos
de Ω? Deste modo a teoria seria a mais completa possível. O problema é, pelo incrível
de pareça há alguns sub-conjuntos de alguns Ωs aos quais não se pode assinalar números
de maneira consistente.1 Isto não ocorre quando Ω é finito ou contável, mas ocorre para
sub-conjunto de um tão simples quanto Ω = {x ∈ R : 0 ≤ x ≤ 1}. Por isto temos uma nova
definição:

Definição 1.1.3 (Evento Aleatório) Um evento A ao qual se atribui probabilidade é chamado


de evento aleatório.

Deixemos o pouco da discussão de quais eventos recebem a honra de ter uma probabilidade
assinalada para um pouco depois. Ou seja, já decidimos qual é conjunto de eventos aos quais
é assinalada probabilidade. Como é atrbuída esta probabilidade?
Para o caso em que Ω é um conjunto finito de elementos, uma maneira de atribuir proba-
bilidades a um evento A é por meio da definição clássica, ou frequentista, de probabilidade:

números de elementos de A
P (A) = .
número de elementos de Ω
Mas este método não funciona quando Ω = {x ∈ R : 0 ≤ x ≤ 1} e A = {w ∈ Ω : 0 ≤ w ≤
1
3 }. Neste caso, recorremos a definição geométrica:

comprimento de A
P (A) = .
comprimento de Ω
Perceba que não importa a unidade de medida do comprimento de Ω, desde que utilizemos
a mesma unidade para auferir o comprimento de A.
No caso em que Ω não é subconjunto de R, mas sim de R2 , a definição geométrica de
probabilidade nos é dada por:

área de A
P (A) = .
área de Ω
Agora vamos discutir (um pouco) como são construídos os conjuntos de eventos de Ω aos
quais é assinalada probabilidade.
1
Esses sub-conjuntos são chamados de não-mensuráveis. A compreensão da não-mensurabilidade depende
do Axioma da Escolha, e é tema de Teoria da Medida. No nosso curso não veremos nenhum deles e, para todos
os efeitos práticos, não importa muito que haja eventos que não podem ser medidos.
10 CAPÍTULO 1. TEORIA DA PROBABILIDADE

1.2 Classes e Álgebras

Definição 1.2.1 (Classe) Uma classe A de Ω é um conjunto de sub-conjuntos de Ω.

Uma classe é como um clube. Para pertencer a ela há que obedecer certas regras. Considere
novamente o exemplo do lançamento do dado. Defina Acomo o clube mais inclusivo possível:
a classe de Ω que contém todos subconjuntos possíveis do espaço amostral,

A = {∅, Ω, {1}, {2}, . . . , {1, 2}, . . . , {1, 2, 3}, . . . , {2, 3, 4, 5, 6}}.

Sendo o espaço amostral finito, a construção do conjunto que contém todos os subconjuntos
de Ω é fácil: simplesmente elencamos todos os possiveis sub-conjuntos de Ω (são 2k , sendo k
o número de elementos de Ω). Quando Ω é infinito porém enumerável ainda podemos (quase
por definição) “contar” todos os elementos. Não podemos escrever numa folha de papel os
conjuntos todos mas podemos visualizá-los de uma certa forma.
Quando o espaço amostral não é enumerável (e.g., Ω = {x ∈ R : 0 ≤ x ≤ 1}), a definição
de A não é imediata porque não se pode simplesmente elencar todos os possíveis sub-conjuntos
de Ω. Uma tentativa poderia ser

A = {todos os subconjuntos de Ω que são a união finita de subintervalos Ω}.

Note que o conjunto

[ µ 1 1

C= 1 − n , 1 − n+1
2 2
n∈ N

não pertence à A, mas C ⊂ Ω.


Nossa teoria de atribuição de probabilidade começa impondo algumas regras a respeito do
conjunto de sub-conjuntos do espaço amostral (classe A) ao qual vamos atriuir probabilidade.
Em particular vamos impor que A satisfaça:

A1. Ω ∈ A.

A2. A ∈ A ⇒ Ac ∈ A.

A3. A ∈ A, B ∈ A ⇒ A ∪ B ∈ A.

Definição 1.2.2 (Álgebra) Seja Ω um conjunto não vazio. Uma classe A de subconjuntos
de Ω que satisfaça A1, A2 e A3 é chamada de Álgebra.
1.2. CLASSES E ÁLGEBRAS 11

Parece razoável, não? Começamos impondo que vamos atribuir um número ao conjunto
espaço amostral Ω, o que no fundo é uma normalização. Depois, impomos que, se podemos
atribuir probabilidade a um evento A, temos que conseguir a atribuir probabilidade ao evento
não A. Finalmente, impomos que, se somo capazes de assinalar probabilidade a dois eventos
A e B, podemos também dizer algo a respeito de A ou B.Como se decide o que é imposto
a priori? Do ponto de vista epistemológico2 , queremos impor o menos possível de forma
arbitrária, e produzir o máximo de coisas de parecem razoáveis. Vocês podem perguntar:
não seria trazoável impor que se podemos assinalar probabilidade ao evento A e ao evento B,
também somos capazes de atribuir probabilidade ao evento A e B? Claro que sim!!

Proposição Se A é uma Álgebra de subconjuntos de Ω, então:

A4. ∅ ∈ A

A5. A1 , . . . , An ∈ A ⇒ ∩ni=1 Ai ∈ A.

Prova Por A1, Ω ∈ A. Assim, por A2,

Ωc ∈ A ⇒ ∅ ∈ A.

Provaremos A5 por indução. Considere A1 , . . . , An ∈ A. Por A2, temos que Ac1 , . . . , Acn ∈ A.
Pela propriedade A3,

Ac1 ∪ Ac2 ∈ A.

Tomando como hipótese de indução que, para k < n, ∪ki=1 Aci ∈ A, mostraremos que
∪k+1 c
i=1 Ai ∈ A. Por A3,

(∪ki=1 Aci ∈ A) ∪ Ack+1 ∈ A ⇒ ∪k+1 c


i=1 Ai ∈ A ∀k ∈ {1, 2, . . . , n − 1}.

Portanto, ∪ni=1 Aci ∈ A. Isto implica que (∪ni=1 Aci )c ∈ A. Finalmente, utilizando a regra de
De Morgan,

(∪ni=1 Aci )c = ∩ni=1 Ai ∈ A


2
Palavrão, significa mais ou menos Teoria do Conhecimento ou Teoria da Produção de Conhecimento.
12 CAPÍTULO 1. TEORIA DA PROBABILIDADE

Exemplo Para Ω = [0, 1], A = {toda união finita de subintervalos de [0, 1]} é uma Álgebra.

Considere agora a seguinte propriedade

+∞
[
0
A3 . A1 , A1 , . . . , An , . . . ∈ A ⇒ An ∈ A.
i=1

Se uma Álgebra A atende A1, A2 e A03 diz-se que A é uma σ−Álgebra. Como qualquer
união finita de conjuntos pode ser escrita como uma união infinita, isto é,


[
An = A1 ∪ A2 . . . ∪ An ∪ ∅ . . . ∪ ∅ . . . ,
i=1

então toda σ−Álgebra é uma Álgebra. O contrário não é necessáriamente verdade. Tome
como exemplo Ω = [0, 1] e

A = {conjuntos finitos e cofinitos pertencetes a Ω}.

Observação Um conjunto cofinito tem como complemento um conjunto finito.

A atende as propriedades A1 e A2, mas não atende A30 . Considere o conjunto dos racionais
rn em [0, 1]. rn ∈ A pois rn é finito. Todavia, ∪+∞
i=1 rn não pertence à A pois o conjunto dos

racionais em [0, 1] não é finito nem cofinito.


Neste livro, trabalharemos, sem perda de generalidade, somente com σ−Álgebras. A dis-
tinção entre Álgebra e σ−Álgebra não faz diferença quando Ω é finito ou enumerável.
Voltando à situação onde Ω = [0, 1] uma σ−Álgebra deste espaço amostral é

A = [todos os subconjuntos de [0, 1] que tem comprimento definido]

Dado um espaço amostral, seja B a menor σ−Álgebra possível. Chamamos B de σ−Álgebra


de Borel.

1.3 Probabilidade: Axiomas e Modelo Probabilístico

Para todo elemento A ∈ A vamos assinalar um único número real, P (A). Considere as
seguintes restrições sobre P (A).
1.3. PROBABILIDADE: AXIOMAS E MODELO PROBABILÍSTICO 13

AP 1. P (A) ≥ 0

AP 2. P (Ω) = 1

AP 3. Se A1 , . . . , An ∈ A tais que Ai ∩ Aj = ∅, ∀ i, j ≤ n, i 6= j
[ Xn
então P ( ni=1 Ai ) = P (Ai ) [Aditivdade Finita]
i=1
0
AP 3 Se A1 , . . . , An , . . . ∈ A tais que Ai ∩ Aj = ∅, ∀ i, j ≤ n, i 6= j
[ +∞
X
+∞
então P ( i=1 Ai ) = P (Ai ) [σ−Aditivdade]
i=1

Definição 1.3.1 (Medida da Probabilidade) Uma função P : A → [0, 1] que satisfaz


AP 1, AP 2 e AP 30 é chamada de medida de probabilidade (ou simplesmente probabilidade).

Agora considere mais uma característica da medida de probabilidade.

AP 4. Se a sequência {An }n≥1 , An ∈ A decrescer para o vazio, então P (An ) → 0.

Observação Uma sequência de conjuntos tal An+1 ⊂ An para todo n ∈ A decresce para o
T
vazio se +∞
i=1 An = ∅.

Figura 2
14 CAPÍTULO 1. TEORIA DA PROBABILIDADE

Definição 1.3.2 Dados AP 1, AP 2, AP 3 temos que AP 30 ⇔ AP 4

Prova (⇒) Suponha que AP 30 seja verdade. Seja {An }n≥1 ∈ A uma sequência de conjuntos
que decresce para o vazio. Note que

[ [ +∞
[
A1 = (A1 − A2 ) (A2 − A3 ) . . . = (Ak − Ak+1 ).
k=1

Para todo o k ∈ N o conjunto (Ak − Ak+1 ) ∈ A é disjunto de (Ak+1 − Ak+2 ). Logo, por
AP 30 ,

+∞
X
P (A1 ) = P (Ak − Ak+1 )
k=1
n
X
= lim P (Ak − Ak+1 ) (1.1)
n→+∞
k=1

Por AP 3 e pela regra de DeMorgan temos que

\
P (Ak − Ak+1 ) = P (Ak Ack+1 )
[
= 1 − P (Ack Ak+1 )

= 1 − [1 − P (Ak ) + P (Ak+1 )]

= P (Ak ) − P (Ak+1 ) (1.2)

Portanto, usando (2), podemos reescrever (1) como

n
X
P (A1 ) = lim [P (Ak ) − P (Ak+1 )]
n→+∞
k=1
= lim [P (A1 ) − P (An+1 )]
n→+∞

= P (A1 ) + lim P (An+1 ) ⇒


n→+∞

lim P (An+1 ) = 0
n→+∞

Deixamos a prova de suficiência como exercício para o leitor. ¤

Definição 1.3.3 (Modelo Probabilístico) Um modelo probabilístico é formado por

1. Um conjunto Ω não vazio (espaço amostral).


1.4. PROBABILIDADE CONDICIONAL 15

2. Uma σ−Álgebra A de eventos aleatórios.

3. Uma medida da probabilidade P : A → R.

A terna (Ω, A, P (.)) é conhecido como espaço de proababilidades.

1.4 Probabilidade Condicional

Definição 1.4.1 Seja (Ω, A, P (.)) um espaço de probabilidade. Se B ∈ A e P (B) > 0, a


probabilidade condicional de A ∈ A dado B é definida como

P (A ∩ B)
P (A|B) = , ∀ A ∈ A.
P (B)

Figura 3

Definição 1.4.2 Deixamos para o leitor demonstrar que, dado que P é uma medida de prob-
abilidade, P (A|B) atende aos Axiomas de Kolmogorov (AP 1, AP 2, AP 30 ).

Teorema 1.4.1 (da Multiplicação) Sejam A1 , . . . , An cojuntos pertences a A. Então

P (A1 ∩ . . . ∩ An ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) . . . P (An |A1 ∩ . . . ∩ An−1 ).


16 CAPÍTULO 1. TEORIA DA PROBABILIDADE

Prova Prova por indução. Como primeiro passo, demonstraremos o teorema para n = 3.
Sejam A1 , A2 e A3 ∈ A. Defina B = A1 ∩ A2 . Pela definição de probabilidade condicional,

P (A1 ∩ A2 ∩ A3 ) = P (A3 |B)P (B)

= P (A3 |A1 ∩ A2 )P (A1 ∩ A2 ).

Novamente pela fórmula da probabilidade condicional, P (A1 ∩ A2 ) = P (A2 |A1 )P (A1 ).


Logo,

P (A1 ∩ A2 ∩ A3 ) = P (A3 |A1 ∩ A2 )P (A2 |A1 )P (A1 ).

Nossa hipótese de indução é que a propriedade vale para os elementos A1 , . . . , Ak de A, ou


seja,

P (A1 ∩ . . . ∩ Ak ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) . . . P (Ak |A1 ∩ . . . ∩ Ak−1 ). (1.3)

O teste de indução consiste em demonstrar que o teorema da multiplicação se aplica para


os conjuntos A1 , . . . , Ak , Ak+1 de A.
Defina B = A1 ∩ . . . ∩ Ak . Pela fórmula da probabilidade condicional,

P (A1 ∩ . . . ∩ Ak+1 ) = P (Ak+1 |B)P (B) (1.4)

Finalmente, substitutindo (1.3).em (1.4), temos:

P (A1 ∩ . . . ∩ Ak+1 ) = P (Ak+1 |B) P (B)

= P (Ak+1 |A1 ∩ . . . ∩ Ak )P (Ak |A1 ∩ . . . ∩ Ak−1 )...P (A3 |A1 ∩ A2 )P (A2 |A1 )P (A1 )

Exemplo Qual a probabilidade de retirar, sem reposição, 3 reis de um baralho comum de


52 cartas? Defina Ai como o evento pegar um rei na i-ésima retirada. Queremos achar a
probabilidade de A = A1 ∩ A2 ∩ A3 . Pelo teorema da multiplicação, temos

P (A1 ∩ A2 ∩ A3 ) = P (A3 |A1 ∩ A2 )P (A2 |A1 )P (A1 )


2 3 4
= × ×
50 51 52

= 0, 0000905
1.4. PROBABILIDADE CONDICIONAL 17
⎛ ⎞
52
Outra forma de obter este resultado é perceber que ⎝ ⎠ equivale ao número de possíveis
3
⎛ ⎞
4
conjuntos de três cartas no baralho e ⎝ ⎠ é o número de conjunto de 3 reis. Portanto,
3
⎛ ⎞
4
⎝ ⎠
3 4!
P (A)= ⎛ ⎞= 3!1! ∼
= 0, 0000905.
52!
52 3!49!
⎝ ⎠
3

Definição 1.4.3 (Partição) Suponha que A1 , A2 , . . . , An . . . são subconjuntos mutuamente


S
excludentes de A e que +∞
i=1 Ai = Ω. Dizemos então que {Ai }n≥1 é uma partição de Ω.

Teorema 1.4.2 (Bayes) Seja {Ai }i≥1 uma partição de Ω e considere B ∈ A, com P (B) > 0.
Então,

P (Ai ∩ B) P (B|Ai )P (Ai )


P (Ai |B) = = Pn .
P (B) j=1 P (B|Aj )P (Aj )

Exemplo Tome 3 moedas, duas honestas e uma com duas caras. Qual a probabilidade da
moeda ser de duas caras dado que observamos cara quando escolhemos, ao acaso, uma das
moedas?
Defina A1 como o evento a moeda é honesta, A2 a moeda é desonesta, C1 o evento observa-se
cara e C2 observa-se coroa. Pela regra de Bayes,

P (A2 ∩ C1 )
P (A2 |C1 ) =
P (C1 )
P (C1 |A2)P (A2 )
=
P (C1 |A2 )P (A2 ) + P (C1 |A1 )P (A1 )
1 × 13
=
1 × 13 + 12 × 23
1
=
2
18 CAPÍTULO 1. TEORIA DA PROBABILIDADE

1.5 Independência de Eventos

Definição 1.5.1 (Independência) Dois eventos A e B são independentes (denota-se A ⊥


B) se P (A ∩ B) = P (A)P (B).

Teorema 1.5.1 Se A ⊥ B então as seguintes afirmações são válidas:

1. A ⊥ B c .

2. Ac ⊥ B.

3. Ac ⊥ B c .

Prova Provaremos somente 1, deixando como exercício para o leitor a demonstração das
outras afirmações.
Para qualquer evento A podemos escrever

P (A) = P (A ∩ B) + P (A ∩ B c ) ⇒

P (A ∩ B c ) = P (A) − P (A ∩ B)

Como A ⊥ B, P (A ∩ B) = P (A)P (B). Assim,

P (A ∩ B c ) = P (A) − P (A)P (B)

= P (A) (1 − P (B))

= P (A)P (B c ) ⇒

A ⊥ Bc

Definição 1.5.2 (Independência dois a dois) Os eventos A1 , . . . , An são ditos indepen-


dentes dois a dois se

P (Ai ∩ Aj ) = P (Ai )P (Aj ) ∀i 6= j, i, j ∈ {1, . . . , n}.


1.6. VARIÁVEL ALEATÓRIA 19

Exemplo Considere dois lançamento de uma moeda com lados 1 e 2. Sejam A o evento
ímpar no primeiro lançamento, B o evento ímpar no segundo lançamento e C o evento soma
dos resultados dos lançamentos é impar. Note que A ⊥ B e que

P (A ∩ C) = P (A ∩ B c ) = P (A)P (B c ) = P (A)P (C)

P (B ∩ C) = P (B)P (C)

Logo, A, B e C são independentes dois a dois.

Definição 1.5.3 (Independência Coletiva) Os eventos A1 , . . . , An são ditos coletivamente


(mutuamente) independentes se

P (Ai1 ∩ Ai2 ∩ . . . ∩ Aim ) = P (Ai1 )P (Ai2 ) . . . P (Aim )

∀ 1 ≤ ii ≤ i2 ≤ . . . ≤ im ≤ n e ∀ m ∈ {2, 3, . . . , n}.

Observação Note que, por definição, independência coletiva implica independência dois a
dois (se você não está convencido leia novamente as duas definições). Por outro lado,o último
exemplo mostra claramente que independência dois a dois não implica independência coletiva

1.6 Variável Aleatória

Definição 1.6.1 (Variável Aleatória I) Uma variável aleatória X é uma função do espaço
amostral na reta real, isto é, X : Ω → R.

Exemplos Considere o seguinte experimento: lançar um dado duas vezes e observar a se-
quência de números. Seja ω um elemento de

Ω = {(1, 1); (1, 2), . . . , (1, 6), . . . , (6, 1), . . . , (6, 6)}.

Uma variável aleatória criada a partir de Ω é a soma dos resultados dos lançamentos. Desta
forma,

X(ω) = {2, 3, 4, . . . , 12}.


20 CAPÍTULO 1. TEORIA DA PROBABILIDADE

Já para o experimento selecionar um ponto no intervalo [0, 1], que tem como espaço
amostral Ω = [0, 1], uma variável aleatória é o quadrado do número sorteado. Neste caso,
X(ω) = ω2 .

Definição 1.6.2 (Variável Aleatória II) Uma variável aleatória X num espaço de proba-
bilidade (Ω, A, P ) é uma função real definida em Ω tal que, dado x ∈ R, X ≤ x é um evento
aleatório. Isto é,

A ≡ [ω ∈ Ω : X(ω) ≤ x] ⇒ A ∈ A.

As definições I e II são equivalentes. A definição I diz que ama variável aleatória é uma
transformação do espaço amostral da reta, ou seja uma função. Para tanto, esta função tem
que ser bem definida sob um certo critério. Este critério é o da definição II. Vamos à imagem
(o conjunto dos números reais) e escolhemos um conjunto bem definido, neste caso X ≤ x .
Agora nos perguntamos: quais os ω ∈ Ω que fazem com que X(ω) ≤ x seja verdade. Estes
elementos ω ∈ Ω formam um subconjunto de Ω. Aí nos perguntamos, este subconjunto faz
parte da álgebra de sub-conjuntos aos quais atribuímos probabilidade? Se a reposta for sim,
então a função é bem definida.3

1.7 Função Distribuição de Probabilidade

Para cada variável aleatória, associa-se uma função distribuição cumulativa (fdc).

Definição 1.7.1 (Função Distribuição Cumulativa) Uma função distribuição cumulativa


(fdc), FX : R → [0, 1] associada a variável aleatória X, é definida por:

FX (x) = P [X ≤ x] ∀ x ∈ R.

Uma fdc possui as seguintes propriedades:

P 1. Se x ≤ y então FX (x) ≤ FX (y).

P 2. Se a sequência {xn }n∈ N ↓ y, então FX (xn ) ↓ FX (y).

P 3. Se a sequência {xn }n∈ N ↓ −∞, então FX (xn ) ↓ 0.

P 4. Se {xn }n∈ N ↑ +∞, então FX (xn ) ↑ 1

Atente para o fato de que P 1 implica que FX (x) é não decrescente.


3
Outra maneira de dizer, mais chique, é que o conjuntos {ω ∈ Ω : X (ω) ≤ x} é mensurável.
1.8. VARIÁVEIS ALEATÓRIAS DISCRETAS E CONTÍNUAS 21

1.8 Variáveis Aleatórias Discretas e Contínuas

Definição 1.8.1 (Variável Aleatória Discreta) Uma variável aleatória é discreta se toma
um número finito ou enumerável de valores, isto é, se existe um subconjunto finito ou enu-
merável {x1 , x2 , . . .} ∈ R tal que x(ω) ∈ {x1 , x2 , . . .} para qualquer ω ∈ Ω.

Definição 1.8.2 (Variável Aleatória Absolutamente Contínua) Uma variável aleatória


é absolutamente contínua se existe uma função f : R → R, f (x) ≥ 0, tal que

Z x
P rob[X ≤ x] ≡ FX (x) = f (t)dx ∀x ∈ R.
−∞

Exemplos Considere a seguinte fdc



⎪ 0, se x < 0;


FX (x) = x, se x ∈ [0, 1];



⎩ 1, se x > 1.

A função


⎨ 1, se x ∈ [0, 1];
f (x) =
⎩ 0, se x > 1 ou x < 0.

Rx
é tal que FX (x) = −∞ f (t)dt para todo x ∈ R. Portanto, X é uma variável aleatória
absolutamente contínua.
22 CAPÍTULO 1. TEORIA DA PROBABILIDADE

Figura 4

© ª
Agora considere Y = min X, 12 , X ∼ U [0, 1]. Verifique que esta variável tem a seguinte
fdc:



⎪ 0, se y < 0;

⎨ £ ¢
FY (y) = y, se y ∈ 0, 12 ;



⎩ 1, se y ≥ 1 .
2

Perceba que FY não é contínua. Uma variável aleatória X só é (absolutamente) contínua


se FX (x) for (absolutamente) contínua.
1.9. MUDANÇA DE VARIÁVEL: CASO UNIVARIADO 23

Figura 5

1.9 Mudança de Variável: Caso Univariado

Seja X uma variável aletatória contínua, FX (x) a sua fdc e Y = Φ(X), Φ : R → R. Suponha
Φ continuamente diferenciável. Queremos encontrar, a partir da fdp de X (f (x)), a f dp de Y
(g(y)).

Teorema 1.9.1 (Método Jacobiano) Se Φ é estritamente monótona, então

¯ −1 ¯
¯ dΦ ¯
g(y) = f (Φ−1
(y)) ¯¯ ¯,
dy ¯
¯ −1 ¯
¯ ¯
onde ¯ dΦdy ¯ é o jacobiano da transformação.

Prova Suponha que Φ é estritamente crescente. Pela definição de fdc:


24 CAPÍTULO 1. TEORIA DA PROBABILIDADE

FY (y) = P rob[Y ≥ y]

= P rob[Φ(x) ≥ y]

= P rob[X ≥ Φ−1 (y)]

= FX (Φ−1 (y)).

Para achar a fdp basta derivar a função cumulativa em relação a y,

dFY (y)
g(y) =
dy
dFX (Φ−1 (y))
=
dy
dΦ−1
= f (Φ−1 (y)) .
dy

Suponha agora que Φ é decrescente. Novamente, pela definição da fdc de X:

FY (y) = P rob[Y ≤ y]

= P rob[Φ(X) ≤ y]

= P rob[X ≥ Φ−1 (y)]

= 1 − P rob[X ≤ Φ−1 (y)]

= 1 − FX (Φ−1 (y)).

Assim,

dFY (y)
g(y) =
dy
dFX (Φ−1 (y))
= −
dy
µ ¶
dΦ−1
= f (Φ−1 (y)) − .
dy

Colorário Seja X uma variável contínua que possui densidade de probabilidade f (x). Con-
sidere a variável aleatória Y = a + bX, b > 0. Então Y possui uma densidade (i.e, Y é
¡ ¢
contínua) e g(y) = 1b f y−a
b .
1.9. MUDANÇA DE VARIÁVEL: CASO UNIVARIADO 25

Prova A forma funcional de g(y) é aplicação direta do teorema anterior. Vamos provar que
Y possui densidade. Suponha que Φ é estritamente crescente. Então:

FY (y) = P rob[Y ≤ y]

= P rob[Φ(x) ≤ y]

= P rob[X ≤ Φ−1 (y)]

= FX (Φ−1 (y))
Z Φ−1 (y)
= f (x)dx
−∞
Z y
0
= f (Φ−1 (t))Φ−1 (t)dt.
−∞

Portanto, Y possui densidade. A prova para o caso em que Φ é decrescente é análoga.4 ¤

Exemplos Considere a variável aleatória X ∼ exp(λ = 1). X tem fdp dada por:


⎨ e−x , se x > 0;
f (x) = .
⎩ 0, caso contrário.

Outro exemplo: seja Y = X 2 . Qual é a fdp de Y? Aplicando o método jacobiano:


⎨ 1 √

2 y exp(− y), se y > 0;
g(y) =
⎩ 0, caso contrário.

Para calcular a fdc de Y proceda da sequinte forma:

4
Lembre-se da fórmula de mudança de variável. Seja g (·) uma função diferenciável com derivada não nula
no intervalo [t1 , t2 ]. Seja f (·) uma função e F (·) sua primitiva. Então:

Z g(t2 )
f (x) dx =
g(t1 )
Z t2
F (g (t2 )) − F (g (t1 )) = h (y) dy
t1

onde h (·) = F (g (·)) g 0 (·). Usa-se o Teorema Fundamental do Cálculo duas vezes.
26 CAPÍTULO 1. TEORIA DA PROBABILIDADE

FY (y) = P rob[Y ≤ y]

= P rob[X 2 ≤ y]

= P rob[X ≤ y]
Z √y
= exp(−x)dx
0

y
= − exp(−x)|0

= − exp(− y) + 1.

Seja X ∼ U [−1, 1]. A fdp de X é dada por


⎨ 1
2, se −1 < x < 1;
f (x) =
⎩ 0, caso contrário.
e defina Y como


⎨ X, se X ≤ 0.
Y =
⎩ X 2 , se X > 0.

Perceba que neste caso a função que define Y não é monótona. Logo, não podemos aplicar
o teorema 2.1.
Para calcular FY (y) faça,

FY (y) = P rob[Y ≤ y]

= P rob[− y ≤ X ≤ y]
Z y
1
= √ 2
dx
− y

y+ y
= .
2
Portanto,



⎪ 0, se y ≤ 0;

⎨ √
y+ y
FY (y) = 2 , se y ∈ (0, 1);



⎩ 1, se y > 1.
Derivando a função acima em relação a y obtemos a fdp:


⎨ 1
+ 1
4 y, se 0 ≤ y ≤ 1;

2
g(y) =
⎩ 0, caso contrário.
1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 27

O procedimento utilizado acima para encontrar a densidade da variável aleatória é con-


hecido como método direto.

1.10 Várias Variáveis Aleatórias

Suponha que observamos várias características (cada uma delas uma variável aleatória) das
pessoas. Entre elas: salário, raça, idade, número de anos de escolaridade,etc. Nesta seção,
buscaremos respostas para os seguintes tipos de pergunta:

• (Distribuição Conjunta) Qual é a probabilidade de alguém ter entre 40 e 50 anos, ser


branco e ganhar menos de 500 reais?

• (Distribuição Condicional) Dado que uma pessoa é branca e tem entre 40 e 50 anos, qual
é a probabilidade de ganhar menos de 500?

Definição 1.10.1 (Vetor Aleatório) Um vetor aleatório é uma função que leva de uma
σ−Álgebra A para um vetor do Rn .

Exemplo Leve em conta o seguinte experimento: jogar dois dados aleatoriamente e observar
a soma dos resultados e o valor absoluto da diferença. O espaço de probabilidades (Ω, A, P ) é
dado por:

• Ω = {(w1 , w2 ) ∈ R2 : wi ∈ {1, 2, . . . , 6}, i = 1, 2};

• A = Classe de todos os subconjuntos de Ω;

• P : A → [0, 1], definida por

⎛ ⎞ ⎛ ⎞
X1 (w1 , w2 ) w1 + w2
⎝ ⎠=⎝ ⎠.
X2 (w1 , w2 ) |w1 − w2 |

A partir dessas definições, podemos calcular

1
P rob[X1 = 5, X2 = 3] = P rob[(4, 1), (1, 4)] =
18

e
28 CAPÍTULO 1. TEORIA DA PROBABILIDADE

1
P rob[X1 = 5] = P rob[(4, 1), (1, 4), (2, 3), (3, 2)] = .
9

Definição 1.10.2 (Função de Probabilidade) Seja (X1 , . . . , Xn ) um vetor aleatório n−dimensional.


A função probabilidade (frequência) definida do Rn em [0, 1] é definida por:

PX1 ,...,Xn (x1 , . . . , xn ) = P rob[X1 = x1 , . . . , Xn = xn ].

Exemplo Voltando ao experimento do exemplo anterior, a função probabilidade pode ser


descrita da seguinte forma:

X2
0 1 2 3 4 5 P (X2 )
1 1
2 36 36
1 1
3 18 18
1 1 3
4 36 18 36
1 1 2
5 18 18 18
1 1 1 5
6 36 18 18 36
1 1 1 3
X1 7 18 18 18 18
1 1 1 5
8 36 18 18 36
1 1 2
9 18 18 18
1 1 3
10 36 18 36
1 1
11 18 18
1 1
12 36 36
1 5 4 3 2 1
P (X2 ) 6 18 18 18 18 18 1

Definição 1.10.3 (Função de Probabilidade Marginal) Seja (X1 , . . . , Xn ) um vetor aleatória


discreto. A função probabilidade marginal de Xi é

X X X X X
PXi (xi ) = ... ... PX1 ,...,Xn (X1 = x1 , . . . , Xn = xn ).
x1 ∈ R x2 ∈ R xi−1 ∈ R xi+1 ∈ R xn ∈ R
1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 29

Exemplo Retornando ao exemplo anterior do laçamento de dois dados,

P rob[X1 = 7] = P rob[X1 = 7, X2 = 1] + P rob[X1 = 7, X2 = 3] + P rob[X1 = 7, X2 = 5].

Definição 1.10.4 (Vetor Aleatório Contínuo) Um vetor aleatório (X1 , . . . , Xn ) é dito (ab-
solutamente) contínuo se existe uma função f : Rn → R+ tal que para qualquer subconjunto5
A ∈ Rn

Z Z Z
P rob[A] = . . . f (x1 , . . . , xn )dx1 . . . dxn .
A
| {z }
n vezes

Exemplo No caso bivariado,

Z x1 Z x2 Z Z
P rob(X1 ≤ x1 , X2 ≤ x2 ) = f (x1 , x2 )dx2 dx1 = f (x1 , x2 )dx1 dx2 ,
−∞ −∞ A

em que A = {(x1 , x2 ) ∈ R2 : X1 ≤ x1 , X2 ≤ x2 }.

Definição 1.10.5 (Função densidade marginal) A função densidade marginal de Xi é


definida por

Z +∞ Z +∞
fXi (xi ) = ... fX1 ,...,Xn (x1 , . . . , xn )dx1 . . . dxi−1 dxi+1 . . . dxn .
−∞ −∞
| {z }
n−1 vezes

Definição 1.10.6 (Função distribuição cumulativa) Define-se a função distribuição cu-


mulativa do vetor aleatório (X1 , . . . , Xn ) como:

Z xn Z x1
FX1 ,...,Xn (x1 , . . . , xn ) = ... fX1 ...Xn (x1 , . . . , xn )dx1 . . . dxn .
−∞ −∞

Exemplo Seja (X, Y ) um vetor aleatório com densidade dada por:


⎨ 6xy 2 , se 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1;
f (x, y) =
⎩ 0, caso contrário.
Graficamente,
5
Na verdade é qualquer sub-conjunto mensurável mas não quero entrar nesta discussão...
30 CAPÍTULO 1. TEORIA DA PROBABILIDADE

Figura 6
Note que o ponto B tem probabilidade maior que A, pois a função densidade é crescente.
A probabilidade, neste caso, não é dada somente pela área, mas também pelo volume.
A fdp marginal de X é:

Z 1
f (x) = 6xy 2 dy
0
= 2x, ∀ 0 ≤ x ≤ 1.

Além disso, podemos estar interessados em:

Z 1Z 1
P rob[Y > X] = 6xy 2 dydx.
p x
Z 1 Z 1−x
P rob[X + Y < 1] = 6xy 2 dydx.
0 0

Defina agora a Z = X + Y. A distribuição de Z é dada por:

GZ (z) = P rob[Z < z]

= P rob[X + Y < z].


1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 31

Para z < 1 temos

Z z Z z−x
GZ (z) = 6xy 2 dydx.
0 0

Para z > 1,

Z z−1 Z 1 Z 1 Z z−x
GZ (z) = 6xy 2 dydx + 6xy2 dydx.
0 0 z−1 0

Definição 1.10.7 (Distribuição condicional: caso discreto) Seja PX,Y (x, y) a função fre-
quência. Para cada x tal que PX (x) > 0, a função frequência de Y dado x é dada por:

PX,Y (x, y)
PY (y|x) = .
PX (x)

Definição 1.10.8 (Distribuição condicional: caso contínuo) Suponha que (X, Y ) tenha
uma densidade conjunta f (x, y). Seja S um evento aleatório tal que P (S) > 0. Então, a
densidade condicional conjunta de (X, Y ) dado que (X, Y ) ∈ S é


⎨ f (x,y)
P (S) , se (x, y) ∈ S;
f (x, y|S) =
⎩ 0, caso contrário.

Exemplo Seja f (x, y) uma função densidade de probabilidade e S um subconjunto do plano


tal que, para qualquer x no suporte de X, h(x) < y < g(x).
32 CAPÍTULO 1. TEORIA DA PROBABILIDADE

Figura 7
Suponha também que P ((X, Y ) ∈ S) > 0. A densidade condicional de X dado S, denotada
f (x|S), é definida por:

R g(x)
h(x) f (x, y)dy
f (x|S) = .
P ((X, Y ) ∈ S)
Caso h(x) = y1 e g(x) = y2 , sendo y2 > y1 temos,

Z +∞ Z y2
P (S) = f (x, y)dydx
−∞ y1
R y2
y f (x, y)dy
f (x|y1 ≤ Y ≤ y2 ) = R +∞ R1 y2
−∞ y1 f (x, y)dydx
R x2 hR y2 i
x1 y1 f (x, y)dy dx
P rob[x1 < X < x2 |y1 < Y < y2 ] = R +∞ R y2 .
−∞ y1 f (x, y)dydx

O numerador e o denominador da expressão acima correspondem a, respectivamente,


P rob[x1 < X < x2 ∩ y1 < Y < y2 ] e P rob[y1 < Y < y2 ].

Definição 1.10.9 (Probabilidade Condicional) A probabilidade condicional de X ∈ [x1 , x2 ]


dado Y = a + bX é definida como:
1.10. VÁRIAS VARIÁVEIS ALEATÓRIAS 33

lim P rob[x1 < X < x2 |a + bX < Y < a + ∆a + bX].


∆a→0

Definição 1.10.10 (Densidade Condicional) A densidade condicional de X dado que Y =


a + bX, se existe, é definida como uma função f ≥ 0 que satisfaz:

Z x2
P rob[x1 < X < x2 |Y = a + bX] = f (x|Y = a + bX)dx.
x1

Teorema 1.10.1 (Densidade Condicional) A densidade f (x|Y = a + bx), se existe, é


dada por:

f (x, a + bx)
f (x|Y = a + bX) = R +∞ .
−∞ f (x, a + bx)dx

Prova

P rob[x1 < X < x2 |Y = a + bX] = lim P rob[x1 < X < x2 |a + bX < Y < a + ∆a + bX]
∆a→0
R x R a+∆a+bx
R x2 R a+∆a+bx 2
x1 a+bx f (x,y)dydx
f (x, y)dydx
= lim R x1 Ra+bx = lim R +∞ R a+∆a+bx
∆a
∆a→0 +∞ a+∆a+bx f (x, y)dydx ∆a→0 −∞ a+bx f (x,y)dydx
−∞ a+bx
∆a
Sob condições gerais de regularidade6 :

R x2 R a+∆a+bx Z Ã R a+∆a+bx !
f (x, y)dydx x2 f (x, y)dy
x1 a+bx a+bx
lim = lim dx (1.5)
∆a→0 ∆a x1 ∆a→0 ∆a
Tratando x como uma constante, podemos escrever h (y; x) = f (x, y). Seja H (y; x) a
primitiva de h (y; x). Usando o teorema fundamental do cálculo e a definição de derivada:

R a+∆a+bx
a+bx f (x, y)dy H (a + ∆a + bx) − H (a + bx)
lim = lim
∆a→0 ∆a ∆a→0
¯ ∆a
dH (y; x) ¯¯
= ¯ = f (x, a + bx)
dy y=a+bx
Substituindo em (1.5), temos

R x2
x1 f (x, a + bx)dx
P rob[x1 < X < x2 |Y = a + bx] = R +∞
−∞ f (x, a + bx)dx
Z x2 Ã !
f (x, a + bx)
= R +∞ dx
x1 −∞ f (x, a + bx)dx
Z x2
= f (x|Y = a + bX)dx.
x1
6
São as condições que nos permitem trocar as operações limite e integração ou, na realidade, trocar a ordem
dos limites. Mais sobre isto depois...
34 CAPÍTULO 1. TEORIA DA PROBABILIDADE

Onde:

f (x, a + bx)
f (x|Y = a + bX) = R +∞
−∞ f (x, a + bx)dx
¤

Aplicando o teorema acima para o caso em que a = y e b = 0

f (x, y) f (x, y)
f (x|y) = R +∞ =
f (y)
−∞ f (x, y) dx
e aparece o resultado que vocês provavelmente já conhecem.

1.11 Independência de Variáveis Aleatórias

Definição 1.11.1 (Variáveis Independentes Discretas) Duas variáveis aleatória discre-


tas X, Y são independentes se:

PX,Y (X = xi , Y = yj ) = PX (xi )PY (yj ) ∀ i, j.

Definição 1.11.2 (Variáveis Independentes Contínuas) Duas variáveis aleatórias con-


tínuas X e Y são independentes se, para todo (x, y) ∈ R2 ,

fXY (x, y) = fX (x)fY (y).

Observação Suponha que seja possível escrever fXY (x, y) = h(x)g(y). A priori, h(x) e g(y)
são funções quaisquer (não necessariamente as densidades de X e Y ). Se o suporte de (X, Y )
for um retângulo com os lados paralelos aos eixos e podemos escrever fXY (x, y) = h(x)g(y),
temos que X e Y são funções independenes.

Exemplo Tome a densidade f (x, y) = 1 para qualquer 0 < x < 1 e 0 < y < 1. Defina
h(x) = 1 e g(y) = 1. Então, f (x, y) = h(x)g(y) e, pela observação acima, X e Y são
independentes.

Definição 1.11.3 (Independência de 3 Variáveis Aleatórias Contínuas) Três variáveis


aleatórias contínuas X, Y e Z são independentes se para quaisquer x, y e z, fXY Z (x, y, z)
atende às quatro condições abaixo:
1.11. INDEPENDÊNCIA DE VARIÁVEIS ALEATÓRIAS 35

fXY Z (x, y, z) = fX (x)fY (y)fZ (z)

fXY (x, y) = fX (x)fY (y)

fXZ (x, z) = fX (x)fZ (z)

fY Z (y, z) = fY (y)fZ (z)

O caso para N variáveis é uma simples extensão do caso para 3 variáveis.

Exemplos Seja f (x, y) = 24xy uma função densidade definida no suporte 0 < x < 1 e
0 < y < 1 − x.
£ ¤
Qual é o valor de P rob 0 < Y < 14 |X = 12 ?
Primeiramente, calculamos a densidade marginal de X.

Z 1−x
fX (x) = f (x, y)dy = 12x(1 − x)2 ∀ 0 < x < 1
0

e, agora, computamos a densidade condicional de Y |X,

fXY (x, y)
fY |X (y|x) =
fX (x)
24xy
=
12x(1 − x)2
2y
= ∀ 0 < y < 1 − x.
(1 − x)2

Portanto,

µ ¶
1
fY |X y|X = = 8y,
2

e,

∙ ¸ Z 1
1 1 4
P rob 0 < Y < |X = = 8ydy
4 2 0
1
= .
4

1
Agora, seja f (x, y) = 2 uma densidade que tem como suporte o retângulo de vértices
(1, 0), (0, 1), (−1, 0), (0, −1).
36 CAPÍTULO 1. TEORIA DA PROBABILIDADE

Figura 8

Verifique que a distribuição marginal de Y é dada por:

⎧ R


1−y 1
dx, se 0 < y < 1;

⎨ R−1+y 2
1+y 1
fY (y) = −1−y 2 , se −1 < y < 0.



⎩ 0, caso contrário.

Mais um exemplo: tome a densidade f (x, y) = 1 definida no suporte 0 < x < 1 e 0 < y < 1.
1.12. MUDANÇA DE VARIÁVEL: CASO MULTIVARIADO 37

Figura 9
Neste caso,

R g(x)=x
h(x)=0 1dy
f (x|X > Y ) = R 1 R g(x)=x
0 h(x)=0 1dydx
R1
1dy
f (x|X < Y ) = R 1 Rx 1
0 x dydx

1.12 Mudança de Variável: Caso Multivariado

Sejam (X, Y ) um vetor aleatório com densidade fXY (x, y) e T (X, Y ) : R2 → R2 , tal que

⎛ ⎞ ⎛ ⎞
Z g(X, Y )
⎝ ⎠=⎝ ⎠ = T (X, Y ).
W h(X, Y )
Suponha g e f funções monótonas e diferenciáveis. Então,

¯ ¯
¯ ∂g −1 ∂g −1 ¯
¯ ¯
fZW (z, w) = fXY (g (z, w), h (z, w)) det ¯¯
−1 −1 ∂z ∂w ¯
¯
¯ ∂h−1 ∂h−1 ¯
∂z ∂w
38 CAPÍTULO 1. TEORIA DA PROBABILIDADE

Este método para efetuar a mudança de variável é conhecido como método jacobiano.

Exemplos Tome f (x, y) = 1 com suporte 0 < x < 1 e 0 < y < 1. Defina Z = max(X, Y )

Como exercício, complete o sistema (i.e, defina W = X) e aplique o método jacobiano.


Por que ele não funciona?

Vamos aplicar o método direto (a partir das definições). Note que o evento max(X, Y ) < z
é equivalente ao evento X < z e Y < z.

FZ (z) = P rob[Z < z]

= P rob[max(X, Y ) < z]

= P rob[X < z, Y < z]

= P rob[X < z]P rob[Y < z]

= z2

Portanto,

fZ (z) = 2z ∀ 0 < z < 1.

Y
Defina agora W = X.
1.12. MUDANÇA DE VARIÁVEL: CASO MULTIVARIADO 39

Figrua 10
Computando a densidade de W pelo método direto,

FZ (z) = P rob[Z < z]


∙ ¸
Y
= P rob <z
X


⎪ 1 − 2z1
, se z > 1;


= z
⎪ 2, se 0 < z < 1.


Portanto,


⎨ 1
2z 2 , se z > 1;
fZ (z) =
⎩ 1
2, se 0 < z < 1.
Seja fX1 X2 (x1 , x2 ), definida no quadrado unitário e, considere o vetor:

⎛ ⎞ ⎛ ⎞⎛ ⎞
Y1 1 1 X1
⎝ ⎠=⎝ ⎠⎝ ⎠.
Y2 1 −1 X2
Deixamos para o leito encontrar a fdc do vetor (Y1 , Y2 ). Utilize o método jacobiano e o
método direto. Qual método é o mais conveniente?
40 CAPÍTULO 1. TEORIA DA PROBABILIDADE
Capítulo 2

Momentos

2.1 Esperança

Definição 2.1.1 (Esperança) Seja X uma variável aleatória contínua (discreta) e f (x) sua
densidade (função probabilidade). O valor esperado da variável aleatória g(X), que denotamos
E[g(x)], é

Z +∞
g(x)f (x)dx se g(X) é absolutamente contínua e
−∞
X
g(x)P rob[X = x] se g(X) é discreta.
x∈χ

caso a soma ou integral existam. Se E[|g(X)|] = +∞, então dizemos que E[g(X)] não
existe. χ é o conjunto (finito ou contável) dos valores de que recebem probabilidade positiva no
caso discreto.

Exemplos Primeiramente, considere X ∼ exp(λ), ou seja,

1 −x
f (x) = e λ , se x > 0, λ > 0.
λ

Z ∞
E[X] = xf (x)dx
−∞
Z +∞
1 x
= x e− λ dx
0 λ
¯ Z +∞
x ¯+∞ x
= −xe− λ ¯ − e− λ dx
0 0
¯
x ¯+∞
−λ
= −λe ¯
0
= λ.

41
42 CAPÍTULO 2. MOMENTOS

A seguir, computaremos a esperança de uma variável discreta. Seja X ∼ B(n, p), isto é,

⎛ ⎞
n
P [X = x] = ⎝ ⎠ px (1 − p)n−x .
x

⎛ ⎞
n
X n
E[X] = x⎝ ⎠ px (1 − p)n−x
x=0 x
n
X n!
= x px (1 − p)n−x
x=1
x!(n − x)!
n
X n(n − 1)!
= px (1 − p)n−x
x=1
(x − 1)!(n − x)!

Fazendo uma troca de variáveis para y = x − 1 e colocando n para fora do somatório,


temos:
n−1
X (n − 1)!
= n py+1 (1 − p)n−(y+1)
y!(n − y − 1)!
y=0
n−1
X (n − 1)!
= np py (1 − p)n−1−y
y=0
y!(n − 1 − y)!
= np.
Pn−1 (n−1)! y n−(y+1)
porque y=0 y!(n−(y+1))! p (1 − p) = Pr (Y ≤ n − 1) = 1 onde Y ∼ B (n − 1, p)

Suponha que um pesquisador esteja interessado em fazer previsões a cerca do valor de uma
variável aleatória X. Seja x a realização desta variável e b o "chute"do pesquisador. Um
dos possíveis critérios para a formulação deste chute é a minização da esperança do erro
quadráticos médio, isto é,

min E[(x − b)2 ] ≡ min E[(X − E(X) + E(X) − b)2 ]


b b
≡ min E[(X − E[X])2 + 2E[(X − E[X])(E[X] − b)] + E(E[X] − b)2
b

Note que (E[X] − b)E[(X − E[X])] = (E[X] − b)(E [X] − E[X]) = 0. (E[X] − b) saiu para
fora do operador esperança porque é um número fixo. Portanto:

min E[(x − b)2 ] ≡ min E[(X − E[X])2 + E(E[X] − b)2


b b

Como E[(X − E[X])2 é um número fixo (não depende da escolha de b):

min E[(x − b)2 ] ≡ min E(E[X] − b)2


b b
2.2. OUTROS MOMENTOS 43

O melhor que podemos fazer é atingir o valor 0 para a função objetivo. Escolhendo b =
E[X] alcançamos 0. Dessa forma:

E[X] = arg min E[(x − b)2 ].


b

A esperança é, portanto, o melhor previsor para X sob o critério de minimização do erro


quadrático médio de previsão. Voltemos nossa atenção agora para o caso bivariado.

Definição 2.1.2 (Esperança) Sejam X e Y duas variáveis aleatórias contínuas e Z =


Φ(x, y). O valor esperado de Z é dado por:

Z +∞
EXY = EXY [Φ(x, y)] = Φ(x, y)f (x, y)dxdy.
−∞

2.2 Outros Momentos

Definição 2.2.1 (Momentos) Para cada número natural n, o enésimo momento não cen-
trado (centrado) de X, denotado μ0n (μn ) é definido como:

μ0n = E[X n ] (μn = E[(X − μ01 )n ]).

Um caso particular é a variância, que é simplesmente o segundo momento centrado de uma


variável aleatória. Deixamos para o leitor verificar a validade das seguintes propriedades da
variância:

h i
V ar[X] = E (X − E [X])2 = E[X 2 ] − E[X]2

V ar[aX + b] = a2 V ar[X], ∀ a, b ∈ R

Definição 2.2.2 (Covariância) Sejam X e Y duas variáveis aleatórias. A covariância de


X e Y é definida por

Cov(X, Y ) = EXY [(X − EX [X])(Y − EY [Y ])].

Definição 2.2.3 (Correlação) A correlação entre X e Y é dada por:

Cov(X, Y )
ρ(X, Y ) = p .
V ar[X]V ar[Y ]

Teorema 2.2.1 (Cauchy-Schwartz) |ρ(X, Y )| ≥ 1


44 CAPÍTULO 2. MOMENTOS

Prova Para qualquer λ ∈ R,

EXY [((X − E[X]) − λ(Y − E[Y ]))2 ] ≥ 0 ⇒

EXY [(X − E[X])2 − 2λ(Y − E[Y ])(X − E[X]) + λ2 (Y − E[Y ])2 ] ≥ 0 ⇒

V ar[X] − 2λCov(X, Y ) + λ2 V ar[Y ] ≥ 0.

Cov(X,Y )
Em particular, faça λ = V ar[Y ] , obtendo:

Cov(X, Y )2 Cov(X, Y )2
V ar[X] − 2 + V ar[Y ] ≥ 0⇒
V ar[Y ] V ar[Y ]2
Cov(X, Y )2
V ar[X] − ≥ 0⇒
V ar[Y ]
V ar[Y ] Cov(X, Y )2
≥ ⇒
V ar[Y ] V ar[X]V ar[Y ]
ρ(X, Y )2 ≤ 1.

Em muitas ocasiões é mais fácil calcular a covariância utilizando a seguinte fórmula:


Cov(X, Y ) = EXY [XY ] − EX [X]EY [Y ]. A demonstração da validade desta igualdade segue
diretamente da definição de covariância.

Cov(X, Y ) = EXY [(X − EX (X))(Y − EY [Y ])]

= EXY [XY − XEY [Y ] − EX [X]Y + EX [X]EY [Y ]]

= EXY [XY ] − EX [X]EY [Y ] − EX [X]EY [Y ] + EX [X]EY [Y ]]

= EXY [XY ] − EX [X]EY [Y ].

2.3 Conceitos de Independência

Teorema 2.3.1 Se X e Y são duas variáveis independentes

EXY [g(X)h(Y )] = EX [g(X)]EY [h(Y )].

Prova Mostraremos aqui a prova para o caso contínuo.


2.3. CONCEITOS DE INDEPENDÊNCIA 45

Z +∞ Z +∞
EXY [g(X)h(Y )] = g(x)h(y)f (x, y)dxdy
−∞ −∞
Z +∞ Z +∞
independência
= g(x)h(y)fX (x)fY (y)dxdy
−∞ −∞
Z +∞ ∙ Z +∞ ¸
= g(x) h(y)fY (y)dy fX (x)dx
−∞ −∞
Z +∞
= EY [h(Y )]fX (x)dx
−∞
Z +∞
= EY [h(Y )] E[g(Y )]fX (x)dx
−∞
= EX [g(X)]EY [h(Y )].

Definição 2.3.1 Duas variáveis aleatórias X e Y são ditas linearmente independentes (ou
ortogonais) se Cov(X, Y ) = 0.

Um corolário direto da definição de independência linear e do teorema 3.1 é que se duas


variáveis são independentes, então são linearmente independentes. Todavia, a recíproca não
é verdadeira, como mostra o exemplo a seguir.

Cov (X, Y ) ; X ⊥ Y f (x, y) = 1 é uma densidade no suporte −1 < x < 0, 0 < y < −x,
0 < x < 1 e 0 < y < x.
46 CAPÍTULO 2. MOMENTOS

Figura 11
Claramente, X e Y não são independentes (é possível aprender algo sobre Y quando fixamos
X). Contudo,

E[X] = 0
Z 0 Z x Z 1Z x
E[XY ] = xydydx + xydydx
−1 0 0 0
Z 0 Z 1
x3 x3
= dx + dx
−1 2 0 2
1 1
= − +
8 8
= 0

Logo, Cov(X, Y ) = 0.

Definição 2.3.2 (Esperança Condicional) Sejam X e Y duas variáveis aleatórias e g(Y )


uma função somente de Y . Então, o valor esperado de g(Y ) dado X = x é

Z
E[g(Y )|X = x] = g(y)f (y|x)dy.
A
2.3. CONCEITOS DE INDEPENDÊNCIA 47

Teorema 2.3.2 (Lei das Expectativas Iteradas) Seja Z = Φ(X, Y ) uma variável aleatória.
Então,

EXY [Φ(X, Y )] = EX [EY [Φ(X, Y )|X = x]].

Prova
Z +∞ Z +∞
E[Φ(X, Y )] = Φ(X, Y )f (x, y)dydx
−∞ −∞
Z +∞ Z +∞
= Φ(X, Y )f (y|x)f (x)dydx
−∞ −∞
Z +∞ ∙Z +∞ ¸
= Φ(X, Y )f (y|x)dy f (x)dx
−∞ −∞
Z +∞
= EY [Φ(X, Y )|X = x]f (x)dx
−∞
= EX [EY [Φ(X, Y )|X = x].

1
Exemplo Considere X ∈ {0, 1} com P rob[X = 1] = 2 e Y tal que

f (y|X = 1) ∼ U [1, 2]

f (y|X = 0) ∼ U [0, 1]

1
Como E[y|X = 0] = 2 e E[Y |X = 1] = 32 , pela lei das expectativas iteradas,

1 1
E[Y ] = E[Y |X = 0] + E[Y |X = 1] = 1.
2 2

Exemplo Se quisermos saber a média salarial um uma determinada população, podemos


proceder da seguinte forma. Calcular a média salarial para cada quantidade de anos de es-
colariedade. Aí calculamos uma Wmédia de média, poderando pela frequência de cada ano
de escolariedade. Seja W a variável aleatória salário, e S a variável aleatória escolariedade.
Suponha, por simplicidade, que temos apenas 4 e 8 anos de escolariadade possíveis:

EW [W ] = EW [W |S = 4] Pr (S = 4) + ES [S|E = 8] Pr (E = 8)

= EE [S|E]
48 CAPÍTULO 2. MOMENTOS

Definição 2.3.3 (Independência em Média) Sejam X e Y duas variáveis aleatórias. Diz-


se que Y é independente em média de X se

E[Y |X = x] = E[Y ] ∀ x ∈ supp(X),

onde supp(X) denota o suporte de X.

Teorema 2.3.3 (Independência em Média I) Se duas variáveis aleatórias são indepen-


dentes, então também são independentes em média.

Prova Suponha X e Y independentes. Assim, podemos escrever f (x, y) = fX (x)fY (y) e


fY (y|x) = fY (y).

Z +∞
EY [Y |X = x] = fY (y|x)dy
−∞
Z +∞
= yfY (y)dy
−∞
= E[Y ].

Teorema 2.3.4 (Independência em Média II) Se duas variáveis aleatórias são indepen-
dentes em média, então também são linearmente independentes.

Prova Suponha que X e Y são independentes em média. Isso implica que EY [Y |X] = E[Y ].
Usando a lei das expectativas iteradas,

E[XY ] = EX [EY [XY |X]]

= EX [XEY [Y |X]]

= EX [X]EY [Y ]

EXY [XY ] = E[X]E[Y ] implica que Cov(X, Y ) = 0, como queríamos demonstrar. ¤


2.3. CONCEITOS DE INDEPENDÊNCIA 49

Deve-se ter atenção ao aplicar os teoremas acimas. Vimos que independência implica
em independência em média que, por sua vez, implica em indenpendência linear. As
recíprocas não são verdadeiras, isto é, independência linear não implica em independência em
média, esta última não sendo sinônimo de independência. Dois exemplos ajudam:

Cov (X, Y ) = 0 ;Independência Ver exemplo de Cov (X, Y ) = 0 ; X ⊥ Y

Independência em média ; X ⊥ Y Seja (X, Y ) um vetor aleatório contínuo com a


seguinte densidade conjunta:

⎨ 1
2, na área vermelha da figura 12
f (x, y) =
⎩ 0, caso contrário

Figura 12
As distribuições de condicionais são (como fica claro pela figura 13):
50 CAPÍTULO 2. MOMENTOS


⎨ U [−1 − x, 1 + x] , se −1 ≤ x ≥ 0
Y |X = x ∼
⎩ U [−1 + x, 1 − x] , se 0 ≤ x ≥ 1

⎨ U [−1 − y, 1 + y] , se −1 ≤ y ≤ 0
X|Y = y ∼
⎩ U [−1 + y, 1 − y] , se 0 ≤ y ≤ 1

Figura 13
Portanto

⎨ −1−x+1+x
= 0,se −1 ≤ x ≥ 0
2
E [Y |X = x] = = E [Y ] ∀x
⎩ −1+x+1−x
= 0,se 0 ≤ x ≥ 1
2

⎨ −1−y+1+y
= 0,se −1 ≤ y ≥ 0
2
E [X|Y = y] = = E [X] ∀y
⎩ −1+y+1−y
= 0,se 0 ≤ y ≥ 1
2

Ou seja, Y (X) é independente em média de X (Y ).

No entanto, Y e X não são independentes. Para ver isso, note que:


2.4. VARIÂNCIA CONDICIONAL 51


⎨ ((−1−x)−(1+x))2
12 ,se −1 ≤ x ≥ 0
V AR [Y |X = x] = 2
⎩ ((1−x)−(−1+x))
,se 0≤x≥1
12

E, portanto, a variância condicional de Y depende do valor de X.

2.4 Variância Condicional

Definição 2.4.1 (Variância Condicional) A variância condicional de Φ (X, Y ) dado X é:

V arY (Φ (X, Y ) |X) = EY [(Φ (X, Y ) − E[Φ (X, Y ) |X])2 |X].

Uma maneira de escrever que muitas vezes ajuda é:

V arY (Φ (X, Y ) |X = x) = EY [(Φ (x, Y ) − E[Φ (x, Y ) |X = x])2 |X = x]

Em particular, temos

Definição 2.4.2 (Variância Condicional II) A variância condicional de Y dado X é:

V arY (Y |X) = EY [(Y − E[Y |X])2 |X]

Teorema 2.4.1 (Variância Condicional) Outra maneira de expressar a variância condi-


cional é dado por

V arY (Y |X) = EY [Y 2 |X] − (E[Y |X])2 .

Prova

EY [(Y − E[Y |X])2 |X] = EY [Y 2 |X] − 2EY [Y E[Y |X]] + EY [Y |X]2

= EY [Y 2 |X] − 2EY [Y |X 2 ] + EY [Y |X]2

= EY [Y 2 |X] − EY [Y |X 2 ].

Teorema 2.4.2 (Lei da Decomposição da Variância)

V arXY (Φ(X, Y )) = EX [V arY (Φ(X, Y ))|X] + V arX [EY [Φ(X, Y )|X]].


52 CAPÍTULO 2. MOMENTOS

Prova Pela definição de variância condicional

V arY (Φ(X, Y )|X) = EY [Φ(X, Y )2 |X] − (EY [Φ(X, Y )|X]2 ) (2.1)

Passando o operador esperança (tomado em X) em (1.3)

EX (V arY (Φ(X, Y )|X)) = EX [EY [Φ(X, Y )2 |X]] − EX [(EY [Φ(X, Y )|X])2 ] (2.2)
£ ¤
= EXY Φ(X, Y )2 − EX [(EY [Φ(X, Y )|X])2 ] (2.3)

onde a segunda igualdade segue da aplicação da lei das expectativas iteradas no primeiro
termo.
Note que EY [Φ(X, Y )|X] nada mais é que uma função da variável aletória X. Usando a
definição de variância, sabemos que

V arX (EY [Φ(X, Y )|X]) = EX [(EY [Φ(X, Y )|X])2 ] − (EX [EY [Φ(X, Y )|X]])2 (2.4)

= EX [(EY [Φ(X, Y )|X])2 ] − (EXY [Φ(X, Y )])2 (2.5)

onde a segunda igualdade segue da aplicação da lei das expectativas iteradas no segundo
termo.
Somando (1.4) e (1.5),

EX (V arY (Φ(X, Y )|X)) + V arX (EY [Φ(X, Y )|X])


£ ¤
= EXY Φ(X, Y )2 − EX [(EY [Φ(X, Y )|X])2 ] + EX [(EY [Φ(X, Y )|X])2 ] − (EXY [Φ(X, Y )])2

= EXY [Φ(X, Y )2 ] − (EXY [Φ(X, Y )])2 == V arXY [Φ(X, Y )]

Colorário A variância de Y pode ser decomposta como:

V arY (Y ) = EX [V arY (Y ) |X] + V arX [EY [Y |X]].

Prova Faça Φ(X, Y ) = Y. ¤


2.4. VARIÂNCIA CONDICIONAL 53

Exemplo Suponha que estejamos interessados em calcular a desigualdade salarial. Um pos-


sível momento a ser olhado é a variância.1 A lei de decomposição da variância diz que podemos
fazer em duas etapas. Primeiro, vemos qual á a variância do salário para cada ano de escolar-
iedade. Aí calculamos a média desta variâncias, que é o termo.ES [V arW (W ) |S]. Mas há uma
segunda fonte de variação, que vem do fato de que, para cada nível de educação S, a média do
salário pode ser diferente. Este é o segundo termo V arS [EW [W |S]]. Gráficos sempre ajudam.

Figura 14

Agora note a diferença da variação de W quando o segundo termo é igual a zero, i.e.
V arS [EW [W |S]].

1
Há outras características da distribuição que são normalmente estudadas, como o famoso índice de Gini.
54 CAPÍTULO 2. MOMENTOS

Figura 15

2.5 Previsão

2.5.1 Melhor Previsor

Vimos anteriormente que fixado uma variável aleatória X, o melhor previsor de X quando
minimizamos a esperança do erro quadrático de previsão é a sua esperança. Suponha agora
que um pesquisador esteja interessado em estudar um vetor aleatório (X, Y ). Ele observa o
comportamento de X e deseja fazer previsões sobre a realização de Y . Seja h(x) a função que
descreve a regra de "chute"para Y dado os valores de X observados. Define-se erro quadrático
de previsão como (y − h(x))2 . Qual é o melhor previsor de Y dado X (h(x)), sob o critério de
minimização do erro quadrático médio de previsão?

min EXY [(Y − h(X))2 ] ≡ min EXY [(Y − EY [Y |X] + EY [Y |X] − h(X))2 ]
h(X) h(X)

= min EXY [(Y − EY [Y |X])2 ] + 2EXY [(Y − EY [Y |X])(EY [Y |X] − h(X))]


h(X)

+EXY [(EY [Y |X] − h(X))2 ]

Note que o primeiro termo da função objetivo acima não depende de h(X). Portanto,
podemos reescrever o programa como
2.5. PREVISÃO 55

min 2EXY [(Y − EY [Y |X])(EY [Y |X] − h(X))] + EXY [(EY [Y |X] − h(X))2 ]
h(X)

= min 2[EXY [Y ] − EXY [EY [Y |X]]]EXY (EY [Y |X] − h(X)) + EXY [(EY [Y |X] − h(X))2 ]
h(X)

= min 2[EXY [Y ] − EXY [Y ]]EXY (EY [Y |X] − h(X)) + EXY [(EY [Y |X] − h(X))2 ]
h(X)

= min EXY [(EY [Y |X] − h(X))2 ]


h(X)

A função objetivo é não negativa e atinge o valor zero somente se h(X) = EY [Y |X].
Portanto,

EY [Y |X] = arg min EXY [(Y − h(X))2 ],


h(X)

ou seja, a esperança condicional de Y dado X é o melhor previsor de Y (sob o critério


de minimização do erro quadrático médio).
A partir deste fato, definimos o erro quadrático médio de previsão (EQMP) como

EXY [(Y − EY [Y |X])2 ]

Deixamos para o leito provar que o erro quadrático médio de previsão é igual a EY [Y 2 ] −
EX [EY [Y |X]2 ]. (Dica: utilize a lei da decomposição da variância e a lei das expectativas
iteradas)

2.5.2 Melhor Previsor Linear (BLP)

Suponha agora que queremos encontrar o melhor previsor de Y dado X, ainda sob o critério de
minimização do erro quadrático médio de previsão, mas nos restringimos a previsores lineares.
Nosso problema passa a ser

min E[(Y − h(X))2 ]


h(X)
s.a h(X) = α + βX

Este programa equivale a

min E[(Y − α − βX)2 ]


α,β

que tem como condições de primeira ordem:


56 CAPÍTULO 2. MOMENTOS

−2E[(Y − α∗ − β ∗ X)] = 0

−2βE[(Y − α∗ − β ∗ X)X] = 0

É fácil verificar, resolvendo o sistema acima, que

Cov(X, Y )
β∗ =
V ar(X)
α∗ = E[Y ] − β ∗ E[X].

Como trata-se de um programa convexo, as condições de primeira ordem são necessárias e


suficientes para o ótimo.
O valor previsto de Y , denotado, Ŷ , é dado por Ŷ = α∗ + β ∗ X. O resíduo (ou erro) de
previsão é

U = Y − Ŷ .

O resíduo assim definido tem média 0, como é demonstrado a seguir.

E[U ] = E[Y ] − E[α∗ + β ∗ X]

= E[Y ] − α∗ − β ∗ E[X]

= E[Y ] − E[Y ] + β ∗ E[X] − β ∗ E[X]

= 0.

Além disso, uma propriedade importante de Ŷ é que ele é não correlacionado com o resíduo.

Cov(Ŷ , U ) = Cov(α∗ + β ∗ X, U )

= β ∗ Cov(X, U )

= β ∗ (E[XU ] − E[X]E[U])

Perceba que EXU [XU ] = 0 por construção e que E[X]E[U ] = 0, pois o resíduo tem
esperança nula. Portanto,

Cov(Ŷ , U ) = 0.

Com este resultado, podemos calcular a variância do resíduo.


2.5. PREVISÃO 57

V ar[Y ] = V ar[Ŷ + U ]

= V ar[Ŷ ] + V ar[U ] + 2Cov(Ŷ , U )

= V ar[Ŷ ] + V ar[U ] ⇒

V ar[U ] = V ar[Y ] − V ar[Ŷ ]

= V ar[Y ] − β ∗2 V ar[X]
Cov(X, Y )2
= V ar[Y ] −
V ar[X]
Cov(X, Y )2
= V ar[Y ] − V ar[Y ]
V ar[X]V ar[Y ]
= V ar[Y ] − ρ2 V ar[Y ]

= (1 − ρ2 )V ar[Y ].
58 CAPÍTULO 2. MOMENTOS
Capítulo 3

Amostras Aleatórias

Definição 3.0.1 (Amostra Aleatória) As variáveis aleatórias X1 , . . . , Xn são chamadas de


amostras aleatórias de tamanho n da população f (x) se:

1. X1 , . . . , Xn são mutualmente independente;

2. Se a distribuição de Xi é a mesma f para todo i ∈ {1, . . . , n}.

Se 1 e 2 são satisfeitos, diz-se que X1 , . . . , Xn são (i)independentemente (i)identicamente


(d)distribuídas (iid).

Exemplos Considere o experimento de sortear bolas numeradas de 1 a 6 de uma urna sem


reposição. Quando retiramos uma amostra de tamanho maior que 1, não temos uma amostra
aleatória, pois a probabilidade de retirarmos uma determinada bola é afetada pelos resultados
anteriores. Quando a amostra é com reposição, a amostra é aleatória.
Para análises da série do PIB, a amostragem aleatória não é uma boa suposição, pois é
razoável pensar que o PIB de um ano pode dizer alguma coisa sobre o PIB futuro. Por exemplo,
o fato de que o PIB foi alto num ano pode significar que houve um choque tecnológico o que,
por sua vez, implica que aumenta a chance de ele ser elevado este ano. Foi violado o primeiro
i, independência.
Ao estudar a série de rendimentos do trabalho de mulheres, a amostragem aleatória tam-
bém não é uma boa suposição devido ao problema de auto-seleção na participação no mercado
de trabalho. Por razões socio-economico-culturais é concebível um mundo no qual os homens
e parte das mulheres (mães solteiras, digamos) tenham que trabalhar no sentido de ofertar
seu tempo no mercado de trabalho. O restante das mulheres ou ofertam trabalho no mer-
cado ou domesticamente (nesse caso, “não trabalhariam”, entre várias aspas). A decisão de

59
60 CAPÍTULO 3. AMOSTRAS ALEATÓRIAS

trabalhar destas mulheres depende de seu custo de oportunidade (salário que ganhariam se
“trabalhasse”) contra custo de adquirir os bens domésticos (lavagem de roupa, comida, etc) no
mercado (lavanderia, restaurante,etc). Dentre esse grupo de mulheres, somente aquelas com
alta habilidade (ou com muita motivação) vão ir ao mercado de trabalho. As observações das
mulheres do primeiro grupo não são distribuídas da mesma forma que as observações vindas do
segundo grupo. Em particular, o pesquisador encentrará que as mães solteiras (e os homens)
são muito menos competentes, esforçadas ou habilidosas que as mulheres casadas, quando na
realidade não são. Foi violado o segundo i, retiradas das mesma distribuição (observações
identicamente distribuídas)..

Definição 3.0.2 (Estatística e Distribuição Amostral) Seja X1 , . . . , Xn uma amostra aleatória


de tamanho n de uma dada população e seja T (X1 , . . . , Xn ) uma função cujo domínio inclui o
espaço amostral do vetor (X1 , . . . , Xn ). Então a variável ou vetor aleatório Y = T (X1 , . . . , Xn )
é chamada de estatística. A distribuição de Y é chamada de distribuição amostral de Y .

O exemplo mais trivial de estatística é a média amostral. Outros exemplos são a variância
amostral, a observação de menor valor, a obsevação de maior valor, mediana etc.

Pn Pn
Teorema 3.0.1 mina i=1 (xi − a)2 = i=1 (xi − x)2 .

Prova
n
X n
X
2
min (xi − a) ≡ min (xi − x + x − a)2
a a
i=1 i=1
n
X n
X n
X
2
≡ min (xi − x) + 2 (xi − x)(x − a) + (x − a)2
a
i=1 i=1 i=1
n
X n
X
≡ min 2(x − a) (xi − x) + (x − a)2 .
a
i=1 i=1

Note que

n
X n
X Pn
xi
(xi − x) = xi − n i=1 = 0.
n
i=1 i=1

Logo,

n
X n
X
min (xi − a)2 ≡ min (x − a)2 .
a a
i=1 i=1
3.1. DISTRIBUIÇÕES AMOSTRAIS 61

O que resulta em

n
X
x = arg min (xi − a)2 .
a
i=1
¤

Pn Pn
Colorário i=1 (xi − x)2 = 2
i=1 xi − nx2 .

Prova Para qualquer a ∈ R, vale que

n
X n
X
(xi − x)2 = (xi − a + a − x)2
i=1 i=1
n
X n
X n
X
= (xi − a)2 + 2 (xi − a)(x − a) + (a − x)2
i=1 i=1 i=1
n
X n
X
2
= (xi − a) − (a − x)2
i=1 i=1

Faça a = 0 e obtenha o resultado. ¤

3.1 Distribuições Amostrais

Seja X1 , . . . , Xn uma amostra aleatória e suponha que E[g(Xi )] e V ar[g(Xi )] existem.

1 Pn
Lema Seja T = n i=1 g(Xi ) uma estatística da amostra.

E[T ] = E[g(Xi )]
V ar[g(Xi )]
V ar[T ] =
n

Prova
Xn
E[T ] = E[ g(Xi )]
i=1
n
X
= E[g(Xi )]
i=1
= E[g(Xi )]
62 CAPÍTULO 3. AMOSTRAS ALEATÓRIAS

n
1X
V ar[T ] = V ar[ g(Xi )]
n
i=1
⎛ ⎞
Xn n X
X
1 ⎝
= V ar[g(Xi )] + Cov(g(Xi ), g(Xj )⎠
n2
i=1 i=1 j6=i

Como a amostra é iid, Cov(g(Xi ), g(Xj ) = 0 ∀ i, j ∈ {1, . . . , n}. Logo,

V ar[g(Xi )]
V ar[T ] =
n
¤

Teorema 3.1.1 Considere uma amostra aleatória retirada de uma população com média μ e
variância σ 2 . As seguintes afirmações são verdadeiras:

1. E[X] = μ.

σ2
2. V ar[X] = n.
Pn 2
i=1 (xi −x)
3. Seja S 2 = (n−1) . Então, E[S 2 ] = σ 2 .

Prova

1.
n
1X
E[X] = E[ xi ]
n
i=1
n
1X
= E[Xi ]
n
i=1

=
n
= μ.

2.
n
" #
1X
V ar[X] = V ar xi
n
i=1
" n #
1 X
= V ar xi
n2
i=1
nσ 2
=
n2
σ2
= .
n
3.1. DISTRIBUIÇÕES AMOSTRAIS 63

3.

Xn
2 1
E[S ] = E[ x2i − nx2 ]
(n − 1)
i=1
1
= (n(σ 2 + μ2 ) − nE[x2 ]).
(n − 1)

Note que,

" n #
2 1 X
2
E[X ] = E ( Xi )
n2
i=1
n
X n X
X
= E[Xi2 ] + E[Xi Xj ]
i=1 i=1 j6=i
1 ¡ ¢
= 2
n(σ 2 + μ2 ) + n(n − 1)μ2
¡n 2 ¢
σ + μ2 ) + (n − 1)μ2
= .
n

Portanto,

1 ¡ ¢
E[S 2 ] = (n(σ 2 + μ2 ) − (σ 2 + μ) + (n − 1)μ2 )
(n − 1)
(n − 1) 2
= σ
(n − 1)
= σ2 .

3.1.1 A Distribuição Normal

Teorema 3.1.2 Ao retirar uma amostra aleatória de uma distribuição normal com média μ
e variância σ 2 ,

³ 2
´
1. X ∼ N μ, σn .

2. X e S 2 são independentes.

Prova
64 CAPÍTULO 3. AMOSTRAS ALEATÓRIAS

1. Começaremos a prova com um lema:

Lema Se X e Y tem distribuição normal bivariada, isto é, X, Y ∼ N BV (μX , μY , σ 2X , σ 2Y , ρ),


cuja densidade é dada por:

( "µ ¶ µ ¶ #)
1 1 x − μX 2 y − μY 2 (y − μY )(x − μX )
f (x, y) = p exp − + − 2ρ
2πσ X σ Y 1 − ρ2 2(1 − ρ2 ) σX σY σY σX

valem a seguintes afirmações,

(a) X ∼ N (μX , σ 2X ),

(b) Y |X = x ∼ N (M P L(Y |X = x), σ 2Y (1 − ρ2 )), onde M P L(Y |X = x) é o melhor


previsor linear de Y dado X.

(c) Cov(X, Y ) = ρσ X σ Y .

(d) Se ρ = 0, então X e Y são independentes.

Prova Defina

½ µ ¶¾
1 1 σY
f1 (x, y) = √ p exp − 2 y − μY + ρ (x − μX )
2πσ Y 1 − ρ2 2σ Y (1 − ρ2 ) σX

½ ¾
1 1 2
f2 (x) = √ exp − 2 (x − μX )
2πσ X 2σ X

Primeiramente, note que, fixado x, f2 é a densidade de uma normal com média μY +


ρ σσX
Y
(x − μX ) e variância σ 2Y (1 − ρ2 ). Além disso, f1 (x, y)f2 (x) = f (x, y).

Para provar (a), utilizamos a definição de densidade marginal,

Z +∞
f (x) = f (x, y)dy
−∞
Z +∞
= f2 (x)f1 (x, y)dy
−∞
Z +∞
= f2 (x) f1 (x, y)dy
−∞
3.1. DISTRIBUIÇÕES AMOSTRAIS 65

R +∞
Como f1 (x, y) é uma densidade, −∞ f1 (x, y)dy = 1. Portanto, f (x) = f2 (x), que
é justamente a densidade de uma distribuição normal com média μX e variância σ 2X ,
provando (a).

Agora, utilizando a definição de distribuição condicional,

f (y, x) f1 (y, x)f2 (x)


f (y|x) = = = f1 (y, x),
f (x) f2 (x)

o que prova (b).

Além disso,

E[XY ] = EX [EY [XY |X]]

= EX [XEY [Y |X]]
σY
= EX [X(μy + ρ (x − μX ))]
σX
σY σY 2
= μX μY + ρ E[X 2 ] − ρ μ
σX σX X
= μX μY + ρσ Y σ X .

Assim,

Cov(X, Y ) = E[XY ] − E[X]E[Y ]

= μX μY + ρσ Y σ X − μX μY

= ρσ Y σ X ,

provando (c).

Deixamos para o leitor provar (d) (Dica: em f (x, y) definido acima, faça ρ = 0 e verifique
que é possível escrevê-la como um produto de uma função de x e outra de y que são
densidades de distribuições normais). ¤

Voltemos para a prova de que se X, Y são bivariadas normais, então

Z = αX + Y ∼ N (αμX + μY , α2 σ 2X + σ 2X + 2αCov(X, Y )).

Primeiramente,
66 CAPÍTULO 3. AMOSTRAS ALEATÓRIAS

P rob[Z < z] = P rob[αX + Y < z]

= P rob[Y < z − αX]


Z +∞ Z z−αx
= f (x, y)dydx
−∞ −∞
Z +∞ ∙Z z−αx ¸
= f (x, y)dy dx
−∞ −∞
Z +∞ ∙Z z−αx ¸
= f (y|x)dy f (x) dx
−∞ −∞

Derivando a expressão acima em relação a z encontramos,

Z +∞
g(z) = f (z − αx|x)f (x) dx
−∞
Z ( µ ¶2 )
+∞
1 1 σY
= √ p exp − 2 z − αx − (μy + ρ (x − μX )) f (x)dx.
+∞ 2πσ Y 1 − ρ2 2σ Y (1 − ρ2 ) σX

e agora realizando algumas manipulações,

Z +∞
1
g(z) = √ p (3.1)
+∞ 2πσ Y 1 − ρ2
( µ µ ¶¶2 )
1 σY
= exp − 2 z − αμX − μY − (x − μX ) α + ρ f (x)dx
2σ Y (1 − ρ2 ) σX

Da variância de Z, dada por

σ 2Z = α2 σ 2X + σ 2Y + 2αρσ X σ Y ,

podemos calcular,

Cov(X, Y )
ρZX =
σZ σX
ασ 2X + ρσ X σ Y
=
σX σZ
ασ X + ρσ Y
=
σZ

Portanto,
3.1. DISTRIBUIÇÕES AMOSTRAIS 67

à µ ¶2 !
ασ X + ρσ Y
σ 2Z (1 − ρ2XZ ) = (α2 σ 2X + σ 2Y + 2αρσ X σ Y ) 1 − (3.2)
σX
= σ 2Y (1 − ρ2 ),

σZ ασ X + ρσ Y σ Z
ρXZ = (3.3)
σX σZ σX
σY
= α+ρ .
σX

Agora, defina

μZ = αμX + μY . (3.4)

Usando (3.2),(3.3) e (3.4) em (3.1) temos

Z +∞
1
g(z) = √ q
+∞ 2πσ Z 1 − ρ2ZX
( µ µ ¶¶2 )
1 σY
exp − 2 z − μZ − (x − μX ) α + ρ f (x)dx.
2σ Z (1 − ρ2ZX ) σX

A expressão acima é justamente a densidade de uma normal bivariada de Z e X.porque g (x)


é a densidade condicional de Z dando X e f (x) é a densidade (normal) de X. Portanto,
por (a), Z ∼ N (μZ , σ 2Z ).

2. Suponha, sem perda de generalidade, que a distribuição normal tem média zero e var-
iância 1. O primeiro passo é escrever S 2 como a soma de (n − 1) desvios:

n
1 X
S 2
= (xi − x)2
n−1
i=1
" n
#
1 X
= (x1 − x)2 + (xi − x)2 .
n−1
i=2

Perceba que
68 CAPÍTULO 3. AMOSTRAS ALEATÓRIAS

n
X n
X
(xi − x) = −(n − 1)x + xi + x1 − x1
i=2 i=2
= x − x1 .

Logo,

⎡Ã !2 ⎤
Xn n
X
1 ⎣
S2 = (xi − x) + (xi − x)2 ⎦ .
n−1
i=2 i=2

Portanto, S 2 = f (X2 − X, . . . , Xn − X). Como X1 , . . . , Xn é uma amostra aleatória,


X1 é par independente de X2 , . . . , Xn , implicando que X1 é independente de qualquer
função de X2 , . . . , Xn . Defina Y1 = X, Y2 = X2 − X,. . ., Yn = Xn − X. Podemos escrever
S 2 = f (Y1 , Y2 , . . . , Yn ) e aplicar o método jacobiano para encontrar a distribuição de S 2
(verifique que o jacobiano, neste caso, é igual a n).

A distribuição de X1 , . . . , Xn é dada por:

Yn ½ ¾
2 1 1 2
f (x1 , . . . , xn |μ, σ ) = √ exp − (xi ) .
2π 2
i=1

E note que

Y1 − (Y2 + · · · + Yn ) = X − [(X2 − X) + · · · + (Xn − X)]

= X − [X2 + · · · + Xn − (n − 1)X]

= X − [X1 + X2 + · · · + Xn − X1 − (n − 1)X]

= X + X1 − X

= X1

Aplicando o método jacobiano

f (y1 , . . . , yn ; μ, σ 2 ) = f (x1 (y1 , . . . , yn ), . . . , xn (y1 , . . . , yn ))


µ ¶n ( n
) ( n
)
1 1 X 1X
2 2
= √ exp − (y1 − yi ) exp − (y1 + yi ) n
2π 2 2
i=2 i=2
µ ¶n
1
= √ h(y1 )g(y2 , . . . , yn ).

3.1. DISTRIBUIÇÕES AMOSTRAIS 69

Como o suporte de Yi é paralelo aos eixos para qualquer i ∈ {1, . . . , n} e conseguimos sep-
arar a densidade em uma função de y1 e outra de Y2 , . . . , Yn , Y1 = X e S 2 = f (Y2 , . . . , Yn )
são independentes.

¤
70 CAPÍTULO 3. AMOSTRAS ALEATÓRIAS
Capítulo 4

Teoria Assintótica

Até agora, trabalhamos com uma amostra aleatória finita. Vimos que se X é normal, a
esperança (X) de uma amostra aleatória e sua variância (S 2 ) também possuem distribuições
normais. A distribuição normal é bastante conveniente pois ela é definida apenas pelos seus
dois primeiros momentos. Todavia, se X não é normal, nada podemos afirmar, a princípio,
sobre a distribuição de X e S 2 . Felizmente, para o caso de amostras aleatórias, podemos
fazer afirmações sobre as distribuições destas estatísicas quando n tende ao infinito, isto é, é
possível desenvolver uma teoria assintótica para o caso de amostras iid. O primeiro passo
neste sentido é estudar os teoremas de convergência e sua principais implicações.

Definição 4.0.1 (Convergência em Probabilidade) Uma sequência de variáveis aleatórias


{Xn }+∞
n=1 converge em probabilidade para a variável aleatória X se, para todo > 0,

lim Pr[|Xn − X| < ] = 1.


n→+∞

Outra notação: p limn→+∞ Xn = X.

Teorema 4.0.3 (Lei Fraca dos Grandes Números) Seja {Xi }ni=1 uma amostra aleatória
P
tal que E[xi ] = μ < +∞ e V ar[Xi ] = σ 2 < +∞. Defina X n = n1 ni=1 Xi . Então,

p lim X = μ.

Prova Para qualquer > 0,

Pr[|X n − μ| ≥ ] = Pr[(X n − μ)2 ≥ ]

Pela desigualdade de Chebychev,

71
72 CAPÍTULO 4. TEORIA ASSINTÓTICA

V ar(X n )
Pr[(X n − μ)2 ] ≤ 2

σ2
=
n2
σ2
Como limn→+∞ n 2
= 0, p lim X = μ. ¤

Observação A lei dos grandes números diz algo muito intuitivo. Sob condições razoavelmente
fracas - que a média populacional (μ) exista e que a quantidade de ruído nos dados seja
finita -, informação infinita (n → ∞) deveria nos permitir saber exatamente qual é a média
populacional a partir de um análogo, a média amostral (X). Também diz que a média amostral
tem esta característica interessante, qual seja, que ela aproxima arbitrariamente bem a média
populacional quando a quantidade de informação tende ao infinito.

Teorema 4.0.4 (Convergência Contínua) Suponha que {Xi }ni=1 converge em probabili-
dade para X e seja h uma função contínua. Então {h(Xi )}ni=1 converge em probabilidade
para h(X).

Prova Fixe > 0. Para todo δ > 0 defina, Bδ ≡ {conjuntos dos x tais que existe y com
d(x, y) < δ mas d(h(x), h(y)) ≥ }.
Se x não pertence a Bδ e d(h(xn ), h(x)) ≥ , então d(xn , x) ≥ δ. Logo, Bδ e {d(xn , x) ≥ δ}
são disjuntos, isto é,

Bδ ∩ {d(xn .x) ≥ δ} = ∅.

Além disso, note que


{d(h(x), h(xn )) > } ⊆ Bδ ∪ {d(xn , x) ≥ δ}.
O que resulta em

Pr[d(h(Xn ), h(X)) > ] ≤ Pr[Bδ ] + Pr[d(Xn , X) ≥ δ]

Passando o limite e usando o fato de que limn→+∞ Pr[d(xn , x) ≥ δ] = 0, pois p lim X n = X,


e Bδ ↓ ∅ (por que?) → limn→+∞ [Bδ ] = 0.

lim Pr[d(h(xn ), h(x)) > ] = 0.


n→+∞

¤
73

4.0.2 Convergência em Quase Certeza

Definição 4.0.2 A sequência de variáveis aleatórias {Xi }ni=1 converge em quase certeza para
a variável aleatória X se:

Pr[ lim |Xn − X| < ] = 1


n→+∞

Exemplo Seja (Ω, A,P ) um modelo probabilístico com Ω = {ω : ω ∈ [0, 1] ⊂ R}, A = todos
os intervalos mensuráveis, e P a medida de probabilidade uniforme. Seja X (ω) = ω Defina
a sequência Xn (ω) = ω + ω n . Para qualquer ω ∈ [0, 1), limn→+∞ Xn (ω) = X(ω), mas Xn (1)
não converge para X(1). Entretanto, como Pr[X = 1] = 0, Xn converge em quase certeza para
X.

Teorema 4.0.5 Se Xn converge em quase certeza para X, então Xn converge em probabilidade


para X.

Prova Fixando > 0, defina

[
An = {ω : d(Xm (ω) , X (ω)) > }
m≥n

An é decrescente, isto é, Añ ⊆ An para todo ñ ≥ n. Como Xn converge em quase certeza


para X, An ↓ A, onde A é um conjunto tal que P rob(A) = 0.
Perceba que, fixado , existe n∗ tal que d(Xn (ω), X(ω)) < para n ≥ n∗ para quase todo
ω ∈ Ω. Defina,

Ân = {ω ∈ Ω : d(Xn (ω), X(ω)) > }.

Por construção,

Ân ⊆ An ,

o que implica

Pr[Ân ] ≤ P rob[An ] ⇒

lim Pr[Ân ] ≤ P rob[A] = 0.


n→+∞
74 CAPÍTULO 4. TEORIA ASSINTÓTICA

Logo, limn→+∞ Pr[|Xn − X| > ] = 0. ¤

Por que a convergência em quase certeza é mais forte que convergência em probabilidade?
A primeira se refere a uma sequência de conjuntos, e ao “tamanho” (dado pela probabilidade)
destes conjuntos quando n → ∞. A última se refere a uma sequência de números (Pr (·)). Se
não ficou claro o próximo exemplo deveria ajudar

Exemplo Seja Ω = [0, 1], e a medida P a uniforme. Defina X (ω) = ω, e a seguinte sequência
de variáveis aleatórias:

X1 (ω) = ω + 1 (ω ∈ [0, 1])


µ ∙ ¸¶ µ ∙ ¸¶
1 1
X2 (ω) = ω + 1 ω ∈ 0, , X3 (ω) = ω + 1 ω ∈ ,1
2 2
µ ∙ ¸¶ µ ∙ ¸¶ µ ∙ ¸¶
1 1 2 2
X4 (ω) = ω + 1 ω ∈ 0, , X5 (ω) = ω + 1 ω ∈ , , X6 (ω) = ω + 1 ω ∈ ,1
3 3 3 3
..
.

Primeiro, veja que Pr (|Xn − X| < ε) = Pr (ω : |Xn (ω) − X (ω)| < ε) = 0 porque os ωs
que fazem com que |Xn (ω) − X (ω)| < ε seja verdadeiro são aqueles nos intervalos [f (n) , 1],
com f (·) sendo uma função de estritamente crescente de n e limn→∞ f (n) = 1. Xn (ω), no
entanto não converge em quase certeza para X (ω). Fixe um ω, por exemplo 34 . A sequência
© ¡ 3 ¢ªn
Xi 4 i=1 é:
µ ¶
3 3 7
X1 = +1 =
4 4 4
µ ¶
3 3 3
X2 = +0 =
4 4 4
µ ¶
3 3 7
X3 = +1 =
4 4 4
µ ¶
3 3 3
X4 = +0 =
4 4 4
µ ¶
3 3 3
X5 = +0 =
4 4 4
µ ¶
3 3 7
X6 = +1 =
4 4 4
..
.

3 7 7
Ou seja, infinitas repetições de 4 e 4. É verdade que 4 ocorre que modo cada vez mas
infrequente, mas ainda assim infinitas vezes. Portanto, @ ω ∈ [0, 1] tal que Xn (ω) convirga
para X (ω). Logo,
³ ´
Pr ω : lim |Xn (ω) − X (ω)| < ε = 0
n→∞
75

Teorema 4.0.6 (Lei Forte dos Grandes Números) Seja {Xi }ni=1 uma amostra aleatória
P
tal que E[Xi ] = μ e V ar[Xi ] = σ 2 < 0 para todo i ∈ {1, . . . , n}. Defina X n = n1 ni=1 Xi .
Então, a sequência {X n } converge em quase certeza para μ.

Definição 4.0.3 (Convergência em Média Quadrática) Uma sequência {Xn } converge


h i
em média quadrática para outra variável aleatória X se limn→∞ E (Xn − X)2 = 0

Definição 4.0.4 (Convergência em Distribuição) Uma sequência de variáveis aleatórias


{Xn }ni=1 converge em distribuição para a variável aleatória X se limn→+∞ FXn (x) = FX (x)
em todo de continuidade de FX (x).

Teorema 4.0.7 Se uma sequência de variáveis aleatórias converge em probabilidade, então


converge em distribuição.

Exemplo Seja {Xi }ni=1 uma amostra aleatória tal que Xi ∼ U [0, θ]. Queremos testar a
hipótese H0 : θ = 1 versus H1 : θ 6= 1. Note que se observarmos algum Xi > 1 H0 certamente
não é verdadeira. Mais ainda, mostraremos a seguir que a estatística de ordem n converge em
probabilidade para θ.

Pr[|X(n) − θ| > ] = Pr[X(n) < θ − ]

= Pr[ max Xi < θ − ]


1≤i≤n
n
Y
= Pr[Xi < θ − ]
i=1
µ ¶n
θ−
=
θ
¡ θ− ¢n
Como limn→+∞ θ = 0, X(n) converge em probabilidade para θ.
Podemos ir além deste resultado e estabelecer o erro de aproximação que cometemos ao
usar X(n) como critério de avaliação de θ. Fixado , exite t tal que = nt . Assim, supondo que
H0 é verdadeira,

∙ ¸ µ ¶
t t n
Pr |X(n) − 1| > = 1−
n n
¡ ¢n
Valendo-se do limite fundamental limn→+∞ 1 − nt = e−t ,
76 CAPÍTULO 4. TEORIA ASSINTÓTICA

Pr[n(1 − X(n) ) ≥ t] ' e−t ⇒

Pr[n(1 − X(n) ) < t] ' 1 − e−t para n suficientemente grande

Suponha que o nível de significância de nosso teste seja 5%, o que resulta em

1 − e−t = 0, 05 ⇒

e−t = 0, 95 ⇒

−t = ln 0, 95 ⇒

t = − ln 0, 95.

Dada uma amostra de tamanho n, observado X(n) e calculado t de acordo com o nível de
significância do teste, rejeitamos H0 caso

Pr[n(1 − X(n) ) < t] > 1 − e−t .

4.0.3 Teorema do Limite Central


p d
Teorema 4.0.8 (Slutsky) Se Xn −→ α e Yn −→ Y , valem as seguintes afirmações,

d
1. Xn + Yn −→ α + Y.

d
2. Xn Yn −→ αY .

Yn d Y
3. Xn −→ α (se α 6= 0).

⎞ ⎛ ⎛ ⎞
Y1n Y1
⎜ ⎟ ⎜ ⎟
p ⎜ . ⎟ d ⎜ .. ⎟
Teorema 4.0.9 (Slutsky Generalizado) Se Xn −→ α e Yn = ⎜ .. ⎟ −→ ⎜ . ⎟=
⎝ ⎠ ⎝ ⎠
YT n YT
⎛ ⎞ ⎛ ⎞
Xn d ⎝ α ⎠
Y, então ⎝ ⎠ −→
Yn Y

A convergência no teorema de Slutsky generalizado é conjunta.


77

Teorema 4.0.10 (Teorema do Limite Central de Lindberg-Lévy) Seja {Xi }ni=1 uma amostra
aleatória tal que E[Xi ] = μ e V ar[Xi ] = σ 2 < +∞ para todo i ∈ {1, . . . , n}. Então,

(X n − μ) d
Zn = q −→ N (0, 1).
V ar(X n )

Exemplo Aproximação de uma soma de Bernoullis por uma Normal


P
Seja X ∼ B(n, p). Então, X = ni=1 Yi onde


⎨ 1, se Xi = 1;
Yi =
⎩ 0, caso contrário.

Assim,

n
X 1X
= Yi = Y
n n
i=1
Sendo {Yi } é uma amostra aleatória com primeiro momento definido e variância finita,
pode-se aplicar o teorema de limite central de Lindberg-Lévy.

¡X ¢
− E[Yi ]
n d
q ¡ ¢ −→ N (0, 1) ⇒
V ar Y
¡X ¢
√ n −p d
np −→ N (0, 1).
(1 − p)p
p d p
Como (1 − p)p −→ (1 − p)p, aplicando Slutsky,

¡X ¢
p √ − p LD p
n
(1 − p)p n p = (1 − p)pZ
(1 − p)p
LD
Onde Z ∼ N (0, 1) e = significa que as duas expressões tem a mesma distribuição assin-
tótica.
Agora usamos aproximações,

µ ¶
1 √ X A 1 p
√ n −p ∼ √ (1 − p)pZ ⇒
n n n
µ ¶
X A 1 p
∼ √ (1 − p)pZ + p ⇒
n n
µ ¶
A 1 p
X ∼ n √ (1 − p)pZ + p
n
78 CAPÍTULO 4. TEORIA ASSINTÓTICA
³ p ´
É direto verificar que n √1 (1 − p) pZ + p ∼ N (np, np(1 − p)) .
n

Portanto,

A
X ∼ N (np, np(1 − p)) ,
A
sendo ∼ um símbolo que denota distribuição assintótica.

Exemplo Sejam {Xi }ni=1 e {Yi }ni=1 duas amostras independentes, sendo que Xi ⊥Yj para
todo i, j ∈ {1, . . . , n}. Além disso, E[Xi ] = μX , E[Yi ] = μY , V ar[Xi ] = σ 2X < +∞ e V ar[Yi ] =
Xn
σ 2Y < +∞. Defina Tn = Yn
. Qual é a distribuição assintótica de Tn ?
p p
Pelo teorema do limite central, X n −→ μX e Y n −→ μY . Por Slutsky,

X n p μX
−→ .
Yn μY
Agora, parta de

µ ¶ µ ¶
√ X μ √ XμY − Y μX
n − X = n
Y μY Y μY
LD 1 √ ¡ ¢
= 2 n XμY − Y μX
μY

Trabalhando com o numerador da expressão acima,

à n n
!
√ ¡ ¢ √ 1X 1X
n XμY − Y μX = n μY Xi − μX Yi
n n
i=1 i=1
µ ¶
√ 1
= n (−μX Yi + μY Xi ) .
n

Defina wi = −μX Yi + μY Xi . Note que E[wi ] = 0 e V ar[wi ] = μ2X σ 2Y + μY σ 2X .

à n
!
√ 1X √
n wi − E[wi ] = n (w − E[wi ])
n
i=1
p
V ar(wi ) √
= p n (w − E[wi ])
V ar(wi )

Pelo teorema do limite central e por Slustky

p
V ar(wi ) √ LD p
p n (w − E[wi ]) = V ar(wi )Z,
V ar(wi )
onde Z ∼ N (0, 1).
79

Assim,

µ ¶ p
√ Y μX LD V ar(wi )Z
n − = ⇒
X μ Y μ2Y
µ ¶ µ ¶
√ Y μ d (μ2 σ 2 + μ σ 2 )
n − X −→ N 0, X Y 4 Y X .
X μY μY

Exemplo Qual é a distribuição assintótica de S 2 ?

n
1X
S2 = (Xi − X)2
n
i=1
n
1X
= (Xi − μ + μ − X)2
n
i=1
n n n
1X 2 2 X 1X
= (Xi − μ) + (−X + μ) (Xi − μ) + (μ − X)2
n n n
i=1 i=1 i=1
n
1X
= (Xi − μ)2 − (X − μ)2
n
i=1

p
Pela lei fraca dos grandes números e o teorema da convergência contínua, (X − μ)2 −→ 0.
Pela lei fraca dos grandes números novamente:

p
S 2 −→ E[(Xi − μ)2 ] = σ 2 .

Claro que provavelmente precisamos de alguma condição a respeito do quarto momento...


O próximo passo é calcular a distribuição assintótica de S 2 . Começe por:

à n
!
√ √ 1X
n(S 2 − σ 2 ) = n (Xi − μ)2 − (X − μ)2 − σ 2
n
i=1
à n !
LD √ 1X 2 2
= n (Xi − μ) − σ
n
i=1

porque

√ √
n(X − μ)2 = n(X − μ)(X − μ)
LD ¡ ¢
= Y × (X − μ), onde Y ∼ N 0, σ 2
D
→0
80 CAPÍTULO 4. TEORIA ASSINTÓTICA

Defina wi = (Xi − μ)2 .


Usando os mesmos argumentos dos exemplos anteriores,

à n
!
√ 1X 2 2 LD p
n (Xi − μ) − σ = V ar[wi ]Z ⇒
n
i=1
√ D
n(S 2 − σ 2 ) → N(0, E[(Xi − μ)4 ] − E 2 [(Xi − μ)2 ]),

onde E[(Xi − μ)4 ] − E 2 [(Xi − μ)2 ] = V ar[wi ].

Exemplo Considere duas variáveis X ∼ N (exp(αβ), σ 2X ) e Y ∼ N (exp(α), σ 2Y ) e sejam{Xi , Yi }ni=1 ,


ln X
uma amostra iid com Xi ⊥ Yi ∀i. Qual é a distribuição assintótica de ln Y
?
p p
Como X −→ exp αβ e Y −→ exp α, por Slutsky e pelo teorema da convergência contínua,

ln Y p αβ
−→ = β.
ln X α
Para achar a distribuição assintótica, partimos de

√ ln Y √
n( − β) = n(g(X, Y ) − β)
ln X
Pelo teorema do valor médio,

∗ ∗ ∗ ∗
g(X, Y ) − g(E[X], E[Y ]) = g1 (X , Y )(X − E(X)) + g2 (X , Y )(Y − E(Y )),

∗ ¡ ¢ ∗ ¡ ¢
onde X ∈ I [X, E(X)] , Y ∈ I [Y , E[Y ]] , g1 é a derivada de g em relação ao primeiro
argumento e g2 é a derivada de g em relação ao segundo argumento.
Logo,
µ ¶
√ ln Y √ 1 ∗ ∗
n( − β) = n ∗ ∗ (X − E(X)) + Y ln X (Y − E(Y ))
ln X X ln Y
µ ¶
√ 1 √ ³ ∗ ∗
´
= n ∗ ∗ (X − E(X)) + n Y ln X (Y − E(Y ))
X ln Y
µ ¶
LD √ 1 √ ¡ ¢
= n (X − E(X)) + n exp(α)αβ(Y − E(Y )) (4.1)
exp(αβ)α

Sabemos que se duas variáveis tem distribuição normal e são independentes então uma
combinação linear dessas variáveis também é normal.
Assim,
81

à !
√ ln Y A 1
n( − β) ∼ N 0, σ2 + (exp(α)αβ)2 σ 2Y .
ln X 2 X
(exp(αβ ) α)

Observação E se não tivéssemos a condição Xi ⊥ Yi ∀i? Aí não poderíamos utilizar o


teorema de Slutsky generalizado porque não teríamos como garantir a convergência conjunta
(por que?). Neste caso poderíamos expandir como fizemos em um exemplo anterior. Suponha
que Cov (Xi , Yi ) = σ XY . Expandindo (4.1), temos:

µ ¶
√ 1 √ ¡ ¢
n (X − E(X)) + n exp(α)αβ(Y − E(Y ))
exp(αβ)α
à n µ ¶!
√ X Xi E [X]
= n + exp(α)αβYi − + exp(α)αβE [Y ]
exp(αβ)α exp(αβ)α
i=1
à n µ ¶!
√ X Xi 1
= n + exp(α)αβYi − + exp(α)2 αβ
exp(αβ)α α
i=1

Xi 1
Defina Wi = exp(αβ)α + exp(α)αβYi . Então, E [Wi ] = α + exp(α)2 αβ. Agora é só aplicar
o teorema central do limite de Lindberg-Lévy em:

à n !
√ X
= n Wi − E [Wi ]
i=1

4.0.4 Método Delta

O que fizemos no exemplo anterior nada mais é que a aplicação de algo conhecido como Método
Delta.

Teorema 4.0.11 (Método Delta - Caso Univariado) Seja g : R → R uma função con-
tínua em todo o suporte de X e diferenciável em μX com g0 (μX ) 6= 0. Suponha ainda
que

√ d
n(X − μx ) −→ N (0, σ 2X ).

Então,

√ d
n(g(X) − g(μx )) −→ N (0, g0(μX )2 σ 2X ).
82 CAPÍTULO 4. TEORIA ASSINTÓTICA

Prova Pelo teorema do valor médio, existe μ∗X ∈ [X, μX ], tal que

g(X) − g(μX ) = g0(μ∗X )(X − μX ) ⇒


√ √
n(g(X) − g(μX )) = g0(μ∗X ) n(X − μX ).

p p
Como X −→ μX e μ∗X ∈ [X, μX ], μ∗X −→ μX . Pelo teorema da convergência contínua,
p
g0(μX ) −→ g0(μX ). Portanto,

√ LD √
n(g(X) − g(μx )) = g 0 (μX ) n(X − μX ) ⇒
√ d
n(g(X) − g(μx )) −→ N(0, g0(μX )2 σ 2X )