Métodos Probabilísticos e Estatísticos para

Engenharias e Ciências Exatas
Marcilia Andrade Campos Leandro Chaves Rêgo
18 de Agosto de 2010
Lista de Símbolos
IN conjunto dos números naturais
Z conjunto dos números inteiros
Z
+
conjunto dos números inteiros positivos
I Q conjunto dos números racionais
IR conjunto dos números reais
I C conjunto dos números complexos
a, b, x, y números reais
x vetor real
A σ-álgebra
B σ-álgebra de Borel
Ω espaço de resultados elementares, espaço amostral
ω evento simples, resultado elementar
A, B eventos aleatórios, eventos
A
c
ou A evento complementar de A
P(A) probabilidade de A
P(A | B) probabilidade condicional de A dado B
X, Y , Z variáveis aleatórias
(X
1
, · · · , X
n
) ou X
1
, · · · , X
n
amostra aleatória simples
iid variáveis aleatórias independentes e identicamente distribuídas
f função densidade
f
X
função densidade da variável aleatória X
F função de distribuição acumulada ou função de distribuição
F
X
função de distribuição da variável aleatória X
F

X
função de distribuição do vetor aleatório

X

X vetor aleatório
∼ se distribui, a variável aleatória tem distribuição
≈ aproximadamente igual
= diferente
∅ conjunto vazio
||A|| cardinalidade, tamanho ou dimensão do conjunto A
∞ infinito
⇔ se e somente se
↑ limite de seqüência monotônica não-decrescente
↓ limite de seqüência monotônoca não-crescente
⇒ implica
i
⊆ inclusão
⊂ inclusão estrita
∩ interseção
∪ união
∧ e
∨ ou
¬ não
∈ pertence
∈ não pertence
< menor
> maior
≤ menor ou igual
≥ maior ou igual
∀ para todo ou qualquer que seja
∃ existe
≡ equivalente
: tal que
P(A), 2
A
conjunto das partes de A
| | valor absoluto
A
k
n
, (n)
k
arranjo de n elementos tomados k deles
C
k
n
ou

n
k

combinação de n elementos tomados k deles
! fatorial
ii
Conteúdo
1 Introdução à Probabilidade 1
1.1 Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1 Operações com Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Produto Cartesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3 Conjunto das Partes . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.4 Partição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.5 Função Indicadora . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Breve Histórico sobre o Estudo da Chance e da Incerteza . . . . . . . . . . . 7
1.3 Experimento Aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Espaço Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Eventos e Coleção de Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Fundamentos de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.1 Hierarquia de Conceitos Estruturais de Probabilidade . . . . . . . . . 14
1.6.2 Interpretações de Probabilidade . . . . . . . . . . . . . . . . . . . . . 15
1.7 Frequência Relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.8 Axiomas de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.8.1 Exemplos de Medidas de Probabilidade . . . . . . . . . . . . . . . . . 19
1.8.2 Propriedades de uma Medida de Probabilidade . . . . . . . . . . . . . 23
1.9 Aprendendo um pouco mais . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.10 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2 Espaços Amostrais Finitos 35
2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2 Regra da Adição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3 Regra da Multiplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4 Amostragem ou Escolhas com ou sem Reposição . . . . . . . . . . . . . . . . 37
2.5 Permutações e Arranjos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6 Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.7 Aplicações em Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.7.1 Grafos Não Direcionados . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.7.2 Grafos Direcionados . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.8 Contagem Multinomial ou Permutação com Elementos Repetidos . . . . . . 42
2.9 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
iii
3 Probabilidade Condicional. Independência 48
3.1 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4 Variáveis Aleatórias Unidimensionais e Funções 68
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2 Função de Distribuição Acumulada . . . . . . . . . . . . . . . . . . . . . . . 69
4.3 Tipos de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3.1 Variável Aleatória Discreta . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3.2 Variável Aleatória Contínua . . . . . . . . . . . . . . . . . . . . . . . 73
4.3.3 Variável Aleatória Singular . . . . . . . . . . . . . . . . . . . . . . . . 74
4.3.4 Decomposição de uma Variável Aleatória . . . . . . . . . . . . . . . 75
4.4 Funções de Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.5 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5 Vetores Aleatórios e Funções 89
5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2 Função de Distribuição Acumulada Conjunta . . . . . . . . . . . . . . . . . . 89
5.2.1 Vetor Aleatório Discreto . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.2.2 Vetor Aleatório Contínuo . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.3 Distribuições Marginais e Condicionais . . . . . . . . . . . . . . . . . . . . . 92
5.4 Independência entre Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . 95
5.5 Funções de Vetores Aleatórios . . . . . . . . . . . . . . . . . . . . . . . . . . 97
5.5.1 Distribuição de Z = X + Y . . . . . . . . . . . . . . . . . . . . . . . 98
5.5.2 Distribuição de Z = XY . . . . . . . . . . . . . . . . . . . . . . . . 100
5.5.3 Distribuição de Z =
Y
X
. . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.5.4 Jacobiano de uma Função . . . . . . . . . . . . . . . . . . . . . . . . 105
5.6 Aprendendo um pouco mais... . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.6.1 Extensão do Método Jacobiano para o Cálculo de Densidades de Fun-
ções de Vetores Aleatórios Quaisquer . . . . . . . . . . . . . . . . . . 107
5.6.2 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6 Esperança e outros Momentos 115
6.1 O Conceito de Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.2 Definição da Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.3 Esperança de Funções de Variáveis Aleatórias . . . . . . . . . . . . . . . . . 116
6.3.1 Caso Discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
6.3.2 Caso Contínuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.4 Propriedades da Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.5 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.5.1 Momentos Centrais. Variância . . . . . . . . . . . . . . . . . . . . . . 121
6.5.2 Propriedades da Variância e de outros Momentos . . . . . . . . . . . 122
6.6 A Desigualdade de Tchebychev . . . . . . . . . . . . . . . . . . . . . . . . . 124
iv
6.7 Momentos Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
6.8 Esperança Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
6.9 Aprendendo um pouco mais... . . . . . . . . . . . . . . . . . . . . . . . . . . 128
6.9.1 As integrais de Riemman-Stieltjes e de Lebesgue-Stieltjes . . . . . . . 128
6.9.2 Propriedades da Integral de Lebesgue-Stieltjes . . . . . . . . . . . . . 130
6.9.3 Definição da Esperança - Caso Geral . . . . . . . . . . . . . . . . . . 132
6.9.4 Interpretação Geométrica da Esperança . . . . . . . . . . . . . . . . . 133
6.10 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
v
Capítulo 1
Introdução à Probabilidade
1.1 Conjuntos
Definição 1.1.1: Um conjunto é uma coleção de elementos distintos
1
onde os elementos
não são ordenados.
Esta definição intuitiva de um conjunto foi dada primeiramente por Georg Cantor (1845-
1918), que criou a teoria dos conjuntos em 1895. Um conjunto pode ser especificado, listando
seus elementos dentro de chaves. Por exemplo,
A = {0, 1, 2, 3, 5, 8, 13}, B = {0, 1, 2, . . . , 1000}.
Alternativamente, um conjunto pode ser especificado por uma regra que determina seus
membros, como em:
C = {x : x é inteiro e positivo} ou D = {x : x é par}.
Como em um conjunto a ordem dos elementos não importa, tem-se que:
{1, 2, 3} = {2, 3, 1}.
Se um dado elemento faz parte de um conjunto, diz-se que ele pertence ao conjunto e
denota-se isso com símbolo ∈. Por exemplo, 2 ∈ D = {x : x é par} ou 3 ∈ E = {x :
é primo }.
Por outro lado, se um dado elemento não faz parte de um conjunto, diz-se que ele não
pertence ao conjunto e denota-se isso com o símbolo / ∈. Por exemplo, 3 / ∈ D = {x : x é par}
ou 4 / ∈ E = {x : x é primo}.
É preciso ter cuidado ao distinguir entre um elemento como 2 e o conjunto contendo
somente este elemento {2}. Enquanto, tem-se 2 ∈ F = {2, 3, 5}, {2} / ∈ F = {2, 3, 5}, pois o
conjunto contendo somente o elemento 2 não pertence à F.
1
Na Estatística é comum se falar de conjuntos incluindo o caso onde seus elementos não são distintos.
Por exemplo, o conjunto dos tempos de acesso a um banco de dados, o conjunto das notas de uma dada
disciplina, entre outros, pode ter valores iguais
1
1.1. CONJUNTOS 2
Exemplo 1.1.2: Seja G = {2, {3}}. Então, 2 ∈ G e {3} ∈ G, porém 3 / ∈ G.
O tamanho de um conjunto A, ||A||, é a quantidade de elementos que ele possui, a qual
é chamada de sua cardinalidade. A cardinalidades pode ser finita, infinita enumerável, ou
infinita não-enumerável. Um conjunto é finito quando existe uma função bijetiva cujo domí-
nio é igual a este conjunto e a imagem é o conjunto dos inteiros não-negativos menores que
um número finito; seus elementos podem ser contados, sendo possível exibir seu último ele-
mento. Um conjunto infinito enumerável tem exatamente a mesma quantidade de elementos
que os naturais, ou seja, existe uma função bijetiva cujo domínio é igual a este conjunto e
a imagem é igual ao conjunto dos naturais. Um conjunto é enumerável se ele for finito ou
infinito enumerável. Um conjunto é não-enumerável se ele não for enumerável. Por exemplo,
os seguintes conjuntos são enumeráveis:
N
n
= {0, 1, 2, . . . , n −1},
Z = {x : x é um inteiro},
Z
+
= {x : x é um inteiro positivo},
Q = {x : x é racional}.
Para notar que o conjunto dos números racionais é enumerável considere a seguinte matriz
de números racionais. (Lembrando que um número x é racional se pode ser escrito sob a
forma
p
q
, onde p e q são inteiros e q = 0.)
0/1 0/2 0/3 · · ·
ւ ւ
1/1 1/2 1/3 · · ·
ւ ւ
2/1 2/2 2/3 · · ·
ւ ւ
3/1 3/2 3/3 · · ·
ւ ւ
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Esta matriz contém todos os racionais não-negativos. Utilizando o método da diagonali-
zação, os elementos da matriz são ordenados, sem repetição, da seguinte forma:
0/1, 1/1, 1/2, 2/1, 1/3, 3/1, . . .
Definindo-se uma correspondência f onde para cada racional não-negativo r, f(r) repre-
senta a posição em que r aparece na sequência acima, tem-se que f é uma correspondência 1-1
entre os racionais não-negativos e os naturais. Por exemplo, temos que f(1/2) = 3, f(3) = 6.
Pode-se definir g no conjunto de todos os racionais tal que tal que g(r) = 2(f(r) − 1) se
r > 0, e g(r) = 2f(|r|) − 1 se r ≤ 0. Desse modo, g(r) é um natural par se r for um raci-
onal positivo, e um natural ímpar, se r for um racional não-positivo. Portanto, g(r) é uma
correspondência 1-1 entre os racionais e os naturais, o que implica que os racionais formam
um conjunto enumerável.
Campos & Rêgo
1.1. CONJUNTOS 3
Por outro lado, os conjuntos abaixo são não-enumeráveis:
IR = {x : x é um número real},
(a, b) = {x : a < x < b}, onde a < b,
[a, b] = {x : a ≤ x ≤ b}, onde a < b.
Em muitos problemas o interesse é estudar um conjunto definido de objetos. Por exemplo,
o conjunto dos números naturais; em outros, o conjuntos dos números reais; ou ainda, por
todas as peças que saem de uma linha de produção durante um período de 24h, etc. O
conjunto que contém todos os elementos objeto de estudo é chamado de conjunto universo e
é denotado por Ω. Por outro lado, o conjunto especial que não possui elementos é chamado
de conjunto vazio e é denotado por ∅. Este conjunto tem cardinalidade 0 e portanto é finito.
Por exemplo,
∅ = {} = {x : x ∈ IR e x < x} ou ∅ = (a, a).
Dois conjuntos A e B podem ser relacionados através da relação de inclusão, denotada
por A ⊆ B, e lida A é um subconjunto de B ou B contém A, quando todo elemento de A é
também elemento de B. Diz-se que A é um subconjunto próprio de B quando se tem A ⊆ B,
A = ∅, e B ⊂ A. Se A é subconjunto de B, então B é chamado um superconjunto de A.
Diz-se que A e B são iguais se e somente se A ⊆ B e B ⊆ A. Se A ⊆ B, então também
pode-se dizer que B ⊇ A.
A relação ⊆ possui as propriedades de (i) reflexividade (A ⊆ A); (ii) transitividade
(A ⊆ B, B ⊆ C → A ⊆ C); e anti-simetria (A ⊆ B, B ⊆ A → A = B). Contudo, ela não é
uma relação completa, ou seja, não é verdade que, para todos os conjuntos A e B, ou A ⊆ B,
ou B ⊆ A. Também é fácil verificar que ∅ ⊆ A e A ⊆ Ω para todo conjunto A.
1.1.1 Operações com Conjuntos
Conjuntos podem ser transformados através das seguintes operações:
(i) Complementação: A
c
= {ω ∈ Ω : ω / ∈ A}. De acordo com esta definição, para todo
ω ∈ Ω e todo conjunto A, não existe outra opção além de ω ∈ A ou ω ∈ A
c
; além disso
não pode ser verdade que ω ∈ A e ω ∈ A
c
simultaneamente.
(ii) União: A∪ B = {ω : ω ∈ A ou ω ∈ B}.
(iii) Intersecção: A∩ B = {ω : ω ∈ A e ω ∈ B}.
(iv) Diferença: A−B = A∩ B
c
= {ω : ω ∈ A e ω / ∈ B}.
Se A∩ B = ∅, então A e B não têm qualquer elemento em comum, e diz-se então que A
e B são disjuntos.
Exemplo 1.1.3: Seja Ω = {0, 1, 2, 3, 4, 5, 6, 7}, A = {0, 1, 5} e B = {1, 2, 3, 4}. Então,
A
c
= {2, 3, 4, 6, 7}, A∪ B = {0, 1, 2, 3, 4, 5}, A∩ B = {1}, A−B = {0, 5}.
Campos & Rêgo
1.1. CONJUNTOS 4
Exemplo 1.1.4: SejamA, B, C e D subconjuntos do conjunto universo Ω tal que A∪B = Ω,
C ∩ D = ∅, A ⊆ C e B ⊆ D. Prove que A = C e B = D.
Solução: Basta provar que C ⊆ A e D ⊆ B. Seja ω ∈ C, então como C ∩ D = ∅, tem-se
que ω / ∈ D. Logo, como B ⊆ D, segue que ω / ∈ B. Mas como A∪B = Ω, tem-se que ω ∈ A.
Portanto, C ⊆ A.
Para provar que D ⊆ B, seja ω ∈ D, então como C ∩ D = ∅, tem-se que ω / ∈ C. Logo,
como A ⊆ C, segue que ω / ∈ A. Mas como A∪ B = Ω, tem que ω ∈ B. Portanto, D ⊆ B.
Relações e propriedades das operações entre conjuntos incluem:
(i) Idempotência: (A
c
)
c
= A.
Prova: Suponha que ω ∈ (A
c
)
c
. Então, ω / ∈ A
c
, o que por sua vez implica que ω ∈ A,
ou seja, (A
c
)
c
⊆ A. Agora suponha que ω ∈ A, então ω / ∈ A
c
, e portanto ω ∈ (A
c
)
c
,
ou seja, A ⊆ (A
c
)
c
. Logo, (A
c
)
c
= A.
(ii) Comutatividade (Simetria): A ∪ B = B ∪ A e A∩ B = B ∩ A.
Prova: Suponha que ω ∈ A ∪ B. Então, ω ∈ A, ou ω ∈ B, o que implica que
ω ∈ B∪A, ou seja, A∪B ⊆ B∪A. Agora suponha que ω ∈ B ∪A. Então, ω ∈ B, ou
ω ∈ A, o que por sua vez implica que ω ∈ A ∪ B, ou seja, B ∪ A ⊆ A ∪ B. Portanto,
A∪ B = B ∪ A.
A prova para o caso da intersecção é análoga e deixada como Exercício.
(iii) Associatividade: A∪ (B ∪ C) = (A∪ B) ∪ C e A∩ (B ∩ C) = (A∩ B) ∩ C.
Prova: Exercício.
(iv) Distributividade: A∩(B∪C) = (A∩B) ∪(A∩C) e A∪(B∩C) = (A∪B) ∩(A∪C).
Prova: Exercício.
(v) Leis de De Morgan: (A∪ B)
c
= A
c
∩ B
c
e (A∩ B)
c
= A
c
∪ B
c
.
Prova: Suponha que ω ∈ (A ∪ B)
c
. Então, ω / ∈ (A ∪ B), o que por sua vez implica
que ω / ∈ A e ω / ∈ B. Logo, ω ∈ A
c
e ω ∈ B
c
, ou seja, ω ∈ (A
c
∩ B
c
). Então,
(A ∪ B)
c
⊆ (A
c
∩ B
c
). Agora suponha que ω ∈ (A
c
∩ B
c
). Então, ω ∈ A
c
e ω ∈ B
c
, o
que por sua vez implica que ω / ∈ A e ω / ∈ B. Logo, ω / ∈ (A∪B), ou seja, ω ∈ (A∪B)
c
.
Então, (A
c
∩ B
c
) ⊆ (A∪ b)
c
. Portanto, (A
c
∩ B
c
) = (A ∪ b)
c
.
A prova da outra Lei de De Morgan é análoga e deixada como exercício.
As Leis de De Morgan permitem que se possa expressar uniões em termos de intersecções
e complementos e intersecções em termos de uniões e complementos.
Uniões e intersecções podem ser estendendidas para coleções arbitrárias de conjuntos.
Seja I um conjunto qualquer. Este conjunto I será utilizado para indexar, ou seja, identificar
através de um único símbolo os conjuntos na coleção arbitrária de interesse e desse modo
Campos & Rêgo
1.1. CONJUNTOS 5
simplificar a notação utilizada. Por exemplo, se I = {1, 5, 7}, então ∪
i∈I
A
i
= A
1
∪ A
5
∪ A
7
;
ou, se I = N, então ∩
i∈N
A
i
= A
1
∩ A
2
∩ · · · ∩ A
n
· · · .
De modo análogo ao caso de dois conjuntos, define-se:

i∈I
A
i
= {ω ∈ Ω : ω pertence a pelo menos um dos conjuntos A
i
, onde i ∈ I, }
e

i∈I
A
i
= {ω ∈ Ω : ω pertence a todo A
i
, onde i ∈ I.}
Se I for um conjunto enuméravel, diz-se que ∪
i∈I
A
i
, respectivamente, ∩
i∈I
A
i
, é uma
união, respectivamente intersecção, enuméravel de conjuntos.
Por exemplo, se Ω = 0, 1, 2, . . ., I é o conjunto de inteiros positivos divisíveis por 3 e
N
α
= {0, 1, 2, . . . , α −1}, então

α∈I
N
α
= Ω e ∩
α∈I
N
α
= N
3
.
Exemplo 1.1.5: Se A
i
= [1, 2 +
1
i
), i ∈ IN, então ∪
i∈IN
A
i
= [1, 3) e ∩
i∈IN
= [1, 2].
1.1.2 Produto Cartesiano
Definição 1.1.6: Produto Cartesiano. O produto Cartesiano A×B de dois conjuntos
dados A e B é o conjunto de todos os pares ordenados de elementos, onde o primeiro pertence
à A e o segundo pertence à B:
A ×B = {(a, b) : a ∈ A, b ∈ B}.
Por exemplo, se A = {1, 2, 3} e B = {c, d}:
A×B = {(1, c), (1, d), (2, c), (2, d), (3, c), (3, d)}
e
B ×A = {(c, 1), (c, 2), (c, 3), (d, 1), (d, 2), (d, 3)}.
O produto cartesiano de dois conjuntos pode ser estendido para n conjuntos da seguinte
maneira: se A
1
, . . . , A
n
forem conjuntos, então,
A
1
×A
2
×. . . ×A
n
= {(a
1
, a
2
, . . . , a
n
) : a
i
∈ A
i
},
ou seja, o conjunto de todas as ênuplas ordenadas.
Um caso especial importante é o produto cartesiano de um conjunto por ele próprio, isto
é, A×A. Exemplos disso são o plano euclideano, IR×IR, e o espaço euclideano tridimensional,
representado por IR ×IR ×IR.
Campos & Rêgo
1.1. CONJUNTOS 6
1.1.3 Conjunto das Partes
Definição 1.1.7: Dado um conjunto qualquer A, pode-se definir um outro conjunto, conhe-
cido como conjuntos das partes de A, e denotado por 2
A
, cujos elementos são subconjuntos
de A.
Exemplo 1.1.8: Seja A = {1, 2, 3}, então
2
A
= {∅, A, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}}.
Pode-se provar que a cardinalidade do conjunto das partes de qualquer conjunto dado A
é maior que a cardinalidade de A.
Teorema 1.1.9: Se A é um conjunto e 2
A
é o conjunto das partes de A, não existe uma
função f : A → 2
A
que seja sobrejetiva.
Prova: Recorde que uma função g : D → I é sobrejetiva se para todo y ∈ I, existe x ∈ D
tal que g(x) = y. Suponha por contradição, que existe uma função sobrejetiva f : A → 2
A
.
Defina o conjunto, B = {x ∈ A : x / ∈ f(x)}. Como f por suposição é sobrejetiva e
B ∈ 2
A
, tem-se que existe b ∈ A tal que f(b) = B. Existem dois casos a considerar: b ∈ B
ou b ∈ B
c
. Se b ∈ B, então b / ∈ f(b). Mas como B = f(b), tem-se que b / ∈ B, absurdo. Se
b ∈ B
c
, então b ∈ f(b). Mas como B = f(b), tem-se que b ∈ B, absurdo.
1.1.4 Partição
Intuitivamente, uma partição de um conjunto universo é uma maneira de distribuir os ele-
mentos deste conjunto em uma coleção arbitrária de subconjuntos. Formalmente, tem-se a
seguinte definição:
Definição 1.1.10: Dado um conjunto universo Ω, uma partição Π = {A
α
, α ∈ I} de
Ω é uma coleção de subconjuntos de Ω (neste caso, indexados por α que toma valores no
conjunto de índices I) e satisfaz:
(i) Para todo α = β, A
α
∩ A
β
= ∅;
(ii) ∪
α∈I
A
α
= Ω.
Deste modo os conjuntos de uma partição são disjuntos par a par e cobrem todo o conjunto
universo. Portanto, cada elemento ω ∈ Ω pertence a um, e somente um, dos conjuntos A
α
de uma partição.
Exemplo 1.1.11: Se Ω = {1, 2, 3, 4}, então {A
1
, A
2
}, onde A
1
= {1, 2, 3} e A
2
= {4}, é
uma partição de Ω.
Exemplo 1.1.12: A coleção de intervalos {(n, n+1] : n ∈ Z} é uma partição dos números
reais IR.
Campos & Rêgo
1.2. BREVE HISTÓRICO SOBRE O ESTUDO DA CHANCE E DA INCERTEZA 7
1.1.5 Função Indicadora
É sempre conveniente representar um conjunto Apor uma função I
A
tendo domínio (conjunto
dos argumentos da função) Ω e contra-domínio (conjunto dos possíveis valores da função)
binário {0, 1}.
Definição 1.1.13: Função Indicadora. A função indicadora I
A
: Ω → {0, 1} de um
conjunto A é dada por
I
A
(ω) =

1, se ω ∈ A,
0, se ω / ∈ A.
É fácil observar que I

(ω) = 1, ∀ω ∈ Ω e que I

(ω) = 0, ∀ω ∈ Ω. Note que existe uma
correspondência 1-1 entre conjuntos e suas funções indicadoras:
A = B ⇔ (∀ω ∈ Ω)I
A
(ω) = I
B
(ω).
O fato que conjuntos são iguais se, e somente se, suas funções indicadoras forem idênticas
permitem explorar a aritmética de funções indicadoras:
I
A
c = 1 −I
A
,
A ⊆ B ⇔ I
A
≤ I
B
,
I
A∩B
= min(I
A
, I
B
) = I
A
I
B
,
I
A∪B
= max(I
A
, I
B
) = I
A
+ I
B
−I
A∩B
,
I
A−B
= max(I
A
−I
B
, 0) = I
A
I
B
c ,
para construir argumentos rigorosos no que se refere a relação entre conjuntos. Ou seja,
proposições sobre conjuntos são transformadas em proposições sobre funções indicadoras e
a álgebra pode ser usada para resolver perguntas menos familiares sobre conjuntos.
Exemplo 1.1.14: Utilizando funções indicadoras, verifique que A ⊆ B ⇔ B
c
⊆ A
c
.
Solução: Tem-se que
A ⊆ B ⇔ I
A
≤ I
B
⇔ 1 −I
A
≥ 1 −I
B
⇔ I
A
c ≥ I
B
c ⇔ B
c
⊆ A
c
.
1.2 Breve Histórico sobre o Estudo da Chance e da In-
certeza
Antes de começar as definições e propriedades da função probabilidade, será dado um breve
histórico a partir do século XVI.
...a era dos jogos de azar...
Campos & Rêgo
1.2. BREVE HISTÓRICO SOBRE O ESTUDO DA CHANCE E DA INCERTEZA 8
Cardano (1501-1576).
Primeiro matemático que calculou uma probabilidade corretamente. Introduziu a
idéia de combinações para calcular o cardinal do espaço amostral e do número de
eventos elementares favoráveis, de modo que o quociente entre ambos os números
desse um resultado que estivesse de acordo com a experiência.
Fermat (1601-1655), Pascal (1623-1662), Huygens (1629-1695).
Um dos primeiros problemas interessantes em probabilidade foi proposto pelo
nobre francês Chevalier de Méré. O problema é o seguinte: dois jogadores, A e
B, concordam em jogar uma série de jogos, s. Por alguma razão acidental, eles
decidem parar o jogo quando A tem ganho m jogos e B, n, sendo m ≤ s, n ≤ s e
m = n . A pergunta é: como as apostas devem ser divididas?
A solução desse problema envolveu Fermat, Pascal e Huygens.
Huygens (1629-1695).
Huygens publicou em 1657 o primeiro livro sobre Teoria da Probabilidade De
Ratiociniis in Alae Ludo (On Calculations in Game of Chance), o qual foi muito
bem aceito pelos matemáticos da época e foi a única introdução à Teoria da
Probabilidade durante 50 anos.
Ainda datam desse período os fundamentos do conceito de esperança matemática,
o teorema da adição de probabilidades e o teorema da multiplicação de probabi-
lidades.
...o começo...
James Bernoulli (1654-1705).
Publicou em 1713 Ars Conjectandi (The Art of Guessing), obra dividida em quatro
partes, onde, na última, provou o primeiro limite da Teoria da Probabilidade, A
Lei dos Grandes Números, ou Teorema de Ouro.
Pierre Simon, Marquês de Laplace (1749-1827).
Publicou em 1812 Théorie Analytique des Probabilités, no qual apresentou seus
próprios resultados e os de seus predecessores. Suas contribuições mais impor-
tantes foram a (i) aplicação de métodos probabilísticos aos erros de observações
e (ii) formulou a idéia de considerar os erros de observações como o resultado
acumulativo da adição de um grande número de erros elementares independentes.
Poisson (1781-1840), Gauss (1777-1855).
Ambos tiveram grande interesse por teoremas limite. A Gauss é creditada a
origem da Teoria dos Erros, em particular, dos Mínimos Quadrados.
...estamos chegando...
P. L. Chebyshev (1822-1894), A. A. Markov (1856-1922), A. M. Lyapunov
(1857-1918).
Campos & Rêgo
1.2. BREVE HISTÓRICO SOBRE O ESTUDO DA CHANCE E DA INCERTEZA 9
Desenvolveram métodos efetivos para provar teoremas limite para soma de variá-
veis aleatórias independentes, mas arbitrariamente distribuídas. Chebyshev foi o
primeiro a explorar com profundidade as relações entre variáveis aleatórias e suas
esperanças matemáticas.
As contribuições de Markov, relacionam-se com teoremas limite para soma de
variáveis aleatórias independentes e a criação de um novo ramo da Teoria da
Probabilidade: a teoria das variáveis aleatórias dependentes conhecidas como
Cadeias de Markov.
Uma das contribuições de Lyapunov foi o uso da função característica para provar
o teorema central do limite.
John von Neumann (1903-1957).
Ainda nessa época, von Neumann assentou sobre bases firmes a Teoria dos Jo-
gos, em 1928, contribuiu para a descoberta da Mecânica Quântica, contribuiu
para o desenvolvimento da primeira bomba atômica americana e ...inventou o
computador digital!
...a axiomatização...
Lebesgue, definiu a Teoria da Medida e Integração.
Borel (1871-1956), estabeleu a analogia entre medida de um conjunto e probabili-
dade de um evento e integral de uma função e esperança matemática.
A. N. KOLMOGOROV, publicou em 1933 Foundations of the Theory of Proba-
bility, com a axiomática que tem sido usada até hoje.
...hoje...
Atualmente, idéias recentes em Teoria da Probabilidade são (i) Probabilidade Interva-
lar, (ii) Probabilidades Imprecisas e (iii) Probabilidade sobre Domínios.
Que ferramentas usar, e como, analisar, entender, modelar as seguintes situações:
(i) análise de tempo de execução de um algoritmo:
• pior caso (worst-case);
• caso médio (average-case).
(ii) alocamento dinâmico de memória;
(iii) análise do erro de arredondamento acumulado em um algoritmo numérico;
(iv) análise de um sistema computacional servindo a um grande número de usuários.
Campos & Rêgo
1.3. EXPERIMENTO ALEATÓRIO 10
1.3 Experimento Aleatório
Um experimento é qualquer processo de observação. Em muitos experimentos de interesse,
existe um elemento de incerteza, ou chance, que não importa o quanto se saiba sobre o pas-
sado de outras performances deste experimento, não é possível predizer o seu comportamento
em futuras realizações por várias razões: impossibilidade de saber todas as causas envolvidas;
dados insuficientes sobre as suas condições iniciais; os fenômenos que o geraram podem ser
tão complexos que impossibilitam o cálculo do seu efeito combinado; ou, na verdade, existe
alguma aleatoriedade fundamental no experimento. Tais experimentos são conhecidos como
experimentos aleatórios. Salvo mencionado em contrário, este livro restringe-se à classe de
experimentos aleatórios cujo conjuntos de possíveis resultados seja conhecido
2
.
Os resultados de um experimento aleatório são caracterizados pelos seguintes componen-
tes:
(i) o conjunto de resultados possíveis: Ω;
(ii) a coleção de conjuntos de resultados de interesse: A;
(iii) um valor numérico, p, da probabilidade de ocorrência de cada um dos conjuntos de
resultados de interesse.
1.4 Espaço Amostral
O conjunto de possíveis resultados de um experimento aleatório é chamado de espaço amos-
tral. Em um dado experimento aleatório a especificação do espaço amostral deve ser tal que
este (i) liste todos os possíveis resultados do experimento sem duplicação e o (ii) faça em
um nível de detalhamento suficiente para os interesses desejados, omitindo resultados que,
embora logicamente ou fisicamente possíveis, não tenham qualquer implicação prática na
sua análise.
Por exemplo, uma única jogada de uma moeda pode ter o espaço amostral tradicional
Ω = {cara, coroa}, ou poderia se considerar que a moeda pode, fisicamente, ficar equilibrada
na borda Ω = {cara, coroa, borda}. Uma outra possibilidade seria levar em consideração as
coordenadas (x, y) do centro da moeda quando ela para após ser jogada no ar. Portanto,
muito mais se poderia dizer sobre o resultado de uma jogada de uma moeda que os simples
resultados binários tradicionais cara e coroa. Informações outras são ignoradas quando se
usa uma hipótese adicional, não mencionada, que existe uma aposta com pagamentos que
dependem apenas de qual lado da moeda cai para cima.
2
É importante ressaltar que freqüentemente são encontradas situações práticas onde não se consegue
descrever todos os possíveis resultados de um experimento. Uma maneira de contornar este problema é
assumir que um resultado possível do experimento é a não ocorrência de qualquer dos resultados descritos,
contudo, em problemas práticos, tal suposição pode acarretar em dificuldades quando se tenta elicitar ou
deduzir probabilidades.
Campos & Rêgo
1.5. EVENTOS E COLEÇÃO DE EVENTOS 11
1.5 Eventos e Coleção de Eventos
Um evento é um subconjunto do espaço amostral, ou seja, é um conjunto de resultados
possíveis do experimento aleatório. Ao se realizar um experimento aleatório, se o resultado
pertence a um dado evento A, diz-se que A ocorreu.
Definição 1.5.1: Os eventos A e B são disjuntos ou mutuamente excludentes ou mutua-
mente exclusivos se não puderem ocorrer juntos, ou, em liguagem de conjuntos, A∩ B = ∅.
A ocorrência de eventos combinados também é um evento; essas combinações podem ser
expressas através das operações de conjuntos: complementar, união, intersecção e diferença.
Exemplo 1.5.2: Sejam A, B, e C eventos em um mesmo espaço amostral Ω. Expresse os
seguintes eventos em função de A, B, e C e operações Booleanas de conjuntos.
(a) Pelo menos um deles ocorre:
A∪ B ∪ C.
(b) Exatamente um deles ocorre:
(A∩ B
c
∩ C
c
) ∪ (A
c
∩ B ∩ C
c
) ∪ (A
c
∩ B
c
∩ C).
(c) Apenas A ocorre:
(A∩ B
c
∩ C
c
).
(d) Pelo menos dois ocorrem:
(A∩ B ∩ C
c
) ∪ (A∩ B
c
∩ C) ∪ (A
c
∩ B ∩ C) ∪ (A∩ B ∩ C).
(e) No máximo dois deles ocorrem:
(A∩ B ∩ C)
c
.
(f) Nenhum deles ocorre:
(A
c
∩ B
c
∩ C
c
).
(g) Ambos A e B ocorrem, mas C não ocorre:
(A∩ B ∩ C
c
).
Embora possa-se pensar que, dado um espaço amostral, necessariamente é de interesse
analisar todos os seus subconjuntos (e isto eventualmente é verdadeiro), tem-se três razões
para esperar que o interesse seja apenas por alguns de seus subconjuntos. Primeiro, o espaço
amostral pode conter um grau de detalhamento superior ao de interesse no problema. Por
exemplo, ele pode representar uma única jogada de um dado mas o interesse é apenas em
saber se o resultado é par ou ímpar. Segundo, o objetivo é associar a cada evento A com
uma probabilidade P(A); como essas probabilidades estão baseadas em algum conhecimento
sobre a tendência de ocorrer o evento, ou no grau de crença que determinado evento ocorrerá,
Campos & Rêgo
1.6. FUNDAMENTOS DE PROBABILIDADE 12
o conhecimento sobre P pode não se estender para todos os subconjuntos de Ω. A terceira
(e técnica) razão para limitar a coleção de eventos de interesse é que condições impostas em
P pelos axiomas de Kolmogorov, que serão vistos adiante, podem não permitir que P seja
definida em todos os subconjuntos de Ω, em particular isto pode ocorrer quando Ω for não
enumerável (fato este fora do escopo deste livro).
Em probabilidade, o interesse é em uma coleção especial A de subconjuntos do espaço
amostral Ω (A é um conjunto cujos elementos também são conjuntos!) que são eventos de
interesse no que se refere ao experimento aleatório E e os quais tem-se conhecimento sobre
a sua probabilidade. A é chamado de uma σ-álgebra de eventos. O domínio de uma medida
de probabilidade é uma σ-álgebra.
Definição 1.5.3: Uma álgebra de eventos F é uma coleção de subconjuntos do espaço
amostral Ω que satisfaz:
(i) F é não vazia;
(ii) F é fechada com respeito a complementos (se A ∈ F, então A
c
∈ F);
(iii) F é fechada com respeito a uniões finitas (se A, B ∈ F, então A∪ B ∈ F).
Definição 1.5.4: Uma σ-álgebra A é uma álgebra de eventos que também é fechada com
relação a uma união enumerável de eventos,
(∀i ∈ I)A
i
∈ A ⇒ ∪
i∈I
A
i
∈ A.
Pelas Leis de De Morgan, tem-se que A também é fechada com respeito a intersecções
enumeráveis.
Exemplo 1.5.5:
(a) A menor σ-álgebra de eventos é A = {∅, Ω};
(b) A maior σ-álgebra de eventos é o conjunto das partes de Ω;
(c) Um outro exemplo:
Ω = {1, 2, 3}, A = {Ω, ∅, {2}, {1, 3}}.
1.6 Fundamentos de Probabilidade
Raciocínio probabilístico aparece em uma ampla variedade de fenômenos de chance e incer-
teza. Julgamentos probabilísticos são expressos tanto através da linguagem quanto através
de ações. Ultrapassar um carro em uma estrada com um outro vindo em direção oposta
implica em calcular distâncias, velocidades e riscos de colisão; considerando que um julga-
mento errôneo pode ter graves consequências, espera-se que esse erro seja suficientemente
pequeno. Em geral, é preciso incorporar, a vários fenômenos do dia-a-dia, o conhecimento
probabilístico que seja tanto qualitativo e expresso linguisticamente quanto quantitativo e
expresso numericamente.
De acordo com Fine (2005), o raciocínio probabilístico pode ser classificado nas seguintes
dimensões:
Campos & Rêgo
1.6. FUNDAMENTOS DE PROBABILIDADE 13
• grau de precisão – o conceito estrutural;
• o significado, ou interpretação a ser dada à probabilidade;
• estrutura matemática formal da função probabilidade dada por um conjunto de axio-
mas.
O conceito estrutural determina a precisão esperada de que probabilidade represente
fenômenos aleatórios. A interpretação proporciona a base com a qual a probabilidade deve
ser determinada e indica o que se pode aprender com ela, ou seja, o que uma afirmação
probabilística significa. O conceito estrutural e a interpretação guiam a escolha dos axiomas.
O conjunto de axiomas, contudo, pode somente capturar uma parte do que se entende da
interpretação.
A compreensão de fundamentos de probabilidade é importante, pois aplicações de teoria
da probabilidade dependem fortemente de seus fundamentos. Por exemplo, os fundamentos
influem na escolha dos métodos estatísticos a serem utilizados (frequentistas e Bayesianos,
entre outros) e na interpretação dos resultados obtidos. Os próximos exemplos motivam a
importância do estudo de fundamentos de probabilidade.
Exemplo 1.6.1: Suponha que Alice tenha uma moeda honesta e que ela e João saibam que
a moeda é honesta. Alice joga a moeda e olha o resultado. Após a moeda ser jogada, qual
a probabilidade de cara segundo João? Um argumento diria que a probabilidade ainda é
1/2, pois João nada aprendeu sobre o resultado da jogada, então ele não deve alterar o valor
de sua probabilidade. Um outro argumento, questiona se realmente faz sentido falar sobre
probabilidade de cara depois que a moeda foi jogada. Segundo este argumento, a moeda ou
caiu cara ou coroa, então o melhor que João pode afirmar é que a probabilidade de cara ou
é 0 ou é 1, mas ele não sabe discernir entre esses valores.
Exemplo 1.6.2: Suponha agora que Alice tenha duas moedas, uma honesta e outra ten-
denciosa e é duas vezes mais provável dar cara que coroa com esta moeda. Alice escolhe uma
das moedas (suponha que ela sabe distinguir as moedas) e está prestes a jogá-la. João sabe
que uma moeda é honesta e que a outra é tendenciosa e que é duas vezes mais provável cair
cara que coroa com a moeda tendenciosa, mas ele não sabe qual moeda Alice escolheu nem
lhe foi dada a probabilidade com que Alice escolhe a moeda honesta. Qual a probabilidade
de cara segundo João?
Exemplo 1.6.3: Paradoxo de Ellsbergue. Suponha que existam duas urnas cada uma
com 60 bolas. A urna 1 contém 30 bolas azuis e 30 bolas verdes. Tudo que se sabe sobre
a urna 2 é que ela contém bolas azuis e verdes, mas não se sabe a distribuição das bolas.
Considere que existem duas loteria com prêmios baseados no sorteio de bolas dessas urnas.
Loteria L
1
paga R$1.000,00 se uma bola azul for sorteada na urna 1, e R$0,00 caso contrário.
Loteria L
2
paga R$1.000,00 se uma bola azul for sorteada na urna 2, e R$0,00 caso contrário.
A maioria das pessoas quando questionada se prefere um bilhete da Loteria L
1
ou L
2
prefere
um bilhete da loteria L
1
. Suponha agora que temos duas outras loterias L
3
e L
4
, onde a
primeira paga R$1.000,00 somente se uma bola verde for sorteada da urna 1, e a segunda
Campos & Rêgo
1.6. FUNDAMENTOS DE PROBABILIDADE 14
para R$1.000,00 somente se uma bola verde for sorteada da urna 2. Também, é verificado que
a maioria das pessoas que preferiram a loteria L
1
à loteria L
2
preferem a loteria L
3
à loteria
L
4
. Com estas preferências, não é possível que o decisor possua uma única distribuição de
probabilidade subjetiva sobre as cores das bolas na urna 2, pois a primeira preferência (L
1
sobre L
2
) indica que o decisor considera que existam mais bolas verdes que azuis na urna 2,
e a segunda (L
3
sobre L
4
) indica que o decisor considera que existam mais bolas azuis que
verdes na urna 2. Esse fenômeno é conhecido na literatura como aversão a ambiguidade,
e pode-se modelar a incerteza do decisor por um conjunto de medidas de probabilidade ao
invés de uma única medida de probabilidade.
1.6.1 Hierarquia de Conceitos Estruturais de Probabilidade
A seguir apresenta-se uma variedade de conceitos estruturais e interpretações de probabili-
dade que foram descritos em Fine (2005).
Possivelmente. “Possivelmente A” é o conceito mais rudimentar e menos preciso, e o usado
pelos antigos Gregos para distinguir entre o que era necessário e o que era contingente.
Existe um número de conceitos de possibilidade que incluem os seguintes:
possibilidade lógica, no sentido que não se contradiz logicamente;
possibilidade epistêmica, segundo a qual a ocorrência de A não contradiz o conhe-
cimento, que inclui, mas estende mais que mera lógica;
possibilidade física, a ocorrência de A é compatível com leis físicas, contudo pode
ser extremamente improvável — por exemplo, uma moeda parando e ficando
equilibrada na borda em uma superfície rígida;
possibilidade prática, a noção do dia-a-dia segundo a qual Aé praticamente possível
se ele tem pelo menos uma verossimilhança não tão pequena de ocorrer.
Provavelmente. Provavelmente A é um fortalecimento da noção de possibilidade signifi-
cando mais que provável que não provável. Enquanto ela pode corresponder ao caso
que a probabilidade numérica de A seja maior que 1/2, este conceito não requer qual-
quer comprometimento com uma probabilidade numérica nem com o preciso estado de
conhecimento que uma probabilidade numérica requer.
Probabilidade Comparativa. “A é pelo menos tão provável quanto B”. A probabilidade
comparativa inclui “provavelmente A” através de “A é pelo menos tão provável quanto
A
c
”. Pode ser relacionada com probabilidade numérica através de P(A) ≥ P(B); em-
bora como nos dois exemplos anteriores, probabilidade comparativa não requer qual-
quer comprometimento com probabilidade numérica.
Probabilidade Intervalar. “A tem probabilidade intervalar, ou probabilidade inferior e
superior (P(A), P(A))”. Isto permite um grau de indeterminação variável sem o com-
prometimento de que exista um “verdadeiro” valor no intervalo; além dessa proba-
bilidade intervalar, existe outra (Campos, 1997), baseada na matemática intervalar
(Moore, 1966 e 1979) e na aritmética de exatidão máxima (Kulisch & Miranker, 1981),
Campos & Rêgo
1.6. FUNDAMENTOS DE PROBABILIDADE 15
a qual consiste de um intervalo fechado de números reais, [P(A), P(A)] com a precisão
(Sterbenz, 1974) tão pequena quanto possível.
Probabilidade Numérica. “A probabilidade de A é o número real P(A).” Este é o con-
ceito usual e será o enfocado neste livro. Enquanto este conceito absorveu quase toda a
atenção de pessoas envolvidas com fenômenos de chance e incerteza e provou ser frutí-
fero na prática científica, este não é o único conceito utilizado em linguagem ordinária
e no raciocínio probabilístico do dia-a-dia. É duvidoso que uma dada probabilidade
numérica seja adequada a todas as aplicações em que é utilizada, e é provável que tenha
inibido o desenvolvimento de teorias matemáticas apropriadas para outros fenômenos
aleatórios.
De agora em diante o foco é o conceito estrutural mais utilizado que é a probabilidade
numérica.
1.6.2 Interpretações de Probabilidade
Parece não ser possível reduzir probabilidade a outros conceitos; ela é uma noção em si
mesma. O que pode ser feito é relacionar probabilidade a outros conceitos através de uma
interpretação. Os cinco mais comuns grupos de interpretação para probabilidade são os
seguintes:
1. Lógica: grau de confirmação da hipótese de uma proposição que “A ocorre” dada uma
evidência através da proposição que “B ocorreu”. Esta interpretação está ligada a um
sistema lógico formal e não ao mundo físico. Ela é usada para tornar o raciocínio indu-
tivo quantitativo. Quando às evidências, ou premissas, são insuficientes para deduzir
logicamente a hipótese ou conclusão, pode-se ainda medir quantitativamente o grau
de suporte que uma evidência dá a uma hipótese através de probabilidade lógica. Por
exemplo, um jurado tem de utilizar julgamento que envolvem probabilidades lógicas
para condenar ou não um determinado réu baseado nas evidências disponíveis.
2. Subjetiva: se refere ao grau de crença pessoal na ocorrência do evento A e é medida
através da interpretação comportamental de disposição a apostar ou agir. Por exemplo,
se um torcedor de futebol acredita que seu time tem mais de 50% de chance de ganhar
o campeonato, ele deverá preferir um bilhete de loteria que lhe pague um prêmio L se
seu time for campeão a um outro bilhete que lhe pague um prêmio L à obtenção de
cara no lançamento de uma moeda honesta.
3. Frequentista: se refere ao limite da freqüência relativa de ocorrência do evento A em
repetidas realizações não relacionadas do experimento aleatório E. Note que limites de
freqüência relativas são uma idealização, pois não se pode realizar infinitas realizações
de um experimento.
4. Propensidade: tendência, propensidade, ou disposição para um evento A ocorrer. Por
exemplo, considerações de simetria, podem levar a conclusão que um dado tem a mesma
propensão, ou tendência, a cair em qualquer uma de suas faces.
Campos & Rêgo
1.7. FREQUÊNCIA RELATIVA 16
5. Clássica: baseada em uma enumeração de casos igualmente prováveis.
Na maior parte do restante deste livro adota-se a abordagem tradicional de interpretação
de probabilidade, isto é, a frequentista.
1.7 Frequência Relativa
A seguir será será discutido o terceiro elemento para modelagem do raciocínio probabilístico,
isto é, a associação de uma medida numérica a eventos a qual representa a probabilidade
com que eles ocorrem. As propriedades desta associação são motivadas, em grande parte,
pelas propriedades da frequência relativa. Considere uma coleção de experimentos aleatórios
E
i
que possuem a mesma σ-álgebra de eventos A e têm resultados individuais não necessa-
riamente numéricos {ω
i
}. Fixando uma dada sequência de resultados {ω
i
}, se o interesse é
na ocorrência de um dado evento A, a frequência relativa de A nada mas é que uma média
aritmética da função indicadora de A calculada em cada um dos termos da sequência {ω
i
},
ou seja,
Definição 1.7.1: A frequência relativa de um evento A, f
n
(A), determinada pelos resul-
tados {ω
1
, . . . , ω
n
} de n experimentos aleatórios, é
f
n
(A) =
1
n
n
¸
i=1
I
A

i
) =
N
n
(A)
n
.
Propriedades da frequência relativa são:
(i) f
n
(A) : A → IR.
(ii) f
n
(A) ≥ 0.
(iii) f
n
(Ω) = 1.
(iv) Se A e B são disjuntos, então f
n
(A∪ B) = f
n
(A) + f
n
(B).
(v) Se A
1
, A
2
, · · · A
n
, · · · é uma seqüência de eventos disjuntos dois a dois, então f
n
(∪

i=1
A
i
) =
¸

i=1
f
n
(A
i
).
No que se segue, supõe-se que existe alguma base empírica, física ou sobrenatural, que
garanta que f
n
(A) → P(A), embora que o sentido de convergência quando n cresce só
será explicado pela Lei dos Grandes Números (estudada posteriormente). Esta tendência da
frequência relativa de estabilizar em um certo valor é conhecida como regularidade estatística.
Deste modo, P herdará propriedades da frequência relativa f
n
.
Campos & Rêgo
1.8. AXIOMAS DE KOLMOGOROV 17
1.8 Axiomas de Kolmogorov
Antes de um sistema computacional ou algoritmo ser analisado, várias distribuições de pro-
babilidade têm de ser analisadas. De onde vêm essas distribuições? Como é possível avaliar
a vazão (throughput), tempo de resposta (response time), confiabilidade (reliability) e dis-
ponibilidade (availability) de um sistema de comunicação? Estas e outras perguntas estão
ligadas a problemas de avaliação de desempenho, a qual é suportada, primordialmente, por
Probabilidade, Estatística e Processos Estocásticos.
Questões de probabilidade em situações práticas basicamente constituem-se, como seria
o esperado, em como calcular probabilidades. Aí é onde a situação se complica. Se o
espaço amostral é finito, pode-se usar a definição clássica e a “complicação” consiste em
contar, o que implica no uso de técnicas de análise combinatória, que, não são fáceis. Se o
problema envolve “volumes de sólidos”, é possível, em algumas situações, usar as chamadas
probabilidades geométricas e o problema está resolvido. Se o espaço amostral é enumerável,
conhecimentos sobre progressões geométricas adquiridos no segundo grau resolvem alguns
problemas. Uma outra forma para calcular probabilidades é usar a frequência relativa como
sendo a probabilidade para um dado evento. Nesse caso teríamos que ter um “grande número
de observações”, mas, o que é · · · “grande”? Portanto a construção axiomática da teoria da
probabilidade, abstrai o cálculo de probabilidades de casos particulares e nos provê de um
método formal para resolver problemas probabilísticos.
Os axiomas descritos a seguir não descrevem um único modelo probabilístico, apenas de-
terminam uma família de modelos probabilísticos, com os quais podem-se utilizar métodos
matemáticos para encontrar propriedades que serão verdadeiras em qualquer modelo proba-
bilístico. A escolha de um modelo específico satisfazendo os axiomas é feita pelo probabilista,
ou estatístico, familiar com o fenômeno aleatório sendo modelado.
As propriedades de frequência relativa motivam os primeiros quatro axiomas de Kolmo-
gorov:
(K1) Inicial. O experimento aleatório é descrito pelo espaço de probabilidade (Ω, A, P)
que consiste do espaço amostral Ω, de uma σ-álgebra A, construída a partir de Ω e de
uma função de valores reais P : A → IR.
(K2) Não-negatividade. ∀A ∈ A, P(A) ≥ 0.
(K3) Normalização Unitária. P(Ω) = 1.
(K4) Aditividade Finita. Se A, B são disjuntos, então P(A∪ B) = P(A) + P(B).
É fácil provar (tente!) utilizando indução matemática que (K4) é válida para qualquer
coleção finita de eventos disjuntos dois a dois, ou seja, se A
i
∩ A
j
= ∅, ∀i = j, com i, j =
1 · · · n, então P(∪
n
i=1
A
i
) =
¸
n
i=1
P(A
i
).
Um quinto axioma, embora não tenha significado em espaços amostrais finitos, foi pro-
posto por Kolmogorov para garantir continuidade da medida de probabilidade.
Campos & Rêgo
1.8. AXIOMAS DE KOLMOGOROV 18
(K5) Continuidade Monotônica. Se para todo i > 0, A
i+1
⊆ A
i
e ∩
i
A
i
= ∅, então
lim
i→∞
P(A
i
) = 0.
3
Um forma equivalente de (K5) é a seguinte, que, conforme visto anteriormente, também
é uma propriedade da frequência relativa:
(K5)

σ-aditividade. Se {A
i
} é uma coleção enumerável de eventos disjuntos dois a dois,
então
P(∪

i=1
A
i
) =

¸
i=1
P(A
i
).
Teorema 1.8.1: Se P satisfaz (K1)—(K4), então P satisfaz (K5)

se, e somente se, satisfaz
(K5).
Prova: Primeiro, será provado que (K1)—(K5) implicam o axioma da σ-aditividade (K5)

.
Seja {A
i
} qualquer seqüência enumerável de eventos disjuntos dois a dois, e defina para todo
n
B
n
= ∪
i>n
A
i
,


i=1
A
i
= B
n
∪ (∪
n
i=1
A
i
).
Claramente, para todo i ≤ n, tem-se que A
i
e B
n
são disjuntos. Por (K4), tem-se
P(∪

i=1
A
i
) = P(B
n
) +
n
¸
i=1
P(A
i
).
Por definição de série numérica,
lim
n
n
¸
i=1
P(A
i
) =

¸
i=1
P(A
i
).
(K5)

segue-se se se mostrar que lim
n
P(B
n
) = 0. Note que B
n+1
⊆ B
n
, e que ∩

n=1
B
n
= ∅.
Então por (K5), o limite acima é zero e K4

é verdadeiro.
Agora, será provado que (K1)—(K4), (K5)

implicam o axioma da continuidade monotô-
nica (K5). Seja {B
n
} qualquer coleção enumerável de eventos satisfazendo as hipóteses do
axioma (K5): B
n+1
⊆ B
n
e ∩

n=1
B
n
= ∅. Definindo, A
n
= B
n
−B
n+1
observa-se que {A
n
} é
uma coleção enumerável de eventos disjuntos dois a dois e que
B
n
= ∪
j≥n
A
j
.
3
(K5) (ou equivalentemente (K5)

é uma idealização que não é aceita por alguns tratamentos subjetivistas
de probabilidade, em especial não é aceita por uma escola de estatísticos liderados por deFinetti (1972).
Assumir apenas aditividade finita, embora pareça mais plausível, pode levar a complicações inesperadas em
teoria estatística. Portanto, neste livro, prossegue-se sob a suposição que o axioma da continuidade (K5) é
válido.
Campos & Rêgo
1.8. AXIOMAS DE KOLMOGOROV 19
Então, por (K5)

,
P(B
n
) = P(∪
j≥n
A
j
) =
¸
j≥n
P(A
j
).
Como por (K5)

,

¸
j=1
P(A
j
) = P(∪

j=1
A
j
) ≤ 1,
então
lim
n
P(B
n
) = lim
n
¸
j≥n
P(A
j
) = 0,
logo (K5) é verdadeiro.
Definição 1.8.2: Uma função que satisfaz (K1)—(K5) é chamada de uma medida de
probabilidade.
A terna (Ω, A, P) é chamada de espaço de probabilidade. Intuitivamente quando se
modela uma problema através de probabilidade, basicamente, o que se faz é especificar cada
uma das componentes da terna acima.
Eventos são os elementos de A, aos quais se pode atribuir probabilidade. Probabilidade é
uma função cujo argumento é um conjunto. Portanto, não somente conjuntos, como também
as operações sobre eles, têm uma importância fundamental em teoria da probabilidade.
Entretanto, é preciso que a linguagem de conjuntos seja traduzida para a linguagem de
probabilidade. A Tabela 4, a seguir, exibe algumas dessas traduções. A idéia subjacente é
que um experimento aleatório foi realizado e aconteceu algum evento.
Tabela 4. Interpretações interessantes
Ω conjunto universo espaço amostral, evento certo
ω elemento evento elementar
A conjunto A evento A
∅ conjunto vazio evento impossível
A
c
ou A complemento de A não ocorreu o evento A
A∩ B A intersecção B os eventos A e B ocorreram
A∪ B A união B os eventos A ou B ocorreram

n
A
n
intersecção dos conjuntos A
n
todos os eventos A
n
ocorreram

n
A
n
união dos conjuntos A
n
ao menos um dos eventos A
n
ocorreu
1.8.1 Exemplos de Medidas de Probabilidade
Probabilidade clássica
P(A) =
n
A
n
,
onde n é o número de resultados possíveis (número de elementos do espaço amostral) e n
A
é o número de resultados favoráveis a A (número de elementos de A) dentre o número de
resultados possíveis. Baseia-se na idéia de resultados igualmente prováveis. Neste caso,
Campos & Rêgo
1.8. AXIOMAS DE KOLMOGOROV 20
P(A) =
||A||
||Ω||
(1.1)
definido para qualquer subconjunto A de Ω. O fato que 0 ≤ ||A|| ≤ ||Ω|| e que
||A∪ B|| = ||A|| +||B|| −||A∩ B||,
permitem verificar que P satisfaz os axiomas de Kolmogorov.
A definição pode ser aplicada apenas a uma classe limitada de problemas, isto é, aqueles
onde é possível contar os elementos do espaço amostral, Ω, e do evento A. Nessa contagem
a técnica usada é Análise Combinatória, que será estudada com mais detalhes no próximo
capítulo.
O exemplo a seguir calcula probabilidades usando (1.1). Adicionalmente, a expressão (1.2)
mostra que, neste caso, existe uma fórmula fechada,
log
b
(1 + 1/k),
para o cálculo
lim
N→∞
N(k)/N.
Exemplo 1.8.3: Todo número real x é unicamente representado na expansão b-ádica
(Kulisch & Miranker, 1981)
x = ∗d
n
d
n−1
. . . d
1
d
0
.d
−1
d
−2
. . . =
−∞
¸
i=n
d
i
b
i
,
onde ∗ ∈ {+, −} é o sinal do número, b é a base da representação, b ∈ IN, b > 1, d
i
,
i = n, . . . , −∞, são inteiros positivos tais que 0 ≤ d
i
≤ b −1 e d
i
≤ b −2 para infinitamente
muitos i.
Sejam a, b, k, n, N inteiros positivos tais que a, b, N ≥ 2, k = 1, · · · , b −1, n = 1, · · · , N.
Seja N(k) o número de vezes que k aparece como o primeiro dígito de {a
n
}
N
n=1
na base b.
Sabe-se que
lim
N→∞
N(k)/N = log
b
(1 + 1/k). (1.2)
As Tabelas 1 e 2 abaixo apresentam resultados computacionais para k, N(k) e
P(k, N) = N(k)/N,
que é a frequência relativa, onde b = 10, N = 10
2
, 10
3
, 10
4
, 10
5
a = 2, 3.
Campos & Rêgo
1.8. AXIOMAS DE KOLMOGOROV 21
Tabela 1: k, N(k) e P(k, N) para 2
n
, n = 1, · · · , N e N = 10
2
, 10
3
, 10
4
, 10
5
k N(k) P(k, 10
2
) N(k) P(k, 10
3
) N(k) P(k, 10
4
) N(k) P(k, 10
5
)
1 30 0.30 301 0.301 3010 0.3010 30103 0.30103
2 17 0.17 176 0.176 1761 0.1761 17611 0.17611
3 13 0.13 125 0.125 1249 0.1249 12492 0.12492
4 10 0.10 97 0.097 970 0.0970 9692 0.09692
5 7 0.07 79 0.079 791 0.0791 7919 0.07919
6 7 0.07 69 0.069 670 0.0670 6695 0.06695
7 6 0.06 56 0.056 579 0.0579 5797 0.05797
8 5 0.05 52 0.052 512 0.0512 5116 0.05116
9 6 0.05 45 0.045 458 0.0458 4576 0.04576
Tabela 2: k, N(k) e P(k, N) para 3
n
, n = 1, · · · , N e N = 10
2
, 10
3
, 10
4
, 10
5
k N(k) P(k, 10
2
) N(k) P(k, 10
3
) N(k) P(k, 10
4
) N(k) P(k, 10
5
)
1 28 0.28 300 0.300 3007 0.3007 30101 0.30101
2 19 0.19 177 0.177 1764 0.1764 17611 0.17611
3 12 0.12 123 0.123 1247 0.1247 12492 0.12492
4 8 0.08 98 0.098 968 0.0968 9693 0.09693
5 9 0.09 79 0.079 792 0.0792 7916 0.07916
6 7 0.07 66 0.066 669 0.0669 6697 0.06697
7 7 0.07 59 0.059 582 0.0582 5798 0.05798
8 5 0.05 52 0.052 513 0.0513 5116 0.05116
9 5 0.05 46 0.046 458 0.0458 4576 0.04576
A Tabela 3 exibe valores numéricos aproximados para o resultado teórico
log
b
(1 + 1/k),
quando a = 2 e N = 10
5
.
Campos & Rêgo
1.8. AXIOMAS DE KOLMOGOROV 22
Tabela 3: Valores para log
b
(1 + 1/k)
k log
10
(1 + 1/k)
1 0.30103
2 0.17609
3 0.12385
4 0.09691
5 0.07918
6 0.06818
7 0.05690
8 0.05115
9 0.04532
Probabilidade frequentista
P(A) = lim
n→∞
n
A
n
,
onde n
A
é o número de ocorrências de A em n ensaios independentes do experimento (teoria
baseada na observação).
O problema quando da aplicação desta definição para calcular a probabilidade de um
evento é: quando é que n é suficientemente grande, isto é, quando é que o experimento
aleatório foi realizado um número suficientemente grande de vezes, para garantir que a
freqüência relativa do evento A é P(A)? A resposta formal a esta pergunta será respondida
no estudo de teoremas limite.
Probabilidade geométrica. Considerando o espaço amostral constituído de objetos ge-
ométricos tais como pontos, retas e planos, a obtenção de probabilidades, nesse caso, é
referenciada na literatura como problemas de probabilidade geométrica. Portanto, dado um
certo evento A, nesse contexto, de modo geral,
P(A) =
m(A)
m(Ω)
,
desde que todas as medidas estejam bem definidas.
Por exemplo, suponha que um ponto seja escolhido aleatoriamente no quadrado 0 ≤ x ≤
1, 0 ≤ y ≤ 1. Pode-se encontrar a probabilidade de que o ponto pertença à região limitada
pelas retas x ≥ 1/2 e x+y ≥ 1/3, através da razão entre a área desta região, que é 1/2, pela
área do quadrado 0 ≤ x ≤ 1, 0 ≤ y ≤ 1, que é 1. Logo a probabilidade é igual a 1/2.
Espaço amostral enumerável. O número de elementos de Ω é finito, mas os eventos
elementares não são necessariamente equiprováveis. Seja Ω = {ω
1
, ω
2
, . . . , ω
n
} um conjunto
finito, e seja P({ω
i
}) = p
i
, onde p
i
≥ 0, i = 1, · · · n e
¸
n
i=1
p
i
= 1, e P(A) =
¸
ω
i
∈A
P({ω
i
}).
Neste caso, também é fácil verificar que P é uma medida de probabilidade.
Campos & Rêgo
1.8. AXIOMAS DE KOLMOGOROV 23
1.8.2 Propriedades de uma Medida de Probabilidade
Teorema 1.8.4: Se P é uma medida de probabilidade, então
(i) P(A
c
) = 1 −P(A).
(ii) P(∅) = 0.
(iii) P(A) ≤ 1.
(iv) Monotonicidade. Se A ⊆ B, então P(A) ≤ P(B).
(v) A
1
⊂ A
2
⇒ P(A
2
−A
1
) = P(A
2
) −P(A
1
).
(vi) P(A∪ B) = P(A) + P(B) −P(A∩ B).
(vii) P(A∪ B) ≥ max{P(A), P(B)} ≥ min{P(A), P(B)} ≥ P(A∩ B).
(viii) Sejam A
1
⊂ A
2
⊂ . . ., tal que lim
n→∞
(A
n
) = ∪

n=1
A
n
= A, então lim
n→∞
P(A
n
) =
P(A). (continuidade da probabilidade)
(ix) Sejam A
1
⊃ A
2
⊃ . . ., tal que lim
n→∞
(A
n
) = ∩

n=1
A
n
= A, então lim
n→∞
P(A
n
) =
P(A). (continuidade da probabilidade)
Prova:
(i) Segue-se do fato que Ω = A∪ A
c
, (K3), e (K4), pois
1 = P(Ω) = P(A) + P(A
c
).
(ii) Ω
c
= ∅, e por (K3) e (K4),
P(∅) = 1 −P(Ω) = 0.
(iii) 1 = P(Ω) = P(A) + P(A
c
) ≥ P(A), desde que P(A
c
) ≥ 0 por (K2).
(iv) B = A ∪ (B − A), onde A e B − A são disjuntos. Então (K4) implica que P(B) =
P(A) + P(B −A). O resultado segue do fato que P(B −A) ≥ 0.
(v)
A
1
⊂ A
2
⇒ A
2
= A
1
∪ (A
2
∩ A
c
1
) ⇒ P(A
2
) = P(A
1
) + P(A
2
∩ A
c
1
).
Como A
2
∩ A
c
1
= A
2
−A
1
, o resultado segue-se.
(vi) A ∪ B = A ∪ (B − A), e A e B − A são disjuntos, (K4) implica que P(A ∪ B) =
P(A) + P(B −A); como B = (A∩ B) ∪ (B −A), onde A ∩ B e B −A são disjuntos,
(K4) implica que P(B) = P(A∩ B) + P(B −A). Logo,
P(A∪ B) = P(A) + P(B) −P(A∩ B).
Campos & Rêgo
1.8. AXIOMAS DE KOLMOGOROV 24
(vii) Sem perda de generalidade, sejam
P(A) = min{P(A), P(B)}
e
P(B) = max{P(A), P(B)}.
Como B ⊆ A∪ B ⇒ P(B) ≤ P(A∪ B) ⇒
P(A∪ B) ≥ max{P(A), P(B)}.
Obviamente,
max{P(A), P(B)} ≥ min{P(A), P(B)}.
De A∩ B ⊆ A, tem-se que P(A∩ B) ≤ P(A). Logo,
min{P(A), P(B)} ≥ P(A∩ B).
(viii) Construindo uma sequência, {B
n
}, de elementos excludentes:
B
1
= A
1
B
2
= A
2
∩ A
c
1
· · ·
B
n
= A
n
∩ A
c
n−1
· · ·
Tem-se que:


n=1
A
n
= A = ∪

n=1
B
n
e
A
n
= ∪
n
k=1
B
k
.
Logo,
lim
n→∞
P(A
n
) = lim
n→∞
P(∪
n
k=1
B
k
)
= P(∪

n=1
B
n
)
= P(∪

n=1
A
n
)
= P(A)
= P( lim
n→∞
A
n
).
Campos & Rêgo
1.8. AXIOMAS DE KOLMOGOROV 25
(ix) Como A
n
⊃ A
n+1
, ∀n ≥ 1, então A
c
n
⊂ A
c
n+1
. Do item anterior tem-se que
lim
n→∞
P(A
c
n
) = P(∪

A
c
n
) = P(A
c
).
Logo,
lim
n→∞
P(A
n
) = lim
n→∞
(1 −P(A
c
n
))
= 1 − lim
n→∞
P(A
c
n
)
= 1 −P(∪

A
c
n
)
= 1 −P(A
c
)
= P(A)
= P( lim
n→∞
A
n
).
As propriedades (viii) e (ix) afirmam que para sequências monotônicas o limite comuta
com a probabilidade, pois em ambos os casos tem-se que:
lim
n→∞
P(A
n
) = P( lim
n→∞
A
n
).
A notação usada neste capítulo é a comumente encontrada nos livros de probabilidade.
Entretanto, fora do contexto de probabilidade, é possível, aliás quase certo, encontrar notação
distinta. Por exemplo, em Russel & Norvig (1995) tem-se P(A ∨ B), P(A ∧ B) e P(¬A)
para P(A∪ B), P(A∩ B), P(A
c
).
Teorema 1.8.5: Probabilidade de Partições. Se {A
i
} é uma partição enumerável (ou
finita) de Ω composta de conjuntos em A, então para todo B ∈ A
P(B) =
¸
i
P(B ∩ A
i
).
Prova: Como {A
i
} é uma partição, segue-se que
B = B ∩ Ω = B ∩ (∪
i
A
i
) = ∪
i
(B ∩ A
i
).
O resultado segue vem por (K5)

.
Teorema 1.8.6: Desigualdade de Boole. Para n eventos arbitrários {A
1
, . . . , A
n
}, a
desigualdade de Boole é
P(∪
n
i=1
A
i
) ≤
n
¸
i=1
P(A
i
).
Campos & Rêgo
1.8. AXIOMAS DE KOLMOGOROV 26
Prova: Seja n = 2. Logo, P(A
1
∪ A
2
) = P(A
1
) + P(A
2
) − P(A
1
∩ A
2
) ≤ P(A
1
) + P(A
2
)
porque P(A
1
∩ A
2
) ≥ 0. Usar indução para provar para n.
Corolário 1.8.7: Para n eventos arbitrários {A
1
, . . . , A
n
},
P(∩A
i
) ≥
n
¸
i=1
P(A
i
) −(n −1).
Prova: Utilizando a Lei de De Morgan e a desigualdade de Boole para os eventos {A
c
1
, . . . , A
c
n
},
P(∪
n
i=1
A
c
i
) = 1 −P(∩
n
i=1
A
i
) ≤
n
¸
i=1
P(A
c
i
) =
n
¸
i=1
(1 −P(A
i
)).
Logo,
P(∩
i=1
nA
i
) ≥
n
¸
i=1
P(A
i
) −(n −1).
O próximo teorema permite calcular de maneira exata a probabilidade P(∪
n
i=1
A
i
) para
n eventos arbitrários.
Teorema 1.8.8: Princípio da Inclusão-Exclusão. Seja I um conjunto genérico de índi-
ces subconjunto não-vazio qualquer de {1, 2, . . . , n}. Para eventos arbitrários {A
1
, . . . , A
n
},
P(∪
n
i=1
A
i
) =
¸
∅=I⊆{1,...,n}
(−1)
||I||+1
P(∩
i∈I
A
i
),
onde o somatório é sobre todos os 2
n
− 1 conjuntos de índices excluindo apenas o conjunto
vazio.
No caso particular de n = 3, o princípio de inclusão-exclusão afirma quea
P(A
1
∪ A
2
∪ A
3
) = P(A
1
) + P(A
2
) + P(A
3
)
−P(A
1
∩ A
2
) −P(A
1
∩ A
3
) −P(A
2
∩ A
3
)
P(A
1
∩ A
2
∩ A
3
)
Exemplo 1.8.9: Em um grupo de r pessoas qual a probabilidade de haver pelo menos
duas pessoas que completem aniversário no mesmo dia, assumindo que a distribuição de
aniversários é uniforme ao longo do ano e desprezando a existência de anos bissextos?
Solução: Para determinar esta probabilidade a probabilidade usada é a clássica. O número
de resultados possíveis para os aniversários de r pessoas é 365
r
. O número de casos possíıveis
onde todas as pessoas fazem aniversário em dias diferentes é dado por 365 × 364 × · · · ×
(365 −(r −1)). Portanto, o número de casos possíveis onde pelo menos duas pessoas fazem
Campos & Rêgo
1.8. AXIOMAS DE KOLMOGOROV 27
aniversário no mesmo dia é a diferença entre o número total de aniversários possíveis e o
nùmero de casos onde as pessoas tém aniversários em datas diferentes, ou seja, é igual a
365
r
−365 ×364 ×· · · ×(365 −(r −1)).
Logo, a probabilidade deste evento é:
1 −
365 ×364 ×· · · ×(365 −(r −1))
365
r
.
Para r = 23, essa probabilidade é aproximadamente igual a 0.51. E para r = 50, 0.97.
Exemplo 1.8.10: Em uma loteria de N números há um só prêmio. Salvador compra n
(1 < n < N) bilhetes para uma só extração e Sílvio compra n bilhetes, um para cada uma
de n extrações. Qual dos dois jogadores têm mais chance de ganhar algum prêmio?
Solução: A probabilidade de Salvador ganhar algum prêmio é
n
N
. O número total de n
extrações possíveis é N
n
. O número de casos onde Sílvio não ganha qualquer prêmio é
(N −1)
n
, logo, o número de casos onde Sílvio ganha algum prêmio é igual a N
n
−(N −1)
n
.
Portanto, a probabilidade de Sílvio ganhar algum prêmio é 1 −
(N−1)
n
N
n
.
Por indução prova-se que Salvador tem mais chance de ganhar, ou seja,
n
N
> 1 −
(N−1)
n
N
n
,
que equivale a
(N −1)
n
N
n
> 1 −
n
N
.
Para n = 2:
(N −1)
2
N
2
= 1 −
2
N
+
1
N
2
> 1 −
2
N
.
Suponha que para n = k,
(N −1)
k
N
k
> 1 −
k
N
.
Multiplicando esta expressão por
N−1
N
,
(N −1)
k+1
N
k+1
> (
N −1
N
)(1 −
k
N
) = 1 −
1
N

k
N
+
k
N
2
> 1 −
k + 1
N
.
Exemplo 1.8.11: Doze pessoas são divididas em três grupos de 4. Qual é a probabilidade
de duas determinadas dessas pessoas ficarem no mesmo grupo?
Solução: O número total de divisões de doze pessoas em 3 grupos de 4 é

12
4

8
4

4
4

. Para
contar o número de casos favoráveis ao evento, sabe-se que existem 3 opções de escolha sobre
em qual grupo as duas pessoas determinadas podem ficar. Das 10 pessoas restantes, tem de
se escolher mais duas para estarem neste grupo, o que pode ser resolvido de

10
2

maneiras
diferentes. E

8
4

4
4

são maneiras diferentes de dividir as outras 8 pessoas nos dois grupos
restantes. Portanto, a probabilidade de duas determinadas pessoas ficarem no mesmo grupo
é:
3

10
2

8
4

4
4

12
4

8
4

4
4
=
3
11
.
Campos & Rêgo
1.8. AXIOMAS DE KOLMOGOROV 28
Exemplo 1.8.12: Suponha que numa sala estão n mães cada uma com um filho. Suponha
que duplas sejam formadas aleatoriamente, onde cada dupla contém uma mãe e um filho.
Qual éa probabilidade de que pelo menos uma mãe forme uma dupla com seu próprio filho?
Solução: Seja A
i
o evento que a i-ésima mãe forma dupla com seu filho. O objetivo é
determinar
P(∪
n
i=1
A
i
).
Calculando esta probabilidade utilizando a fórmula da inclusão-exclusão. Note que:
P(A
i
) =
(n −1)!
n!
=
1
n
para todo i ∈ {1, 2, . . . , n}
P(A
i
∩ A
j
) =
(n −2)!
n!
=
1
n(n −1)
para i = j
e em geral, para um grupo I ∈ {1, 2, . . . , n} de mães,
P(∩
i∈I
A
i
) =
(n −||I||)!
n!
.
Como existem

n
||I||

grupos de mães com cardinalidade ||I||,
P(∪
n
i=1
A
i
) =
n
¸
i=1
(−1)
i+1

n
i

(n −i)!
n!
=
n
¸
i=1
(−1)
i+1
1
i!
Note que quando n → ∞, esta probabilidade tende a 1 −
1
e
.
Exemplo 1.8.13: Demonstre que se P(A
i
) = 1 para i = 1, 2, . . ., então P(∩

i=1
A
i
) = 1.
Solução: Como P(A
i
) = 1, tem-se que P(A
c
i
) = 1 − P(A
i
) = 0. Logo, pela desigualdade
de Boole, P(∪

i=1
A
c
i
) ≤
¸

i=1
P(A
c
i
) = 0. Portanto, P(∪

i=1
A
c
i
) = 0 e pela Lei de De’Morgan,


i=1
A
i
= (∪

i=1
A
c
i
)
c
, tem-se que P(∩

i=1
A
i
) = 1 −P(∪

i=1
A
c
i
) = 1.
Exemplo 1.8.14: Demonstre: se A
1
, A
2
, . . . e B
1
, B
2
, . . . são eventos do mesmo espaço de
probabilidade tais que P(A
n
) → 1 e P(B
n
) → p, então P(A
n
∩ B
n
) → p.
Solução: Note que
P(A
n
∩ B
n
) = 1 −P((A
n
∩ B
n
)
c
) = 1 −P(A
c
n
∪ B
c
n
)
≥ 1 −P(A
c
n
) −P(B
c
n
) = P(A
n
) + P(B
n
) −1. (1.1)
Como P(A
n
) + P(B
n
) − 1 → p, tem-se que liminf P(A
n
∩ B
n
) ≥ p. Por outro lado, como
P(A
n
∩B
n
) ≤ P(B
n
) e P(B
n
) → p, tem-se que limsup P(A
n
∩B
n
) ≤ p. Portanto, limP(A
n

B
n
) = p.
Campos & Rêgo
1.9. APRENDENDO UM POUCO MAIS 29
1.9 Aprendendo um pouco mais
Se o espaço amostral for finito, toda álgebra é uma σ-álgebra, pois só existe um número
finito de eventos distintos. Se o espaço amostral for infinito, existem álgebras que não são
σ-álgebras, como mostra o exemplo seguinte.
Exemplo 1.9.1: Um conjunto é co-finito se seu complementar for finito. A coleção de
conjuntos de números reais finitos e co-finitos é uma álgebra que não é uma σ-álgebra.
Lema 1.9.2: Se A é uma σ-álgebra, então Ω ∈ A
Prova: Como A é não vazio, seja A um seu elemento qualquer. Pela segunda propriedade
de álgebras, tem-se que A
c
∈ A, e pela terceira, Ω = A∪ A
c
∈ A.
Teorema 1.9.3: Sejam A
1
e A
2
álgebras (σ-álgebras) de subconjuntos de Ω e seja A =
A
1
∩ A
2
a coleção de subconjuntos comuns às duas álgebras. Então, A úma álgebra (σ-
álgebra).
Prova: Como A
1
e A
2
são álgebras, ambos contém Ω. Então, Ω ∈ A. Se A ∈ A, então A
está em ambos A
1
e A
2
. Logo, A
c
está em ambos A
1
e A
2
, e portanto na sua intersecção A.
Se A, B ∈ A, então eles estão em ambos A
1
e A
2
. Consequentemente, A∪B está em ambos
A
1
e A
2
e, portanto, em A. Como A satisfaz as três condições da definição de álgebra de
eventos, A é uma álgebra de eventos. A prova no caso de σ-álgebras é análoga.
Corolário 1.9.4: Existe uma menor (no sentido de inclusão) álgebra (σ-álgebra) contendo
qualquer família dada de subconjuntos de Ω.
Prova: Seja C uma coleção qualquer de subconjuntos de Ω. Defina A(C) como sendo o
conjunto que é igual a intersecção de todas as álgebras de eventos que contém C, isto é:
A(C) =
¸
A⊇C:A é uma álgebra de eventos
A.
Pelo Teorema 1.9.3, A(C) é uma álgebra de eventos, e consequentemente é a menor álgebra
de eventos contendo C. A prova no caso de σ-álgebras é análoga.
Deste modo, pode-se definir a seguinte σ-álgebra de subconjuntos dos reais.
Exemplo 1.9.5: A σ-álgebra de Borel B de subconjuntos reais é, por definição, a menor
σ-álgebra contendo todos os intervalos e é a σ-álgebra usual quando se lida com quantidades
reais ou vetoriais. Em particular, tem-se que uniões enumeráveis de intervalos (por exemplo,
o conjunto dos números racionais), seus complementos (por exemplo, o conjunto dos números
irracionais), e muito mais estão em B. Para todos os fins práticos, pode-se considerar que B
contém todos os subconjuntos de reais que consegue-se descrever.
Campos & Rêgo
1.10. EXERCÍCIOS 30
1.10 Exercícios
1. (a) Uma caixa com 6 chips contém 2 defeituosos. Descreva um espaço amostral para
cada uma das situações abaixo:
(a) Os chips são examinados um a um até que um defeituosos seja encontrado.
(b) Os chips são examinados um a um até que todos os defeituosos sejam encon-
trados.
(b) Generalize o problema. Responda às mesmas questões anteriores, supondo que se
tem N chips na caixa, dos quais n < N são defeituosos.
2. Coloque V ou F nas sentenças abaixo:
(a) A = ∅ ⇒ P(A) = 0. ( )
(b) P(A) = 0 ⇒ A = ∅. ( )
(c) A = ∅ ⇔ P(A) = 0. ( )
(d) A ⊇ B ⇒ P(A) ≤ P(B). ( )
(e) A ⊆ B ⇒ P(A) ≥ P(B). ( )
(f) A ⊆ B ⇒ P(A) ≤ P(B). ( )
(g) A e B excludentes ⇒ P(A∪ B) = P(A) + P(B). ( )
(g) A e B excludentes ⇒ P(A∩ B) = P(A)P(B). ( )
3. Professor Leônidas está tentando calcular a probabilidade p = P(A) do evento A, e
determinou que ela é uma raiz do seguinte polinômio de grau cinco:
(p −3)(p −3

−1)(p + 3

−1)(p + 0.3)(p −0.3) = 0.
Baseado nesta fato, qual é o valor de p?
4. Se Ω = {a, b, c}, a álgebra A é o conjunto das partes de Ω e a medida de probabilidade
P é parcialmente definida por
P({a, b}) = 0.5, P({b, c}) = 0.8, P({a, c}) = 0.7,
então complete a especificação de P para todos os eventos em A.
5. Se {A
i
} for uma partição enumerável de Ω e P(A
i
) = ab
i
, i ≥ 1, quais as condições
que a e b devem satisfazer para que P seja uma medida de probabilidade?
6. As seguintes questões não estão relacionadas umas com as outras.
(a) Se I
A
I
B
for identicamente igual a zero, o que dizer a respeito da relação entre A
e B?
(b) Se A∩ B
c
= B ∩ A
c
, o que dizer a respeito da relação entre A e B?
(c) Se I
2
A
+ I
2
B
for identicamente igual a 1, o que concluir sobre A e B?
Campos & Rêgo
1.10. EXERCÍCIOS 31
7. Determine se cada uma das afirmações a seguir são verdadeiras ou falsas. Se a relação
for falsa, apresente um contra-exemplo. Se for verdadeira, prove-a.
(a) Se x ∈ A e A ⊂ B, então x ∈ B.
(b) Se A ⊆ B e B ⊆ C, então A ⊆ C.
(c) Se A ⊆ B e B ⊆ C, então A ⊆ C.
(d) Se A ⊆ B e B ⊆ C, então A ⊆ C.
(e) Se x ∈ A e A ⊆ B, então x / ∈ B.
(f) Se A ⊆ B e x / ∈ B, então x / ∈ A.
8. Descreva um espaço amostral para cada um dos experimentos abaixo.
(a) Strings de dígitos binários são geradas até que pela primeira vez o mesmo resultado
apareça duas vezes em sucessão.
(b) Strings de dígitos binários são geradas até que o dígito 1 apareça pela primeira
vez.
(c) Strings de 3 dígitos binários são geradas. Observe as sequências de zeros e uns.
(d) Conte o número de zeros em uma string de dígitos binários com n dígitos.
9. Mostre que P(E ∩ F) ≤ P(E) ≤ P(E ∪ F) ≤ P(E) + P(F).
10. Um ponto é escolhido ao acaso sobre um quadrado unitário. Determine a probabilidade
de que o ponto esteja no triângulo limitado por x = 0, y = 0 e x + y = 1.
11. Um ponto é escolhido ao acaso sobre um disco unitário. Determine a probabilidade de
que o ponto esteja no setor angular de 0 a π/4.
12. Suponha que A, B e C sejam eventos tais que P(A) = P(B) = P(C) = 1/4, P(A∩B) =
P(B ∩ C) = 0 e P(A ∩ C) = 1/8. Calcule a probabilidade de que ao menos um dos
eventos A, B ou C ocorra.
13. Suponha a declaração, if B then s
1
else s
2
, onde B é um evento aleatório, e suponha
que um experimento aleatório consiste em observar duas execuções desta declaração.
Sejam os eventos
E
1
= {pelo menos uma execução de s
1
}
e
E
2
= {a declaração s
2
é executada pela primeira vez}.
(a) Exiba um espaço amostral para o experimento.
(b) Calcule P(E
1
) e P(E
2
), em termos de P(B).
14. Distribuição de Números Primos
Campos & Rêgo
1.10. EXERCÍCIOS 32
(a) Considere os intervalos A
k
= [10k, 10(k + 1)), k = 0 · · · , 9. Sejam, n o total dos
primos em [0,100) e n
k
a freqüência deles em cada A
k
. Seja p
k
=
n
k
n
. Calcule p
k
e faça um gráfico com os pontos (k, p
k
), para k = 0 · · · , 9.
(b) Repita todo o problema anterior com A
k
= [100k, 100(k + 1)), k = 0 · · · , 9, e n o
total dos primos em [0,1000).
(c) Agora com A
k
= [1000k, 1000(k +1)), k = 0 · · · , 9, sendo n o total dos primos em
[0,10000).
(d) Os resultados que voce obteve, empiricamente, aceitam ou refutam a seguinte
afirmação: números primos ocorrem menos frequentemente entre inteiros maiores
que entre inteiros menores.
(e) Seja π(x) o número de primos menores que x ∈ IR, x > 0. De acordo com seus
cálculos, qual afirmação abaixo você aceita como sendo verdadeira?
π(x) ≥ ⌊log
2
(log
2
x)⌋ + 1,
π(x) ≤ ⌊log
2
(log
2
(x)⌋ + 1,
onde em (a) x = 100, em (b) x = 1000 e em (c) x = 10000.
15. Sejam A
1
, A
2
, · · · , B
1
, B
2
, · · · eventos aleatórios definidos no mesmo espaço de proba-
bilidade (Ω, A, P). Mostre que:
(a) P(∩
n
k=1
A
k
) ≥ 1 −
¸
n
k=1
P(A
c
k
).
(b) Se P(A
k
) ≥ 1 −ε para k = 1, · · · , n, então P(∩
n
k=1
A
k
) ≥ 1 −nε.
(c) Se P(A
n
) = 0 para n = 1, 2, · · · então P(∪

n=1
A
n
) = 0.
16. Para todo conjunto unidimensional A para o qual a integral existe seja P(A) =

A
f(x)dx, onde f(x) = 6x(1 − x), 0 < x < 1 e zero para x ∈ (0, 1). Se A
1
=
{x |
1
4
< x <
3
4
} e A
2
= {x | x =
1
2
}, calcule P(A
1
), P(A
2
), P(A
1
∩ A
2
), P(A
1
∪ A
2
).
17. Seja a probabilidade do evento A,
P(A) =

A
e
−x
dx, 0 < x < ∞,
e seja A
k
= {x | 2 − 1/k < x ≤ 3}, k = 1, 2, · · · . Mostre que lim
k→∞
P(A
k
) =
P(lim
k→∞
A
k
). Seja agora A
k
= {x | 1/k − 2 < x ≤ 3}, k = 1, 2, · · · . Mostre que
lim
k→∞
P(A
k
) = P(lim
k→∞
A
k
).
18. Um poliedro com k faces, k > 3, rotuladas f
1
, f
2
, · · · , f
k
é atirado aleatoriamente em
um plano, sendo observada a face tangente ao mesmo.
(a) Descreva o espaço amostral.
(b) Seja o evento A, a face voltada para baixo não excede o número k/2. Descreva A.
(c) Calcule P(A) para um (c1) icosaedro, (c2) dodecaedro e (c3) octaedro.
Campos & Rêgo
1.10. EXERCÍCIOS 33
19. Uma coleção de 100 programas foi checada com respeito a erros de sintaxe, S, erros
de entrada e saída, I, e outros tipos de erros, E. Os resultados obtidos foram: 20, S;
10, I; 5, E; 6, S ∧ I; 3, S ∧ E; 2, I ∧ E; 1, S ∧ I ∧ E. Um programa é selecionado
aleatoriamente. Calcule a probabilidade de que este apresente
(a) S ou I;
(b) ao menos um tipo de erro.
20. Dois dados são lançados. Considere os eventos
A = {a soma dos pontos sobre as duas faces é um número par},
B = {1 aparece pelo menos sobre um dos dados}.
Descreva os eventos: (a) A∩ B; (b) A∪ B; (c) A∩ B.
21. Um alvo consiste de dez círculos concêntricos com raios r
k
, k = 1, 2, . . . 10, onde r
1
<
r
2
< . . . r
10
. O evento A
k
indica um acerto no círculo de raio k. Descreva em palavras
os eventos B = ∪
6
k=1
A
k
e C = ∩
10
k=5
A
k
.
22. Um experimento consiste em se retirar 3 impressoras de um lote e testá-las de acordo
com alguma característica de interesse. Assinale D, para impressora defeituosa e B,
para perfeita. Sejam os eventos:
A
1
= {a 1a. impressora foi defeituosa},
A
2
= {a 2a. impressora foi defeituosa},
A
3
= {a 3a. impressora foi defeituosa}.
(a) Descreva o espaço amostral.
(b) Liste todos os elementos de cada um dos seguintes eventos: A
1
, A
2
, A
1
∪ A
2
,
A
2
∩ A
3
, A
1
∪ A
2
∪ A
3
, A
1
∩ A
2
∩ A
3
.
(c) Explique, em palavras, o significado dos eventos acima.
23. Seja A o evento “pelo menos um entre três itens checados é defeituoso”, e B o evento
“todos os três itens são bons”. Descreva os eventos: (a) A∪B; (b) A∩B; (c) A; (d) B.
24. Há três edições diferentes cada uma contendo pelo menos três volumes. Os eventos A,
B e C, respectivamente indicam que pelo menos um livro é escolhido da primeira, da
segunda e da terceira edição. Sejam
A
s
= {s volumes são escolhidos da primeira edição},
B
k
= {k volumes são escolhidos da segunda edição}.
Qual é o significado dos eventos: (a) A∪B∪C; (b) A∩B∩C; (c) A∪B
3
; (d) A
2
∪B
2
;
(e) (A
1
∩ B
3
) ∪ (A
3
∩ B
1
)?
Campos & Rêgo
1.10. EXERCÍCIOS 34
25. Um número é escolhido do conjunto dos números naturais. Sejam
A = {o número escolhido é divisível por 5} e B = {o número escolhido termina por 0}.
Qual é o significado dos eventos A −B e A∩ B?
26. Sejam A, B e C eventos e A ⊂ B. Determine: (a) A ∩ B; (b) A ∪ B; (c) A ∩ B ∩ C;
(d) A ∪ B ∪ C.
27. Mostre que os seguintes eventos formam uma partição do espaço amostral Ω: A, AB
e A∪ B.
28. Encontre uma condição sob a qual os eventos A∪B, A∪B e A∪B sejam mutuamente
exclusivos.
29. Suponha que uma instrução leva pelo menos 9 segundos para ser transmitida, proces-
sada e a resposta exibida no terminal. O experimento aleatório consiste em mensurar
o tempo decorrido da operação completa. Descreva o espaço amostral.
30. Uma moeda honesta é lançada até que apareça o mesmo resultados duas vezes seguidas.
(a) Descreva o espaço amostral.
(b) Encontre a probabilidade de que o experimento termine antes de 6 lançamentos.
(c) Encontre a probabilidade de que seja necessário um número par de lançamentos
para que o experimento termine.
Campos & Rêgo
Capítulo 2
Espaços Amostrais Finitos
2.1 Introdução
No capítulo anterior foi visto que se Ω = {ω
1
, ω
2
, . . . , ω
n
} é um conjunto finito, então para
determinar a probabilidade de qualquer evento A é suficiente especificar a probabilidade de
cada evento simples ou elementar {ω
i
}, ou seja P({ω
i
}) = p
i
. É fácil ver que os axiomas de
Kolmogorov implicam que p
i
≥ 0, i ≥ 1 e
¸
n
i=1
p
i
= 1, e P(A) =
¸
ω
i
∈A
P({ω
i
}).
Para se determinar as probabilidades dos eventos simples hipóteses adicionais são neces-
sárias. Por exemplo, se em Ω = {w
1
, w
2
, w
3
}, {w
1
} for 3 vezes mais provável que {w
2
, w
3
},
e {w
2
} for igualmente provável a {w
3
}, tem-se que p
1
= 3(p
2
+ p
3
), p
2
= p
3
. Logo, como
p
1
+ p
2
+ p
3
= 1 então p
3
= p
2
=
1
8
, e p
1
=
3
4
.
De acordo com a definição clássica de probabilidade onde o espaço amostral Ω é finito e
os possíveis resultados do experimento são equiprováveis, a probabilidade de qualquer evento
A ∈ A é proporcional a sua cardinalidade, isto é,
P(A) =
||A||
||Ω||
.
Portanto, é fundamental contar a quantidade de elementos do evento de interesse quanto
do espaço amostral.
Neste capítulo serão estudados métodos de contagem, também conhecidos como métodos
de análise combinatória. Embora conjuntos com poucos elementos possam ser contados
exaustivamente (força-bruta), conjuntos com tamanho moderado podem ser difíceis de contar
sem a utilização dessas técnicas matemáticas.
2.2 Regra da Adição
Suponha que um procedimento, designado por 1, possa ser realizado de n
1
maneiras. Admita-
se que um segundo procedimento, designado por 2, possa ser realizado de n
2
maneiras. Além
disso, suponha que não seja possível que ambos os procedimentos 1 e 2 sejam realizados em
conjunto. Então, o número de maneiras pelas quais pode-se realizar ou 1 ou 2 é n
1
+ n
2
.
35
2.3. REGRA DA MULTIPLICAÇÃO 36
Esta regra também pode ser estendida da seguinte maneira: se existirem k procedimentos
e o i-ésimo procedimento puder ser realizado de n
i
maneiras, i = 1, 2, . . . , k, então, o número
de maneiras pelas quais pode-se realizar ou o procedimento 1, ou o procedimento 2, . . ., ou o
procedimento k, é dado por n
1
+n
2
+. . . +n
k
, supondo que dois quaisquer deles não possam
ser realizados conjuntamente.
Exemplo 2.2.1: Seja o problema de escolher um caminho entre duas cidades A e B
dentre três percurssos pelo interior e dois pelo litoral. Portanto existem 3 + 2 = 5 caminhos
disponíveis para a viagem.
2.3 Regra da Multiplicação
Suponha que um procedimento designado por 1 possa ser executado de n
1
maneiras. Admita-
se que um segundo procedimento, designado por 2, possa ser executado de n
2
maneiras.
Suponha também que cada maneira de executar 1 possa ser seguida por qualquer maneira
para executar 2. Então, o procedimento formado por 1 seguido de 2 poderá ser executado
de n
1
×n
2
maneiras.
Obviamente esta regra pode ser estendida a qualquer número finito de procedimentos. Se
existirem k procedimentos e o i-ésimo procedimento puder ser executado de n
i
maneiras, i =
1, 2, . . . , k, então o procedimento formado por 1, seguido por 2,. . . , seguido pelo procedimento
k, poderá ser executado de n
1
×n
2
×· · · ×n
k
maneiras.
Exemplo 2.3.1: Quantos divisores inteiros e positivos possui o número 360? Quantos
desses divisores são pares? Quantos são ímpares? Quantos são quadrados perfeitos?
Solução: 360 = 2
3
×3
2
×5. Os divisores inteiros e positivos de 360 são os números da forma
2
a
×3
b
×5
c
, onde a ∈ {0, 1, 2, 3}, b ∈ {0, 1, 2}, e c ∈ {0, 1}. Portanto, existem 4 ×3 ×2 = 24
maneiras de escolher os expoentes a, b, c. Logo há 24 divisores.
Para o divisor ser par, a não pode ser zero. Então, existem 3×3×2 = 18 divisores pares.
Por outro lado, para o divisor ser ímpar, a tem que ser zero. Logo, existem 1 × 3 × 2 = 6
divisores ímpares. Por fim para o divisor ser quadrado perfeito os expoentes têm que ser
pares. Logo, existem 2 ×2 ×1 = 4 divisores quadrados perfeitos.
Exemplo 2.3.2: De quantos modos o número 720 pode ser decomposto em um produto
de dois inteiros positivos? E o número 144?
Solução: 720 = 2
4
× 3
2
× 5. Os divisores inteiros e positivos de 720 são os números da
forma: 2
a
× 3
b
× 5
c
, onde a ∈ {0, 1, 2, 3, 4}, b ∈ {0, 1, 2}, e c ∈ {0, 1}. Portanto, existem
5 ×3 ×2 = 30 maneiras de escolher os expoentes a, b, c. Logo há 30 divisores. Observe que
como 720 não é um quadrado perfeito, para cada divisor x de 720 existe um outro divisor
y = x de 720 tal que x ×y = 720. Portanto, cada produto contém dois divisores diferentes
de 720. Como existem 30 divisores, existem 15 produtos diferentes.
144 = 2
4
×3
2
. Seguindo o raciocínio anterior, tem-se 5 ×3 = 15 divisores de 144. Note
que 144 = 12
2
e este constitui um produto de inteiros positivos que é igual a 144. Os demais
produtos contém dois inteiros positivos diferentes que são divisores de 144. Como existem
14 divisores de 144 diferentes de 12, então existem 7 produtos envolvendo estes divisores.
Logo, tem-se um total de 8 produtos diferentes.
Campos & Rêgo
2.4. AMOSTRAGEM OU ESCOLHAS COM OU SEM REPOSIÇÃO 37
Exemplo 2.3.3: O conjunto A possui 4 elementos e, o conjunto B, 7. Quantas funções
f : A → B existem? Quantas delas são injetoras?
Solução: Para cada elemento de A tem-se 7 possíveis valores diferentes. Como A contém 4
elementos, existem 7 ×7 ×7 ×7 = 7
4
funções diferentes. Recorde que uma função é injetora
se f(a) = f(b) sempre que a = b. Portanto, o mesmo elemento de B não pode ser imagem
de dois elementos de A, logo existem 7 ×6 ×5 ×4 = 840 funções injetoras.
Exemplo 2.3.4: Em uma banca há 5 exemplares iguais da Veja, 6 exemplares iguais da
Época e 4 exemplares iguais da Isto é. Quantas coleções não-vazias de revistas dessa banca
podem ser formadas?
Solução: Note que cada coleção de revistas vai ser composta por a revistas Veja, b revistas
Época e c revistas Isto é, onde 0 ≤ a ≤ 5, 0 ≤ b ≤ 6, 0 ≤ c ≤ 4, e pelo menos 1 de a, b,
ou c é diferente de zero. Então, tem-se 6 × 7 × 5 − 1 = 210 − 1 = 209 diferentes coleções
não-vazias dessas revistas.
2.4 Amostragem ou Escolhas com ou sem Reposição
Dado um conjunto com n elementos distintos, o número, µ
n,r
, de maneiras de selecionar
uma sequência distinta de comprimento r escolhida desse conjunto com repetidas seleções
do mesmo elemento sendo permitidas, amostragem com reposição, é dada por n
r
, uma
vez que o mesmo procedimento é repetido r vezes e cada procedimento tem n maneiras de
ser executado.
Exemplo 2.4.1: Número de Sequências Binárias ou Subconjuntos. O número
de sequências binárias de comprimento r é igual a 2
r
pois neste caso tem-se que para cada
posição i da sequência, n
i
= 2. O número de subconjuntos de um dado conjunto A, ||A|| = r,
pode ser determinado enumerando A = {a
1
, a
2
, a
3
, . . . , a
r
} e descrevendo cada subconjunto
B de A por uma sequência binária
(b
1
, b
2
, . . . , b
r
),
onde b
i
= 1 se a
i
∈ B e b
i
= 0, caso contrário. Como existem 2
r
destas sequências, então
existem 2
r
subconjuntos de um conjunto de r elementos. Portanto, se ||A|| = r, o conjunto
das partes de A, possui 2
r
elementos, o que explica a notação exponencial do conjunto das
partes.
Dado um conjunto com n elementos distintos, o número (n)
r
de maneiras de selecionar
uma sequência distinta de comprimento r escolhida desse conjunto com repetidas seleções
do mesmo elemento não sendo permitidas, amostragem sem reposição, é dada por
A
r
n
= (n)
r
= n(n −1) · · · (n −r + 1) =
r−1
¸
i=0
(n −i),
desde que no primeiro procedimento (escolha do primeiro elemento da sequência) tem-se n
maneiras de executá-lo, no segundo procedimento (escolha do segundo elemento da sequên-
cia) tem-se n − 1 maneiras de executá-lo, . . ., e no r-ésimo e último procedimento (escolha
Campos & Rêgo
2.5. PERMUTAÇÕES E ARRANJOS 38
do r-ésimo elemento da sequência) tem-se n−r +1 maneiras de executá-lo. Este número de
sequências é também chamado na literatura de arranjo quando tem-se n elementos distintos
e deseja-se escolher r deles onde a ordem de escolha é importante.
2.5 Permutações e Arranjos
Um caso particular de amostragem sem reposição é quando o objetivo é saber o número de
permutações de um conjunto de n elementos distintos. Neste caso, r = n, e o número de
permutações é dado por
n! = (n)
n
= n(n −1) · · · 1,
onde n! é conhecida como função fatorial.
Propriedades da função fatorial incluem:
0! = 1! = 1
e
n! = n(n −1)!.
Exemplo 2.5.1: Se A é um conjunto de n elementos, quantas são as funções f : A → A
bijetoras?
Solução: Tem-se que garantir que cada elemento de A tem uma imagem diferente. Como A
é finito e tem n elementos, f também é sobrejetora e, portanto, bijetora. Então, o primeiro
elemento de A tem n opções, o segundo n − 1 opções, até que o último elemento de A tem
somente uma opção disponível. Portanto, existem n! funções bijetoras f : A → A.
Exemplo 2.5.2: De quantos modos é possível colocar r rapazes e m moças em fila de
modo que as moças permaneçam juntas?
Solução: Primeiro tem-se r + 1 opções de se escolher o lugar das moças. Em seguida, r!
maneiras de se escolher a posição dos rapazes entre si, e m! maneiras de se escolher a posição
das moças entre si. Portanto, tem-se (r + 1)r!m! modos diferentes de escolha.
Exemplo 2.5.3: Quantas são as permutaç˜es simples dos números 1, 2, . . . , 10 nas quais
o elemento que ocupa o lugar de ordem k, da esquerda para a direita, é sempre maior que
k −3?
Solução: Inicialmente escolhem-se os números da direita para esquerda. Observe que o
número no lugar de ordem 10, tem que ser maior que 7, portanto existem 3 opções. O
número no lugar de ordem 9, tem que ser maior que 6, existem, portanto, 3 opções visto
que um dos núameros maiores que 6 já foi utilizado na última posição. De maneira similar
pode-se ver que existem 3 opções para os números que ocupam do terceiro ao oitavo lugar.
O número no lugar de ordem 2, tem somente 2 opções, pois oito números já foram escolhidos
anteriormente. Finalmente, resta apenas um número para o lugar de ordem n. Portanto,
existem 2 ×3
8
permutações deste tipo.
Exemplo 2.5.4: Com oito bandeiras diferentes, quantos sinais feitos com três bandeiras
diferentes se podem obter?
Solução: Neste caso a ordem acarreta diferença e por isso tem-se (8)
3
= 336 sinais.
Campos & Rêgo
2.6. COMBINAÇÕES 39
2.6 Combinações
O número de conjuntos, ou coleções não ordenadas, de tamanho r escolhidas de um conjunto
universo de tamanho n, onde, como apropriado para conjuntos, não é permitida a duplicação
de elementos, é dado pelo coeficiente binomial:

n
r

=
(n)
r
r!
=
A
r
n
r!
=
n!
(n −r)!r!
.
Para verificar isto, note que o número de coleções ordenadas de tamanho r sem repetição
é (n)
r
. Como os elementos de cada sequência de comprimento r são distintos, o número de
permutações de cada seqüência é r!. Porém, utilizando a regra da multiplicação, o proce-
dimento de se escolher uma coleção ordenada de r termos sem repetição é igual a primeiro
escolher uma coleção não-ordenada de r termos sem repetição e depois escolher uma ordem
para esta coleção não-ordenada, ou seja,
A
r
n
= (n)
r
=

n
r

· r!,
de onde segue o resultado.
O coeficiente binomial tem as seguintes propriedades:

n
r

=

n
n −r

,

n
0

= 1,

n
1

= n,

n
r

= 0, se n < r.
O coeficiente binomial também dá o número de subconjuntos de tamanho r que podem
ser formados de um conjunto de n elementos. Como visto que o número total de subconjuntos
de um conjunto de tamanho n é 2
n
, então
2
n
=
n
¸
r=0

n
r

.
Os números

n
r

são chamados de coeficientes binomiais porque eles aparecem como
coeficientes na expressão binomial (a + b)
n
. Se n for um inteiro positivo, (a + b)
n
=
(a + b)(a + b) · · · (a + b). Quando a multiplicação tiver sido realizada, cada termo será
formado de k elementos de a e de (n − k) elementos de b, para k = 0, 1, 2, . . . , n. Mas,
quantos termos da forma a
k
b
n−k
existirão? Simplesmente é contado o número de maneiras
possíveis de escolher k dentre os n elementos a, deixando de lado a ordem (onde o i-ésimo
Campos & Rêgo
2.6. COMBINAÇÕES 40
elemento a corresponde ao i-ésimo fator do produto acima). Mas isso é justamente dado por

n
k

. Daí obtém-se o que é conhecido como o Teorema Binomial:
(a + b)
n
=
n
¸
k=0

n
k

a
k
b
n−k
.
Exemplo 2.6.1: Dentre oito pessoas, quantas comissões de três membros podem ser
escolhidas, desde que duas comissões sejam a mesma comissão se forem constituídas pelas
mesmas pessoas (não se levando em conta a ordem em que sejam escolhidas)?
Solução: A resposta é dada por

8
3

= 56 comissões possíveis.
Exemplo 2.6.2: Um grupo de oito pessoas é formado de cinco homens e três mulhe-
res. Quantas comissões de três pessoas podem ser constituídas, incluindo exatamente dois
homens?
Solução: Aqui deve-se escolher dois homens (dentre cinco) e duas mulheres (dentre três).
Portanto, o número procurado é

5
2

3
1

= 30 comissões.
Exemplo 2.6.3: Quantas sequências binárias de comprimento n contém no máximo três
dígitos 1?
Solução: Tem-se quatro casos possíveis: todas as sequências que não contém 1, todas as
que contém apenas um 1, todas as que contém dois dígitos 1 e todas as que contém três
dígitos 1. Para 0 ≤ r ≤ n, existem exatamente

n
r

sequências binárias com r números 1.
Portanto, pela regra da adição existem

n
0

+

n
1

+

n
2

+

n
3

sequências binárias de comprimento n contendo no máximo três números 1.
Exemplo 2.6.4: Quantas sequências de cara e coroa de comprimento n contém pelo menos
1 cara?
Solução: Neste caso, apenas uma sequência não contém qualquer cara (a sequência que
contém apenas coroa). Como o número total de sequências de cara e coroa de comprimento
n é igual a 2
n
, então 2
n
−1 sequências de comprimento n contém pelo menos uma cara.
Exemplo 2.6.5: Determine o coeficiente de x
3
no desenvolvimento de (x
4

1
x
)
7
.
Solução: O termo genérico do desenvolvimento é

7
k

(x
4
)
k
(−
1
x
)
7−k
= (−1)
7−k

7
k

x
5k−7
.
Portanto, tem-se o termo x
3
se 5k −7 = 3, o que implica que k = 2. Logo, o coeficiente de
x
3
é (−1)
5

7
2

= −21.
Campos & Rêgo
2.7. APLICAÇÕES EM GRAFOS 41
2.7 Aplicações em Grafos
Modelos matemáticos de conectividade em sistemas de redes são baseados em grafos. Estes
modelos permitem que questões como a conectividade de todos os elementos de uma rede, a
robustez dessa conectividade a falhas em conexões entre pares de elementos e o comprimento
de caminhos entre pares de elementos sejam estudadas. A seguir, serão vistas determinadas
características de grafos à luz das técnicas de contagem.
2.7.1 Grafos Não Direcionados
Definição 2.7.1: Um grafos não direcionado G = (V, E) é definido por um conjunto V de
elementos chamados nós ou vértices e um conjunto E ⊆ {{u, v} : u, v ∈ V }} de pares não
ordenados de nós que são chamados de bordas ou arestas.
Um grafo não direcionado que contém n vértices será denotado por G
n
.
A aresta {u, v} é vista como conectando os vértices u e v os quais são chamados de
adjacentes. O caso especial da aresta {u, u} é chamado de laço. Note que o grafo é chamado
de não direcionado porque se u é adjacente a v, então v é adjacente a u.
Nesse breve estudo de grafos, a não ser que seja mencionado o contrário, os grafos não
têm laços.
Exemplo 2.7.2: Número de grafos não direcionados com n vértices. Qual o número
Γ
n
de grafos não direcionados com um conjunto V de n vértices? Qual o número Γ
n,m
de
grafos não direcionados com um conjunto V de n de vértices e um conjunto E de m arestas?
Solução: Note que o número de arestas é o número possível de maneiras de escolher pares de
de vértices de V (a ordem dos vértices não é relevante pois o grafo é não direcionado). Então,
tem-se

n
2

possíveis arestas em um grafo. Cada grafo corresponde a um subconjunto do
conjunto de todas as arestas. Como existem 2
r
subconjuntos de um conjunto de r elementos,
então existem
Γ
n
= 2
(
n
2
)
grafos não direcionados com n vértices.
Como existem

n
2

possíveis arestas, então existem
Γ
n,m
=

n
2

m

grafos não direcionados com n vértices e m arestas.
2.7.2 Grafos Direcionados
Enquanto algumas conexões são simétricas, outras não são. Por exemplo, seja a relação
social u é pai de v, ou u é orientador de v. Evidentemente essas relações não são simétricas,
e para representá-las é necessário o conceito de grafos direcionados.
Campos & Rêgo
2.8. CONTAGEM MULTINOMIAL OU PERMUTAÇÃO COM ELEMENTOS
REPETIDOS 42
Definição 2.7.3: Um grafo direcionado G = (V, E) é um conjunto V de vértices e um
conjunto E ⊆ {(u, v) : u, v ∈ V } = V × V de pares ordenados de vértices que definem
arestas direcionadas que conectam u a v, mas não necessariamente o contrário.
Exemplo 2.7.4: Quantos grafos direcionados sem laços existem com um conjunto V de
n vértices? Qual o número de grafos direcionados com um conjunto V de n vértices e um
conjunto E de m arestas?
Solução. Como existem n(n−1) pares ordenados de vértices sem repetição, então o número
total de possíveis arestas do grafo é n(n −1). Cada grafo corresponde a um subconjunto do
conjunto de todas as arestas. Então, existem
Γ
n
= 2
n(n−1)
grafos direcionados com n vértices.
Como existem n(n −1) possíveis arestas, então existem

n(n −1)
m

grafos direcionados com n vértices e m arestas.
2.8 Contagem Multinomial ou Permutação com Elemen-
tos Repetidos
Considere r tipos de elementos e n
i
cópias indistinguíveis do elemento do tipo i. Por exemplo,
a palavra probabilidade tem duas cópias de cada uma das letras a,b,d,i e uma cópia de cada
uma das letras l,p,r,o,e. O número de sequências ordenadas de comprimento n =
¸
r
i=1
n
i
é
dado por

n
n
1

n −n
1
n
2

n −n
1
−n
2
n
3

· · · 1 =
n!
¸
r
i=1
n
i
!
.
Esta quantidade é conhecida como coeficiente multinomial e denotada por

n
n
1
n
2
. . . n
r

,
onde n =
¸
r
i=1
n
i
.
Para verificar esta contagem, note que das n posições na sequência de comprimento n,
pode-se escolher n
1
posições para os n
1
elementos indistinguíveis do tipo 1 de

n
n
1

maneiras;
das n −n
1
posições restantes na sequência, n
2
posições para os n
2
elementos indistinguíveis
do tipo 2 de

n−n
1
n
2

maneiras. Finalmente, após repetir este processo r −1 vezes, restam n
r
posições na sequência para os n
r
elementos do tipo r, que só podem ser escolhidas de uma
única maneira. Utilizando o método da multiplicação, o número total de sequências possíveis
é produto do número de maneiras onde os r tipos de elementos podem ser colocados.
Campos & Rêgo
2.9. EXERCÍCIOS 43
O coeficiente multinomial também calcula o número de partições de um conjunto n ele-
mentos em r subconjuntos com tamanhos dados n
1
, n
2
, . . . , n
r
. Aplicando-se o mesmo argu-
mento usado para demonstrar o Teorema Binomial, pode-se provar a seguinte generalização
conhecida como Teorema Multinomial:
(x
1
+ x
2
+ . . . + x
r
)
n
=
n
¸
i
1
=0
n−i
1
¸
i
2
=0
· · ·
n−
P
j<r−1
i
j
¸
i
r−1
=0

n
i
1
i
2
. . . i
r

r
¸
k=1
x
i
k
k
,
onde i
r
= n −
¸
j<r
i
j
.
Exemplo 2.8.1: Um monitor tendo resolução de n = 1.280 ×854 pixels, com r = 3 cores
possíveis (verde, azul, e vermelho) para cada pixel, pode mostrar

n
i
1
i
2
i
3

imagens tendo i
1
pixels verdes, i
2
pixels azuis, e i
3
pixels vermelhos. O número total de imagens que pode ser
exibida por este monitor para qualquer composição de cores de ver, azul, e vermelho pode
ser obtido utilizando o Teorema Multinomial fazendo x
1
= x
2
= . . . = x
r
= 1, dando o
resultado de r
n
possíveis imagens.
Exemplo 2.8.2: Determine o coeficiente de x
9
y
4
no desenvolvimento de (x
3
+ 2y
2
+
5
x
2
)
5
.
Solução: O termo genérico do desenvolvimento é

5
i
1
i
2
5 −i
1
−i
2

(x
3
)
i
1
(2y
2
)
i
2
(
5
x
2
)
5−i
1
−i
2
=
(2)
i
2
(5)
5−i
1
−i
2

5
i
1
i
2
5 −i
1
−i
2

x
3i
1
−10+2i
1
+2i
2
y
2i
2
. (2.1)
Portanto, tem-se o termo x
9
y
4
se 5i
1
+2i
2
−10 = 9 e 2i
2
= 4, o que implica que i
2
= 2 e
i
1
= 3. Logo, o coeficiente de x
9
y
4
é (2)
2
(5)
0

5
3 2 0

= 40.
2.9 Exercícios
1. Sabe-se que a senha pertencente a um sistema do Centro de Informática-CIn/UFPE
possui 8 caracteres. Cada caracter pode ser qualquer letra (maiúsculas são diferentes de
minúsculas), número ou caracter especial, somando ao todo 256 caracteres diferentes,
o que corresponde aos caracteres da tabela ASC. Com base nessas informações calcule:
(a) Quantas senhas diferentes o sistema aceita?
(b) Quantas senhas diferentes podemos formar começando com a letra a?
(c) Quantas senhas diferentes contendo o número 1 podemos formar?
(d) Quantas senhas diferentes podemos ter sem repetir nenhum caracter?
(e) Quantas senhas diferentes sem caracteres repetidos possuem a letra B ou possuem
o número 1 ou ambos?
(f) Desafio: Quantas senhas diferentes possuem a letra Z vindo antes o caracter {?
Observação: vindo antes não significa imediatamente antes. (proposto por Gus-
tavo S. Ferreira)
Campos & Rêgo
2.9. EXERCÍCIOS 44
2. O código genético especifica um aminoácido através de uma sequência de três nucleotí-
deos. Cada nucleotídeo pode ser de um dos quatro tipos T, A, C e G, sendo permitidas
repetições. Quantos aminoácidos podem ser codificados dessa maneira?
3. O código Morse consiste de uma sequência de pontos e traços em que repetições são
permitidas.
(a) Quantas letras se pode codificar usando exatamente n símbolos?
(b) Qual é o número de letras que se pode codificar usando n ou menos símbolos?
4. Um dominó é um bloco retangular dividido em dois sub-retângulos. Cada sub-retângulo
possui um número. Sejam x e y esses números (não necessariamente distintos). Como
o bloco é simétrico, o dominó (x, y) é igual ao dominó (y, x). Quantos blocos diferentes
de dominó se pode fazer usando n números diferentes?
5. Um homem possui n chaves das quais, exatamente uma abre a fechadura. Ele expe-
rimenta as chaves uma de cada vez, escolhendo ao acaso em cada tentativa uma das
chaves que não foi experimentada. Determine a probabilidade de que ele escolha a
chave correta na r-ésima tentativa.
6. Uma caixa contém 40 fusíveis bons e 10 defeituosos. Suponha que se selecionam 10
fusíveis. Qual é a probabilidade de que todos eles estejam bons?
7. Um ônibus parte com 6 pessoas e para em 10 pontos diferentes. Supondo que os
passageiros têm igual probabilidade de descer em qualquer parada, determine a pro-
babilidade de que dois passageiros não desembarquem na mesma parada.
8. Uma caixa contém 10 bolas numeradas de 1 a 10. Seleciona-se uma amostra aleatória
de 3 elementos. Determine a probabilidade de que as bolas 1 e 6 estejam entre as bolas
selecionadas.
9. Uma caixa contém b bolas pretas e r bolas vermelhas. Bolas são extraídas sem repo-
sição, uma de cada vez. Determine a probabilidade de se obter a primeira bola preta
na n-ésima extração.
10. Suponha que se extrai uma amostra de tamanho n de uma população de r elemen-
tos. Determine a probabilidade de que nenhum de k elementos específicos estejam na
amostra se o método utilizado é
(a) amostragem sem reposição;
(b) amostragem com reposição.
11. Uma secretária descuidadamente coloca ao acaso n cartas em n envelopes. Determine
a probabilidade de que ao menos uma carta chegue ao seu destino.
12. Se você possui 3 bilhetes de uma loteria para a qual se vendeu n bilhetes e existem 5
prêmios, qual é a probabilidade de você ganhar pelo menos um prêmio?
Campos & Rêgo
2.9. EXERCÍCIOS 45
13. M mensagens são enviadas aleatoriamente através de N canais de comunicação, N >
M. Encontre a probabilidade do evento
A = {não mais que uma mensagem seja enviada através de cada canal}.
14. Qual é a probabilidade de que os nascimentos de 12 pessoas caiam nos 12 diferentes
meses do ano (assumindo igual probabilidade para os nascimentos nos 12 meses)?
15. Dez livros são colocados aleatoriamente em uma prateleira. Encontre a probabilidade
de que:
(a) três particulares livros estejam sempre juntos;
(b) k particulares livros estejam sempre juntos, 2 < k < 10.
16. Um conjunto de 4 chips de circuito integrado é constituído de 2 perfeitos e 2 defeituosos.
Se 3 chips são selecionados aleatoriamente do grupo, qual a probabilidade do evento
“dois entre os 3 selecionados são defeituosos”.
17. Calcule a probabilidade de que algum número decimal com k dígitos escolhido aleato-
riamente seja um número válido de k dígitos na base octal.
18. Suponha o alfabeto com 26 letras. Calcule a probabilidade de que não haja letras
repetidas entre todas as seqüências com 3 letras.
19. Se uma caixa contém 75 chips de circuito integrado perfeitos e 25 defeituosos, e são
selecionados aleatoriamente 12, calcule a probabilidade de que pelo menos um dentre
os selecionados seja defeituoso.
20. Um professor faz 3 cartas de recomendação para 3 alunos. Entretanto, no momento de
entregar as cartas, ao invés de entregar cada carta ao seu respectivo dono, o professor
as entrega aleatoriamente.
(a) Qual é a probabilidade de que ao menos um aluno tenha recebido a carta correta?
(b) Generalize o problema para n cartas.
21. Em um conjunto de 5 pessoas, compute a probabilidade de que pelos menos 2 façam
aniversário no mesmo dia, assumindo que o ano tem 365 dias.
22. De uma caixa com etiquetas numeradas de 1 a 10, retiram-se duas ao acaso, com
reposição. Determine a probabilidade de que os números nas etiquetas difiram por 2.
23. No Brasil, a placa dos automóveis é uma string, na qual os 3 primeiros elementos são
letras escolhidas dentre as 26, e, os 4 últimos, dígitos na base decimal.
(a) Qual é o número máximo de automóveis que podem ser emplacados neste sistema?
(b) Qual é a probabilidade de que uma placa seja iniciada pela letra K?
24. Uma caixa contém bolas numeradas de 1 até n.
Campos & Rêgo
2.9. EXERCÍCIOS 46
(a) Todas as bolas são retiradas da caixa aleatoriamente uma a uma.
(a1) Descreva o espaço amostral.
(a2) Encontre a probabilidade de que os números selecionados sejam inteiros
consecutivos em ordem crescente.
(b) Suponha a mesma caixa, com as mesmas bolas, mas agora a bola é retirada, seu
número é anotado e é reposta na urna antes da retirada seguinte. Responda os
itens (a1) e (a2).
25. M cartões de Natal são distribuídos aleatoriamente para N pessoas, N > M. Encontre
a probabilidade de que não mais que um cartão de Natal seja enviado para cada pessoa.
26. Os números 1, 2, · · · , n são escritos de forma aleatória. Encontre a probabilidade de
que os dígitos
(a) 1 e 2,
(b) 1, 2 e 3,
apareçam como vizinhos nessa ordem.
(c) Repita os itens (a) e (b) considerando apenas a condição de vizinhos.
27. (a) Suponha que os três dígitos 1, 2 e 3 sejam escritos em ordem aleatória. Qual é a
probabilidade de que ao menos um dígito ocupe seu lugar próprio?
(b) O mesmo que em (a) com os dígitos 1, 2, 3, e 4.
(c) O mesmo que em (a) com os dígitos 1, 2, · · · , n.
(d) Examine a resposta em (c) quando n for grande.
28. Suponha que de N objetos, n < N sejam escolhidos ao acaso, com reposição. Qual
será a probabilidade de que nenhum objeto seja escolhido mais do que uma vez?
29. Uma caixa contém etiquetas numeradas de 1, 2, · · · , n. Duas etiquetas são escolhidas
ao acaso. Determine a probabilidade de que os números das etiquetas sejam inteiros
consecutivos se:
(a) as etiquetas forem escolhidas sem reposição;
(b) as etiquetas forem escolhidas com reposição.
30. Dentre os números 0, 1, · · · , 9 são escolhidos ao acaso r números (0 < r < 10), com
reposição. Qual é a probabilidade de que não ocorram dois números iguais?
31. Dois números são selecionados aleatoriamente entre os números 1, 2, . . . , n. Qual é a
probabilidade de que a diferença entre o primeiro e o segundo números escolhidos não
seja menor que m (m > 0).
32. Seja um alfabeto com 26 símbolos distintos a, b, · · · , z. Considere como experimento
aleatório a formação de strings de 3 símbolos, podendo os símbolos serem iguais.
Campos & Rêgo
2.9. EXERCÍCIOS 47
(a) Descreva um espaço amostral para este experimento.
(b) Qual é a probabilidade de que uma string escolhida ao acaso dentre todas não
tenha elementos repetidos?
Campos & Rêgo
Capítulo 3
Probabilidade Condicional.
Independência
3.1 Probabilidade Condicional
Como visto no Capítulo 1, existem várias possíveis interpretações de probabilidade. Por
exemplo, pode-se interpretar probabilidade de um evento A como um limite das frequências
relativas de ocorrência do evento A em realizações independentes de um experimento. Por
outro lado, a interpretação subjetiva de probabilidade associa a probabilidade de um evento
A com o grau de crença pessoal que o evento A ocorrerá. Em ambos os casos, probabilidade
é baseada em informação e conhecimento. Revisão desta base de informação ou conheci-
mento pode levar a revisão do valor da probabilidade. Em particular, conhecimento que
determinado evento ocorreu pode influenciar na probabilidade dos demais eventos.
Considerando-se a interpretação frequentista de probabilidade, suponha que o interesse
seja saber qual a probabilidade de do evento A, visto que sabe-se que o evento B ocorreu.
Suponha que se realizasse um experimento n vezes das quais o evento A (respectivamente, B
e A∩B) ocorre n
A
(respectivamente, n
B
> 0 e n
A∩B
≥ 0) vezes. Seja r
A
= n
A
/n a frequência
relativa do evento A nas n realizações do experimento. A probabilidade condicional de A
dado que sabe-se que B ocorreu segundo esta interpretação frequentista, sugere que ela deve
ser igual ao limite das frequências relativas condicionais do evento A dado o evento B, isto é,
deve ser o limite da razão n
A∩B
/n
B
quando n tende ao infinito. É fácil provar que esta razão
é igual a r
A∩B
/r
B
, que por sua vez segundo a interpretação frequentista de probabilidade é
aproximadamente igual a P(A∩ B)/P(B) para valores grandes de n.
Considerando-se uma interpretação subjetiva, suponha que a incerteza de um agente é
descrita por uma probabilidade P em (Ω, A) e que o agente observa ou fica sabendo que
o evento B ocorreu. Como o agente deve atualizar sua probabilidade P(·|B) de modo a
incorporar esta nova informação? Claramente, se o agente acredita que B é verdadeiro,
então parece razoável requerer que
P(B
c
|B) = 0. (3.1)
Em relação aos eventos contidos em B, é razoável assumir que sua chance relativa per-
maneça inalterada se tudo que o agente descobriu foi que o evento B ocorreu, ou seja, se
48
3.1. PROBABILIDADE CONDICIONAL 49
A
1
, A
2
⊆ B com P(A
2
) > 0, então
P(A
1
)
P(A
2
)
=
P(A
1
|B)
P(A
2
|B)
. (3.2)
Segue que (3.1) e (3.2) determinam completamente P(·|B) se P(B) > 0.
Teorema 3.1.1: Se P(B > 0) e P(·|B) é uma medida de probabilidade em Ω que satisfaz
(3.1) e (3.2), então
P(A|B) =
P(A∩ B)
P(B)
.
Prova: Como P(·|B) é uma medida de probabilidade e satisfaz P(B
c
|B) = 0, então
P(B|B) = 1 −P(B
c
|B) = 1. Considerando A
1
= A e A
2
= B em (3.2), logo P(A|B) =
P(A)
P(B)
para A ⊆ B. Se A não é um subconjunto de B, tem-se que A = (A ∩ B) ∪ (A∩ B
c
). Como
(A ∩ B) e (A ∩ B
c
) são eventos disjuntos, P(A|B) = P(A ∩ B|B) + P(A ∩ B
c
|B). Como
A ∩ B
c
⊆ B
c
e P(B
c
|B) = 0, então P(A ∩ B
c
|B) = 0. Como A ∩ B ⊆ B, usando o caso
anterior
P(A|B) = P(A∩ B|B) =
P(A∩ B)
P(B)
.
Deste modo as interpretações frequentista e subjetivista de probabilidade justificam a
seguinte definição.
Definição 3.1.2: Seja (Ω, A, P) um espaço de probabilidade. Se A, B ∈ A e P(B) > 0 a
probabilidade condicional de A dado B é definida por
P(A|B) =
P(A∩ B)
P(B)
.
Para um evento fixo B que satisfaz P(B) > 0, P(·|B) satisfaz aos axiomas K1-K4 (Ca-
pítulo 1) e realmente é uma medida de probabilidade. Para provar K2, note que para todo
A ∈ A, como P(A∩ B) ≥ 0,
P(A|B) =
P(A∩ B)
P(B)
≥ 0.
Para provar K3, como Ω ∩ B = B, então
P(Ω|B) =
P(Ω ∩ B)
P(B)
=
P(B)
P(B)
= 1.
Finalmente, para provar (K5)

(que implica K4), se A
1
, A
2
, . . . são mutuamente exclusivos
A
1
∩ B, A
2
∩ B, . . . também o são, então
Campos & Rêgo
3.1. PROBABILIDADE CONDICIONAL 50
P(∪
i
A
i
|B) =
P((∪
i
A
i
) ∩ B)
P(B)
=
P(∪
i
(A
i
∩ B))
P(B)
=
¸
i
P(A
i
∩ B)
P(B)
=
¸
i
P(A
i
|B).
A probabilidade condicional também satisfaz às seguintes propriedades:
(i) P(B|B) = 1.
(ii) P(A|B) = P(A∩ B|B).
(iii) Se A ⊇ B, então P(A|B) = 1.
(iv) P(A∩ B|C) = P(A|B ∩ C)P(B|C).
Fazendo C = Ω na propriedade (iv) acima,
P(A∩ B) = P(A|B)P(B).
Utilizando indução matemática, pode-se facilmente provar que
P(A
1
∩ A
2
∩ . . . ∩ A
n
) = P(A
1
)P(A
2
|A
1
) . . . P(A
n
|A
1
∩ . . . ∩ A
n−1
).
Um método de se obter uma probabilidade (incondicional) de uma probabilidade condi-
cional é utilizando o Teorema da Probabilidade Total.
Teorema 3.1.3: Seja a sequência de eventos B
1
, B
2
, . . . uma partição de Ω. então para
todo A ∈ A
P(A) =
¸
i:P(B
i
)=0
P(A|B
i
)P(B
i
).
Prova:
Como B
1
, B
2
, . . . é uma partição de Ω,
A = A∩ Ω = A∩ (∪
i
B
i
) = ∪
i
(A ∩ B
i
).
Como os eventos B
i
’s são mutuamente exclusivos, os eventos (A ∩ B
i
)’s também são
mutuamente exclusivos. Então o axioma (K5)

implica que
Campos & Rêgo
3.1. PROBABILIDADE CONDICIONAL 51
P(A) = P(∪
i
(A∩ B
i
))
=
¸
i
P(A∩ B
i
)
=
¸
i:P(B
i
)=0
P(A∩ B
i
)
=
¸
i:P(B
i
)=0
P(A|B
i
)P(B
i
).
Se os eventos da partição B
1
, B
2
, . . . são interpretados como possíveis causas e o evento
A corresponda a um efeito particular associado a uma causa, P(A|B
i
) especifica a relação
estocástica entre a causa B
i
e o efeito A.
Por exemplo, seja {D, D
c
} uma partição do espaço amostral, onde o evento D significa
que um dado indivíduo possui uma certa doença. Seja A o evento que determinado teste para
o diagnóstico da doença deu positivo. Então, P(A|D
c
) descreve a probabilidade do exame dá
positivo mesmo que o paciente esteja saudável, é a chamada probabilidade de falso positivo.
P(A
c
|D) é a probabilidade do exame dá negativo mesmo que o paciente esteja doente, é a
chamada probabilidade de falso negativo. Estas probabilidades determinam a qualidade do
teste, quanto menores as probabilidades de falso negativo e falso positivo melhor a qualidade
do teste. Caso as probabilidades P(D), P(A|D), P(A|D
c
) sejam conhecidas pode-se usando o
Teorema da Probabilidade Total obter a probabilidade incondicional de determinado exame
dar positivo P(A). Porém, geralmente o que se busca é saber que dado que o resultado de
um exame deu positivo qual a probabilidade de que o indivíduo esteja doente. Pode-se obter
esta probabilidade utilizando a famosa fórmula de Bayes:
P(D|A) =
P(A∩ D)
P(A∩ D) + P(A∩ D
c
)
=
P(A|D)P(D)
P(A|D)P(D) + P(A|D
c
)P(D
c
)
.
Mais geralmente, a fórmula de Bayes é dada por:
P(B
i
|A) =
P(A∩ B
i
)
¸
j
P(A∩ B
j
)
=
P(A∩ B
i
)
¸
j:P(B
j
)=0
P(A∩ B
j
)
=
P(A|B
i
)P(B
i
)
¸
j:P(B
j
)=0
P(A|B
j
)P(B
j
)
.
Os B
i
podem descrever, por exemplo, diferentes mensagens emitidas em um sistema de
comunicações e A pode descrever uma mensagem recebida pelo sistema. P(A|B
i
) determina a
probabilidade que a mensagem B
i
seja emitida e a mensagem Aseja recebida por este sistema.
Essas probabilidades condicionais especificam o modelo do canal de comunicações. Caso
Campos & Rêgo
3.1. PROBABILIDADE CONDICIONAL 52
as probabilidades P(B
i
)’s de cada mensagem ser enviada e as probabilidades condicionais
que descrevem o canal de comunicação sejam conhecidas pode-se usando o Teorema da
Probabilidade Total obter a probabilidade incondicional que determinada mensagem A seja
recebida. Porém geralmente, o que se busca é saber que dado uma certa mensagem foi
recebida (efeito), A, qual a probabilidade de cada uma das mensagens B
i
terem sido as
mensagens enviadas. Podem-se obter estas probabilidades utilizando-se a fórmula de Bayes.
É fácil de provar a fórmula de Bayes usando o Teorema da Probabilidade Total. As
probabilidades P(B
i
) são usualmente chamadas de probabilidades a priori e as probabilida-
des condicionais P(B
i
|A) de probabilidades a posteriori. O seguinte exemplo ilustra uma
aplicação da fórmula de Bayes.
Exemplo 3.1.4: Considere uma imagem formada por n × m pixels com a k-ésima linha
contendo d
k
(≤ m) pixels defeituosos. No primeiro estágio do experimento uma linha é
escolhida ao acaso. A seguir, um pixel é selecionado ao acaso nessa linha e constatado ser
defectivo; seja D este evento. Qual a probabilidade de que este pixel defeituoso esteja na
linha k?
Solução: Seja R = k o evento que este pixel pertencia a k-ésima linha da imagem. A
fórmula de Bayes permite determinar que, dado que
P(R = k) =
1
n
e
P(D|R = k) =
d
k
m
,
tem-se que
P(R = k|D) =
1
n
d
k
m
¸
n
i=1
1
n
d
i
m
=
d
k
¸
n
i=1
d
i
.
Exemplo 3.1.5: Um sistema de comunicação telegráfico transmite os sinais ponto (.) e
traço (-). A experiência tem mostrado que 2/5 dos pontos e 1/3 dos traços são mudados.
Suponha que a razão entre os pontos transmitidos e os traços transmitidos é de 5 para 3.
Qual é a probabilidade de que o sinal recebido seja o que foi transmitido quando
(a) o sinal recebido é um ponto;
(b) o sinal recebido é um traço.
Sejam os eventos
R

= {um ponto é recebido},
R
_
= {um traço é recebido},
T

= {um ponto é transmitido},
T
_
= {um traço é transmitido}.
e as probabilidades dadas no problema ou decorrentes de usar o complementar:
Campos & Rêgo
3.1. PROBABILIDADE CONDICIONAL 53
P(R

| T

) =
3
5
, P(R

| T
_
) =
1
3
, P(R
_
| T

) =
2
5
, P(R
_
| T
_
) =
2
3
, P(T

) =
5
8
e
P(T
_
) =
3
8
.
Tem-se que:
R

= (R

∩ T

) ∪ (R

∩ T
_
),
R
_
= (R
_
∩ T
_
) ∪ (R
_
∩ T

),
logo,
P(R

) = P(R

| T

)P(T

) + P(R

| T
_
)P(T
_
) =
3
5
5
8
+
1
3
3
8
=
4
8
,
P(R
_
) = P(R
_
| T
_
)P(T
_
) + P(R
_
| T

)P(T

) =
2
3
3
8
+
2
5
5
8
=
4
8
.
(a)
P(T

| R

) =
P(R

∩ T

)
P(R

)
=
3
4
.
(b)
P(T
_
| R
_
) =
P(T
_
∩ R
_
)
P(R
_
)
=
1
2
.
Exemplo 3.1.6: Um canal de comunicação binário envia um dentre dois tipos de sinais,
denotados por 0 e 1. Devido ao ruído, um 0 transmitido é alguma vezes recebido como um
1 e um 1 transmitido é alguma vezes recebido como um 0. Para um dado canal, assuma
uma probabilidade de 0.94 que um 0 transmitido seja corretamente recebido como um 0 e
uma probabilidade de 0.91 que um 1 transmitido seja corretamente recebido como um 1.
Adicionalmente, assuma uma probabilidade de 0.45 de se transmitir um 0. Se um sinal é
enviado, determine,
(a) A probabilidade de que um 1 seja recebido.
(b) A probabilidade de que um 0 seja recebido.
(c) A probabilidade de que um 1 foi transmitido, dado que um 1 foi recebido.
(d) A probabilidade de que um 0 foi transmitido, dado que um zero foi recebido.
(e) A probabilidade de um erro.
Sejam os eventos
T
0
= {um 0 é transmitido},
T
1
= {um 1 é transmitido},
R
0
= {um 0 é recebido},
R
0
= {um 1 é recebido}.
Campos & Rêgo
3.1. PROBABILIDADE CONDICIONAL 54
Logo,
P(R
0
| T
0
) = 0.94 ⇒ P(R
1
| T
0
) = 0.06,
P(R
1
| T
1
) = 0.91 ⇒ P(R
0
| T
1
) = 0.09,
P(T
0
) = 0.45,
P(T
1
) = 0.55.
(a)
R
1
= (R
1
∩ T
1
) ∪ (R
1
∩ T
0
),
logo,
P(R
1
) = P(R
1
| T
1
)P(T
1
) + P(R
1
| T
0
)P(T
0
) = 0.91 ×0.55 + 0.06 ×0.45 = 0.5275.
(b)
R
0
= (R
0
∩ T
0
) ∪ (R
0
∩ T
1
),
logo,
P(R
0
) = P(R
0
| T
0
)P(T
0
) + P(R
0
| T
1
)P(T
1
) = 0.94 ×0.45 + 0.09 ×0.55 = 0.4725,
ou,
P(R
0
) = 1 −P(R
1
) = 1 −0.5275 = 0.4725.
(c)
P(T
1
| R
1
) =
P(T
1
∩ R
1
)
P(R
1
)
=
P(R
1
| T
1
)P(T
1
)
P(R
1
)
=
0.91 ×0.55
0.5275
= 0.9488.
(d)
P(T
0
| R
0
) =
P(T
0
∩ R
0
)
P(R
0
)
=
P(R
0
| T
0
)P(T
0
)
P(R
0
)
=
0.94 ×0.45
0.4725
= 0.8952.
Campos & Rêgo
3.1. PROBABILIDADE CONDICIONAL 55
(e)
E = {acontece um erro}.
Logo,
E = (T
1
∩ R
0
) ∪ (T
0
∩ R
1
),
P(E) = P(R
0
| T
1
)P(T
1
) + P(R
1
| T
0
)P(T
0
) = 0.09 ×0.55 + 0.06 ×0.45 = 0.0765.
Exemplo 3.1.7: Uma urna contém 4 bolas brancas e 6 bolas pretas. Sacam-se, sucessiva-
mente e sem reposição, duas bolas dessa urna. Determine a probabilidade da primeira bola
ser branca sabendo que a segunda bola é branca.
Solução: Sejam B
1
e B
2
os eventos a primeira bola é branca e a segunda bola é branca,
respectivamente. Queremos calcular P(B
1
|B
2
). Utilizando a fórmula de Bayes,
P(B
1
|B
2
) =
P(B
2
|B
1
)P(B
1
)
P(B
2
|B
1
)P(B
1
) + P(B
2
|B
c
1
)P(B
c
1
)
.
Mas P(B
2
|B
1
) =
3
9
, P(B
2
|B
c
1
) =
4
9
, P(B
1
) =
4
10
e P(B
c
1
) =
6
10
. Logo,
P(B
1
|B
2
) =
3
9
·
4
10
3
9
·
4
10
+
4
9
·
6
10
=
2
15
2
5
=
1
3
.
Embora probabilidade condicional seja bastante útil, ela sofre de problemas, em particu-
lar quando se quer tratar de eventos de probabilidade zero. Tradicionalmente, se P(B) = 0,
então P(A|B) não é definida. Isto leva a um número de dificuldades filosóficas em relação
a eventos com probabilidade zero. São eles realmente impossíveis? Caso contrário, quão
improvável um evento precisa ser antes de ele ser atribuído probabilidade zero? Deve um
evento em algum caso ser atribuído probabilidade zero? Se existem eventos com probabili-
dade zero que não são realmente impossíveis, então o que significa condicionar em eventos
de probabilidade zero? Por exemplo, considere o espaço de probabilidade ([0, 1], B, µ) onde
B é a σ-álgebra de Borel restrita a eventos contidos em [0, 1] e µ é uma medida de pro-
babilidade na qual todo intervalo em [0, 1] possui probabilidade igual ao seu comprimento.
Seja B = {1/4, 3/4} e A = {1/4}. Como P(B) = 0, P(A|B) não é definida. Porém parece
razoável assumir que neste caso P(A|B) = 1/2 já que µ intuitivamente implica que todos os
estados são equiprováveis, mas a definição formal de probabilidade condicional não permite
obter esta conclusão.
Alguns dos problemas mencionados no parágrafo anterior podem ser tratados considerando-
se probabilidades condicionais (e não probabilidade incondicionais) como a noção fundamen-
tal, porém a discussão destes modelos está fora do escopo deste curso.
Exemplo 3.1.8: Se P(C|D) = 0, 4 e P(D|C) = 0, 5, que evento é mais provável C ou D?
Solução:
P(C | D) =
P(C ∩ D)
P(D)
= 0.4 ⇒ P(D) =
P(C ∩ D)
0.4
.
P(D | C) =
P(C ∩ D)
P(C)
= 0.5 ⇒ P(C) =
P(C ∩ D)
0.5
.
Como
P(C∩D)
0.4
>
P(C∩D)
0.5
, então D é mais provável que C.
Campos & Rêgo
3.1. PROBABILIDADE CONDICIONAL 56
Exemplo 3.1.9: Se P(E) = 0, 4 e P(F) = 0, 7, o que pode-se concluir sobre P(E|F)?
Solução: Por definição,
P(E|F) =
P(E ∩ F)
P(F)
.
Porém, max(P(E)+P(F)−1, 0) ≤ P(E∩F) ≤ min(P(E), P(F)). Logo, 0, 1 ≤ P(E∩F) ≤
0, 4, portanto
0, 1
0, 7
≤ P(E|F) ≤
0, 4
0, 7
.
Exemplo 3.1.10: (Paradoxo de Monty Hall) Monty Hall foi um popular apresentador
de programa de jogos em TV cujo jogo começava mostrando ao participante três portas
fechadas d
1
, d
2
, d
3
, onde atrás de apenas uma delas havia um prêmio valioso. O participante
selecionava uma porta, por exemplo, d
1
, mas antes que a porta fosse aberta, Monty Hall,
que sabia em que porta estava o prêmio, por exemplo, d
2
, abria a porta restante d
3
, que não
continha o prêmio. O participante tinha então permissão para ficar com sua porta original,
d
1
, ou escolher a outra porta fechada. A pergunta é se é melhor ficar com a porta original
ou trocar de porta. A fórmula de Bayes é utilizada para analisar este problema. Seja G uma
porta escolhida aleatoriamente para conter o prêmio; Y a porta que o participante escolhe
primeiro; e M a porta que Monty Hall abre. O participante não tem qualquer conhecimento
a priori sobre a localização do prêmio, ou seja ele considera todas as portas equiprováveis, e
isto pode ser modelado por
P(G = d
i
|Y = d
j
) =
1
3
,
isto é, todas as portas têm a mesma probabilidade de conter o prêmio não importa qual porta
o participante escolha. Se o participante escolher uma porta que não contém o prêmio, Monty
Hall necessariamente terá de abrir a porta que não contém o prêmio, isto pode ser modelado
por
P(M = d
i
1
|Y = d
i
2
, G = d
i
3
) = 1,
onde i
1
, i
2
, i
3
∈ {1, 2, 3} e são distintos. Se o participante escolher corretamente, por exemplo,
Y = G = d
i
2
, então Monty Hall escolhe aleatoriamente entre as outras duas outras portas:
P(M = d
i
1
|Y = G = d
i
2
) =
1
2
, para d
i
1
= d
i
2
.
1
Para determinar se o participante deve trocar de porta, deve-se calcular
P(G = d
1
|Y = d
2
, M = d
3
) =
P(G = d
1
, Y = d
2
, M = d
3
)
P(Y = d
2
, M = d
3
)
=
P(M = d
3
|G = d
1
, Y = d
2
)P(G = d
1
|Y = d
2
)P(Y = d
2
)
P(M = d
3
|Y = d
2
)P(Y = d
2
)
=
P(M = d
3
|G = d
1
, Y = d
2
)P(G = d
1
|Y = d
2
)
P(M = d
3
|Y = d
2
)
=
1/3
P(M = d
3
|Y = d
2
)
.
1
A solução depende como este caso é resolvido.
Campos & Rêgo
3.1. PROBABILIDADE CONDICIONAL 57
O Teorema da Probabilidade Total e a definição de probabilidade condicional são utilizados
para determinar o valor de P(M = d
3
|Y = d
2
).
P(M = d
3
|Y = d
2
) =
P(Y = d
2
, M = d
3
)
P(Y = d
2
)
=
P(Y = d
2
, M = d
3
, G = d
1
) + P(Y = d
2
, M = d
3
, G = d
2
) + P(Y = d
2
, M = d
3
, G = d
3
)
P(Y = d
2
)
=
P(M = d
3
|Y = d
2
, G = d
1
)P(G = d
1
|Y = d
2
)P(Y = d
2
)
P(Y = d
2
)
+
P(M = d
3
|Y = d
2
, G = d
2
)P(G = d
2
|Y = d
2
)P(Y = d
2
)
P(Y = d
2
)
+
P(M = d
3
|Y = d
2
, G = d
3
)P(G = d
3
|Y = d
2
)P(Y = d
2
)
P(Y = d
2
)
= P(M = d
3
|Y = d
2
, G = d
1
)P(G = d
1
|Y = d
2
)
+P(M = d
3
|Y = d
2
, G = d
2
)P(G = d
2
|Y = d
2
)
+P(M = d
3
|Y = d
2
, G = d
3
)P(G = d
3
|Y = d
2
)
= 1 ·
1
3
+
1
2
·
1
3
+ 0 =
1
2
.
Logo, P(G = d
1
|Y = d
2
, M = d
3
) =
2
3
, e o participante deve trocar de porta de sua escolha
original d
2
para d
1
!
Exemplo 3.1.11: Seja D o evento que um indivíduo selecionado ao acaso de uma população
tem uma doença particular. A probabilidade que um indivíduo selecionado ao acaso nesta
população tenha determinada doença é p
d
. Existe um teste para diagnóstico desta doença
que sempre acusa presença da doença quando o indivíduo tem a doença. Contudo, quando
o indivíduo não tem a doença, o teste reporta falsamente que o indivíduo tem a doença com
probabilidade p
t
. Seja TP o evento que o teste reporta positivamente que o indivíduo tem
a doença. Formalmente,
P(D) = p
d
, P(TP|D) = 1, P(TP|D
c
) = p
t
.
Um indivíduo pode estar interessado em saber a probabilidade P(D|TP) que ele tenha a
doença dado que o teste deu positivo. Se, por exemplo, a doença for rara, p
d
= 0, 001 e o
teste reportar falsamente com probabilidade pequena p
t
= 0, 05, será visto que, apesar desta
pequena probabilidade do teste dá um resultado errado, a probabilidade do indivíduo ter a
doença é pequena. Pela fórmula de Bayes
P(D|TP) =
P(TP|D)P(D)
P(TP|D)P(D) + P(TP|D
c
)P(D
c
)
=
p
d
p
d
+ p
t
(1 −p
d
)
= 0, 02.
Exemplo 3.1.12: Suponha que todos os bytes tenham a mesma probabilidade de ocorrên-
cia. Seja W o número de 1’s em um byte. Considere os seguintes eventos:
A = {O primeiro e o segundo bit são iguais a 1}
Campos & Rêgo
3.2. INDEPENDÊNCIA 58
e
B = {W é um número ímpar}.
Calcular P(A), P(B), P(B|A) e P(A|B).
Solução:
P(A) =
||A||
||Ω||
=
2
6
2
8
=
1
4
.
P(B) =
||B||
||Ω||
=

8
1

+

8
3

+

8
5

+

8
7

2
8
=
1
2
.
P(B|A) =
P(A∩ B
P(A)
,
onde P(A∩ B) =
||A∩B||

=
(
6
1
)+(
6
3
)+(
6
5
)
2
8
=
1
8
. Portanto,
P(B|A) =
1
8
1
4
=
1
2
.
P(A|B) =
P(A∩ B)
B
=
1
8
1
2
=
1
4
.
Exemplo 3.1.13: Dois dados são jogados, um após o outro, e observa-se o evento a soma
dos dois dados é igual a 9; então, qual a probabilidade do primeiro dado ter dado resultado
4?
Solução:
P(A|B) =
P(A∩ B)
P(B)
=
1
36
4
36
=
1
4
.
3.2 Independência
O que exatamente significa que dois eventos são independentes? Intuitivamente, isto significa
que eles não têm nada a ver um com o outro, são não relacionados; a ocorrência de um não
tem qualquer influência sobre a ocorrência do outro. A intuição por trás da frase “o evento
A é independente do evento B” é que o conhecimento sobre a tendência para A ocorrer
dado que sabe-se que B ocorreu não é alterada quando sabe-se que B ocorreu. Então,
usando probabilidades condicionais pode-se formalizar esta intuição da seguinte forma: A é
independente de B se P(A|B) = P(A). Mas usando a definição de probabilidade condicional,
chega-se a conclusão que A é independente de B se P(A∩B) = P(A)P(B). Como esta última
expressão é definida inclusive para o caso de P(B) = 0, ela é a expressão adotada como a
definição de independência entre dois eventos.
Definição 3.2.1: O evento A é independente do evento B se P(A∩ B) = P(A)P(B).
Campos & Rêgo
3.2. INDEPENDÊNCIA 59
Esta definição de independência implica que independência é um conceito simétrico em
teoria da probabilidade, isto é, A é independente de B se e somente se B é independente
de A. Note que esta definição também implica que eventos A e B são independentes se
P(A) = 0 ou P(B) = 0, o que pode gerar conclusões não intuitivas se de fato P(A) = 0
ou P(B) = 0. Por exemplo, se P(A) = 0, então A é independente dele mesmo, porém
A certamente não é não relacionado consigo mesmo. Similarmente, é fácil provar que se
P(A) = 1, A é independente dele mesmo. O seguinte teorema prova que estes são os únicos
casos em que um evento é independente dele mesmo.
Teorema 3.2.2: A é independente dele mesmo se e somente se P(A) = 0 ou P(A) = 1.
Prova:
P(A∩ A) = P(A) = P(A)P(A) ⇔ P(A) = 0 ou P(A) = 1.
Intuitivamente, se A é independente de B o fato que B não ocorreu, ou seja que B
c
ocorreu, não deve alterar a probabilidade de A. Portanto, é de se esperar que se A e B são
independentes, então A e B
c
também são. O seguinte teorema prova que esta intuição é
verdadeira.
Teorema 3.2.3: Se A e B são eventos independentes, A e B
c
(respectivamente A
c
e B,
A
c
e B
c
) também o são.
Prova:
A = A∩ Ω = A ∩ (B ∪ B
c
) = (A∩ B) ∪ (A ∩ B
c
).
Então, como A∩ B e A∩ B
c
são mutuamente exclusivos, o axioma K3 implica que
P(A) = P(A∩ B) + P(A∩ B
c
).
Como A e B são independentes,
P(A) = P(A)P(B) + P(A∩ B
c
).
Rearrajando os termos e utilizando o fato que P(B
c
) = 1−P(B), tem-se que P(A∩B
c
) =
P(A)P(B
c
).
O conceito de independência também se aplica a uma coleção arbitrária de eventos
{A
i
}
i∈I
, onde I é um conjunto de índices. Neste caso, têm-se duas definições.
Definição 3.2.4: Uma coleção de eventos {A
i
}
i∈I
é independente par a par se para todo
i = j ∈ I, A
i
e A
j
são eventos independentes.
Definição 3.2.5: Uma sequência finita de eventos A
1
, A
2
, . . . , A
n
, n ≥ 1, é mutuamente
independente se para todo I ⊆ {1, . . . , n},
P(∩
i∈I
A
i
) =
¸
i∈I
P(A
i
).
Campos & Rêgo
3.2. INDEPENDÊNCIA 60
Definição 3.2.6: Uma coleção de eventos {A
i
}
i∈I
é mutuamente independente se para
todo J ⊆ I finito, {A
i
}
i∈J
são mutuamente independentes.
Exemplo 3.2.7: Se Ω = {1, 2, 3, 4} e P({w}) = 1/4, então A = {1, 2}, B = {1, 3}, e
C = {2, 3} são eventos independentes par a par.
Solução: Pode-se verificar isto pelo fato que
P(A∩ B) = P({1}) =
1
4
=
1
2
1
2
= P(A)P(B).
Similarmente, pode-se provar o mesmo resultado para os outros pares. Contudo,
P(A∩ B ∩ C) = P(∅) = 0 = P(A)P(B)P(C) =
1
8
.
Então, A, B, e C não são mutuamente independentes.
Exemplo 3.2.8: Se Ω = {1, 2, 3, 4, 5, 6}, A = {1, 2, 4}, e B = {2, 3, 5}, então construa uma
medida de probabilidade em Ω tal que A e B sejam independentes.
Solução: Seja p
i
a probabilidade do elemento i ∈ Ω. Então, para que A e B sejam inde-
pendentes,
P(A∩ B) = p
2
= P(A)P(B) = (p
1
+ p
2
+ p
4
)(p
2
+ p
3
+ p
5
).
Por exemplo, pode-se escolher p
1
= p
2
= p
3
= p
6
=
1
4
e p
4
= p
5
= 0. Deste modo,
P(A∩ B) =
1
4
e P(A) = P(B) =
1
2
.
Exemplo 3.2.9: O evento F de que um determinado sistema falhe ocorre se os eventos A
1
ou A
2
ocorrerem, mas o evento A
3
não ocorrer. Se A
1
, A
2
, A
3
são mutumente independetes
e P(A
1
) = 0.4, P(A
2
) = 0.35, e P(A
3
) = 0.1, então calcule P(F).
Solução: O evento F é igual ao evento (A
1
∪ A
2
) ∩ A
c
3
. Logo sua probabilidade é igual a:
P(F) = P((A
1
∪ A
2
) ∩ A
c
3
) = P(A
1
∪ A
2
)P(A
c
3
)
= (P(A
1
) + P(A
2
) −P(A
1
)P(A
2
))(1 −P(A
3
)) = (0.4 + 0.35 −0, 4 · 0.35)(0.9) = 0.549.
Exemplo 3.2.10: Assuma que A
1
, . . . , A
n
são eventos mutuamente independentes e que
P(A
i
) = p
i
. Calcular as probabilidades dos seguintes eventos:
(a) O evento A é o evento onde todos estes eventos ocorrem:
P(A) = P(∩
n
i=1
A
i
) =
n
¸
i=1
P(A
i
) =
n
¸
i=1
p
i
.
(b) O evento B é o evento que nenhum desses eventos ocorre:
P(B) = P(∩
n
i=1
A
c
i
) =
n
¸
i=1
P(A
c
i
) =
n
¸
i=1
(1 −p
i
).
Campos & Rêgo
3.3. EXERCÍCIOS 61
(c) O evento C é o evento onde pelo menos um desses eventos ocorre:
P(C) = P(B
c
) = 1 −P(B) = 1 −
n
¸
i=1
(1 −p
i
).
Exemplo 3.2.11: João e José disputam um jogo com uma moeda equilibrada. Cada
jogador lança a moeda duas vezes e vence o jogo aquele que primeiro obtiver dois resultados
iguais. João começa jogando e se não vencer passa a moeda para José e continuam alternando
jogadas. Qual a probabilidade de João vencer o Jogo?
Solução: Seja A
k
o evento dois resultados iguais são obtidos na k-ésima tentativa. Note
que P(A
k
) =
1
2
. Seja B
k
o evento João ganha na sua k-ésima jogada. Então,
B
1
= A
1
; B
2
= A
c
1
∩ A
c
2
∩ A
3
; B
3
= A
c
1
∩ A
c
2
∩ A
c
3
∩ A
c
4
∩ A
5
,
em geral,
B
k
= A
c
1
∩ A
c
2
∩ · · · ∩ A
c
2k−2
∩ A
2k−1
.
Portanto,
P(B
k
) = P(A
c
1
∩ A
c
2
∩ · · · ∩ A
c
2k−2
∩ A
2k−1
) = P(A
c
1
)P(A
c
2
) · · · P(A
c
2k−2
)P(A
2k−1
) = (
1
2
)
2k−1
,
onde a penúltima igualdade se deve ao fato dos lançamentos serem independentes. Logo,
P(João vencer) = P(∪

k=1
B
k
) =

¸
k=1
P(B
k
) =

¸
k=1
(
1
2
)
2k−1
=
2
3
.
3.3 Exercícios
1. Sabe-se que os eventos {B
1
, B
2
, B
3
} são disjuntos par a par e que sua união é igual
ao espaço amostral. Estes eventos têm as probabilidades P(B
1
) = 0.2 e P(B
2
) = 0.3.
Existe um outro evento A tal que P(A|B
1
) = 0.3, P(A|B
2
) = 0.4 e P(A|B
3
) = 0.1.
Calcule:
(a) P(A).
(b) P(B
2
|A).
2. Considere os eventos A, B e C. Sendo A e B independentes, A e C independentes e
B e C mutuamente excludentes, mostre que A e B ∪ C são independentes.
3. Numa certa cidade, 75% de seus habitantes têm menos de 30 anos, enquanto os outros
25% têm mais de 30 anos. Sabendo-se que a taxa de alfabetização entre os jovens,
idade < 30 anos é de 40% e entre os não jovens, idade ≥ 30 anos, é de 30%, calcule:
(a) a probabilidade de que um habitante escolhido ao acaso seja alfabetizado;
(b) a probabilidade de que um habitante alfabetizado ter menos de 30 anos.
Campos & Rêgo
3.3. EXERCÍCIOS 62
4. Um centro de processamento de dados comprou um lote de 5000 chips, dos quais 1000
foram manufaturados pela fábrica A e o restante pela B. Sabe-se que 10% dos chips
produzidos por A e 5% dos produzidos por B, respectivamente, são defeituosos.
(a) Um chip é escolhido aleatoriamente do lote. Qual é a probabilidade de que seja
defeituoso?
(b) Um chip é escolhido aleatoriamente do lote, observado, e constata-se que é defei-
tuoso. Qual é a probabilidade de que tenha sido produzido por A?
(c) Suponha que uma amostra de 20 chips seja retirada aleatoriamente do lote com-
prado. Qual será a probabilidade de se encontrar na amostra pelo menos 1 de-
feituoso? (este item será facilmente resolvido usando uma Binomial, a qual será
vista posteriormente)
5. Um porta-níqueis contém moedas de prata e de cobre em igual número. Extraem-se
ao acaso e sem reposição duas moedas. Calcule a probabilidade de que:
(a) saia uma moeda de prata na segunda tiragem;
(b) uma e uma só das moedas seja de prata;
(c) a segunda moeda extraída seja de prata, sabendo-se que a primeira era de cobre;
(d) pelo menos uma das moedas seja de cobre.
6. Seja o espaço amostral Ω = {a, b, c, d, e} onde P({a, b, c}) =
1
2
e P({a}) =
1
4
.
(a) Determine as probabilidades de todos os eventos cujas probabilidades podem ser
computadas dos dados.
(b) Compute P({b, c, d} | {a, b, c}).
(c) Compute P({a} | {a, b, c}).
7. Sabe-se que em um centro de processamento de dados, 80% dos programas são escritos
em C, 20% em Haskell, e que 20% dos programas em C e 40% dos em Haskell compilam
da primeira vez.
(a) Qual é a probabilidade de que um programa selecionado aleatoriamente compile
da primeira vez?
(b) Se um programa selecionado aleatoriamente compilar da primeira vez, qual é a
probabilidade de que tenha sido escrito em Haskell?
8. Suponha que a ocorrência ou não de chuva dependa das condições do tempo no dia
imediatamente anterior. Adimita que se chove hoje, choverá amanhã com probabilidade
0.7 e que se não chove hoje choverá amanhã com probabilidade 0.4. Sabendo-se que
choveu hoje, calcule a probabilidade que choverá depois de amanhã.
9. Em um teste de múltipla escolha, a probabilidade do aluno saber a resposta é p.
Havendo m escolhas se ele sabe a resposta, responde corretamente com probabilidade
1; se não sabe, responde corretamente com probabilidade 1/m.
Campos & Rêgo
3.3. EXERCÍCIOS 63
(a) Qual a probabilidade de que a pergunta tenha sido respondida corretamente?
(b) Qual a probabilidade que o aluno sabia a resposta dado que a pergunta foi res-
pondida corretamente?
10. Sejam A
1
, A
2
, . . . A
n
eventos independentes com p
k
= P(A
k
), k = 1, . . . , n. Obtenha a
probabilidade de ocorrência dos seguintes eventos, em termos das probabilidades p
k
:
(a) A ocorrência de exatamente um dos A
k
.
(b) A ocorrência de exatamente dois dos A
k
.
(c) A ocorrência de, no máximo, n −1 dos A
k
.
11. Considere as seis permutações das letras a, b, c como também os triplets (a, a, a),
(b, b, b), (c, c, c). Seja Ω consistindo dos nove triplets, cada um com probabilidade
1/9. Definindo os eventos
A
k
= { o k-ésimo lugar é ocupado pela letra a },
para k = 1, · · · , 3 mostre que eles são independentes dois a dois mas não são inde-
pendentes três a três (a questão também poderia ter sido: verifique se os eventos são
mutuamente independentes).
12. Suponha que três rapazes possuem bonés idênticos. Cada um atira seu boné no centro
de uma mesa. Os bonés são misturados e então cada um seleciona aleatoriamente um
boné.
(a) Qual é a probabilidade que nenhum dos três tenha escolhido seu próprio boné?
(b) Resolva o mesmo problema para n.
13. Em um conjunto de N itens, M estão com defeito. São tomados n itens para inspeção.
Se m ou mais itens dessa amostra são defeituosos, o conjunto todo é rejeitado. Encontre
a probabilidade de que isto aconteça.
14. Durante um dado período de tempo, um radar detecta um alvo com probabilidade p.
Sabe-se que as detecções de alvos por períodos de tempo idênticos, são independentes
umas das outras. Encontre a probabilidade que o míssel seja detectado em ao menos
um dos n períodos de tempo idênticos.
15. Um computador consiste de n unidades. A confiabilidade (tempo livre de falha) da
1a. unidade durante o tempo T é p
1
, da 2a. unidade para o tempo T é p
2
, e assim por
diante. As unidades falham independentemente umas das outras. Quando qualquer
unidade falha, o computador falha. Encontre a probabilidade de que o computador
falhe durante o tempo T.
16. Três mensagens são enviadas através de três canais de comunicação, cada uma das
quais pode ser transmitida com diferente exatidão. A transmissão de uma mensagem
pode levar a um dos seguintes eventos:
Campos & Rêgo
3.3. EXERCÍCIOS 64
A
1
= { a mensagem é transmitida da forma correta};
A
2
= { a mensagem é parcialmente distorcida};
A
3
= { a mensagem é completamente distorcida}.
As probabilidades dos eventos A
1
, A
2
e A
3
são conhecidas e iguais a p
1
, p
2
e p
3
(p
1
+ p
2
+ p
3
= 1). Considerando que mensagens podem ser distorcidas ou trans-
mitidas corretamente independentemente umas das outras, encontre a probabilidade
dos seguintes eventos:
(a) A = {todas as três mensagens são transmitidas da forma correta}.
(b) B = {pelo menos uma das mensagens é completamente distorcida}.
(c) C = {não menos de duas mensagens são completamente ou parcialmente distorcidas}.
17. Durante um dado período de tempo, um software pode apresentar erros com probabili-
dade p
0
. Assumindo independência entre os eventos considerados, quantos períodos de
tempo são necessários para que erros sejam detectados com probabilidade não menor
que p?
18. Uma mensagem que está sendo transmitida através de um canal de comunicação con-
siste de n símbolos. Durante a transmisssão, a probabilidade de cada um dos símbolos
serem distorcidos, independentemente uns dos outros, é p. Por questões de segurança,
cada mensagem é então enviada k vezes.
(a) Encontre a probabilidade de que pelo menos uma das mensagens que está sendo
transmitida, não seja distorcida em qualquer um dos seus símbolos.
(b) Quantas vezes uma mensagem precisa ser repetida para que a probabilidade de
que pelo menos uma das mensagens não seja distorcida não seja menor que p?
19. Coloque V ou F nas sentenças abaixo:
(a) A e B independentes ⇒ P(A∪ B) = P(A) + P(B). ( )
(b) A e B independentes ⇒ P(A∪ B) = P(A) + P(B) −P(A)P(B). ( )
(c) A e B independentes ⇒ P(A∩ B) = P(A)P(B). ( )
(d) A e B independentes ⇒ P(A | B) = P(B). ( )
(e) A e B independentes ⇒ P(A | B) = P(A). ( )
(f) A e B são excludentes ⇔ A e B são independentes. ( )
Nos itens a seguir B = {bebo}, D = {dirijo}. Você vai responder estes itens
tendo em vista que você é um cidadão brasileiro responsável, consciente
de que o futuro do seu país depende de você, aliás, você é o futuro do
Brasil!
(g) B ∩ D. ( )
(h) B ∩ D. ( )
Campos & Rêgo
3.3. EXERCÍCIOS 65
(i) P(D | B) = 1. ( )
(j) P(B | D) = 0. ( )
(k) B e D são eventos independentes. ( )
(l) B e D são eventos excludentes. ( )
20. Uma mensagem consistindo de n símbolos binários "0"e "1"é enviada. Cada símbolo é
distorcido com uma probabilidade p. Por questões de segurança a mensagem é repetida
duas vezes. A informação é considerada correta se ambas as mensagens coincidem.
Encontre a probabilidade de que ambas as mensagens estejam distorcidas, a despeito
de coincidirem.
21. A causa de um acidente está sendo investigada e existem quatro hipótesis possíveis: H
1
,
H
2
, H
3
e H
4
. Estatisticamente sabe-se que P(H
1
) = 0.2, P(H
2
) = 0.4, P(H
3
) = 0.3
e P(H
4
) = 0.1. Já é sabido que ocorreu o evento A = {falha no nível do óleo}. Pelas
mesmas estatísticas a probabilidade condicional do evento A dadas as hipótesis H
1
, H
2
,
H
3
e H
4
são, respectivamente, 0.9, 0, 0.2 e 0.3. Encontre as probabilidades a posteriori
para as hipótesis.
22. Um colégio é composto de 70% de homens e 30% de mulheres. Sabe-se que 40%
dos homens e 60% das mulheres são fumantes. Qual é a probabilidade de que um
estudante que foi visto fumando seja homem? (estes dados, atualmente, pelo menos
entre os alunos do CCEN e do CIn, ambos da UFPE s ao irreais, pois as probabilidades
de fumantes são quase zero!)
23. Suponha que os automóveis têm igual probabilidade de serem produzidos na segunda,
terça, quarta, quinta e sexta-feira. As percentagens de automóveis amarelos produzidos
nos diferentes dias da semana são: segunda, 4%; terça, quarta e quinta, 1%; sexta, 2%.
Se você compra um automóvel amarelo, qual é a probabilidade de que o mesmo foi
produzido numa segunda-feira?
24. Um homem dispara 12 tiros independentemente num alvo. Qual é a probabilidade de
que atinja o alvo pelo menos uma vez, se tem probabilidade 9/10 de atingir o alvo em
qualquer tiro?
25. Certo experimento consiste em lançar um dado equilibrado duas vezes, independente-
mente. Dado que os dois números sejam diferentes, qual é a probabilidade (condicional)
de:
(a) pelo menos um dos números ser 6;
(b) a soma dos números ser 8.
26. Três prisioneiros
2
são informados por seu carcereiro que um deles foi escolhido aleato-
riamente para ser executado, e os outros dois serão libertados. O prisioneiro A pede
2
Este problema aparece em vários livros as quais estão aqui presentes. Você vê alguma semelhança entre
o citado problema e o Paradoxo de Monty Hall?
Campos & Rêgo
3.3. EXERCÍCIOS 66
ao carcereiro para lhe dizer confidencialmente qual, de seus dois companheiros de cela,
será libertado, afirmando que não há qualquer problema, pois ele ja sabe que pelo
menos um deles estará em liberdade. O carcereiro recusa-se a responder a pergunta,
argumentando que, se A soubesse qual de seus companheiros seria libertado, então sua
própria probabilidade de ser executado cresceria de 1/3 para 1/2. Que você pensa
do julgamento de carcereiro? (S. M. Ross, Introduction to Probability Models. Fifth
Edition, Academic Press, 1972, pp. 20)
27. Consider three prisioners, A, B, and C. Two of the prisioners are to be released, and
the prisioners know this, but not the identities of the two. Prisioner A ask the guard
to tell him the identity of one prisioner other than himself who is to be released. The
guard refuses and explains himself by saying to prisioner A, “your probability of being
released is now 2/3. If I tell you that B, say, is to be released, then you would be
one of only two prisioners whose fate is unknown and your probability of release would
consequently decrease to 1/2. Since I dont’t want to hurt your chances for release I am
not going to tell you.” Is the guard correct in his reasoning? (R. Isaac, The Pleasures
of Probability. Springer-Verlag, 1995, pp. 24)
28. The Prisioner’s Dilemma. Three prisioners A, B, and C, with apparently equally
good records have applied for parele. The parole board has decided to release teo of
the three, and the prisioners know this but not which two. A warder friend of prisioner
A knows who are to be released. Prisioner A realizes that it would be unethical to
ask the warder if he, A, is to be released, but thinks of asking for the name of the one
prisioner other than himself who is to be released. He thinks that if the warder says
“B will be released”, his own chances have gone down to 1/2, because either A and B
or B and C are to be released. And so A decides not to reduce his chances by asking.
However, A is mistaken in his calculations. Explain. (F. Mosteller, Fifty Challenging
Problems in Probability. Dover Publications, Inc., New York, 1965, pp 28.)
29. Three prisioners A, B, and C, are locked in their cells. It is common knowledge that
one of them will be executed the next day and the others pardoned. Only the governor
knows which one will be executed. Prisioner A ask the guard a favor: “Please ask
the governor who will be executed, and then take a message to one of my friends B
and C to let him know that he will be pardoned in the morning”. The guard agrees,
and comes back later and tells A that he gave the pardon message to B. What are
A’s chances of being executed, given this information? (Answer this mathematically,
not by energetic waving of hands.) (S. Russel and P. Norvig, Artifitial Intelligence A
Modern Approach. Prentice Hall, New Jersey , 1995.)
30. Num stand de automóveis os registros indicam que 50% dos clientes pretendem ar
condicionado no carro, 49% preferem carro com direção hidráulica e 25% interessam-se
pelas duas coisas simultaneamente. Um registro é selecionado aleatoriamente.
(a) Qual é a probabilidade de que o ar condicionado tenha sido pretendido mas não a
preferência do carro com direção hidráulica?
Campos & Rêgo
3.3. EXERCÍCIOS 67
(b) Qual é a probabilidade de que nenhuma das referidas preferências tenha sido
selecionada?
(c) Qual é a probabilidade de exatamente uma das referidas preferências ter sido
selecionada?
31. Três jornais A, B e C são publicados em uma cidade e uma recente pesquisa entre os
elitores indica o seguinte: 20% lêem A; 26% lêem B; 14% lêem C; 8% lêem A e B; 5%
lêem A e C; 2% lêem A, B e C; 4% lêem B e C. Para um adulto escolhido ao acaso,
calcule a probabilidade de que:
(a) ele não leia qualquer dos jornais;
(b) ele leia exatamente um dos jornais;
(c) ele leia ao menos A e B se se souber que ele lê ao menos um dos jornais publicados.
32. Uma máquina impressora pode imprimir n letras, digamos α
1
, α
2
, · · · α
n
. Ela é acionada
por impulsos elétricos, cada letra sendo produzida por um impulso diferente. Suponha
que exista uma probabilidade constante p de imprimir a letra correta e também suponha
independência. Um dos n impulsos, escolhido ao acaso, foi alimentado na máquina duas
vezes e, em ambas, a letra α
1
foi impressa. Calcule a probabilidade de que o impulso
escolhido tenha sido para imprimir α
1
.
33. Estima-se que a probabilidade de que Mário seja culpado é 0.2. São chamadas duas
testemunhas, Alberto e Carlos. Se Mário for realmente culpado, Alberto dirá que ele
é culpado com certeza e Carlos dirá que Mário é culpado com probabilidade 0.6. Se
Mário for inocente, Alberto dirá com probabilidade de 0.3 que ele é inocente e Carlos
dirá certamente que ele é inocente.
(a) Qual é a probabilidade de Alberto dizer que Mário é inocente?
(b) Qual é a probabilidade de Mário ser inocente se Carlos disser que é inocente?
Campos & Rêgo
Capítulo 4
Variáveis Aleatórias Unidimensionais e
Funções
4.1 Introdução
Analisando o tráfego de redes Ethernet, o interesse pode ser, por exemplo, nas variáveis nú-
mero total de bytes, ou número total de pacotes, ou ainda, percentual de utilização da rede
em determinados períodos de tempo. Suponha que uma moeda é lançada cinco vezes. Qual
é o número de caras? Quantidades desse tipo é o que tradicionalmente têm sido chamadas
de variáveis aleatórias. Intuitivamente, são variáveis aleatórias porque seus valores variam,
dependendo da sequência de lançamentos da moeda obtida ou do instante em que a rede
é observada; o adjetivo “aleatória” é usado para enfatizar que o seu valor é de certo modo
incerto. Formalmente, contudo, uma variável aleatória não é nem aleatória nem variável.
Na verdade, variáveis aleatórias são funções, como será visto a seguir. Uma variável alea-
tória é uma função real. Sequências de variáveis aleatórias são sequências de funções reais.
Convergência de variáveis aleatórias é convergência de funções reais e teoremas limite sobre
variáveis aleatórias são teoremas limite sobre funções reais.
Definição 4.1.1: Seja (Ω, A, P) um espaço de probabilidade. Uma função real X : Ω → R,
é chamada de variável aleatória se para todo Boreliano B, X
−1
(B) ∈ A, onde X
−1
(B) =
{ω ∈ Ω : X(ω) ∈ B} é o conjunto de elementos do espaço amostral cuja imagem segundo X
está em B.
Figura 1
Notações comumente encontradas, com os respectivos significados:
[X = x] = {ω ∈ Ω | X(ω) = x}, B = {x},
[X ≤ x] = {ω ∈ Ω | X(ω) ≤ x}, B = (−∞, x],
[x ≤ X ≤ y] = {ω ∈ Ω | x ≤ X(ω) ≤ y}, B = [x, y].
Dada uma variável aleatória X, pode-se definir uma probabilidade, P
X
, no espaço men-
surável (IR, B) da seguinte maneira: para todo B ∈ B, seja P
X
(B) = P(X
−1
(B)). Por
68
4.2. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA 69
definição de variável aleatória, tem-se que X
−1
(B) ∈ A, então P
X
está bem definida. P
X
satisfaz os axiomas K1, K2, e K5

de probabilidade, pois:
(K1) P
X
(B) = P(X
−1
(B)) = P(A) ≥ 0.
(K2) P
X
(IR) = P(X
−1
(IR)) = P(Ω) = 1.
(K5

) Suponha que B
1
, B
2
, . . . são eventos Borelianos disjuntos dois a dois. Então,
P
X
(∪
n
B
n
) = P(X
−1
(∪
n
B
n
)) = P(∪
n
(X
−1
(B
n
))) =
¸
n
P(X
−1
(B
n
)) =
¸
n
P
X
(B
n
).
A probabilidade P
X
é dita como sendo a probabilidade induzida pela variável aleatória
X.
4.2 Função de Distribuição Acumulada
Para uma dada variável aleatória X, uma maneira de descrever a probabilidade induzida P
X
é utilizando sua função de distribuição acumulada.
Definição 4.2.1: A função de distribuição acumulada de uma variável aleatória X, repre-
sentada por F
X
, é definida por
F
X
(x) = P(X ≤ x) = P
X
((−∞, x]), ∀x ∈ IR.
A função de distribuição acumulada F
X
satisfaz às seguintes propriedades:
(F1) Se x ≤ y, então F
X
(x) ≤ F
X
(y).
x ≤ y ⇒ (−∞, x] ⊆ (−∞, y] ⇒ P
X
((−∞, x]) ≤ P
X
((−∞, y]) ⇒ F
X
(x) ≤ F
X
(y).
(F2) Se x
n
↓ x, então F
X
(x
n
) ↓ F
X
(x).
Se x
n
↓ x, então os eventos (−∞, x
n
] são decrescentes e ∩
n
(−∞, x
n
] = (−∞, x]. Logo,
pela continuidade da probabilidade, tem-se que P
X
((−∞, x
n
]) ↓ P((−∞, x]), ou seja,
F
X
(x
n
) ↓ F
X
(x).
(F3) Se x
n
↓ −∞, então F
X
(x
n
) ↓ 0, e se x
n
↑ ∞, então F
X
(x
n
) ↑ 1.
Se x
n
↓ −∞, então os eventos (−∞, x
n
] são decrescentes e ∩
n
(−∞, x
n
] = ∅. Logo, pela
continuidade da probabilidade, tem-se que P
X
((−∞, x
n
]) ↓ P(∅), ou seja, F
X
(x
n
) ↓ 0.
Similarmente, se x
n
↑ ∞, então os eventos (−∞, x
n
] são crescentes e ∪
n
(−∞, x
n
] = IR.
Logo, pela continuidade da probabilidade, tem-se que P
X
((−∞, x
n
]) ↑ P(Ω), ou seja,
F
X
(x
n
) ↑ 1.
Campos & Rêgo
4.2. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA 70
Teorema 4.2.2: Uma função real F satisfaz F1–F3 se e somente se F é uma função de
distribuição de probabilidade acumulada.
Prova: A prova de que se F for uma função de distribuição de probabilidade acumulada,
então F satisfaz F1-F3 foi dada acima. A prova de que toda função real que satisfaz F1-F3
é uma função de probabilidade acumulada está fora do escopo deste livro.
Uma função de distribuição acumulada pode corresponder a várias variáveis aleatórias
no mesmo espaço de probabilidade (Ω, A, P). Por exemplo, seja X tal que P(X = 1) =
P(X = −1) =
1
2
. Logo, P(−X = 1) = P(−X = −1) =
1
2
. Portanto, X e −X têm a mesma
distribuição. Consequentemente, F
X
= F
−X
.
A condição F2 significa que toda função distribuição de probabilidade acumulada F
X
é
continua à direita. Ainda mais, como F
X
é não-decrescente e possui valores entre 0 e 1,
pode-se provar que ela tem uma quantidade enumerável de descontinuidades do tipo salto.
Pela continuidade à direita, o salto no ponto x é igual a
F
X
(x) −F
X
(x

) = F
X
(x) − lim
n→∞
F(x −
1
n
)
= P
X
((−∞, x]) − lim
n→∞
P
X
((−∞, x −
1
n
])
= lim
n→∞
P
X
((x −
1
n
, x]).
Como a sequência de eventos (x −
1
n
, x] é decrescente e ∩
n
(x −
1
n
, x] = {x}, então {x} é
um Boreliano, pois é limite de Borelianos, e
P
X
(x) = F
X
(x) −F
X
(x

). (4.1)
Ou seja, a probabilidade da variável aleatória X assumir o valor x é igual ao salto da
função de distribuição acumulada F
X
no ponto x. O próximo teorema indica que o conjunto
de pontos de descontinuidade de F é enumerável.
Teorema 4.2.3: Seja D o conjunto de pontos de descontinuidade da função de distribuição
F. Então, D é enumerável.
Prova: Pela monotonicidade, tem-se que para todo x ∈ IR, F(x

) ≤ F(x) ≤ F(x
+
). Logo,
x ∈ D se, e somente se, F(x
+
) > F(x

). Para n = 1, 2, 3, . . . seja
A
n
= {x : F(x
+
) −F(x

) >
1
n
}.
Então, D = ∪

n=1
A
n
. Será visto que todo A
n
contém menos que n pontos e, portanto, é
finito, dessa forma, D será enumerável.
Por absurdo, suponha que exista A
n
contendo n pontos. Assim, A
n
= {x
1
, x
2
, . . . , x
n
},
onde x
1
< x
2
< · · · x
n
e
0 ≤ F(x

1
) ≤ F(x
+
1
) ≤ F(x

2
) ≤ F(x
+
2
) ≤ · · · ≤ F(x

n
) ≤ F(x
+
n
) ≤ 1.
Campos & Rêgo
4.2. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA 71
Então,
¸
n
k=1
[F(x
+
k
)−F(x

k
)] ≤ 1. Mas por definição do conjunto A
n
, tem-se que F(x
+
i
)−
F(x

i
) >
1
n
para todo x
i
∈ A
n
. Portanto,
¸
n
k=1
[F(x
+
k
) − F(x

k
)] > n ×
1
n
> 1, absurdo.
Logo, A
n
contém menos que n pontos.
Exemplo 4.2.4: Este exemplo mostra como usar a função de distribuição acumulada
para calcular probabilidades. O resultado em (b) já foi visto em 4.1. Sua reesposição aqui
tem como objetivo enfatizar a comutação do limite com a probabilidade para sequências
monotônicas.
Lembrando que
F
X
(x) = P(X ≤ x) = P((−∞, x]).
(a) (−∞, b] = (−∞, a] ∪ (a, b], a ≤ b ⇒
P((−∞, b]) = P((−∞, a]) + P((a, b]) ⇒
P((a, b]) = P((−∞, b]) −P((−∞, a]) = F
X
(b) −F
X
(a) ⇒
P(a < X ≤ b) = F
X
(b) −F
X
(a). (4.2)
(b) I
n
= {x : a −
1
n
< x ≤ a +
1
n
}. Isto significa que I
1
⊃ I
2
⊃ · · · ⇒ lim
n→∞
I
n
= ∩

n=1
I
n
=
{a}. Sabe-se que (Capítulo 1) P(limI
n
) = limP(I
n
). Portanto,
P(X = a) = P(∩

n=1
I
n
)
= P( lim
n→∞
I
n
)
= lim
n→∞
P(I
n
)
= lim
n→∞
P(a −
1
n
< X ≤ a +
1
n
)
= lim
n→∞
(F
X
(a +
1
n
) −(F
X
(a −
1
n
))
= lim
n→∞
F
X
(a +
1
n
) − lim
n→∞
F
X
(a −
1
n
) ⇒
P(X = a) = F
X
(a
+
) −F
X
(a

). (4.3)
A expressão 4.3 é o salto da função de distribuição no ponto a. Se X é uma variável
aleatória discreta, F
X
(a
+
) −F
X
(a

) ≥ 0.
(c) (a, b) ∪ {b} = (a, b] ⇒
P((a, b)) +P({b}) = P((a, b]) ⇒
P((a, b)) = P((a, b]) −P(b) = F
X
(b) −F
X
(a) −P(X = b) ⇒
P(a < X < b) = F
X
(b) −F
X
(a) −P(X = b). (4.4)
O resultado em 4.4 foi obtido usando 4.2 e 4.3.
Campos & Rêgo
4.3. TIPOS DE VARIÁVEIS ALEATÓRIAS 72
(d) (a, b] ∪ {a} = [a, b] ⇒
P((a, b]) + P(a) = P([a, b]) ⇒
P([a, b]) = P((a, b]) + P(X = a) = F
X
(b) −F
X
(a) + P(X = a) ⇒
P(a ≤ X ≤ b) = F
X
(b) −F
X
(a) + P(X = a). (4.5)
O resultado em 4.5 foi obtido usando 4.2 e 4.3 .
(e) [a, b) = (a, b) ∪ {a} ⇒
P([a, b)) = P((a, b)) +P(a) = F
X
(b) −F
X
(a) −P(X = b) + P(X = a) ⇒
P(a ≤ X < b) = F
X
(b) −F
X
(a) −(P(X = b) −P(X = a)). (4.6)
4.6 foi obtida a partir de 4.4.
(f) (−∞, b] = (−∞, b) ∪ {b} ⇒
P((−∞, b]) = P((−∞, b)) +P(X = b) ⇒
P((−∞, b)) = P((−∞, b]) −P(X = b) ⇒
P(−∞ < X < b) = F
X
(b) −P(X = b). (4.7)
4.3 Tipos de Variáveis Aleatórias
Existem três tipos de variáveis aleatórias: discreta, contínua e singular.
4.3.1 Variável Aleatória Discreta
Definição 4.3.1: Uma variável aleatória X é discreta se assume valores num conjunto
enumerável com probabilidade 1, ou seja, se existe um conjunto enumerável {x
1
, x
2
, . . .} ⊆ IR
tal que P(X = x
i
) ≥ 0, ∀i ≥ 1 e P(X ∈ {x
1
, x
2
, . . .}) = 1.
A função p(·) definida por
p(x
i
) = P
X
({x
i
}), i = 1, 2, . . .
e
p(x) = 0, x / ∈ {x
1
, x
2
, . . .},
é chamada de função probabilidade de X. Toda função probabilidade é uma função real e
assume valores entre 0 e 1, sendo positiva para uma quantidade enumerável de pontos sendo
tal que
¸
i
p(x
i
) = 1. De modo geral escreve-se
0 ≤ p(x
i
) ≤ 1,
Campos & Rêgo
4.3. TIPOS DE VARIÁVEIS ALEATÓRIAS 73
¸
i
p(x
i
) = 1.
O conjunto de pontos
(x
i
, p(x
i
)), i = 1, 2, . . . ,
é usualmente denotado na literatura por distribuição de probabilidade da variável aleatória
X.
Para esta variável aleatória tem-se que
F
X
(x) =
¸
i:x
i
≤x
p(x
i
).
Seja p : IR → [0, 1], sendo p positiva para uma quantidade enumerável de pontos
{x
1
, x
2
, . . .} e satisfazendo
¸
i
p(x
i
) = 1 e seja
P(B) =
¸
x
i
∈B
p(x
i
), ∀B ∈ B.
Prova-se que P(B) é uma probabilidade em (R, B) (P satisfaz os axiomas de Kolmogorov).
Logo, a distribuição de uma variável aleatória discreta X pode ser determinada tanto pela
função de distribuição acumulada F
X
quanto pela sua função de probabilidade p.
4.3.2 Variável Aleatória Contínua
Definição 4.3.2: Uma variável aleatória X é contínua se existe uma função real f
X
(x) ≥ 0
tal que
F
X
(x) =

x
−∞
f
X
(t)dt, ∀x ∈ R.
A função f
X
é chamada de função densidade de probabilidade de X. F
X
é contínua e
f
X
(x) = F

X
(x).
Uma função f(x) ≥ 0 é densidade de alguma variável aleatória se e somente se,


−∞
f(x)dx = 1, sendo neste caso fácil provar que a função F definida por

x
−∞
f(t)dt satisfaz
às condições F1, F2, e F3. Portanto, pelo Teorema 4.2.2, F é uma função de distribuição
acumulada. Portanto, como para variável aleatória discreta, a distribuição de uma variável
aleatória contínua X pode ser determinada tanto pela função de distribuição acumulada F
X
quanto pela sua função densidade f
X
.
Uma variável aleatória X tem densidade se F
X
é a integral (de Lebesgue) de sua derivada;
sendo, neste caso, a derivada de F
X
uma função densidade para X. Em quase todos os casos
encontrados na prática, uma variável aleatória X tem densidade se F
X
é (i) contínua e (ii)
derivável por partes, ou seja, se F
X
é derivável no interior de um número finito ou enumerável
de intervalos cuja união é IR.
Campos & Rêgo
4.3. TIPOS DE VARIÁVEIS ALEATÓRIAS 74
Por exemplo, seja
F
X
(x) =

0 se x < 0,
x se 0 ≤ x < 1,
1 se x ≥ 1.
Então X tem densidade pois F
X
é contínua e derivável em todos os pontos da reta exceto
em {0, 1}.
Quando X é uma variável aleatória contínua,
P(X < b) = F
X
(b) −P(X = b)
= F
X
(b) −(F
X
(b
+
) −F
X
(b

))
= F
X
(b)
= P(X ≤ b).
4.3.3 Variável Aleatória Singular
Definição 4.3.3: Uma variável aleatória X é singular se F
X
é uma função contínua cujos
pontos de crescimento formam um conjunto de comprimento (medida de Lebesgue) nulo.
Na prática, a maioria das variáveis aleatórias é discreta ou contínua.
O exemplo de uma variável aleatória singular é a função de Cantor, cuja construção
segue-se.
Exemplo 4.3.4: Seja
F
0
(x) =

0, x < 0,
1, x > 1.
Dividindo-se o intervalo (0, 1) nos três subintervalos (0,
1
3
), (
1
3
,
2
3
) e (
2
3
, 1) e considerando-
se como valor de F em (
1
3
,
2
3
) a média dos valores de F
0
fora de (0, 1), isto é,
0+1
2
=
1
2
,
obtém-se F
1
(x):
F
1
(x) =

0, x < 1,
1
2
,
1
3
< x <
2
3
,
1, x > 1.
Cada terço do intervalo (0, 1) sendo dividido em três partes equivale a dividir (0, 1) em
nove partes. Para o intervalo (
1
9
,
2
9
), o valor da F é
0+
1
2
2
=
1
4
; para o intervalo (
7
9
,
8
9
), o valor
da F é
1
2
+1
2
=
3
4
.
Este processo constrói uma sequência de funções F
n
(x), n = 1, 2, · · · , cuja função limite,
F(x), satisfaz às propriedades F1, F2, F3. Além disso, F é uma função contínua cuja derivada
é igual a zero exceto em um conjunto de pontos que tem comprimento nulo. Portanto, F
é uma função de distribuição, entretanto não é nem discreta, nem contínua, é uma variável
aleatória singular.
Campos & Rêgo
4.4. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 75
4.3.4 Decomposição de uma Variável Aleatória
Pode ser visto (James, 1981) que toda variável aleatória é uma combinação dos três tipos:
discreta, contínua e singular; entretanto, as variáveis aleatória que são comuns no mundo
real ou são discretas, ou contínuas, ou uma combinação entre esses dois tipos (mistas).
O exemplo a seguir mostra como decompor F em suas partes discreta, contínua e singular.
Exemplo 4.3.5: Suponha que X ∼ U[0, 1] e Y = min(X, 1/2). Note que
F
Y
(x) =

0 se x < 0,
x se 0 ≤ x < 1/2,
1 se x ≥ 1/2.
F
Y
tem apenas um salto em x = 1/2 e p
1
= 1/2. Logo, F
d
(x) = 0 se x < 1/2 e
F
d
(x) = 1/2 se x ≥ 1/2. Diferenciando F
Y
, tem-se
F

Y
(x) =

0 se x < 0 ou x > 1/2,
1 se 0 < x < 1/2.
Logo, por definição,
f(x) =

0 se x ≤ 0 ou x ≥ 1/2,
1 se 0 < x < 1/2.
Portanto,
F
ac
(x) =

x
−∞
f(t)dt =

0 se x < 0,
x se 0 ≤ x ≤ 1/2,
1/2 se x > 1/2.
Como F
d
+ F
ac
= F
Y
, tem-se que F
s
(x) = 0, ∀x ∈ IR e não há parte singular.
Uma variável aleatória que possui apenas partes discreta e absolutamente contínua é
conhecida como uma variável aleatória mista. Na prática, é pouco provável que surja uma
variável aleatória singular. Portanto, quase todas as variáveis aleatórias são discretas, con-
tínuas ou mistas.
4.4 Funções de Variáveis Aleatórias
Muitas vezes é dada a distribuição de probabilidade que descreve o comportamento de uma
variável aleatória X definida no espaço mensurável (Ω, A), mas o interesse é na descrição de
uma função Y = H(X). Por exemplo, X pode ser uma mensagem enviada em um canal de
telecomunicações e Y ser a mensagem recebida.
Uma pergunta inicial é: se X é uma variável aleatória

X, log X, X
2
, 2X−3 são variáveis
aleatórias? Se sim, (o que é verdade), sendo conhecida a distribuição de probabilidade de
X, como esse fato pode ser usado para encontrar a lei de probabilidade de

X, log X, X
2
ou 2X −3?
O problema é determinar P(Y ∈ C), onde C é um evento Boreliano. Para determinar
essa probabilidade, a imagem inversa da função H é fundamental, ou seja, a probabilidade
Campos & Rêgo
4.4. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 76
do evento {Y ∈ C} será por definição igual a probabilidade do evento {X ∈ H
−1
(C)},
onde H
−1
(C) = {x ∈ IR : H(x) ∈ C}. Para que esta probabilidade esteja bem definida,
é preciso restringir H tal que H
−1
(C) seja um evento Boreliano para todo C Boreliano,
caso contrário não é possível determinar P({X ∈ H
−1
(C)}); uma função que satisfaz esta
condição é conhecida como mensurável com respeito a B. Note que Y também pode ser
vista como uma função do espaço amostral Ω, Y (ω) = H(X(ω)) para todo ω ∈ Ω. Vista
dessa maneira Y é uma variável aleatória definida em (Ω, A), pois para todo Boreliano
C, Y
−1
(C) = X
−1
(H
−1
(C)) e como por suposição H
−1
(C) é Boreliano porque X é uma
variável aleatória, tem-se que X
−1
(H
−1
(C)) ∈ A e portanto satisfaz a definição de uma
variável aleatória. A figura abaixo exibe os espaços mensuráveis e as transformações entre
eles.
Figura 2
Seja A = {ω ∈ Ω : X(ω) ∈ B}. Portanto, como já mencionado anteriormente, a
probabilidade induzida pela variável aleatória é tal que
P
X
(B) = P(X
−1
(B)) = P(A).
De forma similar, sendo
B = Y
−1
(C){x ∈ IR : H(x) ∈ C}
então,
P
Y
(C) = P
H(X)
(C) = P
X
({x ∈ IR : H(x) ∈ C}) = P({ω ∈ Ω : H(X(ω)) ∈ C}),
e assim,
P
Y
(C) = P
X
(Y
−1
(C)).
Logo,
P
Y
(C) = P
X
(B) = P(A).
A função H da variável aleatória X define uma variável aleatória no espaço de proba-
bilidade (IR, B, P
Y
), onde a medida de probabilidade P
Y
é induzida pela variável aleatória
Y = H(X). P
Y
está bem definida pois
Y
−1
(C) = B ∈ B,
o que mostra que a imagem inversa do conjunto mensurável C é o conjunto mensurável B.
Adicionalmente, P
Y
satisfaz os axiomas K1, K2, e K5

porque:
(K1)
P
Y
(C) = P
X
(Y
−1
(C)) = P
X
(B) = P(X
−1
(B)) = P(A) ≥ 0.
(K2)
P
Y
(IR) = P
X
(Y
−1
(IR)) = P
X
(IR) = P(X
−1
(IR)) = P(Ω) = 1.
Campos & Rêgo
4.4. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 77
(K5

) Sejam C
1
, C
2
, . . . , Borelianos tais que C
i
∩ C
j
= ∅, para todo i = j e Y
−1
(C
n
) = B
n
.
Então,
P
Y
(∪
n
C
n
) = P
X
(Y
−1
(∪
n
C
n
))
= P
X
(∪
n
B
n
)
=
¸
n
P
X
(B
n
)
=
¸
n
P
X
(Y
−1
(C
n
)
=
¸
n
P
Y
(C
n
).
Os exemplos a seguir ilustram como calcular a distribuição de probabilidade de uma
função de variável aleatória. Ressalta-se a importância fundamental da função de distribuição
acumulada, F, e de gráficos para visualizar as regiões C e B.
Exemplo 4.4.1: X, discreta; H(X), discreta. Admita-se que X tenha os valores
possíveis 1, 2, 3, . . . e suponha que P(X = n) = (1/2)
n
. Seja Y = 1 se X for par e Y = −1
se X for ímpar.
Solução: Então,
P(Y = 1) =

¸
n=1
(1/2)
2n
=

¸
n=1
(1/4)
n
=
1/4
1 −1/4
= 1/3.
Consequentemente,
P(Y = −1) = 1 −P(Y = 1) = 2/3.
De modo geral, suponha que X assume os valores x
1
, x
2
, . . . e que H uma função real
tal que Y = H(X) assume os valores y
1
, y
2
, . . .. Agrupando os valores que X assume de
acordo os valores de suas imagens quando se aplica a função H, ou seja, denotando por
x
i1
, x
i2
, x
i3
, . . . os valores de X tal que H(x
ij
) = y
i
para todo j, tem-se que
P(Y = y
i
) = P(X ∈ {x
i1
, x
i2
, x
i3
, . . .}) =

¸
j=1
P(X = x
ij
) =

¸
j=1
p
X
(x
ij
),
ou seja, para calcular a probabilidade do evento {Y = y
i
}, acha-se o evento equivalente
em termos de X, isto é, todos os valores x
ij
de X tal que H(x
ij
) = y
i
e somam-se as
probabilidades de X assumir cada um desses valores.
Exemplo 4.4.2: X, discreta; H(X), discreta. Seja X como no exemplo anterior e
H(X) = X
2
.
Solução: O contradomínio da variável Y , R
Y
, e as respectivas probabilidades são:
R
Y
= {0, 1, 4, . . . , n
2
, . . .},
Campos & Rêgo
4.4. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 78
P(Y = 0) = P(X = 0) = p
0
,
P(Y = 1) = P(X = 1) = p
1
,
P(Y = 4) = P(X = 2) = p
2
,
. . .
P(Y = n
2
) = P(X = n) = p
n
.
. . .
Exemplo 4.4.3: X, contínua; H(X), discreta. Seja f
X
(x) = 2x, 0 < x < 1 e Y = H(X)
definida por Y = 0 se X <
1
3
, Y = 1, se
1
3
≤ X <
2
3
e Y = 2, se X ≥
2
3
.
Solução: Em termos de eventos equivalentes tem-se que:
C
1
= {Y = 0} ≡ B
1
= {X <
1
3
},
C
2
= {Y = 1} ≡ B
2
= {
1
3
≤ X <
2
3
},
C
3
= {Y = 2} ≡ B
3
= {X ≥
2
3
}.
Logo,
P(Y = 0) = P(X <
1
3
) =
1
3
0
2xdx =
1
9
,
P(Y = 1) = P(
1
3
< X ≤
2
3
) =
2
3
1
3
2xdx =
3
9
,
P(Y = 2) = P(X ≥
2
3
) =

1
2
3
2xdx =
5
9
,
Exemplo 4.4.4: X, contínua; H(X), contínua. Seja a densidade de X como no exemplo
anterior e Y = H(X) = e
−X
.
Solução: O evento onde a densidade de X é não nula é B = {0 < X < 1}.
Portanto, a densidade de Y está concentrada em {y = H(x) : x ∈ B} = {e
−1
< y + 1} e
F
Y
(y) = P(Y ≤ y)
= P(e
−X
≤ y)
= P(−X ≤ ln y)
= P(X ≥ −ln y)
=

1
−ln y
2xdx
= 1 −(−ln y)
2
⇒ f
Y
(y) =
−2 ln y
y
.
Campos & Rêgo
4.4. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 79
Logo,
f
Y
(y) =

−2 lny
y
, y ∈ (e
−1
, 1),
0, y ∈ (e
−1
, 1).
Exemplo 4.4.5: Se f
X
(x) = 1, 0 < x < 1, e zero para quaisquer outros valores, qual a
distribuição de Y = −log(X)?
Solução: Como
0 < Y < ∞ ⇔ 0 < X < 1
e P(0 < X < 1) = 1, tem-se F
Y
(y) = 0, y ≤ 0. Se y > 0, então
P(Y ≤ y) = P(−log(X) ≤ y) = P(X ≥ e
−y
) = 1 −e
−y
,
ou seja, Y ∼ Exp(1), isto é, uma Exponencial (que será vista depois) de parâmetro 1.
No exemplo a seguir X é contínua e H(X) é contínua. A ênfase deste exemplo é mostrar
o cuidado na busca dos eventos equivalentes.
Exemplo 4.4.6: Seja f
X
(x) =
1
3
x
2
, −1 < x < 2 e zero para quaisquer outros valores de x.
Encontrar a função densidade da variável aleatória Y = X
2
.
Solução: Portanto, como pode ser visto na figura abaixo,
Figura 3
−1 < x < 1 ⇒ 0 < y < 1
e
1 ≤ x < 2 ⇒ 1 ≤ y < 4.
Então,
F
Y
(y) = P(Y ≤ y)
= P(X
2
≤ y)
= P(−

y ≤ X ≤

y)
= F
X
(

y) −F
X
(−

y) + P(X = −

y)
=

F
X
(

y) −F
X
(−

y), 0 < y < 1,
F
X
(

y), 1 ≤ y < 4.
Portanto,
f
Y
(y) =


y
3
, y ∈ (0, 1),

y
6
, y ∈ [1, 4).
0, y ∈ (0, 4).
No caso de X e Y serem contínuas, tem-se o teorema seguinte.
Campos & Rêgo
4.4. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 80
Teorema 4.4.7: Seja H uma função diferenciável, crescente ou decrescente em um dado
intervalo I, H(I) o contradomínio de H, H
−1
a função inversa de H e X uma variável
aleatória contínua com função densidade f
X
(x) > 0, se x ∈ I e f
X
(x) = 0, se x ∈ I. Então,
Y = H(X) tem função densidade de probabilidade dada por:
f
Y
(y) =

0, y ∈ H(I),
f
X
(H
−1
(y))|
dH
−1
(y)
dy
|, y ∈ H(I).
Prova:
(a) H é crescente. Logo, H
−1
também é crescente em I. Portanto,
F
Y
(y) = P(Y ≤ y)
= P(H(X) ≤ y)
= P(X ≤ H
−1
(y))
= F
X
(H
−1
(y)).
Logo,
d
dy
F
Y
(y) =
d
dy
F
X
(H
−1
(y)) =
dF
X
(H
−1
(y))
dx
dx
dy
,
onde x = H
−1
(y).
Mas,
d
dy
F
Y
(y) = F

Y
(y) = f
Y
(y).
Portanto,
dF
X
(H
−1
(y))
dx
dx
dy
= F

X
(H
−1
(y))
dH
−1
(y)
dy
.
Logo,
f
Y
(y) = f
X
(H
−1
(y))
dH
−1
(y)
dy
, y ∈ H(I).
(b) H é decrescente em I. Então H
−1
também é decrescente em I. Logo,
F
Y
(y) = P(Y ≤ y)
= P(H(X) ≤ y)
= P(X ≥ H
−1
(y))
= 1 −F
X
(H
−1
(y)) +P(X = H
−1
(y))
= 1 −F
X
(H
−1
(y)).
Campos & Rêgo
4.4. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 81
Porque P(X = H
−1
(y)) = 0 e seguindo o procedimento visto em (a),
F

Y
(y) = −F

X
(H
−1
(y))
dH
−1
(y)
dy
e assim
f
Y
(y) = −f
X
(H
−1
(y))
dH
−1
(y)
dy
, y ∈ H(I).
Também pode-se utilizar o método acima em outros casos em que a função H não seja
nem crescente nem decrescente em I. Para tanto suponha que I possa ser dividido em uma
quantidade enumerável I
1
, I
2
, I
3
, . . . de subintervalos tal que H seja crescente ou decrescente
em cada um deles, P
X
(I
j
∩ I
k
) = 0 e H(I
j
) = H(I
k
) para todo j = k. Neste caso, seja H
−1
j
a função inversa de H restrita ao subintervalo I
j
. Portanto,
F
Y
(y) = P(Y ≤ y)
= P(H(X) ≤ y)
=
¸
j:H
−1
j
é crescente
P(X ≤ H
−1
j
(y)) +
¸
j:H
−1
j
é decrescente
P(X ≥ H
−1
j
(y)).
Logo, pelos resultados anteriores,
f
Y
(y) =
¸
j
f
X
(H
−1
j
(y))|
d
dy
H
−1
j
(y)|, y ∈ H(I).
Exemplo 4.4.8: Seja X com densidade f
X
(x) e Y = X
2
. Então
Solução:
F
Y
(y) = P(Y ≤ y)
= P(X
2
≤ y)
= P(−

y ≤ X ≤

y)
= F
X
(

y) −F
X
(−

y) + P(X = −

y)
= F
X
(

y) −F
X
(−

y),
porque P(X = −

y) = 0. Logo,
d
dy
F
Y
(y) =
d
dy
(F
X
(

y) −F
X
(−

y)) =
d
dy
F
X
(

y) −
d
dy
F
X
(−

y).
Mas,
d
dy
F
Y
(y) = f
Y
(y),
Campos & Rêgo
4.5. EXERCÍCIOS 82
d
dy
F
X
(

y) =
dF
X
(

y)
dx
1
dx
1
dy
, x
1
=

y,
dF
X
(

y)
dx
1
= f
X
(

y),
dx
1
dy
=
1
2

y
,
d
dy
F
X
(−

y) =
dF
X
(−

y)
dx
2
dx
2
dy
, x
2
= −

y,
dF
X
(−

y)
dx
2
= f
X
(−

y),
dx
2
dy
= −
1
2

y
.
Logo,
f
Y
(y) =

1
2

y
(f
X
(

y) + f
X
(−

y)), y ≥ 0,
0, y < 0,
Alternativamente, poderia ter sudo usado o procedimento descrito anteriormente e par-
ticionar IR nos subintervalos I
1
= (−∞, 0] e I
2
= [0, +∞). Note que P
X
(I
1
∩ I
2
) = 0,
H(I
1
) = H(I
2
) = [0, +∞), H
−1
1
(y) = −

y e H
−1
2
(y) =

y. Portanto,
f
Y
(y) = f
X
(−

y)
1
2

y
+ f
X
(

y)
1
2

y
, y ≥ 0.
4.5 Exercícios
1. Resolva este exercício usando um software adequado.
(a) Para cada uma das funções abaixo, faça seu gráfico; verifique se é uma função
densidade de probabilidade para uma dada variável aleatória X. Se for, encontre
a função de distribuição acumulada e faça seu gráfico.
(a1) f
X
(x) = 6x(1 −x), 0 ≤ x ≤ 1.
(a2)
f
X
(x) =

1 +x, −1 ≤ x ≤ 0,
1 −x, 0 ≤ x ≤ 1,
0, quaisquer outros valores.
(a3) f
X
(x) = 1/(

2π) exp (−x
2
/2), x ∈ IR.
(a4)
f
X
(x) =

x/2, 0 ≤ x ≤ 1,
1/2, 1 ≤ x ≤ 2,
−x/2 + 3/2, 2 ≤ x ≤ 3,
0, quaisquer outros valores.
Campos & Rêgo
4.5. EXERCÍCIOS 83
(b) Seja a função de distribuição acumulada da variável aleatória X,
F
X
(x) =

0, x < 0,
(2/π) sin
−1
(

x), 0 ≤ x < 1,
1, x ≥ 1.
Faça o gráfico de F(·). Determine a função densidade de probabilidade e faça seu
gráfico.
2. Uma variável aleatória contínua X tem função densidade f
X
(x) = αe
−αx
, x > 0 e
α > 0.
(a) Determine a função de distribuição acumulada de X.
(b) Calcule as seguintes probabilidades usando a função encontrada no item anterior:
(b1) P(X ≤ 3).
(b2) P(X > 2).
(b3) P(X < −1).
(b4) P(X > −1).
3. Um ponto é escolhido ao acaso sobre uma reta de comprimento L. Qual é a proba-
bilidade de que a razão do segmento mais curto para o mais longo seja menor que
1/2?
4. Uma variável aleatória X tem densidade f
X
(·) dada por
f
X
(x) =

αx, 0 ≤ x < 0.5,
α(1 −x), 0.5 ≤ x < 1,
0, quaisquer outros valores.
(a) Determine o valor da constante α.
(b) Sejam os eventos A = {X < 0.5}, B = {X > 0.5} e C = {0.25 < X < 0.75}.
(b1) Calcule P(A | B).
(b2) Verifique se A, B e C são mutuamente independentes.
5. Um motorista tem que, obrigatoriamente, passar em 4 (e somente 4) semafóros para
alcançar seu destino. Em cada um deles, independentemente, a probabilidade do carro
parar é p. Seja uma variável aleatória X, definida como sendo o número de semáforos
que o carro passa antes de parar pela primeira vez. Estabeleça a distribuição de
probabilidade de X. Prove que a expressão encontrada é realmente uma distribuição
de probabilidade.
6. Em um jogo de dados, A paga R$20,00 a B e lança três dados honestos. Se sair a face
1 em no máximo um dos dados, A ganha R$20,00 de B; se sair face 1 em dois dados
apenas, A ganha R$50,00; se sair face 1 nos três dados, A ganha R$80,00. Determine
a distribuição de probabilidade do lucro líquido por jogada.
Campos & Rêgo
4.5. EXERCÍCIOS 84
7. Seja uma variável aleatória contínua X, com função de densidade
f
X
(x) = αe(−λ | x |), com x ∈ IR e α > 0.
(a) Determine a constante α.
(b) Esboçe o gráfico de f
X
(x).
(c) Determine F
X
(x).
(d) Determine m tal que P(X ≤ m) = P(X > m).
8. Suponha que a função de distribuição acumulada para uma variável aleatória X, F
X
(·),
fosse definida por F
X
(x) = P(X < x). Usando esta definição determine as seguintes
probabilidades:
(a) P(X ≤ x).
(b) P(a ≤ X ≤ b).
(c) P(a ≤ X < b).
(d) P(a < X < b).
Sugestões: (−∞, a] = (−∞, a) ∪ {a}, (−∞, a] ∪ (a, b) = (−∞, b).
9. Seja f
U
(u) = e
−u
, u ≥ 0. Mostre que f é uma função densidade. Encontre


0
uf
U
(u)du.
10. Suponhamos que dez cartas estejam numeradas de 1 até 10. Das dez cartas, retira-
se uma de cada vez, ao acaso e sem reposição, até retirar-se o primeiro número par.
Conta-se o número de retiradas necessárias. Exiba um bom modelo probabilístico para
este experimento.
11. Seja X uma variável aleatória com densidade
f
X
(x) =

cx
2
, se −1 ≤ x ≤ 1,
0, caso contrário.
(a) Determine o valor da constante c.
(b) Determine a função de distribuição acumulada e esboçe seu gráfico.
(c) Ache o valor α tal que F
X
(α) = 1/4. (α é o primeiro quartil da distribuição de X.)
(d) Ache o valor β tal que F
X
(β) = 1/2. (β é a mediana da distribuição de X.)
12. Uma variável aleatória X tem função distribuição
F
X
(x) =

1, se x > 1,
x
3
, se 0 ≤ x ≤ 1,
0, se x < 0.
Qual é a densidade de X?
Campos & Rêgo
4.5. EXERCÍCIOS 85
13. Uma variável X tem função de distribuição
F
X
(x) =

0, x < 0,
x
2
/2, se 0 ≤ x < 1,
3/4, se 1 ≤ x < 2,
(1/4)(x + 1), se 2 ≤ x < 3,
1, se x ≥ 3.
Determine o seguinte:
(a) P(X = 1/2);
(b) P(X = 1);
(c) P(X < 1);
(d) P(X ≤ 1);
(e) P(X > 2);
(f) P(1/2 < X < 5/2).
14. Calcule
(a) P(X > 2);
(b) P(X ≤ 0);
(c) P(X = 0);
(d) P(X < 0);
(e) P(X ≥ 0.5).
para uma variável X que tem função de distribuição
F
X
(x) =

1 −0.75e
−x
, se x ≥ 0,
0, se x < 0.
15. Seja a probabilidade da variável aleatória X definida por P(A) =

A
f(x)dx, onde
f
X
(x) = cx/9, para 0 < x < 3. Sejam A
1
= {x | 0 < x < 1} e A
2
= {x | 2 < x < 3}.
Calcule
(a) o valor da constante c,
(b) P(A
1
),
(c) P(A
2
),
(d) P(A
1
∪ A
2
),
(e) P(A
1
| A
2
).
16. Coloque V ou F nas sentenças abaixo:
(a) Uma variável aleatória X só assume valores no intervalo [0, 1]. ( )
Campos & Rêgo
4.5. EXERCÍCIOS 86
(b) Se X é uma variável aleatória contínua, então X também é uma variável aleatória
discreta. ( )
(c) Se X é uma variável aleatória discreta então X não pode ser contínua.
A recíproca é que é verdadeira. ( )
(d) Se X é uma variável aleatória contínua, F
X
(x) =

x
−∞
f
X
(s)ds. ( )
(e) Se X é uma variável aleatória contínua, f
X
(f) =
d
dx
F
X
(x). ( )
(g) lim
x→+∞
F
X
(x) = 0. ( )
(h) P(X ∈ A) =

A
F
X
(x)dx. ( )
(i) P(X ∈ A) =

A
f
X
(x)dx. ( )
17. Foguetes são lançados até que o primeiro lançamento bem sucedido tenha ocorrido. Se
isso não ocorrer até 5 tentativas, o experimento é suspenso e o equipamento inspecio-
nado. Admita que exista uma probabilidade constante de 0.8 de haver um lançamento
bem sucedido e que os sucessivos lançamentos sejam independentes. Suponha que o
custo do primeiro lançamento seja k dólares, enquanto os lançamentos subsequentes
custam k/3 dólares. Sempre que ocorre um lançamento bem sucedido, uma certa quan-
tidade de informação é obtida, a qual pode ser expressa como um ganho financeiro de
c dólares. Seja T o custo líquido desse experimento. Estabeleça a distribuição de
probabilidade de T.
18. Determine a densidade de Y = (b −a)X +a, onde f
X
(x) = 1, se 0 < x < 1 e zero para
quaisquer outros valores.
19. Se X tem densidade f
X
(x) = e
−|x|
/2, −∞ < x < +∞, qual é a distribuição de
Y =| X |?
20. Uma variável aleatória X tem uma densidade de probabilidade f
X
(x). Encontre a
função densidade de probabilidade da variável aleatória Y = aX + b, onde a e b são
constantes.
21. Uma variável aleatória X tem uma densidade de probabilidade f
X
(x). Qual a função
densidade de probabilidade da variável aleatória Y =| 1 −X |?
22. Uma variável aleatória contínua X tem uma densidade de probabilidade f
X
(x). Con-
sidere a variável Y = −X. Encontre sua função densidade f
Y
(y).
23. Uma variável aleatória contínua X tem uma densidade de probabilidade f
X
(x). En-
contre a função densidade f
Y
(y) do seu módulo, Y =| X |.
24. Uma variável aleatória X tem uma função distribuição F
X
(x), e uma variável aleatória
Y relaciona-se com X por Y = 2 − 3X. Encontre a função distribuição F
Y
(y) da
variável aleatória Y .
Campos & Rêgo
4.5. EXERCÍCIOS 87
25. Dada uma variável aleatória contínua X com função densidade f
X
(x), encontre a dis-
tribuição da variável aleatória
Y = sinal de X =

+1, se X > 0,
0, se X = 0,
−1, se X < 0.
26. Uma variável aleatória X tem uma densidade de probabilidade correspondente a reta
que passa pelos pontos (−1, 0) e (1, 1), para x ∈ (−1, 1), e zero fora. Uma variável
aleatória Y é relacionada a X por Y = 1 −X
2
. Encontre a função densidade f
Y
(y).
27. Uma variável aleatória X tem densidade f
X
(x) = 1, no intervalo (0, 1) zero fora. Uma
variável aleatória Y tem um relacionamento funcional monotonicamente crescente com
a variável X tal que Y = ϕ(X). Encontre a função distribuição F
Y
(y) e a função
densidade f
Y
(y).
28. Seja X uma variável aleatória tal que P(| X −1 |= 2) = 0. Expresse P(| X −1 |≥ 2)
em termos da função de distribuição F
X
.
29. Seja f
X
(x) =
1
3
, −1 < x < 2 e zero para quaisquer outros valores de X. Encontre a
função distribuição da variável aleatória Y = X
2
.
30. Seja X tendo função probabilidade f
X
(x) = (
1
2
)
x
, x = 1, 2, · · · e zero para quaisquer
outros valores de X. Encontre a função probabilidade de Y = X
3
.
31. Seja X tendo função probabilidade f
X
(x) = x
2
/9, 0 < x < 3, e zero para quaisquer
outros valores. Encontre a função probabilidade de Y = X
3
.
32. Seja X tendo função densidade f
X
(x) = 2xe
−x
2
, 0 < x < ∞, e zero para quaisquer
outros valores. Determine a densidade de Y = X
2
.
33. Seja X uma variável aleatória contínua com função densidade f
X
(x).
(a) Encontre a função densidade de Y = X
2
.
(b) Se f
X
(x) = f(−x), ∀x, simplifique a resposta encontrada em (a).
(c) Se f
X
(x) = 0 quando x ≤ 0, simplifique a resposta encontrada em (a).
34. Uma variável aleatória X tem função densidade probabilidade definida por:
f
X
(x) =

c + x, −1 ≤ x ≤ 0,
c −x, 0 ≤ x ≤ 1,
0, quaisquer outros casos.
(a) Calcule o valor da constante c.
(b) Seja o evento A = {x | −0.5 ≤ x ≤ 0.5}. Compute P(A).
Campos & Rêgo
4.5. EXERCÍCIOS 88
(c) Encontre a função de distribuição acumulada de X, F
X
, e usando a mesma calcule
P(X ≤ 0.5).
(d) Suponha que uma variável Y assuma o valor 0 se X for negativa e 1, se X for
positiva ou nula. Encontre a distribuição de probabilidade dessa variável.
Campos & Rêgo
Capítulo 5
Vetores Aleatórios e Funções
5.1 Introdução
Muitas vezes na vida real, o interesse é na descrição probabilística de mais de um carac-
terístico numérico de um experimento aleatório. Por exemplo, na distribuição de alturas e
pesos de indivíduos de uma certa classe. Para tanto é preciso estender a definição de variável
aleatória para o caso multidimensional.
Definição 5.1.1: Seja (Ω, A, P) um espaço de probabilidade. Uma função

X : Ω → IR
n
é
chamada de um vetor aleatório se para todo evento B Boreliano
1
de IR
n
,

X
−1
(B) ∈ A.
Dado um vetor aleatório

X, pode-se definir uma probabilidade induzida P

X
no es-
paço mensurável (IR
n
, B
n
) da seguinte maneira: para todo B ∈ B
n
, define-se P

X
(B) =
P(

X
−1
(B)). Por definição de vetor aleatório, tem-se que

X
−1
(B) = A ∈ A, então P

X
está
bem definida.
5.2 Função de Distribuição Acumulada Conjunta
Para um vetor aleatório

X, uma maneira básica de descrever a probabilidade induzida P

X
é
utilizando sua função de distribuição acumulada conjunta.
Definição 5.2.1: A função de distribuição acumulada conjunta de um vetor aleatório

X,
representada por F

X
ou simplesmente por F, é definida por
F

X
(x) = P(B
x
) = P(X
1
≤ x
1
, X
2
≤ x
2
, . . . , X
n
≤ x
n
), ∀x ∈ IR
n
.
A função de distribuição acumulada F

X
satisfaz às seguintes propriedades:
1
Um evento é Boreliano em IR
n
se pertence a menor σ-álgebra que contem todas regiões da seguinte
forma: B
x
= {(X
1
, X
2
, . . . , X
n
) : X
i
≤ x
i
, 1 ≤ i ≤ n}.
89
5.2. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA CONJUNTA 90
(F1) Se x
i
≤ y
i
, ∀i ≤ n, então F

X
(x) ≤ F

X
(y).
x
i
≤ y
i
∀i ≤ n ⇒ B
x
⊆ B
y
⇒ P(B
x
) ≤ P(B
y
) ⇒ F

X
(x) ≤ F

X
(y).
(F2) F(x
1
, x
2
, . . . , x
n
) é contínua a direita em cada uma das variáveis. Por exemplo, se
y
m
↓ x
1
, então
F(y
m
, x
2
, . . . , x
n
) ↓ F(x
1
, x
2
, . . . , x
n
), quando m → ∞.
(F3a) Se para algum i ≤ n, x
i
→ −∞, então B
x
decresce monotonicamente para o conjunto
vazio ∅. Logo, pela continuidade monotônica de probabilidade,
lim
x
i
→−∞
F

X
(x) = 0.
(F3b) Se x
i
→ ∞, então B
x
cresce monotonicamente para o conjunto {X
1
≤ x
1
, . . . X
i−1

x
i−1
, X
i+1
≤ x
i+1
, . . . , X
n
≤ x
n
}, ou seja a restrição em X
i
é removida. Então, pode-se
escrever
lim
x
i
→∞
F

X
(x) = F
X
1
,...,X
i−1
,X
i+1
,...,Xn
(x
1
, . . . , x
i−1
, x
i+1
, . . . , x
n
).
Portanto, a função de distribuição acumulada conjunta de X
1
, . . . , X
n−1
pode ser fa-
cilmente determinada da função de distribuição acumulada conjunta de X
1
, . . . , X
n
fazendo x
n
→ ∞. Observe que funções de distribuição acumuladas conjuntas de ordem
maiores determinam as de ordem menores, mas o contrário não é verdadeiro. Em
particular,
lim
x→∞
F

X
(x) = 1.
A função de distribuição acumulada de X
i
que se obtém a partir da função acumulada
conjunta de X
1
, . . . , X
n
fazendo x
j
→ ∞ para j = i é denominada de função de
distribuição marginal de X
i
.
O próximo exemplo mostra que para n ≥ 2 as propriedades F1, F2, e F3 não são sufici-
entes para que F seja uma função de distribuição.
Exemplo 5.2.2: Seja F
0
: IR
2
→ IR uma função definida no plano tal que F
0
(x, y) = 1
se x ≥ 0, y ≥ 0, e x + y ≥ 1, e F
0
(x, y) = 0, caso contrário. É claro que F1, F2, e F3 são
satisfeitas, mas F
0
não é função de distribuição de nenhum vetor aleatório (X, Y ), porque
tem-se a seguinte contradição:
0 ≤ P(0 < X ≤ 1, 0 < Y ≤ 1)
= F
0
(1, 1) −F
0
(1, 0) −F
0
(0, 1) +F
0
(0, 0) = 1 −1 −1 + 0 = −1
O resultado acima vem de:
F
0
(1, 1) = P(X ≤ 1, Y ≤ 1),
Campos & Rêgo
5.2. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA CONJUNTA 91
F
0
(1, 0) = P(X ≤ 1, Y ≤ 0),
F
0
(0, 1) = P(X ≤ 0, Y ≤ 1),
F
0
(0, 0) = P(X ≤ 0, Y ≤ 0),
Logo,
F
0
(1, 1) −F
0
(1, 0) = P(X ≤ 1, Y ≤ 1) −P(X ≤ 1, Y ≤ 0) (5.1)
= P({X ≤ 1, Y ≤ 1}) −P({X ≤ 1, Y ≤ 0}) (5.2)
= P({X ≤ 1, Y ≤ 1} −{X ≤ 1, Y ≤ 0}) (5.3)
= P(X ≤ 1, 0 < Y ≤ 1). (5.4)
A fórmula 5.4 decorre de P(B −A) = P(B) −P(A), quando A ⊆ B.
De forma similar
F
0
(0, 1) −F
0
(0, 0) = P(X ≤ 0, Y ≤ 1) −P(X ≤ 0, Y ≤ 0) = P(X ≤ 0, 0 < Y ≤ 1). (5.5)
Por fim, de 5.4 e 5.5,
P(X ≤ 1, 0 < Y ≤ 1) −P(X ≤ 0, 0 < Y ≤ 1) = P(0 < X ≤ 1, 0 < Y ≤ 1).
5.2.1 Vetor Aleatório Discreto
Se

X for um vetor aleatório discreto, ou seja assumir uma quantidade enumerável de valores
{x
1
, x
2
. . . , }, define-se uma função de probabilidade de massa conjunta, ou sua distribuição
de probabilidade conjunta p,
P(X
1
= x
1
, X
2
= x
2
, . . . , X
n
= x
n
) = p(x
1
, x
2
, . . . , x
n
) = p(x
i
)
tal que
p(x
i
) ≥ 0,

¸
i=1
p(x
i
) = 1.
5.2.2 Vetor Aleatório Contínuo
Seja

X = (X
1
, . . . , X
n
) um vetor aleatório e F sua função de distribuição acumulada con-
junta. Se existe uma função f(x
1
, . . . , x
n
) ≥ 0 tal que
F(x
1
, . . . , x
n
) =

xn
−∞
· · ·

x
1
−∞
f(t
1
, . . . , t
n
)dt
1
. . . dt
n
, ∀(x
1
, . . . , x
n
) ∈ IR
n
,
então f é chamada de densidade conjunta das variáveis aleatórias X
1
, . . . , X
n
, e neste caso,

X é contínuo.
Similar ao caso unidimensional,

n
F(x
1
, . . . , x
n
)
∂x
1
, . . . , δx
n
= f(x
1
, . . . x
n
).
Campos & Rêgo
5.3. DISTRIBUIÇÕES MARGINAIS E CONDICIONAIS 92
5.3 Distribuições Marginais e Condicionais
Definição 5.3.1: A função probabilidade de massa marginal ou a distribuição de probabi-
lidade marginal de X
i
é
p
X
i
(x
i
) =
¸
x
1
· · ·
¸
x
i−1
¸
x
i+1
· · ·
¸
xn
p(x
1
, . . . , x
i−1
, x
i+1
, . . . , x
n
).
Definição 5.3.2: A densidade marginal de X
i
é
f
X
i
(x
i
) =


−∞
· · ·


−∞
f(x
1
, . . . , x
i−1
, x
i+1
, . . . , x
n
)dx
1
. . . dx
i−1
dx
i+1
. . . dx
n
.
A seguir será visto como calcular probabilidades condicionais envolvendo variáveis alea-
tórias.
Definição 5.3.3: Sejam X e Y variáveis aleatórias com distribuição de probabilidade
conjunta P(X = x
i
, Y = y
j
) = p(x
i
, y
j
), (i, j) pertencente ao contradomínio de (X,Y).
Então, a distribuição condicional de X dada Y = y
j
, P(X = x | Y = y
j
), é
P(X = x
i
| Y = y
j
) =
P(X = x
i
, Y = y
j
)
P(Y = y
j
)
=
p(x
i
, y
j
)
p
Y
(y
j
)
= p
X|Y
(x
i
|y
j
), p
Y
(y
j
) > 0. (5.6)
O leitor pode fazer uma analogia com a definição de probabilidade condicional vista
anteriormente. Facilmente observa-se que 5.6 é uma probabilidade:
(i) P(X = x
i
| Y = y
j
) ≥ 0, porque é quociente de probabilidades.
(ii)
P(X ∈ IR | Y = y
j
) =
P(X ∈ IR, Y = y
j
)
P(Y = y
j
)
=
P(Y = y
j
)
P(Y = y
j
)
= 1.
(iii)
P(∪

i=1
{X = x
i
} | Y = y
j
) =
P((∪

i=1
{X = x
i
}) ∩ {Y = y
j
})
P(Y = y
j
)
=
P(∪

i=1
({X = x
i
} ∩ {Y = y
j
}))
P(Y = y
j
)
=
P(∪

i=1
{X = x
i
, Y = y
j
})
P(Y = y
j
)
=
¸

i=1
P(X = x
i
, Y = y
j
)
P(Y = y
j
)
=

¸
i=1
P(X = x
i
| Y = y
j
).
Campos & Rêgo
5.3. DISTRIBUIÇÕES MARGINAIS E CONDICIONAIS 93
Analogamente,
P(Y = y
j
| X = x
i
) =
P(X = x
i
, Y = y
j
)
P(X = x
i
)
.
Quando as variáveis aleatórias X e Y são contínuas, o fato de P(Y = y) = 0, ∀y em 5.6
torna necessária a adição de um conceito novo na definição das probabilidades condicionais.
Para resolver este caso, será utilizado um argumento de limites. Suponha que o objetivo
seja definir P(X ≤ x|Y = y), onde Y é uma variável contínua. Por exemplo, X poderia ser
alturas de indivíduos e Y seus respectivos pesos; então {Y = y} significa que o peso está
fixo e P(X ≤ x|Y = y) implica em mensurar todas as alturas menores ou iguais a x para o
peso fixo em y. Deste modo, suponha que exista um intervalo I de comprimento δ contendo
y em seu interior. P(X ≤ x|Y = y) pode ser aproximada por
P(X ≤ x|Y ∈ I) =
P(X ≤ x, Y ∈ I)
P(Y ∈ I)
,
esta probabilidade está bem definida desde que P(Y ∈ I) > 0. Caso P(Y ∈ I) = 0,
para algum intervalo contendo y, a definição da probabilidade P(X ≤ x|Y = y) pode ser
arbitrária, pois tal valor y nunca ocorrerá. Esta aproximação será tão melhor quanto menor
for δ. Desta forma, pode-se definir P(X ≤ x|Y = y) como sendo o limite P(X ≤ x|Y ∈ I)
quando δ tende a zero. Assumindo que (X, Y ) possui densidade conjunta f(x, y), tem-se:
P(X ≤ x|Y = y) = lim
δ→0
P(X ≤ x, Y ∈ I)
P(Y ∈ I)
= lim
δ→0

x
−∞

y∈I
f(x, y)dydx

y∈I
f(y)dy
.
Supondo f(x, y) contínua na região em que y ∈ I,
P(X ≤ x|Y = y) = lim
δ→0

x
−∞
δf(x, y)dx
δf(y)
=

x
−∞
f(x, y)
f(y)
dx.
Desta forma, definindo P(X ≤ x|Y = y) como a função de distribuição acumulada
condicional de X dado Y = y, F
X|Y
(x|y), como uma densidade é a derivada da distribuição
acumulada, então,
Definição 5.3.4: A densidade condicional de X dada Y = y é:
f(x | y) =

f(x,y)
f
Y
(y)
, (x, y) ∈ IR
2
, y, fixo, e f
Y
(y) > 0,
0, quaisquer outros valores,
A expressão acima é uma densidade pois:
(i) f(x | y) ≥ 0, ∀(x, y) porque é quociente de densidades.
Campos & Rêgo
5.3. DISTRIBUIÇÕES MARGINAIS E CONDICIONAIS 94
(ii)

+∞
−∞
f(x | y)dx =

+∞
−∞
f(x, y)dx
f
Y
(y)
=
1
f
Y
(y)

+∞
−∞
f(x, y)dx
=
f
Y
(y)
f
Y
(y)
= 1.
De forma similar,
f(y | x) =

f(x,y)
f
X
(x)
, (x, y) ∈ IR
2
, x, fixo, e f
X
(x) > 0,
0, quaisquer outros valores,
Exemplo 5.3.5: Determine as densidades condicionais de X dada Y e de Y dada X
quando
f(x, y) =

x + y, 0 ≤ x ≤ 1, 0 ≤ y ≤ 1,
0, caso contrário.
Solução: Obtendo as densidades marginais,
f
X
(x) =

1
0
(x + y)dy = x +
1
2
, se 0 ≤ x ≤ 1,
f
Y
(y) =

1
0
(x + y)dx = y +
1
2
, se 0 ≤ y ≤ 1.
Logo, as densidades condicionais são:
f(x|y) =
x + y
y +
1
2
, se 0 ≤ x ≤ 1, 0 ≤ y ≤ 1,
f(y|x) =
x + y
x +
1
2
, se 0 ≤ x ≤ 1, 0 ≤ y ≤ 1.
Exemplo 5.3.6: Determine as densidades condicionais de X dada Y e de Y dada X
quando
f(x, y) =

e
−(x+y)
, x ≥ 0, y ≥ 0,
0, caso contrário.
Solução: Obtendo as densidades marginais,
f
X
(x) =


0
e
−(x+y)
dy = e
−x
, se x ≥ 0,
f
Y
(y) =


0
e
−(x+y)
dx = e
−y
, se y ≥ 0.
Campos & Rêgo
5.4. INDEPENDÊNCIA ENTRE VARIÁVEIS ALEATÓRIAS 95
Logo, as densidades marginais são:
f(x|y) = e
−x
, se x ≥ 0, y ≥ 0,
f(y|x) = e
−y
, se x ≥ 0, y ≥ 0.
5.4 Independência entre Variáveis Aleatórias
SejamX
1
, X
2
, . . . , X
n
variáveis aleatórias definidas no mesmo espaço de probabilidade (Ω, A, P).
Informalmente, as variáveis aleatórias X
i
’s são independentes se, e somente se, quaisquer
eventos determinados por qualquer grupo de variáveis aleatórias distintas são independen-
tes; por exemplo, [X
1
< 5], [X
2
> 9], e [0 < X
5
≤ 3] são independentes. Formalmente,
Definição 5.4.1: Um conjunto de variáveis aleatórias {X
1
, . . . , X
n
} é mutuamente inde-
pendente se, e somente se, para quaisquer eventos Borelianos B
1
, . . . , B
n
,
P(X
1
∈ B
1
, . . . , X
n
∈ B
n
) =
n
¸
i=1
P(X
i
∈ B
i
).
O próximo teorema estabelece três critérios para provar que um conjunto de variáveis
aleatórias é mutuamente independente.
Teorema 5.4.2: As seguintes condições são necessárias e suficientes para testar se um
conjunto {X
1
, . . . , X
n
} de variáveis aleatórias é mutuamente independente:
(i) F

X
(x) =
¸
n
i=1
F
X
i
(x
i
).
(ii) Se

X for um vetor aleatório discreto,
p

X
(x) =
n
¸
i=1
p
X
i
(x
i
).
(iii) Se

X for um vetor aleatório contínuo,
f

X
(x) =
n
¸
i=1
f
X
i
(x
i
), ∀(x
1
, . . . , x
n
) ∈ IR
n
.
Prova:
(i) Se {X
1
, . . . , X
n
} são variáveis aleatórias mutuamente independentes, então
F
X
1
,X
2
,...,Xn
(x
1
, x
2
, . . . , x
n
) = P(X
1
≤ x
1
, . . . , X
n
≤ x
n
)
=
n
¸
i=1
P(X
i
≤ x
i
) =
n
¸
i=1
F
X
i
(x
i
), ∀(x
1
, . . . , x
n
).
A prova da suficiência foge ao escopo do livro.
Campos & Rêgo
5.4. INDEPENDÊNCIA ENTRE VARIÁVEIS ALEATÓRIAS 96
(ii) Se {X
1
, . . . , X
n
} são variáveis aleatórias mutuamente independentes, então
p
X
1
,X
2
,...,Xn
(x
1
, x
2
, . . . , x
n
) = P(X
1
= x
1
, . . . , X
n
= x
n
)
=
n
¸
i=1
P(X
i
= x
i
) =
n
¸
i=1
p
X
i
(x
i
), ∀(x
1
, . . . , x
n
).
Reciprocamente, se a função de probabilidade de massa conjunta fatora e se {x
i1
, x
i2
,
. . . , x
in
, . . .} são os possíveis valores assumidos pela variável aleatória X
i
, então
P(X
1
∈ B
1
, X
2
∈ B
2
, . . . , X
n
∈ B
n
) =
¸
i:x
1i
∈B
1
· · ·
¸
i:x
ni
∈Bn
P(X
1
= x
1i
, . . . , X
n
= x
ni
)
=
¸
i:x
1i
∈B
1
· · ·
¸
i:x
ni
∈Bn
p
X
1
,...,Xn
(x
1i
, . . . , x
ni
)
=
¸
i:x
1i
∈B
1
· · ·
¸
i:x
ni
∈Bn
n
¸
j=1
p
X
j
(x
ji
)
=
n
¸
j=1
P(X
j
∈ B
j
).
(iii) Consequência direta de (a) e da definição de função densidade.
Exemplo 5.4.3: Uma variável aleatória contínua tem função densidade conjunta f(x, y) =
15x
2
y definida no triângulo (0,0), (1,0) e (0,2). Determine as densidades marginais e verifique
se X e Y são independentes.
Solução: Obtendo as densidades marginais,
f
X
(x) =

2−2x
0
15x
2
ydy = 30x
2
(1 −x
2
), se 0 ≤ x ≤ 1,
f
Y
(y) =
2−y
2
0
15x
2
ydx =
5y(2 −y)
3
8
, se 0 ≤ y ≤ 2.
Como f(x, y) = f
X
(x)f
Y
(y), as variáveis aleatórias não são independentes.
É fácil observar utilizando a definição de probabilidade condicional que se X e Y são
independentes, então para todo A e B boreliano tal que P(Y ∈ B) > 0,
P(X ∈ A|Y ∈ B) = P(X ∈ A),
ou seja, se X e Y são independentes o conhecimento do valor de Y não altera a descrição
probabilística de X.
Campos & Rêgo
5.5. FUNÇÕES DE VETORES ALEATÓRIOS 97
5.5 Funções de Vetores Aleatórios
O objetivo nesta seção é, considerando o vetor aleatório (X, Y ) onde X e Y são variáveis
aleatórias definidas no mesmo espaço de probabilidade (Ω, A, P), encontrar a distribuição
de probabilidade de Z = H(X, Y ) sendo H uma função real tal que seu domínio contém os
contradomínios de X e Y , respectivamente, R
X
e R
Y
.
Quando necessário, os resultados serão mostrados para vetores n-dimensionais, quando
não, para vetores bidimensionais. Já é um bom começo entender o procedimento para n = 2.
Considere primeiro o caso em que

X é um vetor aleatório discreto. Se

Y = H(

X) e sendo
x
i1
, x
i2
, x
i3
, . . . os valores de

X tal que H(x
ij
) = y
i
para todo j. Então,
P(

Y = y
i
) = P(

X ∈ {x
i1
, x
i2
, x
i3
, . . .}) =

¸
j=1
P(

X = x
ij
) =

¸
j=1
p

X
(x
ij
),
ou seja, para calcular a probabilidade do evento {

Y = y
i
}, acha-se o evento equivalente
em termos de

X, isto é, todos os valores x
ij
de

X tal que H(x
ij
) = y
i
e somam-se as
probabilidades de

X assumir cada um desses valores.
Seja agora o caso em que (X, Y ) e Z = H(X, Y ) são contínuos, fixado z, a solução geral
do problema é:
F
Z
(z) = P(Z ≤ z)
= P(H(X, Y ) ≤ z)
= P((X, Y ) ∈ B
z
)
=

Bz
f(x, y)dxdy,
onde B
z
⊆ IR
2
, B
z
∈ B
2
, isto é, B
z
é um elemento da σ-álgebra de Borel sobre IR
2
,
B
z
= {(x, y) : H(x, y) ≤ z}.
Se for possível obter uma função g ≥ 0 tal que

Bz
f(x, y)dxdy =

z
−∞
g(v)dv
então,
g(·) = f
Z
(·),
isto é, g é a densidade de Z, f
Z
(·).
O que será feito a seguir é como usar este resultado para encontrar a distribuição da
soma, produto e quociente de X e Y .
Campos & Rêgo
5.5. FUNÇÕES DE VETORES ALEATÓRIOS 98
5.5.1 Distribuição de Z = X + Y
Seja Z = X + Y e z fixo. Então,
B
z
= {(x, y) : x + y ≤ z}
= {(x, y) : −∞ < x < +∞, −∞ < y ≤ z −x}.
tem figura aqui Figura A
F
Z
(z) =

Bz
f(x, y)dxdy
=

+∞
−∞
(

z−x
−∞
f(x, y)dy)dx.
Fazendo uma mudança de variável na integral interna:
y = v −x ⇒ dy = dv.
Como y ≤ z − x então v − x ≤ z − x ⇒ v ≤ z. Logo, −∞ < v ≤ z < +∞ e portanto v
varia de −∞ a z. Assim.
F
Z
(z) =

+∞
−∞
(

z
−∞
f(x, v −x)dv)dx
=

z
−∞
(

+∞
−∞
f(x, v −x)dx)dv.
Logo,
f
X+Y
(z) =

+∞
−∞
f(x, z −x)dx, −∞ < z < +∞. (5.7)
Se X e Y forem independentes 5.7 torna-se
f
X+Y
(z) =

+∞
−∞
f
X
(x)f
Y
(z −x)dx, −∞ < z < +∞. (5.8)
De 5.8 tem-se que a densidade da soma de duas variáveis aleatórias independentes é a
convolução das densidades marginais.
Se X e Y forem independentes e não-negativas 5.7 torna-se
f
X+Y
(z) =

z
0
f
X
(x)f
Y
(z −x)dx, z > 0.
Campos & Rêgo
5.5. FUNÇÕES DE VETORES ALEATÓRIOS 99
Exemplo 5.5.1: Suponha que X e Y têm densidade valendo 1 no intervalo [0,1] e que são
independentes. Encontrar a densidade de S = X + Y .
Solução: Do problema sabe-se que
f
X
(x) = 1, 0 ≤ x ≤ 1
e
f
Y
(y) = 1, 0 ≤ y ≤ 1.
Seja S = X + Y . Logo,
f
S
(s) =

f
X
(x)f
Y
(s −x)dx, 0 ≤ x ≤ 1, 0 ≤ y ≤ 1.
Como 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1 então
0 ≤ x ≤ 1 ∧ 0 ≤ s −x ≤ 1.
A Figura H ilustra as situações possíveis para s.
tem figura aqui. Figura H da prova
(a) s −1 ≤ 0 ∧ 0 ≤ s ≤ 1 ⇒ 0 ≤ s ≤ 1.
(b) 0 < s −1 < 1 ∧ s ≥ 1 ⇒ 0 < s ≤ 2 ∧ s ≥ 1 ⇒ 1 ≤ s ≤ 2.
Em (a) tem-se que 0 ≤ x ≤ s e em (b), s −1 ≤ x ≤ 1.
Logo,
f
S
(s) =

s
0
dx = s, 0 ≤ s ≤ 1,
f
S
(s) =

1
s−1
dx = 2 −s, 1 ≤ s ≤ 2.
Concluindo,
f
S
(s) =

s, 0 ≤ s ≤ 1,
2 −s, 1 ≤ s ≤ 2,
0, quaisquer outros valores.
Exemplo 5.5.2: Sejam X e Y com densidade conjunta dada por
f(x, y) = exp
−(x+y)
, x ≥ 0, y ≥ 0.
Encontre a densidade de V = X + Y .
Solução:
Exemplo 5.5.3: Se as variáveis aleatórias X
1
e X
2
são independentes e identicamente
distribuídas com a densidade
f(t) =

te
−t
, t ≥ 0,
0, t < 0,
encontre a densidade de S = X
1
+ X
2
.
Solução:
Campos & Rêgo
5.5. FUNÇÕES DE VETORES ALEATÓRIOS 100
5.5.2 Distribuição de Z = XY
Seja Z = XY , isto é, H(X, Y ) = XY . Fixando z, então
B
z
= {(x, y) : xy ≤ z}.
Se
x > 0, xy ≤ z ⇒ y ≤
z
x
,
x < 0, xy ≤ z ⇒ y ≥
z
x
.
Logo,
B
z
= {(x, y) : −∞ < x < 0 ∧ y ≥
z
x
} ∪ {(x, y) : 0 < x < +∞∧ y ≤
z
x
} = B
1
∪ B
2
.
tem 2 figuras aqui Figuras B
Então
F
Z
(z) =

Bz
f(x, y)dxdy
=

0
−∞
(

+∞
z
x
f(x, y)dy)dx +

+∞
0
(
z
x
−∞
f(x, y)dy)dx.
Fazendo uma mudança de variável na integral interna:
y =
v
x
⇒ dy =
1
x
dv.
Substituindo o valor de y em B
1
e B
2
,
v
x

z
x
⇒ v ≥ z ⇒ z ≤ v < +∞,
v
x

z
x
⇒ v ≤ z ⇒ −∞ < v ≤ z.
Logo,
F
Z
(z) =

0
−∞
(

−∞
z
f(x,
v
x
)
1
x
dv)dx +

+∞
0
(

z
−∞
f(x,
v
x
)
1
x
dv)dx
=

0
−∞
(

z
−∞
(−
1
x
)f(x,
v
x
)dv)dx +

0
−∞
(

z
−∞
1
x
f(x,
v
x
)dv)dx
=

+∞
−∞
(

z
−∞
|
1
x
| f(x,
v
x
)dx)dv
=

z
−∞
(

+∞
−∞
|
1
x
| f(x,
v
x
)dx)dv.
Campos & Rêgo
5.5. FUNÇÕES DE VETORES ALEATÓRIOS 101
Portanto,
f
XY
(z) =

+∞
−∞
|
1
x
| f(x,
z
x
)dx, −∞ < z < +∞. (5.9)
Se X e Y forem independentes, de 5.9 tem-se
f
XY
(z) =

+∞
−∞
|
1
x
| f
X
(x)f
Y
(
z
x
)dx, −∞ < z < +∞.
Se X e Y forem independentes e não-negativas,
f
XY
(z) =

+∞
0
1
x
f
X
(x)f
Y
(
z
x
)dx, z > 0.
Exemplo 5.5.4: Seja f(x, y) = 1, 0 ≤ x ≤ 1, 0 ≤ y ≤ 1. Determinar a densidade de
Z = XY .
Solução:
5.5.3 Distribuição de Z =
Y
X
Seja Z =
Y
X
e z fixo. Logo
B
z
= {(x, y) :
y
x
≤ z}.
Se,
x > 0,
y
x
≤ z ⇒ y ≤ xz,
x < 0,
y
x
≤ z ⇒ y ≥ xz.
Portanto,
B
z
= {(x, y) : −∞ < x < 0 ∧ y ≥ xz} ∪ {(x, y) : 0 < x < +∞∧ y ≤ xz}
= B
1
∪ B
2
.
tem 2 figuras aqui Figura C
Então,
F
z
(z) =

Bz
f(x, y)dxdy
=

0
−∞
(

+∞
xz
f(x, y)dy)dx +

+∞
0
(

xz
−∞
f(x, y)dy)dx.
Fazendo uma mudança de variáveis na integral mais interna e substituindo no valor de y
em B
z
tem-se:
Campos & Rêgo
5.5. FUNÇÕES DE VETORES ALEATÓRIOS 102
y = xv ⇒ dy = xdv
e
xv ≥ xz ⇒ v ≥ z ⇒ z ≤ v < +∞,
xv ≤ xz ⇒ v ≤ z ⇒ −∞ < v ≤ z.
Assim,
F
Z
(z) =

0
−∞
(

−∞
z
xf(x, xv)dv)dx +

+∞
0
(

z
−∞
xf(x, xv)dv)dx
=

0
−∞
(

z
−∞
(−x)f(x, xv)dv)dx +

+∞
0
(

z
−∞
xf(x, xv)dv)dx
=

+∞
−∞
(

z
−∞
| x | f(x, xv)dv)dx
=

z
−∞
(

+∞
−∞
| x | f(x, xv)dx)dv
Logo,
fY
X
(z) =

+∞
−∞
| x | f(x, xz)dx, −∞ < z < +∞.
Se X e Y forem independentes,
fY
X
(z) =

+∞
−∞
| x | f
X
(x)f
Y
(xz)dx, −∞ < z < +∞.
Se X e Y forem independentes e não-negativas,
fY
X
(z) =

+∞
0
xf
X
(x)f
Y
(xz)dx, z > 0.
Exemplo 5.5.5: Sejam X e Y com densidade conjunta dada por
f(x, y) = exp
−(x+y)
, x ≥ 0, y ≥ 0.
Encontre a densidade de U = X/Y .
Solução:
Exemplo 5.5.6: Duas pessoas marcam um encontro em determinado lugar entre 12:00
e 13:00. Cada uma chega, na hora marcada, ao encontro independentemente e com uma
densidade constante. Ficou acertado entre ambas que nenhuma delas esperará mais do que
15 minutos pela outra. Determinar a probabilidade de se encontrarem.
Solução: Este problema será resolvido de três formas distintas. A figura a seguir ilustra a
região de encontro, E, de ambas.
tem figura aqui Figura D
Campos & Rêgo
5.5. FUNÇÕES DE VETORES ALEATÓRIOS 103
1. Usando probabilidade geométrica.
O quadrado de vértices (0,0), (0,1), (1,0) e (1,1) tem lado 1, consequentemente área
S = 1. A região do encontro tem área 1 − (
3
4
)
2
=
7
16
. Logo, a probabilidade de que
ambas se encontrem é
7
16
.
2. Usando densidade conjunta.
Sejam X e Y , respectivamente, os tempos de chegadas das duas pessoas. De acordo
com os dados do problema, como entre 12:00 e 13:00 tem-se uma hora,
X ∼ U(0, 1)
e
Y ∼ U(0, 1).
Como X e Y são independentes,
f(x, y) = f
X
(x)f
Y
(y) =

1, 0 < x < 1, 0 < y < 1,
0, quaisquer outros valores.
tem figura aqui Figura E
A probabilidade de se encontrarem em E é dada por:
P(E) =

E
f(x, y)dxdy
=

R
1
f(x, y)dxdy +

R
2
f(x, y)dxdy +

R
3
f(x, y)dxdy.
Portanto,

R
1
f(x, y)dxdy =
1
4
0
(

x+
1
4
0
dy)dx =
3
32
,

R
2
f(x, y)dxdy =
3
4
1
4
(

x+
1
4
x−
1
4
dy)dx =
4
16
,

R
1
f(x, y)dxdy =

1
3
4
(

1
x−
1
4
dy)dx =
3
32
.
Logo,
P(E) =
3
32
+
4
16
+
3
32
=
7
16
.
Campos & Rêgo
5.5. FUNÇÕES DE VETORES ALEATÓRIOS 104
3. Usando função de vetor aleatório.
Como visto anteriormente no exemplo 5.5.1, a densidade de S = X + Y , quando
X ∼ U(0, 1) e Y ∼ U(0, 1) é f
S
(s) =

+∞
−∞
f
X
(x)f
Y
(s − x)dx. O problema proposto
consiste em calcular
P(| X −Y |≤
1
4
),
assim, a distribuição de interesse é em
Z = X −Y.
Por simetria, é fácil supor que
f
Z
(z) =

f
X
(x)f
Y
(x −z)dx
pois z = x −y ⇒ y = x −z.
De acordo com os dados do problema, o integrando será não nulo quando
0 ≤ x ≤ 1 ∧ 0 ≤ x −z ≤ 1. (5.10)
De 5.10 tem-se que
0 ≤ x ≤ 1 ∧ z ≤ x ≤ z + 1 (5.11)
A partir de 5.11 tem-se as seguintes situações:
tem figura aqui Figura F
(a) z ≤ 0 ∧ 0 ≤ z + 1 ≤ 1 ⇒ z ≤ 0 ∧ −1 ≤ z ≤ 0 ⇒ −1 ≤ z ≤ 0.
(b) 0 ≤ z ≤ 1 ∧ ≤ z + 1 ⇒ 0 ≤ z ≤ 1 ∧ z ≥ 0 ⇒ 0 ≤ z ≤ 1.
Em (a) x toma valores entre 0 e z + 1; em (b) x varia de z a 1. Logo,
f
Z
(z) =

z+1
0
1dx = 1 +z, −1 ≤ z ≤ 0,
f
Z
(z) =

1
z
1dx = 1 −z, 0 ≤ z ≤ 1.
Portanto,
f
Z
(z) =

1 +z, −1 ≤ z ≤ 0,
1 −z, 0 < z ≤ 1,
0, quaisquer outros valores.
Campos & Rêgo
5.5. FUNÇÕES DE VETORES ALEATÓRIOS 105
É fácil ver

1
−1
f
Z
(z)dz = 1. A probabilidade pedida é:
P(| X −Y |≤
1
4
) = P(−
1
4
≤ Z ≤
1
4
)
=

0

1
4
(1 +z)dz +
1
4
0
(1 −z)dz
=
7
16
.
5.5.4 Jacobiano de uma Função
Os resultados vistos anteriormente sobre a distribuição da soma, produto e quociente de
variáveis aleatórias também poderiam ter sido obtidos via Jacobiano de uma função, como
a seguir.
Dado um conjunto de n equações em n variáveis x
1
, . . . , x
n
,
y
1
= f
1
(x
1
, ..., x
n
), . . . , y
n
= f
n
(x
1
, ..., x
n
),
a matriz Jacobiana é definida por
J =

¸
¸
∂y
1
∂x
1
· · ·
∂y
1
∂xn
.
.
.
.
.
.
.
.
.
∂yn
∂x
1
· · ·
∂yn
∂xn

O determinante de J é chamado de Jacobiano. Pode-se provar que o módulo do Jacobiano
dá a razão entre volumes n-dimensionais em y e x quando a maior dimensão ∆x
i
tende a
zero. Deste modo, o módulo do Jacobiano aparece nas mudanças de variáves de integração
em integrais múltiplas, ou seja, existe um teorema do cálculo REFER que afirma que se
f : G
0
→ G for uma bijeção entre G
0
e G, f e as derivadas parcias que aparecem na matriz
Jacobiana forem funções contínuas em G
0
, e o Jacobiano for diferente de zero para todo
x ∈ G
0

· · ·

A
g(y
1
, . . . , y
n
)dy
1
· · · dy
n
=

· · ·

f
−1
(A)
g(f
1
(x
1
, ..., x
n
), . . . , f
n
(x
1
, ..., x
n
))|J|dx
1
· · · dx
n
,
para qualquer função g integrável em A ⊆ G.
O conceito de Jacobiano será usado para resolver o seguinte exemplo da soma de duas
variáveis aleatórias.
Exemplo 5.5.7: Suponha que (X, Y ) tenha densidade conjunta f(x, y) e seja Z = X +Y .
Neste caso,
F
Z
(z) = P(Z ≤ z) = P(X + Y ≤ z) = P((X, Y ) ∈ B
z
),
onde B
z
= {(x, y) : x + y ≤ z}. Portanto,
F
Z
(z) =


−∞

z−y
−∞
f(x, y)dxdy.
Campos & Rêgo
5.6. APRENDENDO UM POUCO MAIS... 106
Fazendo a mudança de variáveis s = x + y, t = y, que tem jacobiano igual a 1, tem-se
F
Z
(z) =


−∞

z
−∞
f(s −t, t)dsdt =

z
−∞


−∞
f(s −t, t)dtds.
Logo,


−∞
f(s −t, t)dt é a densidade da soma Z = X + Y , ou seja,
f
Z
(z) =


−∞
f(z −t, t)dt =


−∞
f(s, z −s)ds,
onde foi feita a troca de variáveis s = z −t para obter a última expressão.
5.6 Aprendendo um pouco mais...
O método do Jacobiano é descrito a seguir para funções mais gerais H.
Suponha que G
0
⊆ IR
n
, G ⊆ IR
n
sejam regiões abertas, e que H : G
0
→ G seja uma
bijeção entre G
0
e G. Logo, existe a função inversa H
−1
em G, de modo que

X = H
−1
(

Y ).
Suponha ainda que f é a densidade conjunta de

X e que P(

X ∈ G
0
) = 1. Se as derivadas
parciais de H
−1
existirem e o Jacobiano J de H
−1
for diferente de zero para todo y ∈ G,
utiliza-se o teorema da mudança de variáveis e obter que para B ⊆ G, B Boreliano, tem-se
P(

Y ∈ B) = P(

X ∈ H
−1
(B)) =

· · ·

H
−1
(B)
f(x
1
, . . . , x
n
)dx
1
· · · dx
n
=

· · ·

B
f(H
−1
1
(y
1
, . . . , y
n
), . . . , H
−1
n
(y
1
, . . . , y
n
))|J|dy
1
· · · dy
n
.
Como P(

Y ∈ G) = P(

X ∈ H
−1
(G)) = P(

X ∈ G
0
) = 1, então, para todo Boreliano B
no IR
n
,
P(

Y ∈ B) = P(

Y ∈ B∩G) =

· · ·

B∩G
f(H
−1
1
(y
1
, . . . , y
n
), . . . , H
−1
n
(y
1
, . . . , y
n
))|J|dy
1
· · · dy
n
.
Esta última integral é igual a integral sobre o conjunto B da função que toma o valor
f(H
−1
1
(y
1
, . . . , y
n
), . . . , H
−1
n
(y
1
, . . . , y
n
))|J| para y ∈ G, e zero no caso contrário. Portanto,
pela definição de densidade,
f

Y
(y
1
, . . . , y
n
) =

f(H
−1
1
(y
1
, . . . , y
n
), . . . , H
−1
n
(y
1
, . . . , y
n
))|J|, se y ∈ G,
0, caso contrário.
Observações
(i) Note que J é o Jacobiano da função inversa H
−1
. Em alguns casos pode ser útil obter
J a partir do Jacobiano J

da função H através da relação J =
1
J

|
x=H
−1
( y)
.
Campos & Rêgo
5.6. APRENDENDO UM POUCO MAIS... 107
(ii) Para obter a distribuição de

Y = H(

X) quando a dimensão de

Y é menor que a
dimensão de

X muitas vezes é possível definir outras variáveis aleatórias Y

1
, . . . , Y

m
,
utilizar o método do Jacobiano para determinar a densidade conjunta de

Y , Y

1
, . . . , Y

m
e, finalmente, obter a densidade marginal conjunta de

Y . Considere o seguinte exemplo:
Exemplo 5.6.1: Suponha que X
1
, X
2
tem densidade conjunta dada por f(x, y) e que
o objetivo seja a distribuição de Y
1
= X
2
1
+ X
2
. Como esta não é uma transformação
1-1, ela não possui inversa. Definindo uma nova variável Y
2
= X
1
de modo que a
função (Y
1
, Y
2
) = H(X
1
, X
2
) = (X
2
1
+X
2
, X
1
) possua uma função inversa diferenciável,
(X
1
, X
2
) = H
−1
(Y
1
, Y
2
) = (Y
2
, Y
1
−Y
2
2
). Deste modo,
J = det

∂x
1
∂y
1
∂x
1
∂y
2
∂x
2
∂y
1
∂x
2
∂y
2

=

0 1
1 −2y
2

= −1
Então, f
Y
1
,Y
2
(y
1
, y
2
) = f(y
2
, y
1
− y
2
2
). Finalmente, para encontrar f
Y
1
integra-se sobre
todos os possíveis valores da variável Y
2
introduzida:
f
Y
1
(y
1
) =


−∞
f(y
2
, y
1
−y
2
2
)dy
2
.
(iii) Pode-se utilizar o método do Jacobiano em outros casos em que a função H não é
1-1. Para tanto, suponha que G, G
1
, . . . , G
k
sejam subregiões abertas do IR
n
tais que
G
1
, . . . , G
k
sejam disjuntas e P(

X ∈ ∪
k
i=1
G
i
) = 1, tais que a função H|
G
l
, a restrição
de H a G
l
, seja um correspondência 1-1 entre G
l
e G, para l = 1, . . . , k. Suponha que
para todo l, a função inversa de H|
G
l
satisfça as hipóteses do caso anterior, e seja J
l
o
Jacobiano da inversa de H|
G
l
. Pode-se provar que
f

Y
(y
1
, . . . , y
n
) =
¸
k
l=1
f(H|
−1
G
l
(y
1
, . . . , y
n
))|J
l
|, se y ∈ G,
0, caso contrário.
Para a utilização do método do jacobiano, foi necessário assumir que o vetor

X possuía
densidade conjunta. Na próxima seção será visto como estender este método para um caso
mais geral.
5.6.1 Extensão do Método Jacobiano para o Cálculo de Densidades
de Funções de Vetores Aleatórios Quaisquer
A extensão supõe apenas que existe pelo menos uma variável no vetor

X que é absolutamente
contínua dado os valores das demais variáveis em

X.
Para um dado vetor z ∈ IR
m
, sejam G
0
e G
z
regiões abertas do IR
n
, e g : G
0
× {z} →
G
z
×{z} uma função bijetiva. Seja f

X|

Z
a densidade condicional conjunta do vetor aleatório

X = (X
1
, . . . , X
n
) dado o vetor aleatório

Z = (Z
1
, . . . , Z
m
), onde P((X
1
, . . . , X
n
) ∈ G
0
|

Z =
Campos & Rêgo
5.6. APRENDENDO UM POUCO MAIS... 108
z) = 1. Não assume-se qualquer hipótese sobre o tipo do vetor

Z, o qual pode ter partes
discreta, contínua ou singular diferentes de zero.
Sejam Y
1
, . . . , Y
n
variáveis obtidas a partir de funções dos vetores

X e

Y , i.e., Y
i
=
g
i
(X
1
, . . . , X
n
, Z
1
, . . . , Z
m
), i = 1, 2, . . . , n. Portanto, existe função inversa h = g
−1
definida
em G
z
×{z}, onde
X
1
= h
1
(Y
1
, . . . , Y
n
, z
1
, . . . , z
m
), . . . , X
n
= h
n
(Y
1
, . . . , Y
n
, z
1
, . . . , z
m
),
e h
i
(Y
1
, . . . , Y
n
, z
1
, . . . , z
m
) = z
i
, para i ∈ {n + 1, n + 2, . . . , n + m}.
Suponha que existam as derivadas parciais
∂X
i
∂Y
j
=
∂h
i
(Y
1
, . . . , Y
n
, z
1
, . . . , z
m
)
∂Y
j
,
para i, j ∈ {1, . . . , n} e que elas sejam contínuas em G
z
× {z}. Define-se o jacobiano
condicional dado

Z = z como J(

X,

Y |

Z = z) pelo determinante:
J(

X,

Y |

Z = z) = det

¸
¸
∂X
1
∂Y
1
· · ·
∂X
i
∂Yn
.
.
.
.
.
.
∂Xn
∂Y
1
· · ·
∂Xn
∂Yn

Suponha que J(

X,

Y |

Z = z) seja diferente de zero para todo

Y ∈ G
z
. Então para B ⊆
G
z
, B boreliano, seja h(B×{z}) = {(x
1
, . . . , x
n
) : para algum y ∈ B, x
i
= h
i
(y, z) para todo i =
1, . . . , n}. Utilizando o teorema de mudança de variáveis, tem-se
P(

Y ∈ B|

Z = z) = P(

X ∈ h(B ×{z})|

Z = z)
=

· · ·

h(B×{z})
f

X|

Z
(x
1
, . . . , x
n
|z)dx
1
· · · dx
n
=

· · ·

B
f

X|

Z
(h
1
(y, z), . . . , h
n
(y, z)|z)|J(x, y|

Z = z)|dy
1
· · · dy
n
.
Como P(

Y ∈ G
z
|

Z = z) = P(

X ∈ h(G
z
×{z})|

Z = z) = P(

X ∈ G
0
|

Z = z) = 1, tem-se
que para todo boreliano B no IR
n
,
P(

Y ∈ B|

Z = z) = P(

Y ∈ B ∩ G
z
|

Z = z)
=

· · ·

B∩G
z
f

X|

Z
(h
1
(y, z), . . . , h
(
n
y, z)|z)|J(x, y|

Z = z)|dy
1
· · · dy
n
.
Esta última integral é igual a integral sobre o conjunto B da função que toma o valor
f

X|

Z
(h
1
(y, z), . . . , h
n
(y, z)|z)|J(x, y|

Z = z)| para y ∈ G
z
, e zero, caso contrário. Portanto,
pela definição de densidade condicional:
Campos & Rêgo
5.6. APRENDENDO UM POUCO MAIS... 109
f

Y |

Z
(y
1
, . . . , y
n
|z)
=

f

X|

Z
(h
1
(y, z), . . . , h
n
(y, z)|z)|J(x, y|

Z = z)|, se y ∈ G
z
,
0, caso contrário.
A fim de se obter a densidade incondicional do vetor

Y , calcula-se a esperança
2
da
densidade condicional f

Y |

Z
com respeito a distribuição do vetor aleatório

Z. Portanto,
f

Y
(y) =

f

Y |

Z
(y
1
, . . . , y
n
|z)dF

Z
(z).
No caso particular em que

Z for um vetor aleatório com densidade conjunta f

Z
,
f

Y
(y) =

· · ·

f

Y |

Z
(y
1
, . . . , y
n
|z)f

Z
(z)dz
1
· · · dz
m
,
e, no caso particular em que

Z for um vetor aleatório discreto com função probabilidade
de massa conjunta p

Z
,
f

Y
(y) =
¸
z
f

Y |

Z
(y
1
, . . . , y
n
|z)p

Z
(z).
Exemplo 5.6.2: Suponha que X
1
é uma variável aleatória discreta que assume os valores
10, 15, 20 com probabilidades 1/4, 1/2, e 1/4, respectivamente. Sejam ainda X
2
e X
3
variáveis
aleatórias que são condicionalmente independentes dado X
1
e com distribuições condicionais
X
2
|X
1
= k ∼ Exp(k) e X
3
|X
1
= k ∼ Exp(2k). Seja Y = X
2
1
+ X
2
2
+ X
2
3
e Z = arctg(
X
2
X
3
).
Determinar a densidade conjunta de (Y, Z).
Solução: A densidade condicional conjunta de (X
2
, X
3
)|X
1
= k é dada por
2k
2
e
−kx
2
−2kx
3
U(x
2
)U(x
3
). Tem-se que X
1
= k, P((Y, Z) ∈ [k
2
, ∞) × [0, π/2]) = 1, X
2
=
(Y −k
2
)senZ e X
3
= (Y −k
2
) cos Z. Portanto, o Jacobiano condicional dado que X
1
= k é
dado por:
J((X
2
, X
3
), (Y, Z)|X
1
= k) = det

senZ (Y −k
2
) cos Z
cos Z −(Y −k
2
)senZ

= −(Y −k
2
).
Assim, a densidade condicional de (Y, Z) dado que X
1
= k é dada por:
f
Y,Z|X
1
(y, z|k)
=

f
X
2
,X
3
|X
1
((y −k
2
)senz, (y −k
2
) cos z|k)(y −k
2
), se (y, z) ∈ [k
2
, ∞) ×[0, π/2),
0, caso contrário.
=

2k
2
e
−k(y−k
2
)(senz+2 cos z)
, se (y, z) ∈ [k
2
, ∞) ×[0, π/2),
0, caso contrário.
2
este coneito será dado no próximo capítulo, mas nesta seção ...
Campos & Rêgo
5.6. APRENDENDO UM POUCO MAIS... 110
Calculando a esperança em termos da distribuição de X
1
, tem-se:
f
Y,Z
(y, z) = P(X
1
= 10)f
Y,Z|X
1
(y, z|10)
+P(X
1
= 15)f
Y,Z|X
1
(y, z|15) +P(X
1
= 20)f
Y,Z|X
1
(y, z|20),
ou seja,
f
Y,Z
(y, z)
=

1
4
(200e
−10(y−100)(senz+2 cos z)
), se (y, z) ∈ [100, 225) ×[0, π/2),
1
4
(200e
−10(y−100)(senz+2 cos z)
)+
+
1
2
(450e
−15(y−225)(senz+2 cos z)
), se (y, z) ∈ [225, 400) ×[0, π/2),
1
4
(200e
−10(y−100)(senz+2 cos z)
) +
1
2
(450e
−15(y−225)(senz+2 cos z)
)+
+
1
4
(800e
−20(y−400)(senz+2 cos z)
), se (y, z) ∈ [400, ∞) ×[0, π/2),
0, caso contrário.
Observações:
(i) No desenvolvimento na seção anterior, para obter a distribuição de

Y = g(

X,

Z) assumiu-
se que o vetor

Y tem dimensão igual a dimensão do vetor

X. Quando a dimensão de

Y
é menor que a dimensão de

X, o tratamento é análogo ao caso da utilização do método
do Jacobiano para vetores absolutamente contínuos, ou seja, muitas vezes é possível
definir outras variáveis aleatórias auxiliares Y

1
, . . . , Y

m
, utilizar a extensão do método
do Jacobiano para determinar a densidade condicional conjunta de

Y , Y

1
, . . . , Y

m
dado

Z e, finalmente, obter a densidade marginal condicional conjunta de

Y dado

Z.
(ii) Também pode-se utilizar o método do Jacobiano em outros casos em que a função g não
é bijetiva. Para tanto, dado que

Z = z, suponha que G
z
, G
z
1
, . . . , G
z
k
sejam subregiões
abertas do IR
n
tais que G
z
1
, . . . , G
z
k
sejam disjuntas e P((

X

Z) ∈ (∪
k
i=1
G
z
i
) ×{z}) = 1,
tais que a função g|
G
z
l
, a restrição de g a G
z
l
seja bijetiva entre G
z
l
e G
z
, para l = 1, . . . , k.
Suponha que para todo l, a função inversa de g|
G
z
l
satisfaça as hipóteses do caso
anterior, e seja J
z
l
o Jacobiano condicional dado que

Z = z da inversa de g|
G
z
l
. Pode-se
provar que
f

Y |

Z
(y
1
, . . . , y
n
|z) =

¸
k
l=1
f

X|

Z
(g|
−1
G
z
l
(y
1
, . . . , y
n
, z)|z)|J
z
l
|, se y ∈ G
z
,
0, caso contrário.
5.6.2 Exercícios
1. Suponha que X seja uma variável aleatória contínua com função densidade de proba-
bilidade
f(x) =

e
−x
, x > 0
0, x ≤ 0.
Para b > 0 real, determine:
Campos & Rêgo
5.6. APRENDENDO UM POUCO MAIS... 111
(a) F(x | 0 < X < b) = P(X ≤ x | 0 < X < b), para todo x real.
(b) f(x | 0 < X < b), a função densidade condicional de X, dado que X ∈ (0, b).
2. Um assoalho é feito de quadrados de lado l. Joga-se uma agulha de comprimento
a < l. Determine a probabilidade de que a agulha intercepte dois lados adjacentes de
um quadrado desse assoalho. (proposto por Francisco de Assis L. Filho)
3. Sejam Ω = {ω
1
, ω
2
, ω
3
} e P(ω
1
) = P(ω
2
) = P(ω
3
) = 1/3. Definindo X, Y e Z como se
segue:
X(ω
1
) = 1, X(ω
2
) = 2, X(ω
3
) = 3,
Y (ω
1
) = 2, Y (ω
2
) = 3, Y (ω
3
) = 1,
Z(ω
1
) = 3, Z(ω
2
) = 1, Z(ω
3
) = 2,
mostre que estas três variáveis aleatórias têm a mesma distribuição de probabilidade.
Encontre a distribuição de probabilidade de X + Y , Y + Z e X + Z.
4. Suponha que X é uma variável aleatória assumindo os valores −3, −1, 0, 1, 2, 3, 5, 8
com as respectivas probabilidades 0.1, 0.2, 0.15, 0.2, 0.1, 0.15, 0.05, 0.05. Determine
as probabilidades de:
(a) X ser negativa.
(b) P(X = −3 | X ≤ 0).
(c) P(X ≥ 3 | X > 0).
5. Considere a variável aleatória bidimensional (X, Y ) uniformemente distribuída na re-
gião poligonal T de vértices (-2,0), (2,0), (1,1) e (-1,1).
(a) Determine a função de densidade de probabilidade conjunta f(x, y).
(b) Determine a função de densidade de probabilidade marginal f
X
(x).
(b) Determine a função de densidade de probabilidade marginal f
Y
(y).
(d) Verifique se X e Y são variáveis aleatórias independentes.
6. Considere duas variáveis aleatórias X e Y com distribuição de probabilidade conjunta
uniforme na região triangular tendo vértices nos pontos (0,0), (0,1) e (1,0).
(a) Escreva a expressão da densidade conjunta.
(b) Determine as densidades marginais.
(c) X e Y são independentes?
7. Duas mensagens que estão sendo transmitidas, independentemente uma da outra, po-
dem ser distorcidas ou não. A probabilidade do evento A = {uma mensagem é distorcida}
para a primeira mensagem é p
1
e para a segunda p
2
. Seja um sistema de variáveis ale-
atórias (X, Y ) definido como se segue:
Campos & Rêgo
5.6. APRENDENDO UM POUCO MAIS... 112
X =

1, se a primeira mensagem é distorcida,
0, se a primeira mensagem não é distorcida.
Y =

1, se a segunda mensagem é distorcida,
0, se a segunda mensagem não é distorcida.
(X e Y são os indicadores do evento A).
(a) Encontre a distribuição de probabilidade conjunta do par de variáveis aleatórias
(X, Y ).
(b) Encontre a função distribuição de probabilidade acumulada F(x, y).
8. Sejam duas variáveis aleatórias independentes X e Y , cada uma das quais com distri-
buição exponencial com diferentes parâmetros. Escreva expressões para
(a) a função densidade conjunta f(x, y) e
(b) a função distribuição conjunta F(x, y).
9. Um sistema de variáveis aleatórias (X, Y ) tem função densidade conjunta f(x, y). Ex-
presse as seguintes probabilidades em termos de f(x, y):
(a) {X > Y };
(b) {X >| Y |};
(c) {| X |> Y };
(d) {X −Y > 1}.
10. Um sistema de variáveis aleatórias (X, Y, Z) tem uma densidade conjunta f(x, y, z).
Escreva expressões para:
(a) as densidades f
X
(x), f
Y
(y)
(b) a densidade conjunta f
Y,Z
(y, z) do vetor aleatório (X, Z);
(c) a densidade condicional f
Y,Z
(y, z | x);
(d) a densidade condicional f
Y
(y | x, z);
(e) a função de distribuição conjunta F(x, y, z);
(f) a função de distribuição F
X
(x) da variável aleatória X;
(g) a função de distribuição F(x, y) do vetor (X, Y ).
11. Um sistema de variáveis aleatórias (X, Y, Z) se distribui com uma densidade constante
no interior de uma bola de raio r. Encontre a probabilidade de que o ponto aleatório
(X, Y, Z) caia numa bola concêntrica de raio r/2.
Campos & Rêgo
5.6. APRENDENDO UM POUCO MAIS... 113
12. Seja o vetor aleatório (X, Y ). Sabe-se que a variável aleatória X segue uma distribuição
exponencial com parâmetro λ. Para um dado X = x > 0, a variável aleatória Y
também segue uma distribuição exponencial com parâmetro x.
(a) Escreva a densidade conjunta f(x, y) de X e Y .
(b) Encontre a densidade de Y .
(c) Encontre a densidade condicional f
X|Y
(x | y).
13. Duas pessoas marcam um encontro em um determinado lugar, entre 12:00 e 13:00
horas. Cada uma chega ao local do encontro independentemente e com uma densidade
de probabilidade constante no intervalo de tempo assinalado. Encontre a probabilidade
de que a primeira pessoa espere não menos que meia hora.
14. Dadas duas variáveis aleatórias X e Y com uma densidade conjunta f(x, y), determine:
(a) a função densidade do máximo das duas variáveis, Z = max{X, Y };
(b) a função densidade do mínimo das duas variáveis, Z = min{X, Y };
(c) a função densidade do máximo o do mínimo de várias variáveis aleatórias.
15. Sejam X e Y variáveis aleatórias discretas e sejam g e h funções tais que satisfaçam a
identidade P(X = x, Y = y) = g(x)h(y).
(a) Expresse P(X = x) em termos de g e h.
(b) Expresse P(Y = y) em termos de g e h.
(c) Mostre que (
¸
x
g(x))(
¸
y
h(y)) = 1.
(d) Mostre que X e Y são independentes.
16. Sejam X
1
e X
2
duas determinações independentes da variável aleatória X. Encontre
a densidade da variável aleatória Z = X
1
/X
2
.
17. Suponha que as dimensões X e Y de uma chapa retangular de metal possam ser consi-
deradas variáveis aleatórias contínuas independentes com densidades, respectivamente:
f
X
(x) =

x −1, 1 < x ≤ 2,
−x + 3, 2 < x < 3,
0, quaisquer outros casos.
f
Y
(y) =

1/2, 2 < y < 4,
0, quaisquer outros casos.
Encontre a densidade da área da chapa, A = XY .
18. Ao mensurar-se T, a duração da vida de uma peça, pode-se cometer um erro, o qual
se pode admitir ser uniformemente distribuído sobre (-0.01,0.01). Por isso, o tempo
registrado (em horas) pode ser representado por T + X, onde T, tem uma distribui-
ção exponencial com parâmetro 0.2 e X tem a distribuição uniforme descrita acima.
Determine a densidade de T + X, quando T e X forem independentes.
Campos & Rêgo
5.6. APRENDENDO UM POUCO MAIS... 114
19. Sejam T
1
e T
2
variáveis aleatórias independentes com distribuição exponencial de pa-
râmetros λ
1
e λ
2
, respectivamente. Encontre a densidade de M = max{T
1
, T
2
} e de
K = min{T
1
, T
2
}.
20. As variáveis aleatórias X
i
, i = 1, · · · , n são mutuamente independentes e seguem uma
lei de Poisson com parâmetros λ
i
. Mostre que sua soma também segue uma distribuição
de Poisson, onde o parâmetro é a soma dos parâmetros.
21. Sejam X
1
e X
2
amostras aleatórias de uma distribuição uniforme no intervalo (1,10).
Encontre a densidade de Y = X
1
X
2
. Mostre que P(Y ∈ A) >
1
9
onde A = {y | 1 <
y < 2} ∪ {y | 10 < y < 20}.
Campos & Rêgo
Capítulo 6
Esperança e outros Momentos
6.1 O Conceito de Esperança
O conceito de esperança ou valor esperado de uma variável aleatória X, ou a “média” é
tão antigo quanto o próprio conceito de probabilidade. Na verdade, é até possível definir
probabilidade em termos de esperança, mas esta não é uma maneira comum de se apresentar
a teoria. As seguintes podem ser interpretações da esperança:
(a) Parâmetro m de uma medida de probabilidade, função de distribuição, ou função pro-
babilidade de massa, também conhecido como média.
(b) Operador linear em um conjunto de variáveis aleatórias que retorna um valor típico da
variável aleatória interpretado como uma medida de localização da variável aleatória.
(c) Média do resultado de repetidos experimentos independentes no longo prazo.
(d) Preço justo de um jogo com pagamentos descritos por X.
6.2 Definição da Esperança
A definição de esperança pode ser motivada considerando o cálculo do resultado médio de
1000 lançamentos de um dado. Uma maneira de calcular este resultado médio seria somar
todos os resultados e dividir por 1000. Uma maneira alternativa seria calcular a fração p(k),
k = 1, . . . , 6 de todos os lançamentos que tiveram resultado igual a k e calcular o resultado
médio através da soma ponderada:
1p(1) + 2p(2) + 3p(3) + 4p(4) + 5p(5) + 6p(6).
Quando o número de lançamentos torna-se grande as frações de ocorrência dos resultados
tendem à probabilidade de cada resultado.
Em geral, define-se a esperança de uma variável discreta como uma soma ponderada onde
as probabilidades são os pesos de ponderação.
115
6.3. ESPERANÇA DE FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 116
Definição 6.2.1: Se X é uma variável aleatória discreta com valores {x
1
, x
2
, x
3
, . . .} e
probabilidades {p
1
, p
2
, p
3
, . . .}, respectivamente, então sua esperança é,
E(X) =
¸
i
x
i
p
i
,
desde que
¸
i
| x
i
| p
i
< ∞. Como p
i
= P(X = x
i
), então
E(X) =
¸
i
x
i
P(X = x
i
).
Exemplo 6.2.2: Considere uma variável aleatória X tal que: P(X = −1) = 0.25, P(X =
0) = 0.5 e P(X = 2) = 0.25. Então,
E(X) = −1(0.25) + 0(0.5) + 2(0.25) = 0.25.
Exemplo 6.2.3: Seja uma variável aleatória X tal que: P(X = −a) = P(X = a) = 1/2.
Então,
E(X) = −a(0.5) +a(0.5) = 0.
Note então que muitas variáveis aleatórias diferentes podem ter o mesmo valor esperado
ou esperança. (É só variar o valor de a no exemplo anterior.)
Exemplo 6.2.4: Aleatória. Se X ∈ {1, 2, . . . , n} for uma variável aleatória com distri-
buição de probabilidade aleatória com parâmetro n, sua esperança é dada por:
E(X) =
n
¸
k=1
kp(k) =
n
¸
k
k
1
n
=
1
n
n
¸
k
k =
1
n
n(n + 1)
2
=
n + 1
2
.
Definição 6.2.5: Se X é uma variável aleatória contínua com densidade f
X
(x) então,
E(X) =

+∞
−∞
xf
X
(x)dx
se

+∞
−∞
| x | f
X
(x)dx < ∞.
Exemplo 6.2.6: Se f
X
(x) =
1
2
, 2 < x < 4, então
E(X) =

4
2
x
1
2
dx = 3.
6.3 Esperança de Funções de Variáveis Aleatórias
Se X for uma variável aleatória e se Y = H(X), então Y também será uma variável aleatória.
Consequentemente, pode-se calcular E(Y ). Existem duas maneiras equivalentes de calcular
E(Y ), quer a variável seja discreta, quer seja contínua: (i) primeiro, encontrar a lei de
probabilidade da variável Y = H(X) pelos métodos já vistos anteriormente para, em seguida,
calcular a esperança da variável Y ; (ii) calcular a esperança de Y diretamente usando a função
H(X). Isto será visto a seguir, inicialmente no caso discreto, a seguir, no contínuo.
Campos & Rêgo
6.3. ESPERANÇA DE FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 117
6.3.1 Caso Discreto
Definição 6.3.1: Seja X uma variável aleatória discreta e seja Y = H(X). Se Y assumir
os seguintes valores y
1
, y
2
, . . . e se p(y
i
) = P(Y = y
i
), define-se:
E(Y ) =

¸
i=1
y
i
p(y
i
).
Exemplo 6.3.2:
Conforme visto no capítulo anterior pode-se determinar as probabilidades p(y
i
) dado que
sabe-se a distribuição de X. No entanto, é possível encontrar E(Y ) sem, preliminarmente,
encontrar a distribuição de probabilidade de Y , partindo-se apenas do conhecimento da
distribuição de probabilidade de X, conforme mostra o seguinte teorema.
Teorema 6.3.3: Seja X uma variável aleatória discreta assumindo os valores x
1
, x
2
, . . . e
seja Y = H(X). Se p(x
i
) = P(X = x
i
), então
E(Y ) = E(H(X)) =

¸
i=1
H(x
i
)p(x
i
).
Prova: Reordenando o somatório
¸

i=1
H(x
i
)p(x
i
), e agrupando os termos onde x
i
tem a
mesma imagem de acordo com a função H, ou seja, sejam x
i1
, x
i2
, . . ., todos os valores x
i
tal
que H(x
ij
) = y
i
para j ≥ 1, onde y
1
, y
2
, . . . são os possíveis valores de Y , tem-se,

¸
i=1
H(x
i
)p(x
i
) =

¸
i=1

¸
j=1
H(x
ij
)p(x
ij
) =

¸
i=1
y
i

¸
j=1
p(x
ij
) =

¸
i=1
y
i
p(y
i
) = E(Y ).
Exemplo 6.3.4:
Este resultado pode ser estendido para o caso de uma função real de um vetor aleatório.
Neste caso, se Y = H(

X), então
E(Y ) =
¸
i
H( x
i
)p

X
( x
i
),
em que os x
i
são os valores assumidos pelo vetor aleatório

X.
Exemplo 6.3.5:
Campos & Rêgo
6.4. PROPRIEDADES DA ESPERANÇA 118
6.3.2 Caso Contínuo
Definição 6.3.6: Seja X uma variável aleatória contínua e Y = H(X). Então,
E(Y ) =

+∞
−∞
yf
Y
(y)dy,
desde que

+∞
−∞
| y | f
Y
(y)dy < ∞.
Exemplo 6.3.7:
A prova do teorema a seguir é omitida desde que foge ao escopo do livro.
Teorema 6.3.8: Seja X uma variável aleatória contínua, Y = H(X), então
E(Y ) =

ydF
Y
(y) =

H(x)dF
X
(x),
desde que estas integrais existam.
Exemplo 6.3.9:
Uma fórmula análoga também é válida quando funções de vetores aleatórios são consi-
derados..
Teorema 6.3.10: Seja

X um vetor aleatório e Y = H(

X) uma variável aleatória. Então,
E(Y ) =

ydF
Y
(y) =

HdF

X
.
Exemplo 6.3.11:
6.4 Propriedades da Esperança
As seguintes propriedades são aplicações imediatas da definição de esperança:
(i) P(X = c) = 1 ⇒ E(X) = c.
(ii) P(X ≥ 0) = 1 ⇒ E(X) ≥ 0.
(iii) E(aX) = aE(X), onde a um número real qualquer.
Esta propriedade segue facilmente da expressão da esperança de uma função de variável
aleatória.
Campos & Rêgo
6.4. PROPRIEDADES DA ESPERANÇA 119
(iv) E(X + Y ) = E(X) + E(Y ).
No caso discreto,
E(X + Y ) =
¸
i
¸
j
(x
i
+ y
j
)p(x
i
, y
j
) =
¸
i
x
i
¸
j
p(x
i
, y
j
) +
¸
i
¸
j
y
j
p(x
i
, y
j
)
=
¸
i
x
i
p(x
i
) +
¸
j
y
j
¸
i
p(x
i
, y
j
) = E(X) +
¸
j
y
j
p(y
j
) = E(X) + E(Y ).
No caso geral contínuo,
E(X + Y ) = E(ϕ(X, Y )) =

(x + y)dF
X,Y
(x, y),
e pela linearidade da integral,
E(X + Y ) =

xdF
X,Y
(x, y) +

ydF
X,Y
(x, y) = E(X) + E(Y ).
(v) E(
¸
n
i
a
i
X
i
) =
¸
n
i
a
i
E(X
i
).
Para provar esta propriedade basta usar as duas últimas propriedades e indução ma-
temática.
(vi) P(X ≥ Y ) = 1 ⇒ E(X) ≥ E(Y ).
Esta segue das Propriedades (ii) e (v), pois
P(X ≥ Y ) = P(X −Y ≥ 0),
o que, pela Propriedade (ii), implica que E(X − Y ) ≥ 0. Pela Propriedade (v),
E(X −Y ) = E(X) −E(Y ), ou seja pode-se concluir que E(X) −E(Y ) ≥ 0.
(vii) Se {X
1
, . . . , X
n
} são variáveis aleatórias mutuamente independentes, então
E(
n
¸
i=1
X
i
) =
n
¸
i=1
E(X
i
).
No caso discreto,
E(
n
¸
i=1
X
i
) =
¸
i
1
. . .
¸
in
x
i
1
. . . x
in
p(x
i
1
, . . . , x
in
)
=
¸
i
1
. . .
¸
in
x
i
1
. . . x
in
n
¸
j=1
p(x
i
j
)
=
¸
i
1
x
i
1
p(x
i
1
) . . .
¸
in
x
in
p(x
in
)
=
n
¸
i=1
E(X
i
).
Campos & Rêgo
6.5. MOMENTOS 120
No caso contínuo f

X
(x) =
¸
n
i=1
f
X
i
(x
i
), logo
E(
n
¸
i=1
X
i
) =

· · ·

x
1
· · · x
n
f

X
(x)dx
1
· · · dx
n
=

· · ·

n
¸
i=1
x
i
f
X
i
(x
i
)dx
1
· · · dx
n
=
n
¸
i=1

x
i
f
X
i
(x
i
)dx
i
=
n
¸
i=1
E(X
i
).
De maneira análoga, pode-se provar a seguinte generalização deste resultado:
Se {X
1
, . . . , X
n
} são variáveis aleatórias mutuamente independentes, então
E(
n
¸
i=1
G(X
i
)) =
n
¸
i=1
E(G(X
i
)).
(viii) Se Y for uma variável aleatória que assume valores inteiros não-negativos, então
E(Y ) =

¸
k=1
kP(Y = k) =

¸
k=1
k
¸
j=1
P(Y = k),
trocando a ordem dos somatórios:
E(Y ) =

¸
j=1

¸
k=j
P(Y = k) =

¸
j=1
P(Y ≥ j).
6.5 Momentos
Momentos dão informações parciais sobre a medida de probabilidade P, a função de distribui-
ção acumulada, ou a função probabilidade de massa de uma variável aleatória X. Momentos
de X são esperanças de potências de X.
Definição 6.5.1: Para qualquer inteiro não-negativo n, o n-ésimo momento da variável
aleatória X é
E(X
n
),
se esta esperança existe.
Este momento é usualmente denominado de momento em torno do zero, uma vez que
poderia ser escrito como E((X −0)
n
).
Exemplo 6.5.2: Seja X tal que
P(X = k) =

n
k

p
k
(1 −p)
n−k
, k = 0, 1, . . . , n.
Campos & Rêgo
6.5. MOMENTOS 121
Então, o segundo momento de X, E(X
2
) é:
E(X
2
) =
n
¸
k=0
k
2

n
k

p
k
(1 −p)
n−k
=
n
¸
k=1
k
2
n!
k!(n −k)!
p
k
(1 −p)
n−k
=
n
¸
k=1
k(k −1)
n!
k!(n −k)!
p
k
(1 −p)
n−k
+
n
¸
k=1
k
n!
k!(n −k)!
p
k
(1 −p)
n−k
= n(n −1)p
2
n
¸
k=2
(n −2)!
(k −2)!(n −k)!
p
k−2
(1 −p)
n−k
+ np
= n(n −1)p
2
m
¸
j=0
(m)!
(j)!(m−j)!
p
j
(1 −p)
m−j
+ np = n(n −1)p
2
+ np.
Teorema 6.5.3: Se o k-ésimo momento de uma variável aleatória existir, então todos os
momentos de ordem menores do que k também existem.
Prova: Por hipótese, E(|X
k
|) < ∞, logo E(1 +|X
k
|) < ∞. Como para qualquer j tal que
0 < j < k, |X
j
| ≤ 1 + |X
k
|, e 1 + |X
k
| é integrável, tem-se que |X
j
| também é integrável,
isto é E(|X
j
|) < ∞.
6.5.1 Momentos Centrais. Variância
Definição 6.5.4: Se X é uma variável aleatória seu n-ésimo momento central em torno de
E(X) é
E(X −E(X))
n
,
se esta esperança existir.
O primeiro momento central em torno da média é zero, pois
E(X −E(X)) = E(X) −E(E(X)) = E(X) −E(X) = 0.
O segundo momento central é conhecido como variância e denota-se por V (X). A variância
pode ser também calculada por:
V (X) = E(X −E(X))
2
= E(X
2
−2XE(X) + (E(X))
2
)
= E(X
2
) −2E(XE(X)) +E((E(X))
2
)
= E(X
2
) −2(E(X))
2
+ (E(X))
2
= E(X
2
) −(E(X))
2
= E(X
2
) −E(X)
2
.
Campos & Rêgo
6.5. MOMENTOS 122
Exemplo 6.5.5:
Do Teorema Binomial e da linearidade da esperança, tem-se:
E(X −E(X))
n
=
n
¸
k=0

n
k

(−E(X))
n−k
E(X
k
)
e
E(X
n
) = E(X −E(X) + E(X))
n
=
n
¸
k=0

n
k

(E(X))
n−k
E(X −E(X))
k
.
Corolário 6.5.6: O n-ésimo momento central existe se, e somente se, o n-ésimo momento
existe.
Exemplo 6.5.7: Considere uma variável aleatória X tal que
P(X = m−a) = P(X = m+ a) =
1
2
⇒ E(X
k
) =
1
2
[(m−a)
k
+ (m+ a)
k
].
E(X) = m,
E(X
2
) =
1
2
(2m
2
+ 2a
2
) = m
2
+ a
2
,
V (X) = a
2
.
Este exemplo, mostra que é possível encontrar uma variável aleatória possuindo qualquer
esperança e variância predeterminadas.
Definição 6.5.8: O desvio-padrão σ de uma variável aleatória X é definido como a raiz
quadrada positiva da variância,
σ(X) =

V (X).
6.5.2 Propriedades da Variância e de outros Momentos
(i) V (X) ≥ 0.
Prova: Pela definição de variância.
(ii) Se X = c, V (X) = 0.
Prova: E(X) = c, logo V (X) = E(X −c)
2
= E(0) = 0.
(iii) V (X + a) = V (X), onde a é uma constante real.
Prova:
V (X + a) = E(X + a)
2
−(E(X + a))
2
= E(X
2
) + 2aE(X) + a
2
−(E(X))
2
−2aE(X) −a
2
= E(X
2
) −(E(X))
2
= V (X).
Campos & Rêgo
6.5. MOMENTOS 123
(iv) V (aX) = a
2
V (X)
Prova:
V (aX) = E(aX)
2
−(E(aX))
2
= a
2
E(X)
2
−a
2
(EX)
2
= a
2
V (X).
(v) Se X e Y forem variáveis aleatórias mutuamente independentes, então
V (X + Y ) = V (X) + V (Y ).
Prova:
V (X + Y ) = E(X + Y )
2
−(E(X + Y ))
2
= E(X
2
+ 2XY + Y
2
) −(E(X))
2
−2E(X)E(Y ) −(EY )
2
= E(X
2
) −E(X)
2
+ E(Y
2
) −E(Y )
2
+ 2(E(XY ) −E(X)E(Y ))
= E(X
2
) + E(Y
2
) −(E(X))
2
−(E(Y ))
2
+ 2E(XY ) −2E(X)E(Y )
= V (X) + V (Y ).
porque E(XY ) = E(X)E(Y ).
(vi) Se X
1
, . . . , X
n
são variáveis aleatórias independentes, então
V (X
1
+ . . . X
n
) = V (X
1
) + . . . + V (X
n
).
Esta propriedade segue da propriedade anterior e da aplicação de indução matemática.
(vii) Se X e Y são variáveis aleatórias em (Ω, A, P) tais que E(|X
t
|) < ∞ e E(|Y
t
|) < ∞,
então E(|X + Y |
t
) < ∞.
Prova: |X+Y | ≤ |X|+|Y | ≤ 2 max(|X|, |Y |). Portanto, |X+Y |
t
≤ 2
t
max(|X|
t
, |Y |
t
) ≤
2
t
(|X|
t
+|Y |
t
). Logo, E(|X + Y |
t
) ≤ 2
t
(E(|X|
t
) + E(|Y |
t
) < ∞.
Como E(|X|
t
) < ∞ então, E(|aX|
t
) < ∞, ∀a ∈ IR, esta propriedade diz que a classe
de variáveis aleatórias em (Ω, A, P) possuidoras do t-ésimo momento finito é um espaço
vetorial ou espaço linear.
(viii) V (X) = E(X −µ)
2
= min
c∈IR
E(X −c)
2
.
Prova:
(X −c)
2
= (X −µ + µ −c)
2
= (X −µ)
2
+ 2(µ −c)(X −µ) + (µ −c)
2
,
logo
E(X −c)
2
= E(X −µ)
2
+ 2(µ −c)(E(X) −µ) + (µ −c)
2
= V (X) + (µ −c)
2
.
Portanto, E(X −c)
2
≥ E(X −µ)
2
, ∀c ∈ IR.
Campos & Rêgo
6.6. A DESIGUALDADE DE TCHEBYCHEV 124
6.6 A Desigualdade de Tchebychev
Corolário 6.6.1: Desigualdade (Original) de Tchebychev. Seja X uma variável ale-
atória, então
P(|X −E(X)| ≥ ǫ) ≤
V (X)
ǫ
2
.
Prova: Seja A = {x : |x| ≥ ǫ} e g(x) =
x
2
ǫ
2
. Note que g(x) ≥ I
A
(x), então pelo teorema
anterior, P(X ∈ A) = P(|X| ≥ ǫ) ≤
E(X
2
)
ǫ
2
. Substituindo X por X − E(X), tem-se
P(|X −E(X)| ≥ ǫ) ≤
V (X)
ǫ
2
.
Corolário 6.6.2: Desigualdade de Tchebychev Generalizada. Dado um conjunto A
e uma função g(x) tal que ∀x, g(x) ≥ I
A
(x), tem-se que P(X ∈ A) ≤ min(1, E(g(X))).
Prova: Pela monotonicidade da esperança, E(g(X)) ≥ E(I
A
(X)) = P(X ∈ A). Mas, como
a cota superior pode exceder 1, tem-se que min(1, E(g(X))) ≥ P(X ∈ A).
Corolário 6.6.3: Seja X uma variável aleatória, então para todo ǫ > 0,
P(|X| ≥ ǫ) ≤
E|X|
ǫ
.
Prova: Escolha A = {x : |x| ≥ ǫ} e g(x) =
|x|
ǫ
. Note que g(x) ≥ I
A
(x), então P(|X| ≥ ǫ) ≤
E(|X|)
ǫ
.
Corolário 6.6.4: Se Z ≥ 0 e E(Z) = 0, então P(Z = 0) = 1.
Prova: P(Z ≥
1
n
) ≤ nE(Z) = 0. Como [Z > 0] = ∪
n
[Z ≥
1
n
],
P(Z > 0) = P(∪
n
[Z ≥
1
n
]) ≤
¸
n
P(Z ≥
1
n
) = 0.
Portanto, P(Z = 0) = 1 −P(Z > 0) = 1.
Este último corolário implica que, quando V (X) = 0, ou seja E(X −E(X))
2
= 0, então,
P(X = E(X)) = 1, isto é, X é constante com probabilidade 1.
Esta desigualdade declara que a probabilidade da variável aleatória diferir da sua média
por mais do que uma constante qualquer (ε) é menor ou igual do que
σ
2
ε
2
. Portanto, quanto
menor a variância, mais agrupados em torno da média estão os dados e, consequentemente,
maior a probabilidade de se obter um valor (dos dados) próximo à média.
A desigualdade de Tchebychev é geral no sentido de que não há qualquer hipótese sobre
a lei de probabilidade de X. A única restrição é que σ
2
< ∞.
Campos & Rêgo
6.7. MOMENTOS CONJUNTOS 125
6.7 Momentos Conjuntos
A noção de momentos conjuntos é definida no contexto de vetores aleatórios.
Definição 6.7.1: Seja

X = (X
1
, X
2
, . . . , X
k
) um vetor aleatório k-dimensional. Então, os
momentos conjuntos de

X são da forma E(
¸
k
i=1
X
j
i
i
), onde j
i
’s são inteiros positivos, se esta
esperança existir.
De forma análoga ao caso unidimensional pode-se definir também momentos conjuntos
centrais.
No caso bidimensional a correlação e a covariância são momentos conjuntos; estes medem
o grau de dependência linear entre duas variáveis.
Definição 6.7.2: A covariância entre duas variáveis aleatórias X e Y é dada por
Cov(X, Y ) = E((X −E(X))(Y −E(Y ))) = E(XY ) −E(X)E(Y ).
Note que Cov(X, X) = V (X). Na prova da Propriedade (v) da variância aparece a
expressão E(XY ) −E(X)E(Y ), o que implica que, se X e Y não forem independentes,
V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ).
A seguir será vista uma expressão para a variância da soma de n variáveis aleatórias.
Teorema 6.7.3: Sejam X
1
, X
2
, . . . , X
n
variáveis aleatórias tais que V (X
i
) < ∞, então
V (X
1
+ . . . + X
n
) =
n
¸
i=1
V (X
i
) + 2
¸
i<j
Cov(X
i
, X
j
).
Prova:
V (X
1
+· · · + X
n
) = E(X
1
+ · · · + X
n
−E(X
1
+· · · + X
n
))
2
= E(
n
¸
i=1
(X
i
−E(X
i
))
2
= E(
n
¸
i=1
(X
i
−E(X
i
))
2
+ 2
¸
i<j
(X
i
−E(X
i
))(X
j
−E(X
j
)))
=
n
¸
i=1
V (X
i
) + 2
¸
i<j
Cov(X
i
, X
j
).
Corolário 6.7.4: Sejam X
1
, X
2
, . . . , X
n
variáveis aleatórias tais que V (X
i
) < ∞ e
Cov(X
i
, X
j
) = 0 para i = j, então
V (X
1
+ . . . + X
n
) =
n
¸
i=1
V (X
i
).
Campos & Rêgo
6.7. MOMENTOS CONJUNTOS 126
O próximo teorema trata de importante desigualdade em teoria da probabilidade:
Teorema 6.7.5: (E(XY ))
2
≤ E(X
2
)E(Y
2
).
Prova: (aX+Y )
2
≥ 0 ⇒ E(aX+Y )
2
≥ 0 ⇒ a
2
E(X
2
)+2aE(XY )+E(Y
2
) ≥ 0. Observa-se
que esta equação do segundo grau em a não pode ter duas raízes reais diferentes, pois caso
contrário essa expressão seria negativa para os valores entre as raízes. Então, utilizando a
regra do discriminante,
4(EXY )
2
−4EX
2
EY
2
≤ 0,
o teorema está provado.
Corolário 6.7.6: (Cov(X, Y ))
2
≤ V (X)V (Y ).
Prova: Segue do teorema anterior trocando X por X −E(X) e Y por Y −E(Y ).
Definição 6.7.7: O coeficiente de correlação entre duas variáveis aleatórias X e Y é dado
por
ρ(X, Y ) =
Cov(X, Y )

V ar(X)V ar(Y )
.
Definição 6.7.8: Duas varáveis são não-correlacionadas se Cov(X, Y ) = 0.
Como já foi provado que se X e Y são independentes, então E(XY ) = E(X)E(Y ), se
X e Y são independentes, elas necessariamente são não-correlacionadas. O contrário nem
sempre é verdadeiro como o próximo exemplo ilustra.
Exemplo 6.7.9: Se X é uma variável aleatória tal que P(X = −a) = P(X = a) = 1/2 e
Y = X
2
, então E(XY ) = −a
3
(1/2) + a
3
(1/2) = 0 e E(X) = −a(1/2) + a(1/2) = 0. Logo,
E(XY ) = E(X)E(Y ) = 0, ou seja, Cov(X, Y ) = 0. Porém, X e Y não são independentes,
pois Y é uma funão de X.
O teorema anterior provou que |ρ(X, Y )| ≤ 1. O próximo teorema mostra que o módulo
do coeficiente de correlação entre duas variáveis é igual a 1 se, e somente se, as variáveis são
linearmente dependentes.
Teorema 6.7.10: Sejam X e Y variáveis aleatórias com variâncias finitas e positivas.
Então,
(i) ρ(X, Y ) = 1 se, e somente se, P(Y = aX + b) = 1 para algum a > 0 e b ∈ IR.
(ii) ρ(X, Y ) = −1 se, e somente se, P(Y = aX + b) = 1 para algum a < 0 e b ∈ IR.
Prova:
Campos & Rêgo
6.7. MOMENTOS CONJUNTOS 127
(i) Como (
X−E(X)

V (X)

Y −E(Y )

V (Y )
)
2
≥ 0, então,
0 ≤ E(
X −E(X)

V (X)

Y −E(Y )

V (Y )
)
2
= E(
X −E(X)

V (X)
)
2
+ E(
Y −E(Y )

V (Y )
)
2

2

V (X)V (Y )
E((X −E(X))(Y −E(Y )))
=
V (X)
V (X)
+
V (Y )
V (Y )

2Cov(X, Y )

V (X)V (Y )
= 2 −2ρ(X, Y ).
Se ρ(X, Y ) = 1, então
E(
X −E(X)

V (X)

Y −E(Y )

V (Y )
)
2
= 0,
o que por sua vez implica que
P(
X −E(X)

V (X)
=
Y −E(Y )

V (Y )
) = 1,
em outras palavras,
P(Y = E(Y ) +

V (Y )

V (X)
(X −E(X))) = 1.
(ii) Análoga, substituindo o sinal “+” por “-” na expressão acima.
O próximo teorema apresenta uma nova relação entre momentos conjuntos de variáveis
aleatórias. Ele é conhecido como Desigualdade de Hölder.
Teorema 6.7.11: Suponha que p e q satisfazem: p > 1, q > 1, e
1
p
+
1
q
= 1. Então, se
E(|X|
p
) < ∞ e E(|X|
q
) < ∞, tem-se que
E(|XY |) ≤ (E|X|
p
)
1/p
(E|Y |
q
)
1/q
.
Prova: A prova da desigualdade de Hölder utiliza um argumento de convexidade. Como
|X|
p
≥ 0 (resp., |X|
q
≥ 0), já foi visto que se E(|X|
p
) = 0, então P(X = 0) = 1. Portanto,
em ambos os casos E(|XY |) = 0 e a desigualdade de Hölder é válida. Considere então o
caso em que o lado direito da desigualdade de Hölder é estritamente positivo.
Para a > 0 e b > 0, existe s, t ∈ IR tal que
a = exp(
s
p
) e b = exp(
t
q
).
Campos & Rêgo
6.8. ESPERANÇA CONDICIONAL 128
Como a função exponencial é convexa e p
−1
+ q
−1
= 1, por convexidade,
exp(
s
p
+
t
q
) ≤ p
−1
exp(s) + q
−1
exp(t),
ou pela definição de s, t
ab ≤ p
−1
a
p
+ q
−1
b
q
.
Agora substituindo a por
|X|
(E(|X|
p
))
1/p
e b por
|Y |
(E(|Y |
q
))
1/q
, temos
|XY |
(E(|X|
p
))
1/p
(E(|Y |
q
))
1/q
≤ p
−1
(
|X|
(E(|X|
p
))
1/p
)
p
+ q
−1
(
|Y |
(E(|Y |
q
))
1/q
)
q
.
Finalmente, tomando o valor esperado,
E(|XY |)
(E(|X|
p
))
1/p
(E(|Y |
q
))
1/q
≤ p
−1
(
E(|X|
p
)
(E((|X|
p
)))
)
p
+ q
−1
(
E|Y |
q
(E(|Y |
q
))
)
q
= p
−1
+ q
−1
= 1.
6.8 Esperança Condicional
6.9 Aprendendo um pouco mais...
Antes de se introduzir a definição geral da esperança de uma variável aleatória qualquer,
serão vistos conceitos sobre as integrais de Riemann-Stieltjes e de Lebesgue-Stieltjes.
6.9.1 As integrais de Riemman-Stieltjes e de Lebesgue-Stieltjes
Antes das definiões das integrais de Riemman-Stieltjes e Lebesgue-Stieltjes, tem-se a defini-
ção da integral de Riemann.
Uma partição P do intervalo [a, b] é uma sequência de pontos {x
1
, . . . , x
n
} tal que a =
x
1
< x
2
< · · · < x
n
= b; a norma da partição P é definida como sendo max
1≤i≤n−1
x
i+1
−x
i
.
Suponha que ϕ seja uma função real qualquer definida no intervalo [a, b]. Diz-se que esta
função é Riemann integrável se a soma de Riemann
n−1
¸
i=1
ϕ(y
i
)(x
i+1
−x
i
),
onde y
i
∈ [x
i
, x
i+1
], convergem quando a norma de P tende a zero e este limite é independente
da escolha dos y
i
’s e da partição P. Se esta integral existe denota-se o limite por

b
a
ϕ(x)dx.
A integral de Riemann-Stieltjes é uma generalização ad integral de Riemann. Se ϕ é
uma função contínua definida no intervalo [a, b] e F é uma função de distribuição, define-se
Campos & Rêgo
6.9. APRENDENDO UM POUCO MAIS... 129
a integral de Riemann-Stieltjes de ϕ em [a, b], em relação a F, como o limite de somas de
Riemann da forma
n−1
¸
i=1
ϕ(y
i
)[F(x
i+1
) −F(x
i
)],
onde a = x
1
< x
2
< · · · < x
n
= b, y
i
é um ponto arbitrário de [x
i
, x
i+1
] e toma-se o limite
quando a norma de partição P tende a zero. Tal limite existe e é finito sob as condições
descritas sendo representado por

b
a
ϕ(x)dF(x).
A funçõ ϕ é chamada de integrando e F de integrador. O limite acima existe mesmo que
F não seja uma função de distribuição, basta que seja de variação limitada.
Definição 6.9.1: Define-se variação total de uma função f em [a, b] pelo funcional:
V (f, [a, b]) = sup
n
¸
i=1
|f(x
i+1
) −f(x
i
)|,
onde o supremo é tomado sobre todas as possíveis partições do intervalo fechado [a, b]. Uma
função é de variação limitada se V (f, [a, b]) < ∞.
A integral de Rieman-Stieltjes sobre a reta é uma integral imprópria definida da mesma
maneira que a integral imprópria de Riemann:


−∞
ϕ(x)dF(x) = lim
a→−∞,b→∞

b
a
ϕ(x)dF(x),
se o limite existe. Esta definição da integral de Riemann-Stietjes pode ser estendida a outras
funções ϕ além das contínuas.
Para uma função qualquer ϕ, define-se

b
a
ϕ(x)dF(x) como sendo o limite das somas de
Riemann descritas acima quando a norma da partição tende a zero, se este limite existe e é
independente das escolhas dos y
i
’s e da partição P. O problema é que mesmo para funções
bem simples este limite pode não existir como mostra o próximo exemplo.
Exemplo 6.9.2: Seja F
0
(x) = 1 se x ≥ 0, e F
0
(x) = 0, caso contrário. Considere-se a
integral de Riemann-Stieltjes de F
0
em [−1, 1] em relação a F
0
. Note que se zero não é um
dos pontos da partição, de modo que x
i
< 0 < x
i+1
para algum i, com F
0
(x
i+1
) −F
0
(x
i
) = 1,
então o somatório assume como valor escolhido para y
i
ser maior que 0, ou não.
Uma integral que não sofre desta deficiência é a integral de Lebesgue-Stieltjes. A idéia da
integral de Lebesgue-Stieltjes é particionar a imagem da função ϕ ao invés de particionar o
seu domínio. Diz-se que uma partição P

é um refinamento de P se P ⊆ P

, ou seja, quando
os intervalos da partição P são particionados na partição P

.
Campos & Rêgo
6.9. APRENDENDO UM POUCO MAIS... 130
Suponha que ϕ seja não negativa e mensurável em relação a σ-álgebra de Borel. Seja µ
uma medida nos reais, ou seja, uma função cujo domínio é a σ-álgebra de Borel que tem como
imagem do conjunto vazio zero, é não-negativa e σ-aditiva. Dada uma sequência {P
1
, P
2
, . . .}
de partições de [0, ∞) onde P
n
= {y
1
, y
2
, . . . , y
n
}, y
n
→ ∞, P
i+i
é um refinamento de P
i
,
e a norma de P
n
tende a zero quando n → ∞, define-se a soma de Lebesgue em relação a
partição P
n
como sendo,
n−1
¸
i=1
y
i
µ({x : y
i
≤ ϕ(x) < y
i+1
}) + y
n
µ({x : ϕ(x) ≥ y
n
}).
A integral de Lebesgue-Stieltjes de ϕ em relação a µ é definida como sendo igual ao limite
das somas de Lebesgue, quando n → ∞. Dadas as condições acima, este limite sempre existe
(pode ser +∞) e é denotado por

ϕdµ.
Para uma função mensurável ϕ qualquer, pode-se escrever ϕ = ϕ
+
− ϕ

, onde ϕ
+
=
max(ϕ, 0), a parte positiva de ϕ, e ϕ

= −min(ϕ, 0), o módulo da parte negativa de ϕ, são
funções não-negativas e portanto possuem integral de Lebesgue-Stieltjes. Se ϕ
+
ou ϕ

possui
integral de Lebesgue-Stieltjes finita em relação a µ, define-se a integral de Lebesgue-Stieltjes
de ϕ em relação a µ como sendo

ϕdµ =

ϕ
+
dµ −

ϕ

dµ.
Se µ for uma medida de probabilidade em (IR, B) e F for a distribuição de probabi-
lidade acumulada associada á variável aleatória X(ω) = ω, então escreve-se

ϕ(x)dF(x)
(ou simplesmente,

ϕdF) para denotar

ϕdµ. Em geral, usa-se a notação

ϕ(x)dF(x)
não somente para funções de distribuição, mas para qualquer função F que pode ser es-
crita como a diferença de duas funções monó’tonas não-decrescentes, limitadas e contínuas
à direita. Se G for uma função monótona não-decrescente, limitada e contínua à direita,
então dado um intervalo qualquer I = [x
1
, x
2
], definindo-se ν(I) = G(x
2
) − G(x
1
), usa-se a
notação

ϕ(x)dG(x) para denotar a integral

ϕ(x)dν, onde ν é a única medida que satisfaz
ν(I) = G(x
2
) − G(x
1
) para todo intervalo I. Desta forma, se F = G
1
− G
2
, onde G
1
e G
2
são funções monótonas não-decrescentes, limitadas e contínuas á direita, então

ϕ(x)dF(x)
é utilizado para denotar

ϕ(x)dG
1
(x) −

ϕ(x)dG
2
(x).
Dada um intervalo qualquer [a, b], define-se a integral de Lebesgue-Stieltjes de ϕ em
relaão a µ no intervalo [a, b] como sendo

ϕI
[a,b]

e denota-se por

b
a
ϕdµ.
6.9.2 Propriedades da Integral de Lebesgue-Stieltjes
(i) Quando o integrando é contínuo, a integral de Lebesgue-Stieltjes torna-se uma integral
de Riemman-Stieltjes.
Campos & Rêgo
6.9. APRENDENDO UM POUCO MAIS... 131
(ii)

b
a
dF = F(b) −F(a).
Propriedade análoga ao Teorema Fundamental do Cálculo:

b
a
ϕ

(x)dx = ϕ(b) − ϕ(a),
onde ϕ(x) é a derivada de ϕ.
(iii) Linearidade no integrando e no integrador. Se ϕ(x) = αf(x) + βg(x), então

ϕdF = α

fdF + β

gdF,
e para H(x) = αF(x) + βG(x),

ϕdH = α

ϕdF + β

ϕdG.
(iv) Aditividade. Se −∞ ≤ a < b < c ≤ ∞, então

c
a
ϕdF =

b
a
ϕdF +

c
b
ϕdF.
(v) Se F for a função de distribuição de uma variável aleatória discreta, ou seja, se
F(x) =

¸
i=1
p
i
U(x −x
i
),
onde P(X = x
i
) = p
i
e
¸

i=1
p
i
= 1, então

ϕdF =

¸
i=1
p
i
ϕ(x
i
).
(vi) Se F for a função de distribuição de uma variável aleatória contínua tendo densidade
f, então
dF(x)
dx
= f(x) em quase toda parte, e consequentemente,

ϕ(x)dF(x) =

ϕ(x)f(x)dx.
(vii) No caso de uma distribuição qualquer F, foi visto que F pode ser decomposta em suas
partes discreta, contíınua e singular da seguinte forma F = F
d
+ F
ac
+ F
s
, então por
linearidade do integrador:

ϕ(x)dF(x) =

ϕ(x)dF
d
(x) +

ϕ(x)dF
ac
(x) +

ϕ(x)dF
s
(x).
Se a parte singular for nula, F
s
(x) = 0, ∀x,
Campos & Rêgo
6.9. APRENDENDO UM POUCO MAIS... 132

ϕ(x)dF(x) =
¸
i
ϕ(x
i
)p
i
+

ϕ(x)f(x)dx,
onde p
i
é o salto de F em x
i
e f é a derivada de F.
6.9.3 Definição da Esperança - Caso Geral
Considere uma sequência {P
1
, P
2
, . . .} de partições de [0, ∞) onde P
n
= {y
1
, y
2
, . . . , y
n
},
y
n
→ ∞, P
i+i
é um refinamento de P
i
, e a norma de P
n
tende a zero quando n → ∞. Dada
uma variável aleatória não-negativa qualquer X e uma partição P
n
desta sequência, defin-
se uma outra variável aleatória Y discreta que aproxima X assumindo o valor y
i
quando
y
i
≤ X < y
i+1
e Y = y
n
se X ≥ y
n
, ou seja, Y =
¸
n−1
i=1
y
i
I
[y
i
≤X<y
i+1
]
+ y
n
I
[X≥yn]
. Como Y é
discreta tem-se que sua esperança é dada por
E(Y ) =
n
¸
i=1
y
i
P(Y = y
i
) =
n−1
¸
i=1
y
i
P(y
i
≤ X < y
i+1
) + y
n
P(X ≥ y
n
).
Esta esperança é uma soma de Lebesgue em relação à partição P
n
com integrando X e
função integradora dada pela medida de probabilidade P. Note que a medida que partições
mais refinadas são consideradas na sequencia, Y se torna cada vez uma melhor aproximação
para X. Já que os valores de X e Y ficam cada vez mais próximos é intuitivo requerer que a
definição de esperança (média) E(X) seja igual ao limite de E(Y ) quando n → ∞, ou seja
E(X) = lim
n→∞
n
¸
i=1
y
i
P(Y = y
i
) = lim
n→∞
n−1
¸
i=1
y
i
P(y
i
≤ X < y
i+1
) + y
n
P(X ≥ y
n
) =

XdP.
Logo, E(X) é definida como sendo a integral de Lebesgue-Stieltjes de X em relação a medida
de probabilidade P, ou similarmente, E(X) =

XdF, onde F é a função de distribuição
acumulada de X. No caso geral, tem-se a seguinte definição
Definição 6.9.3: Se X é uma variável aleatória com função de distribuição F, então sua
esperança é dada pela fórmula
E(X) =

XdF =

0
−∞
XdF +


0
XdF,
desde que pelo menos uma das integrais seja finita. Em caso das duas integrais não serem
finitas, a esperança não existe. Caso E(X) seja finita, diz-se que X é integrável.
Pela Propriedade (vii) da integral de Lebesgue-Stieltjes, tem-se que se F = F
d
+F
ac
+F
s
,
então
E(X) =

XdF =
¸
i
x
i
p
i
+

xf(x)dx +

xdF
s
(x),
onde p
i
é o salto de F em x
i
e f é a derivada de F. Como a parte singular costuma ser
nula, na prática a esperança reduz-se a uma série ou uma integral imprópria, usualmente de
Riemann se f for integrável a Riemann.
Campos & Rêgo
6.9. APRENDENDO UM POUCO MAIS... 133
Exemplo 6.9.4: Considere uma variável aleatória Y com função de distribuição F, tal que
F(x) =

0, se x < 0,
x, se 0 ≤ x < 1/2,
1, se x ≥ 1/2.
Decompondo F nas partes discreta e contíınua tem-se
F
d
(x) =

0, se x < 1/2,
1/2, se x ≥ 1/2,
e
F
ac
(x) =

0, se x < 0,
x, se 0 ≤ x < 1/2,
1/2, se x ≥ 1/2.
Portanto,
E(Y ) =
1
2
P(Y =
1
2
) +

1/2
0
ydy =
1
4
+
1
8
=
3
8
.
6.9.4 Interpretação Geométrica da Esperança
Por definição, E(X) =

xdF(x), ou seja, E(X) é a integral da diferencial xdF. Mas xdF é
uma diferencial de área. Para x > 0, xdF é uma diferencial da área da região compreendida
entre as curvas x = 0, y = 1, e y = F(x) no plano Euclideano, cuja área total é dada por


0
(1 − F(x))dx. Para x < 0, −xdF é uma diferencial da área da região compreendida
entre as curvas x = 0, y = 0, e y = F(x) no plano Euclideano, cuja área total é dada por

0
−∞
F(x)dx. Logo, E(X) =


0
(1 −F(x))dx −

0
−∞
F(x)dx.
Prova:
Formalmente, prova-se isso da seguinte maneira. A prova é dividida em duas etapas: (a)


0
xdF(x) =


0
(1−F(x))dx e (b)

0
−∞
xdF(x) = −

0
−∞
F(x)dx. Provando (b). Utilizando
integração por partes, tem-se que ∀a < 0,

0
a
xdF(x) = −aF(a) −

0
a
F(x)dx =

0
a
(F(a) −F(x))dx.
Como F(a) ≥ 0 e a < 0,

0
a
xdF(x) ≥ −

0
a
F(x)dx.
Como a desigualdade é válida para todo a < 0, tomando o limite quando a → −∞

0
−∞
xdF(x) ≥ −

0
−∞
F(x)dx.
Por outro lado, seja λ < 0. Se a < λ, então
Campos & Rêgo
6.9. APRENDENDO UM POUCO MAIS... 134

0
a
(F(a) −F(x))dx ≤

0
λ
(F(a) −F(x))dx = F(a)(−λ) −

0
λ
F(x)dx,
e portanto, tomando o limite quando a → −∞,

0
−∞
xdF(x) ≤ −

0
λ
F(x)dx.
Como isto é válido para todo λ < 0, tomando o limite quando λ → −∞,

0
−∞
xdF(x) ≤ −

0
−∞
F(x)dx.
Para a parte (a), utilizando integração por partes, tem-se que ∀b > 0,

b
0
xdF(x) = bF(b) −

b
0
F(x)dx =

b
0
(F(b) −F(x))dx.
Como F(b) ≤ 1 e 1 −F(x) ≥ 0,

b
0
xdF(x) =

b
0
[F(b) −F(x)]dx ≤


0
(1 −F(x))dx.
Como a desigualdade é válida para todo b > 0, e tomando o limite quando b → ∞


0
xdF(x) ≤


0
(1 −F(x))dx.
Por outro lado, seja λ > 0. Se b > λ, então

b
0
[F(b) −F(x)]dx ≥

λ
0
[F(b) −F(x)]dx
=

λ
0
[F(b) −1]dx +

λ
0
[1 −F(x)]dx
= λ[F(b) −1] +

λ
0
[1 −F(x)]dx,
e portanto, tomando o limite quando b → ∞,


0
xdF(x) ≥

λ
0
[1 −F(x)]dx.
Como isto é válido para todo λ > 0, tomando o limite quando λ → ∞,


0
xdF(x) ≥


0
[1 −F(x)]dx.
A desigualdade de Jensen é uma das propriedades da esperança.
Campos & Rêgo
6.9. APRENDENDO UM POUCO MAIS... 135
Corolário 6.9.5: (Desigualdade de Jensen) Seja ϕ uma função mensurável e convexa defi-
nida na reta. Se X é integrável, então E(ϕ(X)) ≥ ϕ(E(X)).
Prova: Pela convexidade de ϕ, dado algum ponto (x
0
, ϕ(x
0
) do gráfico de ϕ, existe uma
reta que passa por esse ponto e fica sempre abaixo do gráfico de ϕ, ou seja, existe algum λ
tal que
ϕ(x) ≥ ϕ(x
0
) + λ(x −x
0
), ∀x.
Logo, pela monotonicidade e linearidade da esperança,
Eϕ(X) ≥ ϕ(x
0
) + λ(E(X) −x
0
).
Em particular, para x
0
= EX, tem-se Eϕ(X) ≥ ϕ(E(X)).
O próximo lema estabelece um critério para integrabilidade de variáveis aleatórias.
Lema 6.9.6: Seja X uma variável aleatória qualquer. Então,

¸
n=1
P(|X| ≥ n) ≤ E|X| ≤ 1 +

¸
n=1
P(|X| ≥ n),
e, portanto, X é integrável se, e somente se,
¸

n=1
P(|X| ≥ n) < ∞.
Prova: Se x ≥ 0, seja ⌊x⌋ a parte inteira de x. Então, a variável aleatória ⌊|X|⌋ assume o
valor k quando k ≤ |X| < k + 1 e 0 ≤ ⌊|X|⌋ ≤ |X| ≤ ⌊|X|⌋ + 1, então pela monotonicidade
e linearidade da esperança,
0 ≤ E⌊|X|⌋ ≤ E|X| ≤ 1 +E⌊|X|⌋.
Como ⌊|X|⌋ é uma variável aleatória que só assume valores inteiros não-negativos,
E⌊|X|⌋ =

¸
n=1
P(⌊|X|⌋ ≥ n) =

¸
n=1
P(|X| ≥ n),
logo

¸
n=1
P(|X| ≥ n) ≤ E(|X|) ≤ 1 +

¸
n=1
P(|X| ≥ n).
Se X
+
= max(X, 0) e X

= −min(X, 0), então X = X
+
−X

e |X| = X
+
+ X

. Por
definição, E(X) < ∞ se, e somente se, E(X
+
) < ∞ e E(X
)
− < ∞. Portanto, E(X) < ∞
se, e somente se, E(|X|) < ∞. De forma análoga, pode-se concluir que E(ϕ(X)) < ∞ se, e
somente se, E(|ϕ(X)|) < ∞ para qualquer função mensurável ϕ.
O próximo teorema fornece um outro critério para integrabilidade de uma variável alea-
tória.
Campos & Rêgo
6.10. EXERCÍCIOS 136
Teorema 6.9.7: Sejam X e Y variáveis aleatórias tais que Y ≥ 0, Y é integrável e |X| < Y .
Então, X é integrável.
Prova: Note que 0 ≤ |X| ≤ Y implica que 0 ≤ E(|X|) ≤ E(Y ). Portanto, se E(Y ) < ∞,
então E(|X|) < ∞, o que por sua vez implica que E(X) < ∞.
Os dois importantes teoremas (Burrill, 1972) a seguir tratam da convergência de esperan-
ças de variáveis aleatórias. O critério de convergência envolvido é o pontual ou seja, X
n
→ X
se, e somente se, X
n
(w) → X(w) para todo w ∈ Ω.
Teorema 6.9.8: Teorema da Convergência Monótona. Sejam X, X
1
, X
2
, . . . variáveis
aleatórias. Se 0 ≤ X
n
↑ X, então, E(X
n
) ↑ E(X).
Teorema 6.9.9: Teorema da Convergência Dominada. Sejam Y, X, X
1
, X
2
, . . . variá-
veis aleatórias. Considere que Y seja integrável, |X
n
| ≤ Y e X
n
→ X. Assim X e X
n
são
integráveis e E(X
n
) → E(X).
O próximo exemplo mostra que nem sempre X
n
→ X ⇒ E(X
n
) → E(X).
Exemplo 6.9.10: Seja Y ∼ U(0, 1). Considere a seguinte sequência {X
1
, X
2
, . . .} de
variáveis aleatórias: X
n
(ω) = n se Y (ω) ∈ (0, 1/n) e X
n
(ω) = 0, caso contrário. Então,
X
n
(ω) → 0, ∀ω. Mas, E(X
n
) = 1 = 0 = E(0), ou seja, E(X
n
) 0.
6.10 Exercícios
1. Seja
f(x, y) =

2, 0 < x < y, 0 < y < 1
0, quaisquer outros casos
a função densidade conjunta do vetor aleatório (X, Y ).
Sejam u(X, Y ) = X, v(X, Y ) = Y e w(X, Y ) = XY .
Mostre que E(u(X, Y )) · E(v(X, Y )) = E(w(X, Y )).
2. Suponha que a demanda (procura) por semana de um certo produto seja uma variável
aleatória D com distribuição de probabilidade p
k
= P(D = k), para k = 0, 1, 2, · · · .
Para este produto sabe-se que o preço de custo é C
1
, enquanto o preço de venda é
C
2
. Se o produto não for vendido até o final da semana, deve ser refugado a um custo
adicional C
3
. Se o fabricante decide fabricar N desses produtos no início da semana,
pede-se:
(a) A distribuição de probabilidade da variável aleatória lucro por semana.
(b) O lucro esperado por semana.
3. Sejam os inteiros de 1 a 10 e suponha que um deles seja escolhido aleatoriamente.
Considere a variável aleatória X como sendo o número de divisores do número sorteado.
Calcule o número médio de divisores do número sorteado.
Campos & Rêgo
6.10. EXERCÍCIOS 137
4. n mensagens estão sendo enviadas através de um canal de comunicação. Os tempos
de duração das mensagens, T
i
, i = 1 · · · , n são aleatórios, e têm a mesma média µ, a
mesma variância σ
2
e são independentes.
(a) Encontre a média e a variância do tempo total T de transmissão das n mensagens.
(b) Encontre T
max
, que é o tempo máximo praticamente possível durante o qual as
mensagens podem ser transmitidas. Sugestão: µ
X
±3σ
X
, three sigma rule.
5. Resolva o problema anterior quando os comprimentos das mensagens são dependentes
e o coeficiente de correlação entre as variáveis T
i
e T
j
é r
ij
.
6. A administração de uma rede planeja o momento Y de começo de uma operação
como sendo o tempo máximo em que duas operações de suporte, X
1
e X
2
, tenham
terminado. As variáveis aleatórias X
1
e X
2
são mutuamente independentes e têm
densidades, respectivamente, f
X
1
e f
X
2
. Encontre a média e a variância da variável Y .
7. Uma mensagem enviada através de um canal de comunicação, consiste de n dígitos 0 ou
1, sendo cada um igualmente provável e independentes. Defina uma variável aleatória
X como o número de mudanças nos dígitos.
(a) Encontre a média e a variância de X.
(b) Encontre o número máximo praticamente possível de mudanças.
8. Se X e Y são varáveis aleatórias independentes, discretas ou contínuas Mostre que,
∀y ∈ R
Y
,
E(X | Y = y) = E(X).
9. Se (X, Y ) tem uma densidade conjunta f(x, y) = 2, para 0 < x < y < 1. Compute:
(a) E(Y −X);
(b) V (Y −X).
10. Dada a densidade conjunta do vetor aleatório (X, Y ),
f(x, y) = 6(1 −x −y), 0 < y < 1 −x < 1,
calcule
(a) as densidades de X e Y ;
(b) E(XY ).
11. Um jogador lança duas moedas não-viciadas. Ganha 1 u.m. (unidade monetária) ou 2
u.m., conforme ocorra uma ou duas caras. Por outro lado, perde 5 u.m. se não ocorrer
cara. Ache o valor esperado E do jogo e verifique se o mesmo é favorável ao jogador.
Campos & Rêgo
6.10. EXERCÍCIOS 138
12. Analysing the Quick-Sort Algorithm. Suppose we are given a set of n distinct values,
x
1
, · · · , x
n
, and we desire to put these values in increasing order, or as it is commonly
called, to sort them. An efficient procedure for accomplishing this is the quick-sort
algorithm which is defined recursively s follows: When n = 2 the algorithm compares
the 2 values and puts them in the appropriate order. When n > 2 it starts by choosing
at random one of the n values, say x
i
, and then compares each of the other n − 1
values with x
i
, noting which are smaller and which are larger than x
i
. Letting S
i
denote the set of elements smaller than x
i
, and S
i
, the set of elements greater than
x
i
, the algorithm now sorts the set S
i
and the set S
i
. The final ordering, therefore,
consists of the ordered set of elements in S
i
, then x
i
, and then the ordered set of
elements in S
i
. One measure of the effectiveness of this algorithm is the expected
number of comparisons that it makes. Let M
n
the expected number of comparisons
needed by the quick-sort algorithm to sort a set of n distinct values. Find E(M
n
) (S.
M. Ross, Introduction to Probability Models, fifth edition, pp. 96).
13. A List Model. Consider n elements e
1
, · · · , e
n
, which are initially arranged in some
ordered list. At each unit of time a request is made for one of these elements, e
i
, being
requested, independently of the past, with probabilityn p
i
. After being requested the
element is then moved to the front of the list. We are interested in determining the
expected position of the element requested after this process has been in operation for
a long time (S. M. Ross, Introduction to Probability Models, fifth edition, pp. 107).
Campos & Rêgo

Lista de Símbolos
IN Z Z+ Q I IR C I a, b, x, y x A B Ω ω A, B Ac ou A P (A) P (A | B) X, Y , Z (X1 , · · · , Xn ) ou X1 , · · · , Xn iid f fX F FX FX X ∼ ≈ = ∅ ||A|| ∞ ⇔ ↑ ↓ ⇒ conjunto dos números naturais conjunto dos números inteiros conjunto dos números inteiros positivos conjunto dos números racionais conjunto dos números reais conjunto dos números complexos números reais vetor real σ-álgebra σ-álgebra de Borel espaço de resultados elementares, espaço amostral evento simples, resultado elementar eventos aleatórios, eventos evento complementar de A probabilidade de A probabilidade condicional de A dado B variáveis aleatórias amostra aleatória simples variáveis aleatórias independentes e identicamente distribuídas função densidade função densidade da variável aleatória X função de distribuição acumulada ou função de distribuição função de distribuição da variável aleatória X função de distribuição do vetor aleatório X vetor aleatório se distribui, a variável aleatória tem distribuição aproximadamente igual diferente conjunto vazio cardinalidade, tamanho ou dimensão do conjunto A infinito se e somente se limite de seqüência monotônica não-decrescente limite de seqüência monotônoca não-crescente implica i

⊆ ⊂ ∩ ∪ ∧ ∨ ¬ ∈ ∈ < > ≤ ≥ ∀ ∃ ≡ : P(A), 2A | | Ak , (n)k n k Cn ou n k !

inclusão inclusão estrita interseção união e ou não pertence não pertence menor maior menor ou igual maior ou igual para todo ou qualquer que seja existe equivalente tal que conjunto das partes de A valor absoluto arranjo de n elementos tomados k deles combinação de n elementos tomados k deles fatorial

ii

. . . . . . . . . . . . . . . . . . . . . . . . .2 Produto Cartesiano . .8. . . . . . . .3 Conjunto das Partes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. . . . . . . . . . . . . . .6 Fundamentos de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 Interpretações de Probabilidade . . . . . . . . . .1. . .1 Grafos Não Direcionados . . . . . . . . . . . . .9 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . 1. . . . 1. . . .7 Frequência Relativa . . 1. . . . . . . . . . . . . . . . . . 1. . . 1. . . . . . 1. 2. . . . . . . . . 2. . . . . . . . . 1. . . . . . . 1 1 3 5 6 6 7 7 10 10 11 12 14 15 16 17 19 23 29 30 35 35 35 36 37 38 39 41 41 41 42 43 . . . . . . . . . . . .2 Regra da Adição . . . . . . . . . . . . . . .6. . . 2. . . . . . . . .1. . . . . . . . . . . . . . . 2.5 Eventos e Coleção de Eventos . . . . . . . . . . . 2. . . . . . . . . . . . . . . . . . . . . . . . . . . 1. . . . . . . . . . .3 Experimento Aleatório . . 1.10 Exercícios .1. . . . . . . . . . . . . . .4 Espaço Amostral . . . . . 1. . . . . . . . . . . . . . . . . . . . . 2. . . . . . . . . . . . . . 1. . . . .1. . . . . . . . . . . . . . .2 Grafos Direcionados .4 Amostragem ou Escolhas com ou sem Reposição . . . . . . . .1 Operações com Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5 Permutações e Arranjos . . . . . . . . . . . . . . . .3 Regra da Multiplicação . . . . 2 Espaços Amostrais Finitos 2. . . . . . . . . 1. . . . . . . . . . . . . . . . .8 Contagem Multinomial ou Permutação com Elementos Repetidos 2. . . .7. . . . .7. . . . . . . . . . . . . . . . . . . . . . . . . . . .2 Breve Histórico sobre o Estudo da Chance e da Incerteza .4 Partição .8. . . . . . . .1 Introdução . . . . . . . . . 1. . . . . . . . . . . . . . . . . . . . . 1. . . . . . .6 Combinações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. . .1 Hierarquia de Conceitos Estruturais de Probabilidade 1. . . . . . . . . . . . . . . . . . . . . . . . . . . .Conteúdo 1 Introdução à Probabilidade 1. . . . . . . . . . . . . . . . .5 Função Indicadora . . 1. . . . . . . . . . . . . . . . . . .8 Axiomas de Kolmogorov . . . . . . . . . . . . . .2 Propriedades de uma Medida de Probabilidade . . 2. .1 Conjuntos . . . 1. .9 Aprendendo um pouco mais . . . . . . . . . . . . . . . . . . . . . . . . . 1. . . . . .7 Aplicações em Grafos . . . . . . . . . . iii . .1 Exemplos de Medidas de Probabilidade . .6. . . . . . . . . . . . .1. . . . . .

. 6 Esperança e outros Momentos 6. 5. . . . .4 Funções de Variáveis Aleatórias . . 4.2 Função de Distribuição Acumulada Conjunta . . . . . . . . . . . . . . . . . . . . . . . .4 Independência entre Variáveis Aleatórias . . . . . . . . . . . . . .2 Exercícios . . .3 Distribuição de Z = X . . . 6. . . . . . . . . . . . . .2 Caso Contínuo . . . . . . iv . . . . .1 Distribuição de Z = X + Y . . . . . . . . . . . . 6. . . . . . . . . . . .2 Variável Aleatória Contínua . . . . . . . . . . . . .2 Função de Distribuição Acumulada . .3 Exercícios .1 Extensão do Método Jacobiano para o Cálculo de Densidades ções de Vetores Aleatórios Quaisquer . . . . . . . . . . . . . . . . . 5. . . . . . . . .6. . . . . . . . . . .3 Distribuições Marginais e Condicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . .5 Exercícios . . . . . 5. . . . . . . . . . . . . . . . . . .1 Caso Discreto . . . . . . . . . . . . . . . . . . . . 4 Variáveis Aleatórias Unidimensionais e Funções 4. . . . . .4 Propriedades da Esperança . . . . . . . . . . . 4. . . . . . . . . . . .2 Propriedades da Variância e de outros Momentos 6. . . . . . . . . . . . . . . . . . . . . . .5. . . . . . . . .3 Probabilidade Condicional. . . . . . . . . . . . .2. . . . . . . Independência 3. . . . . 3. . . . . . . . . . . . . . . . . . . . .1 O Conceito de Esperança . . . . . . . . . . . . . . . . . . . . . . 4. . . . . . .3 Tipos de Variáveis Aleatórias . . . . . . . . .2 Definição da Esperança . .3. . . . . . . . . . . . . . . . . . . . . . . . . . .3 Esperança de Funções de Variáveis Aleatórias . . . . . . . . . . .2 Independência . . . . . .3. . . . . . . . . . .1 Vetor Aleatório Discreto . . . . . . . . . . . . Y 5. . . . . . . . . . . .1 Variável Aleatória Discreta . . . . . .2 Vetor Aleatório Contínuo . . 5. 6. . . . . . . .3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3. . . . . . .5. . . . . . . . . . . . .5 Funções de Vetores Aleatórios . . . . . . . . . . . . . . . . . . . . . . 48 48 58 61 68 68 69 72 72 73 74 75 75 82 89 89 89 91 91 92 95 97 98 100 101 105 106 107 110 115 115 115 116 117 118 118 120 121 122 124 5 Vetores Aleatórios e Funções 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 Jacobiano de uma Função . . . . . . . . . . . . . . . . Variância . .2. . . . . . . . . . . . . . . . . . . . . . . . . . .5. 5. . . .3 Variável Aleatória Singular . . . . . .5. . . . . . . . . . .4 Decomposição de uma Variável Aleatória 4. . .6 Aprendendo um pouco mais. . . . . . . . . . . . . . . . . 6. . .2 Distribuição de Z = XY . . . . . . . . . . . . . . 4. . . . . . . . 5. . . . . . . 5. . . . . . . . . . . . . . . .6. . . . . . . . . . . . . . . . . . . . . . . . . 4. . 5. . . . 6. 6. . . . . . . . . . . . 6. .1 Introdução . . . . . .1 Momentos Centrais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. .. . . . . 5. . . . . . . . . . . . . . . . . . . . . . . . . .1 Probabilidade Condicional . . . . . . . . . . . . . . . . . .1 Introdução . . . . . . . . . . . . . . . . . . . . de Fun. . . . . . . . . . .5. 5. . . . . . . . . .6 A Desigualdade de Tchebychev . . . . . . . .3. 4. . . . . . . . . . . . . . . . . . . . . . . 5. . . . . . . . . . . . . . . .3. . . . . . . . . 3.5 Momentos . . . . . . . . . . . . . . . . . . . . 4. . . . . .5. . . . 6.

. . .9. .2 Propriedades da Integral de Lebesgue-Stieltjes . . . .10 Exercícios . . . . . . . . . . . . . . . . .4 Interpretação Geométrica da Esperança . . .6. . . . . . . . . . . . . . . . . . . . . . Aprendendo um pouco mais. . . . . . . . 6. ..9. . . . . . . . . . . .1 As integrais de Riemman-Stieltjes e de Lebesgue-Stieltjes 6. . . . . . . . . . 6. 6. . 125 128 128 128 130 132 133 136 v . . . . . . . . . . . . . . . . . . . . . 6. . . . . . . .8 6. . . . Esperança Condicional . . . . . . . . . . . . . . . .. . . . . .9.3 Definição da Esperança . . . . . . . .Caso Geral . .7 6. . . . . . . .9 Momentos Conjuntos . . . . . . . . . . . . . . . . . . .9. . . . . . . . . . . . . . . .

o conjunto dos tempos de acesso a um banco de dados. B = {0. . 1. um conjunto pode ser especificado por uma regra que determina seus membros. 13}. 2 ∈ D = {x : x é par} ou 3 ∈ E = {x : é primo }. Como em um conjunto a ordem dos elementos não importa. Esta definição intuitiva de um conjunto foi dada primeiramente por Georg Cantor (18451918). A = {0. Por outro lado. . 5. pode ter valores iguais 1 1 . 3. Por exemplo. .1 Conjuntos Definição 1. listando seus elementos dentro de chaves. 1. 1000}. 3} = {2. Por exemplo. entre outros. 2. 1}. Na Estatística é comum se falar de conjuntos incluindo o caso onde seus elementos não são distintos. o conjunto das notas de uma dada disciplina. 3. diz-se que ele não pertence ao conjunto e denota-se isso com o símbolo ∈.Capítulo 1 Introdução à Probabilidade 1. Se um dado elemento faz parte de um conjunto. / É preciso ter cuidado ao distinguir entre um elemento como 2 e o conjunto contendo somente este elemento {2}. Por exemplo. que criou a teoria dos conjuntos em 1895. 2. Um conjunto pode ser especificado. pois o / conjunto contendo somente o elemento 2 não pertence à F . 3 ∈ D = {x : x é par} / / ou 4 ∈ E = {x : x é primo}. 3. Por exemplo. se um dado elemento não faz parte de um conjunto. diz-se que ele pertence ao conjunto e denota-se isso com símbolo ∈. . 2. 8. {2} ∈ F = {2. como em: C = {x : x é inteiro e positivo} ou D = {x : x é par}. 5}. tem-se 2 ∈ F = {2. 3. Alternativamente.1.1: Um conjunto é uma coleção de elementos distintos1 onde os elementos não são ordenados. Enquanto. 5}. tem-se que: {1.

ւ ւ ւ 0/2 1/2 2/2 3/2 ւ ւ ւ 0/3 · · · 1/3 · · · 2/3 · · · 3/3 · · · . 1. . ւ . 1/1. Um conjunto infinito enumerável tem exatamente a mesma quantidade de elementos que os naturais. é a quantidade de elementos que ele possui. Então. . seus elementos podem ser contados. e g(r) = 2f (|r|) − 1 se r ≤ 0. existe uma função bijetiva cujo domínio é igual a este conjunto e a imagem é igual ao conjunto dos naturais. Por exemplo. f (3) = 6. ou seja. os seguintes conjuntos são enumeráveis: Nn = {0. . g(r) é um natural par se r for um racional positivo. . temos que f (1/2) = 3. . ւ . A cardinalidades pode ser finita. . f (r) representa a posição em que r aparece na sequência acima. . da seguinte forma: 0/1. Campos & Rêgo . CONJUNTOS Exemplo 1.1. Pode-se definir g no conjunto de todos os racionais tal que tal que g(r) = 2(f (r) − 1) se r > 0. o que implica que os racionais formam um conjunto enumerável. sem repetição. Portanto. e um natural ímpar. tem-se que f é uma correspondência 1-1 entre os racionais não-negativos e os naturais. . (Lembrando que um número x é racional se pode ser escrito sob a forma p . . . g(r) é uma correspondência 1-1 entre os racionais e os naturais.. . infinita enumerável. Q = {x : x é racional}. Esta matriz contém todos os racionais não-negativos. os elementos da matriz são ordenados. Z = {x : x é um inteiro}. se r for um racional não-positivo. n − 1}. Definindo-se uma correspondência f onde para cada racional não-negativo r. / 2 O tamanho de um conjunto A. Utilizando o método da diagonalização. . 2/1. ou infinita não-enumerável. ||A||. 1/3. . {3}}. 2. . sendo possível exibir seu último elemento. Por exemplo. .) q 0/1 1/1 2/1 3/1 . 2 ∈ G e {3} ∈ G. .2: Seja G = {2. Um conjunto é finito quando existe uma função bijetiva cujo domínio é igual a este conjunto e a imagem é o conjunto dos inteiros não-negativos menores que um número finito. a qual é chamada de sua cardinalidade.1. 3/1. onde p e q são inteiros e q = 0. . Z + = {x : x é um inteiro positivo}. Um conjunto é enumerável se ele for finito ou infinito enumerável. porém 3 ∈ G. . . . Um conjunto é não-enumerável se ele não for enumerável. Desse modo.1. Para notar que o conjunto dos números racionais é enumerável considere a seguinte matriz de números racionais. 1/2.

1. 6. 2. Por exemplo. e anti-simetria (A ⊆ B. quando todo elemento de A é também elemento de B. para todo / ω ∈ Ω e todo conjunto A. [a. b) = {x : a < x < b}.1. 3 Dois conjuntos A e B podem ser relacionados através da relação de inclusão. Então. A = {0. A relação ⊆ possui as propriedades de (i) reflexividade (A ⊆ A). e B ⊂ A. em outros. 7}. 4. e diz-se então que A e B são disjuntos. Por exemplo. b] = {x : a ≤ x ≤ b}. Contudo. 4}. o conjunto dos números naturais. (ii) União: A ∪ B = {ω : ω ∈ A ou ω ∈ B}. então B é chamado um superconjunto de A. os conjuntos abaixo são não-enumeráveis: I = {x : x é um número real}. o conjunto especial que não possui elementos é chamado de conjunto vazio e é denotado por ∅. 4. onde a < b. 5}. 1. então também pode-se dizer que B ⊇ A. ∅ = {} = {x : x ∈ I e x < x} ou ∅ = (a. 5}. onde a < b. 5} e B = {1. ou seja. denotada por A ⊆ B. Campos & Rêgo . CONJUNTOS Por outro lado. Ac = {2. 2. O conjunto que contém todos os elementos objeto de estudo é chamado de conjunto universo e é denotado por Ω. Também é fácil verificar que ∅ ⊆ A e A ⊆ Ω para todo conjunto A. por todas as peças que saem de uma linha de produção durante um período de 24h.1 Operações com Conjuntos Conjuntos podem ser transformados através das seguintes operações: (i) Complementação: Ac = {ω ∈ Ω : ω ∈ A}. 1. 7}. B ⊆ A → A = B). 3. A ∪ B = {0. Em muitos problemas o interesse é estudar um conjunto definido de objetos.3: Seja Ω = {0. / Se A ∩ B = ∅. 3. ou ainda. não é verdade que. Se A ⊆ B. 3. 4. A ∩ B = {1}. Este conjunto tem cardinalidade 0 e portanto é finito. 1.1. A = ∅. Diz-se que A é um subconjunto próprio de B quando se tem A ⊆ B. Exemplo 1. R (a. (iii) Intersecção: A ∩ B = {ω : ω ∈ A e ω ∈ B}. 3. 6. para todos os conjuntos A e B. a). Se A é subconjunto de B. Por outro lado. (ii) transitividade (A ⊆ B. e lida A é um subconjunto de B ou B contém A. não existe outra opção além de ω ∈ A ou ω ∈ Ac . o conjuntos dos números reais. além disso não pode ser verdade que ω ∈ A e ω ∈ Ac simultaneamente. 2. De acordo com esta definição.1. R 1. então A e B não têm qualquer elemento em comum. (iv) Diferença: A − B = A ∩ B c = {ω : ω ∈ A e ω ∈ B}. 5. Diz-se que A e B são iguais se e somente se A ⊆ B e B ⊆ A. ou A ⊆ B. A − B = {0. ou B ⊆ A. B ⊆ C → A ⊆ C). etc. ela não é uma relação completa.

1. ω ∈ (A ∪ B). tem-se que ω ∈ D. A ∪ B ⊆ B ∪ A. então ω ∈ Ac . (Ac ∩ B c ) ⊆ (A ∪ b)c . Agora suponha que ω ∈ A. e portanto ω ∈ (Ac )c . ou seja. identificar através de um único símbolo os conjuntos na coleção arbitrária de interesse e desse modo Campos & Rêgo . ou seja. então como C ∩ D = ∅. Então. Então. C ⊆ A. Agora suponha que ω ∈ (Ac ∩ B c ). / / / Então.1. tem que ω ∈ B. B. o que por sua vez implica que ω ∈ A.4: Sejam A. Logo. Prova: Suponha que ω ∈ (Ac )c . / como A ⊆ C. ω ∈ (Ac ∩ B c ). ω ∈ (A ∪ B). / Relações e propriedades das operações entre conjuntos incluem: (i) Idempotência: (Ac )c = A. Portanto. ou seja. Logo. como B ⊆ D. C ∩ D = ∅. segue que ω ∈ B. Prova: Suponha que ω ∈ (A ∪ B)c . segue que ω ∈ A. (Ac ∩ B c ) = (A ∪ b)c . Então. / / (A ∪ B)c ⊆ (Ac ∩ B c ). Prova: Exercício. Este conjunto I será utilizado para indexar. Logo. ou ω ∈ A. (v) Leis de De Morgan: (A ∪ B)c = Ac ∩ B c e (A ∩ B)c = Ac ∪ B c . B ∪ A ⊆ A ∪ B. Solução: Basta provar que C ⊆ A e D ⊆ B. ω ∈ Ac e ω ∈ B c . (iv) Distributividade: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) e A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C). / c c c c ou seja. A ∪ B = B ∪ A. A ⊆ C e B ⊆ D. (iii) Associatividade: A ∪ (B ∪ C) = (A ∪ B) ∪ C e A ∩ (B ∩ C) = (A ∩ B) ∩ C. Seja I um conjunto qualquer. Prova: Suponha que ω ∈ A ∪ B. Então. ou seja. ω ∈ (A ∪ B)c . ω ∈ B. Uniões e intersecções podem ser estendendidas para coleções arbitrárias de conjuntos. As Leis de De Morgan permitem que se possa expressar uniões em termos de intersecções e complementos e intersecções em termos de uniões e complementos. Logo. A ⊆ (A ) . Para provar que D ⊆ B. (Ac )c ⊆ A. o que por sua vez implica que ω ∈ A e ω ∈ B. ω ∈ Ac . o que por sua vez implica / que ω ∈ A e ω ∈ B. D ⊆ B. A prova da outra Lei de De Morgan é análoga e deixada como exercício. Mas como A ∪ B = Ω. Portanto. (ii) Comutatividade (Simetria): A ∪ B = B ∪ A e A ∩ B = B ∩ A. ou ω ∈ B. C e D subconjuntos do conjunto universo Ω tal que A∪B = Ω. Mas como A ∪ B = Ω. Então. seja ω ∈ D. tem-se que ω ∈ C. Seja ω ∈ C.1. / ou seja. Logo. (A ) = A. o que implica que ω ∈ B ∪ A. Prove que A = C e B = D. o que por sua vez implica que ω ∈ A ∪ B. tem-se que ω ∈ A. ω ∈ A. Agora suponha que ω ∈ B ∪ A. / / Portanto. então como C ∩ D = ∅. Portanto. Prova: Exercício. A prova para o caso da intersecção é análoga e deixada como Exercício. ou seja. CONJUNTOS 4 Exemplo 1. Então. ω ∈ Ac e ω ∈ B c .

(2. . 1). d)} e B × A = {(c. . × An = {(a1 .5: Se Ai = [1. onde i ∈ I. ou. O produto cartesiano de dois conjuntos pode ser estendido para n conjuntos da seguinte maneira: se A1 . d}: A × B = {(1. R. se Ω = 0. .} Se I for um conjunto enuméravel. representado por I × I × I R R R.6: Produto Cartesiano. i ∈ IN. c). 1). então ∪i∈I Ai = A1 ∪ A5 ∪ A7 . Campos & Rêgo . 3} e B = {c. .2 Produto Cartesiano Definição 1. o conjunto de todas as ênuplas ordenadas. . 3). isto é. 3) e ∩i∈IN = [1. (2. Exemplo 1.1. onde o primeiro pertence à A e o segundo pertence à B: A × B = {(a. Por exemplo. . . 2). (d. an ) : ai ∈ Ai }. 1. respectivamente. 2. então ∪α∈I Nα = Ω e ∩α∈I Nα = N3 . α − 1}. (c. 1. Por exemplo.1. CONJUNTOS 5 simplificar a notação utilizada. d). então ∪i∈IN Ai = [1. 2). (3. onde i ∈ I. 7}. .1. . . . . ∩i∈I Ai . O produto Cartesiano A × B de dois conjuntos dados A e B é o conjunto de todos os pares ordenados de elementos. } e ∩i∈I Ai = {ω ∈ Ω : ω pertence a todo Ai . 2. d). c). I é o conjunto de inteiros positivos divisíveis por 3 e Nα = {0. An forem conjuntos. A×A. (1. enuméravel de conjuntos. c). De modo análogo ao caso de dois conjuntos. Exemplos disso são o plano euclideano. se A = {1. (d.1. b) : a ∈ A. b ∈ B}. 2 + 1 ). se I = {1. então ∩i∈N Ai = A1 ∩ A2 ∩ · · · ∩ An · · · . (3. 2. i 1.1. 3)}. 2]. . a2 . . (d. então. . diz-se que ∪i∈I Ai . . é uma união. Um caso especial importante é o produto cartesiano de um conjunto por ele próprio. (c. I R×I e o espaço euclideano tridimensional. . ou seja. respectivamente intersecção. define-se: ∪i∈I Ai = {ω ∈ Ω : ω pertence a pelo menos um dos conjuntos Ai .. se I = N . A1 × A2 × . 5. Por exemplo.

cujos elementos são subconjuntos de A. tem-se a seguinte definição: Definição 1.4 Partição Intuitivamente.8: Seja A = {1. Prova: Recorde que uma função g : D → I é sobrejetiva se para todo y ∈ I. {3}. reais I Campos & Rêgo . uma partição Π = {Aα .1. 2. existe x ∈ D tal que g(x) = y. {2. (ii) ∪α∈I Aα = Ω.1. Defina o conjunto. e denotado por 2A .1. 1. onde A1 = {1.11: Se Ω = {1. então {A1 . 3}. Existem dois casos a considerar: b ∈ B ou b ∈ B c . tem-se que b ∈ B. Deste modo os conjuntos de uma partição são disjuntos par a par e cobrem todo o conjunto universo. que existe uma função sobrejetiva f : A → 2A . 4}. Exemplo 1. 2. Como f por suposição é sobrejetiva e / B ∈ 2A . 3}. Mas como B = f (b).1. então b ∈ f (b). pode-se definir um outro conjunto. Suponha por contradição. conhecido como conjuntos das partes de A.1. Portanto. A2 }. Se b ∈ B. absurdo. {1}.10 : Dado um conjunto universo Ω. Mas como B = f (b). tem-se que existe b ∈ A tal que f (b) = B. 3}}. Pode-se provar que a cardinalidade do conjunto das partes de qualquer conjunto dado A é maior que a cardinalidade de A. 2.3 Conjunto das Partes Definição 1.1. Aα ∩ Aβ = ∅. dos conjuntos Aα de uma partição. e somente um. tem-se que b ∈ B. absurdo.12: A coleção de intervalos {(n.1. não existe uma função f : A → 2A que seja sobrejetiva. indexados por α que toma valores no conjunto de índices I) e satisfaz: (i) Para todo α = β.7: Dado um conjunto qualquer A. Se / / b ∈ B c . {2}. então b ∈ f (b).1. 3} e A2 = {4}. Exemplo 1. 2}. {1. então 2A = {∅. Teorema 1. CONJUNTOS 6 1.9: Se A é um conjunto e 2A é o conjunto das partes de A. A. {1. Formalmente.1. α ∈ I} de Ω é uma coleção de subconjuntos de Ω (neste caso. Exemplo 1.1. é uma partição de Ω. B = {x ∈ A : x ∈ f (x)}. cada elemento ω ∈ Ω pertence a um. 3. uma partição de um conjunto universo é uma maneira de distribuir os elementos deste conjunto em uma coleção arbitrária de subconjuntos. n + 1] : n ∈ Z} é uma partição dos números R.

1} de um conjunto A é dada por 1. IB ) = IA IB . O fato que conjuntos são iguais se. Definição 1. proposições sobre conjuntos são transformadas em proposições sobre funções indicadoras e a álgebra pode ser usada para resolver perguntas menos familiares sobre conjuntos. Note que existe uma correspondência 1-1 entre conjuntos e suas funções indicadoras: A = B ⇔ (∀ω ∈ Ω)IA (ω) = IB (ω).1. IB ) = IA + IB − IA∩B . Ou seja. verifique que A ⊆ B ⇔ B c ⊆ Ac .a era dos jogos de azar. se ω ∈ A.. 1}. ∀ω ∈ Ω. Campos & Rêgo ..1. Exemplo 1. e somente se. para construir argumentos rigorosos no que se refere a relação entre conjuntos. suas funções indicadoras forem idênticas permitem explorar a aritmética de funções indicadoras: IAc = 1 − IA . IA∪B = max(IA . ∀ω ∈ Ω e que I∅ (ω) = 0. será dado um breve histórico a partir do século XVI.. IA (ω) = 0. se ω ∈ A. / É fácil observar que IΩ (ω) = 1. . Solução: Tem-se que A ⊆ B ⇔ IA ≤ IB ⇔ 1 − IA ≥ 1 − IB ⇔ IAc ≥ IBc ⇔ B c ⊆ Ac . 1..2 Breve Histórico sobre o Estudo da Chance e da Incerteza Antes de começar as definições e propriedades da função probabilidade.1. BREVE HISTÓRICO SOBRE O ESTUDO DA CHANCE E DA INCERTEZA 7 1. IA∩B = min(IA .14: Utilizando funções indicadoras. 0) = IA IBc .5 Função Indicadora É sempre conveniente representar um conjunto A por uma função IA tendo domínio (conjunto dos argumentos da função) Ω e contra-domínio (conjunto dos possíveis valores da função) binário {0. A função indicadora IA : Ω → {0.2.1. IA−B = max(IA − IB .13: Função Indicadora. A ⊆ B ⇔ IA ≤ IB .

Markov (1856-1922). M. Publicou em 1713 Ars Conjectandi (The Art of Guessing).. ou Teorema de Ouro. A e B. . o qual foi muito bem aceito pelos matemáticos da época e foi a única introdução à Teoria da Probabilidade durante 50 anos. Por alguma razão acidental. James Bernoulli (1654-1705)... onde. L. eles decidem parar o jogo quando A tem ganho m jogos e B. no qual apresentou seus próprios resultados e os de seus predecessores. concordam em jogar uma série de jogos. A pergunta é: como as apostas devem ser divididas? A solução desse problema envolveu Fermat. o teorema da adição de probabilidades e o teorema da multiplicação de probabilidades. s. P. A.. Pierre Simon. na última. Um dos primeiros problemas interessantes em probabilidade foi proposto pelo nobre francês Chevalier de Méré.1. Huygens publicou em 1657 o primeiro livro sobre Teoria da Probabilidade De Ratiociniis in Alae Ludo (On Calculations in Game of Chance). Campos & Rêgo . BREVE HISTÓRICO SOBRE O ESTUDO DA CHANCE E DA INCERTEZA 8 Cardano (1501-1576). Suas contribuições mais importantes foram a (i) aplicação de métodos probabilísticos aos erros de observações e (ii) formulou a idéia de considerar os erros de observações como o resultado acumulativo da adição de um grande número de erros elementares independentes. Ambos tiveram grande interesse por teoremas limite.o começo. sendo m ≤ s. obra dividida em quatro partes. .estamos chegando. Poisson (1781-1840). Chebyshev (1822-1894). Primeiro matemático que calculou uma probabilidade corretamente. Huygens (1629-1695). A Lei dos Grandes Números. A Gauss é creditada a origem da Teoria dos Erros.2.. Gauss (1777-1855). de modo que o quociente entre ambos os números desse um resultado que estivesse de acordo com a experiência. Pascal (1623-1662). Publicou em 1812 Théorie Analytique des Probabilités. Marquês de Laplace (1749-1827).. dos Mínimos Quadrados. Introduziu a idéia de combinações para calcular o cardinal do espaço amostral e do número de eventos elementares favoráveis. n ≤ s e m = n . Fermat (1601-1655). n.. O problema é o seguinte: dois jogadores.. Huygens (1629-1695). A. Ainda datam desse período os fundamentos do conceito de esperança matemática. Pascal e Huygens. em particular. provou o primeiro limite da Teoria da Probabilidade. Lyapunov (1857-1918). A.

em 1928. idéias recentes em Teoria da Probabilidade são (i) Probabilidade Intervalar. (ii) alocamento dinâmico de memória. (iv) análise de um sistema computacional servindo a um grande número de usuários. Atualmente. Campos & Rêgo .. As contribuições de Markov. contribuiu para a descoberta da Mecânica Quântica.1.2. Lebesgue. (ii) Probabilidades Imprecisas e (iii) Probabilidade sobre Domínios. BREVE HISTÓRICO SOBRE O ESTUDO DA CHANCE E DA INCERTEZA 9 Desenvolveram métodos efetivos para provar teoremas limite para soma de variáveis aleatórias independentes. N.. . e como. KOLMOGOROV.. contribuiu para o desenvolvimento da primeira bomba atômica americana e .hoje. Chebyshev foi o primeiro a explorar com profundidade as relações entre variáveis aleatórias e suas esperanças matemáticas.. (iii) análise do erro de arredondamento acumulado em um algoritmo numérico. Uma das contribuições de Lyapunov foi o uso da função característica para provar o teorema central do limite. Borel (1871-1956). publicou em 1933 Foundations of the Theory of Probability.inventou o computador digital! .. von Neumann assentou sobre bases firmes a Teoria dos Jogos... Ainda nessa época. analisar. relacionam-se com teoremas limite para soma de variáveis aleatórias independentes e a criação de um novo ramo da Teoria da Probabilidade: a teoria das variáveis aleatórias dependentes conhecidas como Cadeias de Markov.. definiu a Teoria da Medida e Integração. Que ferramentas usar. A. estabeleu a analogia entre medida de um conjunto e probabilidade de um evento e integral de uma função e esperança matemática.. entender. modelar as seguintes situações: (i) análise de tempo de execução de um algoritmo: • pior caso (worst-case). mas arbitrariamente distribuídas. com a axiomática que tem sido usada até hoje.a axiomatização.. • caso médio (average-case). John von Neumann (1903-1957).

que existe uma aposta com pagamentos que dependem apenas de qual lado da moeda cai para cima. É importante ressaltar que freqüentemente são encontradas situações práticas onde não se consegue descrever todos os possíveis resultados de um experimento.1. contudo. ou. tal suposição pode acarretar em dificuldades quando se tenta elicitar ou deduzir probabilidades. Uma maneira de contornar este problema é assumir que um resultado possível do experimento é a não ocorrência de qualquer dos resultados descritos. na verdade. fisicamente. existe um elemento de incerteza. Por exemplo. Em muitos experimentos de interesse.4 Espaço Amostral O conjunto de possíveis resultados de um experimento aleatório é chamado de espaço amostral. 2 Campos & Rêgo .3 Experimento Aleatório Um experimento é qualquer processo de observação. coroa. coroa}. borda}. Em um dado experimento aleatório a especificação do espaço amostral deve ser tal que este (i) liste todos os possíveis resultados do experimento sem duplicação e o (ii) faça em um nível de detalhamento suficiente para os interesses desejados. Uma outra possibilidade seria levar em consideração as coordenadas (x. p. (iii) um valor numérico. não mencionada. Tais experimentos são conhecidos como experimentos aleatórios. y) do centro da moeda quando ela para após ser jogada no ar. não é possível predizer o seu comportamento em futuras realizações por várias razões: impossibilidade de saber todas as causas envolvidas. 1. este livro restringe-se à classe de experimentos aleatórios cujo conjuntos de possíveis resultados seja conhecido2 . Salvo mencionado em contrário.3. embora logicamente ou fisicamente possíveis. existe alguma aleatoriedade fundamental no experimento. muito mais se poderia dizer sobre o resultado de uma jogada de uma moeda que os simples resultados binários tradicionais cara e coroa. em problemas práticos. EXPERIMENTO ALEATÓRIO 10 1. Informações outras são ignoradas quando se usa uma hipótese adicional. os fenômenos que o geraram podem ser tão complexos que impossibilitam o cálculo do seu efeito combinado. ou chance. da probabilidade de ocorrência de cada um dos conjuntos de resultados de interesse. dados insuficientes sobre as suas condições iniciais. que não importa o quanto se saiba sobre o passado de outras performances deste experimento. Os resultados de um experimento aleatório são caracterizados pelos seguintes componentes: (i) o conjunto de resultados possíveis: Ω. uma única jogada de uma moeda pode ter o espaço amostral tradicional Ω = {cara. ficar equilibrada na borda Ω = {cara. (ii) a coleção de conjuntos de resultados de interesse: A. ou poderia se considerar que a moeda pode. omitindo resultados que. não tenham qualquer implicação prática na sua análise. Portanto.

ou. (d) Pelo menos dois ocorrem: (A ∩ B ∩ C c ) ∪ (A ∩ B c ∩ C) ∪ (Ac ∩ B ∩ C) ∪ (A ∩ B ∩ C). Campos & Rêgo . diz-se que A ocorreu. Definição 1. Primeiro. ou seja. ou no grau de crença que determinado evento ocorrerá. (b) Exatamente um deles ocorre: (A ∩ B c ∩ C c ) ∪ (Ac ∩ B ∩ C c ) ∪ (Ac ∩ B c ∩ C).5. A ∩ B = ∅. EVENTOS E COLEÇÃO DE EVENTOS 11 1.5 Eventos e Coleção de Eventos Um evento é um subconjunto do espaço amostral. o espaço amostral pode conter um grau de detalhamento superior ao de interesse no problema. ele pode representar uma única jogada de um dado mas o interesse é apenas em saber se o resultado é par ou ímpar. mas C não ocorre: (A ∩ B ∩ C c ). B. se o resultado pertence a um dado evento A.1: Os eventos A e B são disjuntos ou mutuamente excludentes ou mutuamente exclusivos se não puderem ocorrer juntos.2: Sejam A. Ao se realizar um experimento aleatório. e C eventos em um mesmo espaço amostral Ω. união. (f) Nenhum deles ocorre: (Ac ∩ B c ∩ C c ). A ocorrência de eventos combinados também é um evento. intersecção e diferença. Expresse os seguintes eventos em função de A. B. o objetivo é associar a cada evento A com uma probabilidade P (A). tem-se três razões para esperar que o interesse seja apenas por alguns de seus subconjuntos.5. (a) Pelo menos um deles ocorre: A ∪ B ∪ C. é um conjunto de resultados possíveis do experimento aleatório. Segundo. (c) Apenas A ocorre: (A ∩ B c ∩ C c ).1. (g) Ambos A e B ocorrem. Por exemplo. (e) No máximo dois deles ocorrem: (A ∩ B ∩ C)c . necessariamente é de interesse analisar todos os seus subconjuntos (e isto eventualmente é verdadeiro). em liguagem de conjuntos.5. Exemplo 1. dado um espaço amostral. essas combinações podem ser expressas através das operações de conjuntos: complementar. como essas probabilidades estão baseadas em algum conhecimento sobre a tendência de ocorrer o evento. Embora possa-se pensar que. e C e operações Booleanas de conjuntos.

tem-se que A também é fechada com respeito a intersecções enumeráveis. Definição 1. que serão vistos adiante. 3}. Definição 1. {1.6 Fundamentos de Probabilidade Raciocínio probabilístico aparece em uma ampla variedade de fenômenos de chance e incerteza. (c) Um outro exemplo: Ω = {1. o conhecimento probabilístico que seja tanto qualitativo e expresso linguisticamente quanto quantitativo e expresso numericamente.5: (a) A menor σ-álgebra de eventos é A = {∅. então A ∪ B ∈ F ).1. considerando que um julgamento errôneo pode ter graves consequências. FUNDAMENTOS DE PROBABILIDADE 12 o conhecimento sobre P pode não se estender para todos os subconjuntos de Ω. 2. o interesse é em uma coleção especial A de subconjuntos do espaço amostral Ω (A é um conjunto cujos elementos também são conjuntos!) que são eventos de interesse no que se refere ao experimento aleatório E e os quais tem-se conhecimento sobre a sua probabilidade. O domínio de uma medida de probabilidade é uma σ-álgebra.3: Uma álgebra de eventos F é uma coleção de subconjuntos do espaço amostral Ω que satisfaz: (i) F é não vazia. A terceira (e técnica) razão para limitar a coleção de eventos de interesse é que condições impostas em P pelos axiomas de Kolmogorov. B ∈ F . Exemplo 1. Ultrapassar um carro em uma estrada com um outro vindo em direção oposta implica em calcular distâncias. é preciso incorporar. (ii) F é fechada com respeito a complementos (se A ∈ F . a vários fenômenos do dia-a-dia. Julgamentos probabilísticos são expressos tanto através da linguagem quanto através de ações.6. então Ac ∈ F ). (∀i ∈ I)Ai ∈ A ⇒ ∪i∈I Ai ∈ A. Ω}. podem não permitir que P seja definida em todos os subconjuntos de Ω.5. 3}}. A é chamado de uma σ-álgebra de eventos. A = {Ω.5. De acordo com Fine (2005). o raciocínio probabilístico pode ser classificado nas seguintes dimensões: Campos & Rêgo . velocidades e riscos de colisão. (iii) F é fechada com respeito a uniões finitas (se A. Em geral.5.4: Uma σ-álgebra A é uma álgebra de eventos que também é fechada com relação a uma união enumerável de eventos. Pelas Leis de De Morgan. ∅. Em probabilidade. {2}. (b) A maior σ-álgebra de eventos é o conjunto das partes de Ω. espera-se que esse erro seja suficientemente pequeno. em particular isto pode ocorrer quando Ω for não enumerável (fato este fora do escopo deste livro). 1.

os fundamentos influem na escolha dos métodos estatísticos a serem utilizados (frequentistas e Bayesianos.1. Exemplo 1.00 se uma bola azul for sorteada na urna 2. Os próximos exemplos motivam a importância do estudo de fundamentos de probabilidade. FUNDAMENTOS DE PROBABILIDADE • grau de precisão – o conceito estrutural. A maioria das pessoas quando questionada se prefere um bilhete da Loteria L1 ou L2 prefere um bilhete da loteria L1 .6.000. Alice joga a moeda e olha o resultado. Após a moeda ser jogada.00 caso contrário. Loteria L1 paga R$1.2: Suponha agora que Alice tenha duas moedas. Suponha agora que temos duas outras loterias L3 e L4 . O conceito estrutural determina a precisão esperada de que probabilidade represente fenômenos aleatórios. mas não se sabe a distribuição das bolas. e R$0. Exemplo 1. pode somente capturar uma parte do que se entende da interpretação. Considere que existem duas loteria com prêmios baseados no sorteio de bolas dessas urnas. Qual a probabilidade de cara segundo João? Exemplo 1.3: Paradoxo de Ellsbergue. onde a primeira paga R$1. • o significado.000. Tudo que se sabe sobre a urna 2 é que ela contém bolas azuis e verdes. qual a probabilidade de cara segundo João? Um argumento diria que a probabilidade ainda é 1/2. A urna 1 contém 30 bolas azuis e 30 bolas verdes. ou seja. contudo.6.6. a moeda ou caiu cara ou coroa. então o melhor que João pode afirmar é que a probabilidade de cara ou é 0 ou é 1. Suponha que existam duas urnas cada uma com 60 bolas. pois João nada aprendeu sobre o resultado da jogada. então ele não deve alterar o valor de sua probabilidade.6. A interpretação proporciona a base com a qual a probabilidade deve ser determinada e indica o que se pode aprender com ela. Alice escolhe uma das moedas (suponha que ela sabe distinguir as moedas) e está prestes a jogá-la. questiona se realmente faz sentido falar sobre probabilidade de cara depois que a moeda foi jogada. pois aplicações de teoria da probabilidade dependem fortemente de seus fundamentos. Loteria L2 paga R$1.000. A compreensão de fundamentos de probabilidade é importante.00 se uma bola azul for sorteada na urna 1.00 caso contrário. e a segunda Campos & Rêgo . Um outro argumento. O conceito estrutural e a interpretação guiam a escolha dos axiomas. Segundo este argumento. ou interpretação a ser dada à probabilidade. 13 • estrutura matemática formal da função probabilidade dada por um conjunto de axiomas. e R$0. Por exemplo. o que uma afirmação probabilística significa.1: Suponha que Alice tenha uma moeda honesta e que ela e João saibam que a moeda é honesta. mas ele não sabe discernir entre esses valores. João sabe que uma moeda é honesta e que a outra é tendenciosa e que é duas vezes mais provável cair cara que coroa com a moeda tendenciosa. uma honesta e outra tendenciosa e é duas vezes mais provável dar cara que coroa com esta moeda. mas ele não sabe qual moeda Alice escolheu nem lhe foi dada a probabilidade com que Alice escolhe a moeda honesta. entre outros) e na interpretação dos resultados obtidos. O conjunto de axiomas.00 somente se uma bola verde for sorteada da urna 1.

6.1 Hierarquia de Conceitos Estruturais de Probabilidade A seguir apresenta-se uma variedade de conceitos estruturais e interpretações de probabilidade que foram descritos em Fine (2005). Provavelmente. pois a primeira preferência (L1 sobre L2 ) indica que o decisor considera que existam mais bolas verdes que azuis na urna 2. mas estende mais que mera lógica. FUNDAMENTOS DE PROBABILIDADE 14 para R$1. ou probabilidade inferior e superior (P (A). baseada na matemática intervalar (Moore. não é possível que o decisor possua uma única distribuição de probabilidade subjetiva sobre as cores das bolas na urna 2. Pode ser relacionada com probabilidade numérica através de P (A) ≥ P (B). uma moeda parando e ficando equilibrada na borda em uma superfície rígida. A probabilidade comparativa inclui “provavelmente A” através de “A é pelo menos tão provável quanto Ac ”. Isto permite um grau de indeterminação variável sem o comprometimento de que exista um “verdadeiro” valor no intervalo. e pode-se modelar a incerteza do decisor por um conjunto de medidas de probabilidade ao invés de uma única medida de probabilidade.000.1.00 somente se uma bola verde for sorteada da urna 2. Com estas preferências. Probabilidade Intervalar.6. 1. “Possivelmente A” é o conceito mais rudimentar e menos preciso. a ocorrência de A é compatível com leis físicas. e a segunda (L3 sobre L4 ) indica que o decisor considera que existam mais bolas azuis que verdes na urna 2. Esse fenômeno é conhecido na literatura como aversão a ambiguidade. “A é pelo menos tão provável quanto B”. possibilidade epistêmica. contudo pode ser extremamente improvável — por exemplo. Também. 1981). este conceito não requer qualquer comprometimento com uma probabilidade numérica nem com o preciso estado de conhecimento que uma probabilidade numérica requer. Provavelmente A é um fortalecimento da noção de possibilidade significando mais que provável que não provável. 1966 e 1979) e na aritmética de exatidão máxima (Kulisch & Miranker. existe outra (Campos. Enquanto ela pode corresponder ao caso que a probabilidade numérica de A seja maior que 1/2. P (A))”. segundo a qual a ocorrência de A não contradiz o conhecimento. probabilidade comparativa não requer qualquer comprometimento com probabilidade numérica. Possivelmente. é verificado que a maioria das pessoas que preferiram a loteria L1 à loteria L2 preferem a loteria L3 à loteria L4 . Probabilidade Comparativa. Existe um número de conceitos de possibilidade que incluem os seguintes: possibilidade lógica. possibilidade prática. a noção do dia-a-dia segundo a qual A é praticamente possível se ele tem pelo menos uma verossimilhança não tão pequena de ocorrer. no sentido que não se contradiz logicamente. “A tem probabilidade intervalar. embora como nos dois exemplos anteriores. além dessa probabilidade intervalar. que inclui. e o usado pelos antigos Gregos para distinguir entre o que era necessário e o que era contingente. Campos & Rêgo . 1997). possibilidade física.

a cair em qualquer uma de suas faces. ele deverá preferir um bilhete de loteria que lhe pague um prêmio L se seu time for campeão a um outro bilhete que lhe pague um prêmio L à obtenção de cara no lançamento de uma moeda honesta. podem levar a conclusão que um dado tem a mesma propensão. Lógica: grau de confirmação da hipótese de uma proposição que “A ocorre” dada uma evidência através da proposição que “B ocorreu”. O que pode ser feito é relacionar probabilidade a outros conceitos através de uma interpretação. se um torcedor de futebol acredita que seu time tem mais de 50% de chance de ganhar o campeonato. são insuficientes para deduzir logicamente a hipótese ou conclusão. [P (A). ou disposição para um evento A ocorrer. Subjetiva: se refere ao grau de crença pessoal na ocorrência do evento A e é medida através da interpretação comportamental de disposição a apostar ou agir. De agora em diante o foco é o conceito estrutural mais utilizado que é a probabilidade numérica. Ela é usada para tornar o raciocínio indutivo quantitativo. este não é o único conceito utilizado em linguagem ordinária e no raciocínio probabilístico do dia-a-dia. considerações de simetria. 2. 1974) tão pequena quanto possível. Os cinco mais comuns grupos de interpretação para probabilidade são os seguintes: 1.2 Interpretações de Probabilidade Parece não ser possível reduzir probabilidade a outros conceitos.6. ou tendência. Por exemplo. É duvidoso que uma dada probabilidade numérica seja adequada a todas as aplicações em que é utilizada. “A probabilidade de A é o número real P (A). pode-se ainda medir quantitativamente o grau de suporte que uma evidência dá a uma hipótese através de probabilidade lógica. pois não se pode realizar infinitas realizações de um experimento. FUNDAMENTOS DE PROBABILIDADE 15 a qual consiste de um intervalo fechado de números reais. Quando às evidências. 1. 3. 4. ela é uma noção em si mesma. Por exemplo. e é provável que tenha inibido o desenvolvimento de teorias matemáticas apropriadas para outros fenômenos aleatórios.1. Note que limites de freqüência relativas são uma idealização. P (A)] com a precisão (Sterbenz. Por exemplo.” Este é o conceito usual e será o enfocado neste livro. Esta interpretação está ligada a um sistema lógico formal e não ao mundo físico. propensidade. Enquanto este conceito absorveu quase toda a atenção de pessoas envolvidas com fenômenos de chance e incerteza e provou ser frutífero na prática científica. Campos & Rêgo .6. ou premissas. um jurado tem de utilizar julgamento que envolvem probabilidades lógicas para condenar ou não um determinado réu baseado nas evidências disponíveis. Propensidade: tendência. Frequentista: se refere ao limite da freqüência relativa de ocorrência do evento A em repetidas realizações não relacionadas do experimento aleatório E. Probabilidade Numérica.

(iii) fn (Ω) = 1. em grande parte. P herdará propriedades da frequência relativa fn . é 1 fn (A) = n n IA (ωi) = i=1 Nn (A) . Considere uma coleção de experimentos aleatórios Ei que possuem a mesma σ-álgebra de eventos A e têm resultados individuais não necessariamente numéricos {ωi }. 16 Na maior parte do restante deste livro adota-se a abordagem tradicional de interpretação de probabilidade.1. (iv) Se A e B são disjuntos. então fn (∪∞ Ai ) = i=1 ∞ i=1 fn (Ai ). . a associação de uma medida numérica a eventos a qual representa a probabilidade com que eles ocorrem. A2 . Deste modo. se o interesse é na ocorrência de um dado evento A. então fn (A ∪ B) = fn (A) + fn (B). fn (A). . As propriedades desta associação são motivadas. . n Propriedades da frequência relativa são: (i) fn (A) : A → I R. Clássica: baseada em uma enumeração de casos igualmente prováveis.7 Frequência Relativa A seguir será será discutido o terceiro elemento para modelagem do raciocínio probabilístico.7. embora que o sentido de convergência quando n cresce só será explicado pela Lei dos Grandes Números (estudada posteriormente). 1. a frequentista. ωn } de n experimentos aleatórios. isto é. pelas propriedades da frequência relativa. supõe-se que existe alguma base empírica. a frequência relativa de A nada mas é que uma média aritmética da função indicadora de A calculada em cada um dos termos da sequência {ωi }. No que se segue. determinada pelos resultados {ω1 .7. (v) Se A1 . Definição 1. (ii) fn (A) ≥ 0. · · · é uma seqüência de eventos disjuntos dois a dois. . que garanta que fn (A) → P (A).1: A frequência relativa de um evento A. isto é. · · · An . ou seja. FREQUÊNCIA RELATIVA 5. Fixando uma dada sequência de resultados {ωi }. Esta tendência da frequência relativa de estabilizar em um certo valor é conhecida como regularidade estatística. física ou sobrenatural. Campos & Rêgo .

O experimento aleatório é descrito pelo espaço de probabilidade (Ω. ∀i = j. Os axiomas descritos a seguir não descrevem um único modelo probabilístico. ou seja. (K3) Normalização Unitária. ∀A ∈ A. (K2) Não-negatividade. abstrai o cálculo de probabilidades de casos particulares e nos provê de um método formal para resolver problemas probabilísticos. usar as chamadas probabilidades geométricas e o problema está resolvido. B são disjuntos. pode-se usar a definição clássica e a “complicação” consiste em contar. o que implica no uso de técnicas de análise combinatória. Se o problema envolve “volumes de sólidos”. As propriedades de frequência relativa motivam os primeiros quatro axiomas de Kolmogorov: (K1) Inicial. Aí é onde a situação se complica. é possível. não são fáceis.8.8 Axiomas de Kolmogorov Antes de um sistema computacional ou algoritmo ser analisado. É fácil provar (tente!) utilizando indução matemática que (K4) é válida para qualquer coleção finita de eventos disjuntos dois a dois. Questões de probabilidade em situações práticas basicamente constituem-se. confiabilidade (reliability) e disponibilidade (availability) de um sistema de comunicação? Estas e outras perguntas estão ligadas a problemas de avaliação de desempenho. o que é · · · “grande”? Portanto a construção axiomática da teoria da probabilidade.1. Uma outra forma para calcular probabilidades é usar a frequência relativa como sendo a probabilidade para um dado evento. se Ai ∩ Aj = ∅. A. conhecimentos sobre progressões geométricas adquiridos no segundo grau resolvem alguns problemas. várias distribuições de probabilidade têm de ser analisadas. apenas determinam uma família de modelos probabilísticos. P (A) ≥ 0. que. a qual é suportada. P ) que consiste do espaço amostral Ω. mas. AXIOMAS DE KOLMOGOROV 17 1. De onde vêm essas distribuições? Como é possível avaliar a vazão (throughput). com os quais podem-se utilizar métodos matemáticos para encontrar propriedades que serão verdadeiras em qualquer modelo probabilístico. de uma σ-álgebra A. Se A. j = 1 · · · n. como seria o esperado. Estatística e Processos Estocásticos. Se o espaço amostral é finito. tempo de resposta (response time). P (Ω) = 1. construída a partir de Ω e de uma função de valores reais P : A → I R. familiar com o fenômeno aleatório sendo modelado. em como calcular probabilidades. com i. por Probabilidade. Campos & Rêgo . (K4) Aditividade Finita. então P (A ∪ B) = P (A) + P (B). Nesse caso teríamos que ter um “grande número de observações”. foi proposto por Kolmogorov para garantir continuidade da medida de probabilidade. Se o espaço amostral é enumerável. ou estatístico. A escolha de um modelo específico satisfazendo os axiomas é feita pelo probabilista. em algumas situações. embora não tenha significado em espaços amostrais finitos. primordialmente. então P (∪n Ai ) = n P (Ai). i=1 i=1 Um quinto axioma.

pode levar a complicações inesperadas em teoria estatística. e defina para todo n Bn = ∪i>n Ai . tem-se que Ai e Bn são disjuntos.1: Se P satisfaz (K1)—(K4). que. também é uma propriedade da frequência relativa: (K5)′ σ-aditividade. então ∞ P (∪∞ Ai ) = i=1 P (Ai ). Seja {Bn } qualquer coleção enumerável de eventos satisfazendo as hipóteses do axioma (K5): Bn+1 ⊆ Bn e ∩∞ Bn = ∅. prossegue-se sob a suposição que o axioma da continuidade (K5) é válido. (K5)′ segue-se se se mostrar que limn P (Bn ) = 0. Ai+1 ⊆ Ai e ∩i Ai = ∅.8.1. conforme visto anteriormente. Agora. AXIOMAS DE KOLMOGOROV (K5) Continuidade Monotônica.8. n = P (Bn ) + i=1 P (Ai ). então i→∞ 18 lim P (Ai) = 0. Definindo.3 Um forma equivalente de (K5) é a seguinte. será provado que (K1)—(K5) implicam o axioma da σ-aditividade (K5)′ . o limite acima é zero e K4′ é verdadeiro. tem-se n ∪∞ Ai = Bn ∪ (∪n Ai ). Assumir apenas aditividade finita. em especial não é aceita por uma escola de estatísticos liderados por deFinetti (1972). e somente se. Seja {Ai } qualquer seqüência enumerável de eventos disjuntos dois a dois. n=1 Então por (K5). An = Bn − Bn+1 observa-se que {An } é n=1 uma coleção enumerável de eventos disjuntos dois a dois e que Bn = ∪j≥n Aj . (K5)′ implicam o axioma da continuidade monotônica (K5). então P satisfaz (K5)′ se. Por (K4). i=1 i=1 P (∪∞ Ai ) i=1 Por definição de série numérica. embora pareça mais plausível. Claramente. e que ∩∞ Bn = ∅. lim n i=1 P (Ai ) = ∞ i=1 P (Ai ). (K5) (ou equivalentemente (K5)′ é uma idealização que não é aceita por alguns tratamentos subjetivistas de probabilidade. será provado que (K1)—(K4). satisfaz (K5). Portanto. i=1 Teorema 1. 3 Campos & Rêgo . neste livro. Prova: Primeiro. Se {Ai } é uma coleção enumerável de eventos disjuntos dois a dois. para todo i ≤ n. Se para todo i > 0. Note que Bn+1 ⊆ Bn .

1. j≥n então lim P (Bn ) = lim n n logo (K5) é verdadeiro. como também as operações sobre eles. Entretanto. Definição 1. ∞ j=1 P (Aj ) = P (∪∞ Aj ) ≤ 1. Interpretações interessantes Ω ω A ∅ Ac ou A A∩B A∪B ∩n An ∪n An conjunto universo elemento conjunto A conjunto vazio complemento de A A intersecção B A união B intersecção dos conjuntos An união dos conjuntos An espaço amostral. n onde n é o número de resultados possíveis (número de elementos do espaço amostral) e nA é o número de resultados favoráveis a A (número de elementos de A) dentre o número de resultados possíveis.1 Exemplos de Medidas de Probabilidade P (A) = nA . j=1 P (Aj ) = 0. é preciso que a linguagem de conjuntos seja traduzida para a linguagem de probabilidade. P ) é chamada de espaço de probabilidade.8. Portanto. A idéia subjacente é que um experimento aleatório foi realizado e aconteceu algum evento. Intuitivamente quando se modela uma problema através de probabilidade.8. aos quais se pode atribuir probabilidade. A Tabela 4. Como por (K5)′ . A.2 : probabilidade. basicamente. por (K5)′ . Uma função que satisfaz (K1)—(K5) é chamada de uma medida de A terna (Ω. Baseia-se na idéia de resultados igualmente prováveis. AXIOMAS DE KOLMOGOROV Então. P (Bn ) = P (∪j≥n Aj ) = j≥n 19 P (Aj ). Neste caso.8. não somente conjuntos. exibe algumas dessas traduções. o que se faz é especificar cada uma das componentes da terna acima. Campos & Rêgo Probabilidade clássica . Eventos são os elementos de A. têm uma importância fundamental em teoria da probabilidade. Probabilidade é uma função cujo argumento é um conjunto. a seguir. evento certo evento elementar evento A evento impossível não ocorreu o evento A os eventos A e B ocorreram os eventos A ou B ocorreram todos os eventos An ocorreram ao menos um dos eventos An ocorreu 1. Tabela 4.

8. a expressão (1. N →∞ As Tabelas 1 e 2 abaixo apresentam resultados computacionais para k.3 : Todo número real x é unicamente representado na expansão b-ádica (Kulisch & Miranker. 103. N = 102 .8. N inteiros positivos tais que a. Exemplo 1. O exemplo a seguir calcula probabilidades usando (1.1) definido para qualquer subconjunto A de Ω. k = 1. A definição pode ser aplicada apenas a uma classe limitada de problemas. que é a frequência relativa. . Adicionalmente. N) = N(k)/N. Ω. · · · . isto é. b ∈ IN. 105 a = 2. N ≥ 2. −} é o sinal do número.d−1 d−2 . −∞. Sejam a. N(k) e P (k. logb (1 + 1/k). para o cálculo N →∞ lim N(k)/N. . b.2) lim N(k)/N = logb (1 + 1/k). = −∞ i=n di bi . . onde b = 10. n=1 Sabe-se que (1. . Seja N(k) o número de vezes que k aparece como o primeiro dígito de {an }N na base b. existe uma fórmula fechada. 1981) x = ∗dn dn−1 . 104 . n. d1 d0 . que será estudada com mais detalhes no próximo capítulo. Nessa contagem a técnica usada é Análise Combinatória. onde ∗ ∈ {+.1. são inteiros positivos tais que 0 ≤ di ≤ b − 1 e di ≤ b − 2 para infinitamente muitos i. b é a base da representação. i = n. . di . b − 1. N. Campos & Rêgo . b > 1.1). e do evento A. aqueles onde é possível contar os elementos do espaço amostral. AXIOMAS DE KOLMOGOROV ||A|| ||Ω|| 20 P (A) = (1. O fato que 0 ≤ ||A|| ≤ ||Ω|| e que ||A ∪ B|| = ||A|| + ||B|| − ||A ∩ B||. b.2) mostra que. n = 1. · · · . . neste caso. permitem verificar que P satisfaz os axiomas de Kolmogorov. k. 3. . .

06697 5798 0.056 52 0.04576 21 Tabela 2: k.3010 1761 0.05 N(k) P (k.1249 970 0. N) para 3n .097 79 0. 105 k 1 2 3 4 5 6 7 8 9 N(k) P (k.17611 12492 0.07919 6695 0.0970 791 0.1247 968 0.07 7 0. N(k) e P (k.09 7 0. 104 . 103) 300 0.05797 5116 0.176 125 0.17 13 0.07 5 0.069 56 0. 102) 28 0. Campos & Rêgo .052 46 0.10 7 0.1.05 5 0.045 N(k) P (k. 105 k 1 2 3 4 5 6 7 8 9 N(k) P (k.052 45 0.05 6 0.1764 1247 0. 105) 30103 0.05116 4576 0.8.06 5 0.0669 582 0.28 19 0.0968 792 0.123 98 0.3007 1764 0. n = 1.12492 9692 0.177 123 0.19 12 0.06695 5797 0.300 177 0.13 10 0. 102) 30 0. 103) 301 0.30 17 0.0458 N(k) P (k.04576 A Tabela 3 exibe valores numéricos aproximados para o resultado teórico logb (1 + 1/k).0458 N(k) P (k.0792 669 0.17611 12492 0. N) para 2n .05 N(k) P (k.079 69 0.08 9 0.046 N(k) P (k.30103 17611 0.09692 7919 0.12 8 0.07 7 0. n = 1. N(k) e P (k.098 79 0.0513 458 0.12492 9693 0. 104) 3010 0. 104) 3007 0.05798 5116 0. 104 .09693 7916 0.0670 579 0.0579 512 0.05116 4576 0.059 52 0. · · · . 103 .07 6 0. N e N = 102 .0582 513 0. quando a = 2 e N = 105 .0791 670 0.07916 6697 0. N e N = 102 .301 176 0. 103 . AXIOMAS DE KOLMOGOROV Tabela 1: k.30101 17611 0.1761 1249 0.125 97 0.079 66 0.066 59 0. · · · . 105) 30101 0.0512 458 0.

Seja Ω = {ω1 . quando é que o experimento aleatório foi realizado um número suficientemente grande de vezes. Por exemplo. mas os eventos elementares não são necessariamente equiprováveis. de modo geral. isto é. · · · n e n pi = 1. e P (A) = ωi ∈A P ({ωi}). dado um certo evento A.17609 0. através da razão entre a área desta região. i = 1.8.1. onde pi ≥ 0. nesse caso. . . ωn } um conjunto finito. 0 ≤ y ≤ 1. 0 ≤ y ≤ 1. i=1 Neste caso. é referenciada na literatura como problemas de probabilidade geométrica. que é 1. O número de elementos de Ω é finito.12385 0.04532 22 nA . Portanto. também é fácil verificar que P é uma medida de probabilidade. Campos & Rêgo . .07918 0. Espaço amostral enumerável.05690 0. O problema quando da aplicação desta definição para calcular a probabilidade de um evento é: quando é que n é suficientemente grande. que é 1/2. suponha que um ponto seja escolhido aleatoriamente no quadrado 0 ≤ x ≤ 1.30103 0. a obtenção de probabilidades. P (A) = m(A) . . retas e planos.06818 0. nesse contexto. n onde nA é o número de ocorrências de A em n ensaios independentes do experimento (teoria baseada na observação).05115 0. para garantir que a freqüência relativa do evento A é P (A)? A resposta formal a esta pergunta será respondida no estudo de teoremas limite. AXIOMAS DE KOLMOGOROV Tabela 3: Valores para logb (1 + 1/k) k 1 2 3 4 5 6 7 8 9 Probabilidade frequentista log10 (1 + 1/k) 0. Considerando o espaço amostral constituído de objetos geométricos tais como pontos. e seja P ({ωi}) = pi . P (A) = lim n→∞ Probabilidade geométrica. Logo a probabilidade é igual a 1/2. ω2 .09691 0. Pode-se encontrar a probabilidade de que o ponto pertença à região limitada pelas retas x ≥ 1/2 e x + y ≥ 1/3. m(Ω) desde que todas as medidas estejam bem definidas. pela área do quadrado 0 ≤ x ≤ 1.

(ii) Ωc = ∅. (ii) P (∅) = 0.4: Se P é uma medida de probabilidade.. O resultado segue do fato que P (B − A) ≥ 0. então limn→∞ P (An ) = n=1 P (A). 1 (vi) A ∪ B = A ∪ (B − A). tal que limn→∞ (An ) = ∩∞ An = A. então P (A) ≤ P (B).. (continuidade da probabilidade) Prova: (i) Segue-se do fato que Ω = A ∪ Ac . (iii) P (A) ≤ 1. como B = (A ∩ B) ∪ (B − A).2 Propriedades de uma Medida de Probabilidade Teorema 1. (vi) P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Logo. (v) A1 ⊂ A2 ⇒ P (A2 − A1 ) = P (A2 ) − P (A1 ). pois 1 = P (Ω) = P (A) + P (Ac ). Então (K4) implica que P (B) = P (A) + P (B − A). (continuidade da probabilidade) (ix) Sejam A1 ⊃ A2 ⊃ . . Se A ⊆ B. e (K4). (iv) Monotonicidade.8. AXIOMAS DE KOLMOGOROV 23 1. desde que P (Ac ) ≥ 0 por (K2). (viii) Sejam A1 ⊂ A2 ⊂ . (K4) implica que P (A ∪ B) = P (A) + P (B − A).8. e por (K3) e (K4). onde A e B − A são disjuntos. (vii) P (A ∪ B) ≥ max{P (A). P (A ∪ B) = P (A) + P (B) − P (A ∩ B). P (∅) = 1 − P (Ω) = 0. (v) A1 ⊂ A2 ⇒ A2 = A1 ∪ (A2 ∩ Ac ) ⇒ P (A2 ) = P (A1 ) + P (A2 ∩ Ac ). .8. . então (i) P (Ac ) = 1 − P (A). Campos & Rêgo . P (B)} ≥ P (A ∩ B). (K4) implica que P (B) = P (A ∩ B) + P (B − A). (iv) B = A ∪ (B − A). e A e B − A são disjuntos. P (B)} ≥ min{P (A).1. (iii) 1 = P (Ω) = P (A) + P (Ac ) ≥ P (A). . o resultado segue-se. (K3). tal que limn→∞ (An ) = ∪∞ An = A. então limn→∞ P (An ) = n=1 P (A). 1 1 Como A2 ∩ Ac = A2 − A1 . onde A ∩ B e B − A são disjuntos.

De A ∩ B ⊆ A. Logo. P (B)} ≥ P (A ∩ B). Como B ⊆ A ∪ B ⇒ P (B) ≤ P (A ∪ B) ⇒ P (A ∪ B) ≥ max{P (A). Obviamente. tem-se que P (A ∩ B) ≤ P (A). P (B)}. P (B)} ≥ min{P (A). sejam P (A) = min{P (A). AXIOMAS DE KOLMOGOROV (vii) Sem perda de generalidade. de elementos excludentes: B1 = A1 B2 = A2 ∩ Ac 1 Bn = An ∩ Ac n−1 ··· Tem-se que: ∞ ∪n=1 An = A = ∪∞ Bn n=1 24 ··· e An = ∪n Bk .8. lim P (An ) = lim P (∪n Bk ) k=1 n→∞ ∞ P (∪n=1 Bn ) P (∪∞ An ) n=1 n→∞ = = = P (A) = P ( lim An ). P (B)}. P (B)} e P (B) = max{P (A). k=1 Logo. n→∞ Campos & Rêgo . max{P (A). P (B)}.1. {Bn }. min{P (A). (viii) Construindo uma sequência.

n→∞ A notação usada neste capítulo é a comumente encontrada nos livros de probabilidade. Entretanto. i=1 Campos & Rêgo . . segue-se que B = B ∩ Ω = B ∩ (∪i Ai ) = ∪i (B ∩ Ai ).8. P (Ac ).1.5: Probabilidade de Partições. aliás quase certo. é possível. AXIOMAS DE KOLMOGOROV (ix) Como An ⊃ An+1 . n n Logo. Teorema 1. Prova: Como {Ai } é uma partição. . An }. então Ac ⊂ Ac . então para todo B ∈ A P (B) = i P (B ∩ Ai ).8. Se {Ai } é uma partição enumerável (ou finita) de Ω composta de conjuntos em A. fora do contexto de probabilidade.6: Desigualdade de Boole. encontrar notação distinta. a desigualdade de Boole é n P (∪n Ai ) i=1 ≤ P (Ai ). em Russel & Norvig (1995) tem-se P (A ∨ B). P (A ∧ B) e P (¬A) para P (A ∪ B). P (A ∩ B). pois em ambos os casos tem-se que: n→∞ lim P (An ) = P ( lim An ). Por exemplo. . . ∀n ≥ 1. O resultado segue vem por (K5)′ . n→∞ lim P (An ) = n→∞ = 1 − lim P (Ac ) n n→∞ lim (1 − P (Ac )) n = = = = 1 − P (∪∞ Ac ) n c 1 − P (A ) P (A) P ( lim An ). n→∞ As propriedades (viii) e (ix) afirmam que para sequências monotônicas o limite comuta com a probabilidade. Para n eventos arbitrários {A1 . Do item anterior tem-se que n n+1 n→∞ 25 lim P (Ac ) = P (∪∞ Ac ) = P (Ac ). Teorema 1.8.

. Portanto. o número de casos possíveis onde pelo menos duas pessoas fazem Campos & Rêgo ..8. Para eventos arbitrários {A1 . O número de casos possíıveis onde todas as pessoas fazem aniversário em dias diferentes é dado por 365 × 364 × · · · × (365 − (r − 1)). . n P (∩Ai ) ≥ i=1 P (Ai ) − (n − 1). No caso particular de n = 3. Corolário 1..9: Em um grupo de r pessoas qual a probabilidade de haver pelo menos duas pessoas que completem aniversário no mesmo dia. 1 n n n P (∪n Ac ) = 1 − P (∩n Ai ) ≤ i=1 i i=1 Logo. An }. .1. . . Seja I um conjunto genérico de índices subconjunto não-vazio qualquer de {1.8. P (∩i=1 nAi ) ≥ n P (Ac ) = i i=1 i=1 (1 − P (Ai)). . O número de resultados possíveis para os aniversários de r pessoas é 365r . n}. Logo. . . P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ) ≤ P (A1 ) + P (A2 ) porque P (A1 ∩ A2 ) ≥ 0. Teorema 1. .. AXIOMAS DE KOLMOGOROV 26 Prova: Seja n = 2.8. . o princípio de inclusão-exclusão afirma quea P (A1 ∪ A2 ∪ A3 ) = P (A1 ) + P (A2 ) + P (A3 ) −P (A1 ∩ A2 ) − P (A1 ∩ A3 ) − P (A2 ∩ A3 ) P (A1 ∩ A2 ∩ A3 ) Exemplo 1. .. P (∪n Ai ) = i=1 (−1)||I||+1P (∩i∈I Ai ). . Usar indução para provar para n. O próximo teorema permite calcular de maneira exata a probabilidade P (∪n Ai ) para i=1 n eventos arbitrários. An }. 2. i=1 P (Ai ) − (n − 1). ∅=I⊆{1. .8: Princípio da Inclusão-Exclusão.n} onde o somatório é sobre todos os 2n − 1 conjuntos de índices excluindo apenas o conjunto vazio.7: Para n eventos arbitrários {A1 . Prova: Utilizando a Lei de De Morgan e a desigualdade de Boole para os eventos {Ac . assumindo que a distribuição de aniversários é uniforme ao longo do ano e desprezando a existência de anos bissextos? Solução: Para determinar esta probabilidade a probabilidade usada é a clássica. .8. Ac }. . .

que equivale a (N − 1)n n >1− .51. ou seja.8. logo. 365r Para r = 23. Das 10 pessoas restantes. k+1 N N N N N N N Exemplo 1. 0. ou seja. um para cada uma de n extrações. k (N − 1)k >1− . a probabilidade de duas determinadas pessoas ficarem no mesmo grupo é: 3 10 8 4 3 2 4 4 = . O número total de n n extrações possíveis é N . −1)n Portanto. k N N N −1 Multiplicando esta expressão por N . o número de casos onde Sílvio ganha algum prêmio é igual a N n − (N − 1)n . tem de se escolher mais duas para estarem neste grupo. a probabilidade de Sílvio ganhar algum prêmio é 1 − (NN n . Exemplo 1. O número de casos onde Sílvio não ganha qualquer prêmio é (N − 1)n . sabe-se que existem 3 opções de escolha sobre em qual grupo as duas pessoas determinadas podem ficar. Qual é a probabilidade de duas determinadas dessas pessoas ficarem no mesmo grupo? Solução: O número total de divisões de doze pessoas em 3 grupos de 4 é 12 8 4 . é igual a 365r − 365 × 364 × · · · × (365 − (r − 1)). N2 N N N Suponha que para n = k. −1)n n Por indução prova-se que Salvador tem mais chance de ganhar. (N − 1)k+1 N −1 k 1 k k k+1 >( )(1 − ) = 1 − − + 2 >1− . n N N Para n = 2: 2 1 2 (N − 1)2 =1− + 2 >1− . Logo. Salvador compra n (1 < n < N) bilhetes para uma só extração e Sílvio compra n bilhetes.8. a probabilidade deste evento é: 1− 365 × 364 × · · · × (365 − (r − 1)) .11: Doze pessoas são divididas em três grupos de 4. Qual dos dois jogadores têm mais chance de ganhar algum prêmio? n Solução: A probabilidade de Salvador ganhar algum prêmio é N . N > 1 − (NN n . E para r = 50. Portanto.10: Em uma loteria de N números há um só prêmio. Para 4 4 4 contar o número de casos favoráveis ao evento. E 8 4 são maneiras diferentes de dividir as outras 8 pessoas nos dois grupos 4 4 restantes. o que pode ser resolvido de 10 maneiras 2 diferentes. 12 8 4 11 4 4 4 Campos & Rêgo .1. essa probabilidade é aproximadamente igual a 0.8.97. AXIOMAS DE KOLMOGOROV 27 aniversário no mesmo dia é a diferença entre o número total de aniversários possíveis e o nùmero de casos onde as pessoas tém aniversários em datas diferentes.

então P (An ∩ Bn ) → p. então P (∩∞ Ai ) = 1. Por outro lado. . tem-se que lim inf P (An ∩ Bn ) ≥ p. esta probabilidade tende a 1 − 1 . tem-se que P (Ac ) = 1 − P (Ai ) = 0. . . n P (∪n Ai ) i=1 n = i=1 (−1)i+1 1 i! n (n − i)! n! i = i=1 (−1)i+1 Note que quando n → ∞. . P (∪∞ Ac ) = 0 e pela Lei de De’Morgan. n (1. . lim P (An ∩ Bn ) = p. e Exemplo 1. tem-se que lim sup P (An ∩Bn ) ≤ p. . tem-se que P (∩∞ Ai ) = 1 − P (∪∞ Ac ) = 1. Solução: Note que c P (An ∩ Bn ) = 1 − P ((An ∩ Bn )c ) = 1 − P (Ac ∪ Bn ) n c ≥ 1 − P (Ac ) − P (Bn ) = P (An ) + P (Bn ) − 1.14: Demonstre: se A1 . são eventos do mesmo espaço de probabilidade tais que P (An ) → 1 e P (Bn ) → p. i=1 Calculando esta probabilidade utilizando a fórmula da inclusão-exclusão. pela desigualdade i de Boole. n} n! n (n − 2)! 1 P (Ai ∩ Aj ) = = para i = j n! n(n − 1) P (Ai) = e em geral. . B2 . . Portanto. como P (An ∩Bn ) ≤ P (Bn ) e P (Bn ) → p. .13: Demonstre que se P (Ai) = 1 para i = 1.. Campos & Rêgo .8. . para um grupo I ∈ {1. n} de mães. Suponha que duplas sejam formadas aleatoriamente. P (∪∞ Ac ) ≤ ∞ P (Ac ) = 0.8.8. Note que: 1 (n − 1)! = para todo i ∈ {1. A2 . . onde cada dupla contém uma mãe e um filho. e B1 . . AXIOMAS DE KOLMOGOROV 28 Exemplo 1.12: Suponha que numa sala estão n mães cada uma com um filho. O objetivo é determinar P (∪n Ai ). Logo. . . i=1 i i i=1 i i=1 ∞ ∩i=1 Ai = (∪∞ Ac )c .1. . . . P (∩i∈I Ai ) = Como existem n ||I|| (n − ||I||)! . i=1 Solução: Como P (Ai) = 1. n! grupos de mães com cardinalidade ||I||. 2. 2. Qual éa probabilidade de que pelo menos uma mãe forme uma dupla com seu próprio filho? Solução: Seja Ai o evento que a i-ésima mãe forma dupla com seu filho. Portanto. i=1 i i=1 i=1 i Exemplo 1.1) Como P (An ) + P (Bn ) − 1 → p. 2.8.

Se A ∈ A. Campos & Rêgo . seus complementos (por exemplo.9. Então. como mostra o exemplo seguinte. pode-se considerar que B contém todos os subconjuntos de reais que consegue-se descrever. portanto. Teorema 1.1. Ω = A ∪ Ac ∈ A.2: Se A é uma σ-álgebra. Corolário 1. A coleção de conjuntos de números reais finitos e co-finitos é uma álgebra que não é uma σ-álgebra. então eles estão em ambos A1 e A2 . e pela terceira. Exemplo 1.9 Aprendendo um pouco mais Se o espaço amostral for finito. Exemplo 1. Então. A ∪ B está em ambos A1 e A2 e. APRENDENDO UM POUCO MAIS 29 1. Se o espaço amostral for infinito. e muito mais estão em B. o conjunto dos números racionais). Prova: Seja C uma coleção qualquer de subconjuntos de Ω. Para todos os fins práticos. e consequentemente é a menor álgebra de eventos contendo C.4: Existe uma menor (no sentido de inclusão) álgebra (σ-álgebra) contendo qualquer família dada de subconjuntos de Ω. Lema 1. A prova no caso de σ-álgebras é análoga. pois só existe um número finito de eventos distintos. Defina A(C) como sendo o conjunto que é igual a intersecção de todas as álgebras de eventos que contém C. Ac está em ambos A1 e A2 .9. pode-se definir a seguinte σ-álgebra de subconjuntos dos reais. Deste modo. Em particular.3. Logo. e portanto na sua intersecção A. Pela segunda propriedade de álgebras. Como A satisfaz as três condições da definição de álgebra de eventos.9.9. A prova no caso de σ-álgebras é análoga. isto é: A(C) = A⊇C:A é uma álgebra de eventos A.9. tem-se que uniões enumeráveis de intervalos (por exemplo. Pelo Teorema 1. tem-se que Ac ∈ A. Prova: Como A1 e A2 são álgebras. Se A. em A.9. A(C) é uma álgebra de eventos.1: Um conjunto é co-finito se seu complementar for finito. Ω ∈ A. o conjunto dos números irracionais). A úma álgebra (σálgebra). por definição. então Ω ∈ A Prova: Como A é não vazio.5: A σ-álgebra de Borel B de subconjuntos reais é. então A está em ambos A1 e A2 . ambos contém Ω.3: Sejam A1 e A2 álgebras (σ-álgebras) de subconjuntos de Ω e seja A = A1 ∩ A2 a coleção de subconjuntos comuns às duas álgebras. seja A um seu elemento qualquer.9. Consequentemente. A é uma álgebra de eventos. B ∈ A. toda álgebra é uma σ-álgebra. a menor σ-álgebra contendo todos os intervalos e é a σ-álgebra usual quando se lida com quantidades reais ou vetoriais. existem álgebras que não são σ-álgebras.

a álgebra A é o conjunto das partes de Ω e a medida de probabilidade P é parcialmente definida por P ({a. (e) A ⊆ B ⇒ P (A) ≥ P (B). b. Professor Leônidas está tentando calcular a probabilidade p = P (A) do evento A.3)(p − 0. Baseado nesta fato. quais as condições que a e b devem satisfazer para que P seja uma medida de probabilidade? 6. (g) A e B excludentes ⇒ P (A ∩ B) = P (A)P (B). dos quais n < N são defeituosos. o que dizer a respeito da relação entre A e B? 2 2 (c) Se IA + IB for identicamente igual a 1.10. (b) Generalize o problema. ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) (b) P (A) = 0 ⇒ A = ∅. qual é o valor de p? 4. 3. EXERCÍCIOS 30 1. (b) Os chips são examinados um a um até que todos os defeituosos sejam encontrados. P ({a. Responda às mesmas questões anteriores. então complete a especificação de P para todos os eventos em A.3) = 0. Coloque V ou F nas sentenças abaixo: (a) A = ∅ ⇒ P (A) = 0. supondo que se tem N chips na caixa. c}) = 0. (d) A ⊇ B ⇒ P (A) ≤ P (B).5. Se {Ai } for uma partição enumerável de Ω e P (Ai) = abi .10 Exercícios 1. (a) Uma caixa com 6 chips contém 2 defeituosos.7. c}. e determinou que ela é uma raiz do seguinte polinômio de grau cinco: √ √ (p − 3)(p − 3 −1)(p + 3 −1)(p + 0.1.8. o que dizer a respeito da relação entre A e B? Campos & Rêgo . o que concluir sobre A e B? (b) Se A ∩ B c = B ∩ Ac . (c) A = ∅ ⇔ P (A) = 0. b}) = 0. Se Ω = {a. P ({b. As seguintes questões não estão relacionadas umas com as outras. (g) A e B excludentes ⇒ P (A ∪ B) = P (A) + P (B). (a) Se IA IB for identicamente igual a zero. Descreva um espaço amostral para cada uma das situações abaixo: (a) Os chips são examinados um a um até que um defeituosos seja encontrado. i ≥ 1. (f) A ⊆ B ⇒ P (A) ≤ P (B). 2. c}) = 0. 5.

10. Sejam os eventos E1 = {pelo menos uma execução de s1 } e E2 = {a declaração s2 é executada pela primeira vez}. Suponha que A. B ou C ocorra.1. Se a relação for falsa. (a) Exiba um espaço amostral para o experimento. (a) Se x ∈ A e A ⊂ B. Observe as sequências de zeros e uns. / / (b) Se A ⊆ B e B ⊆ C. 9. então x ∈ B. (d) Se A ⊆ B e B ⊆ C. Mostre que P (E ∩ F ) ≤ P (E) ≤ P (E ∪ F ) ≤ P (E) + P (F ). Um ponto é escolhido ao acaso sobre um disco unitário. P (A∩B) = P (B ∩ C) = 0 e P (A ∩ C) = 1/8. Determine a probabilidade de que o ponto esteja no setor angular de 0 a π/4. 13. 14. apresente um contra-exemplo. e suponha que um experimento aleatório consiste em observar duas execuções desta declaração. if B then s1 else s2 . Suponha a declaração. (b) Strings de dígitos binários são geradas até que o dígito 1 apareça pela primeira vez. (b) Calcule P (E1 ) e P (E2 ). 12. B e C sejam eventos tais que P (A) = P (B) = P (C) = 1/4. Se for verdadeira. y = 0 e x + y = 1. Calcule a probabilidade de que ao menos um dos eventos A. Distribuição de Números Primos Campos & Rêgo . onde B é um evento aleatório. (c) Strings de 3 dígitos binários são geradas. Determine a probabilidade de que o ponto esteja no triângulo limitado por x = 0. Determine se cada uma das afirmações a seguir são verdadeiras ou falsas. em termos de P (B). então x ∈ B. Um ponto é escolhido ao acaso sobre um quadrado unitário. (c) Se A ⊆ B e B ⊆ C. 8. prove-a. (d) Conte o número de zeros em uma string de dígitos binários com n dígitos. Descreva um espaço amostral para cada um dos experimentos abaixo. então A ⊆ C. então A ⊆ C. (a) Strings de dígitos binários são geradas até que pela primeira vez o mesmo resultado apareça duas vezes em sucessão. então x ∈ A. EXERCÍCIOS 31 7. / (f) Se A ⊆ B e x ∈ B. então A ⊆ C. 10. (e) Se x ∈ A e A ⊆ B. 11.

15. De acordo com seus cálculos. P ). Mostre que limk→∞ P (Ak ) = P (limk→∞ Ak ). P (A1 ∩ A2 ). Para todo conjunto unidimensional A para o qual a integral existe seja P (A) = f (x)dx. P (A1 ∪ A2 ). 2. (c) Calcule P (A) para um (c1) icosaedro. Mostre que: (a) P (∩n Ak ) ≥ 1 − k=1 n k=1 P (Ac ). k = 1. onde em (a) x = 100. Campos & Rêgo . Seja a probabilidade do evento A.10. n o total dos primos em [0. para k = 0 · · · . 0 < x < 1 e zero para x ∈ (0. sendo observada a face tangente ao mesmo. Seja pk = nk . Sejam. k=1 16. P (A) = A e−x dx. Seja agora Ak = {x | 1/k − 2 < x ≤ 3}. Se A1 = A 1 3 {x | 4 < x < 4 } e A2 = {x | x = 1 }. então P (∩n Ak ) ≥ 1 − nε. · · · . (b) Seja o evento A. (e) Seja π(x) o número de primos menores que x ∈ IR. (c) Agora com Ak = [1000k. e n o total dos primos em [0. · · · . k > 3. 2. n. pk ). · · · então P (∪∞ An ) = 0. B2 . B1 .1. P (A2 ). (a) Descreva o espaço amostral. sendo n o total dos primos em [0. (c2) dodecaedro e (c3) octaedro. em (b) x = 1000 e em (c) x = 10000. k = 0 · · · . k = 0 · · · . 9. (b) Repita todo o problema anterior com Ak = [100k. a face voltada para baixo não excede o número k/2. 9. · · · eventos aleatórios definidos no mesmo espaço de probabilidade (Ω. 100(k + 1)). Mostre que limk→∞ P (Ak ) = P (limk→∞ Ak ). · · · . Sejam A1 . f2 . 0 < x < ∞. 10(k + 1)).100) e nk a freqüência deles em cada Ak . qual afirmação abaixo você aceita como sendo verdadeira? π(x) ≥ ⌊log2 (log2 x)⌋ + 1. 2. empiricamente. calcule P (A1 ).1000). 9. Descreva A. · · · . 2 17. rotuladas f1 . Um poliedro com k faces. n=1 (b) Se P (Ak ) ≥ 1 − ε para k = 1. Calcule pk n e faça um gráfico com os pontos (k. k = 1. onde f (x) = 6x(1 − x). 18. 9. · · · . aceitam ou refutam a seguinte afirmação: números primos ocorrem menos frequentemente entre inteiros maiores que entre inteiros menores. (d) Os resultados que voce obteve. π(x) ≤ ⌊log2 (log2 (x)⌋ + 1. fk é atirado aleatoriamente em um plano.10000). k = 0 · · · . EXERCÍCIOS 32 (a) Considere os intervalos Ak = [10k. x > 0. 1000(k + 1)). k (c) Se P (An ) = 0 para n = 1. A2 . 1). e seja Ak = {x | 2 − 1/k < x ≤ 3}. A.

e outros tipos de erros. Um programa é selecionado aleatoriamente. O evento Ak indica um acerto no círculo de raio k. S ∧ I ∧ E. B e C. (c) A ∩ B. Descreva os eventos: (a) A ∪ B. . 20. r10 .10. impressora foi defeituosa}. para impressora defeituosa e B. I. k = 1. 10. Descreva os eventos: (a) A ∩ B. Calcule a probabilidade de que este apresente (a) S ou I. A1 ∪ A2 ∪ A3 . 2. (c) A. I. Qual é o significado dos eventos: (a) A ∪ B ∪ C. EXERCÍCIOS 33 19. onde r1 < r2 < . I ∧ E. . 5. Descreva em palavras os eventos B = ∪6 Ak e C = ∩10 Ak . em palavras. impressora foi defeituosa}. Bk = {k volumes são escolhidos da segunda edição}. Sejam As = {s volumes são escolhidos da primeira edição}. 6. impressora foi defeituosa}. (c) Explique. B = {1 aparece pelo menos sobre um dos dados}. Seja A o evento “pelo menos um entre três itens checados é defeituoso”. (d) A2 ∪ B2 . (c) A ∪ B3 . (b) Liste todos os elementos de cada um dos seguintes eventos: A1 . Os eventos A. da segunda e da terceira edição. 2. 23. erros de entrada e saída. o significado dos eventos acima. A2 . . Dois dados são lançados. respectivamente indicam que pelo menos um livro é escolhido da primeira. 10. A1 ∩ A2 ∩ A3 . 3. A3 = {a 3a. A2 = {a 2a.1. k=1 k=5 22. S. 1. (a) Descreva o espaço amostral. . . S ∧ E. Os resultados obtidos foram: 20. 24. e B o evento “todos os três itens são bons”. A1 ∪ A2 . 21. E. (b) A ∩ B. (b) ao menos um tipo de erro. (e) (A1 ∩ B3 ) ∪ (A3 ∩ B1 )? Campos & Rêgo . S ∧ I. Um experimento consiste em se retirar 3 impressoras de um lote e testá-las de acordo com alguma característica de interesse. (b) A ∩ B ∩ C. Uma coleção de 100 programas foi checada com respeito a erros de sintaxe. (b) A ∪ B. Um alvo consiste de dez círculos concêntricos com raios rk . E. S. para perfeita. Assinale D. Considere os eventos A = {a soma dos pontos sobre as duas faces é um número par}. (d) B. Sejam os eventos: A1 = {a 1a. A2 ∩ A3 . Há três edições diferentes cada uma contendo pelo menos três volumes.

AB e A ∪ B. B e C eventos e A ⊂ B. Determine: (a) A ∩ B. Sejam A. Suponha que uma instrução leva pelo menos 9 segundos para ser transmitida. 29. O experimento aleatório consiste em mensurar o tempo decorrido da operação completa. (a) Descreva o espaço amostral. Descreva o espaço amostral. Sejam A = {o número escolhido é divisível por 5} e B = {o número escolhido termina por 0}. (b) A ∪ B. 28. 27. (d) A ∪ B ∪ C. processada e a resposta exibida no terminal. Campos & Rêgo . Qual é o significado dos eventos A − B e A ∩ B? 26. EXERCÍCIOS 34 25. Uma moeda honesta é lançada até que apareça o mesmo resultados duas vezes seguidas.10. (b) Encontre a probabilidade de que o experimento termine antes de 6 lançamentos. Mostre que os seguintes eventos formam uma partição do espaço amostral Ω: A. Encontre uma condição sob a qual os eventos A ∪ B. A ∪ B e A ∪ B sejam mutuamente exclusivos.1. Um número é escolhido do conjunto dos números naturais. 30. (c) Encontre a probabilidade de que seja necessário um número par de lançamentos para que o experimento termine. (c) A ∩ B ∩ C.

isto é. P (A) = ||A|| . . Por exemplo. 2. a probabilidade de qualquer evento A ∈ A é proporcional a sua cardinalidade. Embora conjuntos com poucos elementos possam ser contados exaustivamente (força-bruta). como 1 3 p1 + p2 + p3 = 1 então p3 = p2 = 8 . suponha que não seja possível que ambos os procedimentos 1 e 2 sejam realizados em conjunto. possa ser realizado de n2 maneiras. e {w2 } for igualmente provável a {w3 }. se em Ω = {w1 . {w1 } for 3 vezes mais provável que {w2 . ||Ω|| Portanto. . Então. i=1 Para se determinar as probabilidades dos eventos simples hipóteses adicionais são necessárias. designado por 2. tem-se que p1 = 3(p2 + p3 ). w2 . Logo. o número de maneiras pelas quais pode-se realizar ou 1 ou 2 é n1 + n2 . . 35 .1 Introdução No capítulo anterior foi visto que se Ω = {ω1 .Capítulo 2 Espaços Amostrais Finitos 2. . De acordo com a definição clássica de probabilidade onde o espaço amostral Ω é finito e os possíveis resultados do experimento são equiprováveis. conjuntos com tamanho moderado podem ser difíceis de contar sem a utilização dessas técnicas matemáticas. Neste capítulo serão estudados métodos de contagem. É fácil ver que os axiomas de Kolmogorov implicam que pi ≥ 0. e p1 = 4 . designado por 1. ou seja P ({ωi}) = pi . e P (A) = ωi ∈A P ({ωi}).2 Regra da Adição Suponha que um procedimento. Admitase que um segundo procedimento. w3 }. p2 = p3 . i ≥ 1 e n pi = 1. w3 }. então para determinar a probabilidade de qualquer evento A é suficiente especificar a probabilidade de cada evento simples ou elementar {ωi }. também conhecidos como métodos de análise combinatória. possa ser realizado de n1 maneiras. é fundamental contar a quantidade de elementos do evento de interesse quanto do espaço amostral. ωn } é um conjunto finito. Além disso. ω2 .

. e c ∈ {0. + nk . então existem 7 produtos envolvendo estes divisores. b ∈ {0. Logo. 2}. .. ou o procedimento k. existem 5 × 3 × 2 = 30 maneiras de escolher os expoentes a. 2. existem 3 × 3 × 2 = 18 divisores pares. Exemplo 2. 1. para cada divisor x de 720 existe um outro divisor y = x de 720 tal que x × y = 720. Então. b ∈ {0. Exemplo 2.3. 144 = 24 × 32 . . Os divisores inteiros e positivos de 360 são os números da forma 2a × 3b × 5c . Logo há 30 divisores. tem-se um total de 8 produtos diferentes. Os demais produtos contém dois inteiros positivos diferentes que são divisores de 144. designado por 2.3 Regra da Multiplicação Suponha que um procedimento designado por 1 possa ser executado de n1 maneiras. .2. então o procedimento formado por 1.3.1: Quantos divisores inteiros e positivos possui o número 360? Quantos desses divisores são pares? Quantos são ímpares? Quantos são quadrados perfeitos? Solução: 360 = 23 × 32 × 5. é dado por n1 + n2 + . 2. ou o procedimento 2. 1}. existem 15 produtos diferentes. . Obviamente esta regra pode ser estendida a qualquer número finito de procedimentos.2: De quantos modos o número 720 pode ser decomposto em um produto de dois inteiros positivos? E o número 144? Solução: 720 = 24 × 32 × 5. . 1. Note que 144 = 122 e este constitui um produto de inteiros positivos que é igual a 144. REGRA DA MULTIPLICAÇÃO 36 Esta regra também pode ser estendida da seguinte maneira: se existirem k procedimentos e o i-ésimo procedimento puder ser realizado de ni maneiras. b. então. o procedimento formado por 1 seguido de 2 poderá ser executado de n1 × n2 maneiras. onde a ∈ {0.1 : Seja o problema de escolher um caminho entre duas cidades A e B dentre três percurssos pelo interior e dois pelo litoral. 2. . Campos & Rêgo . Para o divisor ser par. 4}. a não pode ser zero. . Exemplo 2. existem 4 × 3 × 2 = 24 maneiras de escolher os expoentes a. existem 2 × 2 × 1 = 4 divisores quadrados perfeitos. 1}. . c. possa ser executado de n2 maneiras. existem 1 × 3 × 2 = 6 divisores ímpares. Como existem 30 divisores. b. . Os divisores inteiros e positivos de 720 são os números da forma: 2a × 3b × 5c . 2. Por fim para o divisor ser quadrado perfeito os expoentes têm que ser pares. onde a ∈ {0. . k. Observe que como 720 não é um quadrado perfeito. tem-se 5 × 3 = 15 divisores de 144. Logo há 24 divisores.. k. o número de maneiras pelas quais pode-se realizar ou o procedimento 1. 3}.2. Portanto existem 3 + 2 = 5 caminhos disponíveis para a viagem. c. Então. Por outro lado. Portanto. 3. cada produto contém dois divisores diferentes de 720. i = 1.3. seguido por 2. . 2. . Logo. Logo. 1. . . e c ∈ {0. Portanto. a tem que ser zero. Como existem 14 divisores de 144 diferentes de 12. Se existirem k procedimentos e o i-ésimo procedimento puder ser executado de ni maneiras. Suponha também que cada maneira de executar 1 possa ser seguida por qualquer maneira para executar 2. poderá ser executado de n1 × n2 × · · · × nk maneiras. Admitase que um segundo procedimento. 1. Portanto. . i = 1. supondo que dois quaisquer deles não possam ser realizados conjuntamente. Seguindo o raciocínio anterior. para o divisor ser ímpar. 2}. seguido pelo procedimento k.

o que explica a notação exponencial do conjunto das partes. O número de sequências binárias de comprimento r é igual a 2r pois neste caso tem-se que para cada posição i da sequência. então existem 2r subconjuntos de um conjunto de r elementos. onde 0 ≤ a ≤ 5.r . se ||A|| = r. . existem 7 × 7 × 7 × 7 = 74 funções diferentes. a3 . Recorde que uma função é injetora se f (a) = f (b) sempre que a = b. é dada por r−1 Ar n = (n)r = n(n − 1) · · · (n − r + 1) = i=0 (n − i).. amostragem sem reposição. . Então. . de maneiras de selecionar uma sequência distinta de comprimento r escolhida desse conjunto com repetidas seleções do mesmo elemento sendo permitidas. AMOSTRAGEM OU ESCOLHAS COM OU SEM REPOSIÇÃO 37 Exemplo 2. caso contrário. O número de subconjuntos de um dado conjunto A. logo existem 7 × 6 × 5 × 4 = 840 funções injetoras. br ).4. Quantas coleções não-vazias de revistas dessa banca podem ser formadas? Solução: Note que cada coleção de revistas vai ser composta por a revistas Veja. uma vez que o mesmo procedimento é repetido r vezes e cada procedimento tem n maneiras de ser executado. Exemplo 2. . Portanto. amostragem com reposição. b revistas Época e c revistas Isto é. . . Como A contém 4 elementos. é dada por nr . e no r-ésimo e último procedimento (escolha Campos & Rêgo . possui 2r elementos. µn. Quantas funções f : A → B existem? Quantas delas são injetoras? Solução: Para cada elemento de A tem-se 7 possíveis valores diferentes. no segundo procedimento (escolha do segundo elemento da sequência) tem-se n − 1 maneiras de executá-lo. . ar } e descrevendo cada subconjunto B de A por uma sequência binária (b1 . 7. b2 . o mesmo elemento de B não pode ser imagem de dois elementos de A.2. .3. 0 ≤ b ≤ 6.4. Exemplo 2. . o conjunto B. ||A|| = r. .4 Amostragem ou Escolhas com ou sem Reposição Dado um conjunto com n elementos distintos. ou c é diferente de zero. o número (n)r de maneiras de selecionar uma sequência distinta de comprimento r escolhida desse conjunto com repetidas seleções do mesmo elemento não sendo permitidas. e pelo menos 1 de a.1 : Número de Sequências Binárias ou Subconjuntos. onde bi = 1 se ai ∈ B e bi = 0. . b. 2. desde que no primeiro procedimento (escolha do primeiro elemento da sequência) tem-se n maneiras de executá-lo. ni = 2.3: O conjunto A possui 4 elementos e. Como existem 2r destas sequências. o conjunto das partes de A.3. a2 . 6 exemplares iguais da Época e 4 exemplares iguais da Isto é. Dado um conjunto com n elementos distintos. 0 ≤ c ≤ 4. Portanto. o número. tem-se 6 × 7 × 5 − 1 = 210 − 1 = 209 diferentes coleções não-vazias dessas revistas. pode ser determinado enumerando A = {a1 .4: Em uma banca há 5 exemplares iguais da Veja.

f também é sobrejetora e. portanto. De maneira similar pode-se ver que existem 3 opções para os números que ocupam do terceiro ao oitavo lugar. tem somente 2 opções. . Exemplo 2. da esquerda para a direita. bijetora. Exemplo 2. 2.2. e m! maneiras de se escolher a posição das moças entre si. PERMUTAÇÕES E ARRANJOS 38 do r-ésimo elemento da sequência) tem-se n − r + 1 maneiras de executá-lo. quantos sinais feitos com três bandeiras diferentes se podem obter? Solução: Neste caso a ordem acarreta diferença e por isso tem-se (8)3 = 336 sinais. Então. existem 2 × 38 permutações deste tipo. onde n! é conhecida como função fatorial. o segundo n − 1 opções. Este número de sequências é também chamado na literatura de arranjo quando tem-se n elementos distintos e deseja-se escolher r deles onde a ordem de escolha é importante. é sempre maior que k − 3? Solução: Inicialmente escolhem-se os números da direita para esquerda. tem-se (r + 1)r!m! modos diferentes de escolha.1: Se A é um conjunto de n elementos. pois oito números já foram escolhidos anteriormente. o primeiro elemento de A tem n opções. r! maneiras de se escolher a posição dos rapazes entre si. Finalmente.5. r = n. Portanto. existem n! funções bijetoras f : A → A.4: Com oito bandeiras diferentes. existem. Como A é finito e tem n elementos. Exemplo 2. Portanto. portanto.3: Quantas são as permutaç˜s simples dos números 1. 0! = 1! = 1 Exemplo 2.5. Neste caso. 2. até que o último elemento de A tem somente uma opção disponível. Em seguida. O número no lugar de ordem 9. tem que ser maior que 6. .2: De quantos modos é possível colocar r rapazes e m moças em fila de modo que as moças permaneçam juntas? Solução: Primeiro tem-se r + 1 opções de se escolher o lugar das moças. portanto existem 3 opções. 3 opções visto que um dos núameros maiores que 6 já foi utilizado na última posição. resta apenas um número para o lugar de ordem n. . e o número de permutações é dado por n! = (n)n = n(n − 1) · · · 1. Portanto. 10 nas quais e o elemento que ocupa o lugar de ordem k.5. Propriedades da função fatorial incluem: e n! = n(n − 1)!. tem que ser maior que 7.5.5. . O número no lugar de ordem 2.5 Permutações e Arranjos Um caso particular de amostragem sem reposição é quando o objetivo é saber o número de permutações de um conjunto de n elementos distintos. Campos & Rêgo . Observe que o número no lugar de ordem 10. quantas são as funções f : A → A bijetoras? Solução: Tem-se que garantir que cada elemento de A tem uma imagem diferente.

n. r Os números n são chamados de coeficientes binomiais porque eles aparecem como r coeficientes na expressão binomial (a + b)n . Como os elementos de cada sequência de comprimento r são distintos. COMBINAÇÕES 39 2. . 1. não é permitida a duplicação de elementos. = n. (a + b)n = (a + b)(a + b) · · · (a + b). se n < r. então n 2 = r=0 n n . O coeficiente binomial também dá o número de subconjuntos de tamanho r que podem ser formados de um conjunto de n elementos. ou seja. .2. r! r! (n − r)!r! Para verificar isto. onde. . n−r = 1. Ar = (n)r = n n · r!. cada termo será formado de k elementos de a e de (n − k) elementos de b. . quantos termos da forma ak bn−k existirão? Simplesmente é contado o número de maneiras possíveis de escolher k dentre os n elementos a. Quando a multiplicação tiver sido realizada. 2. deixando de lado a ordem (onde o i-ésimo Campos & Rêgo . Se n for um inteiro positivo. = 0. Mas.6. como apropriado para conjuntos. utilizando a regra da multiplicação. de tamanho r escolhidas de um conjunto universo de tamanho n. o número de permutações de cada seqüência é r!. Porém. ou coleções não ordenadas. note que o número de coleções ordenadas de tamanho r sem repetição é (n)r . o procedimento de se escolher uma coleção ordenada de r termos sem repetição é igual a primeiro escolher uma coleção não-ordenada de r termos sem repetição e depois escolher uma ordem para esta coleção não-ordenada.6 Combinações O número de conjuntos. Como visto que o número total de subconjuntos de um conjunto de tamanho n é 2n . para k = 0. r de onde segue o resultado. O coeficiente binomial tem as seguintes propriedades: n r = n 0 n 1 n r n . é dado pelo coeficiente binomial: n r = (n)r Ar n! = n = .

1 : Dentre oito pessoas. quantas comissões de três membros podem ser escolhidas.6. Mas isso é justamente dado por n . Logo. Portanto. o que implica que k = 2. existem exatamente n sequências binárias com r números 1.3: Quantas sequências binárias de comprimento n contém no máximo três dígitos 1? Solução: Tem-se quatro casos possíveis: todas as sequências que não contém 1. 2 1 Exemplo 2.6. o número procurado é 5 3 = 30 comissões.5: Determine o coeficiente de x3 no desenvolvimento de (x4 − x )7 . r Portanto. 3 Exemplo 2. incluindo exatamente dois homens? Solução: Aqui deve-se escolher dois homens (dentre cinco) e duas mulheres (dentre três). 2 Campos & Rêgo .6.2. pela regra da adição existem n n n n + + + 3 2 1 0 sequências binárias de comprimento n contendo no máximo três números 1. Para 0 ≤ r ≤ n.2 : Um grupo de oito pessoas é formado de cinco homens e três mulheres. k k x Portanto. COMBINAÇÕES 40 elemento a corresponde ao i-ésimo fator do produto acima). 1 Exemplo 2.6. todas as que contém apenas um 1. Solução: O termo genérico do desenvolvimento é 1 7 7 5k−7 (x4 )k (− )7−k = (−1)7−k x .6. então 2n − 1 sequências de comprimento n contém pelo menos uma cara.6. Exemplo 2. Quantas comissões de três pessoas podem ser constituídas. o coeficiente de x3 é (−1)5 7 = −21. k Exemplo 2. apenas uma sequência não contém qualquer cara (a sequência que contém apenas coroa). todas as que contém dois dígitos 1 e todas as que contém três dígitos 1.4: Quantas sequências de cara e coroa de comprimento n contém pelo menos 1 cara? Solução: Neste caso. tem-se o termo x3 se 5k − 7 = 3. Como o número total de sequências de cara e coroa de comprimento n é igual a 2n . Daí obtém-se o que é conhecido como o Teorema Binomial: k n (a + b) = k=0 n n k n−k a b . desde que duas comissões sejam a mesma comissão se forem constituídas pelas mesmas pessoas (não se levando em conta a ordem em que sejam escolhidas)? Solução: A resposta é dada por 8 = 56 comissões possíveis.

Como existem 2r subconjuntos de um conjunto de r elementos.7. Exemplo 2.7. 2. A seguir.m de grafos não direcionados com um conjunto V de n de vértices e um conjunto E de m arestas? Solução: Note que o número de arestas é o número possível de maneiras de escolher pares de de vértices de V (a ordem dos vértices não é relevante pois o grafo é não direcionado). tem-se n possíveis arestas em um grafo. Nesse breve estudo de grafos. ou u é orientador de v.2 Grafos Direcionados Enquanto algumas conexões são simétricas. e para representá-las é necessário o conceito de grafos direcionados. a não ser que seja mencionado o contrário. v} é vista como conectando os vértices u e v os quais são chamados de adjacentes.7. Cada grafo corresponde a um subconjunto do 2 conjunto de todas as arestas. Evidentemente essas relações não são simétricas. Então.2: Número de grafos não direcionados com n vértices.2. serão vistas determinadas características de grafos à luz das técnicas de contagem. A aresta {u.7. então v é adjacente a u. v ∈ V }} de pares não ordenados de nós que são chamados de bordas ou arestas. Estes modelos permitem que questões como a conectividade de todos os elementos de uma rede.7 Aplicações em Grafos Modelos matemáticos de conectividade em sistemas de redes são baseados em grafos. 2. os grafos não têm laços. Como existem n possíveis arestas. APLICAÇÕES EM GRAFOS 41 2.1 Grafos Não Direcionados Definição 2. a robustez dessa conectividade a falhas em conexões entre pares de elementos e o comprimento de caminhos entre pares de elementos sejam estudadas.1: Um grafos não direcionado G = (V. Qual o número Γn de grafos não direcionados com um conjunto V de n vértices? Qual o número Γn.m = n 2 m grafos não direcionados com n vértices e m arestas. seja a relação social u é pai de v. Um grafo não direcionado que contém n vértices será denotado por Gn . Por exemplo. Note que o grafo é chamado de não direcionado porque se u é adjacente a v. Campos & Rêgo . outras não são. u} é chamado de laço.7. v} : u. então existem 2 Γn. E) é definido por um conjunto V de elementos chamados nós ou vértices e um conjunto E ⊆ {{u. O caso especial da aresta {u. então existem n Γn = 2 ( 2 ) grafos não direcionados com n vértices.

d.2. das n − n1 posições restantes na sequência. note que das n posições na sequência de comprimento n. n3 n2 n1 i=1 ni ! Esta quantidade é conhecida como coeficiente multinomial e denotada por n . restam nr n2 posições na sequência para os nr elementos do tipo r.p. então o número total de possíveis arestas do grafo é n(n − 1). E) é um conjunto V de vértices e um conjunto E ⊆ {(u. Por exemplo. nr onde n = r ni . Como existem n(n − 1) possíveis arestas.e. mas não necessariamente o contrário. o número total de sequências possíveis é produto do número de maneiras onde os r tipos de elementos podem ser colocados. .o. Como existem n(n − 1) pares ordenados de vértices sem repetição. n2 posições para os n2 elementos indistinguíveis do tipo 2 de n−n1 maneiras. Cada grafo corresponde a um subconjunto do conjunto de todas as arestas. após repetir este processo r − 1 vezes. existem Γn = 2n(n−1) grafos direcionados com n vértices. n pode-se escolher n1 posições para os n1 elementos indistinguíveis do tipo 1 de n1 maneiras. Então. .4: Quantos grafos direcionados sem laços existem com um conjunto V de n vértices? Qual o número de grafos direcionados com um conjunto V de n vértices e um conjunto E de m arestas? Solução.8.8 Contagem Multinomial ou Permutação com Elementos Repetidos Considere r tipos de elementos e ni cópias indistinguíveis do elemento do tipo i.i e uma cópia de cada uma das letras l.b. a palavra probabilidade tem duas cópias de cada uma das letras a. O número de sequências ordenadas de comprimento n = r ni é i=1 dado por n! n − n1 − n2 n − n1 n ···1 = r . Utilizando o método da multiplicação. v) : u. Finalmente.3: Um grafo direcionado G = (V.r. CONTAGEM MULTINOMIAL OU PERMUTAÇÃO COM ELEMENTOS REPETIDOS 42 Definição 2. n1 n2 . Exemplo 2. 2.7.7. Campos & Rêgo . que só podem ser escolhidas de uma única maneira. então existem n(n − 1) m grafos direcionados com n vértices e m arestas. v ∈ V } = V × V de pares ordenados de vértices que definem arestas direcionadas que conectam u a v. i=1 Para verificar esta contagem.

nr . = xr = 1. EXERCÍCIOS 43 O coeficiente multinomial também calcula o número de partições de um conjunto n elementos em r subconjuntos com tamanhos dados n1 . Com base nessas informações calcule: (a) Quantas senhas diferentes o sistema aceita? (b) Quantas senhas diferentes podemos formar começando com a letra a? (c) Quantas senhas diferentes contendo o número 1 podemos formar? (d) Quantas senhas diferentes podemos ter sem repetir nenhum caracter? (e) Quantas senhas diferentes sem caracteres repetidos possuem a letra B ou possuem o número 1 ou ambos? (f) Desafio: Quantas senhas diferentes possuem a letra Z vindo antes o caracter {? Observação: vindo antes não significa imediatamente antes. azul.8. pode-se provar a seguinte generalização conhecida como Teorema Multinomial: n n−i1 n− P j<r−1 ij (x1 + x2 + .8. Cada caracter pode ser qualquer letra (maiúsculas são diferentes de minúsculas). i2 pixels azuis. . Logo. dando o resultado de r n possíveis imagens. e vermelho) para cada pixel. Exemplo 2.1: Um monitor tendo resolução de n = 1. . e i3 pixels vermelhos. (proposto por Gustavo S.9. k k=1 onde ir = n − j<r ij .2. ir r xik . (2)i2 (5)5−i1 −i2 i1 i2 5 − i1 − i2 5 5 ). + xr ) = i1 =0 i2 =0 n ··· ir−1 =0 n i1 i2 . o que corresponde aos caracteres da tabela ASC. . azul. e vermelho pode ser obtido utilizando o Teorema Multinomial fazendo x1 = x2 = . Ferreira) Campos & Rêgo . . somando ao todo 256 caracteres diferentes. o que implica que i2 = 2 e 5 i1 = 3. 2. x2 (2. . o coeficiente de x9 y 4 é (2)2 (5)0 3 2 0 = 40. O número total de imagens que pode ser exibida por este monitor para qualquer composição de cores de ver.280 × 854 pixels. Exemplo 2. pode mostrar i1 in i3 imagens tendo i1 2 pixels verdes. . número ou caracter especial. . tem-se o termo x9 y 4 se 5i1 + 2i2 − 10 = 9 e 2i2 = 4.1) Portanto. . .2: Determine o coeficiente de x9 y 4 no desenvolvimento de (x3 + 2y 2 + Solução: O termo genérico do desenvolvimento é 5 5 (x3 )i1 (2y 2)i2 ( 2 )5−i1 −i2 = i1 i2 5 − i1 − i2 x 5 x3i1 −10+2i1 +2i2 y 2i2 . Sabe-se que a senha pertencente a um sistema do Centro de Informática-CIn/UFPE possui 8 caracteres. . com r = 3 cores possíveis (verde. n2 . Aplicando-se o mesmo argumento usado para demonstrar o Teorema Binomial.9 Exercícios 1.

Supondo que os passageiros têm igual probabilidade de descer em qualquer parada. Cada sub-retângulo possui um número. Um homem possui n chaves das quais. Determine a probabilidade de se obter a primeira bola preta na n-ésima extração. C e G. Ele experimenta as chaves uma de cada vez. 11. exatamente uma abre a fechadura.9. qual é a probabilidade de você ganhar pelo menos um prêmio? Campos & Rêgo . Uma secretária descuidadamente coloca ao acaso n cartas em n envelopes. Uma caixa contém b bolas pretas e r bolas vermelhas. Determine a probabilidade de que ele escolha a chave correta na r-ésima tentativa. Suponha que se selecionam 10 fusíveis. Um ônibus parte com 6 pessoas e para em 10 pontos diferentes. sendo permitidas repetições. (a) Quantas letras se pode codificar usando exatamente n símbolos? (b) Qual é o número de letras que se pode codificar usando n ou menos símbolos? 4. EXERCÍCIOS 44 2. 12. 10. O código Morse consiste de uma sequência de pontos e traços em que repetições são permitidas. Bolas são extraídas sem reposição. o dominó (x.2. Como o bloco é simétrico. Determine a probabilidade de que nenhum de k elementos específicos estejam na amostra se o método utilizado é (a) amostragem sem reposição. Determine a probabilidade de que as bolas 1 e 6 estejam entre as bolas selecionadas. Um dominó é um bloco retangular dividido em dois sub-retângulos. 8. x). uma de cada vez. 9. (b) amostragem com reposição. escolhendo ao acaso em cada tentativa uma das chaves que não foi experimentada. Cada nucleotídeo pode ser de um dos quatro tipos T . O código genético especifica um aminoácido através de uma sequência de três nucleotídeos. Sejam x e y esses números (não necessariamente distintos). 6. Seleciona-se uma amostra aleatória de 3 elementos. A. Quantos blocos diferentes de dominó se pode fazer usando n números diferentes? 5. Uma caixa contém 10 bolas numeradas de 1 a 10. determine a probabilidade de que dois passageiros não desembarquem na mesma parada. Uma caixa contém 40 fusíveis bons e 10 defeituosos. Quantos aminoácidos podem ser codificados dessa maneira? 3. Qual é a probabilidade de que todos eles estejam bons? 7. Se você possui 3 bilhetes de uma loteria para a qual se vendeu n bilhetes e existem 5 prêmios. y) é igual ao dominó (y. Suponha que se extrai uma amostra de tamanho n de uma população de r elementos. Determine a probabilidade de que ao menos uma carta chegue ao seu destino.

compute a probabilidade de que pelos menos 2 façam aniversário no mesmo dia. Um professor faz 3 cartas de recomendação para 3 alunos. EXERCÍCIOS 45 13. 22. retiram-se duas ao acaso. e são selecionados aleatoriamente 12. Calcule a probabilidade de que não haja letras repetidas entre todas as seqüências com 3 letras. Se 3 chips são selecionados aleatoriamente do grupo. (b) k particulares livros estejam sempre juntos. 23. e. De uma caixa com etiquetas numeradas de 1 a 10. (a) Qual é o número máximo de automóveis que podem ser emplacados neste sistema? (b) Qual é a probabilidade de que uma placa seja iniciada pela letra K? 24. com reposição. calcule a probabilidade de que pelo menos um dentre os selecionados seja defeituoso. qual a probabilidade do evento “dois entre os 3 selecionados são defeituosos”. ao invés de entregar cada carta ao seu respectivo dono. os 4 últimos.2. 19. Campos & Rêgo . Em um conjunto de 5 pessoas. 21. 2 < k < 10.9. a placa dos automóveis é uma string. assumindo que o ano tem 365 dias. Qual é a probabilidade de que os nascimentos de 12 pessoas caiam nos 12 diferentes meses do ano (assumindo igual probabilidade para os nascimentos nos 12 meses)? 15. Uma caixa contém bolas numeradas de 1 até n. Dez livros são colocados aleatoriamente em uma prateleira. Suponha o alfabeto com 26 letras. Encontre a probabilidade de que: (a) três particulares livros estejam sempre juntos. 20. 16. No Brasil. o professor as entrega aleatoriamente. dígitos na base decimal. 17. Calcule a probabilidade de que algum número decimal com k dígitos escolhido aleatoriamente seja um número válido de k dígitos na base octal. 18. Entretanto. Determine a probabilidade de que os números nas etiquetas difiram por 2. Um conjunto de 4 chips de circuito integrado é constituído de 2 perfeitos e 2 defeituosos. na qual os 3 primeiros elementos são letras escolhidas dentre as 26. Encontre a probabilidade do evento A = {não mais que uma mensagem seja enviada através de cada canal}. (a) Qual é a probabilidade de que ao menos um aluno tenha recebido a carta correta? (b) Generalize o problema para n cartas. N > M. M mensagens são enviadas aleatoriamente através de N canais de comunicação. Se uma caixa contém 75 chips de circuito integrado perfeitos e 25 defeituosos. no momento de entregar as cartas. 14.

com reposição. e 4. Qual é a probabilidade de que a diferença entre o primeiro e o segundo números escolhidos não seja menor que m (m > 0). Dentre os números 0. 2. mas agora a bola é retirada. n. z. podendo os símbolos serem iguais. · · · .2. · · · . 25. Qual é a probabilidade de que ao menos um dígito ocupe seu lugar próprio? (b) O mesmo que em (a) com os dígitos 1. Uma caixa contém etiquetas numeradas de 1. Encontre a probabilidade de que não mais que um cartão de Natal seja enviado para cada pessoa. . 30. Dois números são selecionados aleatoriamente entre os números 1. 3. (c) O mesmo que em (a) com os dígitos 1. (a2) Encontre a probabilidade de que os números selecionados sejam inteiros consecutivos em ordem crescente. 1. apareçam como vizinhos nessa ordem. · · · . (a) Suponha que os três dígitos 1. Campos & Rêgo . 2 e 3. n < N sejam escolhidos ao acaso. Suponha que de N objetos. · · · . (d) Examine a resposta em (c) quando n for grande. · · · . Qual será a probabilidade de que nenhum objeto seja escolhido mais do que uma vez? 29. 26. Considere como experimento aleatório a formação de strings de 3 símbolos. (b) as etiquetas forem escolhidas com reposição. 2. . b. seu número é anotado e é reposta na urna antes da retirada seguinte. . EXERCÍCIOS (a) Todas as bolas são retiradas da caixa aleatoriamente uma a uma. (c) Repita os itens (a) e (b) considerando apenas a condição de vizinhos. n. com reposição. 2.9. (b) Suponha a mesma caixa. Responda os itens (a1) e (a2). Duas etiquetas são escolhidas ao acaso. 28. M cartões de Natal são distribuídos aleatoriamente para N pessoas. Encontre a probabilidade de que os dígitos (a) 1 e 2. N > M. (b) 1. com as mesmas bolas. 2 e 3 sejam escritos em ordem aleatória. . 32. 46 (a1) Descreva o espaço amostral. Determine a probabilidade de que os números das etiquetas sejam inteiros consecutivos se: (a) as etiquetas forem escolhidas sem reposição. Seja um alfabeto com 26 símbolos distintos a. 2. n são escritos de forma aleatória. Os números 1. Qual é a probabilidade de que não ocorram dois números iguais? 31. 27. 9 são escolhidos ao acaso r números (0 < r < 10). n. 2.

9. 47 (b) Qual é a probabilidade de que uma string escolhida ao acaso dentre todas não tenha elementos repetidos? Campos & Rêgo . EXERCÍCIOS (a) Descreva um espaço amostral para este experimento.2.

visto que sabe-se que o evento B ocorreu. Por exemplo. Suponha que se realizasse um experimento n vezes das quais o evento A (respectivamente. se o agente acredita que B é verdadeiro. A probabilidade condicional de A dado que sabe-se que B ocorreu segundo esta interpretação frequentista. Em ambos os casos. Por outro lado. (3. pode-se interpretar probabilidade de um evento A como um limite das frequências relativas de ocorrência do evento A em realizações independentes de um experimento. suponha que a incerteza de um agente é descrita por uma probabilidade P em (Ω. deve ser o limite da razão nA∩B /nB quando n tende ao infinito. então parece razoável requerer que P (B c |B) = 0. ou seja. B e A∩B) ocorre nA (respectivamente. se 48 . isto é. probabilidade é baseada em informação e conhecimento. Considerando-se a interpretação frequentista de probabilidade. Revisão desta base de informação ou conhecimento pode levar a revisão do valor da probabilidade. nB > 0 e nA∩B ≥ 0) vezes. sugere que ela deve ser igual ao limite das frequências relativas condicionais do evento A dado o evento B.1) Em relação aos eventos contidos em B. A) e que o agente observa ou fica sabendo que o evento B ocorreu. Em particular. Independência 3. que por sua vez segundo a interpretação frequentista de probabilidade é aproximadamente igual a P (A ∩ B)/P (B) para valores grandes de n.Capítulo 3 Probabilidade Condicional. Como o agente deve atualizar sua probabilidade P (·|B) de modo a incorporar esta nova informação? Claramente. Considerando-se uma interpretação subjetiva. Seja rA = nA /n a frequência relativa do evento A nas n realizações do experimento.1 Probabilidade Condicional Como visto no Capítulo 1. suponha que o interesse seja saber qual a probabilidade de do evento A. conhecimento que determinado evento ocorreu pode influenciar na probabilidade dos demais eventos. É fácil provar que esta razão é igual a rA∩B /rB . existem várias possíveis interpretações de probabilidade. a interpretação subjetiva de probabilidade associa a probabilidade de um evento A com o grau de crença pessoal que o evento A ocorrerá. é razoável assumir que sua chance relativa permaneça inalterada se tudo que o agente descobriu foi que o evento B ocorreu.

P (B) P (B) P (A ∩ B) ≥ 0. usando o caso anterior P (A ∩ B) P (A|B) = P (A ∩ B|B) = .1. . . então P (A) P (B|B) = 1 − P (B c |B) = 1. P (B) Para um evento fixo B que satisfaz P (B) > 0. então P (A ∩ B) P (A|B) = . Se A não é um subconjunto de B. logo P (A|B) = P (B) para A ⊆ B. se A1 .2). A2 ⊆ B com P (A2 ) > 0. PROBABILIDADE CONDICIONAL A1 . são mutuamente exclusivos A1 ∩ B. . P (A|B) = P (A ∩ B|B) + P (A ∩ B c |B). como Ω ∩ B = B.1.3. tem-se que A = (A ∩ B) ∪ (A ∩ B c ). A2 ∩ B. P (A2 ) P (A2 |B) Segue que (3. 49 (3. B ∈ A e P (B) > 0 a probabilidade condicional de A dado B é definida por P (A|B) = P (A ∩ B) . Para provar K2.2) determinam completamente P (·|B) se P (B) > 0. Como (A ∩ B) e (A ∩ B c ) são eventos disjuntos.1) e (3.1) e (3. . Definição 3.2: Seja (Ω.1: Se P (B > 0) e P (·|B) é uma medida de probabilidade em Ω que satisfaz (3. . também o são. A2 . para provar (K5)′ (que implica K4). P ) um espaço de probabilidade. Se A.1. A. P (B) Finalmente.2) Teorema 3. Como A ∩ B ⊆ B. então P (A ∩ B c |B) = 0. . então Campos & Rêgo . como P (A ∩ B) ≥ 0. então P (Ω|B) = P (B) P (Ω ∩ B) = = 1. Considerando A1 = A e A2 = B em (3. P (B) Deste modo as interpretações frequentista e subjetivista de probabilidade justificam a seguinte definição. P (B) Prova: Como P (·|B) é uma medida de probabilidade e satisfaz P (B c |B) = 0. Como A ∩ B c ⊆ B c e P (B c |B) = 0.2). então P (A1 |B) P (A1 ) = . P (·|B) satisfaz aos axiomas K1-K4 (Capítulo 1) e realmente é uma medida de probabilidade. note que para todo A ∈ A. P (A|B) = Para provar K3.

3: todo A ∈ A Seja a sequência de eventos B1 . . . B2 . . . Um método de se obter uma probabilidade (incondicional) de uma probabilidade condicional é utilizando o Teorema da Probabilidade Total. Teorema 3. ∩ An−1 ). Fazendo C = Ω na propriedade (iv) acima. então P (A|B) = 1. . Então o axioma (K5)′ implica que Campos & Rêgo . . P (A ∩ B) = P (A|B)P (B). . (iv) P (A ∩ B|C) = P (A|B ∩ C)P (B|C).1. Utilizando indução matemática. então para P (A) = i:P (Bi )=0 P (A|Bi )P (Bi). A probabilidade condicional também satisfaz às seguintes propriedades: (i) P (B|B) = 1. (ii) P (A|B) = P (A ∩ B|B). P (An |A1 ∩ . os eventos (A ∩ Bi )’s também são mutuamente exclusivos. uma partição de Ω. (iii) Se A ⊇ B. Como os eventos Bi ’s são mutuamente exclusivos. B2 . Prova: Como B1 . ∩ An ) = P (A1 )P (A2|A1 ) . A = A ∩ Ω = A ∩ (∪i Bi ) = ∪i (A ∩ Bi ). . .1.3. é uma partição de Ω. PROBABILIDADE CONDICIONAL 50 P (∪i Ai |B) = P ((∪i Ai ) ∩ B) P (B) P (∪i (Ai ∩ B)) = P (B) i P (Ai ∩ B) = P (B) i = P (Ai |B). . . pode-se facilmente provar que P (A1 ∩ A2 ∩ . .

P (A|Bi ) determina a probabilidade que a mensagem Bi seja emitida e a mensagem A seja recebida por este sistema. c) P (A ∩ D) + P (A ∩ D P (A|D)P (D) + P (A|D c )P (D c ) Mais geralmente. Pode-se obter esta probabilidade utilizando a famosa fórmula de Bayes: P (D|A) = P (A|D)P (D) P (A ∩ D) = . P (A|D c ) descreve a probabilidade do exame dá positivo mesmo que o paciente esteja saudável. seja {D. Então. D c } uma partição do espaço amostral. Caso Campos & Rêgo . Caso as probabilidades P (D). P (A|Bi) especifica a relação estocástica entre a causa Bi e o efeito A. Porém. a fórmula de Bayes é dada por: P (A ∩ Bi ) j P (A ∩ Bj ) P (Bi|A) = = = P (A ∩ Bi ) j:P (Bj )=0 P (A ∩ Bj ) P (A|Bi)P (Bi ) . por exemplo. quanto menores as probabilidades de falso negativo e falso positivo melhor a qualidade do teste. .1. P (A|D). P (Ac |D) é a probabilidade do exame dá negativo mesmo que o paciente esteja doente. é a chamada probabilidade de falso positivo. B2 . . onde o evento D significa que um dado indivíduo possui uma certa doença. PROBABILIDADE CONDICIONAL 51 P (A) = P (∪i (A ∩ Bi )) = i P (A ∩ Bi ) = i:P (Bi )=0 P (A ∩ Bi ) P (A|Bi)P (Bi ). é a chamada probabilidade de falso negativo. = i:P (Bi )=0 Se os eventos da partição B1 . j:P (Bj )=0 P (A|Bj )P (Bj ) Os Bi podem descrever. Essas probabilidades condicionais especificam o modelo do canal de comunicações. P (A|D c) sejam conhecidas pode-se usando o Teorema da Probabilidade Total obter a probabilidade incondicional de determinado exame dar positivo P (A). . são interpretados como possíveis causas e o evento A corresponda a um efeito particular associado a uma causa. Por exemplo. geralmente o que se busca é saber que dado que o resultado de um exame deu positivo qual a probabilidade de que o indivíduo esteja doente. diferentes mensagens emitidas em um sistema de comunicações e A pode descrever uma mensagem recebida pelo sistema.3. Estas probabilidades determinam a qualidade do teste. Seja A o evento que determinado teste para o diagnóstico da doença deu positivo.

A.5: Um sistema de comunicação telegráfico transmite os sinais ponto (. qual a probabilidade de cada uma das mensagens Bi terem sido as mensagens enviadas. A experiência tem mostrado que 2/5 dos pontos e 1/3 dos traços são mudados. A seguir. Suponha que a razão entre os pontos transmitidos e os traços transmitidos é de 5 para 3. Exemplo 3. o que se busca é saber que dado uma certa mensagem foi recebida (efeito).1. um pixel é selecionado ao acaso nessa linha e constatado ser defectivo. e as probabilidades dadas no problema ou decorrentes de usar o complementar: Campos & Rêgo T_ = {um traço é transmitido}.1. Podem-se obter estas probabilidades utilizando-se a fórmula de Bayes.4: Considere uma imagem formada por n × m pixels com a k-ésima linha contendo dk (≤ m) pixels defeituosos. . A fórmula de Bayes permite determinar que. É fácil de provar a fórmula de Bayes usando o Teorema da Probabilidade Total.1. Sejam os eventos R• = {um ponto é recebido}. Qual a probabilidade de que este pixel defeituoso esteja na linha k? Solução: Seja R = k o evento que este pixel pertencia a k-ésima linha da imagem. As probabilidades P (Bi ) são usualmente chamadas de probabilidades a priori e as probabilidades condicionais P (Bi|A) de probabilidades a posteriori. m = dk n i=1 . Qual é a probabilidade de que o sinal recebido seja o que foi transmitido quando (a) o sinal recebido é um ponto. R_ = {um traço é recebido}.) e traço (-). No primeiro estágio do experimento uma linha é escolhida ao acaso.3. dado que P (R = k) = e P (D|R = k) = tem-se que P (R = k|D) = 1 dk nm n 1 di i=1 n m 1 n dk . seja D este evento. Porém geralmente. (b) o sinal recebido é um traço. T• = {um ponto é transmitido}. PROBABILIDADE CONDICIONAL 52 as probabilidades P (Bi)’s de cada mensagem ser enviada e as probabilidades condicionais que descrevem o canal de comunicação sejam conhecidas pode-se usando o Teorema da Probabilidade Total obter a probabilidade incondicional que determinada mensagem A seja recebida. di Exemplo 3. O seguinte exemplo ilustra uma aplicação da fórmula de Bayes.

(c) A probabilidade de que um 1 foi transmitido. 3 P (R_ | T• ) = P (R_ | T_ ) = 2 . Sejam os eventos T0 = {um 0 é transmitido}. 58 38 8 23 25 4 + = . Campos & Rêgo . P (R_ ) 2 Exemplo 3. (b) A probabilidade de que um 0 seja recebido. R_ = (R_ ∩ T_ ) ∪ (R_ ∩ T• ). R0 = {um 1 é recebido}. P (R• ) = P (R• | T• )P (T• ) + P (R• | T_ )P (T_ ) = P (R_ ) = P (R_ | T_ )P (T_ ) + P (R_ | T• )P (T•) = (a) P (T• | R• ) = (b) P (T_ | R_ ) = P (R• ∩ T• ) 3 = . assuma uma probabilidade de 0. R0 = {um 0 é recebido}. 38 58 8 logo. Para um dado canal.45 de se transmitir um 0. Tem-se que: 3 .6: Um canal de comunicação binário envia um dentre dois tipos de sinais.94 que um 0 transmitido seja corretamente recebido como um 0 e uma probabilidade de 0. 5 53 2 . assuma uma probabilidade de 0. (e) A probabilidade de um erro. determine. Devido ao ruído. Se um sinal é enviado. Adicionalmente. 5 P (R• | T_ ) = 1 . 3 P (T• ) = 5 8 e R• = (R• ∩ T• ) ∪ (R• ∩ T_ ).3.1. um 0 transmitido é alguma vezes recebido como um 1 e um 1 transmitido é alguma vezes recebido como um 0. denotados por 0 e 1. dado que um zero foi recebido.91 que um 1 transmitido seja corretamente recebido como um 1. PROBABILIDADE CONDICIONAL P (R• | T• ) = 3 P (T_ ) = 8 . (a) A probabilidade de que um 1 seja recebido. (d) A probabilidade de que um 0 foi transmitido. T1 = {um 1 é transmitido}. P (R• ) 4 P (T_ ∩ R_ ) 1 = . dado que um 1 foi recebido. 35 13 4 + = .1.

45 = = 0.09. P (T1 ) = 0. P (R0 ) = P (R0 | T0 )P (T0) + P (R0 | T1 )P (T1 ) = 0.45 = 0.8952.4725 Campos & Rêgo .4725.06.45. P (R1 | T1 ) = 0. 0.5275 = 0.91 × 0.55 = = 0.94 × 0. 0.4725. (c) P (T1 | R1 ) = P (T1 ∩ R1 ) P (R1 ) P (R1 | T1 )P (T1 ) = P (R1 ) 0.5275. P (T0 ) = 0. (a) R1 = (R1 ∩ T1 ) ∪ (R1 ∩ T0 ).94 × 0.06 × 0. P (R0 | T0 ) = 0.9488. PROBABILIDADE CONDICIONAL Logo.1. logo.5275 (d) P (T0 | R0 ) = P (T0 ∩ R0 ) P (R0 ) P (R0 | T0 )P (T0 ) = P (R0 ) 0.94 ⇒ P (R1 | T0 ) = 0. ou.91 × 0.91 ⇒ P (R0 | T1 ) = 0.09 × 0. 54 P (R1 ) = P (R1 | T1 )P (T1) + P (R1 | T0 )P (T0 ) = 0.55 = 0.3.55. (b) R0 = (R0 ∩ T0 ) ∪ (R0 ∩ T1 ). P (R0 ) = 1 − P (R1 ) = 1 − 0. logo.55 + 0.45 + 0.

mas a definição formal de probabilidade condicional não permite obter esta conclusão. Solução: Sejam B1 e B2 os eventos a primeira bola é branca e a segunda bola é branca. Isto leva a um número de dificuldades filosóficas em relação a eventos com probabilidade zero.5 ⇒ P (C) = . Porém parece razoável assumir que neste caso P (A|B) = 1/2 já que µ intuitivamente implica que todos os estados são equiprováveis. Exemplo 3. Exemplo 3. que evento é mais provável C ou D? Solução: P (C ∩ D) P (C ∩ D) P (C | D) = = 0. quão improvável um evento precisa ser antes de ele ser atribuído probabilidade zero? Deve um evento em algum caso ser atribuído probabilidade zero? Se existem eventos com probabilidade zero que não são realmente impossíveis. P (B1) = Logo. se P (B) = 0.8: Se P (C|D) = 0. São eles realmente impossíveis? Caso contrário.4 > P (C∩D) . 4 e P (D|C) = 0. P (D) 0.06 × 0. Utilizando a fórmula de Bayes. 3 Embora probabilidade condicional seja bastante útil. sucessivamente e sem reposição.3. Determine a probabilidade da primeira bola ser branca sabendo que a segunda bola é branca.0765. 55 P (E) = P (R0 | T1 )P (T1 ) + P (R1 | T0 )P (T0 ) = 0. 5. E = (T1 ∩ R0 ) ∪ (T0 ∩ R1 ). em particular quando se quer tratar de eventos de probabilidade zero.1.45 = 0. então P (A|B) não é definida. P (B1 |B2 ) = P (B2 |B1 )P (B1 ) . B. c c P (B2 |B1 )P (B1 ) + P (B2 |B1 )P (B1 ) 4 10 c e P (B1 ) = 6 . Alguns dos problemas mencionados no parágrafo anterior podem ser tratados considerandose probabilidades condicionais (e não probabilidade incondicionais) como a noção fundamental. Sacam-se.5 Como P (C∩D) 0. Tradicionalmente. porém a discussão destes modelos está fora do escopo deste curso. P (A|B) não é definida. Seja B = {1/4.55 + 0. µ) onde B é a σ-álgebra de Borel restrita a eventos contidos em [0. 0.09 × 0.1. PROBABILIDADE CONDICIONAL (e) E = {acontece um erro}. 1] e µ é uma medida de probabilidade na qual todo intervalo em [0.4 P (C ∩ D) P (C ∩ D) = 0. considere o espaço de probabilidade ([0.5 então D é mais provável que C.4 ⇒ P (D) = . 3/4} e A = {1/4}. duas bolas dessa urna. 1] possui probabilidade igual ao seu comprimento.1. P (D | C) = P (C) 0. Campos & Rêgo . então o que significa condicionar em eventos de probabilidade zero? Por exemplo. P (B2 |B1 ) = 9 . Queremos calcular P (B1 |B2 ). ela sofre de problemas. Como P (B) = 0. P (B1 |B2 ) = 3 9 · 3 9 4 10 4 · 10 4 +9· 6 10 = 2 15 2 5 1 = . respectivamente. Logo. 10 3 4 c Mas P (B2 |B1 ) = 9 . 1].7: Uma urna contém 4 bolas brancas e 6 bolas pretas.

e M a porta que Monty Hall abre. e isto pode ser modelado por 1 P (G = di |Y = dj ) = .1. P (F )). G = di3 ) = 1. Monty Hall necessariamente terá de abrir a porta que não contém o prêmio. 3 isto é. Y = d2 . mas antes que a porta fosse aberta.1. que não continha o prêmio. PROBABILIDADE CONDICIONAL 56 Exemplo 3. d3 . 4. O participante tinha então permissão para ficar com sua porta original. Y = G = di2 . Seja G uma porta escolhida aleatoriamente para conter o prêmio. M = d3 ) P (Y = d2 . Logo. o que pode-se concluir sobre P (E|F )? Solução: Por definição.9: Se P (E) = 0. O participante selecionava uma porta. todas as portas têm a mesma probabilidade de conter o prêmio não importa qual porta o participante escolha. A fórmula de Bayes é utilizada para analisar este problema. que sabia em que porta estava o prêmio. max(P (E) + P (F ) − 1. onde atrás de apenas uma delas havia um prêmio valioso. 3} e são distintos. M = d3 ) P (M = d3 |G = d1 . 0) ≤ P (E ∩ F ) ≤ min(P (E). O participante não tem qualquer conhecimento a priori sobre a localização do prêmio. 4 ≤ P (E|F ) ≤ . d1 . 0.1. Se o participante escolher corretamente. isto pode ser modelado por P (M = di1 |Y = di2 . M = d3 ) = P (G = d1 . d2 . i2 . d2 . 0. 1 ≤ P (E ∩ F ) ≤ 0. por exemplo.1 2 Para determinar se o participante deve trocar de porta. por exemplo. 1 0. 2. Monty Hall. portanto 0. onde i1 . deve-se calcular P (G = d1 |Y = d2 . Y = d2 )P (G = d1 |Y = d2 )P (Y = d2 ) = P (M = d3 |Y = d2 )P (Y = d2 ) P (M = d3 |G = d1 . então Monty Hall escolhe aleatoriamente entre as outras duas outras portas: 1 P (M = di1 |Y = G = di2 ) = . 4 e P (F ) = 0. por exemplo. P (E|F ) = P (F ) Porém. 7 0. 7. i3 ∈ {1. .10: (Paradoxo de Monty Hall) Monty Hall foi um popular apresentador de programa de jogos em TV cujo jogo começava mostrando ao participante três portas fechadas d1 . Se o participante escolher uma porta que não contém o prêmio. d1 . abria a porta restante d3 . Y a porta que o participante escolhe primeiro. P (E ∩ F ) . Y = d2 )P (G = d1 |Y = d2 ) = P (M = d3 |Y = d2 ) 1/3 . 7 Exemplo 3. ou escolher a outra porta fechada. para di1 = di2 .3. A pergunta é se é melhor ficar com a porta original ou trocar de porta. = P (M = d3 |Y = d2 ) Campos & Rêgo 1 A solução depende como este caso é resolvido. ou seja ele considera todas as portas equiprováveis.

G = d2 )P (G = d2 |Y = d2 )P (Y = d2 ) + P (Y = d2 ) P (M = d3 |Y = d2 . c )P (D c ) P (T P |D)P (D) + P (T P |D pd + pt (1 − pd ) Exemplo 3. M = d3 . G = d2 ) + P (Y = d2 . P (T P |D c) = pt . Contudo. P (D) = pd . Existe um teste para diagnóstico desta doença que sempre acusa presença da doença quando o indivíduo tem a doença. por exemplo. quando o indivíduo não tem a doença. 05. pd = 0. 3 2 3 2 P (M = d3 |Y = d2 ) = Logo. 02.1. apesar desta pequena probabilidade do teste dá um resultado errado. M = d3 . Considere os seguintes eventos: A = {O primeiro e o segundo bit são iguais a 1} Campos & Rêgo . G = d2 )P (G = d2 |Y = d2 ) +P (M = d3 |Y = d2 . A probabilidade que um indivíduo selecionado ao acaso nesta população tenha determinada doença é pd . G = d3 ) = P (Y = d2 ) P (M = d3 |Y = d2 . Seja T P o evento que o teste reporta positivamente que o indivíduo tem a doença. G = d3 )P (G = d3 |Y = d2 ) 1 1 1 1 =1· + · +0= . Seja W o número de 1’s em um byte.1. P (G = d1 |Y = d2 . G = d3 )P (G = d3 |Y = d2 )P (Y = d2 ) + P (Y = d2 ) = P (M = d3 |Y = d2 . o teste reporta falsamente que o indivíduo tem a doença com probabilidade pt . será visto que.3. P (Y = d2 . P (T P |D) = 1.11: Seja D o evento que um indivíduo selecionado ao acaso de uma população tem uma doença particular. M = d3 ) P (Y = d2 ) P (Y = d2 . a doença for rara. G = d1 )P (G = d1 |Y = d2 )P (Y = d2 ) = P (Y = d2 ) P (M = d3 |Y = d2 . Um indivíduo pode estar interessado em saber a probabilidade P (D|T P ) que ele tenha a doença dado que o teste deu positivo. Pela fórmula de Bayes P (D|T P ) = pd P (T P |D)P (D) = = 0. Formalmente. G = d1 )P (G = d1 |Y = d2 ) +P (M = d3 |Y = d2 . G = d1 ) + P (Y = d2 . PROBABILIDADE CONDICIONAL 57 O Teorema da Probabilidade Total e a definição de probabilidade condicional são utilizados para determinar o valor de P (M = d3 |Y = d2 ).12: Suponha que todos os bytes tenham a mesma probabilidade de ocorrência. M = d3 ) = 2 . e o participante deve trocar de porta de sua escolha 3 original d2 para d1 ! Exemplo 3.1. Se. a probabilidade do indivíduo ter a doença é pequena. 001 e o teste reportar falsamente com probabilidade pequena pt = 0. M = d3 .

P (B|A) e P (A|B). Portanto. isto significa que eles não têm nada a ver um com o outro. são não relacionados. chega-se a conclusão que A é independente de B se P (A∩B) = P (A)P (B). Definição 3. 58 Calcular P (A). Solução: ||A|| 26 1 P (A) = = 8 = . ela é a expressão adotada como a definição de independência entre dois eventos. A intuição por trás da frase “o evento A é independente do evento B” é que o conhecimento sobre a tendência para A ocorrer dado que sabe-se que B ocorreu não é alterada quando sabe-se que B ocorreu. a ocorrência de um não tem qualquer influência sobre a ocorrência do outro.1: O evento A é independente do evento B se P (A ∩ B) = P (A)P (B).2 Independência O que exatamente significa que dois eventos são independentes? Intuitivamente. Campos & Rêgo . um após o outro. Então.1. P (B) 4 36 3. Como esta última expressão é definida inclusive para o caso de P (B) = 0. 2 1 8 1 2 P (A ∩ B) = P (A|B) = B 1 = . qual a probabilidade do primeiro dado ter dado resultado 4? Solução: 1 P (A ∩ B) 1 36 P (A|B) = = 4 = . Mas usando a definição de probabilidade condicional. ||Ω|| 2 4 P (B) = ||B|| = ||Ω|| 8 1 + 8 3 + 28 8 5 + 8 7 1 = . 8 1 8 1 4 P (B|A) = 1 = .2. INDEPENDÊNCIA e B = {W é um número ímpar}.13: Dois dados são jogados. P (B). usando probabilidades condicionais pode-se formalizar esta intuição da seguinte forma: A é independente de B se P (A|B) = P (A).2. 4 Exemplo 3.3. 2 P (B|A) = onde P (A ∩ B) = ||A∩B|| Ω P (A ∩ B . P (A) = (6)+(6)+(6) 5 3 1 28 = 1 . e observa-se o evento a soma dos dois dados é igual a 9. então.

Portanto.2. .2: A é independente dele mesmo se e somente se P (A) = 0 ou P (A) = 1. Intuitivamente. Definição 3. A = A ∩ Ω = A ∩ (B ∪ B c ) = (A ∩ B) ∪ (A ∩ B c ). isto é. Prova: Então. INDEPENDÊNCIA 59 Esta definição de independência implica que independência é um conceito simétrico em teoria da probabilidade. n}. como A ∩ B e A ∩ B c são mutuamente exclusivos. A2 . . Rearrajando os termos e utilizando o fato que P (B c ) = 1−P (B). ou seja que B c ocorreu. A é independente dele mesmo. . Teorema 3. n ≥ 1. porém A certamente não é não relacionado consigo mesmo. A e B c (respectivamente Ac e B. onde I é um conjunto de índices.2. P (∩i∈I Ai ) = i∈I P (A) = P (A)P (B) + P (A ∩ B c ). P (A) = P (A ∩ B) + P (A ∩ B c ). Note que esta definição também implica que eventos A e B são independentes se P (A) = 0 ou P (B) = 0. é mutuamente independente se para todo I ⊆ {1. . .2. Teorema 3. P (Ai). A é independente de B se e somente se B é independente de A. então A e B c também são. tem-se que P (A∩B c ) = P (A)P (B c ). An . Prova: P (A ∩ A) = P (A) = P (A)P (A) ⇔ P (A) = 0 ou P (A) = 1. o axioma K3 implica que Como A e B são independentes. não deve alterar a probabilidade de A.5: Uma sequência finita de eventos A1 . Ac e B c ) também o são. O seguinte teorema prova que esta intuição é verdadeira. é fácil provar que se P (A) = 1.3. se P (A) = 0. o que pode gerar conclusões não intuitivas se de fato P (A) = 0 ou P (B) = 0. é de se esperar que se A e B são independentes. Similarmente. Por exemplo. Campos & Rêgo . se A é independente de B o fato que B não ocorreu. O conceito de independência também se aplica a uma coleção arbitrária de eventos {Ai }i∈I . . Definição 3. então A é independente dele mesmo. . .2.4: Uma coleção de eventos {Ai }i∈I é independente par a par se para todo i = j ∈ I.3: Se A e B são eventos independentes. O seguinte teorema prova que estes são os únicos casos em que um evento é independente dele mesmo. Neste caso. Ai e Aj são eventos independentes.2. têm-se duas definições.

Exemplo 3. Exemplo 3.2. 4} e P ({w}) = 1/4. 2. P (A ∩ B) = p2 = P (A)P (B) = (p1 + p2 + p4 )(p2 + p3 + p5 ). Se A1 . .4.35)(0. 3.7: Se Ω = {1. 2}. Por exemplo. pode-se provar o mesmo resultado para os outros pares. 1 4 e p4 = p5 = 0. A2 . Então.2. Logo sua probabilidade é igual a: 3 P (F ) = P ((A1 ∪ A2 ) ∩ Ac ) = P (A1 ∪ A2 )P (Ac ) 3 3 = (P (A1 ) + P (A2 ) − P (A1)P (A2 ))(1 − P (A3 )) = (0.549.10: Assuma que A1 .3.9: O evento F de que um determinado sistema falhe ocorre se os eventos A1 ou A2 ocorrerem. 3} são eventos independentes par a par.2. 1 P (A ∩ B ∩ C) = P (∅) = 0 = P (A)P (B)P (C) = .35. Contudo.9) = 0. A = {1. 3}. Solução: Seja pi a probabilidade do elemento i ∈ Ω. . 3. B = {1. e C = {2. 6}. Exemplo 3. . A3 são mutumente independetes e P (A1 ) = 0. então construa uma medida de probabilidade em Ω tal que A e B sejam independentes. 4}.4 + 0. B. A. Exemplo 3. então A = {1.8: Se Ω = {1. 2. .2.2. P (A2 ) = 0. 3. e P (A3 ) = 0. Deste modo. então calcule P (F ). An são eventos mutuamente independentes e que P (Ai ) = pi . 5. Campos & Rêgo . Calcular as probabilidades dos seguintes eventos: (a) O evento A é o evento onde todos estes eventos ocorrem: n n P (A) = P (∩n Ai ) = i=1 i=1 P (Ai ) = i=1 pi . 2. mas o evento A3 não ocorrer.2. e C não são mutuamente independentes. Solução: O evento F é igual ao evento (A1 ∪ A2 ) ∩ Ac . e B = {2.35 − 0. Solução: Pode-se verificar isto pelo fato que P (A ∩ B) = P ({1}) = 1 11 = = P (A)P (B). 5}. INDEPENDÊNCIA 60 Definição 3. para que A e B sejam independentes.1. (b) O evento B é o evento que nenhum desses eventos ocorre: n n P (B) = P (∩n Ac ) = i=1 i i=1 P (Ac ) = i i=1 (1 − pi ). 4 · 0. {Ai }i∈J são mutuamente independentes. pode-se escolher p1 = p2 = p3 = p6 = 1 1 P (A ∩ B) = 4 e P (A) = P (B) = 2 . 8 Então. 4 22 Similarmente.6: Uma coleção de eventos {Ai }i∈I é mutuamente independente se para todo J ⊆ I finito. 4.

Note 1 que P (Ak ) = 2 . P (Bk ) = P (Ac ∩ Ac ∩ · · · ∩ Ac 1 2 2k−2 ∩ A2k−1 ) = P (A1 )P (A2 ) · · · P (A2k−2 )P (A2k−1 ) = ( ) 2 onde a penúltima igualdade se deve ao fato dos lançamentos serem independentes. Exemplo 3. Logo.3. mostre que A e B ∪ C são independentes. (b) a probabilidade de que um habitante alfabetizado ter menos de 30 anos.2 e P (B2 ) = 0. 75% de seus habitantes têm menos de 30 anos. Sendo A e B independentes.3.3 Exercícios 1. Campos & Rêgo .3. Calcule: (a) P (A). Sabendo-se que a taxa de alfabetização entre os jovens. 3. (b) P (B2 |A). 2.3. Existe um outro evento A tal que P (A|B1 ) = 0.2. Seja Bk o evento João ganha na sua k-ésima jogada. P (João vencer) = P (∪∞ Bk ) k=1 = ∞ k=1 P (Bk ) = ∞ k=1 2 1 ( )2k−1 = .4 e P (A|B3 ) = 0. 1 2 1 2 3 4 em geral. idade ≥ 30 anos.1. Qual a probabilidade de João vencer o Jogo? Solução: Seja Ak o evento dois resultados iguais são obtidos na k-ésima tentativa. Então. B1 = A1 . B2 . EXERCÍCIOS (c) O evento C é o evento onde pelo menos um desses eventos ocorre: n 61 P (C) = P (B c ) = 1 − P (B) = 1 − i=1 (1 − pi ). P (A|B2) = 0. Considere os eventos A. Estes eventos têm as probabilidades P (B1 ) = 0.11 : João e José disputam um jogo com uma moeda equilibrada. Cada jogador lança a moeda duas vezes e vence o jogo aquele que primeiro obtiver dois resultados iguais. idade < 30 anos é de 40% e entre os não jovens. B2 = Ac ∩ Ac ∩ A3 . B e C. A e C independentes e B e C mutuamente excludentes. B3 = Ac ∩ Ac ∩ Ac ∩ Ac ∩ A5 . Numa certa cidade. enquanto os outros 25% têm mais de 30 anos. c Bk = Ac ∩ Ac ∩ · · · ∩ A2k−2 ∩ A2k−1 . é de 30%. 2 3 3. 1 2 1 2k−1 c c c . Sabe-se que os eventos {B1 . Portanto. calcule: (a) a probabilidade de que um habitante escolhido ao acaso seja alfabetizado. João começa jogando e se não vencer passa a moeda para José e continuam alternando jogadas. B3 } são disjuntos par a par e que sua união é igual ao espaço amostral.

(a) Qual é a probabilidade de que um programa selecionado aleatoriamente compile da primeira vez? (b) Se um programa selecionado aleatoriamente compilar da primeira vez. e que 20% dos programas em C e 40% dos em Haskell compilam da primeira vez. EXERCÍCIOS 62 4. Um centro de processamento de dados comprou um lote de 5000 chips. (c) Compute P ({a} | {a. c}). Qual é a probabilidade de que seja defeituoso? (b) Um chip é escolhido aleatoriamente do lote. b. Havendo m escolhas se ele sabe a resposta. qual é a probabilidade de que tenha sido escrito em Haskell? 8. Qual será a probabilidade de se encontrar na amostra pelo menos 1 defeituoso? (este item será facilmente resolvido usando uma Binomial. sabendo-se que a primeira era de cobre. Sabe-se que em um centro de processamento de dados. responde corretamente com probabilidade 1. c}) = 1 2 1 e P ({a}) = 4 . Sabendo-se que choveu hoje. são defeituosos. Um porta-níqueis contém moedas de prata e de cobre em igual número. Extraem-se ao acaso e sem reposição duas moedas. Qual é a probabilidade de que tenha sido produzido por A? (c) Suponha que uma amostra de 20 chips seja retirada aleatoriamente do lote comprado. choverá amanhã com probabilidade 0. a qual será vista posteriormente) 5. (a) Determine as probabilidades de todos os eventos cujas probabilidades podem ser computadas dos dados. se não sabe. Suponha que a ocorrência ou não de chuva dependa das condições do tempo no dia imediatamente anterior. (b) uma e uma só das moedas seja de prata. d. Campos & Rêgo . respectivamente. calcule a probabilidade que choverá depois de amanhã. e constata-se que é defeituoso. Em um teste de múltipla escolha. (c) a segunda moeda extraída seja de prata. (d) pelo menos uma das moedas seja de cobre. a probabilidade do aluno saber a resposta é p. (b) Compute P ({b. d} | {a. Adimita que se chove hoje.7 e que se não chove hoje choverá amanhã com probabilidade 0. b. Calcule a probabilidade de que: (a) saia uma moeda de prata na segunda tiragem. b.4. b. observado. responde corretamente com probabilidade 1/m. 6. Seja o espaço amostral Ω = {a. c. 9. Sabe-se que 10% dos chips produzidos por A e 5% dos produzidos por B. dos quais 1000 foram manufaturados pela fábrica A e o restante pela B. e} onde P ({a. c}). (a) Um chip é escolhido aleatoriamente do lote. 80% dos programas são escritos em C. c.3.3. 20% em Haskell. 7.

3. Encontre a probabilidade que o míssel seja detectado em ao menos um dos n períodos de tempo idênticos. Seja Ω consistindo dos nove triplets. b. para k = 1. . As unidades falham independentemente umas das outras. Sejam A1 . c. (b. (a) Qual é a probabilidade que nenhum dos três tenha escolhido seu próprio boné? (b) Resolva o mesmo problema para n. unidade para o tempo T é p2 . (c) A ocorrência de. Em um conjunto de N itens. 16. k = 1. · · · . Suponha que três rapazes possuem bonés idênticos. . o conjunto todo é rejeitado. Encontre a probabilidade de que o computador falhe durante o tempo T . . Se m ou mais itens dessa amostra são defeituosos. Encontre a probabilidade de que isto aconteça. e assim por diante. . 13. EXERCÍCIOS (a) Qual a probabilidade de que a pergunta tenha sido respondida corretamente? 63 (b) Qual a probabilidade que o aluno sabia a resposta dado que a pergunta foi respondida corretamente? 10. Obtenha a probabilidade de ocorrência dos seguintes eventos. . Sabe-se que as detecções de alvos por períodos de tempo idênticos. 14. . Considere as seis permutações das letras a. Quando qualquer unidade falha. são independentes umas das outras. 12. a). A2 . Durante um dado período de tempo. Os bonés são misturados e então cada um seleciona aleatoriamente um boné. (b) A ocorrência de exatamente dois dos Ak . b). 3 mostre que eles são independentes dois a dois mas não são independentes três a três (a questão também poderia ter sido: verifique se os eventos são mutuamente independentes). Cada um atira seu boné no centro de uma mesa. da 2a. o computador falha. c). . c como também os triplets (a. um radar detecta um alvo com probabilidade p. A transmissão de uma mensagem pode levar a um dos seguintes eventos: Campos & Rêgo . (c. An eventos independentes com pk = P (Ak ). Definindo os eventos Ak = { o k-ésimo lugar é ocupado pela letra a }.3. M estão com defeito. a. cada uma das quais pode ser transmitida com diferente exatidão. no máximo. em termos das probabilidades pk : (a) A ocorrência de exatamente um dos Ak . n − 1 dos Ak . 11. 15. n. Um computador consiste de n unidades. cada um com probabilidade 1/9. Três mensagens são enviadas através de três canais de comunicação. São tomados n itens para inspeção. unidade durante o tempo T é p1 . A confiabilidade (tempo livre de falha) da 1a. b.

encontre a probabilidade dos seguintes eventos: (a) A = {todas as três mensagens são transmitidas da forma correta}. (a) Encontre a probabilidade de que pelo menos uma das mensagens que está sendo transmitida. ( ) (f) A e B são excludentes ⇔ A e B são independentes. Nos itens a seguir B = {bebo}. Considerando que mensagens podem ser distorcidas ou transmitidas corretamente independentemente umas das outras.3. (c) C = {não menos de duas mensagens são completamente ou parcialmente distorcidas}. a probabilidade de cada um dos símbolos serem distorcidos.3. você é o futuro do Brasil! (h) B ∩ D. (b) A e B independentes ⇒ P (A ∪ B) = P (A) + P (B) − P (A)P (B). um software pode apresentar erros com probabilidade p0 . aliás. (e) A e B independentes ⇒ P (A | B) = P (A). A3 = { a mensagem é completamente distorcida}. A2 = { a mensagem é parcialmente distorcida}. (c) A e B independentes ⇒ P (A ∩ B) = P (A)P (B). A2 e A3 são conhecidas e iguais a p1 . consciente de que o futuro do seu país depende de você. independentemente uns dos outros. D = {dirijo}. Coloque V ou F nas sentenças abaixo: (a) A e B independentes ⇒ P (A ∪ B) = P (A) + P (B). Durante a transmisssão. p2 e p3 (p1 + p2 + p3 = 1). (b) Quantas vezes uma mensagem precisa ser repetida para que a probabilidade de que pelo menos uma das mensagens não seja distorcida não seja menor que p? 19. 17. é p. Assumindo independência entre os eventos considerados. (g) B ∩ D. Por questões de segurança. Durante um dado período de tempo. não seja distorcida em qualquer um dos seus símbolos. (b) B = {pelo menos uma das mensagens é completamente distorcida}. 64 As probabilidades dos eventos A1 . quantos períodos de tempo são necessários para que erros sejam detectados com probabilidade não menor que p? 18. ( ) ( ) Campos & Rêgo . cada mensagem é então enviada k vezes. EXERCÍCIOS A1 = { a mensagem é transmitida da forma correta}. Uma mensagem que está sendo transmitida através de um canal de comunicação consiste de n símbolos. Você vai responder estes itens tendo em vista que você é um cidadão brasileiro responsável. ( ) ( ) ( ) ( ) ( ) (d) A e B independentes ⇒ P (A | B) = P (B).

1%. H3 e H4 são. Três prisioneiros2 são informados por seu carcereiro que um deles foi escolhido aleatoriamente para ser executado. A informação é considerada correta se ambas as mensagens coincidem. P (H2 ) = 0. Suponha que os automóveis têm igual probabilidade de serem produzidos na segunda.4. 0. atualmente. se tem probabilidade 9/10 de atingir o alvo em qualquer tiro? 25. 21. pois as probabilidades de fumantes são quase zero!) 23. 22. A causa de um acidente está sendo investigada e existem quatro hipótesis possíveis: H1 . Um colégio é composto de 70% de homens e 30% de mulheres. Uma mensagem consistindo de n símbolos binários "0"e "1"é enviada. 65 ( ) ( ) ( ) ( ) (j) P (B | D) = 0. ambos da UFPE s ao irreais. P (H3 ) = 0. quarta e quinta. qual é a probabilidade de que o mesmo foi produzido numa segunda-feira? 24. Qual é a probabilidade de que um estudante que foi visto fumando seja homem? (estes dados. 0. Se você compra um automóvel amarelo.2 e 0. terça. Um homem dispara 12 tiros independentemente num alvo.3. Já é sabido que ocorreu o evento A = {falha no nível do óleo}. Encontre a probabilidade de que ambas as mensagens estejam distorcidas. pelo menos entre os alunos do CCEN e do CIn. 4%. Dado que os dois números sejam diferentes. respectivamente. (k) B e D são eventos independentes. Cada símbolo é distorcido com uma probabilidade p. terça. H2 . H2 . (b) a soma dos números ser 8. Estatisticamente sabe-se que P (H1) = 0. e os outros dois serão libertados. Por questões de segurança a mensagem é repetida duas vezes.3 e P (H4) = 0. Qual é a probabilidade de que atinja o alvo pelo menos uma vez. 26.2.9. 2%. As percentagens de automóveis amarelos produzidos nos diferentes dias da semana são: segunda. qual é a probabilidade (condicional) de: (a) pelo menos um dos números ser 6. Encontre as probabilidades a posteriori para as hipótesis. (l) B e D são eventos excludentes. sexta.3. Sabe-se que 40% dos homens e 60% das mulheres são fumantes. O prisioneiro A pede Este problema aparece em vários livros as quais estão aqui presentes. EXERCÍCIOS (i) P (D | B) = 1. quinta e sexta-feira.1. Certo experimento consiste em lançar um dado equilibrado duas vezes. Pelas mesmas estatísticas a probabilidade condicional do evento A dadas as hipótesis H1 . quarta. 20. a despeito de coincidirem. independentemente. Você vê alguma semelhança entre o citado problema e o Paradoxo de Monty Hall? 2 Campos & Rêgo .3. H3 e H4 . 0.

He thinks that if the warder says “B will be released”. and then take a message to one of my friends B and C to let him know that he will be pardoned in the morning”. Mosteller. And so A decides not to reduce his chances by asking. (a) Qual é a probabilidade de que o ar condicionado tenha sido pretendido mas não a preferência do carro com direção hidráulica? Campos & Rêgo . The Pleasures of Probability. Springer-Verlag. pp.3. What are A’s chances of being executed. se A soubesse qual de seus companheiros seria libertado. The Prisioner’s Dilemma. Academic Press. pp 28. and the prisioners know this but not which two. New York. pp.” Is the guard correct in his reasoning? (R. The parole board has decided to release teo of the three. será libertado. because either A and B or B and C are to be released. 24) 28. O carcereiro recusa-se a responder a pergunta. Inc. is to be released. not by energetic waving of hands. M. A warder friend of prisioner A knows who are to be released. EXERCÍCIOS 66 ao carcereiro para lhe dizer confidencialmente qual. Prisioner A ask the guard a favor: “Please ask the governor who will be executed. Fifth Edition. and comes back later and tells A that he gave the pardon message to B. Isaac. Um registro é selecionado aleatoriamente. Three prisioners A.) (S. A is mistaken in his calculations. 20) 27. If I tell you that B.) 29.. Explain. Prisioner A ask the guard to tell him the identity of one prisioner other than himself who is to be released. but thinks of asking for the name of the one prisioner other than himself who is to be released. The guard agrees. A. pois ele ja sabe que pelo menos um deles estará em liberdade. B. Que você pensa do julgamento de carcereiro? (S. given this information? (Answer this mathematically. Russel and P. afirmando que não há qualquer problema. B.) 30. Prentice Hall. and C. Prisioner A realizes that it would be unethical to ask the warder if he. 1972. Ross. is to be released. argumentando que. Consider three prisioners. então sua própria probabilidade de ser executado cresceria de 1/3 para 1/2.3. Three prisioners A. 1995. Artifitial Intelligence A Modern Approach. The guard refuses and explains himself by saying to prisioner A. A. Dover Publications. (F. It is common knowledge that one of them will be executed the next day and the others pardoned. 1995. Only the governor knows which one will be executed. Introduction to Probability Models. Since I dont’t want to hurt your chances for release I am not going to tell you. 49% preferem carro com direção hidráulica e 25% interessam-se pelas duas coisas simultaneamente. B. then you would be one of only two prisioners whose fate is unknown and your probability of release would consequently decrease to 1/2. New Jersey . and the prisioners know this. However. 1965. Norvig. Num stand de automóveis os registros indicam que 50% dos clientes pretendem ar condicionado no carro. his own chances have gone down to 1/2. Two of the prisioners are to be released. and C. say. Fifty Challenging Problems in Probability. de seus dois companheiros de cela. but not the identities of the two. with apparently equally good records have applied for parele. are locked in their cells. and C. “your probability of being released is now 2/3.

α2 . Suponha que exista uma probabilidade constante p de imprimir a letra correta e também suponha independência. Três jornais A. Um dos n impulsos. 33.3. 8% lêem A e B. Estima-se que a probabilidade de que Mário seja culpado é 0. Alberto e Carlos. digamos α1 . em ambas.3 que ele é inocente e Carlos dirá certamente que ele é inocente. 26% lêem B. a letra α1 foi impressa. · · · αn . 5% lêem A e C. Ela é acionada por impulsos elétricos. EXERCÍCIOS 67 (b) Qual é a probabilidade de que nenhuma das referidas preferências tenha sido selecionada? (c) Qual é a probabilidade de exatamente uma das referidas preferências ter sido selecionada? 31. (b) ele leia exatamente um dos jornais. Calcule a probabilidade de que o impulso escolhido tenha sido para imprimir α1 . cada letra sendo produzida por um impulso diferente. escolhido ao acaso. Alberto dirá com probabilidade de 0. (c) ele leia ao menos A e B se se souber que ele lê ao menos um dos jornais publicados. Se Mário for inocente. foi alimentado na máquina duas vezes e. (a) Qual é a probabilidade de Alberto dizer que Mário é inocente? (b) Qual é a probabilidade de Mário ser inocente se Carlos disser que é inocente? Campos & Rêgo . B e C. Para um adulto escolhido ao acaso. 32. Alberto dirá que ele é culpado com certeza e Carlos dirá que Mário é culpado com probabilidade 0. São chamadas duas testemunhas.3. 14% lêem C.6. Uma máquina impressora pode imprimir n letras. calcule a probabilidade de que: (a) ele não leia qualquer dos jornais. 2% lêem A. B e C são publicados em uma cidade e uma recente pesquisa entre os elitores indica o seguinte: 20% lêem A. Se Mário for realmente culpado. 4% lêem B e C.2.

y]. Uma variável aleatória é uma função real. como será visto a seguir. Sequências de variáveis aleatórias são sequências de funções reais. Dada uma variável aleatória X. Convergência de variáveis aleatórias é convergência de funções reais e teoremas limite sobre variáveis aleatórias são teoremas limite sobre funções reais. dependendo da sequência de lançamentos da moeda obtida ou do instante em que a rede é observada. seja PX (B) = P (X −1(B)). B = {x}. Intuitivamente. x]. Por 68 [x ≤ X ≤ y] = {ω ∈ Ω | x ≤ X(ω) ≤ y}. Suponha que uma moeda é lançada cinco vezes. Qual é o número de caras? Quantidades desse tipo é o que tradicionalmente têm sido chamadas de variáveis aleatórias. contudo. pode-se definir uma probabilidade. onde X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} é o conjunto de elementos do espaço amostral cuja imagem segundo X está em B. B = [x. com os respectivos significados: [X = x] = {ω ∈ Ω | X(ω) = x}.Capítulo 4 Variáveis Aleatórias Unidimensionais e Funções 4. . no espaço mensurável (IR. Uma função real X : Ω → R. B = (−∞. A. por exemplo. percentual de utilização da rede em determinados períodos de tempo. o adjetivo “aleatória” é usado para enfatizar que o seu valor é de certo modo incerto. Formalmente. Definição 4.1 Introdução Analisando o tráfego de redes Ethernet. variáveis aleatórias são funções. X −1 (B) ∈ A. nas variáveis número total de bytes. uma variável aleatória não é nem aleatória nem variável. o interesse pode ser. P ) um espaço de probabilidade. Na verdade. PX . ou número total de pacotes. ou ainda. Figura 1 Notações comumente encontradas. é chamada de variável aleatória se para todo Boreliano B. são variáveis aleatórias porque seus valores variam. [X ≤ x] = {ω ∈ Ω | X(ω) ≤ x}.1: Seja (Ω.1. B) da seguinte maneira: para todo B ∈ B.

tem-se que X −1 (B) ∈ A.2. A função de distribuição acumulada FX satisfaz às seguintes propriedades: (F1) Se x ≤ y. PX satisfaz os axiomas K1. então os eventos (−∞. ou seja. se xn ↑ ∞. x]. tem-se que PX ((−∞.2. Definição 4. x]). x]). x ≤ y ⇒ (−∞. é definida por FX (x) = P (X ≤ x) = PX ((−∞. pela continuidade da probabilidade. são eventos Borelianos disjuntos dois a dois. y] ⇒ PX ((−∞. xn ] = (−∞. xn ] são crescentes e ∪n (−∞.2 Função de Distribuição Acumulada Para uma dada variável aleatória X. (K5′ ) Suponha que B1 . Logo. tem-se que PX ((−∞. então FX (xn ) ↓ FX (x). FX (xn ) ↓ 0. x] ⊆ (−∞. FX (xn ) ↑ 1. e se xn ↑ ∞. xn ]) ↓ P (∅). y]) ⇒ FX (x) ≤ FX (y). 4.1: A função de distribuição acumulada de uma variável aleatória X. . ∀x ∈ IR. então os eventos (−∞. xn ] são decrescentes e ∩n (−∞. xn ] são decrescentes e ∩n (−∞. (K2) PX (IR) = P (X −1 (IR)) = P (Ω) = 1. ou seja. . xn ]) ↓ P ((−∞. (F2) Se xn ↓ x. tem-se que PX ((−∞. xn ] = I R. então os eventos (−∞. A probabilidade PX é dita como sendo a probabilidade induzida pela variável aleatória X. Similarmente. Se xn ↓ −∞. então FX (xn ) ↑ 1. PX (∪n Bn ) = P (X −1 (∪n Bn )) = P (∪n (X −1 (Bn ))) = n P (X −1(Bn )) = n PX (Bn ). xn ] = ∅. Se xn ↓ x. ou seja. xn ]) ↑ P (Ω). Logo. pela continuidade da probabilidade. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA 69 definição de variável aleatória. Logo.4. pela continuidade da probabilidade. . uma maneira de descrever a probabilidade induzida PX é utilizando sua função de distribuição acumulada. então PX está bem definida. . FX (xn ) ↓ FX (x). então FX (x) ≤ FX (y). e K5′ de probabilidade. representada por FX . x]) ≤ PX ((−∞. Então. pois: (K1) PX (B) = P (X −1 (B)) = P (A) ≥ 0. K2. B2 . Campos & Rêgo (F3) Se xn ↓ −∞. então FX (xn ) ↓ 0.

x2 . Por exemplo. FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA 70 Teorema 4. dessa forma.2. . tem-se que para todo x ∈ I F (x− ) ≤ F (x) ≤ F (x+ ). e somente se. D é enumerável. n→∞ n 1 ]) n 1 1 Como a sequência de eventos (x − n . portanto. x] = {x}.3: Seja D o conjunto de pontos de descontinuidade da função de distribuição F . + − x ∈ D se. A prova de que toda função real que satisfaz F1-F3 é uma função de probabilidade acumulada está fora do escopo deste livro. onde x1 < x2 < · · · xn e 0 ≤ F (x− ) ≤ F (x+ ) ≤ F (x− ) ≤ F (x+ ) ≤ · · · ≤ F (x− ) ≤ F (x+ ) ≤ 1. R. Pela continuidade à direita. A. Uma função de distribuição acumulada pode corresponder a várias variáveis aleatórias no mesmo espaço de probabilidade (Ω. seja X tal que P (X = 1) = 1 P (X = −1) = 1 . pois é limite de Borelianos. A condição F2 significa que toda função distribuição de probabilidade acumulada FX é continua à direita. . . X e −X têm a mesma 2 distribuição. Ainda mais. 1 1 2 2 n n Campos & Rêgo . P ). (4.2: Uma função real F satisfaz F1–F3 se e somente se F é uma função de distribuição de probabilidade acumulada. a probabilidade da variável aleatória X assumir o valor x é igual ao salto da função de distribuição acumulada FX no ponto x. pode-se provar que ela tem uma quantidade enumerável de descontinuidades do tipo salto.2. x − 1 = lim PX ((x − . Logo. então F satisfaz F1-F3 foi dada acima. Teorema 4. Para n = 1. FX = F−X . Prova: A prova de que se F for uma função de distribuição de probabilidade acumulada. então {x} é um Boreliano. Então.1) Então. Consequentemente. x]) − lim PX ((−∞. é n=1 finito. 2. Por absurdo. O próximo teorema indica que o conjunto de pontos de descontinuidade de F é enumerável. n PX (x) = FX (x) − FX (x− ).2. o salto no ponto x é igual a FX (x) − FX (x− ) = FX (x) − lim F (x − n→∞ n→∞ 1 ) n = PX ((−∞. xn }. e Ou seja.4. Assim. x] é decrescente e ∩n (x − n . P (−X = 1) = P (−X = −1) = 2 . como FX é não-decrescente e possui valores entre 0 e 1. Logo. seja An = {x : F (x+ ) − F (x− ) > 1 }. . An = {x1 . Será visto que todo An contém menos que n pontos e. . suponha que exista An contendo n pontos. F (x ) > F (x ). Portanto. . D = ∪∞ An . x]). . 3. Prova: Pela monotonicidade. D será enumerável.

b]) = P ((−∞. n [F (x+ ) − F (x− )] > n × n > 1. absurdo.4. n [F (x+ )−F (x− )] ≤ 1. Campos & Rêgo (4. Sua reesposição aqui tem como objetivo enfatizar a comutação do limite com a probabilidade para sequências monotônicas. a ≤ b ⇒ P ((−∞. Sabe-se que (Capítulo 1) P (lim In ) = lim P (In ). b) ∪ {b} = (a. i k k k=1 Logo. Isto significa que I1 ⊃ I2 ⊃ · · · ⇒ limn→∞ In = ∩∞ In = n=1 {a}.2 e 4. b]) = P ((−∞. Portanto. P (X = a) = P (∩∞ In ) n=1 = P ( lim In ) n→∞ = = n→∞ lim P (In ) 1 1 <X ≤a+ ) n n 1 1 = lim (FX (a + ) − (FX (a − )) n→∞ n n 1 1 = lim FX (a + ) − lim FX (a − ) ⇒ n→∞ n→∞ n n n→∞ lim P (a − P (X = a) = FX (a+ ) − FX (a− ). b].3 é o salto da função de distribuição no ponto a. tem-se que F (x+ )− i k k k=1 1 1 F (x− ) > n para todo xi ∈ An .3) A expressão 4.2) 1 1 (b) In = {x : a − n < x ≤ a + n }. x]). FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA 71 Então.3. b]) − P (b) = FX (b) − FX (a) − P (X = b) ⇒ P (a < X < b) = FX (b) − FX (a) − P (X = b). Mas por definição do conjunto An . b]) − P ((−∞. a]) + P ((a.4 : Este exemplo mostra como usar a função de distribuição acumulada para calcular probabilidades. b)) + P ({b}) = P ((a. b]) ⇒ P ((a. Se X é uma variável aleatória discreta. FX (a+ ) − FX (a− ) ≥ 0. b)) = P ((a. b] = (−∞. Portanto. (4.1. b] ⇒ P ((a. a] ∪ (a. b]) ⇒ P ((a. An contém menos que n pontos. O resultado em (b) já foi visto em 4. Exemplo 4.4 foi obtido usando 4. (4.2.2. (a) (−∞. a]) = FX (b) − FX (a) ⇒ P (a < X ≤ b) = FX (b) − FX (a).4) . Lembrando que FX (x) = P (X ≤ x) = P ((−∞. (c) (a. O resultado em 4.

2 e 4.4. (e) [a. x ∈ {x1 . / é chamada de função probabilidade de X. b) = (a. x2 . . b]) + P (X = a) = FX (b) − FX (a) + P (X = a) ⇒ P (a ≤ X ≤ b) = FX (b) − FX (a) + P (X = a).4.5) (4. . b)) + P (X = b) ⇒ P ((−∞. . De modo geral escreve-se 0 ≤ p(xi ) ≤ 1. . se existe um conjunto enumerável {x1 . b)) = P ((−∞. . A função p(·) definida por p(xi ) = PX ({xi }).3.}) = 1.3 Tipos de Variáveis Aleatórias Existem três tipos de variáveis aleatórias: discreta.} ⊆ IR tal que P (X = xi ) ≥ 0. . b)) + P (a) = FX (b) − FX (a) − P (X = b) + P (X = a) ⇒ P (a ≤ X < b) = FX (b) − FX (a) − (P (X = b) − P (X = a)). b]) = P ((−∞. . ∀i ≥ 1 e P (X ∈ {x1 . Campos & Rêgo .5 foi obtido usando 4. b]) = P ((a. O resultado em 4. b]) ⇒ P ([a.}. b)) = P ((a. b] ∪ {a} = [a. .6 foi obtida a partir de 4. 4. TIPOS DE VARIÁVEIS ALEATÓRIAS (d) (a. b] ⇒ P ((a. (f) (−∞. .3 .6) (4. b]) − P (X = b) ⇒ P (−∞ < X < b) = FX (b) − P (X = b). b) ∪ {b} ⇒ P ((−∞. . 72 (4.7) 4. . b] = (−∞. . b]) + P (a) = P ([a. 2.1 Variável Aleatória Discreta Definição 4. x2 . e p(x) = 0. sendo positiva para uma quantidade enumerável de pontos sendo tal que i p(xi ) = 1.1: Uma variável aleatória X é discreta se assume valores num conjunto enumerável com probabilidade 1. b) ∪ {a} ⇒ P ([a. Toda função probabilidade é uma função real e assume valores entre 0 e 1. i = 1.3. ou seja. 4. x2 .3. contínua e singular.

a distribuição de uma variável aleatória discreta X pode ser determinada tanto pela função de distribuição acumulada FX quanto pela sua função de probabilidade p. p(xi )). Seja p : IR → [0. i = 1. . ∀B ∈ B. Portanto.4. TIPOS DE VARIÁVEIS ALEATÓRIAS p(xi ) = 1. ou seja. ∞ −∞ Campos & Rêgo . pelo Teorema 4. i 73 O conjunto de pontos (xi . x f (x)dx = 1. FX é contínua e ′ fX (x) = FX (x). . F é uma função de distribuição acumulada. ∀x ∈ R. a derivada de FX uma função densidade para X. 2. uma variável aleatória X tem densidade se FX é (i) contínua e (ii) derivável por partes. sendo. x2 . Logo.} e satisfazendo i p(xi ) = 1 e seja P (B) = xi ∈B p(xi ). sendo neste caso fácil provar que a função F definida por −∞ f (t)dt satisfaz às condições F1. e F3. A função fX é chamada de função densidade de probabilidade de X.2.2 Variável Aleatória Contínua Definição 4. como para variável aleatória discreta. Uma variável aleatória X tem densidade se FX é a integral (de Lebesgue) de sua derivada. 4. se FX é derivável no interior de um número finito ou enumerável de intervalos cuja união é IR. Para esta variável aleatória tem-se que FX (x) = i:xi ≤x p(xi ).3. . . . sendo p positiva para uma quantidade enumerável de pontos {x1 . Portanto. Uma função f (x) ≥ 0 é densidade de alguma variável aleatória se e somente se. 1]. Prova-se que P (B) é uma probabilidade em (R. neste caso.2.2: Uma variável aleatória X é contínua se existe uma função real fX (x) ≥ 0 tal que x FX (x) = −∞ fX (t)dt.3. . é usualmente denotado na literatura por distribuição de probabilidade da variável aleatória X.3. F2. B) (P satisfaz os axiomas de Kolmogorov). a distribuição de uma variável aleatória contínua X pode ser determinada tanto pela função de distribuição acumulada FX quanto pela sua função densidade fX . . Em quase todos os casos encontrados na prática.

Quando X é uma variável aleatória contínua. cuja construção segue-se. F1 (x) =  2 3 1. para o intervalo ( 9 . x < 1. 1) e considerando3 3 1 2 se como valor de F em ( 3 . Exemplo 4. F2. Para o intervalo ( 1 . F (x). 3 ) a média dos valores de F0 fora de (0. 1}. x > 1. 9 ). 1) nos três subintervalos (0. é uma variável aleatória singular. 1) sendo dividido em três partes equivale a dividir (0. isto é.4: Seja F0 (x) = 0. 2 1 . 2.3: Uma variável aleatória X é singular se FX é uma função contínua cujos pontos de crescimento formam um conjunto de comprimento (medida de Lebesgue) nulo. F é uma função contínua cuja derivada é igual a zero exceto em um conjunto de pontos que tem comprimento nulo. 1.3. Cada terço do intervalo (0. n = 1.3. seja 74 Então X tem densidade pois FX é contínua e derivável em todos os pontos da reta exceto em {0. 9 ). 1) em 0+ 1 2 7 8 nove partes. entretanto não é nem discreta. +1 Campos & Rêgo . o valor 9 4 da F é 2 2 = 3 . F é uma função de distribuição.   0 se x < 0. 0+1 = 1 . TIPOS DE VARIÁVEIS ALEATÓRIAS Por exemplo. x se 0 ≤ x < 1. 4 Este processo constrói uma sequência de funções Fn (x). Além disso. ( 1 .4. 2 2 obtém-se F1 (x):   0. Portanto. cuja função limite. x > 1. 3 ) e ( 3 . P (X < b) = = = = FX (b) − P (X = b) FX (b) − (FX (b+ ) − FX (b− )) FX (b) P (X ≤ b).3 Variável Aleatória Singular Definição 4. · · · . O exemplo de uma variável aleatória singular é a função de Cantor. Na prática.3. satisfaz às propriedades F1. x < 0. 4. 1 2 2 Dividindo-se o intervalo (0. nem contínua. 1 ). a maioria das variáveis aleatórias é discreta ou contínua. 1 < x < 3. F3.3. 1). o valor da F é 2 2 = 1 . FX (x) =  1 se x ≥ 1.

Para determinar essa probabilidade. por definição. as variáveis aleatória que são comuns no mundo real ou são discretas.3. como esse fato pode ser usado para encontrar a lei de probabilidade de X. tem-se ′ FY (x) = 0 se x < 0 ou x > 1/2. tem-se que Fs (x) = 0. 1 se 0 < x < 1/2. ou contínuas. log X. X 2 . Logo.4 Funções de Variáveis Aleatórias Muitas vezes é dada a distribuição de probabilidade que descreve o comportamento de uma variável aleatória X definida no espaço mensurável (Ω. 1 se 0 < x < 1/2. se x ≥ 1/2.4. 1]   0 x FY (x) =  1 e Y = min(X. 1/2). A). Na prática. Fd (x) = 0 se x < 1/2 e Fd (x) = 1/2 se x ≥ 1/2. é pouco provável que surja uma variável aleatória singular.3. Note que se x < 0.4. R Uma variável aleatória que possui apenas partes discreta e absolutamente contínua é conhecida como uma variável aleatória mista. log X. Por exemplo. contínua e singular. Portanto. FY tem apenas um salto em x = 1/2 e p1 = 1/2. Fac (x) = f (t)dt =  −∞ 1/2 se x > 1/2. Logo. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 75 4. contínuas ou mistas. a imagem inversa da função H é fundamental. X pode ser uma mensagem enviada em um canal de telecomunicações e Y ser a mensagem recebida. √ Uma pergunta inicial é: se X é uma variável aleatória X. mas o interesse é na descrição de uma função Y = H(X).  se x < 0.  0 x se 0 ≤ x ≤ 1/2. ou seja. (o que é verdade). a probabilidade Campos & Rêgo . 0 se x ≤ 0 ou x ≥ 1/2. sendo conhecida a distribuição de probabilidade de √ X. quase todas as variáveis aleatórias são discretas. contínua e singular. entretanto. Diferenciando FY . ou uma combinação entre esses dois tipos (mistas). X 2 ou 2X − 3? O problema é determinar P (Y ∈ C). se 0 ≤ x < 1/2. 2X −3 são variáveis aleatórias? Se sim. Como Fd + Fac = FY . O exemplo a seguir mostra como decompor F em suas partes discreta. ∀x ∈ I e não há parte singular.5: Suponha que X ∼ U[0. onde C é um evento Boreliano. Exemplo 4. f (x) = Portanto. x 4. 1981) que toda variável aleatória é uma combinação dos três tipos: discreta.4 Decomposição de uma Variável Aleatória Pode ser visto (James.

o que mostra que a imagem inversa do conjunto mensurável C é o conjunto mensurável B. Note que Y também pode ser vista como uma função do espaço amostral Ω. sendo B = Y −1 (C){x ∈ IR : H(x) ∈ C} então. uma função que satisfaz esta condição é conhecida como mensurável com respeito a B. PY (C) = PH(X) (C) = PX ({x ∈ IR : H(x) ∈ C}) = P ({ω ∈ Ω : H(X(ω)) ∈ C}). Vista dessa maneira Y é uma variável aleatória definida em (Ω. Adicionalmente. A figura abaixo exibe os espaços mensuráveis e as transformações entre eles. Para que esta probabilidade esteja bem definida. PY satisfaz os axiomas K1. (K2) PY (IR) = PX (Y −1 (IR)) = PX (IR) = P (X −1(IR)) = P (Ω) = 1. Y (ω) = H(X(ω)) para todo ω ∈ Ω. B. De forma similar. R é preciso restringir H tal que H −1 (C) seja um evento Boreliano para todo C Boreliano. Y −1 (C) = X −1 (H −1(C)) e como por suposição H −1 (C) é Boreliano porque X é uma variável aleatória. como já mencionado anteriormente. caso contrário não é possível determinar P ({X ∈ H −1 (C)}). onde H −1(C) = {x ∈ I : H(x) ∈ C}. e K5′ porque: (K1) PY (C) = PX (Y −1 (C)) = PX (B) = P (X −1 (B)) = P (A) ≥ 0. PY está bem definida pois Y −1 (C) = B ∈ B. Portanto. e assim.4. Logo. pois para todo Boreliano C. PY ). tem-se que X −1 (H −1(C)) ∈ A e portanto satisfaz a definição de uma variável aleatória. K2. PY (C) = PX (B) = P (A).4. Figura 2 Seja A = {ω ∈ Ω : X(ω) ∈ B}. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 76 do evento {Y ∈ C} será por definição igual a probabilidade do evento {X ∈ H −1 (C)}. a probabilidade induzida pela variável aleatória é tal que PX (B) = P (X −1(B)) = P (A). Campos & Rêgo . onde a medida de probabilidade PY é induzida pela variável aleatória Y = H(X). A). PY (C) = PX (Y −1 (C)). A função H da variável aleatória X define uma variável aleatória no espaço de probabilidade (IR.

.. . H(X). . . . Agrupando os valores que X assume de acordo os valores de suas imagens quando se aplica a função H. os valores de X tal que H(xij ) = yi para todo j.}. . xi2 . y2 . . . discreta. xi3 . suponha que X assume os valores x1 . Então. para todo i = j e Y −1 (Cn ) = Bn . discreta. P (Y = 1) = Consequentemente. . De modo geral. Borelianos tais que Ci ∩ Cj = ∅. . n2 .4. e que H uma função real tal que Y = H(X) assume os valores y1 . . . e as respectivas probabilidades são: RY = {0.1 : X.}) = ∞ j=1 ∞ n=1 (1/2) 2n = ∞ n=1 (1/4)n = 1/4 = 1/3. F . e de gráficos para visualizar as regiões C e B. Admita-se que X tenha os valores possíveis 1. discreta. H(X).4. . RY . . xi3 . FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 77 (K5′ ) Sejam C1 . . Os exemplos a seguir ilustram como calcular a distribuição de probabilidade de uma função de variável aleatória. tem-se que P (Y = yi ) = P (X ∈ {xi1 . Solução: O contradomínio da variável Y . . P (Y = −1) = 1 − P (Y = 1) = 2/3. Exemplo 4. 1 − 1/4 P (X = xij ) = ∞ j=1 pX (xij ). Solução: Então. e suponha que P (X = n) = (1/2)n . discreta. isto é. 1. . C2 . Seja Y = 1 se X for par e Y = −1 se X for ímpar. para calcular a probabilidade do evento {Y = yi}. 4. . Exemplo 4. ou seja.4. PY (∪n Cn ) = PX (Y −1 (∪n Cn )) = PX (∪n Bn ) = n PX (Bn ) PX (Y −1 (Cn ) n = = n PY (Cn ). Ressalta-se a importância fundamental da função de distribuição acumulada. . . ou seja.2: X. x2 . todos os valores xij de X tal que H(xij ) = yi e somam-se as probabilidades de X assumir cada um desses valores.4. 3. . . 2. xi2 . . acha-se o evento equivalente em termos de X. denotando por xi1 . Campos & Rêgo . . . Seja X como no exemplo anterior e H(X) = X 2 . .

3 3 3 Solução: Em termos de eventos equivalentes tem-se que: 1 C1 = {Y = 0} ≡ B1 = {X < }. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS P (Y = 0) = P (X = 0) = p0 . 78 Exemplo 4. se X ≥ 2 .. Seja fX (x) = 2x. P (Y = 1) = P (X = 1) = p1 .3: X.. a densidade de Y está concentrada em {y = H(x) : x ∈ B} = {e−1 < y + 1} e FY (y) = = = = = − ln y P (Y ≤ y) P (e−X ≤ y) P (−X ≤ ln y) P (X ≥ − ln y) 1 2xdx −2 ln y . . 9 2 3 1 3 1 2 P (Y = 1) = P ( < X ≤ ) = 3 3 2 P (Y = 2) = P (X ≥ ) = 3 1 2 3 3 2xdx = .. contínua. se 1 ≤ X < 3 e Y = 2. 3 2 1 C2 = {Y = 1} ≡ B2 = { ≤ X < }. 0 < x < 1 e Y = H(X) 2 definida por Y = 0 se X < 1 ..4. discreta.4: X. H(X). 9 Exemplo 4. H(X). . contínua. y Campos & Rêgo = 1 − (− ln y)2 ⇒ fY (y) = .4.4. P (Y = 4) = P (X = 2) = p2 .4. 1 P (Y = 0) = P (X < ) = 3 1 3 0 1 2xdx = . Portanto. Solução: O evento onde a densidade de X é não nula é B = {0 < X < 1}. Y = 1. 9 5 2xdx = . Seja a densidade de X como no exemplo anterior e Y = H(X) = e−X . 3 3 2 C3 = {Y = 2} ≡ B3 = {X ≥ }. contínua. 3 Logo. P (Y = n2 ) = P (X = n) = pn .

uma Exponencial (que será vista depois) de parâmetro 1. e zero para quaisquer outros valores. tem-se o teorema seguinte.4. y ∈ (e−1 . A ênfase deste exemplo é mostrar o cuidado na busca dos eventos equivalentes. tem-se FY (y) = 0. No caso de X e Y serem contínuas. fY (y) = 0. Se y > 0. y ∈ [1. 0 < y < 1.4. 1). 0 < x < 1. 3 √ y . 1 ≤ y < 4. y . Figura 3 −1 < x < 1 ⇒ 0 < y < 1 1 ≤ x < 2 ⇒ 1 ≤ y < 4. então P (Y ≤ y) = P (− log(X) ≤ y) = P (X ≥ e−y ) = 1 − e−y .6: Seja fX (x) = 1 x2 . Exemplo 4.    y ∈ (0. Y ∼ Exp(1). 4). isto é.4. √ = FX ( y).5: Se fX (x) = 1. −1 < x < 2 e zero para quaisquer outros valores de x. 1). 1). fY (y) = 79 −2 ln y . como pode ser visto na figura abaixo. ou seja.4. FY (y) = = = = P (Y ≤ y) P (X 2 ≤ y) √ √ P (− y ≤ X ≤ y) √ √ √ FX ( y) − FX (− y) + P (X = − y) √ √ FX ( y) − FX (− y). y ∈ (0. y ≤ 0. Portanto. 4). 3 Encontrar a função densidade da variável aleatória Y = X 2 . y 0. y ∈ (e−1 . 6 √ e Então. Campos & Rêgo . FUNÇÕES DE VARIÁVEIS ALEATÓRIAS Logo. qual a distribuição de Y = − log(X)? Solução: Como 0<Y <∞⇔0<X <1 e P (0 < X < 1) = 1. No exemplo a seguir X é contínua e H(X) é contínua. Solução: Portanto. Exemplo 4.

dH −1 (y) −1 fX (H (y))| dy |. Campos & Rêgo . 0. dy dH −1(y) dFX (H −1 (y)) dx ′ = FX (H −1 (y)) . Logo. Mas. y ∈ H(I). se x ∈ I e fX (x) = 0.4.4. se x ∈ I. Logo. crescente ou decrescente em um dado intervalo I. Então H −1 também é decrescente em I. Logo. FY (y) = = = = Logo. (b) H é decrescente em I. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 80 Teorema 4. dy dy dx dy onde x = H −1(y). Y = H(X) tem função densidade de probabilidade dada por: fY (y) = Prova: (a) H é crescente. H −1 a função inversa de H e X uma variável aleatória contínua com função densidade fX (x) > 0. H −1 também é crescente em I. dy Portanto. d dFX (H −1 (y)) dx d FY (y) = FX (H −1 (y)) = . P (Y ≤ y) P (H(X) ≤ y) P (X ≤ H −1 (y)) FX (H −1 (y)).7: Seja H uma função diferenciável. H(I) o contradomínio de H. y ∈ H(I). FY (y) = = = = = P (Y ≤ y) P (H(X) ≤ y) P (X ≥ H −1(y)) 1 − FX (H −1(y)) + P (X = H −1 (y)) 1 − FX (H −1(y)). y ∈ H(I). d ′ FY (y) = FY (y) = fY (y). Então.4. dx dy dy fY (y) = fX (H −1 (y)) dH −1(y) . Portanto.

I2 . de subintervalos tal que H seja crescente ou decrescente −1 em cada um deles. I3 . pelos resultados anteriores. d d d d √ √ √ √ FY (y) = (FX ( y) − FX (− y)) = FX ( y) − FX (− y). dy dy dy dy Mas.4. . Neste caso. seja Hj a função inversa de H restrita ao subintervalo Ij . Logo. FY (y) = P (Y ≤ y) = P (H(X) ≤ y) = −1 j:Hj é crescente −1 P (X ≤ Hj (y)) + −1 j:Hj é decrescente −1 P (X ≥ Hj (y)). dy j Exemplo 4. Logo.4. dy Também pode-se utilizar o método acima em outros casos em que a função H não seja nem crescente nem decrescente em I. Para tanto suponha que I possa ser dividido em uma quantidade enumerável I1 . . √ porque P (X = − y) = 0. y ∈ H(I). Então Solução: FY (y) = P (Y ≤ y) = P (X 2 ≤ y) √ √ = P (− y ≤ X ≤ y) √ √ √ = FX ( y) − FX (− y) + P (X = − y) √ √ = FX ( y) − FX (− y). y ∈ H(I). fY (y) = j −1 fX (Hj (y))| d −1 H (y)|.8: Seja X com densidade fX (x) e Y = X 2 . d FY (y) = fY (y).4. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS Porque P (X = H −1 (y)) = 0 e seguindo o procedimento visto em (a). PX (Ij ∩ Ik ) = 0 e H(Ij ) = H(Ik ) para todo j = k. . Portanto. dy Campos & Rêgo . ′ FY (y) 81 = dH ′ −FX (H −1(y)) −1 (y) dy e assim fY (y) = −fX (H −1 dH −1(y) (y)) .

encontre a função de distribuição acumulada e faça seu gráfico. √ 1 1 √ fY (y) = fX (− y) √ + fX ( y) √ . 0 ≤ x ≤ 1.   1/2. dy dx2 dy √ dFX (− y) √ = fX (− y). Se for. Campos & Rêgo . x ∈ IR. dx1 1 dx1 = √ . fY (y) = √ 1 √ (f ( y) 2 y X 0. −1 ≤ x ≤ 0. y ≥ 0. 1. Portanto. fX (x) =  0. H1 (y) = − y e H2 (y) = y. dx2 1 dx2 =− √ . y ≥ 0. 2 y 2 y 4. +∞). √ + fX (− y)). dy dx1 dy √ dFX ( y) √ = fX ( y). √ (a3) fX (x) = 1/( 2π) exp (−x2 /2). faça seu gráfico. x2 = − y. 1 ≤ x ≤ 2. (a4)  0 ≤ x ≤ 1. EXERCÍCIOS √ dFX ( y) dx1 d √ √ FX ( y) = . 1 − x. 2 ≤ x ≤ 3. fX (x) =  −x/2 + 3/2. verifique se é uma função densidade de probabilidade para uma dada variável aleatória X. (a1) fX (x) = 6x(1 − x).5. poderia ter sudo usado o procedimento descrito anteriormente e particionar IR nos subintervalos I1 = (−∞.   0.5 Exercícios (a) Para cada uma das funções abaixo.  x/2. 0] e I2 = [0. 0 ≤ x ≤ 1. quaisquer outros valores. 82 Alternativamente. y < 0. Note que PX (I1 ∩ I2 ) = 0.4. (a2)   1 + x. dy 2 y √ dFX (− y) dx2 √ √ d FX (− y) = . +∞). quaisquer outros valores. dy 2 y Logo. √ √ −1 −1 H(I1 ) = H(I2 ) = [0. Resolva este exercício usando um software adequado. x1 = y.

(b1) Calcule P (A | B). (b) Calcule as seguintes probabilidades usando a função encontrada no item anterior: (b1) (b2) (b3) (b4) P (X P (X P (X P (X ≤ 3).00 a B e lança três dados honestos. se sair face 1 em dois dados apenas.5} e C = {0. A ganha R$50. EXERCÍCIOS (b) Seja a função de distribuição acumulada da variável aleatória X. (a) Determine a função de distribuição acumulada de X. A ganha R$20. A ganha R$80. Seja uma variável aleatória X. x > 0 e α > 0. 5. a probabilidade do carro parar é p. Determine a distribuição de probabilidade do lucro líquido por jogada. definida como sendo o número de semáforos que o carro passa antes de parar pela primeira vez. quaisquer outros valores. 83 Faça o gráfico de F (·).  0. Uma variável aleatória contínua X tem função densidade fX (x) = αe−αx . Estabeleça a distribuição de probabilidade de X. A paga R$20. (b2) Verifique se A.00. B e C são mutuamente independentes.75}.5}.5 ≤ x < 1.  x < 0. 6. x ≥ 1. Um motorista tem que. Qual é a probabilidade de que a razão do segmento mais curto para o mais longo seja menor que 1/2? 4. 0 ≤ x < 1. √ (2/π) sin−1 ( x). Se sair a face 1 em no máximo um dos dados. 0.4. Determine a função densidade de probabilidade e faça seu gráfico.00 de B. (b) Sejam os eventos A = {X < 0. 2. obrigatoriamente.5. passar em 4 (e somente 4) semafóros para alcançar seu destino. Em um jogo de dados.5. Prove que a expressão encontrada é realmente uma distribuição de probabilidade. α(1 − x). fX (x) =  0. > 2).00. independentemente. FX (x) =  1. B = {X > 0. Uma variável aleatória X tem densidade   αx. Um ponto é escolhido ao acaso sobre uma reta de comprimento L. > −1). se sair face 1 nos três dados. (a) Determine o valor da constante α. Campos & Rêgo .25 < X < 0. fX (·) dada por 0 ≤ x < 0. Em cada um deles. < −1). 3.

se x > 1. retirase uma de cada vez. b) = (−∞. 84 8. Sugestões: (−∞. Encontre ∞ 0 (c) P (a ≤ X < b). (b) Esboçe o gráfico de fX (x). (d) P (a < X < b). x3 . (α é o primeiro quartil da distribuição de X. Qual é a densidade de X? Campos & Rêgo . Seja uma variável aleatória contínua X. (β é a mediana da distribuição de X. a] ∪ (a. fosse definida por FX (x) = P (X < x). a) ∪ {a}.5. (c) Determine FX (x). Uma variável aleatória X tem função distribuição   1. (b) P (a ≤ X ≤ b). (b) Determine a função de distribuição acumulada e esboçe seu gráfico.) 12. FX (x) =  0. Suponha que a função de distribuição acumulada para uma variável aleatória X. 0. se −1 ≤ x ≤ 1. EXERCÍCIOS 7. 11. Seja X uma variável aleatória com densidade fX (x) = cx2 . até retirar-se o primeiro número par. b). ao acaso e sem reposição. a] = (−∞. 9. Exiba um bom modelo probabilístico para este experimento. Suponhamos que dez cartas estejam numeradas de 1 até 10. (c) Ache o valor α tal que FX (α) = 1/4. Mostre que f é uma função densidade.4. Conta-se o número de retiradas necessárias. com função de densidade fX (x) = αe(−λ | x |). (d) Determine m tal que P (X ≤ m) = P (X > m). u ≥ 0.) (d) Ache o valor β tal que FX (β) = 1/2. caso contrário. (−∞. Seja fU (u) = e−u . Usando esta definição determine as seguintes probabilidades: (a) P (X ≤ x). 10. ufU (u)du. com x ∈ IR e α > 0. Das dez cartas. (a) Determine a constante α. se x < 0. se 0 ≤ x ≤ 1. FX (·). (a) Determine o valor da constante c.

75e−x . (e) P (X > 2). 14. (d) P (X ≤ 1). (e) P (X ≥ 0. para 0 < x < 3. (e) P (A1 | A2 ). FX (x) =   (1/4)(x + 1). para uma variável X que tem função de distribuição FX (x) = 1 − 0. Calcule (a) P (X > 2). Sejam A1 = {x | 0 < x < 1} e A2 = {x | 2 < x < 3}. 15.  3/4.5). (f) P (1/2 < X < 5/2). (c) P (A2 ). se 2 ≤ x < 3. Determine o seguinte: (a) P (X = 1/2). onde fX (x) = cx/9. 1].    1. Uma variável X tem função de distribuição   0. 85 x < 0. 0. se 1 ≤ x < 2. Calcule (a) o valor da constante c.4.5. (c) P (X = 0). (b) P (X = 1). EXERCÍCIOS 13. se x ≥ 0. Coloque V ou F nas sentenças abaixo: (a) Uma variável aleatória X só assume valores no intervalo [0. se 0 ≤ x < 1. 16. Seja a probabilidade da variável aleatória X definida por P (A) = A f (x)dx. (d) P (X < 0). (d) P (A1 ∪ A2 ). ( ) Campos & Rêgo . (b) P (X ≤ 0). se x ≥ 3. se x < 0. (b) P (A1 ).   2  x /2. (c) P (X < 1).

Seja T o custo líquido desse experimento. (h) P (X ∈ A) = (i) P (X ∈ A) = A A d F (x). Y =| X |. o experimento é suspenso e o equipamento inspecionado. 17. 24. Uma variável aleatória X tem uma densidade de probabilidade fX (x). ( ) (c) Se X é uma variável aleatória discreta então X não pode ser contínua. então X também é uma variável aleatória discreta. onde fX (x) = 1. A recíproca é que é verdadeira. Determine a densidade de Y = (b − a)X + a. Suponha que o custo do primeiro lançamento seja k dólares. Encontre a função densidade fY (y) do seu módulo. e uma variável aleatória Y relaciona-se com X por Y = 2 − 3X. Encontre sua função densidade fY (y). Encontre a função densidade de probabilidade da variável aleatória Y = aX + b. Se X tem densidade fX (x) = e−|x| /2. Qual a função densidade de probabilidade da variável aleatória Y =| 1 − X |? 22. FX (x)dx. Uma variável aleatória contínua X tem uma densidade de probabilidade fX (x). dx X x −∞ ( ) ( ) ( ) ( ) ( ) ( ) fX (s)ds. Encontre a função distribuição FY (y) da variável aleatória Y . FX (x) = (e) Se X é uma variável aleatória contínua. onde a e b são constantes. fX (x)dx. Sempre que ocorre um lançamento bem sucedido. enquanto os lançamentos subsequentes custam k/3 dólares. a qual pode ser expressa como um ganho financeiro de c dólares.8 de haver um lançamento bem sucedido e que os sucessivos lançamentos sejam independentes.4. qual é a distribuição de Y =| X |? 20. uma certa quantidade de informação é obtida. fX (f ) = (g) limx→+∞ FX (x) = 0. 21. (d) Se X é uma variável aleatória contínua. EXERCÍCIOS 86 (b) Se X é uma variável aleatória contínua. −∞ < x < +∞. Uma variável aleatória X tem uma densidade de probabilidade fX (x). Admita que exista uma probabilidade constante de 0.5. Se isso não ocorrer até 5 tentativas. 23. Campos & Rêgo . se 0 < x < 1 e zero para quaisquer outros valores. Foguetes são lançados até que o primeiro lançamento bem sucedido tenha ocorrido. Estabeleça a distribuição de probabilidade de T . Uma variável aleatória contínua X tem uma densidade de probabilidade fX (x). 18. Considere a variável Y = −X. Uma variável aleatória X tem uma função distribuição FX (x). 19.

Determine a densidade de Y = X 2 . Y = sinal de X =  −1. 28. (c) Se fX (x) = 0 quando x ≤ 0. 0. Seja X uma variável aleatória tal que P (| X − 1 |= 2) = 0. Encontre a função densidade fY (y). (b) Se fX (x) = f (−x). 0 < x < ∞. encontre a distribuição da variável aleatória   +1. Seja X uma variável aleatória contínua com função densidade fX (x). 1) zero fora. Encontre a função distribuição da variável aleatória Y = X 2 . Dada uma variável aleatória contínua X com função densidade fX (x). Seja X tendo função densidade fX (x) = 2xe−x . Encontre a função probabilidade de Y = X 3 . EXERCÍCIOS 87 25. Seja fX (x) = 3 . Seja X tendo função probabilidade fX (x) = x2 /9. se X > 0. 2.5}. −1 ≤ x ≤ 0. (b) Seja o evento A = {x | −0. simplifique a resposta encontrada em (a). Campos & Rêgo . 1 29. Uma variável aleatória Y é relacionada a X por Y = 1 − X 2 . Seja X tendo função probabilidade fX (x) = ( 1 )x .5 ≤ x ≤ 0. 31.5. e zero para quaisquer outros valores. 33. 1). c − x. simplifique a resposta encontrada em (a). para x ∈ (−1. Compute P (A). Uma variável aleatória X tem uma densidade de probabilidade correspondente a reta que passa pelos pontos (−1. 32. ∀x. −1 < x < 2 e zero para quaisquer outros valores de X. 0 ≤ x ≤ 1. 26. 0. 30. Uma variável aleatória X tem densidade fX (x) = 1.4. x = 1. no intervalo (0. (a) Encontre a função densidade de Y = X 2 . se X < 0. 2 (a) Calcule o valor da constante c. 1). 34. Expresse P (| X − 1 |≥ 2) em termos da função de distribuição FX . 0) e (1. Uma variável aleatória X tem função densidade probabilidade definida por:   c + x. Encontre a função distribuição FY (y) e a função densidade fY (y). e zero fora. 27. 0 < x < 3. se X = 0. e zero para quaisquer outros valores. Encontre a função probabilidade de Y = X 3 . fX (x) =  quaisquer outros casos. Uma variável aleatória Y tem um relacionamento funcional monotonicamente crescente com a variável X tal que Y = ϕ(X). · · · e zero para quaisquer 2 outros valores de X.

Campos & Rêgo .4.5). Encontre a distribuição de probabilidade dessa variável. FX . (c) Encontre a função de distribuição acumulada de X. se X for positiva ou nula. e usando a mesma calcule P (X ≤ 0.5. EXERCÍCIOS 88 (d) Suponha que uma variável Y assuma o valor 0 se X for negativa e 1.

Por exemplo. o interesse é na descrição probabilística de mais de um característico numérico de um experimento aleatório. pode-se definir uma probabilidade induzida PX no espaço mensurável (I n . R A função de distribuição acumulada FX satisfaz às seguintes propriedades: Um evento é Boreliano em I n se pertence a menor σ-álgebra que contem todas regiões da seguinte R forma: Bx = {(X1 . . X2 . na distribuição de alturas e pesos de indivíduos de uma certa classe. X −1 (B) ∈ A. tem-se que X −1 (B) = A ∈ A.Capítulo 5 Vetores Aleatórios e Funções 5. é definida por FX (x) = P (Bx ) = P (X1 ≤ x1 . Xn ≤ xn ). .2. . .1: Seja (Ω. 1 ≤ i ≤ n}. Xn ) : Xi ≤ xi . uma maneira básica de descrever a probabilidade induzida PX é utilizando sua função de distribuição acumulada conjunta. Por definição de vetor aleatório.2 Função de Distribuição Acumulada Conjunta Para um vetor aleatório X. P ) um espaço de probabilidade. define-se PX (B) = R −1 P (X (B)).1: A função de distribuição acumulada conjunta de um vetor aleatório X. representada por FX ou simplesmente por F . Definição 5. R Dado um vetor aleatório X. 1 89 . A. . então PX está bem definida. . Bn ) da seguinte maneira: para todo B ∈ Bn . . Uma função X : Ω → IRn é chamada de um vetor aleatório se para todo evento B Boreliano1 de I n . ∀x ∈ I n . 5. . X2 ≤ x2 . Definição 5.1 Introdução Muitas vezes na vida real.1. Para tanto é preciso estender a definição de variável aleatória para o caso multidimensional.

. . Então. Logo. porque tem-se a seguinte contradição: 0 ≤ P (0 < X ≤ 1.. É claro que F1. x2 . 90 (F2) F (x1 . y ≥ 0. quando m → ∞. xn ). . xi → −∞. Xn fazendo xn → ∞. então F (ym . e F3 são satisfeitas. xi ≤ yi ∀i ≤ n ⇒ Bx ⊆ By ⇒ P (Bx ) ≤ P (By ) ⇒ FX (x) ≤ FX (y). Xn fazendo xj → ∞ para j = i é denominada de função de distribuição marginal de Xi .. . . Por exemplo. Xi+1 ≤ xi+1 .. . lim FX (x) = 1. . se ym ↓ x1 . . . a função de distribuição acumulada conjunta de X1 . então FX (x) ≤ FX (y). . (F3b) Se xi → ∞. .Xi−1 . xi →∞ Portanto.. x2 .. 0 < Y ≤ 1) = F0 (1. . FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA CONJUNTA (F1) Se xi ≤ yi . Y ). . e x + y ≥ 1. 1) − F0 (1. Campos & Rêgo .Xn (x1 .2. .2. 0) = 1 − 1 − 1 + 0 = −1 O resultado acima vem de: F0 (1. Exemplo 5. . . Xi−1 ≤ xi−1 . O próximo exemplo mostra que para n ≥ 2 as propriedades F1. . e F0 (x. pode-se escrever lim FX (x) = FX1 . F2. . . xn ) ↓ F (x1 . . . x→∞ A função de distribuição acumulada de Xi que se obtém a partir da função acumulada conjunta de X1 . 0) − F0 (0. (F3a) Se para algum i ≤ n.. 1) + F0 (0. . então Bx cresce monotonicamente para o conjunto {X1 ≤ x1 . Xn−1 pode ser facilmente determinada da função de distribuição acumulada conjunta de X1 . y) = 0. 1) = P (X ≤ 1. xn ) é contínua a direita em cada uma das variáveis. xi →−∞ lim FX (x) = 0.. xi+1 . . . xn ). xi−1 .Xi+1 . pela continuidade monotônica de probabilidade. .5. . . . . . ..2: Seja F0 : I 2 → I uma função definida no plano tal que F0 (x. ou seja a restrição em Xi é removida. . . Xn ≤ xn }. caso contrário. . mas o contrário não é verdadeiro. y) = 1 R R se x ≥ 0. x2 . Em particular. Observe que funções de distribuição acumuladas conjuntas de ordem maiores determinam as de ordem menores. . . ∀i ≤ n. mas F0 não é função de distribuição de nenhum vetor aleatório (X. então Bx decresce monotonicamente para o conjunto vazio ∅. . F2. . . e F3 não são suficientes para que F seja uma função de distribuição. Y ≤ 1).

. . . . . . ∂ n F (x1 . . 0 < Y ≤ 1). Xn ) um vetor aleatório e F sua função de distribuição acumulada conjunta. xn ) = f (x1 . . quando A ⊆ B. . ∀(x1 . . . . . Y ≤ 0) P ({X ≤ 1. ∞ i=1 5. Y ≤ 0}) P (X ≤ 1. p(xi ) = 1. .5) P (X ≤ 1. Y ≤ 1) − P (X ≤ 0. x2 . R . ou seja assumir uma quantidade enumerável de valores {x1 . X é contínuo. . .3) (5. Y ≤ 0) = P (X ≤ 0. . Se existe uma função f (x1 . Y ≤ 1}) − P ({X ≤ 1. define-se uma função de probabilidade de massa conjunta. Xn . Similar ao caso unidimensional. X2 = x2 . . . . (5. 0 < Y ≤ 1). xn ) = −∞ ··· então f é chamada de densidade conjunta das variáveis aleatórias X1 . . F0 (0. . xn ). x2 . xn ) = p(xi ) tal que p(xi ) ≥ 0. xn ) ≥ 0 tal que xn x1 F (x1 . P (X1 = x1 . . }. . . Y ≤ 1). . . Y ≤ 1) − P (X ≤ 1. . . . 0) = = = = A fórmula 5. F0 (0. 0) = P (X ≤ 0.2. ∂x1 . . . . Xn = xn ) = p(x1 . Y ≤ 0). tn )dt1 . 5. . 1) − F0 (0. . 0) = P (X ≤ 1. dtn . .2. 1) − F0 (1. . . 0 < Y ≤ 1) = P (0 < X ≤ 1.1) (5. 0 < Y ≤ 1). de 5. e neste caso. . Logo.2 Vetor Aleatório Contínuo Seja X = (X1 . De forma similar Por fim. . ou sua distribuição de probabilidade conjunta p. Y ≤ 1} − {X ≤ 1.4 e 5.4) F0 (1. δxn Campos & Rêgo −∞ f (t1 . Y ≤ 0). FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA CONJUNTA F0 (1. (5. . .2.1 Vetor Aleatório Discreto Se X for um vetor aleatório discreto. . 0 < Y ≤ 1) − P (X ≤ 0.2) (5.4 decorre de P (B − A) = P (B) − P (A). .5. . 91 F0 (0. xn ) ∈ I n . Y ≤ 0}) P ({X ≤ 1. .5. . . 0) = P (X ≤ 0. P (X ≤ 1. 1) = P (X ≤ 0.

Então. A seguir será visto como calcular probabilidades condicionais envolvendo variáveis aleatórias. . .Y).3. dxi−1 dxi+1 . . P (Y = yj ) pY (yj ) (5. xi+1 . dxn .5. .3. . . xi−1 . . P (X = x | Y = yj ). .6) O leitor pode fazer uma analogia com a definição de probabilidade condicional vista anteriormente. DISTRIBUIÇÕES MARGINAIS E CONDICIONAIS 92 5.3 Distribuições Marginais e Condicionais Definição 5. . Definição 5. .3 : Sejam X e Y variáveis aleatórias com distribuição de probabilidade conjunta P (X = xi . xn )dx1 . (ii) P (X ∈ IR | Y = yj ) = P (X ∈ IR. Y = yj }) = P (Y = yj ) ∞ i=1 P (X = xi . . .6 é uma probabilidade: (i) P (X = xi | Y = yj ) ≥ 0. Y = yj ) = P (Y = yj ) ∞ i=1 = P (X = xi | Y = yj ). = P (Y = yj ) (iii) P (∪∞ {X = xi } | Y = yj ) = i=1 P ((∪∞ {X = xi }) ∩ {Y = yj }) i=1 P (Y = yj ) ∞ P (∪i=1 ({X = xi } ∩ {Y = yj })) = P (Y = yj ) ∞ P (∪i=1 {X = xi . xi−1 . . a distribuição condicional de X dada Y = yj . yj ). Y = yj ) p(xi .3. . Campos & Rêgo .1: A função probabilidade de massa marginal ou a distribuição de probabilidade marginal de Xi é pXi (xi ) = x1 ··· xi−1 xi+1 ··· p(x1 . xn ). porque é quociente de probabilidades. xi+1 . Facilmente observa-se que 5. . pY (yj ) > 0. j) pertencente ao contradomínio de (X. . yj ) = = pX|Y (xi |yj ). Y = yj ) = p(xi . . é P (X = xi | Y = yj ) = P (X = xi . (i. Y = yj ) P (Y = yj ) P (Y = yj ) = 1. . . xn Definição 5. .3.2: A densidade marginal de Xi é fXi (xi ) = ∞ −∞ ··· ∞ −∞ f (x1 .

y)dx = δf (y) x −∞ f (x. Y ) possui densidade conjunta f (x. como uma densidade é a derivada da distribuição acumulada. suponha que exista um intervalo I de comprimento δ contendo y em seu interior.4: A densidade condicional de X dada Y = y é: f (x | y) = f (x. Assumindo que (X. para algum intervalo contendo y. Por exemplo. A expressão acima é uma densidade pois: (i) f (x | y) ≥ 0. fY (y) 0. f (y) Desta forma. será utilizado um argumento de limites. P (Y ∈ I) esta probabilidade está bem definida desde que P (Y ∈ I) > 0. FX|Y (x|y).5. ∀(x. y) dx. a definição da probabilidade P (X ≤ x|Y = y) pode ser arbitrária.6 torna necessária a adição de um conceito novo na definição das probabilidades condicionais. y). fixo. onde Y é uma variável contínua.3. então {Y = y} significa que o peso está fixo e P (X ≤ x|Y = y) implica em mensurar todas as alturas menores ou iguais a x para o peso fixo em y. Suponha que o objetivo seja definir P (X ≤ x|Y = y).3. Deste modo. Y = yj ) . Desta forma.y) . y)dydx f (y)dy . P (X = xi ) 93 Quando as variáveis aleatórias X e Y são contínuas. δf (x. Definição 5. X poderia ser alturas de indivíduos e Y seus respectivos pesos. P (X ≤ x|Y = y) = lim δ→0 x −∞ x −∞ y∈I y∈I f (x. y) ∈ IR2 . ∀y em 5. Y ∈ I) = lim P (X ≤ x|Y = y) = lim δ→0 δ→0 P (Y ∈ I) Supondo f (x. DISTRIBUIÇÕES MARGINAIS E CONDICIONAIS Analogamente. o fato de P (Y = y) = 0. pode-se definir P (X ≤ x|Y = y) como sendo o limite P (X ≤ x|Y ∈ I) quando δ tende a zero. y) contínua na região em que y ∈ I. tem-se: P (X ≤ x. então. e fY (y) > 0. y. pois tal valor y nunca ocorrerá. P (X ≤ x|Y = y) pode ser aproximada por P (X ≤ x|Y ∈ I) = P (X ≤ x. Para resolver este caso. definindo P (X ≤ x|Y = y) como a função de distribuição acumulada condicional de X dado Y = y. Caso P (Y ∈ I) = 0. y) porque é quociente de densidades. (x. Esta aproximação será tão melhor quanto menor for δ. Campos & Rêgo . quaisquer outros valores. Y ∈ I) . P (Y = yj | X = xi ) = P (X = xi .

5. caso contrário. se 0 ≤ x ≤ 1. quaisquer outros valores. ∞ 0 f (x. x. 0 ≤ y ≤ 1.3. 2 0 Logo. as densidades condicionais são: fY (y) = f (x|y) = f (y|x) = Exemplo 5. fixo.y) . (x. caso contrário. se 0 ≤ x ≤ 1. y) = Solução: Obtendo as densidades marginais. se y ≥ 0. 0 ≤ y ≤ 1. 2 1 (x + y)dx = y + . DISTRIBUIÇÕES MARGINAIS E CONDICIONAIS (ii) +∞ −∞ +∞ 94 f (x | y)dx = = +∞ 1 f (x. x+ 1 2 Determine as densidades condicionais de X dada Y e de Y dada X e−(x+y) . f (y | x) = Exemplo 5. fX (x) 0. y) ∈ IR2 . 0. y) = Solução: Obtendo as densidades marginais. e fX (x) > 0. y ≥ 0. 0 ≤ y ≤ 1. 1 fX (x) = 0 1 1 (x + y)dy = x + . y+1 2 x+y . fY (y) −∞ f (x. se 0 ≤ x ≤ 1.3. Campos & Rêgo ∞ . e−(x+y) dx = e−y . y)dx fY (y) De forma similar. f (x.6 : quando x+y . y)dx fY (y) −∞ fY (y) = = 1. se 0 ≤ y ≤ 1. se x ≥ 0. 0 ≤ x ≤ 1. fX (x) = fY (y) = 0 e−(x+y) dy = e−x .3. Determine as densidades condicionais de X dada Y e de Y dada X x + y.5 : quando f (x. 0. x ≥ 0.

n fX (x) = i=1 fXi (xi ). . . Campos & Rêgo .4. . . xn ). Xn } é mutuamente independente se. A.. . . . as densidades marginais são: f (x|y) = e−x .. por exemplo. [X1 < 5]. . para quaisquer eventos Borelianos B1 . . Xn ≤ xn ) n n = i=1 P (Xi ≤ xi ) = i=1 FXi (xi ).4. . . R Prova: (i) Se {X1 . n P (X1 ∈ B1 . se x ≥ 0. . . . (iii) Se X for um vetor aleatório contínuo. Formalmente. . . . . . então FX1 . e [0 < X5 ≤ 3] são independentes. ∀(x1 . se x ≥ 0. . xn ) = P (X1 ≤ x1 . 95 5. Definição 5. . (ii) Se X for um vetor aleatório discreto. Informalmente. . Xn } de variáveis aleatórias é mutuamente independente: (i) FX (x) = n i=1 FXi (xi ). Teorema 5. . e somente se. .5. A prova da suficiência foge ao escopo do livro. as variáveis aleatórias Xi ’s são independentes se. y ≥ 0. . .2 : As seguintes condições são necessárias e suficientes para testar se um conjunto {X1 . ∀(x1 . X2 . O próximo teorema estabelece três critérios para provar que um conjunto de variáveis aleatórias é mutuamente independente. Xn variáveis aleatórias definidas no mesmo espaço de probabilidade (Ω. . f (y|x) = e−y . e somente se. . . Bn . . .1: Um conjunto de variáveis aleatórias {X1 . x2 . .. Xn } são variáveis aleatórias mutuamente independentes. n pX (x) = i=1 pXi (xi ).X2 . [X2 > 9]. INDEPENDÊNCIA ENTRE VARIÁVEIS ALEATÓRIAS Logo. . xn ) ∈ I n .4 Independência entre Variáveis Aleatórias Sejam X1 . P ). .Xn (x1 . . .. . Xn ∈ Bn ) = i=1 P (Xi ∈ Bi ). .4. y ≥ 0. quaisquer eventos determinados por qualquer grupo de variáveis aleatórias distintas são independentes. . .

. . xi2 ..2). . Xn = xni ) i:xni ∈Bn pX1 . . (iii) Consequência direta de (a) e da definição de função densidade. 2−2x fX (x) = 0 2−y 2 15x2 ydy = 30x2 (1 − x2 ). as variáveis aleatórias não são independentes. . . xni ) i:xni ∈Bn n = i:x1i ∈B1 n pXj (xji ) i:xni ∈Bn j=1 = j=1 P (Xj ∈ Bj ). y) = fX (x)fY (y). . . se 0 ≤ x ≤ 1. . então pX1 .X2 . Xn } são variáveis aleatórias mutuamente independentes. . . . Campos & Rêgo . . . . . . Xn = xn ) n n 96 = i=1 P (Xi = xi ) = i=1 pXi (xi ). x2 . . Exemplo 5. ou seja. .. 5y(2 − y)3 15x ydx = .4.. INDEPENDÊNCIA ENTRE VARIÁVEIS ALEATÓRIAS (ii) Se {X1 . 8 2 fY (y) = 0 Como f (x... ∀(x1 . então P (X1 ∈ B1 . . P (X ∈ A|Y ∈ B) = P (X ∈ A). .5. xn ) = P (X1 = x1 . y) = 15x2 y definida no triângulo (0.} são os possíveis valores assumidos pela variável aleatória Xi . (1. . . .. ..3: Uma variável aleatória contínua tem função densidade conjunta f (x. . . . se a função de probabilidade de massa conjunta fatora e se {xi1 . Determine as densidades marginais e verifique se X e Y são independentes.0) e (0.0). X2 ∈ B2 . . . então para todo A e B boreliano tal que P (Y ∈ B) > 0. . se X e Y são independentes o conhecimento do valor de Y não altera a descrição probabilística de X. É fácil observar utilizando a definição de probabilidade condicional que se X e Y são independentes.Xn (x1 . . Xn ∈ Bn ) = = i:x1i ∈B1 i:x1i ∈B1 ··· ··· ··· P (X1 = x1i . .4. xin . . se 0 ≤ y ≤ 2. Solução: Obtendo as densidades marginais. Reciprocamente.Xn (x1i . . xn )..

FUNÇÕES DE VETORES ALEATÓRIOS 97 5. xi3 . Y ) ∈ Bz ) = Bz f (x. y)dxdy. Y ) ≤ z) = P ((X.5 Funções de Vetores Aleatórios O objetivo nesta seção é. produto e quociente de X e Y . O que será feito a seguir é como usar este resultado para encontrar a distribuição da soma. . . Y ) e Z = H(X. A. para vetores bidimensionais. xi2 . respectivamente. onde Bz ⊆ IR2 . isto é. acha-se o evento equivalente em termos de X. encontrar a distribuição de probabilidade de Z = H(X. Quando necessário. xi3 . quando não. RX e RY . Y ) onde X e Y são variáveis aleatórias definidas no mesmo espaço de probabilidade (Ω. xi2 . fixado z. Bz é um elemento da σ-álgebra de Borel sobre IR2 . os valores de X tal que H(xij ) = yi para todo j. todos os valores xij de X tal que H(xij ) = yi e somam-se as probabilidades de X assumir cada um desses valores. Y ) são contínuos. . para calcular a probabilidade do evento {Y = yi}. Bz = {(x. g(·) = fZ (·). P (Y = yi ) = P (X ∈ {xi1 . a solução geral do problema é: FZ (z) = P (Z ≤ z) = P (H(X.}) = ∞ j=1 P (X = xij ) = ∞ j=1 pX (xij ). Campos & Rêgo . Se Y = H(X) e sendo xi1 . os resultados serão mostrados para vetores n-dimensionais. g é a densidade de Z. Y ) sendo H uma função real tal que seu domínio contém os contradomínios de X e Y . ou seja. y) : H(x. Bz ∈ B2 . .5. isto é. P ). considerando o vetor aleatório (X. y)dxdy = Bz −∞ g(v)dv então. Considere primeiro o caso em que X é um vetor aleatório discreto. Seja agora o caso em que (X. Então.5. fZ (·). y) ≤ z}. . Se for possível obter uma função g ≥ 0 tal que z f (x. Já é um bom começo entender o procedimento para n = 2. isto é. .

y) : −∞ < x < +∞. tem figura aqui Figura A FZ (z) = Bz +∞ f (x.5. Bz = {(x. (5. Se X e Y forem independentes e não-negativas 5. −∞ < z < +∞. v − x)dv)dx f (x. −∞ < v ≤ z < +∞ e portanto v varia de −∞ a z. y)dy)dx. Campos & Rêgo .5.1 Distribuição de Z = X + Y Seja Z = X + Y e z fixo.5. (5.8) De 5. −∞ < z < +∞. y) : x + y ≤ z} = {(x. −∞ < y ≤ z − x}. Como y ≤ z − x então v − x ≤ z − x ⇒ v ≤ z. z − x)dx. = −∞ ( −∞ Logo. Assim. Logo.7 torna-se +∞ fX+Y (z) = −∞ fX (x)fY (z − x)dx. Fazendo uma mudança de variável na integral interna: y = v − x ⇒ dy = dv.8 tem-se que a densidade da soma de duas variáveis aleatórias independentes é a convolução das densidades marginais. +∞ z FZ (z) = −∞ z ( −∞ +∞ f (x. z > 0. FUNÇÕES DE VETORES ALEATÓRIOS 98 5. +∞ fX+Y (z) = −∞ f (x. v − x)dx)dv.7 torna-se z fX+Y (z) = 0 fX (x)fY (z − x)dx.7) Se X e Y forem independentes 5. Então. y)dxdy z−x = −∞ ( −∞ f (x.

2 − s. FUNÇÕES DE VETORES ALEATÓRIOS 99 Exemplo 5. fX (x)fY (s − x)dx. Solução: Exemplo 5.2: Sejam X e Y com densidade conjunta dada por Encontre a densidade de V = X + Y . x ≥ 0. t ≥ 0. t < 0.1: Suponha que X e Y têm densidade valendo 1 no intervalo [0.5. Logo. Solução: Campos & Rêgo te−t .5. y ≥ 0. 0 ≤ y ≤ 1. 0 ≤ x ≤ 1 fY (y) = 1. Figura H da prova (a) s − 1 ≤ 0 ∧ 0 ≤ s ≤ 1 ⇒ 0 ≤ s ≤ 1.3: Se as variáveis aleatórias X1 e X2 são independentes e identicamente distribuídas com a densidade f (t) = encontre a densidade de S = X1 + X2 . 0 ≤ s ≤ 1. tem figura aqui. Solução: Do problema sabe-se que e fX (x) = 1.  s. s − 1 ≤ x ≤ 1. 0 ≤ x ≤ 1 ∧ 0 ≤ s − x ≤ 1.1] e que são independentes. y) = exp−(x+y) . f (x.5. 0 ≤ x ≤ 1. Em (a) tem-se que 0 ≤ x ≤ s e em (b). fS (s) = Como 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1 então A Figura H ilustra as situações possíveis para s. . 0 ≤ y ≤ 1. 1 ≤ s ≤ 2.5. fS (s) = s−1 dx = 2 − s. s fS (s) = 0 1 dx = s. Logo. (b) 0 < s − 1 < 1 ∧ s ≥ 1 ⇒ 0 < s ≤ 2 ∧ s ≥ 1 ⇒ 1 ≤ s ≤ 2. Seja S = X + Y .5.  0 ≤ s ≤ 1. 1 ≤ s ≤ 2. quaisquer outros valores. fS (s) =  0. Exemplo 5. Encontrar a densidade de S = X + Y . Concluindo. 0.

)dx)dv x −∞ −∞ x z +∞ v 1 ( | | f (x. FUNÇÕES DE VETORES ALEATÓRIOS 100 5. Y ) = XY . Bz = {(x. H(X. Fixando z. x x z v ≤ ⇒ v ≤ z ⇒ −∞ < v ≤ z. y) : xy ≤ z}. ) dv)dx x x x x −∞ z 0 −∞ 0 z 0 z 1 v v 1 ( (− )f (x. )dv)dx ( x x x −∞ −∞ −∞ −∞ x +∞ z v 1 ( | | f (x. ) dv)dx + ( f (x. xy ≤ z ⇒ y ≤ Logo.5. y)dy)dx + 0 ( z x f (x. Seja Z = XY . x x Logo. v z ≥ ⇒ v ≥ z ⇒ z ≤ v < +∞. )dx)dv. xy ≤ z ⇒ y ≥ . )dv)dx + f (x. y) : −∞ < x < 0 ∧ y ≥ tem 2 figuras aqui Figuras B Então z z } ∪ {(x. −∞ Fazendo uma mudança de variável na integral interna: y= 1 v ⇒ dy = dv. x x > 0. x x −∞ −∞ 0 −∞ FZ (z) = = = = ( Campos & Rêgo . +∞ z v 1 v 1 f (x. isto é. y)dy)dx. x z x < 0. x x FZ (z) = Bz 0 f (x.5.2 Distribuição de Z = XY Bz = {(x. x x Substituindo o valor de y em B1 e B2 .5. y) : 0 < x < +∞ ∧ y ≤ } = B1 ∪ B2 . y)dxdy +∞ +∞ = −∞ ( z x f (x. então Se z .

5.5. FUNÇÕES DE VETORES ALEATÓRIOS Portanto,
+∞

101

fXY (z) =
−∞

|

z 1 | f (x, )dx, −∞ < z < +∞. x x

(5.9)

Se X e Y forem independentes, de 5.9 tem-se
+∞

fXY (z) =
−∞

|

1 z | fX (x)fY ( )dx, −∞ < z < +∞. x x
+∞

Se X e Y forem independentes e não-negativas, fXY (z) =
0

z 1 fX (x)fY ( )dx, z > 0. x x

Exemplo 5.5.4: Z = XY . Solução:

Seja f (x, y) = 1, 0 ≤ x ≤ 1, 0 ≤ y ≤ 1. Determinar a densidade de

5.5.3
Seja Z =

Distribuição de Z =
Y X

Y X

e z fixo. Logo Bz = {(x, y) : y ≤ z}. x

Se, x > 0, y ≤ z ⇒ y ≤ xz, x y x < 0, ≤ z ⇒ y ≥ xz. x

Portanto, Bz = {(x, y) : −∞ < x < 0 ∧ y ≥ xz} ∪ {(x, y) : 0 < x < +∞ ∧ y ≤ xz} = B1 ∪ B2 . tem 2 figuras aqui Figura C Então,

Fz (z) =
Bz 0

f (x, y)dxdy
+∞ +∞ xz

=
−∞

(
xz

f (x, y)dy)dx +
0

(
−∞

f (x, y)dy)dx.

Fazendo uma mudança de variáveis na integral mais interna e substituindo no valor de y em Bz tem-se: Campos & Rêgo

5.5. FUNÇÕES DE VETORES ALEATÓRIOS

102

e

y = xv ⇒ dy = xdv xv ≥ xz ⇒ v ≥ z ⇒ z ≤ v < +∞,

Assim,
0

xv ≤ xz ⇒ v ≤ z ⇒ −∞ < v ≤ z.
−∞ z z +∞ z

FZ (z) =
−∞ 0

( (

xf (x, xv)dv)dx +
0

(
+∞ −∞

xf (x, xv)dv)dx
z

= =
−∞ z

(−x)f (x, xv)dv)dx +
0

(
−∞

xf (x, xv)dv)dx

−∞ −∞ +∞ z

(
−∞ +∞

| x | f (x, xv)dv)dx | x | f (x, xv)dx)dv

=
−∞

(
−∞

Logo,
+∞

f Y (z) =
X

Se X e Y forem independentes,
+∞

−∞

| x | f (x, xz)dx, −∞ < z < +∞.

f Y (z) =
X

Se X e Y forem independentes e não-negativas,
+∞

−∞

| x | fX (x)fY (xz)dx, −∞ < z < +∞.

f Y (z) =
X

xfX (x)fY (xz)dx, z > 0.
0

Exemplo 5.5.5: Sejam X e Y com densidade conjunta dada por f (x, y) = exp−(x+y) , x ≥ 0, y ≥ 0. Encontre a densidade de U = X/Y . Solução: Exemplo 5.5.6: Duas pessoas marcam um encontro em determinado lugar entre 12:00 e 13:00. Cada uma chega, na hora marcada, ao encontro independentemente e com uma densidade constante. Ficou acertado entre ambas que nenhuma delas esperará mais do que 15 minutos pela outra. Determinar a probabilidade de se encontrarem. Solução: Este problema será resolvido de três formas distintas. A figura a seguir ilustra a região de encontro, E, de ambas. tem figura aqui Figura D Campos & Rêgo

5.5. FUNÇÕES DE VETORES ALEATÓRIOS 1. Usando probabilidade geométrica.

103

O quadrado de vértices (0,0), (0,1), (1,0) e (1,1) tem lado 1, consequentemente área 7 S = 1. A região do encontro tem área 1 − ( 3 )2 = 16 . Logo, a probabilidade de que 4 7 ambas se encontrem é 16 . 2. Usando densidade conjunta. Sejam X e Y , respectivamente, os tempos de chegadas das duas pessoas. De acordo com os dados do problema, como entre 12:00 e 13:00 tem-se uma hora, X ∼ U(0, 1) e Y ∼ U(0, 1). Como X e Y são independentes, f (x, y) = fX (x)fY (y) = tem figura aqui Figura E A probabilidade de se encontrarem em E é dada por: 1, 0 < x < 1, 0 < y < 1, 0, quaisquer outros valores.

P (E) =
E

f (x, y)dxdy f (x, y)dxdy +
R1 R2

= Portanto,

f (x, y)dxdy +
R3

f (x, y)dxdy.

1 4

x+ 1 4

f (x, y)dxdy =
R1 0
3 4

(
0 x+ 1 4

dy)dx = dy)dx =
1 x− 4

3 , 32 4 , 16 3 . 32

f (x, y)dxdy =
R2
1 4

(
1 1

f (x, y)dxdy =
R1
3 4

(
x− 1 4

dy)dx =

Logo, P (E) = 4 3 7 3 + + = . 32 16 32 16 Campos & Rêgo

10) (b) 0 ≤ z ≤ 1 ∧ ≤ z + 1 ⇒ 0 ≤ z ≤ 1 ∧ z ≥ 0 ⇒ 0 ≤ z ≤ 1. FUNÇÕES DE VETORES ALEATÓRIOS 3. 104 Como visto anteriormente no exemplo 5.5. é fácil supor que fZ (z) = pois z = x − y ⇒ y = x − z. −1 ≤ z ≤ 0. fX (x)fY (x − z)dx De acordo com os dados do problema.11) (5.5. −1 ≤ z ≤ 0. 1) é fS (s) = −∞ fX (x)fY (s − x)dx. 1dx = 1 − z. 1) e Y ∼ U(0. 0 ≤ z ≤ 1.11 tem-se as seguintes situações: tem figura aqui Figura F (a) z ≤ 0 ∧ 0 ≤ z + 1 ≤ 1 ⇒ z ≤ 0 ∧ −1 ≤ z ≤ 0 ⇒ −1 ≤ z ≤ 0. Em (a) x toma valores entre 0 e z + 1. z+1 fZ (z) = 0 1 1dx = 1 + z. 1 − z. Usando função de vetor aleatório. Campos & Rêgo . 4 assim. a distribuição de interesse é em Z = X − Y. De 5. o integrando será não nulo quando 0 ≤ x ≤ 1 ∧ 0 ≤ x − z ≤ 1. 0 < z ≤ 1. z fZ (z) = Portanto. a densidade de S = X + Y .5.10 tem-se que 0≤x≤1 ∧ z ≤x≤z+1 A partir de 5.   1 + z. O problema proposto consiste em calcular 1 P (| X − Y |≤ ). (5. em (b) x varia de z a 1. fZ (z) =  0. quaisquer outros valores. Por simetria.1. quando +∞ X ∼ U(0. Logo.

xn ). y1 = f1 (x1 . O conceito de Jacobiano será usado para resolver o seguinte exemplo da soma de duas variáveis aleatórias. . xn ). Portanto. f e as derivadas parcias que aparecem na matriz Jacobiana forem funções contínuas em G0 . . . para qualquer função g integrável em A ⊆ G. y) : x + y ≤ z}. . .4 Jacobiano de uma Função Os resultados vistos anteriormente sobre a distribuição da soma. 16 1 −4 (1 + z)dz + 0 (1 − z)dz 5. Exemplo 5. xn . FZ (z) = P (Z ≤ z) = P (X + Y ≤ z) = P ((X. FUNÇÕES DE VETORES ALEATÓRIOS É fácil ver 1 −1 105 fZ (z)dz = 1. xn ))|J|dx1 · · · dxn .. e o Jacobiano for diferente de zero para todo x ∈ G0 ··· A ··· .5.. Pode-se provar que o módulo do Jacobiano dá a razão entre volumes n-dimensionais em y e x quando a maior dimensão ∆xi tende a zero. . como a seguir. yn )dy1 · · · dyn = ··· f −1 (A) g(f1(x1 .. . . . ··· ∂y1 ∂xn . Dado um conjunto de n equações em n variáveis x1 ..  ∂y1 ∂x1 ∂yn ∂x1 O determinante de J é chamado de Jacobiano.. y) e seja Z = X + Y . onde Bz = {(x. existe um teorema do cálculo REFER que afirma que se f : G0 → G for uma bijeção entre G0 e G. . Y ) tenha densidade conjunta f (x. . −∞ −∞ Campos & Rêgo . o módulo do Jacobiano aparece nas mudanças de variáves de integração em integrais múltiplas.5. . ou seja..7: Suponha que (X. . y)dxdy. . A probabilidade pedida é: 1 1 1 P (| X − Y |≤ ) = P (− ≤ Z ≤ ) 4 4 4 0 1 4 = = 7 . .5. .. .. J = . FZ (z) = ∞ z−y f (x. fn (x1 . . .. a matriz Jacobiana é definida por  . . ... ..5. xn ).. Y ) ∈ Bz ). Deste modo. Neste caso. . produto e quociente de variáveis aleatórias também poderiam ter sido obtidos via Jacobiano de uma função. yn = fn (x1 . . ∂yn ∂xn    g(y1.

ou seja. fY (y1 . . APRENDENDO UM POUCO MAIS. Se as derivadas parciais de H −1 existirem e o Jacobiano J de H −1 for diferente de zero para todo y ∈ G. yn ))|J|dy1 · · · dyn . Portanto. se y ∈ G. z − s)ds. . . . que tem jacobiano igual a 1.5. Hn (y1 . .6. Hn (y1 . . R P (Y ∈ B) = P (Y ∈ B ∩G) = ··· B∩G −1 −1 f (H1 (y1 . . Em alguns casos pode ser útil obter 1 J a partir do Jacobiano J ′ da função H através da relação J = J ′ |x=H −1 (y) . . B Boreliano. xn )dx1 · · · dxn −1 −1 f (H1 (y1 . Suponha ainda que f é a densidade conjunta de X e que P (X ∈ G0 ) = 1. 0. . . . yn ). . . Suponha que G0 ⊆ I n . . . . . . t)dtds. . . . −1 −1 f (H1 (y1 . Hn (y1 . para todo Boreliano B no I n . . yn ). . . . e que H : G0 → G seja uma R R bijeção entre G0 e G. . . e zero no caso contrário. . .. fZ (z) = ∞ −∞ f (z − t. yn ) = Observações (i) Note que J é o Jacobiano da função inversa H −1. t)dt é a densidade da soma Z = X + Y . Como P (Y ∈ G) = P (X ∈ H −1 (G)) = P (X ∈ G0 ) = 1. . . . Campos & Rêgo . . f (s − t.6 Aprendendo um pouco mais. . então. . yn ))|J|. tem-se P (Y ∈ B) = P (X ∈ H −1 (B)) = = ··· B ··· H −1 (B) f (x1 . . . . ∞ −∞ ∞ −∞ z −∞ z 106 f (s − t. de modo que X = H −1(Y ). yn ). onde foi feita a troca de variáveis s = z − t para obter a última expressão. . .. yn ))|J| para y ∈ G. . yn ))|J|dy1 · · · dyn . . Esta última integral é igual a integral sobre o conjunto B da função que toma o valor −1 −1 f (H1 (y1.. Logo. . caso contrário. . . existe a função inversa H −1 em G. . O método do Jacobiano é descrito a seguir para funções mais gerais H. Fazendo a mudança de variáveis s = x + y. yn ). t)dt = ∞ −∞ f (s. . . tem-se FZ (z) = Logo.. utiliza-se o teorema da mudança de variáveis e obter que para B ⊆ G. Hn (y1 . 5. . . . . . . t)dsdt = ∞ −∞ −∞ f (s − t. pela definição de densidade. . . t = y. G ⊆ I n sejam regiões abertas.

Suponha que para todo l. . . onde P ((X1 . Gk sejam disjuntas e P (X ∈ ∪k Gi ) = 1. ′ utilizar o método do Jacobiano para determinar a densidade conjunta de Y . Ym . Pode-se provar que fY (y1 . .. Finalmente. X1 ) possua uma função inversa diferenciável. sejam G0 e Gz regiões abertas do I n . . . . seja um correspondência 1-1 entre Gl e G.6.1 Extensão do Método Jacobiano para o Cálculo de Densidades de Funções de Vetores Aleatórios Quaisquer A extensão supõe apenas que existe pelo menos uma variável no vetor X que é absolutamente contínua dado os valores das demais variáveis em X. Para tanto. . tais que a função H|Gl . (X1 . Ym e. . . X2 tem densidade conjunta dada por f (x. Y1′ . Xn ) dado o vetor aleatório Z = (Z1 . Definindo uma nova variável Y2 = X1 de modo que a 2 função (Y1 . . se y ∈ G. fY1 . e g : G0 × {z} → R R z G × {z} uma função bijetiva. Deste modo. . . Y1 − Y22 ). y) e que 2 o objetivo seja a distribuição de Y1 = X1 + X2 . Y2) = H(X1 . Para a utilização do método do jacobiano. 5. . . ela não possui inversa. yn ))|Jl |. . . . . APRENDENDO UM POUCO MAIS. Gk sejam subregiões abertas do I n tais que R G1 . X2 ) = H −1 (Y1 . . finalmente. . Considere o seguinte exemplo: Exemplo 5. .1: Suponha que X1 . . yn ) = k −1 l=1 f (H|Gl (y1 . foi necessário assumir que o vetor X possuía densidade conjunta. a função inversa de H|Gl satisfça as hipóteses do caso anterior.6. Y2 ) = (Y2 . para encontrar fY1 integra-se sobre todos os possíveis valores da variável Y2 introduzida: ∞ −∞ fY1 (y1 ) = 2 f (y2. . e seja Jl o Jacobiano da inversa de H|Gl . suponha que G. a restrição i=1 de H a Gl . 0. . obter a densidade marginal conjunta de Y . Como esta não é uma transformação 1-1. . Na próxima seção será visto como estender este método para um caso mais geral. Zm ).. . . y2) = f (y2 . . . X2 ) = (X1 + X2 . .5. . . . . . k. y1 − y2 )dy2 . Xn ) ∈ G0 |Z = Campos & Rêgo . Para um dado vetor z ∈ I m .Y2 (y1 . 107 (ii) Para obter a distribuição de Y = H(X) quando a dimensão de Y é menor que a ′ dimensão de X muitas vezes é possível definir outras variáveis aleatórias Y1′ . para l = 1. caso contrário. . y1 − y2 ). . (iii) Pode-se utilizar o método do Jacobiano em outros casos em que a função H não é 1-1. G1 . J = det ∂x1 ∂y1 ∂x2 ∂y1 ∂x1 ∂y2 ∂x2 ∂y2 = 0 1 1 −2y2 = −1 2 Então.6. . . . Seja fX|Z a densidade condicional conjunta do vetor aleatório X = (X1 .

. pela definição de densidade condicional: Campos & Rêgo . . Y |Z = z) seja diferente de zero para todo Y ∈ Gz . . zm ) = . z)|z)|J(x. . . . Yi = gi (X1 . j ∈ {1. . tem-se que para todo boreliano B no I n . z1 . . 108 z) = 1. . . . xi = hi (y. ∂Yj ∂Yj para i. . Yn . . . Portanto. . . . . .6. Xn = hn (Y1 . Yn . . o qual pode ter partes discreta. ··· B Como P (Y ∈ Gz |Z = z) = P (X ∈ h(Gz × {z})|Z = z) = P (X ∈ G0 |Z = z) = 1. . . . Define-se o jacobiano condicional dado Z = z como J(X. Zm ). . . . . . . y|Z = z)|dy1 · · · dyn . xn ) : para algum y ∈ B. . R P (Y ∈ B|Z = z) = P (Y ∈ B ∩ Gz |Z = z) = ··· B∩Gz fX|Z (h1 (y. . . h( y. . . i. . . . xn |z)dx1 · · · dxn fX|Z (h1 (y. . Z1 . n}. Yn . . . . zm ). onde X1 = h1 (Y1 . . contínua ou singular diferentes de zero. . . y|Z = z)|dy1 · · · dyn . . n Esta última integral é igual a integral sobre o conjunto B da função que toma o valor fX|Z (h1 (y. Então para B ⊆ Gz . Y |Z = z) pelo determinante:  ∂X  i 1 · · · ∂Xn ∂Y1 ∂Y  . . . Y |Z = z) = det  . APRENDENDO UM POUCO MAIS.5. Não assume-se qualquer hipótese sobre o tipo do vetor Z. . n + m}. Utilizando o teorema de mudança de variáveis. . . . . z1 . e hi (Y1. . . z) para todo i = 1. . . .  . Xn .  J(X. Yn variáveis obtidas a partir de funções dos vetores X e Y . . . Portanto. . n + 2. zm ) = zi . existe função inversa h = g −1 definida em Gz × {z}. . para i ∈ {n + 1. . caso contrário.. n. Sejam Y1 .. . . . . ∂Xn ∂Y1 ··· ∂Xn ∂Yn Suponha que J(X. hn (y. . . . i = 1. . . n} e que elas sejam contínuas em Gz × {z}. . . . Yn . Suponha que existam as derivadas parciais ∂Xi ∂hi (Y1 . . e zero. z1 . z)|z)|J(x. z).e. z). zm ). z1 . . z)|z)|J(x. tem-se P (Y ∈ B|Z = z) = P (X ∈ h(B × {z})|Z = z) = = ··· h(B×{z}) fX|Z (x1 . . y|Z = z)| para y ∈ Gz . . 2.. . . z). B boreliano. . . . seja h(B×{z}) = {(x1 . . . . . hn (y.

(Y. .. Campos & Rêgo . 109 fY |Z (y1 . π/2). e 1/4. Exemplo 5. Z) ∈ [k 2 . se (y. π/2]) = 1. P ((Y. X2 = (Y − k 2 )senZ e X3 = (Y − k 2 ) cos Z. X3 ). Z)|X1 = k) = det senZ (Y − k 2 ) cos Z cos Z −(Y − k 2 )senZ = −(Y − k 2 ). 0. e. Z) dado que X1 = k é dada por: fY. Portanto. caso contrário.. ∞) × [0. . .5. Solução: A densidade condicional conjunta de (X2 . . Portanto. fY (y) = fY |Z (y1 . . (y − k 2 ) cos z|k)(y − k 2 ). . .. mas nesta seção . z) ∈ [k 2 . ∞) × [0. 2 este coneito será dado no próximo capítulo. ∞) × [0. . 0. caso contrário. . Determinar a densidade conjunta de (Y. = 2 2k 2 e−k(y−k )(senz+2 cos z) .6. = 0. no caso particular em que Z for um vetor aleatório discreto com função probabilidade de massa conjunta pZ . hn (y. yn |z)dFZ (z). .. yn |z)pZ (z). fY (y) = z fY |Z (y1 . z). se y ∈ Gz . X3 )|X1 = k é dada por 2k 2 e−kx2 −2kx3 U(x2 )U(x3 ). . Sejam ainda X2 e X3 variáveis aleatórias que são condicionalmente independentes dado X1 e com distribuições condicionais X2 2 2 2 X2 |X1 = k ∼ Exp(k) e X3 |X1 = k ∼ Exp(2k).6. π/2). . Assim. 15. y|Z = z)|. 1/2. calcula-se a esperança2 da densidade condicional fY |Z com respeito a distribuição do vetor aleatório Z. . a densidade condicional de (Y. . respectivamente. z) ∈ [k 2 . o Jacobiano condicional dado que X1 = k é dado por: J((X2 . yn |z)fZ (z)dz1 · · · dzm . Z). . . Tem-se que X1 = k. z)|z)|J(x. . fY (y) = ··· fY |Z (y1 . .Z|X1 (y. caso contrário. .2: Suponha que X1 é uma variável aleatória discreta que assume os valores 10.X3 |X1 ((y − k 2 )senz. . se (y. APRENDENDO UM POUCO MAIS. 20 com probabilidades 1/4. yn |z) = fX|Z (h1 (y. A fim de se obter a densidade incondicional do vetor Y . Seja Y = X1 + X2 + X3 e Z = arctg( X3 ). z|k) fX2 . No caso particular em que Z for um vetor aleatório com densidade conjunta fZ .

π/2). l 0. ou seja. . . . . Ym . tem-se: fY. ou seja. . se (y. fY. Z) assumiuse que o vetor Y tem dimensão igual a dimensão do vetor X. π/2). .  1   (200e−10(y−100)(senz+2 cos z) )+  4  1  + 2 (450e−15(y−225)(senz+2 cos z) ).Z (y. z) = P (X1 = 10)fY. Ym dado Z e. 400) × [0. muitas vezes é possível ′ definir outras variáveis aleatórias auxiliares Y1′ . . z)  1  4 (200e−10(y−100)(senz+2 cos z) ). .  4   0. APRENDENDO UM POUCO MAIS.5.. se (y. . z) ∈ [400. . . para obter a distribuição de Y = g(X. . = 1  1 (200e−10(y−100)(senz+2 cos z) ) + 2 (450e−15(y−225)(senz+2 cos z) )+  4  1  + (800e−20(y−400)(senz+2 cos z) ). obter a densidade marginal condicional conjunta de Y dado Z. Gz . finalmente. caso contrário. . para l = 1. π/2). suponha que Gz . . o tratamento é análogo ao caso da utilização do método do Jacobiano para vetores absolutamente contínuos. Para tanto. z|20). (ii) Também pode-se utilizar o método do Jacobiano em outros casos em que a função g não é bijetiva. k.Z|X1 (y. . z l l Suponha que para todo l. z|10) +P (X1 = 15)fY. . . a restrição de g a Gz seja bijetiva entre Gz e Gz . yn . 0. . dado que Z = z. . . .. . yn |z) = k −1 z l=1 fX|Z (g|Gz (y1 . .2 Exercícios 1. determine: Campos & Rêgo . . z) ∈ [225. se (y. Suponha que X seja uma variável aleatória contínua com função densidade de probabilidade e−x . . z)|z)|Jl |. utilizar a extensão do método ′ do Jacobiano para determinar a densidade condicional conjunta de Y . x > 0 f (x) = x ≤ 0. 5. se y ∈ Gz .6. . . ∞) × [0. 1 i=1 i k tais que a função g|Gl .Z (y. a função inversa de g|Gl satisfaça as hipóteses do caso z anterior. caso contrário. e seja Jlz o Jacobiano condicional dado que Z = z da inversa de g|Gl .Z|X1 (y.Z|X1 (y. z|15) + P (X1 = 20)fY. Gz sejam disjuntas e P ((X Z) ∈ (∪k Gz ) × {z}) = 1. 110 Observações: (i) No desenvolvimento na seção anterior. . Gz sejam subregiões 1 k R abertas do I n tais que Gz . Calculando a esperança em termos da distribuição de X1 . 225) × [0. Y1′ .6. Quando a dimensão de Y é menor que a dimensão de X. z) ∈ [100. Para b > 0 real. Pode-se z provar que fY |Z (y1 .

2. 0. (b) Determine a função de densidade de probabilidade marginal fX (x). (c) P (X ≥ 3 | X > 0).15. Suponha que X é uma variável aleatória assumindo os valores −3. Y (ω3 ) = 1. dado que X ∈ (0. ω3 } e P (ω1 ) = P (ω2) = P (ω3 ) = 1/3. Duas mensagens que estão sendo transmitidas. 0.1). −1. Seja um sistema de variáveis aleatórias (X. ω2 . (d) Verifique se X e Y são variáveis aleatórias independentes. 2.2. Joga-se uma agulha de comprimento a < l. (c) X e Y são independentes? 7. a função densidade condicional de X. para todo x real. Sejam Ω = {ω1 .05. 0.6. 0. Y (ω1 ) = 2. 111 (b) f (x | 0 < X < b). Y (ω2 ) = 3. (a) Escreva a expressão da densidade conjunta. (b) Determine a função de densidade de probabilidade marginal fY (y). (b) P (X = −3 | X ≤ 0).1) e (-1. Considere a variável aleatória bidimensional (X. 0. Y + Z e X + Z. 4. 3. Um assoalho é feito de quadrados de lado l. Y e Z como se segue: X(ω1 ) = 1..0). (a) Determine a função de densidade de probabilidade conjunta f (x. 5. Determine as probabilidades de: (a) X ser negativa.15.1. APRENDENDO UM POUCO MAIS. 1. mostre que estas três variáveis aleatórias têm a mesma distribuição de probabilidade. y). Y ) uniformemente distribuída na região poligonal T de vértices (-2. Definindo X. 8 com as respectivas probabilidades 0.0). 0. 0. 0. 5. (a) F (x | 0 < X < b) = P (X ≤ x | 0 < X < b). Z(ω1 ) = 3.0). A probabilidade do evento A = {uma mensagem é distorcida} para a primeira mensagem é p1 e para a segunda p2 .1.0). (0. (2. independentemente uma da outra. Z(ω3 ) = 2. b).. Considere duas variáveis aleatórias X e Y com distribuição de probabilidade conjunta uniforme na região triangular tendo vértices nos pontos (0. Y ) definido como se segue: Campos & Rêgo . podem ser distorcidas ou não.5. 2. Determine a probabilidade de que a agulha intercepte dois lados adjacentes de um quadrado desse assoalho. (1. 6. (proposto por Francisco de Assis L. X(ω2 ) = 2. Z(ω2) = 1. Encontre a distribuição de probabilidade de X + Y . X(ω3) = 3. (b) Determine as densidades marginais.05. Filho) 3.1) e (1.

11. z). Z) caia numa bola concêntrica de raio r/2. 10. (d) a densidade condicional fY (y | x. Z). y). Escreva expressões para: (a) as densidades fX (x). (f) a função de distribuição FX (x) da variável aleatória X. Y. y) do vetor (X. (e) a função de distribuição conjunta F (x. 0.. Y. Escreva expressões para (a) a função densidade conjunta f (x. 8. Um sistema de variáveis aleatórias (X. (g) a função de distribuição F (x. y. (b) {X >| Y |}. se a segunda mensagem não é distorcida. Y ).Z (y. Z) se distribui com uma densidade constante no interior de uma bola de raio r. fY (y) (b) a densidade conjunta fY. (d) {X − Y > 1}.6. Y ) tem função densidade conjunta f (x. APRENDENDO UM POUCO MAIS. 9. 112 X= Y = (X e Y são os indicadores do evento A). Y.5. y): (a) {X > Y }. 1. z | x). y. Sejam duas variáveis aleatórias independentes X e Y . (a) Encontre a distribuição de probabilidade conjunta do par de variáveis aleatórias (X. y) e (b) a função distribuição conjunta F (x. Expresse as seguintes probabilidades em termos de f (x. Z) tem uma densidade conjunta f (x. . z) do vetor aleatório (X. y). (b) Encontre a função distribuição de probabilidade acumulada F (x. Um sistema de variáveis aleatórias (X. z). 0. z). cada uma das quais com distribuição exponencial com diferentes parâmetros. Um sistema de variáveis aleatórias (X. se a primeira mensagem não é distorcida. y). 1.. Encontre a probabilidade de que o ponto aleatório (X. (c) a densidade condicional fY. Y ). Campos & Rêgo (c) {| X |> Y }. se a segunda mensagem é distorcida. se a primeira mensagem é distorcida.Z (y.

(a) Escreva a densidade conjunta f (x. (d) Mostre que X e Y são independentes. Z = max{X. a duração da vida de uma peça. 13. quaisquer outros casos.01). (c) Mostre que ( x (b) a função densidade do mínimo das duas variáveis. Determine a densidade de T + X. quaisquer outros casos. Y }. determine: (a) a função densidade do máximo das duas variáveis. entre 12:00 e 13:00 horas. pode-se cometer um erro. Cada uma chega ao local do encontro independentemente e com uma densidade de probabilidade constante no intervalo de tempo assinalado. y) de X e Y .6.. Ao mensurar-se T .5. (c) Encontre a densidade condicional fX|Y (x | y). Y = y) = g(x)h(y). Por isso. (c) a função densidade do máximo o do mínimo de várias variáveis aleatórias.0. (b) Expresse P (Y = y) em termos de g e h. 2 < y < 4. 15. Y }. quando T e X forem independentes. Para um dado X = x > 0.  x − 1. Sabe-se que a variável aleatória X segue uma distribuição exponencial com parâmetro λ. 16.2 e X tem a distribuição uniforme descrita acima. Suponha que as dimensões X e Y de uma chapa retangular de metal possam ser consideradas variáveis aleatórias contínuas independentes com densidades. Sejam X e Y variáveis aleatórias discretas e sejam g e h funções tais que satisfaçam a identidade P (X = x. o tempo registrado (em horas) pode ser representado por T + X. onde T . y). tem uma distribuição exponencial com parâmetro 0. Encontre a densidade da área da chapa. A = XY . Dadas duas variáveis aleatórias X e Y com uma densidade conjunta f (x. respectivamente:  1 < x ≤ 2. Sejam X1 e X2 duas determinações independentes da variável aleatória X. 14.01. −x + 3. Campos & Rêgo . fY (y) = 1/2. (a) Expresse P (X = x) em termos de g e h. Encontre a probabilidade de que a primeira pessoa espere não menos que meia hora. 0. 18. 2 < x < 3. APRENDENDO UM POUCO MAIS. Duas pessoas marcam um encontro em um determinado lugar. 113 12. fX (x) =  0.. Encontre a densidade da variável aleatória Z = X1 /X2 . 17. o qual se pode admitir ser uniformemente distribuído sobre (-0. (b) Encontre a densidade de Y . Z = min{X. a variável aleatória Y também segue uma distribuição exponencial com parâmetro x. g(x))( y h(y)) = 1. Seja o vetor aleatório (X. Y ).

As variáveis aleatórias Xi ..6. Sejam T1 e T2 variáveis aleatórias independentes com distribuição exponencial de parâmetros λ1 e λ2 . Encontre a densidade de Y = X1 X2 . T2 }. APRENDENDO UM POUCO MAIS. n são mutuamente independentes e seguem uma lei de Poisson com parâmetros λi . Campos & Rêgo .5. Mostre que P (Y ∈ A) > 1 onde A = {y | 1 < 9 y < 2} ∪ {y | 10 < y < 20}. onde o parâmetro é a soma dos parâmetros. respectivamente. i = 1. · · · . Encontre a densidade de M = max{T1 .. 21. T2 } e de K = min{T1 . Mostre que sua soma também segue uma distribuição de Poisson.10). Sejam X1 e X2 amostras aleatórias de uma distribuição uniforme no intervalo (1. 114 19. 20.

(b) Operador linear em um conjunto de variáveis aleatórias que retorna um valor típico da variável aleatória interpretado como uma medida de localização da variável aleatória.Capítulo 6 Esperança e outros Momentos 6. k = 1. Uma maneira alternativa seria calcular a fração p(k). é até possível definir probabilidade em termos de esperança. define-se a esperança de uma variável discreta como uma soma ponderada onde as probabilidades são os pesos de ponderação. . .1 O Conceito de Esperança O conceito de esperança ou valor esperado de uma variável aleatória X. . . mas esta não é uma maneira comum de se apresentar a teoria. Na verdade. ou função probabilidade de massa. 115 . também conhecido como média. 6 de todos os lançamentos que tiveram resultado igual a k e calcular o resultado médio através da soma ponderada: 1p(1) + 2p(2) + 3p(3) + 4p(4) + 5p(5) + 6p(6). (c) Média do resultado de repetidos experimentos independentes no longo prazo. Em geral.2 Definição da Esperança A definição de esperança pode ser motivada considerando o cálculo do resultado médio de 1000 lançamentos de um dado. (d) Preço justo de um jogo com pagamentos descritos por X. As seguintes podem ser interpretações da esperança: (a) Parâmetro m de uma medida de probabilidade. função de distribuição. Quando o número de lançamentos torna-se grande as frações de ocorrência dos resultados tendem à probabilidade de cada resultado. Uma maneira de calcular este resultado médio seria somar todos os resultados e dividir por 1000. 6. ou a “média” é tão antigo quanto o próprio conceito de probabilidade.

x2 . então E(X) = 2 1 x dx = 3.5 e P (X = 2) = 0. n 2 2 Definição 6.}.6. p3 . ESPERANÇA DE FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 116 Definição 6. 2 6. sua esperança é dada por: n n E(X) = k=1 kp(k) = k 1 1 k = n n n k= k 1 n(n + 1) n+1 = .5) + a(0. Exemplo 6.4: Aleatória. encontrar a lei de probabilidade da variável Y = H(X) pelos métodos já vistos anteriormente para. E(X) = −1(0. Consequentemente. p2 .5) = 0.25. . .25) = 0. Então. (ii) calcular a esperança de Y diretamente usando a função H(X). desde que i | xi | pi < ∞. 2. . Existem duas maneiras equivalentes de calcular E(Y ). . calcular a esperança da variável Y .3: Seja uma variável aleatória X tal que: P (X = −a) = P (X = a) = 1/2.2: Considere uma variável aleatória X tal que: P (X = −1) = 0.25. então Y também será uma variável aleatória. x3 .5: Se X é uma variável aleatória contínua com densidade fX (x) então. E(X) = −a(0. Isto será visto a seguir. +∞ E(X) = −∞ xfX (x)dx se +∞ −∞ | x | fX (x)dx < ∞. . quer a variável seja discreta. .2. pode-se calcular E(Y ).2.2.25. n} for uma variável aleatória com distribuição de probabilidade aleatória com parâmetro n. em seguida. . Se X ∈ {1. a seguir.5) + 2(0. E(X) = i xi pi .1 : Se X é uma variável aleatória discreta com valores {x1 . quer seja contínua: (i) primeiro. inicialmente no caso discreto. Exemplo 6.3 Esperança de Funções de Variáveis Aleatórias Se X for uma variável aleatória e se Y = H(X). no contínuo.2. P (X = 0) = 0. . .25) + 0(0. 4 1 Exemplo 6. Campos & Rêgo . então E(X) = i xi P (X = xi ). 2 < x < 4.} e probabilidades {p1 .3. então sua esperança é.2. . respectivamente. Note então que muitas variáveis aleatórias diferentes podem ter o mesmo valor esperado ou esperança.6: Se fX (x) = 2 . Então. (É só variar o valor de a no exemplo anterior. Como pi = P (X = xi ).2.) Exemplo 6.

e se p(yi) = P (Y = yi ). . . são os possíveis valores de Y ..6. Prova: Reordenando o somatório ∞ H(xi )p(xi ). Neste caso. todos os valores xi tal que H(xij ) = yi para j ≥ 1. ∞ i=1 H(xi )p(xi ) = ∞ ∞ H(xij )p(xij ) = ∞ i=1 yi ∞ j=1 p(xij ) = ∞ i=1 yi p(yi ) = E(Y ).2: Conforme visto no capítulo anterior pode-se determinar as probabilidades p(yi ) dado que sabe-se a distribuição de X.4: Este resultado pode ser estendido para o caso de uma função real de um vetor aleatório.5: Campos & Rêgo .3. x2 . . . .1: Seja X uma variável aleatória discreta e seja Y = H(X). .3: Seja X uma variável aleatória discreta assumindo os valores x1 . . conforme mostra o seguinte teorema. Se p(xi ) = P (X = xi ). partindo-se apenas do conhecimento da distribuição de probabilidade de X. Teorema 6.3. define-se: E(Y ) = Exemplo 6. e agrupando os termos onde xi tem a i=1 mesma imagem de acordo com a função H. em que os xi são os valores assumidos pelo vetor aleatório X. Exemplo 6. y2 . i=1 j=1 Exemplo 6. preliminarmente. e seja Y = H(X). é possível encontrar E(Y ) sem. se Y = H(X). y2. então E(Y ) = i H(xi )pX (xi ). onde y1 . encontrar a distribuição de probabilidade de Y .1 Caso Discreto Definição 6.3.3. sejam xi1 . H(xi )p(xi ). ESPERANÇA DE FUNÇÕES DE VARIÁVEIS ALEATÓRIAS 117 6.3. Se Y assumir os seguintes valores y1 . . então E(Y ) = E(H(X)) = ∞ i=1 ∞ i=1 yi p(yi). tem-se. .3. . . . ou seja. xi2 .3. No entanto.

3.3. E(Y ) = −∞ yfY (y)dy.6.3.11: ydFY (y) = HdFX .3. Então. Y = H(X). ydFY (y) = H(x)dFX (x). Campos & Rêgo ..10: Seja X um vetor aleatório e Y = H(X) uma variável aleatória.9: Uma fórmula análoga também é válida quando funções de vetores aleatórios são considerados. PROPRIEDADES DA ESPERANÇA 118 6. (iii) E(aX) = aE(X). desde que +∞ −∞ | y | fY (y)dy < ∞.3.4.8: Seja X uma variável aleatória contínua.2 Caso Contínuo +∞ Definição 6. Então. (ii) P (X ≥ 0) = 1 ⇒ E(X) ≥ 0. então E(Y ) = desde que estas integrais existam. 6.7: A prova do teorema a seguir é omitida desde que foge ao escopo do livro. Exemplo 6.6: Seja X uma variável aleatória contínua e Y = H(X). onde a um número real qualquer. Exemplo 6. Teorema 6.3. Esta propriedade segue facilmente da expressão da esperança de uma função de variável aleatória.4 Propriedades da Esperança As seguintes propriedades são aplicações imediatas da definição de esperança: (i) P (X = c) = 1 ⇒ E(X) = c. E(Y ) = Exemplo 6. Teorema 6.3.

o que.. E(X − Y ) = E(X) − E(Y ). .Y (x. E(X + Y ) = i j 119 (xi + yj )p(xi . (vi) P (X ≥ Y ) = 1 ⇒ E(X) ≥ E(Y ). ai Xi ) = n i ai E(Xi ). in xi1 . Esta segue das Propriedades (ii) e (v). n E( i=1 Xi ) = i1 . .6. . xdFX. . xin j=1 p(xij ) = i1 n xi1 p(xi1 ) . . . yj ) = i xi p(xi ) + j yj i p(xi . Xn } são variáveis aleatórias mutuamente independentes.Y (x. in xin p(xin ) = i=1 E(Xi ). xin p(xi1 .4. pois P (X ≥ Y ) = P (X − Y ≥ 0). E(X + Y ) = (v) E( n i (x + y)dFX. E(X + Y ) = E(ϕ(X. Y )) = e pela linearidade da integral. No caso discreto. y) = E(X) + E(Y ). . PROPRIEDADES DA ESPERANÇA (iv) E(X + Y ) = E(X) + E(Y ). y). então n n E( i=1 Xi ) = i=1 E(Xi ). yj ) = E(X) + j yj p(yj ) = E(X) + E(Y ).. Pela Propriedade (v). . pela Propriedade (ii). .. . in xi1 . y) + ydFX. xin ) n = i1 .Y (x. ou seja pode-se concluir que E(X) − E(Y ) ≥ 0. yj ) + i j yj p(xi . Para provar esta propriedade basta usar as duas últimas propriedades e indução matemática. yj ) = i xi j p(xi . implica que E(X − Y ) ≥ 0. . . . (vii) Se {X1 .. No caso geral contínuo. Campos & Rêgo . No caso discreto. .

6.5. MOMENTOS No caso contínuo fX (x) =
n n i=1

120 fXi (xi ), logo x1 · · · xn fX (x)dx1 · · · dxn
n n

E(
i=1

Xi ) =
n

···

=

···

i=1

xi fXi (xi )dx1 · · · dxn =

xi fXi (xi )dxi =
i=1 i=1

E(Xi ).

De maneira análoga, pode-se provar a seguinte generalização deste resultado: Se {X1 , . . . , Xn } são variáveis aleatórias mutuamente independentes, então
n n

E(
i=1

G(Xi )) =
i=1

E(G(Xi )).

(viii) Se Y for uma variável aleatória que assume valores inteiros não-negativos, então E(Y ) =
∞ k=1

kP (Y = k) =

k

P (Y = k),

k=1 j=1

trocando a ordem dos somatórios: E(Y ) =
∞ ∞

P (Y = k) =

∞ j=1

j=1 k=j

P (Y ≥ j).

6.5

Momentos

Momentos dão informações parciais sobre a medida de probabilidade P , a função de distribuição acumulada, ou a função probabilidade de massa de uma variável aleatória X. Momentos de X são esperanças de potências de X. Definição 6.5.1: aleatória X é Para qualquer inteiro não-negativo n, o n-ésimo momento da variável E(X n ), se esta esperança existe. Este momento é usualmente denominado de momento em torno do zero, uma vez que poderia ser escrito como E((X − 0)n ). Exemplo 6.5.2: Seja X tal que P (X = k) = n k p (1 − p)n−k , k = 0, 1, . . . , n. k Campos & Rêgo

6.5. MOMENTOS Então, o segundo momento de X, E(X 2 ) é:
n

121

E(X ) =
k=0 n

2

k2 k2
k=1 n

n k p (1 − p)n−k k n! pk (1 − p)n−k k!(n − k)! n! pk (1 − p)n−k + k!(n − k)!

= =
k=1

n

k(k − 1)

k
k=1

n

n! pk (1 − p)n−k k!(n − k)!

= n(n − 1)p2 = n(n − 1)p2

k=2 m

(n − 2)! pk−2 (1 − p)n−k + np (k − 2)!(n − k)! (m)! pj (1 − p)m−j + np = n(n − 1)p2 + np. (j)!(m − j)!

j=0

Teorema 6.5.3: Se o k-ésimo momento de uma variável aleatória existir, então todos os momentos de ordem menores do que k também existem. Prova: Por hipótese, E(|X k |) < ∞, logo E(1 + |X k |) < ∞. Como para qualquer j tal que 0 < j < k, |X j | ≤ 1 + |X k |, e 1 + |X k | é integrável, tem-se que |X j | também é integrável, isto é E(|X j |) < ∞.

6.5.1

Momentos Centrais. Variância

Definição 6.5.4: Se X é uma variável aleatória seu n-ésimo momento central em torno de E(X) é E(X − E(X))n , se esta esperança existir. O primeiro momento central em torno da média é zero, pois E(X − E(X)) = E(X) − E(E(X)) = E(X) − E(X) = 0. O segundo momento central é conhecido como variância e denota-se por V (X). A variância pode ser também calculada por: V (X) = = = = = = E(X − E(X))2 E(X 2 − 2XE(X) + (E(X))2 ) E(X 2 ) − 2E(XE(X)) + E((E(X))2 ) E(X 2 ) − 2(E(X))2 + (E(X))2 E(X 2 ) − (E(X))2 E(X 2 ) − E(X)2 . Campos & Rêgo

6.5. MOMENTOS Exemplo 6.5.5: Do Teorema Binomial e da linearidade da esperança, tem-se:
n

122

E(X − E(X))n = e
n

k=0

n (−E(X))n−k E(X k ) k
n

E(X ) = E(X − E(X) + E(X)) =

n

k=0

n (E(X))n−k E(X − E(X))k . k

Corolário 6.5.6: O n-ésimo momento central existe se, e somente se, o n-ésimo momento existe. Exemplo 6.5.7: Considere uma variável aleatória X tal que P (X = m − a) = P (X = m + a) = 1 1 ⇒ E(X k ) = [(m − a)k + (m + a)k ]. 2 2

E(X) = m, 1 E(X 2 ) = (2m2 + 2a2 ) = m2 + a2 , 2 V (X) = a2 . Este exemplo, mostra que é possível encontrar uma variável aleatória possuindo qualquer esperança e variância predeterminadas. Definição 6.5.8: O desvio-padrão σ de uma variável aleatória X é definido como a raiz quadrada positiva da variância, σ(X) = V (X).

6.5.2

Propriedades da Variância e de outros Momentos

(i) V (X) ≥ 0.

Prova: Pela definição de variância.

(ii) Se X = c, V (X) = 0. Prova: E(X) = c, logo V (X) = E(X − c)2 = E(0) = 0. (iii) V (X + a) = V (X), onde a é uma constante real. Prova: V (X + a) = E(X + a)2 − (E(X + a))2 = E(X 2 ) + 2aE(X) + a2 − (E(X))2 − 2aE(X) − a2 = E(X 2 ) − (E(X))2 = V (X).

Campos & Rêgo

5. |Y |). Prova: V (X + Y ) = = = = = E(X + Y )2 − (E(X + Y ))2 E(X 2 + 2XY + Y 2 ) − (E(X))2 − 2E(X)E(Y ) − (EY )2 E(X 2 ) − E(X)2 + E(Y 2 ) − E(Y )2 + 2(E(XY ) − E(X)E(Y )) E(X 2 ) + E(Y 2 ) − (E(X))2 − (E(Y ))2 + 2E(XY ) − 2E(X)E(Y ) V (X) + V (Y ). (vii) Se X e Y são variáveis aleatórias em (Ω. P ) tais que E(|X t |) < ∞ e E(|Y t |) < ∞. de variáveis aleatórias em (Ω. então E(|X + Y |t ) < ∞. (vi) Se X1 . |X+Y |t ≤ 2t max(|X|t. . ∀a ∈ I esta propriedade diz que a classe R. Logo. .6. ∀c ∈ I R. MOMENTOS (iv) V (aX) = a2 V (X) Prova: V (aX) = E(aX)2 − (E(aX))2 = a2 E(X)2 − a2 (EX)2 = a2 V (X). E(|aX|t ) < ∞. . P ) possuidoras do t-ésimo momento finito é um espaço vetorial ou espaço linear. . . Esta propriedade segue da propriedade anterior e da aplicação de indução matemática. R Prova: (X − c)2 = (X − µ + µ − c)2 = (X − µ)2 + 2(µ − c)(X − µ) + (µ − c)2 . A. Portanto. então V (X1 + . E(X − c)2 ≥ E(X − µ)2 . . porque E(XY ) = E(X)E(Y ). (viii) V (X) = E(X − µ)2 = minc∈I E(X − c)2 . logo E(X − c)2 = E(X − µ)2 + 2(µ − c)(E(X) − µ) + (µ − c)2 = V (X) + (µ − c)2 . 123 (v) Se X e Y forem variáveis aleatórias mutuamente independentes. então V (X + Y ) = V (X) + V (Y ). Prova: |X+Y | ≤ |X|+|Y | ≤ 2 max(|X|. . A. Como E(|X|t) < ∞ então. + V (Xn ). |Y |t ) ≤ 2t (|X|t + |Y |t ). Campos & Rêgo . . Portanto. E(|X + Y |t ) ≤ 2t (E(|X|t ) + E(|Y |t ) < ∞. Xn são variáveis aleatórias independentes. Xn ) = V (X1 ) + .

quando V (X) = 0. ou seja E(X − E(X))2 = 0. Esta desigualdade declara que a probabilidade da variável aleatória diferir da sua média 2 por mais do que uma constante qualquer (ε) é menor ou igual do que σ2 . como a cota superior pode exceder 1. 1 ]) ≤ n n P (Z ≥ 1 ) = 0. então para todo ǫ > 0. Seja X uma variável aleatória. E(g(X))) ≥ P (X ∈ A). Prova: Pela monotonicidade da esperança. então P (Z = 0) = 1.3: Seja X uma variável aleatória. ǫ |x| . E(g(X)) ≥ E(IA (X)) = P (X ∈ A). P (X ∈ A) = P (|X| ≥ ǫ) ≤ E(X ) . ǫ2 Prova: Seja A = {x : |x| ≥ ǫ} e g(x) = x2 . P (Z > 0) = P (∪n [Z ≥ Portanto. X é constante com probabilidade 1. P (Z = 0) = 1 − P (Z > 0) = 1. então pelo teorema ǫ 2 anterior. P (|X| ≥ ǫ) ≤ Prova: Escolha A = {x : |x| ≥ ǫ} e g(x) = E(|X|) .6. então V (X) P (|X − E(X)| ≥ ǫ) ≤ .2: Desigualdade de Tchebychev Generalizada. 1 1 Prova: P (Z ≥ n ) ≤ nE(Z) = 0.1: Desigualdade (Original) de Tchebychev. consequentemente. Corolário 6. Mas. ǫ Note que g(x) ≥ IA (x). mais agrupados em torno da média estão os dados e. então. tem-se que min(1. então P (|X| ≥ ǫ) ≤ Corolário 6.4: Se Z ≥ 0 e E(Z) = 0.6. Note que g(x) ≥ IA (x).6. Substituindo X por X − E(X).6 A Desigualdade de Tchebychev Corolário 6. isto é.6. A DESIGUALDADE DE TCHEBYCHEV 124 6. n Este último corolário implica que.6.6. ǫ 2 E|X| . Portanto. Dado um conjunto A e uma função g(x) tal que ∀x. Como [Z > 0] = ∪n [Z ≥ n ]. A única restrição é que σ 2 < ∞. P (X = E(X)) = 1. maior a probabilidade de se obter um valor (dos dados) próximo à média. Corolário 6. E(g(X))). A desigualdade de Tchebychev é geral no sentido de que não há qualquer hipótese sobre a lei de probabilidade de X. tem-se que P (X ∈ A) ≤ min(1. g(x) ≥ IA (x). Campos & Rêgo . quanto ε menor a variância. tem-se ǫ2 (X) P (|X − E(X)| ≥ ǫ) ≤ V ǫ2 .

Na prova da Propriedade (v) da variância aparece a expressão E(XY ) − E(X)E(Y ). .7.4: Sejam X1 . . Teorema 6. A seguir será vista uma expressão para a variância da soma de n variáveis aleatórias. .6. Y ) = E((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ). se esta i=1 esperança existir. Xj ). se X e Y não forem independentes. Note que Cov(X. Corolário 6. No caso bidimensional a correlação e a covariância são momentos conjuntos.7. Xk ) um vetor aleatório k-dimensional.3: Sejam X1 . . .7. Y ).7. . . + Xn ) = i=1 V (Xi ). . MOMENTOS CONJUNTOS 125 6. Prova: V (X1 + · · · + Xn ) = E(X1 + · · · + Xn − E(X1 + · · · + Xn ))2 n = E( i=1 n (Xi − E(Xi ))2 (Xi − E(Xi ))2 + 2 (Xi − E(Xi ))(Xj − E(Xj ))) = E( i=1 n i<j = i=1 V (Xi ) + 2 i<j Cov(Xi . Definição 6. o que implica que. Xn variáveis aleatórias tais que V (Xi ) < ∞ e Cov(Xi . . X) = V (X). Então. + Xn ) = i=1 V (Xi ) + 2 i<j Cov(Xi . Xj ). Xn variáveis aleatórias tais que V (Xi ) < ∞.1: Seja X = (X1 .7. . então n V (X1 + . . os momentos conjuntos de X são da forma E( k Xiji ).2: A covariância entre duas variáveis aleatórias X e Y é dada por Cov(X. . .7 Momentos Conjuntos A noção de momentos conjuntos é definida no contexto de vetores aleatórios. Xj ) = 0 para i = j. Definição 6. então n V (X1 + . . X2 . Campos & Rêgo . onde ji ’s são inteiros positivos. . V (X + Y ) = V (X) + V (Y ) + 2Cov(X. X2 . . De forma análoga ao caso unidimensional pode-se definir também momentos conjuntos centrais. X2 . estes medem o grau de dependência linear entre duas variáveis.

O teorema anterior provou que |ρ(X.9: Se X é uma variável aleatória tal que P (X = −a) = P (X = a) = 1/2 e Y = X 2 . utilizando a regra do discriminante. Porém. pois Y é uma funão de X. Y )| ≤ 1. X e Y não são independentes.8: Duas varáveis são não-correlacionadas se Cov(X. Cov(X.7.6. se X e Y são independentes. (i) ρ(X. Como já foi provado que se X e Y são independentes. MOMENTOS CONJUNTOS O próximo teorema trata de importante desigualdade em teoria da probabilidade: Teorema 6. Exemplo 6. Logo.7. Prova: Segue do teorema anterior trocando X por X − E(X) e Y por Y − E(Y ).7. ρ(X.7.10 : Sejam X e Y variáveis aleatórias com variâncias finitas e positivas. P (Y = aX + b) = 1 para algum a > 0 e b ∈ I R. então E(XY ) = E(X)E(Y ). Observa-se que esta equação do segundo grau em a não pode ter duas raízes reais diferentes. (ii) ρ(X. O próximo teorema mostra que o módulo do coeficiente de correlação entre duas variáveis é igual a 1 se.7.5: (E(XY ))2 ≤ E(X 2 )E(Y 2 ). pois caso contrário essa expressão seria negativa para os valores entre as raízes. Corolário 6. Y ))2 ≤ V (X)V (Y ). Y ) = 1 se. 4(EXY )2 − 4EX 2 EY 2 ≤ 0. Y ) = 0. Y ) = 0.6: (Cov(X. Y ) = −1 se. E(XY ) = E(X)E(Y ) = 0.7. ou seja. o teorema está provado. Prova: Campos & Rêgo . Teorema 6. Definição 6. e somente se. e somente se. Y ) . Então.7: O coeficiente de correlação entre duas variáveis aleatórias X e Y é dado por Cov(X.7. Então. as variáveis são linearmente dependentes. elas necessariamente são não-correlacionadas. então E(XY ) = −a3 (1/2) + a3 (1/2) = 0 e E(X) = −a(1/2) + a(1/2) = 0. 126 Prova: (aX +Y )2 ≥ 0 ⇒ E(aX +Y )2 ≥ 0 ⇒ a2 E(X 2 )+2aE(XY )+E(Y 2 ) ≥ 0. O contrário nem sempre é verdadeiro como o próximo exemplo ilustra. Y ) = V ar(X)V ar(Y ) Definição 6. e somente se. P (Y = aX + b) = 1 para algum a < 0 e b ∈ I R.

O próximo teorema apresenta uma nova relação entre momentos conjuntos de variáveis aleatórias. em ambos os casos E(|XY |) = 0 e a desigualdade de Hölder é válida. Prova: A prova da desigualdade de Hölder utiliza um argumento de convexidade. Como |X|p ≥ 0 (resp.11: Suponha que p e q satisfazem: p > 1. Y ). já foi visto que se E(|X|p ) = 0. t ∈ I tal que R s t a = exp( ) e b = exp( ). se . Para a > 0 e b > 0. Considere então o caso em que o lado direito da desigualdade de Hölder é estritamente positivo. V (X) V (Y ) 127 0 ≤ E( )2 V (Y ) Y − E(Y ) 2 2 = E( )2 + E( ) − E((X − E(X))(Y − E(Y ))) V (X) V (Y ) V (X)V (Y ) 2Cov(X.6. + − = V (X) V (Y ) V (X)V (Y ) V (X) X − E(X) − X − E(X) Y − E(Y ) Se ρ(X. V (X) V (Y ) (ii) Análoga. p q Campos & Rêgo 1 p + 1 q = 1. e E(|X|p ) < ∞ e E(|X|q ) < ∞. Y ) = 1. Portanto. então. q > 1. |X|q ≥ 0). existe s.. então P (X = 0) = 1. Então. Y − E(Y ) X − E(X) = ) = 1. P (Y = E(Y ) + V (Y ) V (X) (X − E(X))) = 1. MOMENTOS CONJUNTOS √ √ (i) Como ( X−E(X) − Y −E(Y ) )2 ≥ 0. substituindo o sinal “+” por “-” na expressão acima. então E( X − E(X) V (X) − Y − E(Y ) V (Y ) )2 = 0.7. Teorema 6. o que por sua vez implica que P( em outras palavras. tem-se que E(|XY |) ≤ (E|X|p )1/p (E|Y |q )1/q .7. Ele é conhecido como Desigualdade de Hölder. Y ) V (X) V (Y ) = 2 − 2ρ(X.

e b por 128 Agora substituindo a por |XY | |X| (E(|X|p ))1/p |Y | . por convexidade. p q ou pela definição de s. p ))1/p q ))1/q (E(|X| (E(|Y | E(|X|p ) p E|Y |q q ) + q −1 ( ) (E((|X|p ))) (E(|Y |q )) = p−1 + q −1 = 1. Antes de se introduzir a definição geral da esperança de uma variável aleatória qualquer. . . Diz-se que esta função é Riemann integrável se a soma de Riemann n−1 i=1 ϕ(yi )(xi+1 − xi ). t ab ≤ p−1 ap + q −1 bq . Se ϕ é uma função contínua definida no intervalo [a. Suponha que ϕ seja uma função real qualquer definida no intervalo [a. b] é uma sequência de pontos {x1 . ESPERANÇA CONDICIONAL Como a função exponencial é convexa e p−1 + q −1 = 1.. convergem quando a norma de P tende a zero e este limite é independente b da escolha dos yi ’s e da partição P . E(|XY |) (E(|X|p))1/p (E(|Y |q ))1/q (E(|X|p ))1/p (E(|Y |q ))1/q ≤ p−1 ( |X| |Y | )p + q −1 ( )q .6.. 6. ≤ p−1 ( 6. serão vistos conceitos sobre as integrais de Riemann-Stieltjes e de Lebesgue-Stieltjes. xi+1 ]. Se esta integral existe denota-se o limite por a ϕ(x)dx. onde yi ∈ [xi .1 As integrais de Riemman-Stieltjes e de Lebesgue-Stieltjes Antes das definiões das integrais de Riemman-Stieltjes e Lebesgue-Stieltjes.8 6. (E(|Y |q ))1/q temos Finalmente. a norma da partição P é definida como sendo max1≤i≤n−1 xi+1 − xi .9. tem-se a definição da integral de Riemann. tomando o valor esperado. define-se Campos & Rêgo . b]. s t exp( + ) ≤ p−1 exp(s) + q −1 exp(t). . xn } tal que a = x1 < x2 < · · · < xn = b. Uma partição P do intervalo [a. .9 Esperança Condicional Aprendendo um pouco mais.8. b] e F é uma função de distribuição. A integral de Riemann-Stieltjes é uma generalização ad integral de Riemann.

6.9. APRENDENDO UM POUCO MAIS...

129

a integral de Riemann-Stieltjes de ϕ em [a, b], em relação a F , como o limite de somas de Riemann da forma
n−1

i=1

ϕ(yi)[F (xi+1 ) − F (xi )],

onde a = x1 < x2 < · · · < xn = b, yi é um ponto arbitrário de [xi , xi+1 ] e toma-se o limite quando a norma de partição P tende a zero. Tal limite existe e é finito sob as condições descritas sendo representado por
b

ϕ(x)dF (x).
a

A funçõ ϕ é chamada de integrando e F de integrador. O limite acima existe mesmo que F não seja uma função de distribuição, basta que seja de variação limitada. Definição 6.9.1: Define-se variação total de uma função f em [a, b] pelo funcional:
n

V (f, [a, b]) = sup
i=1

|f (xi+1 ) − f (xi )|,

onde o supremo é tomado sobre todas as possíveis partições do intervalo fechado [a, b]. Uma função é de variação limitada se V (f, [a, b]) < ∞. A integral de Rieman-Stieltjes sobre a reta é uma integral imprópria definida da mesma maneira que a integral imprópria de Riemann:
∞ −∞ b

ϕ(x)dF (x) =

a→−∞,b→∞

lim

ϕ(x)dF (x),
a

se o limite existe. Esta definição da integral de Riemann-Stietjes pode ser estendida a outras funções ϕ além das contínuas. b Para uma função qualquer ϕ, define-se a ϕ(x)dF (x) como sendo o limite das somas de Riemann descritas acima quando a norma da partição tende a zero, se este limite existe e é independente das escolhas dos yi ’s e da partição P . O problema é que mesmo para funções bem simples este limite pode não existir como mostra o próximo exemplo. Exemplo 6.9.2: Seja F0 (x) = 1 se x ≥ 0, e F0 (x) = 0, caso contrário. Considere-se a integral de Riemann-Stieltjes de F0 em [−1, 1] em relação a F0 . Note que se zero não é um dos pontos da partição, de modo que xi < 0 < xi+1 para algum i, com F0 (xi+1 ) − F0 (xi ) = 1, então o somatório assume como valor escolhido para yi ser maior que 0, ou não. Uma integral que não sofre desta deficiência é a integral de Lebesgue-Stieltjes. A idéia da integral de Lebesgue-Stieltjes é particionar a imagem da função ϕ ao invés de particionar o seu domínio. Diz-se que uma partição P ′ é um refinamento de P se P ⊆ P ′ , ou seja, quando os intervalos da partição P são particionados na partição P ′ . Campos & Rêgo

6.9. APRENDENDO UM POUCO MAIS...

130

Suponha que ϕ seja não negativa e mensurável em relação a σ-álgebra de Borel. Seja µ uma medida nos reais, ou seja, uma função cujo domínio é a σ-álgebra de Borel que tem como imagem do conjunto vazio zero, é não-negativa e σ-aditiva. Dada uma sequência {P1 , P2 , . . .} de partições de [0, ∞) onde Pn = {y1 , y2 , . . . , yn }, yn → ∞, Pi+i é um refinamento de Pi , e a norma de Pn tende a zero quando n → ∞, define-se a soma de Lebesgue em relação a partição Pn como sendo,
n−1

i=1

yi µ({x : yi ≤ ϕ(x) < yi+1}) + yn µ({x : ϕ(x) ≥ yn }).

A integral de Lebesgue-Stieltjes de ϕ em relação a µ é definida como sendo igual ao limite das somas de Lebesgue, quando n → ∞. Dadas as condições acima, este limite sempre existe (pode ser +∞) e é denotado por ϕdµ. Para uma função mensurável ϕ qualquer, pode-se escrever ϕ = ϕ+ − ϕ− , onde ϕ+ = max(ϕ, 0), a parte positiva de ϕ, e ϕ− = − min(ϕ, 0), o módulo da parte negativa de ϕ, são funções não-negativas e portanto possuem integral de Lebesgue-Stieltjes. Se ϕ+ ou ϕ− possui integral de Lebesgue-Stieltjes finita em relação a µ, define-se a integral de Lebesgue-Stieltjes de ϕ em relação a µ como sendo ϕdµ = ϕ+ dµ − ϕ− dµ.

Se µ for uma medida de probabilidade em (I B) e F for a distribuição de probabiR, lidade acumulada associada á variável aleatória X(ω) = ω, então escreve-se ϕ(x)dF (x) (ou simplesmente, ϕdF ) para denotar ϕdµ. Em geral, usa-se a notação ϕ(x)dF (x) não somente para funções de distribuição, mas para qualquer função F que pode ser escrita como a diferença de duas funções monó’tonas não-decrescentes, limitadas e contínuas à direita. Se G for uma função monótona não-decrescente, limitada e contínua à direita, então dado um intervalo qualquer I = [x1 , x2 ], definindo-se ν(I) = G(x2 ) − G(x1 ), usa-se a notação ϕ(x)dG(x) para denotar a integral ϕ(x)dν, onde ν é a única medida que satisfaz ν(I) = G(x2 ) − G(x1 ) para todo intervalo I. Desta forma, se F = G1 − G2 , onde G1 e G2 são funções monótonas não-decrescentes, limitadas e contínuas á direita, então ϕ(x)dF (x) é utilizado para denotar ϕ(x)dG1 (x) − ϕ(x)dG2 (x). Dada um intervalo qualquer [a, b], define-se a integral de Lebesgue-Stieltjes de ϕ em relaão a µ no intervalo [a, b] como sendo ϕI[a,b] dµ e denota-se por
b a

ϕdµ.

6.9.2

Propriedades da Integral de Lebesgue-Stieltjes

(i) Quando o integrando é contínuo, a integral de Lebesgue-Stieltjes torna-se uma integral de Riemman-Stieltjes. Campos & Rêgo

6.9. APRENDENDO UM POUCO MAIS... (ii)
b a

131

dF = F (b) − F (a).
b a

Propriedade análoga ao Teorema Fundamental do Cálculo: onde ϕ(x) é a derivada de ϕ.

ϕ′ (x)dx = ϕ(b) − ϕ(a),

(iii) Linearidade no integrando e no integrador. Se ϕ(x) = αf (x) + βg(x), então ϕdF = α e para H(x) = αF (x) + βG(x), ϕdH = α ϕdF + β ϕdG. f dF + β gdF,

(iv) Aditividade. Se −∞ ≤ a < b < c ≤ ∞, então
c b c

ϕdF =
a a

ϕdF +
b

ϕdF.

(v) Se F for a função de distribuição de uma variável aleatória discreta, ou seja, se F (x) = onde P (X = xi ) = pi e
∞ i=1 ∞ i=1

pi U(x − xi ),

pi = 1, então ϕdF =
∞ i=1

pi ϕ(xi ).

(vi) Se F for a função de distribuição de uma variável aleatória contínua tendo densidade f , então dF (x) = f (x) em quase toda parte, e consequentemente, dx ϕ(x)dF (x) = ϕ(x)f (x)dx.

(vii) No caso de uma distribuição qualquer F , foi visto que F pode ser decomposta em suas partes discreta, contíınua e singular da seguinte forma F = Fd + Fac + Fs , então por linearidade do integrador: ϕ(x)dF (x) = ϕ(x)dFd (x) + ϕ(x)dFac (x) + ϕ(x)dFs (x).

Se a parte singular for nula, Fs (x) = 0, ∀x, Campos & Rêgo

Em caso das duas integrais não serem finitas. . Note que a medida que partições mais refinadas são consideradas na sequencia. Logo. Como a parte singular costuma ser nula.9. a esperança não existe. . . Dada uma variável aleatória não-negativa qualquer X e uma partição Pn desta sequência. i onde pi é o salto de F em xi e f é a derivada de F .9.} de partições de [0. No caso geral. onde F é a função de distribuição acumulada de X. Pi+i é um refinamento de Pi . y2 . diz-se que X é integrável. Esta esperança é uma soma de Lebesgue em relação à partição Pn com integrando X e função integradora dada pela medida de probabilidade P . Campos & Rêgo . Y se torna cada vez uma melhor aproximação para X. usualmente de Riemann se f for integrável a Riemann.3 Definição da Esperança . Y = i=1 yi I[yi≤X<yi+1 ] + yn I[X≥yn ] . yn → ∞. Já que os valores de X e Y ficam cada vez mais próximos é intuitivo requerer que a definição de esperança (média) E(X) seja igual ao limite de E(Y ) quando n → ∞. na prática a esperança reduz-se a uma série ou uma integral imprópria. APRENDENDO UM POUCO MAIS. então E(X) = XdF = xi pi + xf (x)dx + xdFs (x).3: Se X é uma variável aleatória com função de distribuição F . . . . desde que pelo menos uma das integrais seja finita. ou similarmente.. 132 ϕ(x)dF (x) = i ϕ(xi )pi + ϕ(x)f (x)dx. Caso E(X) seja finita.Caso Geral Considere uma sequência {P1 .6. Pela Propriedade (vii) da integral de Lebesgue-Stieltjes. ∞) onde Pn = {y1 . tem-se a seguinte definição Definição 6. . ou seja n n−1 E(X) = lim n→∞ yi P (Y = yi ) = lim i=1 n→∞ i=1 yi P (yi ≤ X < yi+1 ) + yn P (X ≥ yn ) = XdP. P2 .9. E(X) é definida como sendo a integral de Lebesgue-Stieltjes de X em relação a medida de probabilidade P . então sua esperança é dada pela fórmula 0 E(X) = XdF = −∞ XdF + 0 ∞ XdF. e a norma de Pn tende a zero quando n → ∞. tem-se que se F = Fd + Fac + Fs . yn }. onde pi é o salto de F em xi e f é a derivada de F . Como Y é discreta tem-se que sua esperança é dada por n n−1 E(Y ) = i=1 yi P (Y = yi ) = i=1 yi P (yi ≤ X < yi+1 ) + yn P (X ≥ yn ). E(X) = XdF . 6. ou seja.. definse uma outra variável aleatória Y discreta que aproxima X assumindo o valor yi quando n−1 yi ≤ X < yi+1 e Y = yn se X ≥ yn .

então Campos & Rêgo .  se x < 0.4 Interpretação Geométrica da Esperança Por definição. se x ≥ 1/2. tal que   0. e y = F (x) no plano Euclideano. Como F (a) ≥ 0 e a < 0. seja λ < 0. −∞ Prova: Formalmente. APRENDENDO UM POUCO MAIS. y = 1. cuja área total é dada por ∞ (1 − F (x))dx. se 0 ≤ x < 1/2. Portanto. prova-se isso da seguinte maneira.9. y = 0. se x ≥ 1/2. se x ≥ 1/2. Se a < λ. Logo. se x < 0.9. 4 8 8 6.4: Considere uma variável aleatória Y com função de distribuição F . 1/2. 0 a 0 xdF (x) ≥ − F (x)dx. x. Para x < 0. x. Para x > 0. Provando (b). −xdF é uma diferencial da área da região compreendida 0 entre as curvas x = 0. xdF é uma diferencial da área da região compreendida entre as curvas x = 0. A prova é dividida em duas etapas: (a) ∞ ∞ 0 0 xdF (x) = 0 (1−F (x))dx e (b) −∞ xdF (x) = − −∞ F (x)dx. 1 1 E(Y ) = P (Y = ) + 2 2 1/2 ydy = 0 3 1 1 + = . E(X) é a integral da diferencial xdF . ou seja.. 0 a 0 0 xdF (x) = −aF (a) − F (x)dx = a a (F (a) − F (x))dx. F (x) =  1. e y = F (x) no plano Euclideano.  0. 133 Exemplo 6. Fac (x) =  1/2.9.. Decompondo F nas partes discreta e contíınua tem-se Fd (x) = e 0. −∞ Por outro lado. se x < 1/2. se 0 ≤ x < 1/2. E(X) = xdF (x). E(X) = 0 (1 − F (x))dx − −∞ F (x)dx.6. tem-se que ∀a < 0. a Como a desigualdade é válida para todo a < 0. Utilizando 0 integração por partes. tomando o limite quando a → −∞ 0 −∞ 0 xdF (x) ≥ − F (x)dx. Mas xdF é uma diferencial de área. cuja área total é dada por 0 ∞ 0 F (x)dx.

xdF (x) ≥ 0 [1 − F (x)]dx. Por outro lado. utilizando integração por partes.6. Como isto é válido para todo λ > 0. 0 −∞ 0 xdF (x) ≤ − F (x)dx. ∞ 0 Como F (b) ≤ 1 e 1 − F (x) ≥ 0. xdF (x) = 0 0 [F (b) − F (x)]dx ≤ ∞ 0 (1 − F (x))dx. λ e portanto. e tomando o limite quando b → ∞ ∞ 0 xdF (x) ≤ (1 − F (x))dx. tomando o limite quando λ → ∞. 0 −∞ 0 xdF (x) ≤ − F (x)dx. Campos & Rêgo . b 0 b b xdF (x) = bF (b) − b b F (x)dx = 0 0 (F (b) − F (x))dx. Como a desigualdade é válida para todo b > 0. tomando o limite quando a → −∞. A desigualdade de Jensen é uma das propriedades da esperança. tem-se que ∀b > 0.. tomando o limite quando λ → −∞.9. Se b > λ. 134 0 a 0 0 (F (a) − F (x))dx ≤ λ (F (a) − F (x))dx = F (a)(−λ) − F (x)dx. λ Como isto é válido para todo λ < 0. ∞ 0 λ [1 − F (x)]dx.. ∞ 0 xdF (x) ≥ ∞ 0 [1 − F (x)]dx. APRENDENDO UM POUCO MAIS. seja λ > 0. tomando o limite quando b → ∞. então b 0 λ [F (b) − F (x)]dx ≥ = 0 λ 0 [F (b) − F (x)]dx λ [F (b) − 1]dx + λ 0 0 [1 − F (x)]dx = λ[F (b) − 1] + e portanto. −∞ Para a parte (a).

0) e X − = − min(X. Se X é integrável. e somente se. E(|X|) < ∞. E(X + ) < ∞ e E(X ) − < ∞. então X = X + − X − e |X| = X + + X − . P (|X| ≥ n) < ∞. 135 Corolário 6. então pela monotonicidade e linearidade da esperança. Eϕ(X) ≥ ϕ(x0 ) + λ(E(X) − x0 ).9.6.9.6: Seja X uma variável aleatória qualquer. Então. e somente se. 0). ∀x. seja ⌊x⌋ a parte inteira de x. ∞ n=1 P (|X| ≥ n) ≤ E(|X|) ≤ 1 + ∞ n=1 P (|X| ≥ n). O próximo lema estabelece um critério para integrabilidade de variáveis aleatórias. tem-se Eϕ(X) ≥ ϕ(E(X)).5: (Desigualdade de Jensen) Seja ϕ uma função mensurável e convexa definida na reta. existe uma reta que passa por esse ponto e fica sempre abaixo do gráfico de ϕ. 0 ≤ E⌊|X|⌋ ≤ E|X| ≤ 1 + E⌊|X|⌋. Campos & Rêgo . APRENDENDO UM POUCO MAIS. E(X) < ∞ se. Lema 6. Prova: Se x ≥ 0. Em particular. ϕ(x0 ) do gráfico de ϕ. e. e somente se. e somente se.9. pode-se concluir que E(ϕ(X)) < ∞ se. O próximo teorema fornece um outro critério para integrabilidade de uma variável aleatória. então E(ϕ(X)) ≥ ϕ(E(X)). ∞ n=1 P (|X| ≥ n) ≤ E|X| ≤ 1 + ∞ n=1 ∞ n=1 P (|X| ≥ n). Logo. Então. ou seja. ∞ n=1 ∞ n=1 Como ⌊|X|⌋ é uma variável aleatória que só assume valores inteiros não-negativos. Por definição. E⌊|X|⌋ = logo P (⌊|X|⌋ ≥ n) = P (|X| ≥ n). X é integrável se. De forma análoga.. pela monotonicidade e linearidade da esperança.. E(|ϕ(X)|) < ∞ para qualquer função mensurável ϕ. Prova: Pela convexidade de ϕ. para x0 = EX. a variável aleatória ⌊|X|⌋ assume o valor k quando k ≤ |X| < k + 1 e 0 ≤ ⌊|X|⌋ ≤ |X| ≤ ⌊|X|⌋ + 1. E(X) < ∞ se. existe algum λ tal que ϕ(x) ≥ ϕ(x0 ) + λ(x − x0 ). Portanto. portanto. dado algum ponto (x0 . Se X + = max(X.

Assim X e Xn são integráveis e E(Xn ) → E(X). Calcule o número médio de divisores do número sorteado.10. 0 < y < 1 0. Y ) = Y e w(X.7: Sejam X e Y variáveis aleatórias tais que Y ≥ 0. Suponha que a demanda (procura) por semana de um certo produto seja uma variável aleatória D com distribuição de probabilidade pk = P (D = k). 6. deve ser refugado a um custo adicional C3 . Então. y) = 2. X. . X1 . Sejam X. Y )). Y ) = XY . ∀ω. . . então. v(X. Teorema 6. Considere que Y seja integrável.9. . 3. Mostre que E(u(X. Se o fabricante decide fabricar N desses produtos no início da semana. o que por sua vez implica que E(X) < ∞. Teorema 6. pede-se: (a) A distribuição de probabilidade da variável aleatória lucro por semana. X2 . 0 < x < y. para k = 0.9.8: Teorema da Convergência Monótona.9. e somente se. Y é integrável e |X| < Y . Xn (w) → X(w) para todo w ∈ Ω. Se o produto não for vendido até o final da semana. Considere a seguinte sequência {X1 . Y ) = X. Y )) · E(v(X. variáveis aleatórias. O próximo exemplo mostra que nem sempre Xn → X ⇒ E(Xn ) → E(X). · · · . Sejam Y. Y ). Os dois importantes teoremas (Burrill. Sejam u(X. Se 0 ≤ Xn ↑ X. X1 . Seja Exercícios f (x. Mas. X é integrável. |Xn | ≤ Y e Xn → X.6. X2 . EXERCÍCIOS 136 Teorema 6. Para este produto sabe-se que o preço de custo é C1 . E(Xn ) ↑ E(X). X2 . Xn → X se. . (b) O lucro esperado por semana. Portanto. O critério de convergência envolvido é o pontual ou seja.10 1. 1/n) e Xn (ω) = 0.} de variáveis aleatórias: Xn (ω) = n se Y (ω) ∈ (0. então E(|X|) < ∞. Exemplo 6.10 : Seja Y ∼ U(0. 1972) a seguir tratam da convergência de esperanças de variáveis aleatórias. 1). E(Xn ) 0. Considere a variável aleatória X como sendo o número de divisores do número sorteado. ou seja. variáveis aleatórias. . . 1. enquanto o preço de venda é C2 . caso contrário. Xn (ω) → 0. 2.9: Teorema da Convergência Dominada. E(Xn ) = 1 = 0 = E(0). . Campos & Rêgo . Então. Sejam os inteiros de 1 a 10 e suponha que um deles seja escolhido aleatoriamente. se E(Y ) < ∞. Prova: Note que 0 ≤ |X| ≤ Y implica que 0 ≤ E(|X|) ≤ E(Y ). . 2. Y )) = E(w(X.9. quaisquer outros casos a função densidade conjunta do vetor aleatório (X.

Compute: (a) E(Y − X). (unidade monetária) ou 2 u. que é o tempo máximo praticamente possível durante o qual as mensagens podem ser transmitidas. 8. EXERCÍCIOS 137 4. Ache o valor esperado E do jogo e verifique se o mesmo é favorável ao jogador. Ganha 1 u. y) = 2. 0 < y < 1 − x < 1. Defina uma variável aleatória X como o número de mudanças nos dígitos. (b) E(XY ). para 0 < x < y < 1.10. (b) V (Y − X).. As variáveis aleatórias X1 e X2 são mutuamente independentes e têm densidades. Os tempos de duração das mensagens. Resolva o problema anterior quando os comprimentos das mensagens são dependentes e o coeficiente de correlação entre as variáveis Ti e Tj é rij . 9. 7. tenham terminado. A administração de uma rede planeja o momento Y de começo de uma operação como sendo o tempo máximo em que duas operações de suporte. (b) Encontre o número máximo praticamente possível de mudanças. X1 e X2 . (a) Encontre a média e a variância de X. calcule (a) as densidades de X e Y . n mensagens estão sendo enviadas através de um canal de comunicação. Campos & Rêgo . consiste de n dígitos 0 ou 1. conforme ocorra uma ou duas caras. discretas ou contínuas Mostre que. Um jogador lança duas moedas não-viciadas. ∀y ∈ RY . Sugestão: µX ± 3σX . perde 5 u.6. 10. Por outro lado. Se X e Y são varáveis aleatórias independentes. n são aleatórios. E(X | Y = y) = E(X). f (x. Y ). e têm a mesma média µ. Ti . Se (X. Encontre a média e a variância da variável Y . y) = 6(1 − x − y). i = 1 · · · . 6. se não ocorrer cara. sendo cada um igualmente provável e independentes. three sigma rule. (b) Encontre Tmax . Uma mensagem enviada através de um canal de comunicação.m.m. 5. 11.m. a mesma variância σ 2 e são independentes. (a) Encontre a média e a variância do tempo total T de transmissão das n mensagens. Y ) tem uma densidade conjunta f (x. Dada a densidade conjunta do vetor aleatório (X. respectivamente. fX1 e fX2 .

say xi . · · · . Suppose we are given a set of n distinct values. noting which are smaller and which are larger than xi . with probabilityn pi . then xi . 107). Consider n elements e1 . and Si . Campos & Rêgo . One measure of the effectiveness of this algorithm is the expected number of comparisons that it makes. and then the ordered set of elements in Si . pp. At each unit of time a request is made for one of these elements. After being requested the element is then moved to the front of the list. therefore. the set of elements greater than xi . Introduction to Probability Models. being requested. Analysing the Quick-Sort Algorithm. M. and we desire to put these values in increasing order. Let Mn the expected number of comparisons needed by the quick-sort algorithm to sort a set of n distinct values. independently of the past. The final ordering. Ross. Introduction to Probability Models.6. An efficient procedure for accomplishing this is the quick-sort algorithm which is defined recursively s follows: When n = 2 the algorithm compares the 2 values and puts them in the appropriate order. fifth edition. or as it is commonly called. xn . which are initially arranged in some ordered list. en . the algorithm now sorts the set Si and the set Si . M. We are interested in determining the expected position of the element requested after this process has been in operation for a long time (S. 96). Find E(Mn ) (S. Ross. ei . 13.10. fifth edition. and then compares each of the other n − 1 values with xi . to sort them. · · · . Letting Si denote the set of elements smaller than xi . EXERCÍCIOS 138 12. A List Model. x1 . pp. When n > 2 it starts by choosing at random one of the n values. consists of the ordered set of elements in Si .