Probabilidade e Estatística

Probabilidade e Estatística
Caroline Cavatti Vieira Bolonini

caroline.vieira@ufes.br
1. Introdução
• Definição de Estatística: é um conjunto de técnicas
que nos permite, de forma sistemática, coletar,
organizar, descrever, analisar e interpretar dados
oriundos de estudos/pesquisas.
Conceitos:
• Dados: Conjuntos de valores, numéricos ou não.

Todo dado se refere à determinada característica
(variável).
Tipos de Variáveis:
• Qualitativas: quando os possíveis valores que

assume representam atributos ou qualidades. Podem
ser:
• Nominais: o conjunto dos possíveis valores não

possui uma ordenação natural. Ex: Sexo, Raça,
Religião, etc.
• Ordinais: é possível ordenar o conjunto dos

possíveis valores. Ex: Classe Social, Escolaridade do
chefe da família, etc.
• Quantitativas: quando os possíveis valores que
assume são de natureza numérica. Podem ser:
• Discretas: em geral são fruto de uma contagem. O

conjunto de possíveis valores é enumerável. Ex:
Número de filhos na família, número de pessoas
chegando em uma fila, número de caras obtidas
em 5 lançamentos de uma moeda etc.
• Contínuas: assumem valores em intervalos dos

números reais. Ex: peso, altura, idade, etc.
• População: é um conjunto de dados, pessoas,
objetos, etc, que possuem pelo menos uma
característica em comum de interesse do
pesquisador.
• Amostra: é um subconjunto desta população obtida

de acordo com certas regras (técnicas de
amostragem).
• Em princípio, a seleção da amostra tenta fornecer um

subconjunto de valores o mais parecido possível com
a população que lhe dá origem.
• Exemplos:
1. A fim de medir o grau de satisfação do brasileiro em

relação ao atual governo Federal, foram
selecionados aleatoriamente 2000 eleitores
brasileiros .
População – Todos os indivíduos brasileiros que

possuem título eleitoral.
Amostra – os 2000 eleitores selecionados
aleatoriamente no país.
2. Deseja-se analisar a composição química de uma
jazida de minério de ferro. Para tal retira-se um
testemunho de 100 kg de minério de ferro dessa
jazida.
População – Toda a extensão da jazida mineral

estudada.
Amostra – A porção de 100 kg de minério de ferro
retirada da jazida.
2. Estatística descritiva
• Definição: Conjunto de técnicas utilizadas na

descrição e sumarização de um conjunto de dados a
fim de que possamos tirar conclusões diretas a
respeito das características de interesse com base
nos dados observados
• Apresentação dos dados: organizar os dados de

maneira prática e racional para o melhor
entendimento do fenômeno que se está estudando.
Pode ser por meio de tabelas e gráficos.
Tabelas de frequências
• O conjunto de informações disponíveis após tabulação de
questionário ou pesquisa de campo é denominado tabela
de dados brutos.
• Nela são listados individualmente cada elemento da

população ou amostra, com os valores de todas as
variáveis estudadas. (Vide planilha do Excel).
• Apesar de conter muita informação, a tabela de dados

brutos não é prática para respondermos rapidamente a
questões de interesse.
• Assim, a partir da tabela de dados brutos normalmente
construímos uma nova tabela denominada tabela de
frequência.
• A tabela de frequência mais simples é aquela que lista os

valores observados para determinada variável, e o
número de ocorrências (ou frequência absoluta) de cada
um destes valores. Exemplos:
Sexo f fr (%) Fuma f fr (%)

F 37 74 Sim 6 12
M 13 26 Não 44 88
total 50 100 total 50 100
Frequências:
• Frequência Absoluta (f): nº de elementos pertencentes à
uma classe.
• Frequência relativa (fr):
𝑓𝑟𝑒𝑞. 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒

𝑓𝑟 =
𝑓𝑟𝑒𝑞. 𝑡𝑜𝑡𝑎𝑙
• Frequência acumulada: fa = freq. absoluta da classe +

freq. absoluta das classes anteriores
• Frequência relativa acumulada: fra = freq. relativa da

classe + freq. relativa das classes anteriores
Exemplo:
Idade f fa fr (%) fra (%)
17 9 9 18 18
18 22 31 44 62
19 7 38 14 76
20 4 42 8 84
21 3 45 6 90
23 2 47 4 94
24 1 48 2 96
25 2 50 4 100
Total 50 100
• No caso da variável discreta assumir muitos
valores e no caso das variáveis contínuas, os
dados serão classificados em grupos,
possuindo diversos valores numa classe.
Exemplo:
Peso f fa fr (%) fra (%) densidade
ሾ44;52ሻ ≡ 44 |- 52 11 11 22 22 0,0275
ሾ52;60ሻ ≡ 52 |- 60 19 30 38 60 0,0475
60 |- 68 7 37 14 74 0,0175
68 |- 76 7 44 14 88 0,0175
76 |- 84 1 45 2 90 0,0025
84 |- 92 4 49 8 98 0,01
92 |- 100 1 50 2 100 0,0025
Total 50 100
Procedimento para construção de tabelas
1. Calcular a amplitude total (R).
2. Estipular o número de classes da tabela (k).

Em geral varia de 5 a 20.
• Critério para escolher k: seja n o número de
dados
- se 𝑛 ≤ 25 → 𝑘 = 5
- se 𝑛 > 25 → 𝑘 ≈ 𝑛
• OBS: arredondar o valor k para o inteiro mais

próximo.
3. Calcular a amplitude das classes (h), de forma que
as classes tenham a mesma amplitude. Para isso,
toma-se:
ℎ=𝑅 𝑘
• OBS: h deve ser tomado com número de casa

decimais igual ou menor que os dados; e seu valor
deve, sempre, ser arredondado para cima.
Construção de Gráficos
• Gráfico de Barras: Para cada valor da variável,

desenha-se no eixo horizontal (ou vertical) uma barra
com altura correspondente a sua freq. absoluta (ou
relativa).
• Este tipo de gráfico se adapta melhor às variáveis

quantitativas discretas, que assumem poucos valores
distintos, ou qualitativas.
• Gráfico de barras para a variável Idade.
25
22
20
Frequencias absolutas
15
10 9
7
5 4
3
2 2
1
0
17 18 19 20 21 23 24 25
Idade
• Diagrama circular, disco ou pizza: Tipo de gráfico
muito utilizado para representação de variáveis
qualitativas.
• Consiste num círculo dividido em setores, cujos

tamanhos são proporcionais às freq. absolutas ou
porcentagens correspondentes.
• É útil quando o número de classes é pequeno.

• Gráfico de pizza para a variável OpTV.
2% 14%
Ruim
6%
Boa
Média
78% Não sabe
• Histograma: Este é um gráfico que parte de uma
tabela de frequência de dados agrupados.
• Este gráfico consiste de retângulos contíguos cuja

base é igual à amplitude da classe correspondente e
área igual à frequência relativa de cada classe.
• A altura de cada retângulo é chamada de densidade

da classe. A densidade da classe i é o valor dado por:
𝑓𝑟𝑒𝑞. 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖

𝑑𝑖 =
𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖
• No caso da primeira classe da tabela de freq. da
variável peso temos:
𝑑1 = 0,22Τ8 = 0,0275.
• Obs: o histograma pode ainda ser representado por

retângulos contíguos cuja base é igual à amplitude
da classe correspondente e altura igual à frequência
absoluta (ou relativa) de cada classe.
• Histograma da variável peso.
0.04
0.03
Densidades
38%
0.02
22%
0.01
14% 14%
8%
0.00
2% 2%
44 52 60 68 76 84 92 100
Pesos (kg)
Medidas
• Medidas são resumos ou sumários da informação

trazida pela população (ou amostra) em um único
número.
• Existem diferentes classes de medidas, sendo as mais

conhecidas as medidas de posição e dispersão.
Definições:
• Parâmetro: Resumo de uma característica obtido a

partir de todos os elementos de uma população. Ex:
média populacional, desvio-padrão populacional.
• Estatística: Resumo da característica de interesse

levando-se em conta apenas os elementos da
amostra. Ex: média amostral, desvio-padrão
amostral.
Medidas de posição
Média
Medidas de tendência central Mediana
Moda
Medidas de
posição
Quartis
Medidas Separatrizes
Percentis
• Média amostral (𝑿 ഥ ): É um valor que representa o
centro de massa ou ponto de equilíbrio da
distribuição. É calculado por:
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 σ𝑛𝑖=1 𝑋𝑖
𝑋ത = =
𝑛 𝑛
• Para melhor compreensão do conceito de média

como centro de massa, imagine uma amostra com os
seguintes valores {8, 9, 5, 5, 4, 3, 6, 4}.
• Façamos um Diagrama de pontos, que é um gráfico
útil para visualização de pequenas amostras.
• Para tanto simplesmente plotamos um ponto para

cada valor da amostra sobre um segmento dos reais
que contenha todos os valores observados. Se
houver repetições plotamos um ponto sobre o outro.
• Note que a média pode ser pensada como um centro
de massa porque se cada ponto tivesse a mesma
massa, digamos 1kg, o triângulo representando a
média equilibraria exatamente estes pesos.
Média = 5,5
• Se os dados estiverem dispostos em tabela de
frequência como no exemplo abaixo,
Variável fi
X1 f1
X2 f2
... ...
... ...
Xk fk
Total n
fazemos:
𝑋1 𝑓1 + 𝑋2 𝑓2 + ⋯ + 𝑋𝑘 𝑓𝑘 σ𝑘𝑖=1 𝑋𝑖 𝑓𝑖
𝑋ത = =
𝑛 𝑛
• Se conhecermos a frequência relativa, o cálculo da

média passa a ser:
𝑘
𝑓1 𝑓𝑘
𝑋ത = 𝑋1 + ⋯ + 𝑋𝑘 = 𝑋1 𝑓𝑟1 + ⋯ + 𝑋𝑘 𝑓𝑟𝑘 = 𝑋𝑖 𝑓𝑟𝑖
𝑛 𝑛
𝑖=1
• Exemplo: Para calcularmos a média dos dados
abaixo:
X fi fr
1 3 0,3
2 4 0,4
3 2 0,2
5 1 0,1
Total 10 1
• Pelos dados brutos:
1 + 1 + 1 + 2 + 2 + 2 + 2 + 3 + 3 + 5 22
𝑋ത = = = 2,2
10 10
• Pela freqüência absoluta:

1×3+2×4+3×2+5×1
𝑋ത = = 2,2
10
• Pela freqüência relativa:

𝑋ത = 1 × 0,3 + 2 × 0,4 + 3 × 0,2 + 5 × 0,1 = 2,2
Observações:
• A média é uma medida afetada por valores

extremos.
• Se calcularmos o valor médio de uma variável para

toda a população, teremos a média populacional,
normalmente designada pela letra grega µ (mi).
Onde:
σ𝑁
𝑖=1 𝑋𝑖
𝜇=
𝑁
• Mediana: É o valor que divide o conjunto de
dados ordenados ao meio, de tal forma que
50% dos valores observados são menores ou
iguais à mediana e 50% são maiores ou iguais
a ela. Notação: md - amostra ou Md -
população.
Procedimento para calcular a mediana:
1. Ordenar os dados.
2. Localizar a posição central. Para isto calcula-se:
n +1
2
3. Se o número de observações (n) for ímpar, a
mediana será a observação central; e se n for par, a
mediana será a média entre as duas observações
centrais.
Exemplos:
a) quando n é par: { 1; 1; 1; 3; 3; 5; 3; 3; 2; 2}.
1. {1; 1; 1; 2; 2; 3; 3; 3; 3 ;5};
2. (10 + 1)Τ2 = 11Τ2 = 5,5
1 1 1 2 2 3 3 3 3 5
• Então, tomamos a média entre eles como a mediana:
2+3
𝑚𝑑 = = 2,5
2
b) quando n é ímpar: { 1; 1; 1; 3; 3; 4; 4; 5; 5}.
Posição - (9 + 1)Τ2 = 10Τ2 = 5
1 1 1 3 3 4 4 5 5
Neste caso, 𝑚𝑑 = 3.
• Observação: a mediana é menos afetada por valores

extremos do que a média.
Moda:
• A moda de um conjunto de dados é o valor que

ocorre com maior freqüência. Notação: mo - amostra
ou Mo - população.
• Exemplo 1: { 1; 1; 3; 3; 5; 3; 3; 2}.
𝑚𝑜 = 3. Dizemos que este conjunto é unimodal.
• Em um conjunto de dados pode haver mais de uma

moda.
Exemplo 2: { 1; 1; 1; 1; 3; 3; 3; 3; 5}.
𝑚𝑜1 = 1 e 𝑚𝑜2 = 3 . Neste caso se diz que o

conjunto é bimodal.
• Se houver mais de duas modas diz-se que o conjunto

é multimodal. Por outro lado se nenhum valor se
repete o conjunto não tem moda.
• Exemplo 3: Com base na tabela de frequências

abaixo, calcule as medidas de tendência central para
a variável idade (em anos completos).
Idade fi fa
17 9 9
18 22 31
19 7 38
20 4 42
21 3 45
22 0 45
23 2 47
24 1 48
25 2 50
Total 50
𝑚𝑜 = 18 anos
50 + 1
Posição da mediana : = 25,5
2
18+18
𝑚𝑑 = 2
= 18 anos
𝑋ത = 17 ∙ 9 + 18 ∙ 22 + 19 ∙ 7 + 20 ∙ 4 + 21 ∙ 3
+ 23 ∙ 2 + 24 ∙ 1 + 25 ∙ 2ሻ/50
𝑋ത = 18,9 anos
Percentil (Pα):
• O percentil de ordem α de um conjunto de

dados é um valor Pα% tal que α% dos valores
são inferiores ou iguais a ele e (100 - α)% dos
valores são maiores ou iguais a ele.
α% (100 - α)%
Pα
• A mediana é o percentil de ordem 50.
• Os percentis de ordem 25, 50 e 75 dividem o conjunto de
dados ordenados em 4 partes iguais e são chamados
respectivamente de 1º Quartil (Q1), 2º Quartil (Q2) e 3º
Quartil (Q3).
• Como calcular o percentil Pα para dados agrupados:
X
fraa %
α% frα %
(α - fraa) %
𝐻 𝑋
=
𝑓𝑟𝛼 𝛼 − 𝑓𝑟𝑎𝑎ሻ
lα Pα Lα
H
1. A partir da análise das frequências relativas
acumuladas, localizar a classe a qual pertence o
percentil Pα (lα |- Lα).
2. Encontrar a frequência relativa da classe que

contém o percentil Pα. Denote-a por 𝑓𝑟𝛼 .
3. Encontrar a frequência relativa acumulada até a

classe anterior à classe do percentil Pα. Denote-a
por 𝑓𝑟𝑎𝑎 .
4. Calcule a diferença 𝛼 − 𝑓𝑟𝑎𝑎 . Esta diferença é a

frequência relativa do intervalo lα |- Pα.
5. O valor da mediana é obtido resolvendo-se a
seguinte regra de três:
𝐿𝛼 − 𝑙𝛼 → 𝑓𝑟𝛼
𝑃𝛼 − 𝑙𝛼 → 𝛼 − 𝑓𝑟𝑎𝑎
𝐿𝛼 − 𝑙𝛼 ሻ 𝛼 − 𝑓𝑟𝑎𝑎
𝑃𝛼 = 𝑙𝛼 +
𝑓𝑟𝛼
Exemplo: As notas de 40 estudantes de uma classe estão
descritas a seguir. Encontre os três quartis.
Notas fi fa fr (%) fra (%)
0,0 |- 1,5 3 3 7,5 7,5
1,5 |- 3,0 7 10 17,5 25,0
3,0 |- 4,5 7 17 17,5 42,5
4,5 |- 6,0 12 29 30,0 72,5
6,0 |- 7,5 8 37 20,0 92,5
7,5 |- 9,0 3 40 7,5 100
Total 40 100
• 1º quartil (P25): Analisando as frequências
relativas acumuladas fornecidas na tabela de
frequências observa-se que 25% dos alunos
tiraram nota inferior à 3,0. Assim,
P25 = 3,0
• Mediana (P50):
1. Classe 4,5|- 6,0.

2. 𝑓𝑟50 = 0,30.
3. 𝑓𝑟𝑎𝑎 = 0,425.
4. 𝛼 − 𝑓𝑟𝑎𝑎 = 0,5 − 0,425 = 0,075.
0,075 ሻ
5. 𝑃50 = 4,5 + 6,0 − 4,5ሻ 0,30
≅ 4,88
Assim, 50% dos alunos tiraram notas inferiores a 4,88.

• 3º quartil (P75):
1. Classe 6,0|- 7,5.
2. 𝑓𝑟75 = 0,2.
3. 𝑓𝑟𝑎𝑎 = 0,725.
4. 𝛼 − 𝑓𝑟𝑎𝑎 = 0,75 − 0,725 = 0,025.

0,025 ሻ
5. 𝑃75 = 6 + 7,5 − 6ሻ ≅ 6,19.
0,2
Assim, 75% dos alunos tiraram notas inferiores a 6,19.

Medidas de variabilidade
• Medem o espalhamento ou dispersão dos dados.

Complementam importantes informações
escondidas pelas medidas de posição. Exemplo
Desempenho de dois alunos em 5 avaliações:
Aluno 1: {55; 57; 60; 62; 66}.

Aluno 2: {38; 49; 60; 72; 81}.
𝑋ത1 = 𝑋ത2 = 60 e 𝑚𝑑1 = 𝑚𝑑2 = 60.

Amplitude total (R):
• A amplitude total de um conjunto de dados é

definida como a diferença entre o maior e o menor
valor observado.
• Ex: - Aluno 1: 𝑅 = 66 − 55 = 11.
- Aluno 2: 𝑅 = 81 − 38 = 43.
Variância amostral (𝑺𝟐 ):
• A variância amostral é uma medida de dispersão que leva

em conta todas as observações feitas. Ela mede a
dispersão dos dados em torno da média amostral.
Considere as observações X1, X2, ... , Xn:
• Temos
• Assim define-se a variância amostral como:
σ𝑛
(𝑋
𝑖=1 𝑖 − ത
𝑋 )2
2
𝑆 =
𝑛−1
• Ou de forma equivalente:
𝑛 2
1 𝑛 σ 𝑋
𝑖=1 𝑖 ሻ
2
𝑆 = 𝑋𝑖2 −
𝑛−1 𝑖=1 𝑛
Ex: - Aluno 1:
𝑆 2 = ሾ 55 − 60 2
+ 57 − 60 2
+ 60 − 60 2
2
+ 62 − 60 + 66 − 60 2 ]/4
2
25 + 9 + 0 + 4 + 36 74
𝑆 = = = 18.5
4 4
Ex: - Aluno 2:
𝑆 2 = ሾ 38 − 60 2 + 49 − 60 2
+ 60 − 60 2
2
+ 72 − 60 + 81 − 60 2 ]/4
2
484 + 121 + 0 + 144 + 441 1190
𝑆 = = = 297.5
4 4
• Inconvenientes da variância:
1. As unidades de medida da variância amostral são o

quadrado da unidade original da variável (m2 para
altura, kg2 para peso, etc).
• Para evitar-se este desconforto estabeleceu-se o

desvio padrão amostral definido por:
σ𝑛𝑖=1 𝑋𝑖 − 𝑋ത 2
𝑆= 𝑆2 = ,
𝑛−1
que mostra a variabilidade medida na unidade original
da variável analisada.
• Ex: - Aluno 1: 𝑆 = 18,5 = 4,3.
- Aluno 2: 𝑆 = 297,5 = 17,2.
2. Não permite comparar a variabilidade de dados

medidos em diferentes unidades de medida ou
medidos na mesma unidade mas com médias
diferentes.
• Aqui a solução foi a criação de uma medida chamada
coeficiente de variação que não sofre influência nem
da média nem da unidade de medida.
• O coeficiente de variação é uma medida de

dispersão relativa e é definido como:
ത × 100
Amostra – 𝐶𝑉 = 𝑆Τ𝑋ሻ
• O coeficiente de variação também pode ser utilizado
para medir o efeito da variação ou dispersão em
relação à média.
• Exemplo: Em qual grupo há mais variação em torno

da média:
Variável média variância

altura 1,70 m 0,0025 m2
peso 60 kg 2,25 kg2
0,0025
𝐶𝑉𝑎 = ∗ 100 = 2,94%
1,7
2,25
𝐶𝑉𝑝 = ∗ 100 = 2,5%
60
Resposta: Uma vez que a variável peso possui menor

coeficiente de variação, concluímos que o conjunto
de valores da variável peso possui menor dispersão
em torno da média do que o conjunto de valores da
variável altura.
• Se os dados estiverem dispostos em tabela de
frequência como no exemplo abaixo,
Variável fi
X1 f1
X2 f2
... ...
... ...
Xk fk
Total n
fazemos:

k
(X − X )  fi
2
= i =1
2 i
S
n −1
• Ou ainda,

1  k ( k
X i fi ) 
2
S =
2
n −1 
i =1
X i fi −
2 i =1
n 
 
Exemplo: Calcule a variância e o desvio padrão da variável
idade (em anos completos).
Idade fi Xi*fi Xi2*fi
17 9 153 2601
18 22 396 7128
19 7 133 2527
20 4 80 1600
21 3 63 1323
23 2 46 1058
24 1 24 576
25 2 50 1250
Total 50 945 18063
Temos que: 𝑋ത = 18,9 anos
S =
2 1 
−
(945 )  202 ,5
2
= = 2
18063  4,13 anos
49  50  49
S = 4,13 = 2,03 anos
• Observação: A variância também é afetada por

valores extremos.
• Observação: Se calcularmos a variância de uma
população de tamanho N, teremos a variância
populacional, normalmente designada pela letra
grega σ (sigma). Onde:
𝑁 2
2
σ 𝑋
𝑖=1 𝑖 − 𝜇 ሻ
𝜎 =
𝑁
• Dessa forma,
𝐶𝑉 = 𝜎Τ𝜇ሻ × 100
3. Probabilidade
Conceitos iniciais
• Probabilidade é a medida de incerteza sobre algum

fenômeno aleatório de interesse.
• Fenômeno Aleatório: é um acontecimento cujo

resultado não pode ser previamente previsto com
certeza. Um experimento aleatório pode fornecer
diferente resultados, mesmo que seja repetido
sempre da mesma maneira. Exemplos:
1. O resultado do seu time no próximo jogo do
Campeonato Brasileiro;
2. A altura do aluno sorteado ao acaso nesta sala;
3. A taxa de inflação do mês subseqüente;
4. O resultado do lançamento de um dado.

• Espaço amostral (Ω ou S): é o conjunto de
todos os resultados possíveis de um
fenômeno ou experimento aleatório. Pode ser
finito ou infinito, de acordo com a quantidade
de possíveis resultados.
• O espaço amostral de cada um dos exemplos
anteriores é:
1. Ω = {derrota, empate, vitória};
2. Ω = (0; ∞);
3. Ω = Conjunto dos Reais
4. Ω = {1, 2, 3, 4, 5, 6}
• Evento: é qualquer subconjunto do espaço amostral
(Ω). São representados por letras maiúsculas do
alfabeto. Exemplos:
1. Seu time não perde: A = {empate, vitória};
2. A altura do aluno está entre 1,40 e 1,60:

B = (1,40; 1,60);
3. A taxa de inflação do próximo mês é menor ou

igual a 10%: C = (- ∞; 0,10];
4. Ocorre uma face par: D = {2; 4; 6}.

Eventos especiais:
• Evento impossível (∅): é o evento que nunca

ocorre.
• Evento certo (Ω): é o evento que sempre

ocorre.
• União de eventos ( 𝑨 ∪ 𝑩 ): representa a

ocorrência de pelo menos um dos eventos A
ou B, ou seja, A ou B ou ambos.
Ω
EX: Experimento: lançamento de um dado.
• Evento A: ocorre face par. A = {2, 4, 6}

• Evento B: ocorre face inferior a 4. B = {1, 2, 3}
𝐴 ∪ 𝐵 = {1, 2, 3, 4, 6}
• Interseção de eventos ( 𝑨 ∩ 𝑩 ): representa a
ocorrência simultânea de A e B.
EX: no nosso exemplo anterior.

• Evento A: ocorre face par.
• Evento B: ocorre face inferior a 4.
𝐴 ∩ 𝐵 = {2ሽ
• Eventos disjuntos ou mutuamente exclusivos: São
eventos que não podem ocorrer simultaneamente. A e B
são disjuntos se e somente se 𝐴 ∩ 𝐵 = ∅.
EX: Experimento: lançamento de um dado.
• Evento A: ocorre face inferior a 4. A = {1, 2, 3}

• Evento B: ocorre face 5. B = {5}
𝐴∩𝐵 =∅
• Eventos complementares ഥ
(𝑨 ou 𝑨𝒄
, ou 𝑨′
): O evento
𝐴 ocorre se o evento A não ocorre. É formado por
todos os pontos de Ω que não estão em A. A e 𝐴 são
complementares se, e somente se, 𝐴 ∩ 𝐴 = ∅ e
𝐴 ∪ 𝐴 = Ω.
Ω
• No lançamento de um dado, se A é o evento
“ocorrer face par”, então o evento complementar de
A é o evento “ocorrer face ímpar”.
A = {2, 4, 6ሽ e Aሜ = {1 , 3 , 5ሽ
• Observação: É importante relembrar as leis de

Morgan:
𝐴 ∪ 𝐵ሻ = 𝐴 ∩ 𝐵ത e 𝐴 ∩ 𝐵ሻ = 𝐴 ∪ 𝐵ത
Definição de probabilidade
• Probabilidade é uma função 𝑃 ∙ሻ definida do

conjunto de todos os possíveis subconjuntos de Ω
em [0;1]. Esta função atribui chances de ocorrência
de cada evento de Ω.
• Definição clássica de probabilidade: Seja um

experimento aleatório com espaço amostral finito
Ω = {𝜔1 , 𝜔2 , ⋯ , 𝜔𝑛 ሽ. Se tivermos evidências de que
todos os resultados têm a mesma chance de
acontecer, define-se:
1
𝑃 𝜔𝑖 = 𝑛
; 𝑖 = 1, ⋯ , 𝑛.
• Para 𝐴 ⊂ Ω defini-se:
# 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝐴 𝑛 𝐴ሻ
𝑃 𝐴 = =
# 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 Ω 𝑛 Ωሻ
• Neste caso dizemos que os resultados 𝜔𝑖 são

equiprováveis.
Exemplos:
1. Qual e a probabilidade de se extrair um ás de um

baralho bem misturado de 52 cartas?
A = extrair um ás de um baralho.
n(A) = 4; n(Ω) = 52
4 1
𝑃 𝐴 = = ≅ 0,08
52 13
2. Experimento: lançar duas moedas e observar a
configuração obtida. c = cara; k = coroa.
Ω = {cc; ck; kc; kk}
• Qual a probabilidade de se obter zero caras? E uma

cara?
A – zero caras → A = {kk} → 𝑃 𝐴 = 1Τ4.
B – uma cara → B = {ck; kc} → 𝑃 𝐵 = 2Τ4.
Axiomas e propriedades de probabilidade
1. P Ω = 1.
2. P ∅ = 0.
3. 0 ≤ P Aሻ ≤ 1, para qualquer evento A.
4. 𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃 𝐴 ∩ 𝐵
Se A e B forem disjuntos, então:

𝑃 𝐴∪𝐵 =𝑃 𝐴 +𝑃 𝐵
ഥ = 1 − P Aሻ.
5. P A
ഥ são complementares temos A ∩ A
Como A e A ഥ=∅ e
A∪Aഥ = Ω.
Pela 4ª propriedade, obtemos que,

ഥ =P A +P A
P Ω =P A∪A ഥ
Já pela 1ª propriedade, temos que,

ഥ = 1,
P A +P A
ഥ =1−P A .
∴P A
• Exemplo: Distribuição de alunos segundo o sexo e a
escolha do curso.
Sexo
Curso Total
Homens (H) Mulheres (M)
Matemática Pura (P) 70 40 110
Matemática Aplicada (A) 15 15 30

Estatística (E) 10 20 30
Computação (C) 20 10 30
Total 115 85 200
• Calcule 𝑃 𝑃 ∪ 𝐸 , 𝑃 𝐴 ∪ 𝑀 e 𝑃 𝐶 .
110 30 140
𝑃 𝑃∪𝐸 =𝑃 𝑃 +𝑃 𝐸 = + = = 0,7
200 200 200
𝑃 𝐴 ∪ 𝑀 = 𝑃 𝐴 + 𝑃 𝑀 − 𝑃 𝐴 ∩ 𝑀ሻ
30 85 15 100
= + − = = 0,5
200 200 200 200
30 170
𝑃 𝐶 =1−𝑃 𝐶 =1− = = 0,85
200 200
Probabilidade condicional
• Para dois eventos A e B do espaço amostral

definimos:
• Definição: A probabilidade condicional de um evento

A dado um evento B, denotada por 𝑃 𝐴|𝐵ሻ, é,
𝑃 𝐴 ∩ 𝐵ሻ
𝑃 𝐴𝐵 = 𝑝𝑎𝑟𝑎 𝑃 𝐵ሻ ≠ 0
𝑃 𝐵ሻ
• A probabilidade condicional de A dado B revela a
incerteza que se tem sobre o evento A supondo
conhecida a verdade sobre o evento B. Podemos
interpretá-la como a chance relativa de A restrita ao
fato de que B ocorreu.
Exemplos:
1. Uma urna contém 2 bolas brancas (B) e 3 bolas

vermelhas (V). Suponha que são sorteadas duas
bolas ao acaso, sem reposição.
2. Suponha que, de todos os indivíduos que compram
determinada câmera digital, 60% incluem um cartão de
memória opcional na compra, 40% incluem uma bateria
extra e 30% incluem um cartão e uma bateria. Um
indivíduo selecionado aleatoriamente comprou uma
bateria extra (B), a probabilidade de compra de um
cartão de memória (M) é dada por:
𝑃 𝑀 ∩ 𝐵ሻ 0,3
𝑃 𝑀|𝐵 = = = 0,75
𝑃 𝐵ሻ 0,4
Isto é, de todos os que compraram uma bateria extra,

75% compram também um cartão de memória.
3. Uma revista publica 3 colunas, intituladas “Arte” (A),
“Livros” (L) e “Cinema” (C). Os hábitos de leitura de um
leitor selecionado aleatoriamente em relação a essas
colunas são dadas na tabela abaixo. Calcule P(A|lê pelo
menos uma coluna) e P(AꓴL|C).
Lê
Probabilidade A L
regularmente
A 0,14 0,02 0,03 0,07
L 0,23
0,05
C 0,37
0,04 0,08
AꓵL 0,08
AꓵC 0,09
0,2
LꓵC 0,13 0,51 C
AꓵLꓵC 0,05
• 𝑃 𝐴 𝑙ê 𝑎𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑚𝑎 𝑐𝑜𝑙𝑢𝑛𝑎
𝑃 𝐴 ∩ 𝐴 ∪ 𝐿 ∪ 𝐶ሻሻ
=𝑃 𝐴 𝐴∪𝐿∪𝐶 =
𝑃 𝐴 ∪ 𝐿 ∪ 𝐶ሻ
𝑃 𝐴ሻ 0,14
= = = 0,286
𝑃 𝐴 ∪ 𝐿 ∪ 𝐶ሻ 0,49
𝑃 𝐴 ∪ 𝐿ሻ ∩ 𝐶ሻ
• 𝑃 𝐴∪𝐿 𝐶 =
𝑃 𝐶ሻ
0,04 + 0,05 + 0,08 0,17

= = = 0,459
0,37 0,37
Propriedades:
1. 𝑃 Ω|𝐶 = 1
2. 𝑃 ∅|𝐶 = 0
3. 0 ≤ 𝑃 𝐴|𝐶ሻ ≤ 1, para qualquer evento A.
4. 𝑃 𝐴 ∪ 𝐵|𝐶 = 𝑃 𝐴|𝐶 + 𝑃 𝐵|𝐶 − 𝑃 𝐴 ∩ 𝐵|𝐶ሻ
5. 𝑃 𝐴 ∪ 𝐵|𝐶 = 𝑃 𝐴|𝐶 + 𝑃 𝐵|𝐶 ⇔ 𝐴 ∩ 𝐵 = ∅
6. 𝑃 𝐴|𝐵 = 1 − 𝑃 𝐴|𝐵ሻ
Regra da multiplicação
• A definição de probabilidade condicional pode

ser reescrita para fornecer uma expressão
geral para a probabilidade da interseção de
dois eventos:
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 𝐵 𝑃 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴ሻ
• Exemplo 1: Acredita-se que na população do ES 20%
de seus habitantes sofrem algum tipo de alergia,
sendo classificados como alérgicos (A) para fins de
saúde pública. Sendo alérgico, a probabilidade de ter
reação a certo antibiótico (B) é de 0,5. Para os não
alérgicos esta probabilidade é de apenas 0,05.
Escolhendo-se uma pessoa ao acaso da população do
ES, qual a probabilidade de que ela:
a. Seja do grupo dos alérgicos e tenha alergia ao
ingerir o antibiótico?
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 𝐴 𝑃 𝐴 = 0,5 × 0,2 = 0,10
b. Seja do grupo dos não alérgicos e não tenha

alergia ao ingerir o antibiótico?
𝑃 𝐴 ∩ 𝐵ത = 𝑃 𝐵ത 𝐴 𝑃 𝐴
= 1−𝑃 𝐵 𝐴 1−𝑃 𝐴
= 1 − 0,05 1 − 0,2
= 0,95 × 0,8 = 0,76
Exemplo 2: Considere uma urna contendo três bolas
pretas (P) e cinco bolas vermelhas (V).
a. Duas bolas são retiradas da urna, sem reposição.

Qual a probabilidade de que ambas sejam da
mesma cor.
b. Três bolas são retiradas da urna, sem reposição.

Qual a probabilidade de que apenas uma delas seja
vermelha.
a. Ω = 𝑃𝑃; 𝑃𝑉; 𝑉𝑃; 𝑉𝑉
3 2 6
𝑃 𝑃𝑃 = 𝑃 𝑃1 ∙ 𝑃 𝑃2 |𝑃1 = ∙ =
8 7 56
5 4 20
𝑃 𝑉𝑉 = 𝑃 𝑉1 ∙ 𝑃 𝑉2 |𝑉1 = ∙ =
8 7 56
6 20 26
𝑃 𝑃𝑃 ∪ 𝑉𝑉 = + = = 0,46
56 56 56
b. Ω = 𝑃𝑃𝑃; 𝑃𝑃𝑉; 𝑃𝑉𝑃; 𝑉𝑃𝑃; 𝑉𝑉𝑃; 𝑉𝑃𝑉; 𝑃𝑉𝑉; 𝑉𝑉𝑉
3 2 5 30
𝑃 𝑃𝑃𝑉 = 𝑃 𝑃1 ∙ 𝑃 𝑃2 |𝑃1 ∙ 𝑃 𝑉3 |𝑃1 ∩ 𝑃2 = ∙ ∙ =
8 7 6 336
3 5 2 30
𝑃 𝑃𝑉𝑃 = 𝑃 𝑃1 ∙ 𝑃 𝑉2 |𝑃1 ∙ 𝑃 𝑃3 |𝑃1 ∩ 𝑉2 = ∙ ∙ =
8 7 6 336
5 3 2 30
𝑃 𝑉𝑃𝑃 = 𝑃 𝑉1 ∙ 𝑃 𝑃2 |𝑉1 ∙ 𝑃 𝑃3|𝑉1 ∩ 𝑃2 = ∙ ∙ =
8 7 6 336
30
𝑃 𝑃𝑃𝑉 ∪ 𝑃𝑉𝑃 ∪ 𝑉𝑃𝑃 = 3 × = 0,268
336
Nº de sequencias com duas bolas pretas e uma bola

3!
vermelha: 𝑃32,1 = =3
2!1!
Relembrando Análise Combinatória!
Permutação com repetição
• Se há n elementos dos quais n1 são iguais, n2 são

iguais,..., nk são iguais (𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘 = 𝑛), o
número de permutações de todos os n elementos é
n!
Pn
n1 ,, nk
=
n1! nk !
Independência
• Definição: Dois eventos A e B são independentes se a
ocorrência de um não afeta a probabilidade de
ocorrência do outro. Assim, tem-se que:
P AB =P A e P B A = P Bሻ
• Dessa forma, para dois eventos independentes a

regra da multiplicação reduz-se a:
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴ሻ × 𝑃 𝐵ሻ
Exemplos:
1. Urna → 2 bolas brancas (B) e 3 bolas vermelhas (V).

Sorteia-se 2 bolas ao acaso, com reposição.
2. Considere os sistemas com dois componentes
apresentados na figura a seguir.
• No sistema da figura (a) os componentes estão ligados

em série. Neste caso, o sistema funcionará se os
componentes 1 e 2 funcionarem simultaneamente. Se
um dos componentes falhar, o sistema também falhará.
• Se os componentes estiverem ligados em paralelo,
como na figura (b), então o sistema funcionará se
pelo menos um dos dois componentes funcionar.
• Denotemos por F o evento “o sistema funciona” e

por Ai o evento “o componente i funciona”, i = 1, 2.
• Supondo que os componentes de ambos os sistemas

funcionem independentemente, e se pi for a
probabilidade de o componente i (i = 1, 2) funcionar,
então:
• A probabilidade do sistema da figura (a) funcionar
será
P( F ) = P( A1  A2 ) = P( A1 )  P( A2 ) = p1 p2
• Já a probabilidade do sistema da figura (b) funcionar

será
P( F ) = P( A1  A2 ) = P( A1 ) + P( A2 ) − P( A1  A2 ) = p1 + p2 − p1 p2
3. Sejam A e B dois eventos mutuamente exclusivos com
P(A) > 0. Por exemplo, para um automóvel escolhido
aleatoriamente, seja A = {o carro possui um motor de 4
cilindros} e B = {o carro possui um motor de 6 cilindros}.
Como 𝐴 ∩ 𝐵 = ∅, se B ocorrer, A necessariamente não
pode ocorrer, de forma que
𝑃 𝐴 𝐵 = 0 ≠ 𝑃 𝐴ሻ
A mensagem aqui é: se dois eventos forem mutuamente
exclusivos, não podem ser independentes. Quando A e B
são mutuamente exclusivos, a informação da ocorrência
de A indica algo sobre B (não pode ter ocorrido), de
forma que a independência é excluída.
Regra da probabilidade total
• A regra da multiplicação é útil para determinarmos a
probabilidade de um evento que depende de outros
eventos.
• Exemplo 1: Em uma fábrica de parafusos, as máquinas

A e B produzem 2/3 e 1/3 da produção total,
respectivamente. Da produção de cada máquina 2% e
0,8%, respectivamente, são parafusos defeituosos.
Escolhendo-se aleatoriamente um parafuso, qual a
probabilidade que ele seja defeituoso?
• Claramente a resposta depende de qual máquina
produziu aquele parafuso. Seja D o evento - o
parafuso é defeituoso, temos que: 𝐷 = 𝐷 ∩ 𝐴 ∪
𝐷 ∩ 𝐵ሻ.
• E como 𝐷 ∩ 𝐴 e 𝐷 ∩ 𝐵ሻ são disjuntos podemos

escrever que:
𝑃 𝐷 =𝑃 𝐷∩𝐴 +𝑃 𝐷∩𝐵
=𝑃 𝐷 𝐴 𝑃 𝐴 +𝑃 𝐷 𝐵 𝑃 𝐵
𝑃 𝐷 = 0,02 × 2Τ3 + 0,008 × 1Τ3 = 0,016
• Para generalizarmos o conceito da probabilidade

total, definimos:
• Definição: Dizemos que os eventos {A1; A2; ... ; An}

formam uma partição do espaço amostral se:
𝑛
ራ 𝐴𝑖 = Ω 𝑒 𝐴𝑖 ∩ 𝐴𝑗 = ∅ 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗
𝑖=1
• Podemos assim enunciar o Teorema da

Probabilidade Total: Seja {A1; A2; ... ; An} uma
partição do espaço amostral e seja B um evento
qualquer, então,
𝑃 𝐵 = 𝑃 𝐵 ∩ 𝐴1 + 𝑃 𝐵 ∩ 𝐴2 + ⋯ + 𝑃 𝐵 ∩ 𝐴𝑛
𝑃 𝐵ሻ = 𝑃 𝐵 𝐴1 𝑃 𝐴1 + 𝑃 𝐵 𝐴2 𝑃 𝐴2 + ⋯ + 𝑃 𝐵 𝐴𝑛 𝑃 𝐴𝑛
𝑛
𝑃 𝐵ሻ = 𝑃 𝐵 𝐴𝑖 𝑃 𝐴𝑖
𝑖=1
• Exemplo 2: Suponha que um fabricante de sorvetes
recebe 20% de todo o leite que consome da fazenda F1,
30% da fazenda F2 e o restante da F3.
• A vigilância sanitária inspecionou as fazendas de surpresa

e observou que 20% do leite produzido na fazenda F1
estava adulterado por adição de água, o mesmo
ocorrendo com 5% e 2% respectivamente nas fazendas F2
e F3.
• Na indústria de sorvete os galões de leite são

armazenados sem identificação das fazendas produtoras.
Um galão é sorteado ao acaso na indústria. Seja A = {o
leite está adulterado} e Fi = {o leite veio da fazenda Fi }.
Calcule:
a. A probabilidade de que o galão esteja adulterado.
𝑃 𝐴 = 𝑃 𝐴 ∩ 𝐹1 + 𝑃 𝐴 ∩ 𝐹2 + 𝑃 𝐴 ∩ 𝐹3
𝑃 𝐴ሻ = 𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3
𝑃 𝐴 = 0,2 × 0,2 + 0,05 × 0,3 + 0,02 × 0,5 = 0,065

b. A probabilidade do galão estando adulterado ter
vindo da fazenda F1.
𝑃 𝐹1 ∩ 𝐴ሻ
𝑃 𝐹1 𝐴 =
𝑃 𝐴ሻ
𝑃 𝐴 𝐹1 𝑃 𝐹1 ሻ
𝑃 𝐹1 𝐴 =
𝑃 𝐴 𝐹1 𝑃 𝐹1 + 𝑃 𝐴 𝐹2 𝑃 𝐹2 + 𝑃 𝐴 𝐹3 𝑃 𝐹3
0,2 × 0,2
𝑃 𝐹1 𝐴 = ≅ 0,615
0,065
4. Variáveis Aleatórias
• Definição: Uma variável aleatória (v.a.) é uma função

que confere um número real a cada resultado no
espaço amostral de um experimento aleatório.
• Uma variável aleatória é denotada por uma letra

maiúscula (por ex. X) e os valores que ela pode
assumir como xi.
Exemplos:
1. Experimento – lançar duas moedas. O espaço

amostral desta experiência é Ω = {cc; ck; kc; kk}
onde c = cara e k = coroa. Uma variável aleatória
pode ser “número de caras”, X = {0; 1; 2}.
2. Experimento – jogar um dado duas vezes. X = soma
das duas faces obtidas. X = {2, 3, 4, 5, 6, 7, 8, 9, 10,
11, 12}.
1; 1 … 1; 6
Ω= ⋮ ⋱ ⋮
6; 1 … 6; 6
Classificação:
• Variável aleatória discreta: assume valores num

conjunto finito ou infinito enumerável. EX: n° de filhos na
família, n° de peças defeituosas em um lote, nº de
clientes atendidos num caixa de supermercado em um
dia.
• Variável aleatória contínua: seu conjunto de valores é

qualquer intervalo dos números reais, o que seria um
conjunto infinito não enumerável. EX: peso, altura,
corrente elétrica, pressão, temperatura, tempo.
Variáveis aleatórias discretas
• Seja X uma v.a. discreta. A distribuição de

probabilidades ou função de probabilidade (f.p.) de
X é uma função 𝑃 𝑋 = 𝑥ሻ que atribui a cada valor
possível de X a sua probabilidade de ocorrência.
• Assim se X é uma variável aleatória assumindo os

valores x1, x2, ... a função de probabilidade associada
a X é:
𝑃 𝑋 = 𝑥𝑖 = 𝑃 𝑥𝑖 = 𝑝𝑖 , 𝑖 = 1 , 2, …
ou ainda,
X 𝑥1 𝑥2 𝑥3 ...
𝑝𝑖 𝑝1 𝑝2 𝑝3 ...
• Uma função de probabilidade satisfaz: 0 ≤ 𝑝𝑖 ≤ 1 e

σ𝑖 𝑝𝑖 = 1.
• No exemplo 1, onde a v.a. de interesse era “o

número de caras obtidas num lançamento de duas
moedas” temos a seguinte f.p.:
𝑋 0 1 2
𝑃 𝑋 = 𝑥ሻ 1/4 1/2 1/4
• Já no exemplo 2, definimos a v.a. X como “a soma

das faces obtidas em dois lançamentos de um dado”.
A distribuição de probabilidades de X é dada por:
𝑋 2 3 4 5 6 7 8 9 10 11 12
𝑃 𝑋 = 𝑥ሻ 136 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 136
• Exemplo 3: Considere uma v.a. discreta X com função de
probabilidade dada abaixo. Encontre a constante k que
faz de 𝑃 𝑋 = 𝑥 uma f.p.
5
5! 1
𝑃 𝑋=𝑥 = , 𝑥 = 0 , 1, 2, 3, 4, 5
𝑥! 5 − 𝑥 ! 𝑘
Solução: Utilizando a definição de função de

probabilidade, temos que:
5 5 5
5! 1
𝑃 𝑋=𝑥 = =1
𝑥=0 𝑥=0 𝑥! 5 − 𝑥 ! 𝑘
5 5
1 5!
=1
𝑘 𝑥=0 𝑥! 5 − 𝑥 !
5
1
1 + 5 + 10 + 10 + 5 + 1 = 1
𝑘
5
1 1 1 5 1 1 1
= → = 5 → =
𝑘 32 𝑘 2 𝑘 2
∴𝑘=2
• Note que a condição 0 ≤ 𝑝𝑖 ≤ 1, também é satisfeita

quando k = 2.
• Exemplo 4: Um empresário pretende estabelecer uma
firma para montagem de um produto composto de uma
esfera e um cilindro. As partes são adquiridas de fábricas
diferentes (A e B), e a montagem consistirá e juntar as
duas peças e pintá-las. O produto acabado deve ter o
comprimento (definido pelo cilindro) e a espessura
(definida pela esfera) dentro de certos limites, e isso só
poderá ser verificado após a montagem.
• Para estudar a viabilidade do seu empreendimento, o

empresário quer ter uma ideia da distribuição do lucro
por peça produzida.
• Sabe-se que cada componente pode ser classificado
como bom, longo ou curto, conforme sua medida esteja
dentro da especificação, maior ou menor que a medida
especificada, respectivamente.
• Foram obtidos com os fabricantes as probabilidades de

produção de cada componente com as características
bom, longo ou curto. Vide tabela abaixo.
Fábrica A Fábrica B
Componente
(cilindro) (esfera)
Dentro das especificações - bom (B) 0,80 0,70
Maior que as especificações - longo (L) 0,10 0,20
Menor que as especificações - Curto (C) 0,10 0,10
• O preço de cada componente, cilindro ou esfera, é de R$
5,00.
• Se o produto final apresentar algum componente com a

característica curto, ele será irrecuperável, e o conjunto
será vendido como sucata ao preço de R$ 5,00.
• Cada componente longo poderá ser recuperado a um

custo adicional de R$ 5,00.
• Se o preço de venda de cada unidade for de R$ 25,00,

como seria a distribuição de probabilidade da variável X:
lucro por unidade montada?
• Primeiramente, vejamos a construção do espaço
amostral para a montagem das unidades segundo as
características de cada componente e seus
respectivos lucros e probabilidades.
• Como os componentes vêm de fábricas diferentes,

vamos supor que a classificação do cilindro e da
esfera, segundo suas características, sejam eventos
independentes.
• Uma representação do espaço amostral em questão

é apresentada pelo diagrama em árvore a seguir.
• Com base no diagrama em árvore, vemos que a v.a. X
pode assumir os seguintes valores:
– 15, se ocorrer o evento A1 = {BB};

– 10, se ocorrer o evento A2 = {BL, LB};
– 5, se ocorrer o evento A3 = {LL};
– -5, se ocorrer o evento A4 = {BC, LC, CB, CL, CC}.
• Cada um desses eventos tem uma probabilidade

associada, ou seja,
𝑃 𝐴1 ሻ = 0,56, 𝑃 𝐴2 ሻ = 0,23,
𝑃 𝐴3 ሻ = 0,02, 𝑃 𝐴4 ሻ = 0,19.
• Dessa forma, a distribuição de probabilidade da
variável aleatória X é dada por:
X P(x)
-5 0,19
5 0,02
10 0,23
15 0,56
Total 1
Média, variância e desvio padrão de uma
variável aleatória discreta
• A média ou valor esperado de uma v.a. discreta X é dada
por:
𝜇=𝐸 𝑋 = 𝑥𝑖 𝑝𝑖
𝑖
• A variância e desvio padrão de X são dados

respectivamente por:
𝜎2 = 𝑉 𝑋 = 𝑥𝑖 − 𝜇 2 𝑝𝑖 = 𝑥𝑖2 𝑝𝑖 − 𝜇2
𝑖 𝑖
𝜎 = 𝐷𝑃 𝑋ሻ = 𝜎2
• Exemplo: Para o último exemplo, tem-se que o lucro
esperado por unidade montada é igual a:
𝜇 = 𝐸 𝑋ሻ = −5ሻ ⋅ 0,19 + 5 ⋅ 0,02 + 10 ⋅ 0,23 + 15 ⋅ 0,56 = 9,85.
Ou seja, o empresário espera ter um lucro de 9,85 reais por

unidade montada.
• Já a variância e o desvio padrão da v.a. X são dados por:
𝜎2 = −5ሻ2 ⋅ 0,19 + 52 ⋅ 0,02 + 102 ⋅ 0,23 + 152 ⋅ 0,56 − 9,852

𝜎 2 = 𝑉 𝑋ሻ = 154,25 − 97,02 = 57,23 reais2
∴ 𝜎 = 𝐷𝑃 𝑋ሻ = 57,23 = 7,57 reais

Distribuições discretas mais comuns
Distribuição Bernoulli
Muitos experimentos são tais que os resultados
apresentam ou não uma determinada característica.
Por exemplo:
• Uma moeda é lançada: o resultado é cara ou não;
• Uma peça é escolhida ao acaso de um lote

contendo 500 peças: essa peça é defeituosa ou
não;
• Em ambos os casos, estamos interessados na
ocorrência de sucesso ou fracasso. OBS: A palavra
sucesso como usada aqui é arbitrária e não
representa, necessariamente, algo bom
• Definição: Seja X uma variável aleatória que assume

os valores 1 (sucesso) e 0 (fracasso). Diz-se que X tem
distribuição Bernoulli com parâmetro p, onde p é a
probabilidade de sucesso.
• Notação: X ~ Bernoulli(p)
• A função de probabilidade de X é:
𝑃 𝑋 = 𝑥 = 𝑝𝑥 1 − 𝑝 1−𝑥
, 𝑥 = 0 𝑜𝑢 1
• Assim temos:
1
𝐸 𝑋 = 𝑥𝑃 𝑋 = 𝑥 = 𝑃 𝑋 = 1 = 𝑝
𝑥=0
𝑉 𝑋 = σ1𝑥=0 𝑥 2 𝑃 𝑋 = 𝑥 − 𝐸 𝑋 2
𝑉 𝑋 = 12 𝑃 𝑋 = 1 − 𝑝2 = 𝑝 − 𝑝2 = 𝑝 1 − 𝑝ሻ
Distribuição Binomial
• Se realizarmos n experimentos de Bernoulli de forma
independente e se cada experimento tem
probabilidade de sucesso igual a p (fixo), então a
variável aleatória que conta o número de sucessos
nestes n experimentos tem distribuição binomial. Por
exemplo:
• Uma moeda é lançada três vezes; estamos

interessados no número de caras obtidas nos 3
lançamentos da moeda.
• Dez peças são extraídas, ao acaso, com reposição, de
um lote de 500 peças; estamos interessados no
número de peças defeituosas no lote.
• Imagine o experimento de Bernoulli (E) em que:
𝑠𝑢𝑐𝑒𝑠𝑠𝑜 → 𝑝
𝐸 = ቊ𝑓𝑟𝑎𝑐𝑎𝑠𝑠𝑜 → 1 − 𝑝
• Vamos realizar n repetições independentes de E,

chamando X do número de sucessos nas n
repetições.
• O resultado desta experiência é um vetor
𝑥1 , ⋯ , 𝑥𝑛 ሻ em que cada resultado pode ser um
sucesso (S) ou um fracasso (F). Se quisermos calcular
𝑃 𝑋 = 𝑘ሻ teremos:
𝑃 𝑆𝑆𝑆 ⋯ 𝑆𝑆 𝐹𝐹𝐹 ⋯ 𝐹𝐹 = 𝑝 𝑘 1 − 𝑝 𝑛−𝑘
k n-k
• Mas quantos vetores de tamanho n com k sucessos e

(n – k) fracassos podem ser formados?
• Para responder a essa pergunta, basta calcularmos:
𝑛 𝑛!
=
𝑘 𝑘! 𝑛 − 𝑘 !
• Agora é intuitivo ver que a probabilidade procurada é

dada por:
𝑛 𝑘
𝑃 𝑋=𝑘 = 𝑝 1 − 𝑝 𝑛−𝑘
𝑘
Definição: Uma distribuição de probabilidade Binomial
resulta de um experimento que satisfaz os seguintes
requisitos:
1. O experimento tem um número fixo de tentativas;
2. As tentativas devem ser independentes;
3. Cada tentativa deve ter todos os resultados

classificados em duas categorias;
4. A probabilidade de um sucesso em cada tentativa,

denotada por p, permanece constante.
• A variável aleatória X, correspondente ao número
total de sucessos nas n tentativas do experimento,
tem distribuição Binomial com parâmetros n e p e
função de probabilidade:
𝑛 𝑥
𝑃 𝑋 = 𝑥ሻ = 𝑝 (1 − 𝑝)𝑛−𝑥 , 𝑥 = 0, 1, 2, ⋯ , 𝑛.
𝑥
• Notação X~Binomial(n; p)
Exemplos:
1. Um professor de Psicologia planeja dar um teste

surpresa que consiste em 4 questões de múltipla
escolha, cada uma com 5 alternativas possíveis (a,
b, c, d, e), uma das quais é correta. Suponhamos
que um aluno despreparado faça adivinhações
aleatórias. Qual é a probabilidade de que este aluno
acerte exatamente três questões?
• Solução: Primeiramente, note que esse procedimento
satisfaz os 4 requisitos para uma distribuição binomial.
• Se chamarmos de sucesso o fato da resposta estar

correta, vemos que 𝑃 𝑆 = 1Τ5 = 0,2; uma vez que para
cada questão há 5 respostas possíveis (a, b, c, d, e), uma
das quais é correta.
• A variável aleatória X, número de respostas corretas

dentre as 4 questões, pode assumir os valores {0, 1, 2, 3,
4}. Dessa forma, X ~ Binomial(4; 0,2).
• Assim:
4
𝑃 𝑋=3 = 0,23 1 − 0,2ሻ4−3
3
4!
𝑃 𝑋=3 = × 0,008 × 0,8 ≅ 0,026
3! 4 − 3 !
2. Uma linha de produção em grande escala produz

6% de itens defeituosos. 30 itens da produção
semanal são observados. Calcular a probabilidade
de se observar pelo menos 2 itens defeituosos?
• Solução: Seja X = número de itens defeituosos dentre os
30 observados. X = {0, 1, 2, ..., 30}. X ~ Binomial(30; 0,06)
𝑃 𝑋 ≥2 = 1−𝑃 𝑋 < 2
𝑃 𝑋 <2 =𝑃 𝑋 =0 +𝑃 𝑋=1
30 0 30
30 1 29
𝑃 𝑋<2 = 0,06 0,94 + 0,06 0,94
0 1
𝑃 𝑋 < 2 = 0,156256 + 0,299213 = 0,455469
∴ 𝑃 𝑋 ≥ 2 = 1 − 0,455469 ≅ 0,545
• Média e variância de uma distribuição binomial:
𝐸 𝑋 = 𝑛𝑝 e 𝑉𝑎𝑟 𝑋 = 𝑛𝑝 1 − 𝑝ሻ
• Exemplo: No exemplo anterior, tem-se que a média, a

variância e o desvio padrão do número de itens
defeituosos dentre os 30 observados são dados
𝐸 𝑋 = 30 × 0,06 = 1,8
𝑉𝑎𝑟 𝑋 = 30 × 0,06 × 0,94 = 1,692
𝐷𝑃 𝑋 = 1,692 = 1,3
• As figuras a seguir mostram exemplos de distribuições
binomiais. Para n fixo (no exemplo n = 20) à medida que
p aumenta de 0 a 0,5 a distribuição se torna mais
simétrica. O mesmo acontece se p diminui de 1 a 0,5.
Distribuição de Poisson
• É útil para descrever as probabilidades do número de
ocorrências num campo ou intervalo contínuo (em geral
tempo ou espaço). Por exemplo, a v.a. de interesse pode ser:
– Nº de peças defeituosas substituídas num veículo durante o
primeiro ano de vida;
– Nº de erros tipográficos por página, em um material
impresso;
– Nº de acidentes por mês, em determinada rodovia;
– Número de clientes que chegam ao caixa de um
supermercado por hora;
• A utilização da distribuição de Poisson baseia-se nas
seguintes hipóteses:
1. A probabilidade de ocorrência é a mesma para dois

intervalos quaisquer de igual comprimento.
2. A probabilidade de duas ou mais ocorrências
simultâneas é aproximadamente zero.
3. O número de ocorrências em qualquer intervalo é
independente do número de ocorrências em outros
intervalos.
• A função de probabilidade de Poisson é definida pela
seguinte equação:
𝑒 −𝜆 ∙ 𝜆𝑥
𝑃 𝑋=𝑥 =
𝑥!
Onde,
• 𝑒 - base dos logaritmos naturais.

• λ - taxa de ocorrências no intervalo considerado.
• OBS: o número de ocorrências não tem limite
máximo. Ela é uma v.a. discreta que pode assumir
uma sequência infinita de valores (X = 0, 1, 2, ...).
• Média e variância de uma distribuição de Poisson
𝐸 𝑋ሻ = 𝜆
𝑉 𝑋ሻ = 𝜆
Exemplos:
1. Suponha que estejamos interessados no número de

carros que chegam a um caixa automático drive-
thru de um banco durante um período de 15
minutos nas manhãs de fins de semana. Considere
que a análise dos dados históricos mostre que o
número médio de carros que chegam no período
considerado é igual a 10. Determine a probabilidade
de:
a) Exatamente 5 carros chegarem em 15 min.?
X = nº de carros que chegam em um período de 15 min

nas manhãs de fins de semana.
𝑒 −10 ∙ 105
𝑃 𝑋=5 = = 0,0378
5!
b) Um carro chegar em um período de 3 mim.?
Y = nº de carros que chegam em um período de 3 min

nas manhãs de fins de semana.
• O número esperado de carros que chegam em um
3
período de 3 min é dado por: 𝜆 = 10 ∙ 15 = 2.
• Portanto,
𝑒 −2 ∙ 21
𝑃 𝑌 = 1ሻ = = 0,2707
1!
2. Suponha que os defeitos em fios para tear possam

ser aproximados por um modelo de Poisson com
média de 0,2 defeitos por metro.
• Inspecionando-se pedaços de fio de 6 metros de
comprimento, determine a probabilidade de se encontrar
pelo menos de 2 defeitos.
𝜆 = 6 ∗ 0,2 = 1,2
𝑃 𝑋 ≥2 =1−𝑃 𝑋<2
=1− 𝑃 𝑋 =0 +𝑃 𝑋 =1
𝑒 −1,2 ∙ 1,20 𝑒 −1,2 ∙ 1,21

=1− +
0! 1!
= 1 − 0,301 + 0,3612 = 1 − 0,6622 = 0,3378
Variáveis aleatórias contínuas
• Distribuições de probabilidade contínuas: Dado que
uma v.a. contínua X assume um conjunto infinito não
enumerável de valores, torna-se impraticável a ideia
de atribuir uma probabilidade a cada possível valor
de X, como era feito no caso de uma v.a. discreta.
• Agora, o procedimento para a obtenção de

probabilidades levará em conta intervalos de valores.
• Assuma X uma v.a. contínua. Então, a distribuição de
probabilidade ou função densidade de
probabilidade (f.d.p.) de X é uma função 𝑓 𝑥ሻ tal
que 𝑏
𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = න 𝑓 𝑥 𝑑𝑥 ,
𝑎
para quaisquer dois números a e b com 𝑎 ≤ 𝑏.
• Isto é, a probabilidade de que X assuma um valor no

intervalo [a, b] corresponde à área sob a função 𝑓 𝑥ሻ
definida pelo intervalo [a, b].
• O gráfico de 𝑓 𝑥ሻ usualmente é denominado curva
de densidade.
f(x)
a b x
𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = á𝑟𝑒𝑎 ℎ𝑎𝑐ℎ𝑢𝑟𝑎𝑑𝑎
• Para que uma função 𝑓 𝑥 seja uma f.d.p., ela deve
satisfazer as seguintes propriedades:
1. 𝑓 𝑥ሻ ≥ 0, para todo 𝑥 ∈ −∞, ∞ ;

2. A área definida por 𝑓 𝑥ሻ tem que ser igual a 1.
• Note que, pela forma como atribuímos as

probabilidades no caso contínuo, teremos área zero
sob qualquer valor individual da v.a. X, isto é,
𝑃 𝑋 = 𝑥 = 𝑃 𝑥 = 0, ∀𝑥
• Dessa forma, em se tratando de v.a. contínuas, a
probabilidade de ocorrência de um valor específico é
sempre igual a zero.
• Além disso, a probabilidade de X encontrar-se em um

intervalo entre a e b não depende se o limite inferior
a ou o limite superior b está incluso no cálculo da
probabilidade. Ou seja,
𝑃 𝑎≤𝑋≤𝑏 =𝑃 𝑎<𝑋≤𝑏 =𝑃 𝑎≤𝑋<𝑏 =𝑃 𝑎<𝑋<𝑏

• Exemplo 1: Arqueólogos estudaram certa região e
estabeleceram um modelo teórico para a variável C,
comprimento de fósseis na região (em cm). Suponha
que C é uma variável aleatória contínua com a
seguinte função densidade de probabilidade:
1 𝑐
+ 𝑘 , se 0 < c ≤ 20
𝑓 𝑐ሻ = ൞40 10
0, caso contrário
• Determine o valor da k tal que 𝑓 𝑐ሻ seja, de fato,
uma f.d.p.
20
1 𝑐
න + 𝑘 𝑑𝑐 = 1
0 40 10
20 20
𝑐 𝑘
න 𝑑𝑐 + න 𝑑𝑐 = 1
0 400 0 40
20 20
2
𝑐 𝑘𝑐
อ + ቤ = 0,5 + 0,5𝑘 = 1
800 40 0
0
∴𝑘=1
• Calcule a probabilidade de um fóssil, escolhido ao
acaso nessa região, apresentar comprimento
inferior a 8 cm.
8
1 𝑐
𝑃 𝐶<8 =න + 1 𝑑𝑐
0 40 10
8 8
𝑐 1
=න 𝑑𝑐 + න 𝑑𝑐
0 400 0 40
8
2
𝑐 𝑐 8
= อ + ฬ = 0,08 + 0,2 = 0,28
800 40 0
0
• Determine o valor k tal que 𝑃 𝐶 > 𝑘 = 0,8, ou seja,
de tal forma que a área definida por f(c) à direita de K
seja igual a 0,8.
20
1 𝑐
𝑃 𝐶>𝑘 =න + 1 𝑑𝑐
𝑘 40 10
20 20
𝑐 1
=න 𝑑𝑐 + න 𝑑𝑐
𝑘 400 𝑘 40
20
2
𝑐 𝑐 20 𝑘2 𝑘
= อ + ฬ = 0,5 − + 0,5 − = 0,8
800 40 𝑘 800 40
𝑘
𝑘 2 + 20𝑘 − 160 = 0
− b  b − 4ac − 20  32,25
2
k= =
2a 2
k1 = 6,125 e k 2 = −26,125
 k = 6,125 cm
Média, variância e desvio padrão de uma
variável aleatória contínua
• A média ou valor esperado de uma variável aleatória
discreta X é dada pela expressão:
𝜇 = 𝐸 𝑋ሻ = න𝑥 𝑓 𝑥ሻ 𝑑𝑥
• A variância e o desvio padrão de X são dados

𝜎 2 = 𝑉 𝑋ሻ = න 𝑥 − 𝜇ሻ2 𝑓 𝑥ሻ 𝑑𝑥 = න𝑥 2 𝑓 𝑥ሻ 𝑑𝑥 − 𝜇2
𝜎= 𝜎2
Exemplo: O tempo em minutos de digitação de um
texto por datilógrafos experientes (T) é considerado
uma v.a. contínua com f.d.p. apresentada a seguir.
Determine:
1Τ4 , 𝑠𝑒 0 ≤ 𝑡 < 2
𝑓 𝑡 = ቐ1Τ8 , 𝑠𝑒 2 ≤ 𝑡 < 6
0, 𝑐. 𝑐.
a) P 1 < T < 4 T > 1ሻ.
Pሾ 1 < T < 4 ∩ 𝑇 > 1 ]

P 1 < T < 4 T > 1ሻ =
𝑃 T > 1ሻ
P 1<T<4
=
𝑃 T > 1ሻ
2 4 2 4
1 1 𝑡 𝑡
P 1<T<4 =න 𝑑𝑡 + න 𝑑𝑡 = ቤ + ቤ
1 4 2 8 41 82
2 1 4 2 4
= − + − = = 0,5
4 4 8 8 8
2 6 2 6
1 1 𝑡 𝑡
P T>1 =න 𝑑𝑡 + න 𝑑𝑡 = ቤ + ቤ
1 4 2 8 41 82
2 1 6 2 6
= − + − = = 0,75
4 4 8 8 8
0,5
∴ P 1 < T < 4 T > 1ሻ = = 0,66
0,75
b) Um número k tal que 𝑃 𝑇 > 𝑘 = 0,6.

k
2 6 2 6
1 1 𝑡 𝑡
P T>𝑘 =න 𝑑𝑡 + න 𝑑𝑡 = ቤ + ቤ = 0,6
𝑘 4 2 8 4𝑘 82
2 𝑘 6 2 𝑘
− + − = 1 − = 0,6
4 4 8 8 4
∴ 𝑘 = 1,6
c) O valor esperado e a variância de T.

6 2 6
1 1
𝜇 = න 𝑡𝑓 𝑡 𝑑𝑡 = න 𝑡 𝑑𝑡 + න 𝑡 𝑑𝑡
0 0 4 2 8
2 6
𝑡2 𝑡2
4 36 4 5
= อ + อ = + − = = 2,5 min
8 16 8 16 16 2
0 2
6 2 6
2 2
1 2
1
න 𝑡 𝑓 tሻ𝑑𝑡 = න 𝑡 𝑑𝑡 + න 𝑡 𝑑𝑡
0 0 4 2 8
2 6
𝑡3 𝑡3
8 216 8 28
= อ + อ = + − =
12 24 12 24 24 3
0 2
2
28 5
𝜎2 = − = 3,08 𝑚𝑖𝑛2
3 2
∴𝜎= 3,08 = 1,76 𝑚𝑖𝑛

Distribuições contínuas mais comuns
Distribuição Uniforme
• Definição: Uma v.a. contínua tem uma distribuição

uniforme se todos os valores que assume são
igualmente prováveis.
• Uma v.a. X tem distribuição Uniforme Contínua no

intervalo [a, b], a < b, se sua função densidade de
probabilidade é dada por:
1
, 𝑠𝑒 𝑎 ≤ 𝑥 ≤ 𝑏
𝑓 𝑥 =൞ 𝑏−𝑎
0, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
Notação: X ~ Uniforme[a, b]
• Média e variância de uma distribuição Uniforme

Contínua
𝑎+𝑏
𝐸 𝑋 =
2
2
𝑏−𝑎
𝑉 𝑋 =
12
• Exemplo: Uma professora planeja a aula tão
cuidadosamente, que a duração de suas aulas é
distribuída uniformemente entre 50 e 52 minutos. Se
selecionarmos aleatoriamente uma aula e
designarmos X a v.a. representativa do tempo de
aula, então, a f.d.p de X é dada por:
1
𝑓 𝑥 = ቐ2 , 𝑠𝑒 50 ≤ 𝑥 ≤ 52
a) Calcule a probabilidade de uma aula durar mais de 51,5
minutos.
𝑃 𝑋 > 51,5 = á𝑟𝑒𝑎 𝑑𝑎 𝑟𝑒𝑔𝑖ã𝑜 𝑠𝑜𝑚𝑏𝑟𝑒𝑎𝑑𝑎
𝑃 𝑋 > 51,5 = 0,5 × 0,5 = 0,25
b) Calcule a média e o desvio padrão do tempo de
aula.
52 + 50
𝐸 𝑋 = = 51 𝑚𝑖𝑛
2
52 − 50ሻ2 4
𝑉 𝑋 = = ≅ 0,333 𝑚𝑖𝑛2
12 12
𝐷𝑃 𝑋 = 0,333 ≅ 0,578 𝑚𝑖𝑛
Distribuição Exponencial
• Uma v.a. contínua X, assumindo valores não negativos,
segue o modelo Exponencial com parâmetro 𝛼 > 0 se
sua densidade é dada por:
𝛼𝑒 −𝛼𝑥 , 𝑠𝑒 𝑥 ≥ 0
𝑓 𝑥 =ቊ
Notação: X ~ Exp(α).
• Para calcular probabilidades com a exponencial,
precisamos resolver a integral correspondente ao
intervalo de interesse. Assim,
𝑏 𝑏
𝑃 𝑎 ≤ 𝑋 ≤ 𝑏 = න 𝛼𝑒 −𝛼𝑥 𝑑𝑥 = − 𝑒 −𝛼𝑥 ቚ = 𝑒 −𝛼𝑎 − 𝑒 −𝛼𝑏
𝑎 𝑎
• Variáveis como a vida útil de equipamentos, tempos de

falha, tempos de sobrevivência de espécies e intervalos
entre solicitações de recursos são algumas das
quantidades que têm sido modeladas pela exponencial.
• Média e variância de uma distribuição Exponencial
𝐸 𝑋 = 1Τ𝛼 e 𝑉 𝑋 = 1Τ𝛼 2
Exemplo: Uma indústria fabrica lâmpadas especiais

que ficam em operação continuamente. A vida útil
dessas lâmpadas (T), em horas, é modelada através da
distribuição Exponencial com parâmetro 1Τ8000.
Dessa forma, a f.d.p da v.a. T é dada por:
1 −t
𝑓 𝑡 = ቐ 8000 𝑒 8000 , 𝑠𝑒 𝑡 ≥ 0
a. Calcule 𝑃 𝑇 > 2000ሻ.
∞
1 −𝑡
𝑃 𝑇 > 2000 = න 𝑒 8000 𝑑𝑡
2000 8000
−𝑡 −1
𝑢= ⟹ 𝑑𝑢 = 𝑑𝑡
8000 8000
𝑃 𝑇 > 2000 = ‫ ׬‬−𝑒 𝑢 𝑑𝑢 = − 𝑒 𝑢
∞
−𝑡
𝑃 𝑇 > 2000 = −𝑒 8000 ቚ2000
= 𝑒 −0,25 − 𝑒 −∞ = 𝑒 −0,25 = 0,779

Dessa forma, a probabilidade de uma lâmpada produzida
nessa indústria ter vida útil superior a 2000 horas é de 77,9%
b. A empresa oferecerá a seus clientes a garantia de
reposição, caso a lâmpada dure menos de k horas.
Determine o valor de k de tal forma que a proporção
de trocas por defeito de fabricação seja de no máximo
0,5%.
𝑘
1 −𝑡
𝑃 𝑇 < 𝑘 = 0,005 = න 𝑒 8000 𝑑𝑡
0 8000
𝑘
−𝑡 −𝑘 −𝑘
=− 𝑒 8000 ቚ0 = 𝑒0 − 𝑒 8000 =1 − 𝑒 8000
−𝑘 −𝑘
𝑒 8000 = 1 − 0,005 → = ln 0,995
8000
∴ 𝑘 ≈ 40 ℎ𝑜𝑟𝑎𝑠
Distribuição Normal
• Dizemos que uma variável aleatória contínua X tem
distribuição Normal com parâmetros  e 2, se sua
função densidade de probabilidade é dada por:
1 1 2
𝑓 𝑥 = 𝑒𝑥𝑝 − 2 𝑥 − 𝜇 , −∞ < 𝑥 < ∞
𝜎 2𝜋 2𝜎
x
µ
• Notação: X ~ N(𝜇, 𝜎 2).
• A distribuição Normal é completamente especificada

pela média μ e pela variância σ2.
• Propriedades da Normal:
1. 𝑓 𝑥 é simétrica em relação a .
2. 𝑓 𝑥 → 0 quando 𝑥 → ±∞.
3. O valor máximo de 𝑓 𝑥 ocorre quando 𝑥 = 𝜇.

0.8
N(6; 0,5)
0.6
N(0; 1) N(2; 1)
f(x)
0.4
0.2
N(6; 2)
0.0
-4 -2 0 2 4 6 8 10 12
x
• Como calcular Probabilidades para distribuição
Normal?
• O cálculo de probabilidades para o modelo Normal é

realizado com o auxílio de tabelas uma vez que a
integral da f.d.p. da Normal só pode ser resolvida por
métodos numéricos.
• Encontram-se tabeladas as probabilidades da

distribuição Normal com parâmetros 𝜇 = 0 e 𝜎 2 = 1
que é denominada de Normal Padrão ou Normal
Reduzida.
• Seja Z uma v.a. contínua com distribuição N(0, 1).
• A tabela da Normal Padrão que utilizaremos nos

fornece a probabilidade: 𝑃 𝑍 ≤ 𝑧ሻ. Ou seja, a tabela
nos fornece a área à esquerda de um determinado
valor z.
z
• Exemplo 1: Uma empresa de instrumentos científicos de
precisão fabrica termômetros que devem informar
temperaturas de 0°C no ponto de congelamento da água.
Testes em uma grande amostra desses instrumentos
revelam que, no ponto de congelamento da água, alguns
termômetros indicam temperaturas superiores ou
inferiores a 0°C.
• Suponha que as leituras desses termômetros sejam

Normalmente distribuídas com média 0°C e desvio
padrão 1°C. Um termômetro é selecionado
aleatoriamente. Calcule a probabilidade de que o
termômetro escolhido apresente leitura no ponto de
congelamento da água:
a) Inferior a 1,58 °C.
𝑃 𝑍 < 1,58 = á𝑟𝑒𝑎 𝑒𝑚 𝑎𝑧𝑢𝑙
A área desejada é obtida

diretamente da tabela da Normal
Padrão. Dessa forma,
𝑃 𝑍 < 1,58 = 0,9429
0 1,58
b) Superior a -1,23°C.
𝑃 𝑍 > −1,23 = Á𝑟𝑒𝑎 𝑒𝑚 𝑣𝑒𝑟𝑚𝑒𝑙ℎ𝑜

A tabela de probabilidade da Normal
Padrão fornece a área em azul.
Dessa forma,
𝑃 𝑍 > −1,23
= 1 − 𝑃 𝑍 ≤ −1,23
= 1 − 0,1093 = 0,8907
-1,23 0
c) Entre -2,00°C e 1,50°C.
𝑃 −2 < 𝑍 < 1,5 = á𝑟𝑒𝑎 𝑒𝑚 𝑣𝑒𝑟𝑚𝑒𝑙ℎ𝑜
A tabela de probabilidade da Normal

Padrão fornece a área em azul e a
área tracejada. Dessa forma,
𝑃 −2,00 < 𝑍 < 1,50
= 𝑃 𝑍 < 1,50 − 𝑃 𝑍 < −2,00
= 0,9332 − 0,0228 = 0,9104

-2 0 1,5
Procedimento para achar escores z a partir de áreas
conhecidas.
1. Desenhe uma curva da Normal Padrão e identifique a

região sob a curva que corresponde à probabilidade
dada. Se esta região não for uma região acumulada à
esquerda, trabalhe com regiões conhecidas que sejam
acumuladas à esquerda.
2. Usando a área acumulada à esquerda, localize a

probabilidade mais próxima no corpo da tabela da
distribuição Normal e identifique o escore z
correspondente.
• Exemplo 2: Usando os mesmos termômetros do
exemplo anterior, determine:
a) A temperatura correspondente ao percentil 95 (P95).
95%
P95
• Procurando a área mais próxima de 0,95 no corpo da
tabela de probabilidades da Normal Padrão, observamos
que a área de 0,95 está exatamente entre as áreas
0,9495 e 0,9505.
• O escore z procurado é então obtido através do calculo

da média dos escores 1,64 e 1,65. Dessa forma, a
temperatura correspondente ao percentil 95 é igual a
1,645°C.
• Assim, 95% dos termômetros fabricados pela empresa

apresentam leituras no ponto de congelamento da água
inferiores ou iguais a 1,645°C.
b) O valor de c tal que 𝑃 𝑍 > 𝑐 = 0,8.
80%
20%
c 0
𝑃 𝑍 > 𝑐 = 0,8 = Á𝑟𝑒𝑎 𝑒𝑚 𝑣𝑒𝑟𝑚𝑒𝑙ℎ𝑜

• A tabela de probabilidade da Normal Padrão fornece
áreas à esquerda. Dessa forma, para determinarmos
o valor de c iremos trabalhar com a área em azul.
Temos que:
𝑃 𝑍 ≤ 𝑐 = 0,2 = Á𝑟𝑒𝑎 𝑒𝑚 𝑎𝑧𝑢𝑙
• Procurando a área mais próxima de 0,2 no corpo da

tabela de probabilidades da Normal Padrão obtemos:
𝑐 = −0,84 °𝐶
Como calcular probabilidades para uma N(μ,σ2)?
• A fim de que possamos calcular probabilidades para

distribuições Normais não-padronizadas, iremos
transformar uma v.a. X ~ N(𝜇, 𝜎 2) em uma v.a. Z com
distribuição Normal padrão, ou seja, Z ~ N(0,1).
• A padronização de X é feita usando-se a fórmula:
𝑋−𝜇
𝑍=
𝜎
• Resultado Importante:
𝑋−𝜇
Se X~N 𝜇, 𝜎 2 ሻ, então, 𝑍 = ~ 𝑁 0, 1ሻ
𝜎
𝑥−𝜇
∴𝑃 𝑋≤𝑥 =𝑃 𝑍≤
𝜎
X ~ N(𝜇, 𝜎 2 ) 𝑍~ 𝑁 0, 1ሻ
𝜇 𝑥 0 𝑥−𝜇
𝜎
• Exemplo 4: Pessoas sofrendo de certa doença são
submetidas a um tratamento intensivo cujo tempo de cura
(X), em dias, foi modelado por uma densidade N(15, 4).
Calcule a probabilidade do tempo de cura:
a) Ser inferior a 20 dias?
X ~ N(15, 4) 𝑍~ 𝑁 0, 1ሻ
15 20 20 − 15
0
2
20−15
𝑃 𝑋 < 20 = 𝑃 𝑍 < 2
= 𝑃 𝑍 < 2,5 = 0,9938
b) Ser superior a 17 dias?
15 17 0 1
17 − 15
𝑃 𝑋 > 17 = 𝑃 𝑍 > =𝑃 𝑍>1
2
𝑃 𝑋 > 17 = 1 − 𝑃 𝑍 ≤ 1 = 1 − 0,8413 = 0,1587
c. Estar entre 14 e 17 dias?
14 15 17 -0,5 0 1
14 − 15 17 − 15
𝑃 14 < 𝑋 < 17 = 𝑃 <𝑍<
2 2
𝑃 14 < 𝑋 < 17 = 𝑃 −0,5 < 𝑍 < 1
= 𝑃 𝑍 < 1 − 𝑃 𝑍 < −0,5ሻ
= 0,8413 − 0,3085 = 0,5328
d. Encontre o tempo máximo necessário para a

recuperação de 40% dos pacientes.
𝑥 − 15
𝑃 𝑋≤𝑥 =𝑃 𝑍≤ = 0,40
2
40%
𝑥 15
Da fórmula da padronização obtemos 𝑥 = 𝜇 + 𝑧𝜎 .
A partir da tabela da Normal padrão obtemos:

𝑥 = 15 + −0,25 ∙ 2 ⇒ 𝑥 = 14,5
Assim, 40% dos pacientes ficarão curados antes de 14,5

dias, aproximadamente.
5. Inferência Estatística
• Objetiva produzir afirmações sobre dada característica da

população, na qual estamos interessados, a partir de
informações colhidas de uma parte dessa população.
Essa característica pode ser representada por uma
variável aleatória X.
• Toda ou qualquer informação a respeito do

comportamento de uma variável (população) pode ser
obtida através do estudo de sua f.p. (caso discreto) ou
f.d.p (caso contínuo).
• Na prática, porém, é comum não termos qualquer
informação a respeito da variável de interesse, ou termos
apenas uma informação parcial. Dessa forma, as
quantidades populacionais em geral são desconhecidas.
• A fim de estimar os parâmetros desconhecidos,

retiramos uma amostra representativa da população e
medimos as quantidades de interesse na amostra
selecionada (estatísticas).
• Assim, fazendo o uso adequado das técnicas de

Inferência somos capazes de extrapolar, para a
população, as conclusões tiradas com base na amostra.
População
Amostra
Amostragem
Inferência Estatística
Parâmetros Estatísticas
µ - média 𝑋ത - média
σ2 - variância S2 - variância
𝑝 - proporção 𝑝Ƹ - proporção
𝑀𝑑 - mediana
m𝑑 - mediana
• Todas as técnicas de Inferência apresentadas nesse
curso baseiam-se no uso do método de Amostragem
Aleatória Simples (AAS), com reposição, para
selecionar amostras representativas da população.
• Na AAS todos os elementos da população têm a

mesma probabilidade de pertencerem à amostra e o
fato da amostra ser selecionada com reposição
implica que existe independência entre as unidades
selecionadas.
Distribuição de médias amostrais.
• Considere uma população com parâmetros µ (média)

e σ2 (variância). Retiramos uma AAS de tamanho n,
com reposição, dessa população e calculamos sua
ത
média, 𝑋.
• Devido à natureza aleatória envolvida no

procedimento amostral, não podemos garantir que
repetições de amostras retiradas de uma mesma
população produzam sempre resultados idênticos.
• Dessa forma, tanto a amostra quanto todas as
quantidades associadas à ela terão caráter aleatório e,
portanto, devem receber tratamento probabilístico.
• Vamos representar uma amostra aleatória de tamanho n,

a ser retirada da população, pelo vetor 𝑋1 , 𝑋2 , … , 𝑋𝑛 ሻ,
onde Xi é uma v.a. que indica a observação do i-ésimo
elemento amostrado.
• Uma vez que a média amostral é uma função das

variáveis aleatórias constituintes da amostra
𝑋1 , 𝑋2 , … , 𝑋𝑛 ሻ , então 𝑋ത também é uma variável
aleatória.
• Assim, 𝑋ത tem uma distribuição de probabilidade que
ത
recebe o nome de distribuição amostral de 𝑋.
• Exemplo 1: Considere que, numa certa população, uma

v.a. X possua f.p. dada abaixo. Vamos selecionar uma AAS
de tamanho 2, com reposição, dessa população.
𝑋 1 3 5 7
𝑃 𝑋 = 𝑥ሻ 1/5 1/5 2/5 1/5
• Note que a média e variância populacionais, calculadas

com base na f.p. de X, são respectivamente: 𝜇 = 4,2 e
𝜎 2 = 4,16.
• Indicando por Xi o número selecionado na i-ésima
extração, i = 1, 2, temos que a amostra sorteada será
o par 𝑋1 , 𝑋2 ሻ, com X1 e X2 sendo variáveis aleatórias
independentes com a mesma distribuição de
probabilidade da variável X.
• A distribuição de probabilidade das possíveis

amostras de tamanho dois que podem ser
selecionadas com reposição dessa população estão
listadas na tabela a seguir, são ao todo 16 pares.
𝑿𝟏 𝑿𝟐 1 3 5 7 Total
1 1/25 1/25 2/25 1/25 1/5
3 1/25 1/25 2/25 1/25 1/5
5 2/25 2/25 4/25 2/25 2/5
7 1/25 1/25 2/25 1/25 1/5
Total 1/5 1/5 2/5 1/5 1
• Para cada possível amostra, associamos o

ത Temos que:
correspondente valor de 𝑋.
– 𝑋ത = 1, quando a amostra selecionada é o par (1, 1).
Portanto, 𝑃 𝑋ത = 1 = 1/25.
– 𝑋ത = 2, quando ocorrer o evento A = {(1, 3), (3, 1)}.
– 𝑋ത = 3, quando ocorrer o evento A = {(1, 5), (3, 3), (3, 5)}.

• Procedendo de maneira análoga para os demais valores

que 𝑋ത pode assumir, obtemos a seguinte distribuição
amostral para essa estatística:
𝑋ത 1 2 3 4 5 6 7
𝑃 𝑋ത = 𝑥ሻ 1 25 2 25 5 25 6 25 6 25 4 25 1 25
• Onde,
𝜇𝑋ത = 𝐸 𝑋ത = 𝑥𝑖 𝑝𝑖 = 4,2
𝑖
𝜎𝑋2ത = 𝑉 𝑋ത = 𝑥𝑖2 𝑝𝑖 − 𝜇𝑋2ത = 2,08

𝑖
• Verificamos, aqui, dois fatos:
1. A média das médias amostrais (𝜇𝑋ത ) coincide com a

média populacional (𝜇);
2. A variância de 𝑋ത é igual à variância de X, dividida por

n = 2.
• Esses dois fatos não são casos isolados. Na realidade,
temos o seguinte resultado.
• Teorema: Seja X uma v.a. com média 𝜇 e variância

𝜎 2, e seja 𝑋1 , ⋯ , 𝑋𝑛 uma amostra aleatória de X.
Então,
2
𝜇𝑋ത = 𝐸 𝑋ത = 𝜇 e 𝜎𝑋2ത ത
= 𝑉 𝑋 = Τ𝑛
𝜎
• OBS: O desvio padrão de 𝑋ത é comumente chamado

de erro padrão de 𝑋ത e denotado por 𝜎𝑋ത .
Exemplo 2: Para a população do exemplo anterior,
vamos construir os histogramas das distribuições de 𝑋ത
para n = 1, 2 e 3.
Para n = 1, 𝑋ത tem mesma

distribuição que a v.a. X, com
𝜇𝑋ത = 4,2 e 𝜎𝑋2ത = 4,16.
Para n = 2, 𝑋ത tem distribuição

dada no Exemplo 1, com
𝜇𝑋ത = 4,2 e 𝜎𝑋2ത = 2,08.
Para n = 3, 𝑋ത segue
distribuição dada pelo
histograma ao lado, com
𝜇𝑋ത = 4,2 e 𝜎𝑋2ത = 1,39.
• Observe que à medida que n aumenta, a variância de

𝑋ത diminui, logo o histograma tende a se concentrar cada
vez mais em torno de 𝜇𝑋ത = 𝜇 = 4,2. Assim, quanto
maior a amostra, maior é a probabilidade da amostra
fornecer um valor de 𝑋ത próximo da verdadeira média
populacional.
• A fim de verificar o efeito do tamanho
ത
amostral sobre a distribuição amostral de 𝑋,
foram construídos histogramas das
distribuições de 𝑋ത para diferentes modelos
populacionais e diferentes tamanhos
amostrais. Os histogramas são representados
na figura a seguir.
• Esses exemplos sugerem que, quando o tamanho da
amostra aumenta, independentemente da forma da
distribuição da população, a distribuição de 𝑋ത
aproxima-se cada vez mais de uma distribuição
Normal.
• Note que, quanto mais simétrica é a distribuição

populacional, a convergência da distribuição de 𝑋ത
para uma distribuição Normal se dá de forma mais
rápida.
• Esse resultado, fundamental na teoria da Inferência
Estatística, é conhecido como Teorema Central do Limite.
• Teorema Central do Limite (TCL): Para amostras

aleatórias simples 𝑋1 , ⋯ , 𝑋𝑛 retiradas de uma
população com média 𝜇 e variância 𝜎 2 (note que o
modelo da v.a. não é especificado), a distribuição
amostral da média 𝑋ത aproxima-se, para n grande, de uma
distribuição normal com média 𝜇 e variância 𝜎 2 Τ𝑛. Ou
seja,
𝑋ത ~N 𝜇, 𝜎 2 Τ𝑛 .
• Se 𝑋~𝑁 𝜇, 𝜎 2 , então 𝑋ത terá distribuição exata
Normal para qualquer tamanho amostral n.
• Se a população não for normalmente distribuída, a

distribuição de 𝑋ത pode ser razoavelmente bem
aproximada pela distribuição Normal para amostras
de tamanho n maior que 30. A aproximação se torna
melhor à medida que o tamanho que n aumenta.
• Outra maneira de apresentar o TCL é por meio do
seguinte corolário: Se 𝑋1 , ⋯ , 𝑋𝑛 for uma AAS da
população X, com média 𝜇 e variância 𝜎 2, e 𝑋ത =
σ𝑛𝑖=1 𝑋𝑖 /𝑛, então
𝑋ത − 𝜇
𝑍= ~𝑁 0, 1ሻ
𝜎Τ 𝑛
• Exemplo 1: Em uma certa cidade, a duração de conversas
telefônicas, originárias de telefones públicos, é uma
variável aleatória com média igual a 3 minutos e
variância igual a 9 (minutos)2. Observando-se uma
amostra aleatória de 50 dessas chamadas, qual será a
probabilidade delas, em média, não ultrapassarem 4
minutos?
• Solução: Admitindo uma amostra suficientemente

ሜ
grande, pelo TCL temos que: 𝑋~𝑁 3; 9Τ50ሻ . Dessa
forma, podemos calcular a probabilidade desejada da
seguinte forma:
4−3
𝑃 𝑋ത ≤ 4 = 𝑃 𝑍 ≤ = 𝑃 𝑍 ≤ 2,36 = 0,9909
9Τ50
Tendo em vista o alto valor de probabilidade encontrado,

podemos dizer que é praticamente certo que a média
amostral estará abaixo de 4 min.
• Exemplo 2: A quantidade de uma determinada impureza em

um lote de certo produto químico é uma v.a. Normal com
𝜇 = 4 g e 𝜎 = 1,5 g. Se 25 lotes são preparados de maneira
independente, qual é a probabilidade da média amostral da
quantidade de impureza estar entre 3,5 e 3,8 g?
• Solução: Uma vez que X~𝑁 4; 1,52 ), pelo TCL temos
ሜ
que: 𝑋~𝑁 4; 1,52 Τ25ሻ. Dessa forma, podemos calcular a
probabilidade desejada da seguinte forma:
3,5 − 4 3,8 − 4
𝑃 3,5 ≤ 𝑋ത ≤ 3,8 = 𝑃 ≤𝑍≤
1,5Τ5 1,5Τ5
= 𝑃 −1,67 ≤ 𝑍 ≤ −0,67
= P Z ≤ −0,67 − P Z ≤ −1,67ሻ
= 0,2514 − 0,0475 = 0,2039

Estimação
Definições:
• Parâmetro: é uma medida usada para descrever uma

característica da população. Ex: média populacional (µ),
desvio-padrão populacional (σ), proporção populacional
(p).
• Estimador (ou Estatística): é qualquer função das

variáveis aleatórias constituintes da amostra,
𝑓 𝑋1 , 𝑋2 , … , 𝑋𝑛 ሻ. Logo, um estimador também é uma v.a.
Notação: 𝜇,Ƹ 𝜎,ො 𝑝,Ƹ etc.
• Estimativa: Um valor específico do estimador, obtido
para uma amostra em particular.
• Um estimador tem como finalidade representar ou

estimar um parâmetro de interesse. A estimação
pode ser feita de forma pontual ou intervalar.
Estimação Pontual
• Um único valor amostral é usado como estimativa de
um parâmetro da população. A seguir encontram-se
alguns exemplos de estimadores pontuais.
Parâmetro Estimador
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑘
µ 𝜇Ƹ = 𝑋ത =
𝑛
𝑓𝑟𝑒𝑞. 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙 𝑐𝑜𝑚 𝑎 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟í𝑠𝑡𝑖𝑐𝑎

p 𝑝Ƹ =
𝑛
σ𝑛
𝑖=1 (𝑋𝑖 − ത )2
𝑋
𝜎2 𝜎2 = 𝑆2 =
𝑛−1
𝜎 𝜎ො = 𝑆 = 𝑆2
Intervalos de Confiança
• Idéia Básica: Suponha que estamos interessados em

obter o valor de um parâmetro populacional 𝜃
(desconhecido). Podemos obter uma estimativa
pontual de 𝜃 ( 𝜃መ ) usando informação de nossa
amostra. Contudo, sabemos que o valor estimado
dificilmente será exatamente igual ao valor
verdadeiro.
• A partir da estimação pontual, somos incapazes de
julgar qual a possível magnitude do erro que estamos
cometendo.
• Daí, surge a ideia de construir os intervalos de
confiança, que são baseados na distribuição amostral
do estimador pontual.
• Definição: um intervalo de confiança (IC) é uma faixa

(ou um intervalo) de valores usada para estimar o
verdadeiro valor de um parâmetro populacional.
Intervalos de Confiança para µ com variância
populacional conhecida
• Suponha que queiramos estimar a média µ de uma

população qualquer, com variância 𝜎 2 conhecida, e
para tanto utilizamos a média 𝑋ത de uma AAS de
tamanho n. Do TCL,
𝜎2
𝑋ത ~ N 𝜇, 𝑛
ത
𝑋−𝜇
ത temos que: Z =
• Padronizando a v.a. 𝑋,
𝜎Τ 𝑛
• Daqui podemos determinar qual a probabilidade de
cometermos erros de determinadas magnitudes.
𝑃 𝑋ሜ − 𝜇 < 𝐸 = 1 − 𝛼
𝑃 −𝐸 < 𝑋ሜ − 𝜇 < 𝐸 = 1 − 𝛼
𝐸 𝑛 𝑋ത − 𝜇 𝐸 𝑛
𝑃 − < < =1−𝛼
𝜎 𝜎Τ 𝑛 𝜎
𝑋ത − 𝜇
𝑃 −𝑧𝛼Τ2 < < 𝑧𝛼Τ2 = 1 − 𝛼
𝜎Τ 𝑛
𝜎 𝜎
𝑃 𝑋ሜ − 𝑧𝛼Τ2 < 𝜇 < 𝑋ሜ + 𝑧𝛼Τ2 =1−𝛼
𝑛 𝑛
• Dessa forma, o intervalo de confiança para µ, com nível

de confiança de 1 − 𝛼, é dado por:
𝐼𝐶 𝜇; 1−𝛼 = 𝑋ത − 𝑧𝛼Τ2 ∙ 𝜎 ; 𝑋ത + 𝑧𝛼Τ2 ∙ 𝜎

𝑛 𝑛
• Ou ainda por, 𝐼𝐶 𝜇; 1−𝛼 = 𝑋ത ± 𝐸, onde 𝐸 = 𝑧𝛼Τ2 ∙ 𝜎 𝑛

é
denominado margem de erro.
• A quantidade 𝑧𝛼Τ2 é o valor que define uma área de 𝛼 Τ2
na cauda direita da distribuição Normal Padrão.
• Fixando-se o nível de confiança, o valor 𝑧𝛼Τ2 é obtido

consultando a área de 1 − 𝛼Τ2ሻ na tabela da
distribuição Normal Padrão.
1−𝛼
𝛼 Τ2 𝛼Τ2
−𝑧𝛼Τ2 0 𝑧𝛼Τ2
• Exemplo 1: Uma máquina enche pacotes de café segundo
uma distribuição Normal com variância igual a 100 g2. Ela
estava regulada para encher os pacotes com 500 g, em
média. Agora ela se desregulou e queremos saber qual é
a nova média µ. Uma amostra de 25 pacotes apresentou
uma média igual a 485 g. Construa um IC com 95% de
confiança para µ.
• Solução: Consultando a área de 1 − 𝛼Τ2ሻ = 1 −

0,025 = 0,975 na tabela da distribuição Normal Padrão,
temos que 𝑧𝛼Τ2 = 1,96. Dessa forma,
𝐼𝐶 𝜇; 0,95 = 𝑋ത ± 𝑧𝛼Τ2 ∙ 𝜎 = 485 ± 1,96 10
𝑛 25
𝐼𝐶 𝜇; 0,95 = 485 ± 3,92 = 481,08; 488,92ሻ
• Note que a expressão 𝑋ത ± 𝑧𝛼Τ2 ∙ 𝜎 𝑛 envolve a

quantidade 𝑋ത que é uma variável aleatória e, portanto o
intervalo obtido também é aleatório.
• A probabilidade de que o 𝐼𝐶 𝜇; 1−𝛼 aleatório contenha

o verdadeiro valor da média populacional µ é dada por
1 − 𝛼.
• Ao coletar a amostra, 𝑋ത torna-se 𝑥𝑜𝑏𝑠 e, como
conhecemos 𝜎, 𝑛 e 𝑧𝛼Τ2 , o intervalo passa a ser
numérico. E visto que µ também é uma constante
(desconhecida), torna-se incorreto afirmar que µ está
contido no intervalo fixo 𝑥𝑜𝑏𝑠 ± 𝑧𝛼Τ2 ∙ 𝜎 𝑛 com
probabilidade de 1 − 𝛼.
• Dessa forma, só podemos interpretar um IC de forma

probabilística antes que qualquer experimento seja
realizado e quaisquer dados sejam coletados.
• Interpretação estatística do IC: Se obtivermos uma
grande quantidade de amostras de tamanho n de uma
mesma população e, para cada uma delas, calcularmos
os correspondentes intervalos de confiança com
coeficiente de confiança 1 − 𝛼 , esperamos que a
proporção de intervalos construídos que contenham o
valor de  seja igual a 1 − 𝛼.
• Interpretação prática do IC: Estamos 100 1 − 𝛼 %

confiantes em que o intervalo 𝑥𝑜𝑏𝑠 ± 𝑧𝛼Τ2 ∙ 𝜎 𝑛 , obtido
com o uso de uma única amostra de tamanho n,
contenha a média populacional desconhecida .
Interpretação estatística do IC(; 0,95)
No exemplo 1, obtivemos o intervalo 481,08; 488,92ሻ
como estimativa do peso médio dos pacotes de café.
Podemos interpretar esse intervalo das seguintes formas:
1) Se construirmos uma grande quantidade de intervalos da

forma 𝑋ത ± 1,96 ∙ 10 25
, esperamos que a proporção de
intervalos que contenham o valor de  seja igual a 95%.
2) Estamos 95% confiantes de que o verdadeiro peso médio

dos pacotes de café  está entre 481,08 g e 488,92 g.
• Considere o intervalo 𝐼𝐶 𝜇; 1−𝛼 = 𝑋ത ± 𝑧𝛼Τ2 ∙ 𝜎 𝑛
.
Observe que:
1) Quanto menor o nível de confiança (1 − 𝛼), menor

será 𝑧𝛼Τ2 e assim a margem de erro também diminuirá.
2) Quanto maior for o tamanho da amostra, menor será a

margem de erro.
• Dessa forma, quanto menor for o nível de confiança e

quanto maior for o tamanho da amostra, mais preciso
será o IC construído.
• Exemplo 2: Um provedor de acesso à internet está
monitorando a duração do tempo das conexões de
seus clientes, com o objetivo de dimensionar seus
equipamentos.
• São desconhecidas a média e a distribuição de

probabilidade desse tempo, mas a variância, por
analogia a outros serviços, é considerada igual a 50
minutos2.
• Uma amostra de 500 conexões resultou num valor

médio observado de 25 minutos. O que dizer da
verdadeira média, com confiança de 92%?
• Solução: Para 1 − 𝛼 = 0,92 → 𝑧𝛼Τ2 = 1,75. (Olhar na
tabela 1 − 𝛼Τ2).
𝐼𝐶 𝜇; 0,92 = 𝑋ത ± 𝑧𝛼Τ2 ∙ 𝜎 = 25 ± 1,75 50Τ500

𝑛
𝐼𝐶 𝜇; 0,92 = 25 ± 0,55 = 24,45; 25,55ሻ
• Assim, estamos 92% confiantes de que o verdadeiro

tempo médio das conexões  está entre 24,45 min a
25,55 min.
• Exemplo 3: A vida média de baterias automotivas de
certa marca está sendo estudada. Baseado em
estudos similares, com outras marcas, é possível
admitir que a vida dessas baterias segue a
distribuição Normal com desvio padrão de 4,5
meses.
• De qual tamanho deverá ser a amostra, para que a

amplitude do intervalo de 90% de confiança para a
vida média seja de 3 meses?
• Solução: Para calcular o valor de n, consideramos a
equação:
2 ∙ 𝐸 = 2 ∙ 𝑧𝛼 Τ2 ∙ 𝜎 =3
𝑛
Para 1 − 𝛼 = 0,90 → 𝑧𝛼 Τ2 = 1,645. (Olhar na tabela

1 − 𝛼 Τ2). Assim, temos que:
2 2
2𝑧𝛼 Τ2 𝜎 2 ∙ 1,645 ∙ 4,5
𝑛= = = 24,21
3 3
Arredondar n
para cima
𝑛 = 25
Intervalos de Confiança para µ com
variância populacional desconhecida
• Considere uma AAS 𝑋1 , ⋯ , 𝑋𝑛 obtida de uma
população com distribuição Normal, com média  e
variância 𝜎 2 desconhecidas. Desejamos construir um
IC para a média populacional.
• Para tal, precisamos primeiro estimar o valor de 𝜎

utilizando o desvio padrão amostral 𝑆. Porém, isso
introduz uma outra fonte de incerteza,
especialmente com amostras pequenas.
• Para manter o intervalo de confiança em algum nível
desejado, tal como 95%, compensamos essa
incerteza adicional construindo um intervalo de
confiança um pouco mais largo.
• Para tal, utilizamos a distribuição t de Student ao

invés da distribuição Normal Padrão. Assim, em vez
de usar o valor 𝑧𝛼Τ2, usamos um valor ligeiramente
maior (𝑡𝛼Τ2) fornecido pela distribuição t de Student.
Distribuição t de Student
• Se a distribuição de uma população é essencialmente

Normal (com forma aproximada de um sino), então a
distribuição de
𝑋ത − 𝜇
𝑇=
𝑆
𝑛
é essencialmente uma distribuição t de Student com

n – 1 graus de liberdade, que é o parâmetro que
define e caracteriza a forma dessa distribuição .
Propriedades da dist. t-Student:
• É diferente conforme o número de graus de

liberdade (gl.);
• A curva de densidade possui formato de sino e está

centrada em 0, como a densidade da Normal Padrão.
• A curva da t-Student reflete a maior variabilidade

que a curva da Normal Padrão, principalmente em
pequenas amostras;
• À medida que o gl. aumenta, a distribuição t-Student se
aproxima da distribuição Normal Padrão, uma vez que o
valor de 𝑆 tende a estar mais próximo do verdadeiro
valor de 𝜎 a medida que o tamanho da amostra
aumenta.
• Dessa forma, o intervalo de confiança de 𝟏𝟎𝟎 ∙
𝟏 − 𝜶 % para  , quando 𝝈 é desconhecido, é
dado por:
𝐼𝐶 𝜇; 1−𝛼 = 𝑋ത − 𝑡𝛼Τ2 ∙ 𝑆 ; 𝑋ത + 𝑡𝛼Τ2 ∙ 𝑆

𝑛 𝑛
• Onde 𝑡𝛼Τ2 é o valor que define uma área de 𝛼Τ2 na

cauda direita da distribuição t-Student.
• Se a variável de interesse, além de variância
desconhecida, não tiver densidade Normal, é
necessário utilizar técnicas não-paramétricas (que
não serão apresentadas neste curso) para a
realização do IC para a média populacional.
• Um caminho para contornar essa dificuldade é

considerar um tamanho de amostra suficientemente
grande.
• Neste caso, é sabido que 𝑆 2 se aproxima de 𝜎 2 de tal
forma que o seu uso, juntamente com a aplicação do
TCL, permite considerar 𝑋ത como tendo distribuição
Normal, resultando em aproximações bastante
satisfatórias do ponto de vista prático.
• O esquema apresentado a seguir serve de auxílio na

escolha entre as distribuições Normal Padrão e t-
Student no processo de construção do IC.
Sim Pelo TCL podemos utilizar a dist.
Início 𝑛 > 30? Normal com 𝐸 = 𝑧𝛼Τ2 ∙ 𝜎Τ 𝑛 (use S
quando 𝜎 for desconhecido).
Não
A população Não Utilizar técnicas

segue dist.
Normal? não-paramétricas.
Sim
Sim Utilizar a dist. Normal com
𝐸 = 𝑧𝛼Τ2 ∙ 𝜎Τ 𝑛.
𝜎é
conhecido?
Utilizar a dist. t-Student com
Não g.l = n – 1 e 𝐸 = 𝑡𝛼Τ2 ∙ 𝑆Τ 𝑛
• Exemplo 1: O tempo de reação de um novo
medicamento, em minutos, pode ser considerado
como tendo distribuição Normal. Vinte pacientes
foram sorteados e tiveram seu tempo de reação
anotado, os resultados obtidos são apresentados a
seguir. Determine um intervalo de 95% de confiança
para o tempo de reação médio desse novo
medicamento .
2.9 3.4 3.5 4.1 4.6 4.7 4.5 3.8 5.3 4.9
4.8 5.7 5.8 5.0 3.4 5.9 6.3 4.6 5.5 6.2
• Solução: Primeiramente determinamos os valores dos
estimadores de μ e σ.
σ 𝑋𝑖 94,9
𝑋ത = = = 4,48
𝑛 20
1 σ 𝑋𝑖 2
2 2
𝑆 = 𝑋𝑖 −
𝑛−1 𝑛
1 94,92
𝑆= 469,15 − = 0,996
19 20
1 − 𝛼 = 0,95
Para ቊ → 𝑡𝛼Τ2 = 2,093
𝑔. 𝑙. = 𝑛 − 1 = 19
𝑆 0,996
𝐼𝐶 𝜇; 0,95 = 𝑋ത ± 𝑡𝛼Τ2 ∙ = 4,48 ± 2,093
𝑛 20
𝐼𝐶 𝜇; 0,95 = 4,48 ± 0,47 = 4,01; 4,95ሻ
• Assim, estamos 95% confiantes de que o tempo de

reação médio desse novo medicamento está entre 4,01 e
4,95 minutos.
• Exemplo 2: Considere um teste de colisão de carros.
A análise de 12 carros danificados resulta num custo
de conserto que parece ter distribuição em forma de
sino, com média e desvio-padrão a seguir (R$).
𝑋ത = 26.227 e 𝑆 = 15.873
• Determine um intervalo de 90% de confiança para 

(custo médio de conserto).
1 − 𝛼 = 0,9
• Solução: Para ቊ → 𝑡𝛼Τ2 = 1,796.
𝑔. 𝑙. = 𝑛 − 1 = 11
𝑆 15.873
𝐼𝐶 𝜇; 0,9 = 𝑋ത ± 𝑡𝛼Τ2 ∙ = 26.227 ± 1,796
𝑛 12
𝐼𝐶 𝜇; 0,9 = 26.227 ± 8.229,52 = 17.997,48; 34.456,52ሻ
• Assim, estamos 90% confiantes de que o intervalo

17.997,48; 34.456,52ሻ realmente contenha o
verdadeiro valor de .
6. Teste de Hipóteses (TH)
• Definição: Uma hipótese estatística é uma afirmação

acerca dos parâmetros de uma população, ou acerca
da distribuição da população.
• O objetivo de um teste de hipóteses é fornecer uma

metodologia que nos permita verificar se os dados
amostrais trazem evidências que apoiem ou não uma
hipótese formulada.
• A construção de um TH para um parâmetro
populacional pode ser colocado do seguinte modo:
Existe uma v.a. X associada a dada população e tem-
se uma hipótese sobre determinado parâmetro 𝜃
dessa população. Colhe-se uma AAS de elementos
dessa população, e com ela deseja-se comprovar ou
não tal hipótese.
• Exemplo: Vamos introduzir a ideia de teste de uma

hipótese por meio de um exemplo 8.1 do livro do
Magalhães.
Procedimento geral do TH para µ.
Passo 1: Formular a hipótese nula 𝐻0 e a hipótese

alternativa 𝐻1 ou 𝐻𝑎 .
𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0 → ℎ𝑖𝑝ó𝑡𝑒𝑠𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙
𝑉𝑠 ൞𝐻1 : 𝜇 > 𝜇0 → ℎ𝑖𝑝. 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑑𝑖𝑟𝑒𝑖𝑡𝑎
𝐻1 : 𝜇 < 𝜇0 → ℎ𝑖𝑝. 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑒𝑠𝑞𝑢𝑒𝑟𝑑𝑎
• Qualquer que seja a decisão tomada, estamos sujeitos a

cometer erros.
• Erro do tipo I: Rejeitar 𝐻0 quando essa é verdadeira.
Chamamos de 𝛼 a probabilidade de cometermos esse
erro, isto é,
𝛼 = 𝑃 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎
• Erro do tipo II: Não rejeitar 𝐻0 quando essa é falsa. A

probabilidade de cometermos esse erro é denotada por
𝛽, logo:
𝛽 = 𝑃 𝑛ã𝑜 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 𝐻0 é 𝑓𝑎𝑙𝑠𝑎
Passo 2: Identificar a distribuição do estimador (estatística de
teste) e obter sua estimativa.
Sim Use a dist. Normal com

Início 𝑛 > 30? Z = 𝑋ത − 𝜇ሻ/ 𝜎Τ 𝑛ሻ
(Se 𝜎 for desconhecido, use S).
Não
Não Utilizar técnicas não-

𝑋~𝑁 𝜇; 𝜎 2 ሻ?
paramétricas.
Sim
Sim Utilizar a dist. Normal com
𝜎é Z = 𝑋ത − 𝜇ሻ/ 𝜎Τ 𝑛ሻ.
conhecido?
Utilizar a dist. t-Student com n – 1
Não g.l. e T = 𝑋ത − 𝜇ሻ/ 𝑆Τ 𝑛ሻ.
Passo 3: Fixar 𝛼 (nível de significância) e obter a região
crítica (ou região de rejeição), de tal forma que:
𝛼 = 𝑃 𝑋ത ∈ 𝑅𝐶 𝐻0 é 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎
• A Região crítica (RC) de um TH é o conjunto de todos

os valores da estatística de teste que nos levam a
rejeitar 𝐻0 . Ao complementar de RC denominamos
Região de Aceitação (RA). A definição da RC depende
da hipótese alternativa.
• Para 𝐻1 : 𝜇 < 𝜇0 , temos que:
Pop. Sob H1 Pop. Sob H0
𝑥𝑐 𝜇0
𝑅𝐶 = 𝑥 ∈ ℝ| 𝑥 < 𝑥𝑐
• Para 𝐻1 : 𝜇 > 𝜇0 , temos que:
Pop. Sob H0 Pop. Sob H1
𝜇0 𝑥𝑐
𝑅𝐶 = 𝑥 ∈ ℝ| 𝑥 > 𝑥𝑐
• Para 𝐻1 : 𝜇 ≠ 𝜇0 , temos que:
H1 H0 H1
𝛼Τ2 𝛼Τ2
𝑥𝑐1 𝜇0 𝑥𝑐2
𝑅𝐶 = 𝑥 ∈ ℝ| 𝑥 < 𝑥𝑐1 𝑜𝑢 𝑥 > 𝑥𝑐2

• Caso a estatística de teste esteja sendo modelada por
uma distribuição Normal padrão e a variância da
população seja desconhecida, devemos necessariamente
definir nossa RC como se segue:
𝐻1 : 𝜇 < 𝜇0 → 𝑅𝐶 = 𝑧 ∈ ℝ|𝑧 < 𝑧𝑐

𝐻1 : 𝜇 > 𝜇0 → 𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 > 𝑧𝑐
𝐻1 : 𝜇 ≠ 𝜇0 → 𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 < 𝑧𝑐1 𝑜𝑢 𝑧 > 𝑧𝑐2
• Agora, caso a estatística de teste esteja sendo modelada

por uma distribuição t-Student, devemos
necessariamente definir nossa RC como se segue:
𝐻1 : 𝜇 < 𝜇0 → 𝑅𝐶 = 𝑡 ∈ ℝ|𝑡 < 𝑡𝑐
𝐻1 : 𝜇 > 𝜇0 → 𝑅𝐶 = 𝑡 ∈ ℝ| 𝑡 > 𝑡𝑐
𝐻1 : 𝜇 ≠ 𝜇0 → 𝑅𝐶 = 𝑡 ∈ ℝ| 𝑡 < 𝑡𝑐1 𝑜𝑢 𝑡 > 𝑡𝑐2
OBS: É importante ressaltar que a RC é sempre construída

sob a hipótese de 𝐻0 ser verdadeira.
Passo 4: Concluir o teste com base na estimativa e na

região crítica. Se o valor da estatística de teste calculado
com base na amostra não pertencer à RC, não rejeite 𝐻0 ;
caso contrário rejeite 𝐻0 .
• Exemplo 1: A resistência à tração do aço inoxidável
produzido numa usina permanecia estável, com uma
resistência média de 73 kg/mm2 e um desvio padrão de
2,0 kg/mm2; sendo que tal resistência comporta-se de
acordo com uma distribuição Normal. Recentemente, a
máquina foi ajustada. A fim de determinar o efeito do
ajuste, 10 amostras foram testadas.
75,2 77,3 75,4 73,7 71,6 77,4 74,7 69,2 72,3 73,2
• Presuma que o desvio padrão seja o mesmo que antes do
ajuste. Podemos concluir que o ajuste mudou a
resistência à tração do aço? Adote um nível de
significância de 5%.
𝐻0 : 𝜇 = 73
• Passo 1: ቊ
𝐻1 : 𝜇 ≠ 73
• Passo 2: Uma vez que n < 30 e a população segue

distribuição Normal com σ conhecido, vamos utilizar a
estatística Z.
• Pelo TCL, supondo H0 verdadeira, temos que
Z = 𝑋ത − 73ሻ/ 2Τ 10ሻሻsegue uma distribuição Normal
Padrão. A amostra obtida forneceu a estimativa
𝑥𝑜𝑏𝑠 = 74. Dessa forma,
𝑥𝑜𝑏𝑠 − 𝜇𝑠𝑜𝑏 𝐻0 74 − 73
𝑧𝑜𝑏𝑠 = 𝜎 = = 1,58
2
𝑛 10
• Passo 3: Fixando-se 𝛼 = 0,05, temos que:

𝑃 𝑍 ∈ 𝑅𝐶 𝐻0 𝑣𝑒𝑟𝑑 = 𝑃 𝑍 < 𝑧𝑐1 𝑜𝑢 𝑍 > 𝑧𝑐2 𝜇 = 73 = 0,05
2,5% 2,5%
𝑧𝑐1 0 𝑧𝑐2
• Pela tabela da Normal padrão, tem-se que: 𝑧𝑐1 = −1,96

e 𝑧𝑐2 = 1,96. Dessa forma,
𝑅𝐶 = 𝑧 ∈ ℝ| 𝑧 < −1,96 𝑜𝑢 𝑧 > 1,96 .

Ou equivalentemente,
𝑅𝐶 = 𝑥 ∈ ℝ| 𝑥 < 71,76 𝑜𝑢 𝑥 > 74,24 .
• Passo 4: Uma vez que o valor da estatística

observado na amostra não pertence à RC, não
rejeitamos 𝐻0 ao nível de significância de 5%. Ou
seja, concluímos que a resistência à tração do aço
permanece a mesma após ter sido feito o ajuste da
máquina.
• Podemos também calcular a probabilidade 𝛽 do erro
tipo II, isto é, a probabilidade de estar aceitando
incorretamente H0.
• Note que para calcular 𝛼, µ está bem especificado, o

que não é o caso para o erro tipo II. Como, em geral,
a hipótese alternativa é composta, existem diversos
valores possíveis para µ. Dessa forma, 𝛽 será uma
função do parâmetro µ e a probabilidade do erro
tipo II será denotada por 𝛽 𝜇ሻ.
• Exemplo 2: Para o exemplo anterior, calcule o erro do tipo II
para 𝜇 = 74.
𝛽 𝜇ሻ = 𝑃 𝑋ത ∈ 𝑅𝐴 𝐻0 é 𝑓𝑎𝑙𝑠𝑎
𝛽 74ሻ = 𝑃 71,76 ≤ 𝑋ത ≤ 74,24 𝜇 = 74
71,76 − 74 74,24 − 74
=𝑃 ≤𝑍≤
2Τ 10 2Τ 10
= 𝑃 −3,54 ≤ 𝑍 ≤ 0,38 = 0,648 − 0,0002 = 0,6478
• Assim, sendo 𝜇 = 74, existe uma probabilidade de 64,78%

de concluirmos de forma equivocada que H0 é verdadeira.
Probabilidade de significância (p-valor)
• Ao realizarmos um teste de hipóteses, partimos da
fixação do nível de significância 𝛼 para construirmos a
RC.
• Um enfoque alternativo consiste em calcular, supondo

que a hipótese nula seja verdadeira, a probabilidade de
se obter um valor da estatística de teste que seja no
mínimo tão extremo quanto o que foi observado a partir
da amostra. Essa quantidade é chamada probabilidade
de significância ou p-valor e será denotado por 𝛼 ∗ .
• Exemplo 3: Uma associação de defesa do consumidor
desconfia que embalagens de 450 gramas de certo
tipo de biscoito estão abaixo do peso. Para verificar
tal afirmação, foram coletados ao acaso 80 pacotes
em vários supermercados, obtendo-se uma média de
peso de 448 gramas. Admitindo-se que o peso dos
pacotes segue o modelo Normal com desvio padrão
10 gramas, que conclusão pode ser tirada através da
probabilidade de significância (p-valor)?
𝐻0 : 𝜇 = 450
• Passo 1: ቊ
𝐻1 : 𝜇 < 450
• Passo 2: Pelo TCL, supondo H0 verdadeira, temos que

ሜ
𝑋~𝑁 450; 100Τ80ሻ.
• Uma vez que n > 30 e a população segue distribuição

Normal com σ conhecido, vamos utilizar a estatística
Z. O valor observado na amostra foi 𝑥ǉ 𝑜𝑏𝑠 = 448.
Dessa forma o p-valor é dado por:
𝛼 ∗ = 𝑃 𝑋ሜ < 𝑥ǉ 𝑜𝑏𝑠 |𝐻0 verd = 𝑃 𝑋ሜ < 448|𝜇 = 450
448 − 450
𝛼∗ =𝑃 𝑍< = 𝑃 𝑍 < −1,79 = 0,0367
10Τ 80
• Note que o p-valor se relaciona diretamente com o nível

de significância 𝛼. Neste exemplo, se tivéssemos fixado
um 𝛼 > 3,67%, a conclusão seria pela rejeição de H0, ao
passo que valores de 𝛼 ≤ 3,67%, conduziriam à não
rejeição de H0.
Pop. Sob H0
𝛼 3,67%
3,67% 𝛼
448 𝑥𝑐 450 𝑥𝑐 448 450
• Podemos interpretar o p-valor como o menor valor do

nível de significância para o qual rejeitamos H0. Desta
forma, se o valor de α proposto para o teste for menor
que o p-valor, não rejeitamos a hipótese H0.
• Note ainda que valores pequenos de p-valor
evidenciam que 𝐻0 é falsa, pois sendo a amostra
nossa ferramenta de inferência sobre a população,
ela fornece uma estimativa que teria uma
probabilidade muito pequena de ocorrer, caso 𝐻0
fosse verdadeira.
• Para o teste de hipóteses bilateral, ao calcularmos o
p-valor, precisamos considerar que a forma da
região crítica envolve os valores de 𝑥𝑜𝑏𝑠 que se
distanciam muito (para mais ou para menos)
daquele previsto pela hipótese nula.
• Um procedimento é tomar o p-valor bilateral como
sendo igual a 2 vezes o p-valor unilateral. Dessa forma
para testar 𝐻0 : 𝜇 = 𝜇0 vs 𝐻1 : 𝜇 ≠ 𝜇0 , temos que:
• 1º Caso: se 𝑋ത𝑜𝑏𝑠 < 𝜇0 ,
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑋ത < 𝑋ത𝑜𝑏𝑠 | 𝐻0 𝑣𝑒𝑟𝑑.
• 2º Caso: se 𝑋ത𝑜𝑏𝑠 > 𝜇0 ,
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 2 × 𝑃 𝑋ത > 𝑋ത𝑜𝑏𝑠 | 𝐻0 𝑣𝑒𝑟𝑑.

• Exemplo 4: No exemplo 1 estávamos testando se o ajuste
da máquina mudou a resistência à tração do aço
inoxidável, ou seja, estávamos testando as seguintes
hipóteses:
𝐻0 : 𝜇 = 73
ቊ
𝐻1 : 𝜇 ≠ 73
ത
• Vimos que, sob 𝐻0 , 𝑋~𝑁 73; 4Τ10 . Colhida a amostra
obtivemos 𝑥𝑜𝑏𝑠 = 74. Dessa forma o p-valor é dado por:
74 − 73
𝛼∗ = 2 × 𝑃 𝑋ത > 74| 𝜇 = 73 = 2 × 𝑃 𝑍 >
2Τ 10
𝛼 ∗ = 2 × 𝑃 𝑍 > 1,58 = 2 × 1 − 𝑃 𝑍 ≤ 1,58
𝛼 ∗ = 2 × 1 − 0,9429 = 2 × 0,0571 = 0,1142
• Uma vez que 𝛼 ∗ > 0,05, não rejeitamos 𝐻0 ao nível de

significância de 5%. Ou seja, concluímos que a resistência
à tração do aço permanece a mesma após ter sido feito o
ajuste da máquina.
𝛼 ∗Τ2 = 5,71% 𝛼 ∗Τ2 = 5,71%
𝛼Τ2 = 2,5% 𝛼Τ2 = 2,5%
-1,96 -1,58 0 1,58 1,96
RC RC
• Exemplo 5: Um fabricante afirma que seus cigarros
contêm não mais que 30mg de nicotina. Suponha
que o nível de nicotina nos cigarros siga uma
distribuição Normal com média e variância
desconhecidas. Uma amostra de 25 cigarros fornece
média de 31,5mg e desvio padrão de 3mg. No nível
de 5%, os dados refutam ou não a afirmação do
fabricante?
𝐻0 : 𝜇 = 30
• Passo 1: ቊ
𝐻1 : 𝜇 > 30
• Passo 2: Uma vez que n < 30 e a população segue

distribuição Normal com σ desconhecido, vamos utilizar
a estatística T = 𝑋ത − 𝜇ሻ/ 𝑆Τ 𝑛ሻ que segue uma
distribuição t com 24 g.l. Temos que,
𝑥𝑜𝑏𝑠 − 𝜇𝑠𝑜𝑏 𝐻0 31,5 − 30

𝑡𝑜𝑏𝑠 = = = 2,5
𝑆 3
𝑛 25
𝑃 𝑇 ∈ 𝑅𝐶 𝐻0 𝑣𝑒𝑟𝑑 = 𝑃 𝑇 > 𝑡𝑐 𝜇 = 30 = 0,05
5%
0 𝑡𝑐
• Consultando a tabela da t-Student, para g.l = 24 e
área nas duas caudas de 0,1, temos que
𝑡𝑐 = 1,711. Dessa forma,
𝑅𝐶 = 𝑡 ∈ ℝ| 𝑡 > 1,711 .
• Passo 4: Uma vez que 𝑡𝑜𝑏𝑠 = 2,5 pertence à RC,

seja, há evidências de que os cigarros contenham
mais de 30mg de nicotina.
• Realizando o TH do exemplo 5 com base no p-valor,
temos que:
𝛼 ∗ = 𝑃 𝑋ሜ > 𝑥ǉ 𝑜𝑏𝑠 |𝐻0 verd = 𝑃 𝑋ሜ > 31,5|𝜇 = 30
31,5 − 30
𝛼∗ =𝑃 𝑇> = 𝑃 𝑇 > 2,5
3Τ 25
• Para 𝑔. 𝑙 = 24, temos que 0,005 < 𝛼 ∗ < 0,01
• Uma vez que 𝛼 ∗ < 0,05, rejeitamos H0 ao nível de

significância de 5%. Ou seja, há evidências de que os
cigarros contenham mais de 30mg de nicotina.
• Exemplo 6: O tempo médio para executar uma tarefa por
operários de certa fábrica tem sido 100 minutos.
Introduziu-se uma modificação para diminuir esse tempo
e, após certo período, sorteou-se uma amostra de 16
operários, medindo-se o tempo de execução de cada um.
O tempo médio da amostra foi 88 minutos e o desvio
padrão foi 12 minutos. Estes resultados trazem
evidências estatísticas da melhora desejada? Apresente
as suposições teóricas usadas para resolver o problema e
use 𝛼 = 0,01.
𝐻0 : 𝜇 = 100
• Passo 1: ቊ
𝐻1 : 𝜇 < 100
• Passo 2: Uma vez que n < 30 e σ desconhecido, vamos

fazer a suposição de Normalidade da população para que
possamos utilizar a estatística T. Dessa forma, temos que
𝑥𝑜𝑏𝑠 − 𝜇𝑠𝑜𝑏 𝐻0 88 − 100

𝑡𝑜𝑏𝑠 = = = −4
𝑆 12
𝑛 16
𝑃 𝑇 ∈ 𝑅𝐶 𝐻0 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎 = 𝑃 𝑇 < 𝑡𝑐 𝜇 = 100 = 0,01
1%
𝑡𝑐
0
• Consultando a tabela da t-Student, para g.l = 15 e
área nas duas caudas de 0,02, temos que
𝑡𝑐 = −2,602. Dessa forma,
𝑅𝐶 = 𝑡 ∈ ℝ| 𝑡 < −2,602 .
• Passo 4: Uma vez que 𝑡𝑜𝑏𝑠 = −4 pertence à RC,

seja, há evidências de que o tempo de execução da
tarefa pelos operários diminuiu.
• Realizando o TH do exemplo 6 com base no p-valor,
temos que:
𝛼 ∗ = 𝑃 𝑋ሜ < 𝑥ǉ 𝑜𝑏𝑠 |𝐻0 verd = 𝑃 𝑋ሜ < 88|𝜇 = 100
88 − 100
𝛼∗ =𝑃 𝑇< = 𝑃 𝑇 < −4
12Τ 16
• Para 𝑔. 𝑙 = 15, temos que 0,002 < 𝛼 ∗ < 0,001
• Uma vez que 𝛼 ∗ < 0,05, rejeitamos H0 ao nível de

significância de 5%. Ou seja, há evidências de que o
tempo de execução da tarefa pelos operários diminuiu.

Probabilidade e Estatística

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Probabilidade e Estatística

Uploaded by

Copyright:

Available Formats

Probabilidade e Estatística

Caroline Cavatti Vieira Bolonini

• Dados: Conjuntos de valores, numéricos ou não.

• Qualitativas: quando os possíveis valores que

• Nominais: o conjunto dos possíveis valores não

• Ordinais: é possível ordenar o conjunto dos

• Discretas: em geral são fruto de uma contagem. O

• Contínuas: assumem valores em intervalos dos

• Amostra: é um subconjunto desta população obtida

• Em princípio, a seleção da amostra tenta fornecer um

1. A fim de medir o grau de satisfação do brasileiro em

População – Todos os indivíduos brasileiros que

População – Toda a extensão da jazida mineral

• Definição: Conjunto de técnicas utilizadas na

• Apresentação dos dados: organizar os dados de

• Nela são listados individualmente cada elemento da

• Apesar de conter muita informação, a tabela de dados

• A tabela de frequência mais simples é aquela que lista os

Sexo f fr (%) Fuma f fr (%)

• Frequência relativa (fr):

𝑓𝑟𝑒𝑞. 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒

• Frequência acumulada: fa = freq. absoluta da classe +

• Frequência relativa acumulada: fra = freq. relativa da

Idade f fa fr (%) fra (%)

Peso f fa fr (%) fra (%) densidade

1. Calcular a amplitude total (R).

2. Estipular o número de classes da tabela (k).

• OBS: arredondar o valor k para o inteiro mais

• OBS: h deve ser tomado com número de casa

• Gráfico de Barras: Para cada valor da variável,

• Este tipo de gráfico se adapta melhor às variáveis

• Consiste num círculo dividido em setores, cujos

• É útil quando o número de classes é pequeno.

• Este gráfico consiste de retângulos contíguos cuja

• A altura de cada retângulo é chamada de densidade

𝑓𝑟𝑒𝑞. 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 𝑑𝑎 𝑐𝑙𝑎𝑠𝑠𝑒 𝑖

• Obs: o histograma pode ainda ser representado por

• Medidas são resumos ou sumários da informação

• Existem diferentes classes de medidas, sendo as mais

• Parâmetro: Resumo de uma característica obtido a

• Estatística: Resumo da característica de interesse

Medidas de tendência central Mediana

• Para melhor compreensão do conceito de média

• Para tanto simplesmente plotamos um ponto para

• Se conhecermos a frequência relativa, o cálculo da

• Pela freqüência absoluta:

• Pela freqüência relativa:

• A média é uma medida afetada por valores

• Se calcularmos o valor médio de uma variável para

a) quando n é par: { 1; 1; 1; 3; 3; 5; 3; 3; 2; 2}.

2. (10 + 1)Τ2 = 11Τ2 = 5,5

• Então, tomamos a média entre eles como a mediana:

Posição - (9 + 1)Τ2 = 10Τ2 = 5

• Observação: a mediana é menos afetada por valores

• A moda de um conjunto de dados é o valor que

𝑚𝑜 = 3. Dizemos que este conjunto é unimodal.

• Em um conjunto de dados pode haver mais de uma

𝑚𝑜1 = 1 e 𝑚𝑜2 = 3 . Neste caso se diz que o

• Se houver mais de duas modas diz-se que o conjunto

• Exemplo 3: Com base na tabela de frequências

• O percentil de ordem α de um conjunto de

2. Encontrar a frequência relativa da classe que

3. Encontrar a frequência relativa acumulada até a

4. Calcule a diferença 𝛼 − 𝑓𝑟𝑎𝑎 . Esta diferença é a

Idade fi Xifi Xi2fi