Introdução à Teoria da Probabilidade

6
PROBABILIDADE
6.1 Introdução
A teoria da probabilidade é a parte da matemática que estuda os fenômenos
aleatórios. Todo fato ou acontecimento passível de observação é chamado de fenômeno, e os seus
possíveis resultados são determinísticos ou aleatórios. Qualquer ensaio ou experiência destinado à
verificação de um fenômeno é chamado de experimento. Diz-se que um fenômeno é determinístico
quando apresenta um só resultado sob as mesmas condições de experimentação, isto é, se a
experiência não se altera o seu resultado é sempre o mesmo. Já os fenômenos aleatórios, ainda que
repetidos sob as mesmas condições iniciais, apresentam resultados distintos ou incertos, porque
estão sujeitos às leis do acaso.
Tanto que quando se atira uma moeda para o alto a força da gravidade faz com que a sua
queda seja certa, a velocidade da queda da moeda, desde que lançada sob as mesmas condições, será
uma constante que se pode chamar de fenômeno determinístico. Mas a ocorrência de cara ou de coroa
é imprevisível, pois alguém pode apostar em cara e dar coroa, ou vice-versa. É essa incerteza quanto
aos resultados do acontecimento que denota o que se chama de fenômeno aleatório.
Neste contexto, a probabilidade é um número real que exprime quão provável é a chance de
ocorrer um particular resultado do acontecimento aleatório.
De início a teoria da probabilidade era utilizada para prever resultados de jogos de azar, e
daí a razão de tal vertente ser bastante explorada no estudo introdutório da matéria. Porém, com o
passar do tempo, as aplicações de probabilidade se expandiram notavelmente, sobretudo em
processos de tomada de decisão ligados a acontecimentos sujeitos aos efeitos do acaso, tais como:
previsão meteorológica e de safras agrícolas; risco de apólices de seguro; cotação de ações em bolsa
de valores; controle de qualidade; marketing, etc.
6.2 Experimento aleatório

Designa uma experiência em que os seus resultados são imprevisíveis, mesmo que seja
repetida indefinidamente sob condições semelhantes, e é simbolizado pela letra E latina. Eis alguns
exemplos de experimento aleatório:
2
E1: arremessar um dado e anotar o número do lado que cai para cima;
E2: lançar uma moeda e verificar a seqüência de cara e coroa;
E3: retirar cartas de um baralho e verificar as figuras;
E4: Conferir o número de peças defeituosas produzidas diariamente por uma máquina;
E5: Verificar a execução de uma tarefa e anotar o tempo gasto por cada trabalhador.
Embora os resultados dos experimentos retromencionados se pareçam absolutamente acidentais,

verifica-se que na realidade eles tendem para uma estabilidade estatística quando a experiência é
repetida um número relativamente grande de vezes. Esta regularidade é fundamental porque facilita a
construção de modelos matemáticos para descrever o comportamento do fenômeno, possibilitando à
previsibilidade de cada valor em particular, como se verá mais adiante.
6.3 Espaço amostral

O conjunto de todos os resultados possíveis de um experimento aleatório é chamado de
espaço amostral. Este é um conjunto S em que cada um de seus elementos está associado a um e
somente um resultado possível do experimento. Eis, então, os seguintes exemplos:
a) lançamento de um dado: S1 = {1, 2, 3, 4, 5, 6};
b) lançamento de uma moeda: S2 = {cara, coroa};
c) retirada de uma carta de um baralho: S3 = {as 52 cartas};
d) Contagem diária das peças defeituosas produzidas por uma máquina, para controle do
processo: S 4 = {0, 1, 2, 3, ..., n} ;
e) tempo que um grupo de trabalhadores gasta para executar uma tarefa que está a ser
implantada:
S5 = {x ∈ R / x > 0 }.
Os exemplos vistos nas letras a, b, c e d são de espaços amostrais finitos numeráveis e o da

letra e de espaço amostral infinito não-enumerável, cujo estudo será abstraído neste capítulo, por
exigir aplicação de matemática avançada, em face de maior complexidade teórica.
6.4 Eventos
Prof. Gilberto S. Gramacho, UEFS, 29/09/2006.

3
Qualquer subconjunto do espaço amostral S é chamado de evento. Se um evento tem apenas um

elemento é chamado de evento simples, e de evento composto se tem mais de um elemento. Um
evento é definido por uma sentença e tem como símbolo as letras maiúsculas do alfabeto. Os seus
elementos são descritos por números arábicos, ou letras minúsculas quando não têm expressão
numérica.
Eis que quando se lança uma moeda o espaço amostral é formado por dois eventos simples
cara (c) e coroa (k), tal que S = {c, k}.
Agora quando se lançam duas moedas o espaço amostral corresponde a quatro seqüências
de coroa/coroa (kk), coroa/cara (kc), cara/coroa (ck) e cara/cara (cc), de modo que se tem S = {kk,
kc, ck, cc}, onde cada seqüência é um evento composto de S. E o evento relativo a pelo menos uma
cara é definido pelo subconjunto A = {kc, ck, cc}.
Veja-se ainda, neste caso, que os elementos de S podem ser definidos como pontos de uma
variável aleatória, quando se enuncia, por exemplo, que X é igual ao número de caras. Isso permite
descrever o mesmo espaço amostral através de números, tal que S = {0, 1, 2} e o referido evento A
pelo subconjunto numérico A = {1, 2}, como se vê no quadro abaixo.
Quadro 6.1 – Eventos relativos ao

lançamento de duas moedas
Seqüências X = número de caras
kk 0
kc, ck 1
cc 2
Outrossim, quando o experimento consiste no lançamento de um dado o número de casos

possíveis é igual a seis, que corresponde à freqüência de cada uma das seis faces que pode cair voltada
para cima, e é representado pelo conjunto S = {1, 2, 3, 4, 5, 6}.
Para um S finito ou infinito numerável, constituído de n elementos, existem 2 n

subconjuntos ou eventos possíveis.
a) Evento impossível: É uma situação impossível de acontecer na realização de determinado

experimento e se representa pelo símbolo Φ . Eis que é impossível obter uma seqüência de três caras
num único lançamento de duas moedas, ou dar número menor que a unidade no lançamento de um
dado. Os conceitos de evento impossível e de conjunto vazio são equivalentes.
b) Evento certo: Quando envolve todos os resultados do experimento. Seja, por exemplo, o

4
lançamento de um dado. O evento A = {ocorrer número natural entre 1 e 6} é um evento certo, pois os
seus resultados possíveis coincidem com o do conjunto S = {1, 2, 3, 4, 5, 6}.
6.4.1 Operações com eventos

Já é sabido que o espaço amostral S abrange todos os resultados possíveis do experimento
aleatório ou todos os elementos de uma população de interesse. Isto equivale à noção de conjunto
universo ou conjunto fundamental estudado na teoria dos conjuntos. Aqui a notação x∈A significa
número x de elementos de S pertencentes ao evento A, ou x∉A número x de elementos de S não
pertencentes a A.
Dados os eventos A e B, definidos em S, é possível obter novos eventos através das

operações de união e interseção, ou complementação, da teoria dos conjuntos, como se vê a seguir:
a) União de eventos: Sejam os eventos A e B contidos em S. A união de A com B é dada

pelos elementos de S que pertencem a A ou B (ou ambos), que se identifica pela notação A ∪ B
(lê-se A união B), ou em símbolos A∪B = {x∈S/x∈A ou x∈B (ou ambos)}.
b) Interseção de eventos: Sejam A e B dois eventos definidos em S. A interseção de A com

B é formada pelos x elementos de S que pertencem simultaneamente a A e B, que se representa pela
notação A ∩ B (lê-se A inter B), ou pelo símbolo A∩ B= {x∈ S/ x∈ A x∈ B}

e .
c) Complementação de eventos: Seja um evento A contido em S ( A ⊂ S ). O

complemento de A em relação S, é formado pelos x elementos de S que não pertencem a A, que se
identifica pela notação A ou A C (lê-se complemento de A), cujo símbolo é A ={x ∈S / x ∉A} .
d) Inclusão de eventos: Sejam A e B dois eventos associados ao espaço amostral S. Diz-se

que A está contido (ou incluído) em B, se todo elemento de A é também elemento de B, cuja
notação é A ⊂ B , ou ainda melhor A ⊂ B ={∀x ∈A →x ∈B} .
O diagrama de Venn-Euller dá uma boa idéia dessa combinação de eventos, como se

verifica nas áreas sombreadas da figura abaixo.

5
Figura 6.1 Diagramas de Venn-Euller
Se os eventos A e B não têm qualquer elemento em comum a união é formada pela soma
dos seus elementos A ∪ B = A + B , e a interseção é um evento impossível tal que A ∩ B = Φ ,
como se nota na figura abaixo:
Figura 6.2 Diagrama de Venn para A ∩ B = Φ
Apresentam-se abaixo algumas propriedades decorrentes de complementação, união e

interseção de eventos, úteis no estudo de probabilidade.
a) Absorção: A ∪( A ∩B) = A e A ∩( A ∪B) = A .
b) Associativa: ( A ∩B) ∩C = A ∩( B ∩C) e ( A ∪B) ∪C = A ∪( B ∪C) .
c) Complementares: A ∪A =S ; A ∩A = Φ ; S =Φ ; Φ =S e A = A .
d) Comutativa: A ∩ B = B ∩ A e A ∪ B = B ∪ A .
e) Distributiva: A ∪(B ∩C) = ( A ∪B) ∩(A ∪C) e A ∩( B ∪C) = ( A ∩B) ∪( A ∩C) .
f) Idempotente: A ∩ A = A e A ∪ A = A .
g) Identidade: A ∩ Φ = Φ ; A ∪ Φ = A ; A ∩S = A e A ∪S = S .
h) Leis de Morgan: A ∩B = A ∪B e A ∪B = A ∩B .
Exemplo: É possível simular os eventos abaixo, com os números referentes ao jogo de um

dado, cujo espaço amostral é S = {1, 2, 3, 4, 5, 6}:
a) A = {número par} = {2, 4, 6};
b) B = {número primo} = {2, 3, 5};
b) C = {número ímpar} = {1, 3, 5};
c) D = {n° inteiro positivo} = {1, 2, 3, 4, 5, 6} → D = S (evento certo);
d) E = {número menor que a unidade}→ E ={} = Φ (evento impossível);

6
e) A ∪ B = {número par ou primo} = {2, 3, 4, 5, 6};
f) A ∩ B = {número par e primo} = {2};
g) A ={número não par}= {1, 3, 5};
i) A ∪B ={nem par nem primo} = {1};
j) A ∪B = A ∩B = {n° que não seja par ou não primo} = {1, 3, 4, 5, 6};
l) A ∩B = A ∪B = {1, 3, 5}.
m) C ={número não ímpar} = {2, 4, 6};
n) C = C ={inverso de um n° não ímpar}={número ímpar} = {1, 3, 5}.
6.5 Cálculo de probabilidades

6.5.1 “Definição” clássica
Se o espaço amostral S é finito e os seus elementos são igualmente prováveis, a probabilidade do
evento A, definido em S, é calculada da seguinte maneira:
n (A) número de casos favoráveis em A

P( A ) = =
n (S) número de casos possíveis em S
Esta “definição” é muito simples e intuitiva, e por isso é bastante utilizada para calcular
probabilidades de eventos associados a sorteios e jogos de azar (lançar moeda ou dado, extrair
cartas de baralho, etc.). Com ela se calcula probabilidades a priori, isto é, antes de ser observada
qualquer amostra de eventos.
Porém, o conceito clássico não é considerado definição geral de probabilidade, pois só se

aplica a conjuntos com número finito de resultados, e exige que estes sejam igualmente prováveis,
ou seja, o conceito a definir está contido na própria definição.
Veja-se que quando duas moedas honestas são lançadas é possível antecipar a probabilidade
do evento duas caras (cc), pois cara (c) e coroa (k) são igualmente prováveis, considerando o espaço
amostral S = {cc, ck, kc, kk}. Definindo-se o evento A = {cc}, em que duas caras ocorrem, a sua
probabilidade é calculada do seguinte modo:
n (A) 1 1 1 1
P( A) = = , ou seja, P ( A ) = × = .
n (S) 4 2 2 4
No caso de duas moedas viciadas, a fórmula clássica não se aplica, pois as probabilidades

7
correspondentes aos pontos de S passam a ser diferentes e desconhecidas. E só poderão ser avaliadas
mediante observação da freqüência relativa numa experimentação repetida um número grande de vezes.
6.5.2 Definição freqüêncial

Esta definição propõe que a probabilidade de um evento seja avaliada com base na
regularidade das freqüências relativas, em repetições do experimento, sob iguais condições, um
número muito grande de vezes ou mediante verificações em séries históricas.
Teoricamente, a probabilidade de um evento A é o limite da freqüência relativa quando o
f
número n de observações tende para infinito, tal que P( A ) = lim ( i ) .
n → +∞ n
fi
Onde =f ri é a freqüência relativa e fi a freqüência absoluta simples.
n
Quando n é grande, o ponto de estabilização da freqüência relativa funciona como

aproximação de P(A), o que é expresso pela fórmula:
fi
P(A ) ≅
n
O gráfico abaixo dá idéia da regularidade da freqüência relativa, quando o experimento é
repetido um número grande de vezes.
Figura 6.3 Regularidade da freqüência relativa f ri
Como se observa na figura anterior, a probabilidade de um evento é um número positivo e

menor ou igual a unidade, representado pela freqüência relativa do acontecimento, numa série de
observações relativamente grande.
Observe-se que se o experimento consiste no lançamento de duas moedas viciadas, não há

como antecipar a probabilidade do evento referente a duas caras (cc), porque a probabilidade
elementar de cara (ou de coroa) é, por enquanto, desconhecida. Significa que só será possível
avaliá-la mediante a observação empírica das freqüências de cara num grande número de

8
lançamentos.
Se o resultado da experimentação revelar que a freqüência de cara c é duas vezes mais que a
de coroa k, aí sim será possível calcular a probabilidade de cada ponto de S.
Com efeito, faz-se P(c) =2P(k) e P(k) = p, tal que p é uma probabilidade por enquanto
desconhecida de coroa. E, por substituição, acha-se P(c) = 2p.
E lembrando que, por definição, Σ p = 1, pode obter-se o valor de p do seguinte modo:
1
2p +p =1 →3p =1 →p = .
3
Com isso as probabilidades de cara e de coroa, obtidas por substituição, serão iguais a
1 1 2
P(k) = e P(c) = 2 × → P (c) = .
3 3 3
2 2 4
E, por fim, a probabilidade do evento duas caras é P (cc ) = × = .
3 3 9
Apesar de ser muito útil na prática, a definição de probabilidade com base nas freqüências
relativas apresenta restrições do ponto de vista matemático, uma vez que o limite pode não existir.
6.5.3 Definição axiomática

Para contornar as dificuldades encontradas nas definições anteriores, a definição moderna de
probabilidade foi desenvolvida com fundamento em axiomas, a fim de deixar a definição a mais
abrangente possível.
Seja, por conseguinte, um experimento aleatório descrito pelo espaço amostral S. Seja A um
evento associado a S. Então, a probabilidade de A é uma função definida em S, que atribui um
número real a cada evento simples de S, nas seguintes condições:
a) 0 ≤ P (A ) ≤1 ;
b) P(S) = 1;
c) P( A ∪B) = (PA ) +P (B) , se A e B são mutuamente exclusivos (disjuntos).
Note-se que esta definição não ensina como avaliar objetivamente uma P(A), no entanto ela é
fundamental pela abrangência, pois as suas propriedades possibilitam operar até em espaços amostrais
infinitos não-enumeráveis, típicos de variáveis contínuas. Neste aspecto, a definição se completa com
os teoremas fundamentais, cujos mais importantes se apresentam adiante.

9
6.5.4 Definição subjetiva

Aqui a probabilidade de um evento depende de avaliação pessoal, contando com o
conhecimento ou a intuição do pesquisador. Com efeito, a probabilidade da cotação de uma ação a ser
lançada na bolsa de valores subir em médio prazo, devido a inexistência de dados preliminares, só
poderá ser estimada pelo grau de crença ou expectativa que o especialista tenha sobre o assunto, quer
dizer, de modo meramente subjetivo.
6.6 Teoremas básicos

I - Se Φ é um evento impossível, então P (Φ) =0 .
Para demonstrar este teorema basta escrever A ∪ Φ = A e aplicar a propriedade c do item

6.5.3, pois A e Φ são disjuntos, a saber:
P(A ∪Φ ) = P( A ) →P( A ) +P(Φ) = P(A ) → P(Φ) =P(A) −P(A) =0 →

P (Φ ) = 0
.
II - Se A é o complemento de A, então P ( A ) =1 −P (A ) .
Eis que o evento A e o seu complemento A são mutuamente excludentes, pois A ∪A = S
, como se nota na figura abaixo:
Figura 6.4 Complementaridade de eventos

Para demonstrar o teorema escreve-se P( A ∪A ) =P(S) .
Lembrando que P(S) = 1 e que A e A são disjuntos, segue-se que:
P(A) + P( A ) = 1, permitindo comprovar que de fato P ( A ) =1 −P (A ) .
III - Se A e B são eventos quaisquer, então: P(A ∪B) = P( A) +P( B) −P( A ∩B) .
O teorema é demonstrado expondo os eventos A∪B e B da seguinte maneira:
(i) A ∪B = A ∪( A ∩B)
(ii) B = (A ∩B) ∪( A ∩B)
A figura abaixo dá idéia de como se efetiva esse tipo de exposição.

10
Figura 6.5 Diagrama de Venn para união de eventos
Como os eventos de (i) e (ii) são mutuamente excludentes, as respectivas probabilidades

podem ser escritas da seguinte forma:
(i) P(A ∪B) =P(A ) +P ( A ∩B)

(ii) P(B) = P(A ∩B) +P( A ∩B)
Para comprovar o teorema basta subtrair (i) de (ii), como se faz a seguir:
P(A ∪B) −P(B) = P(A) + P( A ∩B) −[P(A ∩B) + P( A ∩B)]
P(A ∪B) = P(A) + P(B) + P( A ∩B) −P(A ∩B) −P( A ∩B)
Com a eliminação de ±P( A ∩B) , comprova-se que:
P(A ∪B) =P(Α ) + P(Β ) −P(Α ∩B) .
A generalização do teorema para três eventos A, B e C, é representada pela fórmula abaixo:
P(A∪B∪C) = P(A) + P(B) + P(C) – P(A∩B) – P(A∩C) – P(B∩C) + P(A∩B∩C).
IV - Se A ⊂ B, então P(A) ≤ P(B).
Demonstra-se o teorema partindo da expressão B =A ∪( A ∩C) , cuja ilustração se

observa na figura adiante:
Figura 6.6 Inclusão de eventos tipo A ⊂ B
Como A e ( A ∩C) são eventos mutuamente exclusivos, escreve-se:
P( B) =P{A ∪( A ∩C)} =P( A ) +P( A ∩B) →P( B) −P( A ) =P( A ∩B)
Como P( A ∩B) ≥0 , resta P(B) −P (A ) ≥ 0 → −P ( A ) ≥−P( B) .
Multiplicando a inequação acima por (-1), o sinal se inverte, tal que P( A )≤P( B).

11
6.7 Análise combinatória

É uma técnica de contagem que se aplica para resolver problemas onde é necessário levar
em conta agrupamentos de elementos ou objetos. Esse recurso é utilizado em probabilidade para
determinar o número possível de resultados de um experimento, sem precisar de enumeração direta,
tal como o número possível de amostras de tamanho n que pode ser extraído de um lote de N peças
( n ≤ N ), ou o número possível de maneiras pelas quais se pode retirar n bolas vermelhas de uma
urna onde estão guardadas N bolas de cores azuis, brancas e vermelhas.
6.7.1 Fatorial
Fatorial de um número n é definido como o produto de todos os números naturais de n até 1. É
representado pela notação n! (lê-se n fatorial) e pela fórmula:
n!=n ( n −1)( n −2)... 1 , para n >1 .

Conseqüentemente:
0! =1 , por convenção;
1! =1 , por convenção;
2! = 2×1 = 2;
3! = 3×2×1 = 6;
4! = 4×3×2×1 = 24.
Exemplo: Do conjunto formado pelas letras A, B, C e D, obtém-se 24 agrupamentos de
quatro letras, conforme cálculos a seguir:
4! = 4×3×2×1 = 24 agrupamentos, que são:
{ABCD, ACBD, ADCB, ACDB, ABDC, ADCB, BACD, BADC, BCAD, BDCA, BCDA,
BDAC, CABD, CABD, CBAD, CBDA, CDAB, CDBA, DABC, DACB, DBAC, DBCA,
DCBA, DCAB}.
Significa que caso fossem reservadas quatro cadeiras num recinto para as quatro pessoas
identificadas pelas letras A, B, C e D, elas poderiam ocupar os quatro assentos de 24 maneiras distintas.
6.7.2 Arranjo simples

É um tipo de agrupamento em que um grupo se distingue de outro pela natureza e pela
ordem dos elementos. Logo, o número de arranjos simples de n elementos agrupados de k maneiras
é definido por:

12
A kn = n(n − 1)(n − 2).....(n − k + 1) , para k ≤ n.
Por conseguinte:
A n0 =1, para n >1 ;
A 1n = n , para n >1 ;
A 24 = 4 × 3 = 12 arranjos;
A 34 = 4 × 3 × 2 = 24 arranjos;
A 44 = 4! = 4 × 3 × 2 × 1 = 24 arranjos.
Observe-se que A nn = n! .
Exemplo: De quantas maneiras as letras A, B, C e D podem ser arranjadas duas a duas?
A 24 = 4 × 3 = 12 arranjos, conforme relação abaixo:
{AB, AC, AD, BA, BC, BD, CA, CB, CD, DA, DB, DC}.
Eis que no arranjo AB os elementos se distinguem pela natureza (A ≠ B), enquanto que os
arranjos AB e BA, constituídos dos mesmos elementos, diferem quanto à ordem (AB ≠ BA).
O número de arranjos de n elementos k a k é também calculado através da fórmula:
n! 4! 4! 4 × 3 × 2!
A kn = 2
, para k ≤ n, tal que A 4 = (4 − 2)! = 2! = =12 .
(n − k)! 2!
6.7.3 Permutação simples

Permutação Simples é um caso particular de arranjo simples, em que cada arranjo é constituído
por todos os elementos do conjunto. A formação de cada arranjo difere apenas quanto à disposição dos
elementos. Trata-se, portanto, de um arranjo de n elementos tomados n a n, cuja fórmula é a seguinte:
Pn = A nn = n!= n ( n −1)( n − 2).... 1 , para n > 1
Exemplo: Quantas permutações podem ser formadas com as letras A, B, C e D?
P4 = 4! = 4×3×2×1 = 24 permutações, que correspondem ao número de agrupamentos

encontrados no exemplo do subitem 6.7.1.
6.7.4 Combinação simples

13
É um tipo de agrupamento sem repetição, no qual uma combinação difere da outra somente
pela natureza dos elementos e a ordem dos elementos não importa. Aqui o grupo AB = BA, e
constitui uma só combinação. A combinação de n elementos tomados k a k é dada através da
fórmula:
A kn n!
C kn = = , para k ≤ n.
k! k!( n − k )!
É também muito comum o emprego da notação ( nk ) .
Por definição, C 0n = 1 e C1n = n.
Exemplo 1: Quantas combinações de dois elementos são obtidas com as letras A, B, C e D?
A 24 4 × 3
C 24 = = = 6 combinações, que são: {AB, AC, AD, BC, BD, CD}.
2! 2 ×1
Esse conjunto é a metade do número de arranjos tomados 2 a 2, encontrado no exemplo do

subitem 6.7.2, pelo fato de descartar os grupos formados por elementos dispostos em ordem diferente,
isto é: BA, CA, DA, CB, DB e DC.
Exemplo 2: Se numa sala existem 10 alunos, quantas comissões de três alunos podem ser
formadas? Este é um tipo de problema no qual a ordem dos indivíduos não tem importância, e que
se resolve por combinação simples.
3
3 A 10 10 × 9 ×8
C10 = = = 120 comissões.
3! 3 × 2 ×1
Exercícios Resolvidos
01. Dois dados honestos são lançados simultaneamente. Construa o espaço amostral e defina as
probabilidades com relação aos seguintes eventos: a) de a soma de pontos ser um número par;
b) de ocorrer número igual de pontos em ambos os dados; c) de a soma de pontos ser um
número ímpar ou primo; d) de a soma de pontos ser menor ou igual a 8.
■ Solução: O espaço amostral relativo ao jogo de dois dados é:
1;1 2;1 3;1 4;1 5;1 6;1
1;2 2;2 3;2 4;2 5;2 6;2
1;3 2;3 3;3 4;3 5;3 6;3
1;4 2;4 3;4 4;4 5;4 6;4
1;5 2;5 3;5 4;5 5;5 6;5
1;6 2;6 3;6 4;6 5;6 6;6

14
a) A = {(1;1), (1;3), (1;5), (2;2), (2;4), (2;6), (3;1), (3;3), (3;5), (4;2), (4;4), (4;6), (5;1), (5;3),
18 1
(5;5), (6;2), (6;4), (6;6)}: P(A) = = .
36 2
6 1
b) B ={números iguais} = {(1;1), (2;2), (3;3), (4;4), (5;5), (6;6)}: P( B) = = .
36 6
c) I = {nº ímpar}= {(1;2), (1;4), (1;6), (2;1), (2;3), (2;5), (3;2), (3;4), (3;6), (4;1), (4;3), (4;5),
18
(5;2), (5;4), (5;6), (6;1), (6;3), (6;5)}: P(I) = .
36
P = {nº primo} = {(1;1), (1;2), (2;1), (1;4), (4;1), (1;6), (6;1), (2;5), (5;2), (3;4), (4;3), (5;6),
13
(6;5)}: P( P) = .
36
I∪P ={nº impar e primo}= {(1,2), (2,1), (1;4), (4;1),(1;6), (6;1), (2;5), (5;2), (3;4), (4;3),
12
(5;6), (6;5)}: I ∪P = .
36
18 13 12 19
P(I ∪P ) = P(Ι ) + P(P ) − P(Ι ∩P ) = + − = .
36 36 36 36
26 13
d) D = {número ≤ 8} = {(1;1),.., (6;2)}: P(D) = = .
36 18
02. Dentro de um saco há 12 bolas: 5 azuis, 4 brancas e 3 verdes. Se uma bola é retirada ao acaso,
calcule a probabilidade de ela ser de cor: a) azul; b) branca; c) azul ou branca. Eis a solução:
5
a) A = {a bola é de cor azul}: P(A) = .
12
4 1
b) B = {a bola é de cor branca}: P(B) = = .
12 3
5 4 9 3
c) A∪B) = {a bola é azul ou branca}: P(A ∪B) = P(A ) + P(B) = + = =
12 12 12 4
03. Na mesma situação da questão 04, duas bolas são retiradas sem reposição. Calcule a
probabilidade de ambas serem: a) da mesma cor; b) verdes; c) de cores diferentes; d) uma azul e
a outra branca; e) a primeira azul e a segunda branca; f) pelo menos uma branca.
■ Solução: Como as bolas são sorteadas sem reposição, o número de elementos de cada evento
pode ser determinado através de combinação e de arranjo simples.
a) As duas bolas podem ser azuis, ou brancas, ou verdes;

15
C 52 + C 24 + C 32
P(A 1 ∩ A 2 ) + P(B 1 ∩ B 2 ) + P(V1 ∩ V2 ) = 2
=
C12
5 × 4 4 × 3 3× 2
+ +
= 2 × 1 2 ×1 2 ×1 = 10 + 6 + 3 = 19 .
12 ×11 66 66
2 ×1
C 32 3 1
b) P(V1 ∩ V2 ) = 2
= = .
C12 66 22
c) P(ambas de cores diferentes) =
19 47
=1 −[P(A 1 ∩A 2 ) + P(B 1 ∩B 2 ) + P(V 1 ∩V2 ] =1 − = .
66 66
C15 C14 5 × 4 20 10
d) P(A ∩ B) = 2
= = = (não há especificação da ordem).
C12 66 66 33
A15 A 14 5 × 4 10 5
e) P(A ∩ B) = = = = (há especificação da ordem).
2
A12 12 ×11 66 33
f) P(pelo menos uma branca) =1 - [P(A 1 ∩A 2 ) + P(A ∩V) + P(V 1 ∩V2 ] .

É preciso calcular P( A ∩V ) , pois os demais termos já são conhecidos.
C15 C13 5 × 3 15
P( A ∩ V ) = = = .
66 66 66
P = 1 − ( 16 06 + 636 + 16 56) = 1 − 62 68 = 1 − 13 93 → P = 14
33
04. Um dado é viciado tal que a probabilidade de dar um dos números de cada face é proporcional ao
seu valor, isto é, 6 é duas vezes mais provável que 3. Determine:
a) a probabilidade de cada ponto amostral;
b) a probabilidade de ocorrer a face 3 ou a face 5 num único lançamento.
■ Solução: Sejam P(1) =p; P(2) =2p; P(3) =3p; P(4) =4p; P(5) =5p e
P(6) =6p. Eis que por definição ∑p i =1 ⇔ p + 2p + 3p + 4p +5p + 6p = 1 →
1
21p =1 →p = . Por conseguinte, substituindo-se o valor de p nas expressões acima
21
definidas se obtém:
1 2 3 4 5 6
a) P(1) = ; P(2) = ; P(3) = ; P(4) = ; P(5) = e P(6) = .
21 21 21 21 21 21

16
3 5 8
b) P(3 ou 5) = P(3) + P(5) = + = .
21 21 21
05. Os atletas A, B e C disputarão uma prova de atletismo. Sabe-se que o atleta A tem 2 vezes mais
probabilidade de ganhar que B, e que B tem 2 vezes mais probabilidade de ganhar que C.
Calcule: a) as probabilidades de vitória de cada um; b) a probabilidade de B ou C ganhar a
prova.
■ Solução: Sejam P(C) =p ; P(B) =2P(C) =2p e P(A) =2P(B) =4p .

1
Eis que ∑p i =1 →4p + 2p + p =1 →7p =1 →p = . Logo, substituindo, vem:
7
1 2 4
a) P(C) = ; P(B) = e P(A) = .
7 7 7
2 1 3
b) P(B ∪C ) = P(B) + P(C) = + = .
7 7 7
6.8 Probabilidade condicional

Se A e B são eventos associados ao espaço amostral S, então a probabilidade de B dado que
A tenha acontecido é definida pela fórmula:
P( A ∩B)
P(B / A) = , para P(A) > 0.
P(A)
A probabilidade P(B/A) mede a probabilidade relativa dos elementos comuns aos eventos A
e B em relação ao espaço amostral reduzido A, como se vê na área colorida da figura adiante:
Figura 6.7 Diagrama para a condição B/A
P ( A ∩B)
Alternativamente, P ( A / B) = , para P(B) >0 .
P( B)
Sendo S um espaço amostral equiprovável, a probabilidade de B dado A pode ser calculada

diretamente por meio da fórmula:
n ( A ∩B)
P(B / A) = , para n(A) ≠ 0.
n (A)
6.9 Teorema do produto

17
Este teorema decorre da definição de probabilidade condicional e serve para calcular

probabilidades referentes a um produto de eventos. A sua correta aplicação depende da
identificação de dependência ou independência entre eventos.
6.9.1 Eventos dependentes

Sejam dois eventos A e B associados a um experimento. Se a ocorrência de A influencia B,
ou vice-versa, haverá então dependência entre eles. São exemplos típicos de eventos dependentes os
casos de sorteios ou amostragem sem reposição. A fórmula do produto para dois ou mais eventos é:
P( A ∩B) = P( A ) ×P( B / A ) ,
ou, P( A ∩B ∩C) = P( A ) ×P( B / A ) ×P(C / A ∩B) .
Genericamente, se A1, A2, ..., An , forem eventos dependentes, então:
P( A 1 ∩ A 2 ∩... ∩ A n ) = P( A 1 ) × P( A 2 / A 1 ) ×..... × P( A n / A 1 ∩ A 2 ∩... ∩ A n −1 )
6.9.2 Eventos independentes

Um evento é independente quando a sua ocorrência não afeta a de outro ou vice-versa. A
independência acontece em sorteios ou processos de amostragem com reposição. Nesse caso, a
regra do produto para dois ou mais eventos é mais simples:
P(A ∩B) =P(Α )×P(Β ) .
P(A ∩B ∩C ) = P ( A ) ×P ( B) ×P (C) .
Em geral, se A1, A2, ..., An , forem eventos dependentes, então:
P(A 1 ∩A 2 ∩... ∩A n ) = P(A 1 ) × P(A 2 ) ×..... × P(A n )
Se A e B são eventos independentes, valem as relações: P(B/A) =P(B) e

P(A/B) =P(A) .
Exercícios resolvidos
01. Um par de dados é lançado. Se alguém informa que ocorreu soma igual a 8, qual a
probabilidade haver ocorrido a face 3 em um deles?
■ Solução: Definem-se os eventos A e B da seguinte forma:
A = {soma de pontos igual a 8) → A = {(2;6), (3;5), (4;4), (5;3), (6;2)}

18
B = {dar a face 3} = {(1;3), (2;3), (3;3), (4;3), (5;3), (6;3), (3;1), (3;2), (3;4), (3;5), (3;6)}.
A∩B = {soma igual a 8 e dando a face 3} = {(3;5); (5;3)}
P( A ∩B) 2
P(B / A) = =
P(A) 5
02. Dois dígitos são selecionados aleatoriamente de 1 a 9. Se a soma deles é par, qual a
probabilidade de ambos os números serem primos?
■ Solução: Sejam os eventos A = {soma dos números é par} e B = {ambos são primos}.
● A soma de dois números é par se ambos forem impares ou ambos forem pares, logo o total de
somas com os dígitos 1, 3, 5, 7 e 9 é C 5 = 10 . Enquanto que com os dígitos 2, 4, 6 e 8 é

2
c 24 = 6 somas. Portanto, A =10 + 6 =16 somas pares.
● Por sua vez, com relação ao evento B, o total de somas com os números 2, 3, 5 e 7, dois a
dois, será C 24 = 6 somas. Veja que A ∩ B = {soma dois a dois de 3, 5 e 7}, e o total de soma
desses números é C 3 = 6 somas.

2
P( A ∩B) 3
● Por conseguinte, P( B / A ) = = .
P( A ) 16
03. Na biblioteca de uma universidade, em dado momento, 20% dos alunos e 15% das alunas estão
estudando Estatística. As alunas representam 60% dos estudantes presentes. Se um estudante é
escolhido aleatoriamente e está estudando Estatística, qual a probabilidade de ser uma aluna?
■ Solução: Sejam 100 estudantes, onde 40 são alunos e 60 são alunas, logo:
A = {estudando estatística} = 0,20 × 40 + 0,15× 60 = 8 + 9 = 17 alunos.
B = {alunas} = {60% do total de estudantes}= 60 alunas.
A∩B ={é aluna e está estudando estatística} = {15%} = 9 alunas.
9
P(B/A) = = 0,53 .
17
04. Sabe-se que dentro de uma sacola existem 12 bolas. Sendo 5 azuis, 4 brancas e 3 verdes. Se
forem retiradas duas bolas, sem reposição, determine as probabilidades de: a) ambas serem da
mesma cor; b) ambas serem verdes; c) ambas serem de cores diferentes; d) uma bola azul e a
outra branca; e) a primeira azul e a segunda branca; f) pelo menos uma bola branca.

19
■ Solução: Este problema já foi feito por análise combinatória, agora ele será resolvido pela
regra do produto, para eventos dependentes.
a)
5×4 4 ×3 3×2 20 + 12 + 6 19
P(A 1 ∩ A 2 ) + P(B 1 ∩ B 2 ) + P(V1 ∩ V2 ) = + + = =
12 ×11 12 ×11 12 ×11 132 66
3 ×2 1
b) P(V 1 ∩V2 ) = P(V 1 )P(V 2 /V1 ) = =
12 ×11 22
c) C = {ambas são de cores diferentes}
19 47
P (C) = 1 − [P(A 1 ∩ A 2 ) + P(B 1 ∩ B 2 ) + P(V1 ∩ V2 )] = 1 − =
66 66
5×4 10
P(A ∩ B) + P(B ∩ A) = 2P(A ∩ B) = 2 × = .
12 ×11 33
5 ×4 5
d) P(A ∩ B) = = (a ordem é especificada).
12 ×11 33
e) E = {pelo menos uma branca}: P( E ) =1 - [P(A 1 ∩ A 2 ) + 2P(A ∩ V) + P(V1 ∩V2 )]
5×4 5 ×3 3×2 20 + 30 + 6 56 19
P( E ) = 1 − ( +2 + ) =1 − =1 − = .
12 ×11 12 ×11 12 ×11 132 132 33
05. Resolva os itens a, b, e c, do problema 04, admitindo que as bolas são extraídas com reposição.
■ Solução: Aplica-se a regra do produto para eventos independentes.
a)
5 ×5 4 ×4 3 ×3 25 +16 + 9 50 25
P(A 1 ∩A 2 ) + P(B 1 ∩B2 ) + P(V1 ∩V2 ) = + + = = =
12 ×12 12 ×12 12 ×12 144 144 72
3 ×3 9 1
b) P(V 1 ∩V2 ) = P(V 1 ) × P( V2 ) = = = .
12 ×12 144 16
c) C = {ambas de cores diferentes}
25 47
P (C) =1 −[P(A 1 ∩A 2 ) + P(B 1 ∩B 2 ) + P(V 1 ∩V2 )] =1 − = .
72 72
06. Uma urna A contém 5 fichas verdes e 3 pretas. Outra urna B contém 3 fichas verdes e 2 pretas.
Sorteia-se uma ficha em cada urna. Calcule, então a probabilidade de: a) As 2 fichas serem
pretas; b) ambas de cores diferentes; c) ambas da mesma cor; d) pelo menos uma de cor verde;
e) agora, uma ficha é sorteada aleatoriamente na urna A e posta na urna B. Depois, sorteia-se
uma ficha em B, qual a probabilidade de ela ser verde?
■ Solução: Aqui o sorteio pode ser feito com ou sem reposição de fichas, sem prejudicar o
conceito de independência, pois os eventos ocorrem em urnas diferentes.

20
3 2 3
a) P(P A ∩ PB ) = P(P A ) × P(P B ) = × = .
8 5 20
5 2 3 3 10 +9 19
b) P(VA ∩PB ) ∪P( PA ∩VB ) = × + × = =
8 5 8 5 40 40
3 2 5 3 6 +15 21
c) P( PA ∩PB ) ∪P( VA ∩VB ) = × + × = = .
8 5 8 5 40 40
3 17
d) P(pelo menos uma verde) = 1 − P (PA ∩PB ) = 1 − = .
20 20
3 3 5 4 9 + 20 29
e) P( V / B) = P( PA ) P( VB / PA ) + P( VA )P( VB / VA ) = × + × = =
8 6 8 6 40 48
08. A probabilidade de um atirador A acertar um alvo é igual a ½. A probabilidade de outro atirador B
acertar o mesmo alvo é de 1 3 . Se ambos atiram 4 vezes, qual a probabilidade de:
a) nenhum atirador acertar o alvo?

b) pelo menos um dos atiradores acertar o alvo?
■ Solução: Aqui o desempenho de um atirador não influi no desempenho do outro, portanto, os

eventos A e B são independentes. Sendo assim, tem-se:
1 2 1 16 1
a) P[( A ) 4 ∩( B) 4 ] = P( A × A × A ×A ) × P( B × B ×B × B) = ( ) 4 ( ) 4 = × = .
2 3 16 81 81
1 80
b) B = {pelo menos um deles acertar o alvo}: P( B) =1 − = .
81 81
6.10 Teorema da probabilidade total

Sejam A1, A2 ... An, eventos que formam uma partição do espaço amostral S, isto é, os eventos
Ai são, dois a dois, mutuamente exclusivos, tal que a união de todos eles é igual a S. E seja B um evento
qualquer de S, quando já se conhecem todos os eventos da família Ai, e com estes se intercepta, na
forma da figura abaixo:
Figura 6.8 Partição de eventos Ai e interseções com o evento B

21
Então, a probabilidade de B, dado que um dos eventos A i tenha ocorrido, é expressa pela
união das interseções de todos os eventos Ai com B, tal que:

n
P( B) = P( A 1 ∩B) ∪P( A 2 ∩B) ∪... ∪P( A n ∩B) →P( B) =  P(A i ∩B) .
i =1
Pelo teorema do produto para eventos dependentes, deduz-se que:
P(B) = P(A 1 )P(B/A 1 ) + P(A 2 )P(B/A 2) + ... + P(A n )P(B/A n ) , ou, ainda:
n
P(B) = ∑P(A )P(B / A ) .
i =1
i i
6.11 Teorema de Bayes

O teorema de Bayes serve para calcular a probabilidade de um particular evento Ai dado que
B aconteceu, por meio da fórmula:
P( A i ) P( B / A i )
P( A i / B) = , onde P(B) ≠ 0.
P (B)
n
Como P(B) = ∑P(A )P(B / A ) ,
i =1
i i segue a fórmula geral
P(A i )P(B / A i )
P( A i / B) = n
.
∑P(A )P(B / A )
i =1
i i
Exemplo: Numa pequena fábrica de garrafas térmicas a máquina A, mais moderna,

responde por 70% das unidades produzidas. A máquina B, mais antiga, responde pelas 30%
restantes. Os percentuais de unidades defeituosas são de 1,5% na máquina A e 5% na B. Se uma
garrafa for retirada casualmente para teste de qualidade, calcule: a) a probabilidade de ela ser
defeituosa; b) Se ela é defeituosa, qual a probabilidade de ter sido produzida pela máquina A?
■ Solução: Seja o evento D = {a garrafa é defeituosa}.
a) P(D) =P(A)P(D/A) +P(B)P(D/B) =0,7 ×0,015 +0,3 ×0,05 =0,0105 +0,015 →

P(D) =0,0255 .
P(A)P(D/A) 0,0105
b) P(A/D) = = →P(A/D) =0,4118 ou 41,18%.
P(D) 0,0255

22
Exercícios Propostos
(ver lista de exercícios já distribuída)
7
VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS
7.1 Definição
Variável aleatória (va) é uma função real definida sobre os eventos do espaço amostral S.
Neste particular, é uma função que tem domínio em S e contradomínio em R (a reta dos números
reais), tal que X : S →R .

23
O estudo de variáveis aleatórias é importante porque nem sempre os pontos do espaço

amostral são numéricos, sendo então necessário descobrir um meio de transformá-los em números,
através de uma função chamada de variável aleatória, que facilita o cálculo de medidas estatísticas.
7.2. Variável aleatória discreta

Variável aleatória discreta (vad) é uma função que associa um único número real a cada
evento de uma partição do espaço amostral S. São variáveis que resultam de processos aleatórios
em que os possíveis resultados são casuais e formam um conjunto enumerável, a exemplo do
número de pacientes atendidos num hospital, ou de furtos de veículos numa cidade.
Já se viu que quando se lançam duas moedas o conjunto de resultados possíveis do

experimento é de quatro seqüências de dois elementos (cara e coroa), representadas pelo espaço
amostral S = {kk, kc, ck, cc}. Mas essa representação de S não é das mais adequadas para operações
matemáticas, ensejando que a expressão qualitativa de cada evento de S seja definida como um ponto
de uma variável aleatória, fazendo-se, por exemplo, x = número de caras. Assim o mesmo espaço
amostral se transforma no conjunto numérico S = {0, 1, 2}, em que o ponto zero corresponde ao
evento duas corroas (kk), um aos eventos cara e coroa e vice-versa (ck e kc) e dois ao evento duas
caras (cc), conforme se observa no quadro adiante.
Quadro 7.1 – Variável aleatória relativa ao lança-

mento de duas moedas
Eventos X = número de caras
A1 = {kk} 0
A2 = {kc, ck} 1
A3 ={cc} 2
Seja ainda uma amostra ao acaso de uma peça de um lote produzido em certo dia. A
peça pode ser classificada em defeituosa (d) ou perfeita (p), tal que S = {d, p}. Eis que essa
classificação pode ser expressa através de números, tal como zero para peça defeituosa e um
para peça perfeita, de modo que S = {0, 1}. Aí os pontos do espaço amostral representam uma
variável aleatória do tipo x = peça defeituosa, como exposto na tabela abaixo.
Quadro 7.2 – Definição de uma vad para a amostra

casual de uma peça
Eventos X = peça defeituosa
D = {a peça é defeituosa} 0
P = {a peça é perfeita} 1

24
A essa altura dá para perceber que a definição de uma vad visa facilitar o tratamento
matemático, uma vez que às vezes os pontos do espaço amostral são atributos, sendo necessário
transformá-los em números, mediante uma função de variável aleatória.
7.2.3 Distribuição de probabilidade de variável aleatória discreta
Definição: É uma função P(X) que associa probabilidades aos valores da vad X. Isto é,
quando uma vad X assume os valores x 1 , x 2 , ..., x n , com as respectivas probabilidades

p( x 1 ) , p( x 2 ) ,..., p( x n ) , definidas por uma P(X), em que a soma dessas probabilidades é
igual a um, tem-se a dita distribuição de probabilidade de X, como resumido no quadro

abaixo:
Quadro 7.3 – Distribuição de probabilidade da vad X

X x1 x2 ... xn n
P(X) p ( x 1 ) p( x 2 ) ... p( x n ) ∑p( x

i =1
i )
Assim, o conjunto [X, P(X)] é chamado de distribuição de probabilidade de X, onde P(X) é a

função de probabilidade que associa a cada valor da vad a probabilidade do evento correspondente,
de maneira que p(x i ) = P(X = x i ) = P(A i ) , para i = 1, 2, ..., n.
Intuitivamente, uma distribuição de probabilidade equivale a uma distribuição de

freqüências relativas para os resultados do experimento aleatório, em que exprime a probabilidade
ou chance com que cada resultado da vad pode acontecer quando o experimento é realizado um
número grande de vezes. Em suma, a cada possibilidade do acontecimento é atribuída uma
probabilidade.
O estudo de distribuições de probabilidade é importante em inferência estatística, pois a

suposição sobre propriedades de uma população, com base em dados de amostras, se fundamenta em
distribuições teóricas de probabilidade.
Em casos mais simples é fácil elaborar uma distribuição de probabilidade mediante quadros
ou gráficos, como se verifica no lançamento de duas moedas, onde x é a vad número de caras:
Quadro 7.4 – Distribuição de probabilidade referente

ao número de caras no lance de duas moedas
Eventos X = nº de caras P(X = x i )
A1 = {kk} 0 ¼
A2 ={kc, ck } 1 ½

25
A3 = {cc} 2 ¼
Total (Σ) 1
Esta distribuição de probabilidade está representada na figura abaixo:
Figura 7.1 Distribuição de probabilidade relativa ao número de caras no jogo de duas moedas
Outra ilustração similar é a distribuição de probabilidade relativa ao jogo de um dado:
Quadro 7.5 – Distribuição de probabilidade do

número de pontos no jogo de um dado
X = número de pontos P(X = x i )
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
Total (Σ) 6/6 = 1
O gráfico desta distribuição se observa na figura a seguir:
Figura 7.2 Distribuição de probabilidade da vad relativa ao jogo de um dado
Quando o experimento se refere ao jogo de dois dados, a elaboração da distribuição de

probabilidade é mais trabalhosa, embora ainda se possa representá-la através de quadro ou gráfico,
como se vê adiante, onde X é uma vad igual à soma possível de pontos nos dois dados:
Quadro 7.6 – Distribuição de probabilidade – vad referente ao número

de pontos no lance de dois dados

26
X = número de
Eventos P(X = x i )
pontos
(1:1) 2 1/36
(1:2), (2:1) 3 2/36
(1:3), (2:2), (3:1) 4 3/36
(1:4), (2:3), (3:2), (4:1) 5 4/36
(1:5), (2:4), (3:3), (4:2), (5:1) 6 5/36
(1:6), (2:5), (3:4), (4:3), (5:2), (6:1) 7 6/36
(2:6), (3:5), (4:4), (5:3), (6:2) 8 5/36
(3:6), (4:5), (5:4), (6:3) 9 4/36
(4:6), (5:5), (6:4) 10 3/36
(5:6), (6:5) 11 2/36
(6:6) 12 1/36
Total (Σ) 36/36 = 1
A representação gráfica da distribuição anterior se encontra na figura a seguir:
Figura 7.3 Distribuição de probabilidade do número provável de pontos no lançamento de dois dados
Nem sempre é possível estabelecer distribuições de probabilidade de modo tão direto como nos casos
visto até aqui, há situações em que a probabilidade de eventos só pode ser definida por modelos apropriados,
como se verá no capítulo adiante.
7.2.4 Função distribuição acumulada

É uma função que dá a probabilidade de a vad X assumir um valor menor ou igual a x i .
Essa função é F(x) = P(X ≤ x i ) . Para o caso dos dois dados, em que X é igual ao número de
pontos que se pode obter, segue-se função distribuição pertinente:
Quadro 7.7 – Função distribuição referente ao número de pontos no jogo de dois dados
X 2 3 4 5 5 7 8 9 10 11 12
P(X) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
P(X ≤ x i 1/36
) 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 1

27
1
Os valores de P(X ≤x i ) são interpretados da seguinte maneira: P(X ≤3) = éa
36
1 2 3
probabilidade de se obter dois pontos no jogo de dois dados; P(X ≤3) = + = ,é
36 36 36
a probabilidade de se obter no máximo três pontos no jogo de dois dados;
1 2 3 6
P ( X ≤4) = + + = é a probabilidade de ocorrer no máximo quatro pontos no
36 36 36 36
mesmo caso, e assim por diante.
7.2.5 Valor esperado de uma variável aleatória discreta
Se X é uma vad de valores x 1 , x 2 , ..., x n , e probabilidades p1 , p 2 , ..., p n ,

respectivamente, o valor esperado de X é igual ao valor médio da variável, cuja fórmula é:
n
E(X) = x 1 P( x 1 ) + x 2 P( x 2 ) + ... + x n P ( x n ) → E(X) = ∑ x i P ( x i )
i =1
Deste modo, o número esperado de pontos relativo ao lançamento dos dois dados pode ser
calculado com os operadores do quadro abaixo:
Quadro 7.8 – Número esperado de pontos da

vad relativa ao arremesso de dois dados
X P(X) XP(X)
2 1/36 2/36
3 2/36 6/36
4 3/36 12/36
5 4/36 20/36
6 5/36 30/36
7 6/36 42/36
8 5/36 40/36
9 4/36 36/36
10 3/36 30/36
11 2/36 22/36
12 1/36 12/36
Total (Σ) 36/36 = 1 252/36 = 7
Verifica-se, assim, que E(X) ou µ = 7 pontos.

28
7.2.6 Variância de uma variável aleatória discreta

A variância é uma medida de concentração de probabilidades da vad em torno da média.
Quanto menor é o valor da variância maior é a concentração de probabilidades em torno do valor
médio da variável aleatória. É identificada pelas notações Var(X) ou σ 2 , cuja fórmula se vê seguir:
σ 2 =[E(X 2
) - E(X) 2
] =[E(X 2
) - μ2]
Como E ( X ) = ∑x i2 P ( x i ) e μ = ∑x i P( x i ), vem:
σ 2 =[ ∑x i2 P ( x i ) −( ∑x i P ( x i ) 2 ] ou σ 2 = ∑x i2 P( x i ) −μ 2 .
Calcula-se também a variância por meio da fórmula σ 2 = Σ( x i −μ ) 2 P ( x i ) .
Assim, a variância da vad referente ao número de pontos quando se lançam dois dados é
calculada a partir dos operadores expostos no quadro a seguir:
Quadro 7.9 – Cálculo da variância da vad referente ao número

de pontos no lance de dois dados
X P(X) XP(X) X2P(X)
2 1/36 2/36 4/36
3 2/36 6/36 18/36
4 3/36 12/36 48/36
5 4/36 20/36 100/36
6 5/36 30/36 180/36
7 6/36 42/36 294/36
8 5/36 40/36 320/36
9 4/36 36/36 324/36
10 3/36 30/36 300/36
11 2/36 22/36 242/36
12 1/36 12/36 144/36
Total (Σ) 36/36 = 1 252/36 = 7 1.974/36 = 54,83
Portanto, σ2 =54 ,83 −7 2 =54 ,83 −49 →σ2 =5,83 pontos (ao quadrado).
A variância é uma medida de dispersão expressa no quadrado da variável, o que pode gerar
confusão na hora da interpretação. Portanto, é melhor expressá-la na mesma unidade da variável
original, isto é, através da sua raiz quadrada, cujo resultado corresponde ao desvio padrão, como segue:
σ = var iância →σ = 5,83 = 2,4 pontos.

29
Significa que quando dois dados são lançados o número esperado de pontos é 7, sujeito a
uma variação média de mais ou menos 2,4 pontos.
7.3 Variável aleatória contínua

Uma variável aleatória é contínua (vac) quando assume infinitos valores num dado intervalo (a,
b). Para valores fora do intervalo a que se limita o experimento, a probabilidade é igual a zero.
7.3.1 Função densidade de probabilidade

Aqui a distribuição de probabilidade é definida por uma função f(x), chamada de função
densidade de probabilidade (fdp), que deve satisfazer às condições abaixo:
a) f(x) ≥0 , ∀x ∈R ;
+
∞
b) ∫f ( x )dx
−∞
=1 (toda a área sob a curva de probabilidade, ou curva de freqüência,
definida por f(x) vale um).

b
c) P(a ≤ x ≤ b) = ∫f ( x )dx (probabilidade correspondente à área sob a curva limitada

a
pelo intervalo compreendido entre x = a e x = b). Este assunto será mais detalhado adiante, quando
do estudo da distribuição normal.
Exercícios
01. Numa caixa estão guardadas 4 bolas brancas e 3 pretas. As bolas pretas são retiradas uma a uma
até esgotar o seu estoque. Sendo X = número de bolas pretas, calcule:
a) A distribuição de probabilidade. R: 4/35; 18/35; 12/35 e 1/35.
b) A função distribuição F(x). R: 4/35; 22/35; 34/35 e 35/35.
c) O valor esperado e o desvio padrão de X. R: 9/7 e respectivamente.
02. Uma moeda é jogada 3 vezes, sendo X uma v. a. igual ao número de caras, elabore a distribuição
de probabilidade e a sua representação gráfica. R: 1/8, 3/8, 3/8 e 1/8.
03. Se uma moeda é viciada de modo que a ocorrência de cara é duas vezes mais provável que
coroa, determine a distribuição de probabilidade referente ao número de caras, em 3
lançamentos. R: 1/64, 9/64, 27/64 e 27/64.
04. Três peças são retiradas de um lote onde há 15 perfeitas e 5 defeituosas. Dado que X é o número

30
de peças de defeituosas, defina a distribuição de probabilidade correspondente, caso as peças

sejam:
a) Extraídas com reposição. R: 0,42; 0,42; 0,14 e 0,02.
b) Extraídas sem reposição. R: 273/684; 315/684; 90/684 e 6/684

31
DISTRIBUIÇÕES TEÓRICAS DE PROBABILIDADE

Já foi dito que quando a variável tem comportamento simples é fácil expor a distribuição de
probabilidade através de tabela ou gráfico. Mas ocorrem situações mais complexas em que é preciso
recorrer-se a modelos para calcular probabilidades associadas aos eventos da variável aleatória.
Para isso existem alguns modelos de distribuição que são utilizados para estudar o
comportamento de muitos fatos reais. Essas distribuições apresentam particularidades próprias que
facilitam a sua identificação. As distribuições de probabilidade dividem-se em discretas e contínuas.
As discretas descrevem variáveis cujos eventos podem ser contados e representados por números
inteiros. A distribuição binomial e a distribuição de Poisson são exemplos clássicos de distribuições
discretas.
As distribuições contínuas, por seu turno, são modelos que descrevem o comportamento de
variáveis passíveis de medição, isto é, podem assumir infinitos valores num dado intervalo, a
exemplo, entre outras, da distribuição normal e da distribuição t de Student.
O estudo de distribuições de probabilidade é fundamental em inferência estatística, pois as

suposições sobre propriedades de populações, com base em dados de amostras, dependem de como
se distribui a variável na população.
8.1. Distribuição binomial

É uma distribuição discreta que se aplica a processos conhecidos como de Bernoulli, que
consistem numa experiência aleatória com apenas duas possibilidades, denotadas por sucesso ou
insucesso, e podem ser colocadas como perguntas de resposta sim ou não. Por exemplo: Deu cara
no lançamento de uma moeda? Um eleitor votou em determinado candidato? Há peças
defeituosas num lote de peças produzidas em determinado dia? Os termos sucesso e insucesso
devem ser interpretados com cuidado, por exemplo, se a pergunta se refere a peça defeituosa, então
sucesso deve ser entendido como a ocorrência de peça defeituosa.
Neste aspecto, a utilização da distribuição binomial apóia-se nas seguintes hipóteses:
a) n tentativas ou provas independentes, a exemplo de sorteios com reposição (ou sem

reposição, desde que a amostra represente uma fatia muito pequena da população);
b) cada tentativa só admite dois resultados, sucesso ou fracasso. Sendo que sucesso
corresponde ao número de eventos em que se está interessado. Em casos assim, a variável aleatória
apresenta valor igual a 0 (zero) quando ocorre insucesso e 1 (um) quando ocorre sucesso.;

32
c) a probabilidade de sucesso é p e a de fracasso ou insucesso é q =1 − p , que são

complementares entre si e permanecem constantes durante todo o processo de observação.
Neste contexto, a probabilidade de k sucessos em n tentativas ou provas independentes é

calculada por intermédio da fórmula:
P( x = k ) = C kn p k q n −k , para x =0, 1, 2, ..., n.
Nesta fórmula o termo n é o número de provas; k é o número de sucessos em n provas; C kn
é o número de maneiras distintas de se obter k sucessos em n provas; e P( x =0) =q n é a

probabilidade de nenhum sucesso.
A distribuição binomial tem média μ = np e variância σ2 =npq . As quantidades n e p

são os parâmetros da distribuição, que se representa por X ≈ B( n , p) e se lê x tem distribuição
binomial de parâmetros n e p.
A fim de contornar eventuais dificuldades com a operação da fórmula da distribuição

binomial, recomenda-se que n não exceda a 30 ocorrências (n≤ 30).
A distribuição binomial é utilizada para avaliar probabilidades de eventos relacionados com

controle de qualidade, mercado de ações, risco de apólices de seguro, análise demográfica, vendas, etc.
No entanto, a jogada de uma moeda caracteriza a mais elementar das distribuições

binomiais, pois admite apenas dois resultados possíveis, cara (c) ou coroa (k), ambos com a mesma
probabilidade de 1 . Assim, quando se joga uma moeda três vezes há uma combinação de
2
resultados possíveis, que podem ser calculados um a um pela distribuição binomial sem precisar de
enumeração direta, basta que se defina a vad X = número de caras (sucesso), que deve assumir os
valores 0, 1, 2 3. Aqui a probabilidade dos respectivos eventos, para uma binomial do tipo
X ≈B(3, 1 / 2) , ou n = 3 e p =q =1/ 2 , é calculada assim:
a) nenhuma cara, representada pelo evento {kkk}:
P( x = 0) = C 30 ( 12 ) 3 = 1× 18 = 1/ 8 ;
b) uma cara, cujos eventos são {ckk, kck e kkc}:
P(x = 1) = C13 ( 12 )1 ( 12 ) 3− 1 = 3 × 12 × 14 = 3 / 8 ;

33
c) duas caras, cujos eventos são {cck, ckc, kcc}:
P( x = 2) = C 32 ( 12 ) 2 ( 12 ) 3− 2 = 3 × 14 × 12 = 3 / 8 ;
d) três caras, representadas pelo evento {ccc}:
P( x = 3) = C 33 ( 12 ) 3 ( 12 ) 3− 3 = 1× 18 × 1 = 1/ 8 .
Observe-se que a soma das probabilidades correspondente a estes eventos é igual a unidade,
caracterizando a distribuição de probabilidade do número de caras no jogo de três moedas.
8.2. Distribuição de Poisson

A variável de interesse na distribuição binomial era o número de sucessos em n provas
independentes, num intervalo discreto. Em Poisson, a distribuição é discreta e o processo
semelhante ao de Bernoulli, mas a variável aleatória é o número de sucessos observados (não
sobrepostos – independentes) num intervalo contínuo, de tempo ou espaço, tais como: número de
veículos que cruzam um semáforo por minuto; número de defeitos por metro quadrado (m2) de um
piso; número de chamadas por hora para atendimento de emergência num posto de bombeiros; etc.
A distribuição de Poisson é um caso limite da binomial, quando n tende para mais infinito (
n → + ∞ ) e p tende para zero ( p →0 ). Em problemas típicos da binomial, consegue-se boa
aproximação a partir de valores de n superior a 30 ( n > 30 ) e p inferior a 0,05 ( p < 0,05 ), havendo
até quem admita p <0,10 . A utilização da distribuição de Poisson baseia-se nas seguintes
hipóteses:
a) a probabilidade de uma ocorrência é a mesma em todo o campo de observação;
b) a probabilidade de mais de uma ocorrência num único ponto é aproximadamente zero;
c) o número de ocorrências em qualquer intervalo é independente do número de ocorrências

em outros intervalos.
Assim, a probabilidade de k sucessos num intervalo de tempo ou espaço é estimada por

intermédio da fórmula:
μ k e −μ
P( x = k ) = , para x =0, 1, 2, ......
k!
Tem-se aqui: μ = np , que é a média da distribuição; e = 2,71828 é a base do logaritmo
natural (constante); e P(x =0) =e −μ é a probabilidade de nenhum sucesso.

34
A média μ é o único parâmetro da distribuição de Poisson. Uma variável aleatória de

Poisson é representada pela notação X ≈P (μ ) , que se lê X tem distribuição de Poisson de média
μ.
A média μ é sempre proporcional ao intervalo de tempo ou espaço definidos no

problema, ou seja, o seu valor deve corresponder ao tamanho do intervalo apresentado.
Assim, para qualquer outro intervalo o valor da média deve sofrer a correção numérica
adequada.
Curiosamente, a variância de Poisson é σ 2 = np . Decorre que μ =σ 2 , propriedade que só

acontece nesta distribuição, e que facilita a solução de muitos problemas concretos.
Exemplo 1: O telefone de um restaurante especializado em pizzas recebe em média três

pedidos para entrega em domicilio a cada meia hora. Calcule as probabilidades de o restaurante: a)
não receber nenhum pedido para entrega em domicilio na próxima meia hora; b) pelo menos um
pedido no mesmo espaço de tempo; c) exatamente 5 pedidos no espaço de uma hora.
■ Solução: Seja a vad X = número de pedidos para entrega em domicilio e µ = 3 (média de
pedidos recebidos a cada meia hora). Logo, X ≈P( μ =3) .
a) P(x =0) =e −3 =0,0498 ou 4,98% .
b) P(x ≥1) =1 −P( x = 0) =1 −0,0498 = 0,9502 .
c) A média para o novo intervalo de tempo é de µ = 3× 2 = 6 pedidos por hora.
6 5 e −6 7.776 ×0,00248
Assim, P( x = 5) = = = 0,1654
5! 120
Exemplo 2: Uma firma que transporta garrafões de vinho tem observado que 0,2% deles
sofrem algum tipo de avaria durante a viagem. Calcule a probabilidade de que se encontre num
carregamento de mil garrafões: a) nenhum com avaria; b) exatamente dois com avaria; c) mais de
um com avaria; d) no máximo dois garrafões avariados.
■ Solução: A vad é X = garrafões avariados e a sua média é µ = 1.000(0,002) = 2 garrafões

com avaria. Veja-se que este problema é do tipo binomial, porém, como n é maior que 30 e p é
menor que 0,05, pode ser resolvido mediante uma distribuição de Poisson de média 2:
a) P(x =0) =e −2 =0,1353 ou 13,53% .

35
2 2 e −2 4 ×0,1353
b) P( x = 2) = = = 0,2706 ou 27,06%.
2! 2 ×1
c) P ( x >1) =1 −P( x ≤) =1 −P( x =0) −P( x =1) =1 −0,1353 −0,2706 →

P ( x >1) =0,5941 .
e) P(x ≤ 2) = P ( x = 0) +P( x =1) +P( x = 2) = 0,1353 + 0,2706 + 0,2706 →

P(x ≤ 2) = 0,6765 .
8.3. Distribuição normal

Recorde-se que uma variável aleatória é contínua quando os seus valores decorrem de
medida, podendo assumir infinitos valores num determinado intervalo.
A distribuição de probabilidade desse tipo de variável é definida por uma função densidade
de probabilidade (f.d.p.), com as seguintes propriedades:
b +
∞
a) f(x) ≥0 ; b) ∫
a
f ( x )dx = P (a < x ≤ b) ; c) ∫f ( x )dx
−∞
=1 .
Pois bem, a distribuição normal é a mais importante das distribuições de

probabilidade, por razões teórica e prática, pois muitas variáveis no mundo real têm
comportamento bastante aproximado dessa distribuição. Eis alguns dos motivos da sua
elevada importância em estatística: (a) os seus resultados são de fácil operação matemática;
(b) muitas técnicas estatísticas pressupõem que os dados têm distribuição normal; (c)
embora os dados de muitas situações reais não sejam rigorosamente normais, a sua
aproximação por essa distribuição dá bons resultados e facilita o tratamento matemático;
(d) a distribuição amostral de muitas estatísticas tende para a distribuição normal em face
do teorema do limite central.
A distribuição normal é contínua, podendo assumir a variável qualquer valor dentro

de um intervalo previamente definido. A distribuição é descrita por uma curva em forma de
sino, cuja f.d.p. é expressa por:
2
1  x −μ 
1 −  
f (x) = e 2 σ  , para − ∞ ≤ x ≤ +∞.
σ 2π

36
A média μ = np e a variância σ 2 = npq são os parâmetros da distribuição normal. A

média reporta-se ao centro da distribuição e o desvio padrão ao espalhamento de curva. Os demais
termos da fórmula são as constantes π = 3,1416 e e = 2,71828 (base do logaritmo natural).
Uma v. a. X que segue uma distribuição normal é representada por X ≈ N(μ, σ 2 ) , que se
lê: X tem distribuição normal de parâmetros μ e σ 2 .
A distribuição normal tem forma de sino; é simétrica em relação à média μ ; é assintótica

em relação ao eixo de X; é unimodal e tem achatamento proporcional ao desvio padrão ou variância.
A sua média, moda e mediana são iguais, e o ponto de máximo se dá em X = µ . Os pontos de
inflexão da curva se dão em μ ±1σ = 68 ,26 % , nos pontos em que as retas x = −σ e x=σ
interceptam a curva (vide figura adiante).
A área total limitada pela curva normal e pelo eixo das abscissas é 1 (um) ou 100%. Por sua
vez, as áreas sob a curva, limitadas pela distância entre o desvio padrão e a média, têm os seguintes
percentuais: μ ±1σ = 68 ,26 % ; μ ± 2σ = 95 ,44 % e μ ±3σ = 99 ,74 % , conforme figura a seguir:
Figura 8.1. Formato da distribuição normal

x −μ
O cálculo de áreas sob a curva normal é simplificado por meio da transformação z = ,
σ
que origina a distribuição normal padrão, de média zero e variância unitária, representada por
1
1 − z2
z ≈N (0; 1) . A função densidade da normal padrão é Φ(z) = e 2
, para
2π
− ∞ ≤ z ≤ +∞, e as proporções de área sob a curva estão tabeladas.
Com isso, os afastamentos em torno da média, expressos em desvio padrão de X, são

convertidos em unidades padronizadas z, conforme a figura abaixo:
Figura 8.2. Formato da distribuição normal padrão

37
A maioria das tabelas traz as proporções de área de zero até um ponto positivo de z. Por
exemplo, a proporção da área situada entre os pontos de abscissa 0 e 1 é 0,3413, que, devido à
simetria da curva, é a mesma da área compreendida entre os pontos de abscissa 0 e -1 (vide tabela).
Exemplo: Um órgão de pesquisa conclui que o salário pago pelas microempresas de certa
região segue, de perto, uma distribuição normal de média R$ 360,00 e desvio padrão de R$ 120,00.
Neste caso, calcule a probabilidade de um assalariado qualquer: a) ganhar entre R$ 360,00 e 480,00;
b) ganhar menos de R$ 220,00; c) ganhar mais de R$ 450,00; d) ganhar entre R$ 460,00 e 520,00;
e) ganhar entre R$ 240,00 e 460,00; f) como se distribuem 95% dos salários em torno da média? g)
qual o número esperado e o desvio padrão de 600 desses trabalhadores que ganham entre R$ 360,00
e 480,00?
■ Solução: O salário é uma variável aleatória X, com distribuição normal de média R$
x −μ
360,00 e desvio padrão R$ 120,00. Transformando X em z, através de z = , acha-se na tabela
σ
de z as proporções de área sob a curva correspondentes às faixas de salários que se deseja saber:
 360 − 360 480 − 360 

a) P (360 ≤ x ≤ 480 ) = P ≤z ≤  = P(0 ≤ z ≤ 1) = 0,3413
 120 120 
 220 − 360 
b) P(x < 220) = P(z < z1 ) = P z <  →
 120 
P( x < 220 ) = P(z < −1,17 ) = 0,5 −0,3790 = 0,1210
 450 - 360 
c) P(x > 450) = P(z > z 1 ) = P z >  = P(z > 0,75) = 0,5 - 0,2734 = 0,2266
 120 

38
 460 −360 520 −360 

P( 460 < x < 520 ) = P <z <  = P(0,83 < z <1,33 )
d)  120 120 
P( 460 < x < 360 ) = 0,4082 −0,2967 = 0,1115
e) P( 240 ≤ x ≤ 460 ) = P ( −1 ≤ z ≤1) = 0,3413 +0,3413 = 0,6826
f) Eis que a metade da área de 0,95 é 0,475. Entrando-se com este valor na tabela da distribuição
normal obtém-se os escores reduzidos z 1 = −1,96 e z 2 =1,96 , que permitem determinar os
x −μ
limites x1 e x2 mediante substituição na fórmula z = , tal que:
σ
zσ =x −μ →±1,96 ×120 =x −360 → x = 360 ± 235,2 .
Donde se conclui que o intervalo de x em torno da média é P(124,8 ≤ x ≤ 595,2) = 0,95.
g) μ = np =600 ×0,3413 →μ = 205 trabalhadores.

σ 2 =npq =205 (1 −0,3413 ) →σ 2 =135 →σ =12 trabalhadores.

39
9
TEORIA DA ESTIMAÇÃO
9.1 Introdução
A estimativa de um parâmetro de uma população pode ser feita por ponto ou por intervalo.
A teoria da estimação é a parte da Inferência Estatística em que se estuda a elaboração de intervalos
de confiança com base em estatísticas amostrais, nos quais se espera, com uma probabilidade
definida, que esteja incluído o verdadeiro valor do parâmetro populacional. Neste ponto, é de suma
importância o conhecimento da distribuição amostral da estatística eleita como estimador do
parâmetro da população.
Eis que em tempos de eleição é comum a divulgação de pesquisas sobre intenção de votos
pelos órgãos de comunicação, informando que o candidato tal lidera, naquele momento, a corrida
eleitoral, de acordo com pesquisa do instituto tal, e caso as eleições fossem logo realizadas, esse
candidato seria eleito com uma proporção p̂ de votos, com uma margem de erro de tantos por cento
(para mais ou para menos), tendo sido a pesquisa realizada nos últimos dias e que foram entrevistados
um número n de eleitores, no país, ou estado, ou município.
Significa, deste modo, que a proporção p̂ encontrada na amostra é divulgada como uma
estimativa da verdadeira proporção p de eleitores favoráveis a esse candidato, naquele momento, em
toda a população habilitada a votar. Isso demonstra como informações amostrais podem ser
generalizadas para fazer juízo sobre propriedades da população como um todo. O caminho para se
chegar a esse tipo de conclusão, dentre outros, será comentado mais à frente.
9.2 Estimação por ponto

40
Na estimação pontual estima-se um único valor do parâmetro populacional, a partir de

dados da amostra. Assim, a média da amostra x e a variância da amostra s 2 são estimativas por
ponto da média μ e da variância σ 2 da população, respectivamente. E também a proporção p̂

do número de desempregados (x) na amostra (n), relativa a certa categoria profissional, é uma
estimativa por ponto da verdadeira proporção p de desemprego profissional na população.
9.3 Intervalo de confiança ― IC

Intervalo de confiança é uma técnica de estimação que visa estabelecer um intervalo de
valores, centrado numa estatística amostral, no qual se admite, com um nível de confiança, que
esteja incluído o parâmetro da população. Os extremos do IC são chamados limites de confiança.
A vantagem dessa técnica é que ela confere um grau de precisão à estimativa, de maneira que
se a amplitude do intervalo é pequena, pode-se depreender que uma alta precisão foi atingida. Assim,
quanto menor for a amplitude de um IC melhor é a informação que ele fornece. Por isso, interessa
obter, tanto quanto possível, intervalos de amplitude mínima para um dado nível de confiança.
9.3.1 Intervalo de confiança para a média da população µ ― σ conhecido
Se a variável aleatória x tem distribuição normal de média µ e variância σ 2 , a variável
x −μ
padronizada é expressa por z = , que se identifica por x ~ N(μ, σ 2 ) .
σ
Por outro lado, se a distribuição amostral da média segue uma distribuição normal a variável
σ2
aleatória x terá média µ e variância σ 2x = , que se denota por x ~ N( μ , σ 2x ). E desta forma
n
x −μ x −μ σ
a variável z passa a ser z = σ ou z = , pois, como já comentado, σ x = .
x σ/ n n
Para deduzir a fórmula do IC para a média µ basta substituir a expressão de z no

intervalo P(−z c ≤ z ≤ z c ) = 1 − α , a saber:
x −μ
P( −z c ≤ ≤ z c ) = 1 − α → P( −z c σ x ≤ x − μ ≤ z c σ x ) = 1 − α . Eis que a solução
σx

41
desta expressão em relação a μ é P( x − z c σ x ≤ μ ≤ x + z c σ x ) = 1 − α .
σ
Como o desvio padrão da distribuição de x é σ x = , obtém-se, por substituição, a
n
seguinte fórmula para estimar o IC para a média populacional µ :
σ σ σ
P( x − z c ≤ μ ≤ x + zc ) = 1 − α , ou μ = x ± z c .
n n n
• x = média da amostra;
• μ = média da população;
• σ = desvio padrão da população;
• 1 − α = nível de confiança – probabilidade de o IC incluir a média µ ;
• α = nível de significância – probabilidade de o IC encontrado não incluir a média µ ;
z
• z c ou α2 = z crítico, abscissa da distribuição normal padrão, cujo valor é obtido na tabela
da distribuição z, em face do nível de confiança adotado. Por isso, também é chamado de z tabelado.
σ
• e = zc = erro padrão da estimativa ou erro de amostragem (semi-amplitude do IC).
n
A configuração gráfica de um IC para a média µ é vista na figura abaixo:
Figura 9.1 Gráfico de um IC para a média populacional μ
De um modo geral, o erro padrão e reflete a variação aleatória que ocorre de amostra para
amostra numa distribuição amostral de médias.
E ainda mais, o valor do erro padrão depende do nível de confiança adotado, do tamanho da
amostra e da dispersão dos elementos da população, isto é, do desvio padrão σ ou do seu estimador
s, quando σ é desconhecido.
Quando se aumenta o nível de confiança de uma estimativa o valor do erro padrão também

42
aumenta, para compensar a maior probabilidade de acerto que se atribui à estimação do parâmetro.
Assim, mantendo-se os demais fatores constantes, um IC de 95% de confiança proporciona um erro
padrão e menor que o de um IC de 99% de confiança.
Outrossim, quando se aumenta o tamanho da amostra n é de se esperar uma redução no erro
σ
padrão equivalente a n , uma vez que e = z c .
n
A grandeza do desvio padrão populacional σ , ou do desvio padrão amostral s, quando este

é usado como estimador do primeiro, influencia o valor de e, para mais ou para menos, ou seja,
quanto maior for a dispersão verificada na população ou na amostra maior será o valor do erro
padrão da estimativa.
A fórmula para calcular o tamanho mínimo da amostra é obtida isolando n da fórmula do
σ
erro padrão e = z c , como demonstrado a seguir:
n
2 2
z σ (z σ) 2 (z σ) 2 z σ
e =  c  → e 2 = c
2
→ n = c 2 , ou então, n =  c  .
 n n e  e 
Neste particular, n é função do erro padrão e do nível de confiança 1 − α .
É relevante dizer que a obtenção do desvio padrão σ para calcular o tamanho mínimo de
amostras é um problema crucial na teoria da estimação, e pode ser superado consultando-se
pesquisas ou estudos similares, em que se tenha estimado o “ σ ” da variável de interesse.
Em se tratando de estudo pioneiro, em que não há nada escrito sobre o assunto, a única
alternativa é a seleção de uma amostra piloto, que permita fazer uma estimativa preliminar da medida de
dispersão que será utilizada para calcular em definitivo o tamanho mínimo de amostra adequado.
Exemplo 1: Num censo passado apurou-se que a variação do consumo domiciliar de energia,
em certa cidade, era cerca de 50 kw/mês. Para estimar o consumo médio atual, coletou-se,
aleatoriamente, na lista da companhia distribuidora, o consumo mensal registrado em 100
domicílios, obtendo-se, dessa amostra, uma média equivalente a 320 kw/mês. Pretende-se estimar
um IC de 95% para o verdadeiro consumo médio domiciliar mensal de energia.
■ Solução: Para achar os valores críticos de z, dado o nível de confiança de 95%, entra-se na
tabela da distribuição normal com a probabilidade de 0,4750 equivalente à metade de 1 − α (0,95/2
= 0,4750), encontrando-se z = 1,96 e, por simetria, z = -1,96 (vide tabela da página 81). A arquitetura

43
do IC em comento é ilustrada no gráfico a seguir:
σ 50
μ = x ± zc = 320 ±1,96 = 320 ± 9,8 → 310 ,2 ≤ μ ≤ 329 ,8 kw/mês, com 95% de
n 100
confiança. A estimativa em tela dá um erro padrão de 9,8 kw/mês.
Pergunta-se qual o tamanho mínimo da amostra necessário para reduzir o erro padrão de 9,8
para 5 kw/mês, mantendo-se o nível de confiança de 95%?
2 2
z σ  1,96 × 50 
n = c  =  → n = 384 domicílios.
 e   5 
Em se tratando de população finita (amostragem sem reposição), a fórmula do intervalo de
N −n
confiança para μ inclui o fator de correção , conforme se verifica a seguir:
N −1
σ N −n
μ = x ± zc .
n N −1
σ N −n
Neste caso, o erro padrão da estimativa é identificado pela expressão e = z c ,
n N −1
da qual se tira a fórmula de n para calcular o tamanho mínimo da amostra, como demonstrado a
seguir:
2
z σ N −n  z 2σ 2 N − n
e = c ×
2  → e2 = c × .
 n N −1  n N −1
 
Multiplicando os dois membros desta expressão por n ( N −1) , tem-se:
z c2 σ 2 N − n
n ( N − 1)e 2 = × × n ( N − 1) → n ( N − 1)e 2 = z c2 σ 2 ( N − n )
n N −1
n ( N − 1)e 2 = z c2 σ 2 N − nz c2 σ 2 → n ( N − 1)e 2 + nz c2 σ 2 = z c2 σ 2 N
n[( N − 1)e 2 + z c2 σ 2 ] = z c2 σ 2 N , donde se conclui que:

44
z c2 σ 2 N
n= .
( N − 1)e 2 + z c2 σ 2
( z c σ e) 2
A formula acima pode ser simplificada para: n = .
1 + ( z c σ e) 2 / N
Exemplo 2: Um auditor selecionou ao acaso uma amostra de 40 contas a receber de um total

(população) de 500 contas arquivadas num determinado mês, pelo setor de Contabilidade de uma
firma, obtendo, depois de examiná-las, um saldo médio em aberto de R$ 260,00, devido a erro
contábil. O auditor sabe, por experiência, que em situações parecidas, o valor do desvio padrão
populacional ( σ ) não excede a R$ 35,00. Então, a estimativa do saldo médio em aberto ( μ ) das
500 contas encerradas no mês, a um nível de confiança de 95%, seria calculada assim:
35 500 - 40
μ = 260 ±1,96 → μ = 260 ±10 ,41 → 249 ,59 ≤ μ ≤ 270 ,41 R$
40 500 - 1
40
Note-se que = 0,08 > 0,05 .
50
Logo, o auditor poderia inferir que o saldo médio em aberto das 500 contas encerradas, em
face de erro contábil, seria um valor entre R$ 249,59 e R$ 270,41, com 95% de confiança.
Se o auditor desejasse trabalhar com um erro padrão da estimativa de R$ 5,00 e nível de

confiança de 95%, qual deveria ser o tamanho da amostra?
(1,96 × 35 5) 2 188 ,2384
n= = → n = 137 contas
1 + (1,96 × 35 5) / 500 2
1 + 0,3765
N-n
Vale lembrar que o fator de correção de população finita pode ser ignorado para n
N -1
menor que 5% de N ( n < 0,05 N ).
N −n
É importante destacar que o fator de correção pode ser ignorado quando n é menor
N −1
que 5% de N ( n < 0,05 N ).
9.3.2 Intervalo de confiança para a média µ ― σ desconhecido
Em não se conhecendo o desvio padrão da população ( σ ), utiliza-se em seu lugar, como

estimador, o desvio padrão amostral (s). Esta aproximação melhora à medida que n cresce, mas não
se deve esquecer a distinção entre pequenas e grandes amostras.

45
9.3.2.1 Grandes amostras

Quando o tamanho da amostra é maior ou igual a 30 ( n ≥ 30 ), em face do teorema do
limite central, pode-se utilizar a distribuição normal para elaborar o intervalo de confiança para a
média populacional µ , através da fórmula:
s s
P( x − z c < μ < x + zc ) =1− α .
n n
s
Ou, resumidamente: μ = x ± z c .
n
s
A fórmula para calcular o tamanho da amostra, a partir do erro padrão e = z c , é dada
n
2
 z cs 
pela expressão n =   .
 e 
Exemplo 1: Seja um fabricante de lâmpadas que para estimar o tempo médio de duração do
seu produto seleciona para ensaio uma amostra aleatória de 50 unidades, donde obteve duração média
de 600 horas e desvio padrão de 25 horas. Estime-se, com 90% de confiança, um IC para o verdadeiro
tempo médio de duração de todas das lâmpadas.
■ Solução: Para 1 − α = 0,90 corresponde valores críticos de z c = ±1,64 na tabela da

distribuição normal. E mais, com x = 600 e s = 25, obtém-se:
s 25
μ = x ± zc = 600 ± 1,64 = 600 ± 5,8 → 594,2 ≤ µ ≤ 605,8 hs. A arquitetura do
n 50
IC é retratada no quadro abaixo:
Significa que se todas as lâmpadas fossem testadas encontrar-se-ia um tempo médio de

duração entre 594,2 e 605,8 horas, com 90% de confiança.
Caso o fabricante decidisse fixar o erro padrão em 2,5 horas, com os mesmos 90% de
confiança, o número de lâmpadas a ser testado seria de:

46
2 2
z s  1,64 × 25 
n =  c  =   → n = 269 lâmpadas.
 e   2,5 
Em se tratando de população finita (amostragem sem reposição) inclui-se o fator de

correção à fórmula do IC:
s N −n
μ = x ± zc .
n N −1
E o calculo do tamanho da amostra é feito através da fórmula adiante:
( z c s e) 2
n= .
1 + ( z c s e) 2 / N
Exemplo 2: Voltemos ao caso da amostra aleatória de 40 contas a receber de um lote de 500

contas arquivadas em certo mês, pelo setor de Contabilidade de uma firma, agora, todavia, supondo
que o desvio padrão populacional é desconhecido. Assim, o auditor obtém na amostra um saldo
médio em aberto de R$ 260,00 e desvio padrão (s) de R$ 42,00 (devido a erro contábil).
A estimativa do saldo médio em aberto das 500 contas encerradas e arquivadas no mês, a
um nível de confiança de 95%, é calculado da maneira abaixo:
42 500 − 40
μ = 260 ± 1,96 →μ = 260 ±13 ,79 → 246 ,21 ≤ μ ≤ 273 ,79 reais.
40 500 −1
Enquanto isso, o tamanho mínimo da amostra admitindo um erro padrão da estimativa de

R$ 5,00 e nível de confiança de 95%, é de:
(1,96 × 42 5) 2 271,0633
n= = → n = 176 contas.
1 + (1,96 × 42 5) / 500 1 + 0,5421
2
9.3.2.2 Pequenas amostras ― a distribuição t de Student

Em pequenas amostras ( n < 30 ), o desvio padrão amostral s não é um bom estimador do
desvio padrão populacional σ, porque está sujeito a flutuações muito grandes de amostra para
amostra. Todavia, quando há certeza de que a população de onde provém a amostra é normalmente
distribuída, o que não é raro, o problema é minimizado pela utilização da distribuição t de Student
no lugar da normal.
Ressalve-se que quando a população é normalmente distribuída e se conhece σ, nada

impede que se utilize a distribuição normal em pequenas amostras.

47
A diferença básica entre a distribuição normal e a distribuição t é que esta, por ser mais
dispersa, tem as extremidades mais alongadas que a primeira, como se observa na figura abaixo:
Figura 9.2 Formato das distribuições t de Student e normal
Por conseguinte, a fórmula do IC neste caso é:
s s
P( x − t c ≤ μ ≤ x + tc ) =1−α .
n n
s
Ou, de modo resumido: μ = x ± t c .
n
Onde s é o desvio padrão da amostra e t c ou t α / 2 é chamado t crítico, que corresponde à

abscissa da distribuição t de Student, cujo valor se obtém na tabela desta distribuição, em função do
nível de significância α e de n–1 graus de liberdade (g.l.).
A ilustração gráfica de um intervalo de confiança com a distribuição t é semelhante ao que

foi visto nos casos que envolveram a distribuição normal, como se verifica na figura adiante:
Figura 9.3 Gráfico de um IC para a média μ com a distribuição t
2
t s
Enquanto que a fórmula para estimar o tamanho da amostra é n =  c  .
 e 
Exemplo 1: Imagine que o fabricante de lâmpadas, citado no exemplo 1 do subitem 4.3.2, em

face de urgência no resultado da pesquisa, decidisse coletar apenas 16 lâmpadas para teste. Para facilitar,
admita-se que ele tenha apurado a mesma média e o mesmo desvio padrão. Qual seria, então, o intervalo
de confiança de 95% para a duração média das lâmpadas como um todo?
■ Solução: Sejam n = 16 lâmpadas; x = 600 horas; s = 25 hs. e α = 0,05.

48
Entrando-se na tabela da distribuição t com n −1 = 15 graus de liberdade e nível de

significância α =0,05, encontra-se t c =±2,1315, cuja ilustração se verifica no gráfico adiante:
s 25
Logo, μ = x ± t c = 600 ± 2,1315 × = 600 ±13 ,3 horas, ou 586 ,7 ≤ μ ≤ 613 ,7
n 4
horas.
Infere-se que o tempo médio global de duração das lâmpadas seria um valor entre 586,7 e
613,3 horas, com 95% de confiança.
Caso interessasse reduzir o erro padrão de 13,3 para 8 horas, mantendo o nível de confiança
de 95% para a estimativa da média μ, o número de lâmpadas que deveria ser testado seria de:
2 2
 t .s   2,1315 × 25 
n = c  =  → n = 144 lâmpadas.
 e   8 
Este tamanho de amostra permitiria ao fabricante utilizar sem problemas a distribuição normal
para estimar um novo intervalo de confiança para a média μ.
No caso de população finita, em que se adota o fator de correção de população finita,

sobretudo para n > 0,05N, a fórmula do IC fica igual a:
s N −n
μ = x ± tc .
n N −1
Para estimar o tamanho mínimo da amostra utiliza-se a fórmula:
(t c s/e) 2
n= .
1 + (t c s/e) 2 / N
Exemplo 2: Uma amostra aleatória de 16 acionistas de uma grande empresa, dentre os 128
que comparecem a uma assembléia, apresenta idade média de 52 e desvio padrão de 6 anos,
respectivamente. Supondo que a idade dos acionistas é uma variável aleatória que se distribui
normalmente, construa um intervalo de confiança de 95% para a idade média de todos os acionistas
que freqüentam a assembléia.

49
n 16
■ Solução: Como n=16 e N=128, tem-se, = = 0,125 > 0,05 , sugerindo que se
N 128
deve utilizar o fator de correção de população finita. Deve-se, também, utilizar a distribuição t, com
n–1 graus de liberdade, pois σ é desconhecido e n é menor que 30.
Para α = 0,05 e n − 1 = 15 graus de liberdade corresponde o valor t c = 2,1315 na tabela

da distribuição t.
6 128 − 16
μ = 52 ± 2,1315 × → μ = 52 ± 3 → 49 ≤ μ ≤ 55 anos.
16 128 − 1
Portanto, infere-se que a idade média de todos os acionistas que compareceram à assembléia
situa-se entre 49 e 55 anos, com 95% de confiança, cujo esboço gráfico se encontra abaixo.
Para estimar a idade média geral dos acionistas, com erro máximo de 2 anos e nível de confiança
de 95%, o tamanho mínimo da amostra seria de aproximadamente:
(2,1315 × 6 / 2) 2 40,89
n= = → n ≅ 31 acionistas.
2
1 + ( 2,1315 × 6 / 2) / 128 1 + 0,31945
9.3.3 Intervalo de confiança para a proporção populacional p

Há situações em que a variável de interesse só admite dois resultados possíveis: sucesso ou
fracasso, cuja distribuição de probabilidade é do tipo binomial.
Aqui a probabilidade de sucesso é p e a de fracasso q =1 − p . A proporção de eventos
x x
favoráveis na população é p = e o seu estimador na amostra é p̂ = .
N n
Apesar de a distribuição de p ser binomial, ela pode ser aproximada pela distribuição
normal, pois a estimativa de proporções envolve quase sempre grandes amostras retiradas de
populações muito grandes. Eis que a média e a variância da distribuição binomial são,
respectivamente, μ = np e σ 2 = npq . Substituindo estes parâmetros na fórmula de z, da
distribuição normal padrão, eis que surge:

50
x −μ x − np
z= →z = .
σ npq
x np
−
z = n n
Dividindo-se a nova expressão de z por n, tem-se: .
npq
n2
p̂ − p
x z=
Trocando por p̂ , chega-se a: pq .
n
n
Para encontrar a fórmula do IC para estimar a proporção populacional p, basta substituir a
nova expressão de z em P( −z c ≤ z ≤ z c ) = 1 − α , a saber:
p̂ − p
P( −z c ≤ ≤ zc ) =1 − α
pq , tirando o valor de p, vem:
n
pq pq
P( p̂ − z c ≤ p ≤ p̂ + z c ) =1 − α .
n n
Como os parâmetros p e q de dentro da raiz são desconhecidos, eles são substituídos pelos
seus respectivos estimadores p̂ e q̂ , resultando na seguinte fórmula do IC para a proporção p:
p̂q̂ p̂q̂
P( p̂ − z c ≤ p ≤ p̂ + z c ) =1 − α .
n n
p̂q̂
Ou, resumidamente: p = p̂ ± z c , onde:
n
• p = proporção na população, a que se pretende estimar;
• p̂ = proporção na amostra e q̂ =1 −p é o complemento de p̂ ;
• z c = z crítico, como já dito, obtido na tabela da distribuição normal;
p̂q̂
• e = zc = erro padrão da estimativa ou erro de amostragem.
n
Quando não se conhecem os parâmetros p e q , nem os respectivos estimadores p̂ e q̂

0,25
, utiliza-se a fórmula p = p̂ ± z c , em que 0,25 = (0,5) 2 , pois se considera 0,5 como valor
n
máximo da proporção p.
A fórmula para calcular o tamanho da amostra para a proporção p é obtida a partir do

51
quadrado da fórmula do erro padrão, como demonstrado abaixo.

2 2
 
 → e 2 = z c2 p̂q̂ → n = z c p̂q̂ ↔ n =  c  p̂q̂ .
p̂q̂ 2
z
e = zc
2
 n  n 2
  e  e 
Exemplo 1: Seja o caso de um industrial que considera satisfatório um percentual de até 6% de

peças defeituosas produzidas em sua fábrica de equipamentos eletrônicos. A inspeção feita numa
amostra aleatória de 200 peças revelou que 18 apresentavam defeitos. Estime-se um intervalo de
confiança para a verdadeira proporção de peças defeituosas, com 95% de confiança.
18
■ Solução: n = 200 peças; x = peças defeituosas; p̂ = = 0,09 (proporção de peças
200
defeituosas na amostra); q̂ =1 −0,09 =0,91 (proporção de peças perfeitas na amostra);
1 − α = 0,95 (nível de confiança) donde se obtém na tabela da distribuição normal padrão
z c = ± 1,96 . Segue-se, então, o IC para a verdadeira proporção de peças defeituosas:
0,09 × 0,91
p = 0,09 ±1,96 → p = 0,09 ± 0,04 → 0,05 ≤ p ≤ 0,13 .
200
Assim, a verdadeira proporção de peças defeituosas é um valor compreendido no intervalo
acima, com 95% de confiança, que envolve o dito percentual de 6% de peças defeituosas. O esboço
do IC em comento consta no gráfico a seguir:
Caso interesse diminuir a margem de erro da estimativa de 4% para 2,5%, mantendo-se os

95% de confiança, o tamanho mínimo da amostra deverá ser de:
2 2
z   1,96 
n =  c  p̂q̂ → n =   (0,09)(0,9 1) → n = 503 peças.

e
   0,025 
Quando se trata de população finita, a fórmula do IC inclui o fator de correção e passa a ser:
p̂q̂ N −n p̂q̂ N −n
p = p̂ ± z c × , onde e = z c × é o erro padrão da estimativa.
n N −1 n N −1
Para calcular o tamanho da amostra, utiliza-se a fórmula em destaque, obtida

algebricamente a partir da expressão do erro padrão, qual seja:

52
z 2 p̂q̂N
n= .
z 2 p̂q̂ + ( N −1)e 2
Exemplo 2: Seja um levantamento por amostragem levado a cabo junto a 160 indivíduos
adultos, na área rural de um pequeno município, onde se constatou que 56 deles eram analfabetos. O
último censo demográfico assinala que a população adulta da área coberta pela pesquisa é de 1.500
indivíduos. Elabore-se um intervalo de confiança de 95% para a proporção geral de analfabetos.
■ Solução: n = 160 (tamanho da amostra); N = 1.500 (tamanho da população); x = 56 (n° de
56
analfabetos); p̂ = = 0,35 (proporção de analfabetos na amostra);
160
q̂ =1 −p̂ =1 −0,35 = 0,65 (proporção de alfabetizados na amostra);
1 − α = 0,95 , nível de confiança, mediante o qual se encontra z =1,96 , na tabela da

distribuição normal padrão.
Sendo n > 0,05 N →160 > 0,05 ×1.500 →160 > 75 , é necessário adotar o fator de
correção de população finita para estimar a proporção populacional p, como se vê a seguir:
0,35 × 0,65 1.500 −160

p = 0,35 ±1,96 ×
160 1.500 −1
0,35 ± 0,07 →0,28 ≤ p ≤ 0,42 de analfabetos.
Verifica-se que a verdadeira proporção de analfabetos na área pesquisada se situa entre 28%
e 42%, com 95% de confiança, isto é, 35% com margem de erro de 7%.
Por exemplo, o tamanho mínimo de amostra para estimar a verdadeira proporção de

analfabetos na mesma área, com erro máximo de 4% e nível de confiança de 95%, seria:
(1,96 ) 2 0,35 × 0,65 ×1.500

n= 2 2
→ n = 401 indivíduos.
(1,96 ) 0,35 × 0,65 + (1.500 −1)( 0,04 )

53
10
TEORIA DA DECISÃO
10.1 Definição
Na teoria da decisão, que ao lado da teoria da estimação é outra importante vertente da Inferência
Estatística, estudam-se os testes de hipóteses, que são procedimentos destinados a verificar se é
verdadeira ou falsa a suposição que se estabelece acerca do valor do parâmetro populacional, com
nível máximo de confiança (probabilidade de aceitar a hipótese submetida a teste). E o fato de aceitar
ou não uma hipótese estatística implica sempre em tomar uma decisão.
Seja determinado processo de fabricação, em que o controle de qualidade considera normal o

funcionamento de um equipamento quando a proporção de itens defeituosos se acerca de 5%. Esta é
uma proporção que vale para todo o universo, mas que deve ser confrontada, periodicamente, com a
proporção decorrente de amostras retiradas da linha de produção, para verificação da conformidade
do processo.
Ainda mais que o percentual de 5%, com o tempo, deverá ser atualizado tendo em vista o
natural desgaste do equipamento no caminho da absolescência. Neste caso, seria interessante o
controle de qualidade formular e confrontar as hipóteses a seguir:
• H 0 (agá índice zero): O equipamento está operando normalmente.
• H1 (agá índice um): O equipamento não está operando normalmente.
A decisão de aceitar ou não a hipótese inicial seria determinada por uma estatística teste que
avaliasse a significância de eventuais diferenças entre proporções obtidas por amostragem e a
proporção de 5% fixada pelo controle de qualidade. Caso o teste revelasse pouca significância para

54
essas diferenças, a hipótese inicial seria aceita. Este procedimento será detalhado mais adiante.
10.2 Teste de hipóteses

Os testes de hipóteses são utilizados quando existe alguma suposição quanto ao valor de
algum parâmetro da população e se pretende testar a sua consistência, a partir de evidências
observadas na amostra. Neste sentido, o objeto de estudo é confirmar a veracidade estatística de
algumas hipóteses a respeito de parâmetros da população visando tomada de decisões.
Um teste de hipóteses compõe-se da hipótese nula ( H 0 ), que corresponde àquela que se
deseja provar, e da hipótese alternativa ( H1 ), que se contrapõe a H 0 , ou seja, aquela que é aceita
quando esta é rejeitada. H 0 é chamada de hipótese nula porque estabelece que é nula a diferença
entre valor real e valor suposto para o parâmetro populacional.
10.3 Risco de erros em testes de hipóteses

Quando uma hipótese é aceita há sempre o risco de ocorrer dois tipos de erro: o ERRO TIPO I,
que consiste em rejeitar a hipótese nula H 0 quando ela é verdadeira; ou o ERRO TIPO II, que
consiste em aceitar a hipótese H 0 quando ela é falsa. A probabilidade do erro tipo I, que é o mais
importante, é igual ao nível de significância α (alfa) e a do erro tipo II é β (beta). A descrição

dessas possibilidades de erro consta do quadro abaixo:
Quadro 10.1 – Risco de erro num teste de hipótese

Hipótese nula ( H 0 )
Decisão
Verdadeira Falsa
Aceita CORRETO ERRO TIPO II
Rejeita ERRO TIPO I CORRETO
O erro tipo I, ou erro alfa, corresponde ao nível de significância do teste. Daí a sua maior
importância técnica e de controle bem mais fácil que o do erro tipo II.
Enquanto que o erro tipo II, ou erro beta, menos importante, compreende a quantidade da
distribuição amostral, baseada no verdadeiro parâmetro da população, que intercepta a região de
aceitação de H 0 , o que é demonstrado através da elaboração da chamada curva característica de

operação (CCO), assunto que não será abordado neste texto.

55
10.4 Teste para a média populacional µ – teste z

Quando o desvio padrão populacional σ é conhecido o teste para a média μ é feito com a
distribuição normal, qualquer que seja o tamanho da amostra. O teste Z é ainda utilizado quando σ é
desconhecido e a amostra é maior ou igual a trinta ( n ≥ 30 ).
a) Formulação do teste
Os testes de hipótese são do tipo bilateral (bicaudal) ou unilateral (unicaudal). No primeiro,
testa-se a hipótese de igualdade ou diferença a média populacional μ e o valor suposto μ 0 . No
segundo, testa-se a hipótese de desigualdade, para mais ou para menos, entre μ e μ 0 . O modo de
formular e decidir sobre um teste de hipóteses para a média μ resume-se no quadro abaixo:
Quadro 10.2 – Decisão num teste z para a média populacional μ
Hipótese Decisão
Tipo de teste
Nula Alternativa Aceita-se H 0
H1 : µ ≠
Bicaudal H 0 : µ = µo se -zc ≤ zo ≤ zc
µo
H1 : µ >
Unicaudal à direita H 0 : µ = µo se zo < zc
µo
H1 : µ <
Unicaudal à esquerda H 0 : µ = µo se zo > -zc
µo
A estatística z o vista no quadro acima é chamada de z observado e é calculada com base em
estatísticas amostrais. Enquanto que z c é o chamado z crítico, que delimita a área de aceitação do
teste e é obtido na tabela da distribuição normal, em face do nível de confiança 1 − α .
Eis que a hipótese nula estabelece uma igualdade entre a média populacional μ e a média
suposta μ o (diferença nula), enquanto que a hipótese alternativa é sempre de desigualdade. O

gráfico de uma curva normal para realização de um teste bicaudal tem o formato visto na figura
abaixo:
Figura 10.1 Formato de um teste z bicaudal para a média μ

56
A probabilidade de aceitar H 0 é 1 − α , e a de rejeitá-la é α . Em testes bicaudais ou
α
bilaterais, a probabilidade α fica repartida em duas partes iguais , correspondendo às duas
2
áreas demarcadas nas extremidades da curva normal, em destaque na figura anterior. Aceita-se
H 0 , com nível de confiança 1 − α , se a estatística teste zo (z observado) cair entre -zc e zc.
No teste unicaudal à esquerda, a probabilidade de aceitação de H 0 é 1 − α . E a
probabilidade de rejeição é α , representada pela área sob a curva localizada na extremidade

esquerda, como se vê na figura a seguir:
Figura 10.2 Formato de um teste z unicaudal à esquerda para a média μ
Aqui, aceita-se H 0 , com nível de confiança 1 − α , quando z 0 > z c .
No teste unicaudal à direita, a probabilidade α de rejeição de H 0 é dada pela área sob a

curva situada na extremidade direita, como ilustra a figura abaixo:
Figura 10.3 Formato de um teste z unicaudal à direita para a média μ
Enfim, aceita-se H 0 , com nível de confiança 1 − α , quando z 0 < z c .
b) Estatística do teste
A estatística de um teste mede a discrepância existente entre a estatística amostral e o

parâmetro populacional a ser testado. Neste caso, como σ é conhecido, tem-se:
x −μ x −μ σ
zo = → zo = , eis que σ x = .
σx σ n n
No caso, a estatística z o , chamada z observado, mede o afastamento, em unidades normais

padronizadas, entre a média amostral ( x ) e a média populacional ( μ ).

57
Exemplo 1: Foi apurado, em dados de um censo, que a variação do consumo domiciliar de

energia, em certa cidade, era de 50 kw/mês ( σ ) e que o consumo médio atual na cidade beira a casa
dos 350 kw/mês. Uma amostra aleatória de 100 consumidores deu uma média amostral de 320 kw/mês.
Teste-se a hipótese de que o consumo médio de energia é de 350 kw/mês, com 95% de confiança.
■ Solução: σ = 50 kw/mês; n = 100; x = 320 kw/mês e 1 − α = 0,95 .
• Formulação do teste: H 0 : μ = 350 kw/mês ∴ H 1 : μ ≠ 350 kw/mês.
x −μ 320 − 350
• Estatística do teste: z o = = → z o = −6
σ/ n 50 / 100
Para um nível de confiança de 0,95 tem-se um valor modular de z c = ± 1,96, na tabela da
distribuição normal. Como zo = -6 está fora do intervalo [-1,96; 1,96], rejeita-se H 0 , com 95% de
confiança, não havendo evidência estatística de que o verdadeiro consumo médio domiciliar de
energia seja de 350 kw/mês, conforme esboço no gráfico abaixo.
Nota-se, no caso presente, uma discrepância muito grande entre a média amostral e a média
suposta para a população como um todo.
Chega-se à mesma conclusão calculando-se limites críticos para a média amostral, em

operação similar à de elaboração de intervalos de confiança, mediante a fórmula:
σ
xc = μo ± zc
n
O símbolo x c é o valor crítico da média amostral e μ o é a média populacional suposta. Neste
caso, aceita-se H 0 quando o valor da média amostral cair no intervalo limitado pelos valores críticos
de x c . Segue-se, então, o teste para a média μ com os dados do exemplo anterior:
• Formulação: H 0 : μ = 350 kw/mês ∴ H 1 : μ ≠ 350 kw/mês.
σ 50
• Valores críticos de x : x c = μ O ± z c = 350 ±1,96
n 100
x c = 350 ± 9,8 , resultando 340,2 ≤ x c ≤ 359,8 kw/mês.

58
Como na solução anterior, a hipótese nula ( H 0 ) é igualmente rejeitada, pois a média da

amostra de 320 kw/mês não se encaixa no intervalo acima, como se depreende no gráfico adiante.
Exemplo 2: Aproveitando os dados do exemplo anterior, teste-se a hipótese de o consumo

médio de energia ser inferior a 350 kw/mês, com nível de confiança de 95%:
• Formulação: H 0 : μ = 350 kw/mês ∴ H 1 : μ < 350 kw/mês.

• Estatística do teste: zo = -6 (a mesma do exemplo 1).
Para um nível de confiança de 0,95 e sendo o teste unilateral, pega-se na tabela da distribuição
normal o valor zc = -1,64. Como este valor é superior ao de zo = -6, rejeita-se H 0 , havendo indícios
de que o consumo médio de energia na cidade é de fato inferior a 350 kw/mês (vide gráfico abaixo).
A hipótese nula H 0 é igualmente rejeitada quando se calcula um valor crítico para

a média amostral x , como segue:
• Formulação: H 0 : μ = 350 kw/mês ∴ H 1 : μ < 350 kw/mês
σ 50
• Valor crítico de x : x c = μ o − z c = 350 − 1,64
n 100
x c = 350 − 8,2 = 341,8 kw/mês.
Rejeita-se H 0 , pois a média amostral de 320 é menor que 341,8 kw/mês. Aceitar-se-ia H 0
para valores de x c > 341 ,8 kw/mês, como ilustra o gráfico adiante:

59
Quando o tamanho da amostra é n ≥ 30 e o desvio padrão populacional σ é desconhecido,

este é trocado pelo desvio padrão amostral s, que é o seu estimador na amostra, e a estatística do
teste é expressa pela fórmula abaixo:
x −μ
zo = .
s/ n
Exemplo 3: De uma amostra aleatória representando a remuneração mensal de 36

comerciários (salário e comissão) de uma cidade média, obteve-se média e desvio padrão de R$
329,53 e R$ 44,83, respectivamente. Teste-se, com 90% de confiança, se essa média atende a
suposição de que o ganho médio geral da categoria é de R$ 325,00.
■ Solução: n = 36; x = 329 ,53 ; s = 44 ,83 ; 1 − α = 0,90 . Os valores críticos de z são
iguais a ±1,64, para o nível de confiança de 90%. O valor de z c =1,64 corresponde à probabilidade
de 0,4500 (0,90/2=0,4500), na tabela da distribuição normal.
Formulação: H 0 = 325 ,00 ∴ H 1 ≠ 325 ,00
x −μ 329 ,43 − 325 ,00 4,43

Estatística do teste: z o = = = → z o = 0,59 .
s/ n 44 ,83 / 36 7,47
Como dá para ver no gráfico acima, aceita-se H 0 com 90% de confiança, pois z o = 0,59
está compreendido entre ±1,64, intervalo que delimita a área de aceitação do teste, denotando que a
remuneração média mensal geral dos comerciários pode ser de cerca de R$ 325,00.
10.5 Teste para a média populacional µ – teste t de Student

Quando o desvio padrão σ é desconhecido e o tamanho da amostra n é pequeno ( n < 30 ),
mas n é proveniente de uma população normalmente distribuída, a distribuição t substitui a normal

60
na realização do teste, e daí a denominação de teste t para a média populacional.
Isso acontece porque o desvio padrão da amostra (s) não é um bom estimador do desvio padrão da
população ( σ ). A distribuição t de Student é mais alongada nas extremidades do que a distribuição
normal, por refletir a maior dispersão verificada sempre em distribuições de pequenas amostras.
Neste caso, a formalização e a decisão inerentes ao teste seguem o mesmo ritual dos casos
anteriores, cujo resumo se encontra no quadro seguinte:
Quadro 10.3 – Decisão num teste t para a média populacional μ
Hipótese Decisão
Tipo de teste
Nula Alternativa Aceita-se Ho
H1 : µ ≠
Bicaudal H 0 : µ = µo se -tc ≤ to ≤ tc
µo
H1 : µ >
Unicaudal à direita H 0 : µ = µo se to < tc
µo
H1 : µ <
Unicaudal à esquerda H 0 : µ = µo se to > -tc
µo
Segue-se a representação gráfica da distribuição t para um teste bicaudal:
Figura 10.4 Formato de um teste t bicaudal para a média μ
Neste caso, aceita-se H 0 , com 1 − α de confiança, se to cair entre -tc e tc.
Em testes unilaterais toda a área de rejeição α se localiza numa das extremidades da curva
(direita ou esquerda), como já detalhado no caso da distribuição normal (vide figuras 10.2 e 10.3).
x −μ
b) Estatística do teste: t o = .
s/ n

61
Nesta fórmula s é o desvio padrão da amostra e to é chamado de t observado, que mede o

desvio existente entre média amostral e média da população. Caso se opte pela fixação de limites
críticos para a média amostral x , o teste poderá ser feito através da fórmula:
s
xc = μo ± tc .
n
Neste sentido, rejeita-se H 0 quando a média da amostra exceder aos valores críticos x c .
Exemplo: Uma máquina é regulada para envasar margarina em potes de 500 gramas. Sabe-se
que a distribuição do peso líquido dos potes é quase normal. Iniciada a produção, foi recolhida uma
amostra de 12 potes, revelando peso líquido médio de 501,5 gramas e desvio padrão de 10 gramas. Ao
nível de confiança de 95%, pode-se aceitar que a máquina está operando satisfatoriamente?
■ Solução: n = 12; x = 501 ,5 ; s = 10 gramas; 1–α = 0,95 (α = 0,05) e n–1=11.
• Formulação: H 0 : μ = 500 gramas ∴ H1 : μ ≠ 500 gramas.

x −μ 501,5 − 500
• Estatística para o teste: t o = = → t o = 0,52 .
s/ n 10 / 12
O valor de tc para 11 graus de liberdade e nível de significância de 0,05 é encontrado na

tabela da distribuição t de Student, e equivale a 2,2010.
Como se vê no gráfico acima, o valor to = 0,52 está compreendido no intervalo ± 2,2010,
que delimita a área de aceitação do teste. Então, aceita-se H 0 com 95% de confiança, havendo
forte evidência de que a máquina fora regulada satisfatoriamente.
Ressalte-se, ainda, que o teste pode ser feito da seguinte maneira:
• Formulação: H 0 : μ = 500 gramas ∴H1 : μ ≠ 500 gramas.
• Valores críticos da média:
s 10
xc = μo ± tc = 500 ± 2,201 × = 500 ± 6,4 ,
n 12

62
que resulta em 493 ,6 ≤ x c ≤ 506 ,4 gramas.
Como a média x = 501 ,5 gramas se situa no intervalo acima, aceita-se H 0 com 95% de confiança,
conforme se depreende também no gráfico a seguir:
10.6 Teste para a proporção populacional p

O modo de formalizar e decidir sobre os testes de hipótese para proporção segue o mesmo
raciocínio até aqui desenvolvido, conforme resumo do quadro 18:
Quadro 10.5 – Decisão num teste z para a proporção populacional p
Hipótese Decisão
Tipo de teste
Nula Alternativa Aceita-se Ho
H 0 : p = po H1 : p ≠
Bicaudal se -zc ≤ zo ≤ zc
po
Unicaudal à direita H 0 : p = po H1 : p > p 0 se zo < zc
Unicaudal à esquerda H 0 : p = po H 1 : p < po se zo > -zc
Os três tipos de testes anotados no quadro acima têm perfil gráfico igual aos do subitem 10.4,
quando se utilizou a distribuição normal para testar a média μ (vide figuras 10.1, 10.2 e 10.3).
p̂ − p
zo =
b) Estatística do teste: pq
n
Como já esclarecido, z o é o z observado; p̂ é a proporção na amostra; p é a proporção

hipotética na população; e q =1 − p é o complemento de p.
Exemplo 1: Um industrial considera satisfatório se a proporção de peças produzidas na sua

indústria for da ordem de 5%. A inspeção feita numa amostra aleatória de 200 peças constatou uma
proporção de 6% de defeituosas. Pode-se admitir que a verdadeira proporção de peças defeituosas é
realmente de 5%, com 95% de confiança, como admite o fabricante?

63
• Formulação: H0 : p = 0,05 contra H1 : p ≠ 0,05.
p̂ − p 0,06 − 0,05
zo = = → z o = 0,65
• Estatística do teste: pq 0,05 × 0,95 .
n 200
Para o grau de confiança de 95%, correspondem valores críticos de z nos valores de ±1,96,
na tabela da normal. O esboço do teste se vê no gráfico abaixo:
Aqui, aceita-se H 0 , pois 0,65 pertence ao intervalo ±1,96, que delimita a área de aceitação
de H 0 . Portanto, há forte evidência de que a proporção equivalente a 5% de peças defeituosas é

verdadeira, ao nível de 95% de confiança.
Exemplo 2: Utilizando as mesmas informações do exemplo 1, pode-se aceitar a hipótese de

que a real proporção de peças defeituosas é superior a 7%?
• Formulação: H0 : p = 0,07 ∴ H1 : p > 0,07.
p̂ − p 0,06 − 0,07
zo = = → z o = −0,55
• Cálculo da estatística zo: pq 0,07 × 0,93 .
n 200
O valor de z crítico para 95% de confiança, num teste unilateral, é z c = 1,64 , que permite
aceitar H 0 , pois -0,55 < 1,64. Significa que a verdadeira proporção de peças defeituosas não é
superior a 7%, ao nível de confiança adotado, cujo desenho se observa no gráfico adiante.
10.7 O Teste do p–valor

Nesse caso, a veracidade da hipótese é confirmada pela estatística teste chamada de p–valor ou

64
valor–p. Com esse teste chega-se à mesma coisa de maneira diferente, ou seja, o seu resultado consiste
em aceitar ou rejeitar a hipótese nula H 0 , como num teste de hipóteses tradicional.
A rejeição da hipótese nula ( H 0 ) ocorre quando o p–valor do teste é menor que o valor
escolhido de α , que é o nível de significância do teste ( p <α ).
Deste modo, quanto menor é o p–valor encontrado, menor é a probabilidade de a hipótese

nula ser verdadeira. E o resultado do teste é obtido por meio de comparação entre o p–valor e o nível de
significância adotado, sem a necessidade de estabelecer hipótese alternativa nem valores críticos, como
acontece no processo tradicional. Aí consiste a grande vantagem da técnica em comento.
O teste do p–valor dá resultado igual ao do método tradicional. A dificuldade prática de se

trabalhar com o p–valor, se a distribuição é distinta da normal, se encontra praticamente superada em
face dos aplicativos disponíveis em computador, a exemplo da planilha Excel, dentre outros.
O p–valor corresponde a um nível de significância observado, em que a comparação é feita com

o nível de significância arbitrado α , para obter o resultado do teste. Destarte, quando o p–valor é
menor que α , rejeita-se H 0 , do contrário, aceita-se a hipótese nula. Em testes com a distribuição
normal o p–valor é calculado da seguinte maneira:
• Para teste unicaudal:
a) p − valor = P ( z ≤ z 0 ) , quando x é menor que μ 0 (a média amostral é menor que o

valor suposto para a média populacional);
b) p − valor = P ( z ≥ z 0 ) , quando x é maior que μ 0 .
• Para teste bicaudal:
a) p − valor = 2P( z ≤ z 0 ) , quando x é menor que μ 0 ;
b) p − valor = 2P( z ≥ z 0 ) , quando x é maior que μ 0 .
Exemplo: Voltemos ao caso do consumo domiciliar de energia em certa cidade, cuja variação
histórica é de 50 kw/mês. Julgando que atualmente consumo médio mensal seja de cerca de 350
kw/mês, coletou-se uma amostra aleatória junto a 100 consumidores, obtendo-se consumo médio de 320
kw/mês. Teste a hipótese de o consumo médio de energia ser de 350 kw/mês, com 95% de confiança.
■ Solução: σ = 50 kw/mês; n = 100; x = 320 kw/mês; 1 − α = 0,95 , donde α = 0,05 .
Hipótese nula: H 0 : μ = 350 kw/mês (teste bicaudal).

65
x −μ 320 − 350
• Cálculo da estatística zo: z o = = → z o = −6 (como visto antes).
σ/ n 50/ 100
• Cálculo do p–valor para teste bicaudal:
p − valor = 2P( z ≤ −6) = 2(0,5 − 0,4999 ) → p − valor = 0,0002 .
Como 0,0002<0,05 ( p − valor <α ), rejeita-se H 0 , não havendo evidência estatística de

que o consumo médio de energia na cidade seja de 350 kw/mês. Nota-se que a mesma conclusão foi
conseguida pelo critério tradicional, para z o = -6 e z c = ±1,96 .
Vale relembrar, por fim, que quanto menor é o valor numérico do p–valor maior é a
evidência contra a aceitação de H 0 .
11
CORRELAÇÃO E REGRESSÃO SIMPLES
No mundo real é fácil de encontrar relações de interdependência entre duas ou mais

variáveis aleatórias. A própria atividade humana em toda a sua plenitude é um corpo complexo de
fatos e ações entrelaçados entre si, que produz uma grande diversidade de relações de causa e efeito,
que precisam ser analisadas, compreendidas e controladas. Sem isso é absolutamente impossível
pensar-se em planejamento público ou privado. Neste contexto, o planejamento utiliza-se de
técnicas de tratamento e análise de dados, que facilitam a tomada de decisões, uma vez que
fornecem subsídios indispensáveis à formulação, implementação e avaliação de ações políticas,
mensurando o seu impacto sobre setores de educação, saúde, emprego, renda, bem estar social e
comércio de uma ampla e variada gama de bens e serviços que a sociedade moderna exige. Assim,
constantemente são estabelecidos cruzamentos de informações, e pesquisadas as correlações e
relações funcionais existentes, a fim de avaliar e controlar efeitos decorrentes de variáveis que
interagem entre si, a exemplo de: consumo e renda; peso e altura de um grupo de pessoas; gasto
com propaganda e volume de vendas; preço e demanda de um produto; custo total e quantidade de
insumos necessários para produzir um bem; taxa de juros e níveis de investimento e emprego;
intensidade de chuvas e volume de safras agrícolas, dentre inúmeras outras relações importantes.

66
A dependência funcional entre variáveis aleatórias é estudada por meio de duas técnicas
mutuamente relacionadas chamadas de correlação e de regressão. A análise de correlação é utilizada
para avaliar o grau de relacionamento entre duas ou mais variáveis. E a análise de regressão é
utilizada para estudar esse mesmo relacionamento mediante o ajustamento de uma curva ou função
matemática adequadamente escolhida, que pode ser de natureza linear, polinomial, exponencial, etc.
A determinação de uma função que se ajusta a um conjunto de pontos do plano é chamada técnica
de ajustamento.
Um problema crucial nessa área de estudo é o da identificação da relação funcional que

descreve o comportamento dos dados empíricos, ou seja, definir a tendência dos valores
observados.
Quando a relação é entre duas variáveis, a tendência dos dados é facilmente identificada por
meio do gráfico conhecido como diagrama de dispersão, em que os pares de valores x i e y i são
representados no plano, possibilitando definir a função que se ajusta à relação. Porém, se a relação
envolver mais de duas variáveis, pela dificuldade de representação no plano, a aderência da função
aos dados é avaliada por estatísticas que permitem testar a eficiência do ajustamento da função aos
valores da amostra que representa a relação. É um procedimento mais científico que utiliza
inferência estatística (análise de variância, testes de significância, etc). Neste caso, o coeficiente de
correlação e o coeficiente de determinação são indicadores eficientes da qualidade do ajustamento.
11.1 Correlação linear simples

Serve para avaliar o grau de relação linear entre duas variáveis, através de um índice
conhecido como coeficiente de correlação. Na população esse coeficiente é representado pela letra
grega ρ (rô) e na amostra pelo letra latina r (erre). Assim, o coeficiente r é um estimador de ρ na
amostra. A vantagem do coeficiente de correlação é que não é afetado pela medida das variáveis
envolvidas na relação, pois o seu valor é um número adimensional, de fácil interpretação, que varia
no intervalo de -1 a 1 ( − 1 ≤ r ≤ 1 ).
Não há correlação linear quando o coeficiente r é igual a zero. Quando todos os pontos
observados coincidem com a linha reta, tal que r = 1 ou r = -1, a correlação é perfeita, positiva ou
negativa, respectivamente, a depender da variação do sinal. O sinal de r indica o sentido da
correlação, ou seja, se é negativo há relação inversa entre as variáveis, denotando que a variação
numa delas causa efeito contrário em outra. Se r é positivo há relação direta entre as variáveis, de

67
forma que a variação de uma provoca efeito no mesmo sentido em outra, como ilustram os gráficos
a seguir.
Figura 11.1
Na prática procura-se maximizar o valor do coeficiente de correlação, selecionando

amostras que proporcionem coeficientes o mais próximo possível de ±1 . Alguns autores
costumam estabelecer intervalos a fim de facilitar a interpretação do coeficiente de correlação. Mas
essa regra não é rígida, pois varia de autor para autor, entre elas, eis um dos exemplos abaixo:
a) se 0 < | r | ≤ 0,30 a correlação é muito fraca ou desprezível, pelo que praticamente nada
se pode concluir sobre a relação;
b) se 0,30 < | r | ≤ 0,60 a correlação é relativamente fraca, isto é, a relação entre as variáveis
não é muito expressiva;
c) se 0,60 < | r | ≤ 0,99 a correlação é significativa, isto é, a relação entre as variáveis é

forte.
A fórmula básica para estimar o coeficiente de correlação linear entre X e Y é:
cov( x , y) ∑( x − x )( y − y)
r= r=
var( x ). var( y) → ∑( x − x ) 2 ∑( y − y) 2
O símbolo cov(x, y) significa covariância entre as variáveis aleatórias x e y; var(x) é a

variância da variável aleatória x; e var(y) é a variância da variável aleatória y.
Exemplo: Um órgão de pesquisa coletou os seguintes dados sobre consumo e renda de uma
região (em bilhões de unidades monetárias constantes), a fim de avaliar a correlação linear entre tais

68
variáveis, conforme quadro a seguir:
Quadro 11.1 - Amostra sobre Consumo e Renda Anual - Correlação linear simples pelo
método dos desvios em torno da média
Ano Renda (x) Consumo (y) x–4 (x – 4)² y–3 (y – 3)² (x – 4)(y – 3)
1999 3,2 2,1 -0,8 0,64 -0,9 0,81 0,72
2000 3,5 2,4 -0,5 0,25 -0,6 0,36 0,30
2001 3,7 2,7 -0,3 0,09 -0,3 0,09 0,09
2002 4,0 3,1 0,0 0,00 0,1 0,01 0,00
2003 4,2 3,3 0,2 0,04 0,3 0,09 0,06
2004 4,5 3,5 0,5 0,25 0,5 0,25 0,25
2005 4,9 3,9 0,9 0,81 0,9 0,81 0,81
Total 28,0 21,0 0,0 2,08 0,0 2,42 2,23
28 21
Cálculo das médias: x = =4 e y = = 3 . Então, com base nas somas obtidas no
7 7
quadro acima, segue-se o valor do coeficiente de correlação referente ao caso em estudo:
2,23 2,23 2,23
r= = = →r = 0,994
( 2,08 )( 2,42 ) 5,0336 2,2437
O valor de r indica que existe uma forte relação linear entre o consumo e a renda.
Existem outras fórmulas mais simples de operar, desenvolvidas a partir da fórmula original
vista acima, como a que se apresenta a seguir:
∑xy − ∑x ∑y / n
r=
[ ∑x 2 − ( ∑x ) 2 / n ][ ∑y 2 − ( ∑y) 2 / n ]
Então, o mesmo valor da estimativa de r para a relação entre o consumo e a renda, de modo
direto, sem precisar calcular os desvios de cada valor da variável em torno da sua média, é obtido a
partir dos somatórios elaborados no quadro adiante:
Quadro 11.2 – Cálculo do coeficiente de correlação linear pelo método direto

Ano Renda (x) Consumo (y) xy x² y²
1999 3,2 2,1 6,72 10,24 4,41
2000 3,5 2,4 8,40 12,25 5,76
2001 3,7 2,7 9,99 13,69 7,29
2002 4,0 3,1 12,40 16,00 9,61
2003 4,2 3,3 13,86 17,64 10,89
2004 4,5 3,5 15,75 20,25 12,25
2005 4,9 3,9 19,11 24,01 15,21
Total 28,0 21,0 86,23 114,08 65,42

69
∑ xy − ∑ x ∑ y / n 86 ,23 − 28 × 21 / 7
r= = = 0,994
[ ∑ x 2 − (∑ x ) 2 / n ][ ∑ y 2 − (∑ y) 2 / n ] [114 ,08 − 28 2 / 7][ 65 ,42 − 212 / 7]
Cabe advertir que um índice de correlação elevado não implica necessariamente em relação
de dependência entre duas variáveis, pois a relação entre as mesmas pode ser decorrente de mera
casualidade - e não de causalidade.
11.2 Regressão linear simples

Supõe-se que o relacionamento entre duas variáveis segue uma tendência linear, que pode
ser estudada através do modelo y = α + βx + ε , para a população como um todo.
Eis que na equação acima: Y é a variável dependente; X é a variável independente; os

coeficientes α e βsão parâmetros relativos uma característica da população; e o símbolo ε éo
erro aleatório – aquele que não é explicado pelo modelo adotado para estudar a relação entre X e Y.
Se a relação é proveniente de uma amostra, como é mais freqüente, a regressão é

representada pela equação da reta ŷ =a + bx . Esta equação é uma estimativa do modelo teórico
acima, em que os coeficientes “a” e “b” são estimadores dos parâmetros α e β.
A equação da reta indica que se há regressão linear de y sobre x, as variações absolutas em x

provocam variações absolutas em y.
Como já dito, um jeito prático de identificar a tendência de uma relação é através do

diagrama de dispersão, em que os valores de Y figuram em ordenada e os de X em abscissa,
formando cada par de valores x i e yi um ponto no plano. Se a amostra for grande é possível
verificar se a equação da reta é a melhor opção de ajustamento à nuvem de pontos distribuídos no
plano.
O diagrama a seguir mostra uma situação em que a nuvem de pontos, apesar dos
afastamentos, segue uma tendência linear:

70
Figura 11.2
11.2.1 O Método de mínimos quadrados

É um método utilizado para estimar os coeficientes da reta, mediante minimização da soma
dos quadrados dos desvios entre valores observados (y) e valores estimados pela reta ( ŷ ), por
meio da equação ∑ε 2 = ∑( y − ŷ) 2 , onde a diferença ε = y − ŷ simboliza o erro aleatório (não

explicado pela regressão).
A minimização de Σε2 gera um sistema de equações normais para calcular os coeficientes

da reta ŷ =a +bx , conforme instruções abaixo:
Em primeiro lugar, troca-se ŷ por a + bx na expressão Σ ( y −ŷ) 2 , tal que:
∑ε 2 = ∑( y −a −bx ) 2 .
Em segundo, deriva-se parcialmente ε 2 em relação aos coeficientes "a" e "b":
∂Σε 2
= 2Σ( y − a − bx )( −1) = - 2( Σy − na − bΣx )
∂a
∂Σε 2
= 2Σ( y − a − bx )( −x ) = −2( Σxy − aΣx − bΣx 2 )
∂b
Em terceiro, igualando-se as derivadas parciais a zero, observando as propriedades dos

somatórios e arrumando os termos, chega-se ao sistema de equações normais que minimiza ε 2 ,
pois a segunda derivada do quadrado do erro é também positiva:
− 2( Σy − na − bΣx ) = 0 → Σy = na + bΣx 2 (i)
− 2( Σxy − aΣx − bΣx 2 ) = 0 →Σxy = aΣx + bΣx 2 (ii)
Este sistema tem a seguinte solução para os coeficientes a e b:
Σy Σx ∑ xy − ∑ x ∑ y / n
a= −b e b=
n n ∑ x 2 − (∑ x ) 2 / n

71
Exemplo: Seja a relação entre consumo e renda, constante do quadro 11.2.1, cujo
coeficiente de correlação igual a 0,994 sugere uma forte relação linear entre essas duas
variáveis, indicando que o ajustamento da reta ŷ = a + bx amolda-se bem à série histórica.
Os somatórios apurados naquele quadro permitem determinar os valores dos coeficientes da
equação da reta do seguinte modo:
∑ xy − ∑ x ∑ y / n
b= →
∑ x 2 − (∑ x ) 2 / n
86,23 − 28 × 21 / 7 86 ,23 − 84 2,23

b= 2
= = → b = 1,07
114,08 - (28) / 7 114,08 - 112 2,08
Σy Σx 21 28
a= −b →a = −1,07 × → a = −1,28
n n 7 7
Afinal, a reta de regressão do consumo sobre a renda é ŷ =−1,28 +1,07 x .
A equação estimada sugere que quando a renda (x) aumenta de um bilhão de unidades
monetárias, o consumo (y) sofre um acréscimo médio de 1,07 bilhão de unidades monetárias.
Caso as autoridades projetassem um nível de renda anual de cinco bilhões de unidades

monetárias para a região em 2006, a estimativa do consumo no referido ano seria:
ŷ 2006 = −1,28 + 1,07 × 5 → ŷ 2006 = 4,07 bilhões.
O sistema de equações normais pode ser reduzido mediante a transformação x c = x − x .
Como o somatório dos desvios em torno da média é igual a zero, Σx c = Σ ( x − x ) = 0 , o

sistema de equações é simplificado para:
Σy
Σy = na → a = →a = y (i)
n
∑x c y
Σx c y = bΣx c2 → b = (ii)
∑ x c2
Agora, os coeficientes da reta de regressão vão ser estimados através do sistema reduzido
(centrado na média), com base nos somatórios elaborados no quadro seguinte:
Quadro 11.3 – Amostra sobre Consumo e Renda Anual – Regressão

linear simples – Sistema reduzido
Ano Renda (x) Consumo (y) xc = x − 4 x c2 xcy
1999 3,2 2,1 -0,8 0,64 -1,68

72
2000 3,5 2,4 -0,5 0,25 -1,20

2001 3,7 2,7 -0,3 0,09 -0,81
2002 4,0 3,1 0,0 0,00 0,00
2003 4,2 3,3 0,2 0,04 0,66
2004 4,5 3,5 0,5 0,25 1,75
2005 4,9 3,9 0,9 0,81 3,51
Total 28,0 21,0 0,0 2,08 2,33
Σy 21
a= = →a =3
n 7
∑ xcy 2,23
b= = → b = 1,07
∑ x c2 2,08
Assim, a equação da reta centrada na média de X é ŷ = 3 +1,07 x c . Para recuperar os
valores originais de X, basta apenas trocar x c por x − 4 na equação de ŷ, como segue:
ŷ = 3 +1,07 ( x − 4) = 3 +1,07 x − 4,28 →ŷ = −1,28 +1,07 x .
11.2.2 Coeficiente de explicação

É uma medida da qualidade do ajustamento da função aos dados. É também conhecido
como coeficiente de determinação e é simbolizado por r 2 . Representa a variação total da variável
y (dependente) que é explicada pela variável x (dependente), através do modelo de regressão.
O coeficiente r 2 varia entre 0 e 1, ou seja, 0 ≤ r 2 ≤ 1 . Se r 2 = 0 , o modelo de

regressão nada explica sobre a relação entre as variáveis X e Y. Se r 2 = 1 , o poder de
explicação é de 100%, indicando que há um relacionamento perfeito entre X e Y, tal que
todos os valores observados estão sobre a reta ou curva. O poder de explicação de r 2
diminui à medida que o seu valor se afasta da unidade.
Calcula-se r 2 através da relação entre a variação explicada (VE) e a variação total (VT),
ou ainda por intermédio da relação complementar, na qual a relação entre a variação residual (VR) e
a total (VT) é subtraída da unidade, como ilustram as fórmulas seguintes:
VE ∑( ŷ − y) 2 VR ∑( y − ŷ) 2
r2 = = 2
ou r = 1 − =1 − , que vale para qualquer tipo
VT ∑( y − y) 2 VT ∑( y − y) 2
ajustamento, inclusive de funções não lineares.
Exemplo: Eis o cálculo de r2 para a relação consumo e renda, com base nas somas do

73
quadro abaixo.
Quadro 11.4 - Consumo e Renda Anual - Cálculo do coeficiente de explicação

Ano Renda (x) Consumo (y) y- 3 (y-3)² ŷ (y - ŷ ) (y - ŷ )2
1993 3,2 2,1 -0,9 0,81 2,14 -0,04 0,0016
1994 3,5 2,4 -0,6 0,36 2,46 -0,06 0,0036
1995 3,7 2,7 -0,3 0,09 2,68 0,02 0,0004
1996 4,0 3,1 0,1 0,01 3,00 0,10 0,0100
1997 4,2 3,3 0,3 0,09 3,21 0,09 0,0081
1998 4,5 3,5 0,5 0,25 3,54 -0,04 0,0016
1999 4,9 3,9 0,9 0,81 3,96 -0,06 0,0036
Total 28,0 21,0 2,42 21,00 0,0289
∑( y − ŷ) 2 0,0289
r 2 =1 − 2
=1 − = 1 − 0,0119 → r 2 = 0,988
∑( y − y) 2,42
O resultado acima informa que 98,8% da variação do consumo é explicada pela variação da
renda, ou seja, a regressão linear tem um alto poder de explicação sobre a variação da relação
consumo/renda.
Vale ressaltar que a raiz quadrada de r 2 é uma estimativa do coeficiente de correlação r,

ou vice-versa, senão vejamos: r = 0,998 =0,994 .
ANEXOS
Tabela I – Distribuição normal padronizada
O valor de cada casa da tabela indica a proporção da área total sob a curva normal entre z = 0 e
um valor positivo de z. As áreas para os valores negativos de z são conseguidas por simetria.
Por exemplo, a área sob a curva entre z = 0 e z = 1 corresponde a 0,3413, que é o mesmo valor
da área compreendida entre z = 0 e z = -1.
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

74
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
Tabela II – Distribuição t de Student

Nível de significância (α ) para teste bilateral em
face do número de graus de liberdade (ν = n -1).
α
0,25 0,20 0,10 0,05 0,025 0,01
ν
1 2,4142 3,0777 6,3138 12,706 35,542 63,657
2 1,6036 1,8856 2,9200 4,3127 6,2053 9,9248

75
3 1,4226 1,6377 2,3534 3,1825 4,1765 5,8409

4 1,3444 1,5332 2,1318 2,7764 3,4954 4,6041
5 1,3009 1,4759 2,0150 2,5706 3,1634 4,0321
6 1,2733 1,4398 1,9432 2,4469 2,9687 3,7074
7 1,2543 1,4149 1,8946 2,3646 2,8412 3,4995
8 1,2403 1,3968 1,8595 2,3060 2,7515 3,3554
9 1,2297 1,3830 1,8331 2,2622 2,6850 3,2498
10 1,2213 1,3722 1,8125 2,2281 2,6338 3,1693
11 1,2145 1,3634 1,7959 2,2010 2,5931 3,1058
12 1,2089 1,3562 1,7823 2,1788 2,5600 3,9545
13 1,2041 1,3502 1,7709 2,1604 2,5326 3,0123
14 1,2001 1,3450 1,7613 2,1448 2,5096 2,9768
15 1,1967 1,3406 1,7530 2,1315 2,4899 2,9467
16 1,1937 1,3368 1,7459 2,1199 2,4729 2,9208
17 1,1910 1,3334 1,7396 2,1098 2,4581 2,8982
18 1,1887 1,3304 1,7341 2,1009 2,4450 2,8784
19 1,1866 1,3287 1,7291 2,0930 2,4334 2,8609
20 1,1848 1,3253 1,7247 2,0860 2,4231 2,8453
21 1,1831 1,3232 1,7207 2,0796 2,4138 2,8314
22 1,1816 1,3212 1,7171 2,0739 2,4055 2,8188
23 1,1802 1,3195 1,7139 2,0687 2,3979 2,8073
24 1,1789 1,3178 1,7109 2,0639 2,3910 2,7969
25 1,1777 1,3163 1,7081 2,0595 2,3846 2,7874
26 1,1766 1,3150 1,7056 2,0555 2,3788 2,7787
27 1,1757 1,3117 1,7033 2,0518 2,3734 2,7707
28 1,1748 1,3125 1,7011 2,0484 2,3685 2,7633
29 1,1739 1,3114 1,6991 2,0452 2,3638 2,7564
30 1,1731 1,3104 1,6973 2,0423 2,3596 2,7500
40 1,1673 1,3031 1,6839 2,0211 2,3289 2,7045
60 1,1616 1,2958 1,6707 2,0003 2,2991 2,6603
120 1,1559 1,2890 1,6577 1,9799 2,2699 2,6174
+∞ 1,1503 1,2820 1,6449 1,9600 2,2414 2,5758

Introdução à Teoria da Probabilidade

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Introdução à Teoria da Probabilidade

Uploaded by

Copyright:

Available Formats

6

6.2 Experimento aleatório

E2: lançar uma moeda e verificar a seqüência de cara e coroa;

E3: retirar cartas de um baralho e verificar as figuras;

Embora os resultados dos experimentos retromencionados se pareçam absolutamente acidentais,

6.3 Espaço amostral

a) lançamento de um dado: S1 = {1, 2, 3, 4, 5, 6};

b) lançamento de uma moeda: S2 = {cara, coroa};

c) retirada de uma carta de um baralho: S3 = {as 52 cartas};

processo: S 4 = {0, 1, 2, 3, ..., n} ;

Os exemplos vistos nas letras a, b, c e d são de espaços amostrais finitos numeráveis e o da

Prof. Gilberto S. Gramacho, UEFS, 29/09/2006.

Qualquer subconjunto do espaço amostral S é chamado de evento. Se um evento tem apenas um

Quadro 6.1 – Eventos relativos ao

Seqüências X = número de caras

Outrossim, quando o experimento consiste no lançamento de um dado o número de casos

Para um S finito ou infinito numerável, constituído de n elementos, existem 2 n

a) Evento impossível: É uma situação impossível de acontecer na realização de determinado

Prof. Gilberto S. Gramacho, UEFS, 29/09/2006.

6.4.1 Operações com eventos

Dados os eventos A e B, definidos em S, é possível obter novos eventos através das

a) União de eventos: Sejam os eventos A e B contidos em S. A união de A com B é dada

b) Interseção de eventos: Sejam A e B dois eventos definidos em S. A interseção de A com

notação A ∩ B (lê-se A inter B), ou pelo símbolo A∩ B= {x∈ S/ x∈ A x∈ B}

c) Complementação de eventos: Seja um evento A contido em S ( A ⊂ S ). O

d) Inclusão de eventos: Sejam A e B dois eventos associados ao espaço amostral S. Diz-se

O diagrama de Venn-Euller dá uma boa idéia dessa combinação de eventos, como se

Prof. Gilberto S. Gramacho, UEFS, 29/09/2006.

Figura 6.1 Diagramas de Venn-Euller

Figura 6.2 Diagrama de Venn para A ∩ B = Φ

Apresentam-se abaixo algumas propriedades decorrentes de complementação, união e

a) Absorção: A ∪( A ∩B) = A e A ∩( A ∪B) = A .

b) Associativa: ( A ∩B) ∩C = A ∩( B ∩C) e ( A ∪B) ∪C = A ∪( B ∪C) .

e) Distributiva: A ∪(B ∩C) = ( A ∪B) ∩(A ∪C) e A ∩( B ∪C) = ( A ∩B) ∪( A ∩C) .

Exemplo: É possível simular os eventos abaixo, com os números referentes ao jogo de um

a) A = {número par} = {2, 4, 6};

b) B = {número primo} = {2, 3, 5};

b) C = {número ímpar} = {1, 3, 5};

c) D = {n° inteiro positivo} = {1, 2, 3, 4, 5, 6} → D = S (evento certo);

d) E = {número menor que a unidade}→ E ={} = Φ (evento impossível);

Prof. Gilberto S. Gramacho, UEFS, 29/09/2006.

e) A ∪ B = {número par ou primo} = {2, 3, 4, 5, 6};

f) A ∩ B = {número par e primo} = {2};

g) A ={número não par}= {1, 3, 5};

i) A ∪B ={nem par nem primo} = {1};

j) A ∪B = A ∩B = {n° que não seja par ou não primo} = {1, 3, 4, 5, 6};

m) C ={número não ímpar} = {2, 4, 6};

n) C = C ={inverso de um n° não ímpar}={número ímpar} = {1, 3, 5}.

6.5 Cálculo de probabilidades

n (A) número de casos favoráveis em A

Porém, o conceito clássico não é considerado definição geral de probabilidade, pois só se

Prof. Gilberto S. Gramacho, UEFS, 29/09/2006.

6.5.2 Definição freqüêncial

Teoricamente, a probabilidade de um evento A é o limite da freqüência relativa quando o

Quando n é grande, o ponto de estabilização da freqüência relativa funciona como

Figura 6.3 Regularidade da freqüência relativa f ri

Como se observa na figura anterior, a probabilidade de um evento é um número positivo e

Observe-se que se o experimento consiste no lançamento de duas moedas viciadas, não há

Prof. Gilberto S. Gramacho, UEFS, 29/09/2006.

E lembrando que, por definição, Σ p = 1, pode obter-se o valor de p do seguinte modo:

6.5.3 Definição axiomática

Prof. Gilberto S. Gramacho, UEFS, 29/09/2006.

6.5.4 Definição subjetiva