Professional Documents
Culture Documents
Probabilidade e Estatística
Índice
1 Introdução _____________________________________________________1
1.1 Amostragem ________________________________________________________ 2
1.2 Tipos de variáveis ____________________________________________________ 4
2 Séries estatísticas _______________________________________________5
3 Gráficos _______________________________________________________6
4 Distribuições de freqüências ______________________________________12
4.1 Construção de distribuição de freqüência para dados contínuos ______________ 12
4.2 Gráficos das distribuições de freqüência _________________________________ 13
4.3 Construção de distribuição de freqüência para dados discretos ______________ 15
4.4 Construção de uma distribuição de freqüência acumulada___________________ 17
4.5 Distribuições de freqüência para dados nominais e por postos _______________ 18
4.6 Gráficos para distribuições de freqüência ________________________________ 19
5 Medidas de tendência central _____________________________________20
5.1 Média _____________________________________________________________ 20
5.2 Mediana ___________________________________________________________ 23
5.3 Moda _____________________________________________________________ 25
5.4 Relação entre as medidas de tendência central ___________________________ 26
6 Medidas de variabilidade ________________________________________28
6.1 Amplitude _________________________________________________________ 28
6.2 Variância __________________________________________________________ 29
6.3 Desvio padrão ______________________________________________________ 29
6.4 Coeficiente de variação ______________________________________________ 30
7 Medidas de assimetria e curtose __________________________________31
8 Introdução à probabilidade_______________________________________33
8.1 Experimento aleatório _______________________________________________ 33
8.2 Espaço amostral ____________________________________________________ 34
8.3 Eventos ___________________________________________________________ 34
8.4 A probabilidade de um evento _________________________________________ 34
8.5 Cálculo das probabilidades ____________________________________________ 37
9 Distribuições de probabilidade ____________________________________43
10 Teoria elementar da amostragem ________________________________56
10.1 Amostragem com e sem reposição ____________________________________ 56
10.2 Distribuições amostrais _____________________________________________ 56
Estuda-se estatística para aplicar seus conceitos como auxílio nas tomadas de decisão
diante de incertezas, justificando cientificamente as decisões.
Os princípios estatísticos são utilizados em uma grande variedade de situações – no
governo, nos negócios e na indústria, bem como no âmbito das ciências sociais, biológicas
e físicas.
Estatística é a ciência ou método científico que estuda os fenômenos multicausais,
coletivos ou de massa e procura inferir as leis que os mesmos obedecem.
Método estatístico é um processo para se obter, apresentar e analisar características ou
valores numéricos para uma melhor tomada de decisão em situações de incerteza. Os
passos da metodologia estatística são os seguintes:
• Definição cuidadosa do problema
• Formulação de um plano para coleta das unidades de observação
• Coleta, resumo e apresentação das unidades de observação ou de seus valores
numéricos
• Análise dos resultados
• Divulgação de relatório com as conclusões, de tal modo que estas sejam facilmente
entendidas por quem as for usar na tomada de decisões.
Com maior freqüência utilizamos o estudo da amostra do que da população, não só por
serem menos dispendiosas e consumirem menos tempo no processamento dos dados, mas
também porque muitas vezes não dispomos de todos os elementos da população.
Exemplo:
População Amostra
1.1 Amostragem
O objetivo da amostragem é permitir fazer inferências sobre uma população após inspeção
de apenas parte dela. Fatores como custo, tempo, ensaios destrutivos e populações
infinitas tornam a amostragem preferível a um estudo completo (censo).
Os principais tipos de amostragem utilizados são os probabilísticos, onde todos os
indivíduos da população têm a mesma chance de serem selecionados. Os planos de
amostragem probabilística são delineados de tal modo que se conhece todas as
combinações amostrais possíveis e suas probabilidades, podendo-se então determinar o
erro amostral.
Os métodos mais comuns de amostragem probabilística são:
• Amostragem aleatória simples: os elementos de uma população são escolhidos de
tal forma que todos tenham a mesma chance de serem escolhidos. Pode-se utilizar
uma tabela de números aleatórios ou um programa de geração de números
aleatórios.
• Amostragem estratificada: subdivide-se a população em, no mínimo, dois estratos
(subpopulações) que compartilham a mesma característica e em seguida escolhe-se
uma amostra de cada. Exemplo: homens e mulheres.
• Amostragem sistemática: escolhe-se um ponto de partida e então,
sistematicamente, selecionam-se os outros. Por exemplo: o 3°, 403°, 803°,
1203°,... indivíduos
Variáveis
Quantitativas Qualitativas
Discretas Contínuas
Exercícios:
Identifique cada número como discreto ou contínuo
1. Cada cigarro Camel tem 16,13 mg de alcatrão
2. O altímetro de um avião da American Airlines indica uma altitude de 21.359 pés
3. Uma pesquisa efetuada com 1015 pessoas indica que 40 delas são assinante de um
serviço de informação on-line.
4. O tempo total gasto anualmente por um motorista de táxi de Nova York ao dar
passagem a pedestres é de 2367 segundos.
Séries geográficas
Os dados estão reunidos de acordo com o local, que varia. Os outros dois fatores - fato e
data - permanecem inalterados.
As séries podem ainda apresentar-se sob a forma mista, resultante da combinação dos
fatores.
3 Gráficos
Os gráficos consistem em uma forma de apresentação dos dados, usualmente utilizada
pois facilita a interpretação dos resultados.
São elementos complementares de um gráfico:
• Título geral, época e local
• Escalas e respectivas unidades de medida
• Indicação das convenções adotadas (legenda)
• Fonte de informação dos dados
Colunas
Um gráfico de colunas mostra as alterações
de dados em um período de tempo ou
ilustra comparações entre itens. As
categorias são organizadas na horizontal e
os valores são distribuídos na vertical, para
enfatizar as variações ao longo do tempo.
Barras
Um gráfico de barras ilustra comparações
entre itens individuais. As categorias são
organizadas na vertical e os valores na
horizontal para enfocar valores de
comparação.
Pizza
Um gráfico de pizza mostra o tamanho
proporcional de itens que constituem uma série
de dados para a soma dos itens. Ele sempre
mostra somente uma única série de dados, sendo
útil quando você deseja dar ênfase a um
elemento importante.
Totaliza a informação (100%). Cada faixa do
gráfico é proporcional à informação.
freqüências. 0.30
0.25
% das árvores
0.20
Apresenta as classes ao longo do eixo 0.15
horizontal e as freqüências (absolutas ou 0.10
0.05
relativas) ao longo do eixo vertical. As 0.00
3a8 8 a 13 13 a 18 18 a 23 23 a 28 28 a 33
fronteiras das “barras” coincidem com os Safras (alq.)
pontos extremos dos intervalos de classe.
Área
Um gráfico de área enfatiza a
dimensão das mudanças ao longo do
tempo. Exibindo a soma dos valores
plotados, o gráfico de área mostra
também o relacionamento das partes
com um todo.
Nesse exemplo, o gráfico de área
enfatiza o aumento das vendas em
Washington e ilustra a contribuição
de cada estado para o total das
vendas.
Superfície
Um gráfico de superfície é útil quando
você deseja localizar combinações
vantajosas entre dois conjuntos de dados.
Como em um mapa topográfico, as cores e
os padrões indicam áreas que estão no
mesmo intervalo de valores.
Esse gráfico mostra as várias combinações
de temperatura e tempo que resultam na
mesma medida de resistência à tração.
Ações
O gráfico de alta-baixa-fechamento é usado muitas vezes para ilustrar preços de ações.
Esse gráfico também pode ser usado com dados científicos para, por exemplo, indicar
mudanças de temperatura. Você deve organizar seus dados na ordem correta para criar
esse e outros gráficos de ações.
Um gráfico de ações que mede o volume tem dois eixos de valores: um para as colunas,
que medem o volume, e outro para os preços das ações. Você pode incluir volume em um
gráfico de alta-baixa-fechamento ou de abertura-alta-baixa-fechamento.
O gráfico nesse exemplo mostra que a Empresa A tem a maioria dos produtos e a maior
fatia do mercado, mas não necessariamente as melhores vendas.
Rosca
Como um gráfico de pizza, o gráfico de
rosca mostra o relacionamento das partes
com o todo, mas pode conter mais de uma
série de dados. Cada anel do gráfico de
rosca representa uma série de dados.
Exemplo:
Os dados a seguir representam o tempo (em minutos) que 45 operadores de máquina
demoraram para fazer o setup de uma máquina.
6,5 4,0 7,1 8,3 5,4 7,6 9,0 15,7 16,7
6,4 5,0 8,5 5,7 7,7 7,2 12,4 7,1 5,5
9,7 4,4 7,0 6,3 8,3 6,9 5,7 7,6 7,9
7,9 6,0 8,2 10,4 9,9 3,9 9,8 8,2 5,6
7,9 6,4 7,4 7,0 13,0 8,7 6,4 6,7 7,4
Tempo Número de % de
(minutos) operadores operadores
3 –| 5 equivale a 3 < x ≤ 5
3 –| 5 4 8,9% Ou seja, são contados no
intervalo todos os valores
5 –| 7 15 33,3%
superiores a 3 e inferiores ou
7 –| 9 18 40,0% iguais a 5.
9 –| 11 4 8,9%
11 –| 13 2 4,4%
13 –| 15 0 0,0%
15 –| 17 2 4,4%
Total 45 100%
20 18
18
15
Número de operadores
16
14
12
10
8
6 4 4
4 2 2
2 0
0
3 –| 5 5 –| 7 7 –| 9 9 –| 11 11 –| 13 13 –| 15 15 –| 17
Tempo (minutos)
20
18 18
Número de operadores 16
15
14
12
10
8
6
4 4 4
2 2 2
0 0
3 –| 5 5 –| 7 7 –| 9 9 –| 11 11 –| 13 13 –| 15 15 –| 17
Tempo (minutos)
OBS: uma vez que a área do polígono deve ser 100%, deve-se ligar o primeiro e o último
pontos médios com o eixo horizontal, de modo a cercar a área da distribuição observada.
Exercícios:
1. A tabela de dados representa o peso de 30 sacos de arroz da marca A selecionados
aleatoriamente em um supermercado. Construa a distribuição de freqüências e
apresente em um gráfico. (para facilitar os dados já estão ordenados)
922 930 936 950 954 954 958 965 968 974
977 979 987 989 1001 1006 1008 1010 1013 1017
1018 1034 1034 1035 1042 1044 1044 1048 1070 1116
8,8 8,3 11,8 11,8 14,7 8,5 7,7 11,4 11,2 10,6
5 4 5 3 4 5 6 0 8 4
4 1 9 5 7 5 5 4 5 8
4 5 3 2 6 7 4 3 1 4
0 0 5 4 2 6 6 2 8 7
Freqüência % dos
Classe
dias dias
0 3 0,06
12
1 3 0,06
10
2 4 0,08
Número de dias
8
3 5 0,10
6
4 10 0,20
4
5 10 0,20
2
6 6 0,12
0
7 4 0,08 0 1 2 3 4 5 6 7 8 9
8 3 0,06
9 2 0,04
50 1,00
Não houve perda de informação, ou seja, poderíamos construir a tabela original a partir da
distribuição de freqüências.
Freqüência % dos
Classe dias dias
25
0-1 6 0,12
20
Número de dias
2-3 9 0,18 15
4-5 20 0,40 10
5
6-7 10 0,20
0
8-9 5 0,10 0-1 2-3 4-5 6-7 8-9
50 1,00
Por outro lado, prefere-se uma distribuição de freqüência com perda da informação
quando:
• Estão em jogo inteiros e não inteiros
• Só existem inteiros, porém em número muito alto para permitir uma distribuição
útil.
• A perda da informação é de importância secundária (por exemplo, o
arredondamento do peso de um caminhão ou da renda anual para a unidade mais
próxima)
Freqüências
Classe N° dias % dias
acumuladas
0 3 0,06 0,06
1 3 0,06 0,12
2 4 0,08 0,20
3 5 0,10 0,30
4 10 0,20 0,50
5 10 0,20 0,70
6 6 0,12 0,82
7 4 0,08 0,90
8 3 0,06 0,96
9 2 0,04 1,00
50 1,00
Freqüências
Classe N° dias % dias
acumuladas
50 1,00
Podemos, pela primeira tabela, concluir que 90% dos dados correspondem a valores
menores ou iguais a 7. ou seja, Em 90% dos dias o número de acidentes não excede 7.
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0.0 0.0
0 1 2 3 4 5 6 7 8 9 0-1 2-3 4-5 6-7 8-9
1,0
0,8
% dos dias
0,6
0,4
0,2
0,0
0 1 2 3 4 5 6 7 8 9
N. acidentes
Vendas Vendas
absolutas relativas
Distribuições discretas
Exercício:
Construa a distribuição de freqüência e desenhe o histograma dos dados a seguir. Qual é
o formato da distribuição?
20,7 18,7 26,2 21,7 18,8 20,6 20,7 20,2
18,5 21,3 19,3 18,3 25,1 18,8 24,3 28,4
23,3 25,3 20,4 18,3 24,0 21,2 19,4 20,6
18,9 26,6 22,4 18,9 22,6 21,4 27,0 23,6
28,3 20,3 21,7 18,2 20,3 19,2 24,7 18,4
5.1 Média
∑x
i =1
i
∑x
x= ou simplesmente x =
n n
n
OBS: x lê-se X barra e significa média. ∑x
i =1
i lê-se somatório de x i , i variando de 1 a n.
∑x
i =1
i = x1 + x 2 + ... + x n
Se um estudante faz quatro provas, obtendo as notas 70, 60, 80 e 75, sua média é: 71,25.
A fórmula anterior para calcular a média aritmética supõe que cada observação tenha a
mesma importância. A média ponderada considera que as informações não tem a mesma
importância, ou seja, devem ser levados em conta o peso das informações.
∑w xi =1
i i
Média ponderada = n
∑w
i =1
i
Consideremos que um professor informe a classe de que haverá dois exames parciais,
valendo cada um 30% da nota e um exame final valendo 40%. Um aluno obtém
desempenho 70 na primeira avaliação, 65 na segunda e 80 no exame final.
n
∑wx
i =1
i i
70x 0,30 + 65x 0,30 + 80x 0,40
Média ponderada = n
= = 72,50
1,00
∑w
i =1
i
A média geométrica é utilizada quando se deseja fazer a média de taxas de juro, por
exemplo. Neste caso, multiplicam-se os n termos e em seguida extraí-se a raiz de ordem
n.
A média geométrica é o resultado da raiz de ordem n do produto de todos os valores da
amostra.
n
Média geométrica = n
∏x i =1
i
n
OBS: ∏x
i =1
i = x1x 2 x 3...x n lê-se produtório de x i , i variando de 1 a n.
x =
∑ fx i i
Exemplo:
Ponto médio
Classe N° dias (f i ) f i xi
(x i )
n = 50 223
5.2 Mediana
A principal característica da mediana é dividir o conjunto de números em dois grupos
iguais: a metade terá valores inferiores ou iguais à mediana e a metade terá valores
superiores ou iguais à mediana.
Para calcular a mediana inicia-se ordenando os valores em ordem crescente. Em seguida
conta-se até a metade deles. Em geral a mediana ocupa a posição (n+1)/2.
Para número ímpar de valores a mediana é o valor do meio. Para amostras com número
par de unidades, a mediana é a média dos dois valores centrais.
Exemplos:
Amostra Número de elementos Dados ordenados Mediana
2 3 34 25 14 5 9 elementos ímpar 1 2 23 3 4 45 5 3
3 4 23 15 32
6 7 32 52 36 21
LI Q1 Q 2 =mediana Q3 LS
Da mesma forma que para dados apresentados em série, a mediana é o ponto que divide
as informações ao meio.
n
− ( ∑ f )1
Mediana = L1 + 2 c
f mediana
onde: L 1 = limite inferior da classe mediana, isso é, da classe que contém a mediana
n = número de itens dos dados (freqüência total)
( Σ f) 1 =soma de todas as freqüências das classes anteriores à mediana
f mediana = freqüência da classe mediana
c = amplitude do intervalo da classe mediana
Exemplo:
No caso dos acidentes, temos 50 observações, logo a mediana deve estar localizada na
posição (50+1)/2 = 25,5, ou seja, a classe que contém a mediana é a classe 4-5.
O limite inferior da classe mediana é 4. Antes da classe mediana (( Σ f) 1 ) haviam “passado”
15 dados. A classe mediana contém 20 observações e a amplitude da classe mediana é 1.
Então
50
− 15
Mediana = 4 + 2 x1 = 4 + 0,5 = 4,5
20
Exemplo:
A moda do conjunto 2 3 4 3 2 3 5 1 2 é 3, pois o três é o valor que mais vezes aparece.
Quando não há perda da informação, a moda é idêntica ao valor da classe modal, que é a
classe com maior freqüência.
Quando há perda da informação, a moda representa o(s) valor(es) de X
correspondente(m) ao(s) ponto(s) de ordenada(s) máxima(s) da curva e pode ser
calculada pela fórmula:
∆1
Moda = L 1 + c
∆1 + ∆ 2
onde: L 1 =limite inferior da classe modal (isto é, a classe que contém a moda)
∆ 1 =excesso da freqüência modal sobre a da classe imediatamente anterior
Exemplo:
No caso dos acidentes....
Classe N° dias (f i )
0-1 6 Classe modal
2-3 9
4-5 20
6-7 10
8-9 5
n = 50
11
Moda = 4 + 1 = 4 + 0 ,52 = 4 ,52
11 + 10
Moda
Moda
Mediana Moda
Mediana
Média Mediana
Média
Média
Exercícios:
1. Para os seguintes conjuntos de dados, determine os valores da média aritmética,
média geométrica, média harmônica, mediana e moda.
a) 12 15 16 15 12 15 15 5 7 14
b) 2 6 3 6 3 3 4
c) 2 8 3 10 2 1 6 9 4 3
d) 38 38 70 92 22 17
8 19 7 6 12 17 16 9 20
16 14 3 12 4 9 8 3 16
b) 4 12 4 7 4 9 11 12 5 8 9 4
4. João possui 5 imóveis localizados nesta cidade. Ele deseja saber qual o valor
médio, por metro quadrado, das suas propriedades. Sabendo que imóveis no centro
valem R$ 450,00/m 2 e imóveis em bairros valem R$ 300,00/m 2 , calcule o valor
médio por m 2 do seu capital.
Apartamento de 80 m 2 no centro
Pavilhão de 450 m 2 no bairro
Casa de 280 m 2 no centro
Apartamento de 120 m 2 no bairro
Casa de 320 m 2 no bairro
Pequena variabilidade
Grande variabilidade
Exemplo:
Duas máquinas estão sendo comparadas. A seguir está descrita a produção de cada uma
durante 5 dias.
Produção Média
Máq 1 10 10 10 10 10 10
Máq 2 5 18 8 3 16 10
Você acha que a programação da produção para as duas máquinas pode ser a mesma
durante 1 semana? Por quê?
6.1 Amplitude
Também conhecida como intervalo.
A amplitude de um grupo de dados é, de modo geral, mais simples de calcular e de
entender. Consiste na diferença entre o maior e o menor valor, ou seja, entre os valores
extremos.
Exemplo:
1. Calcule a amplitude dos seguintes conjuntos de dados. Você acha que a dispersão
dos conjuntos é igual?
a) 15 15 12 14 16 16 4 15
b) 5 4 5 4 6 5 16 4
6.2 Variância
Calcula-se a variância de uma amostra elevando-se as diferenças de cada um dos valores
em relação à média, somando-se estas diferenças e dividindo-se por n-1.
s 2
=
∑ (x i − x)2
x
n −1
Exemplo:
Cálculo da variância do conjunto de dados 2,4,6,8, e 10.
xi x xi − x ( xi − x )2
2 6 -4 16
4 6 -2 4
6 6 0 0 s 2
=
∑ (x i − x)2
=
40
= 10
x
n −1 5 −1
8 6 2 4
10 6 4 16
Somas 0 40
Exemplo:
Cálculo do desvio padrão do conjunto de dados 20, 5, 10, 15 e 25.
Usando a fórmula normal:
xi x xi − x ( xi − x )2
20 15 5 25
5 15 -10 100
sx =
∑ (x i − x)2
=
250
= 62,5 = 7,91
10 15 -5 25 n −1 5 −1
15 15 0 0
25 15 10 100
Somas 0 250
∑x i = 20 + 5 + 10 + 15 + 25 = 75
∑x 2
i = 202 + 52 + 102 + 152 + 252 = 1375
∑ i
x( )
2
∑ x −2
i
n 1375 − 75
2
= 5 = 250
sx = = 7,91
n −1 5 −1 5 −1
O coeficiente de variação é dado pelo quociente entre o desvio padrão e a média dos
dados.
Exemplo:
Entre os conjuntos de dados a seguir apresentados, qual apresenta maior variabilidade?
Conjunto A Conjunto B
12 3
25 4
16 5
23 2
Desvio Padrão A 6,06
Solução: CVA = = = 0,3187
MédiaA 19
Desvio Padrão B 1,29
CVB = = = 0,3688
MédiaB 3,5
Então o conjunto que possui maior variabilidade é o conjunto B.
Exercícios:
1. O desvio padrão pode ser zero? Explique. Pode ser negativo? Explique.
n(n + 1) x i − x
4
3(n − 1) 2
Curtose =
(n − 1)(n − 2)(n − 3)
∑ s (n − 2)(n − 3)
−
8.3 Eventos
Chama-se de evento qualquer subconjunto do espaço amostral S de um experimento
aleatório, ou seja, qualquer resultado do espaço amostral.
n(A) é o número de resultados associados ao evento A.
Exemplo:
Experimento: lançar um dado e observar a face superior
Espaço amostral: S={1,2,3,4,5,6} n(S)=6
Evento A: face par n(A)=3
P(A)= 3/6 = ½ = 0,5 ou 50%
OBS: existe uma pequena diferença entre probabilidade e chance de um evento. A probabilidade
relaciona o número de resultados de A com o número de resultados total, enquanto que chance
compara o número de resultados de A com o número de resultados de outro evento (B ou C).
E a chance de selecionar uma bola branca é 5:5, que é semelhante a 1:1, o que significa que existe a
mesma chance de retirar uma bola branca ou uma bola de outra cor.
Exercícios:
1. Escreva o espaço amostral no lançamento de um dado. Ache a probabilidade
associada a cada evento.
7. Um motor tem 6 velas, e uma está defeituosa, devendo ser substituída. Duas estão
em posição de difícil acesso, o que torna difícil a substituição.
a) Qual a probabilidade de a vela defeituosa estar em posição difícil?
b) Qual a de não estar em posição difícil?
9. Uma pesquisa de tráfego levada a efeito das 5 às 6 horas da manhã num trecho de
uma rodovia federal revelou que, de 200 carros que pararam para uma verificação
rotineira de segurança, 25 tinham pneus em más condições. Estime a probabilidade
de um carro que pare naquele trecho ter seus pneus em boas condições
A B
Quando os eventos são mutuamente excludentes (não tem elementos em comum), então a
probabilidade de ambos é nula e o termo P(A e B) será zero.
OBS: Para apresentar os eventos utilizam-se os Diagramas de Venn [apresentados por John Venn
(1834-1923)], que representam os espaços amostrais e os eventos como círculos, quadrados, ou outra
figura geométrica conveniente.
Exercícios:
1. Numa urna existem 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso.
Qual a probabilidade do número ser par ou maior que 4?
2. Numa urna existem 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso.
Qual a probabilidade do número ser um número primo ou maior que 8?
A B
Exemplo 1: Deve-se inspecionar uma grande caixa de peças. Os registros indicam que 2%
das caixas acusam conteúdo inferior ao estipulado. Escolhidas duas caixas aleatoriamente,
qual a probabilidade de ambas acusarem conteúdo inferior, admitindo-se que a remessa
inspecionada é semelhante as anteriores (isto é, 2% de deficientes)?
P(ambas deficientes)=P(deficiente)P(deficiente)
=0,02 x 0,02
=0,0004 ou seja, 0,04% de probabilidade das caixas serem defeituosas.
Exemplo 2: Suponha que 20 canetas estão expostas numa papelaria. Seis são vermelhas e
14 azuis. Do conjunto de 20, iremos escolher 2 canetas aleatoriamente. Qual a
probabilidade de que as duas canetas selecionadas sejam vermelhas?
Neste caso os eventos não são independentes, pois a cor da primeira caneta
selecionada vai determinar a probabilidade da segunda caneta ser vermelha.
Seja A=a segunda caneta selecionada é vermelha
B=a primeira caneta selecionada é vermelha
5 6 30
Desejamos P(A e B) = P(A|B) P(B) = = = 0,0789
19 20 380
Exercícios
1. Uma urna contém 6 bolas vermelhas e 4 azuis. Em duas bolas consecutivas, sem
reposição, determine a probabilidade de retirar a primeira azul e a segunda
vermelha.
2. Uma urna contém 6 bolas vermelhas e 4 azuis. Em duas bolas consecutivas, com
reposição, determine a probabilidade de retirar a primeira azul e a segunda
vermelha.
6. Uma urna contém 50 bolas numeradas de 1 a 50. Serão selecionadas 5 bolas, sem
reposição. Qual a probabilidade de que uma pessoa que tenha feito um jogo
anotando os 5 número acerte todos?
CC de viagem e entretenimento
Totais
Sim Não
Sim 60 60 120
CC bancário
Não 15 65 80
Relembrando: uma variável aleatória é uma função com valores numéricos, cujos
valores são determinados por fatores de chance.
Uma variável aleatória é considerada discreta se toma valores que podem ser
contados.
Uma variável aleatória é considerada contínua quando pode tomar qualquer valor
em determinado intervalo.
Exemplo:
Distribuição de probabilidade para a variável aleatória “número de caras em duas jogadas
de uma moeda”.
Número de Número de
Prob. do Prob. do
Resultado caras caras
resultado resultado
Valor da V.A. Valor da V.A
Cara Cara 2 ½ x ½=¼ 0 ¼
Cara Coroa 1 ½ x ½=¼
1 ¼ +¼ =½
Coroa Cara 1 ½ x ½=¼
Coroa Coroa 0 ½ x ½=¼ 2 ¼
Soma = 1 Soma = 1
O valor esperado, ou esperança matemática, de uma variável aleatória é E(x), que consiste
no valor esperado para ela, ou seja, o valor médio da variável.
n
E( x ) = ∑px
i =1
i i se X é v.a. discreta
ou
∞
E( X) = ∫ x. f(x) dx
−∞
se X é v.a. contínua
Exemplo: um investidor julga que tem 0,4 de probabilidade de ganhar $ 25.000 e 0,6 de
perder $ 15.000. Seu ganho esperado é de:
E(X) = 0,4 (25.000) + 0,6 (-15.000) = $ 1.000.
E a variância é Var(X)=E(X 2 )-[E(X)] 2
= E(X 2 ) – 1.000 2
=(0,4.25.000 2 + 0,6.(-15.000) 2 )-1.000 2
=(0,4 x 625.000.000 + 0,6 x 225.000.000)-1.000 2
= 250.000.000+ 135.000.000 –1.000 2
= 385.000.000 –1.000.000
= 384.000.000
Desvio padrão = $ 19.595,92
Exercícios:
1. O número de chamadas telefônicas recebidas por uma mesa e suas respectivas
probabilidades para um intervalo de 3 minutos são:
Em média, quantas chamadas podem ser esperadas num intervalo de três minutos?
N ° bolos/dia 0 1 2 3 4 5 6 7 8 9 Total
Freqüência relativa 0,02 0,07 0,09 0,12 0,20 0,20 0,18 0,10 0,01 0,01 1,00
Distribuição de Bernoulli
A distribuição de Bernoulli consiste em uma distribuição adequada à variável aleatória de
Bernoulli, que por sua vez é uma v.a. que assume apenas os valores 0 e 1, com função de
probabilidade tal que:
P(0) = P(X=0) = 1- p
P(1) = P(X=1) = p
Distribuição Binomial
Seja um processo composto de uma seqüência de observações independentes, onde o
resultado de cada observação pode ser um sucesso ou uma falha.
Se a probabilidade de sucesso é constante e igual a p, a distribuição do número de
sucessos seguirá o modelo Binomial.
A distribuição Binomial é usada com freqüência no controle de qualidade. É o modelo
apropriado quando a amostragem é feita sobre uma população infinita ou muito grande.
n
onde representa o número de combinações de n objetos tomados x de cada vez
x
P(X) = probabilidade de X sucessos uma vez que n e p são conhecidos
n = tamanho da amostra
p = probabilidade de sucesso 1-p = probabilidade de falha
X = número de sucessos na amostra (X=0, 1, 2, ..., n)
A média de uma variável aleatória com distribuição binomial é µ = np e a variância é
x
dada por σ 2 = np(1-p) onde p é proporção de sucessos na amostra p =
n
Exemplo:
Um processo industrial opera com média de 1% de defeituosos. Baseado em amostras de
100 unidades, calcule as probabilidades de uma amostra apresentar 0 , 1 , 2 , 3 e 4
defeituosos. Plote a distribuição de probabilidade correspondente.
Como a variável aleatória pode apresentar apenas duas possibilidades, ser boa ou
defeituosa, a distribuição que melhor se ajusta é a distribuição binomial, com
parâmetros p=0,01 e n=100.
Então, a probabilidade de uma amostra de tamanho n = 100 apresentar 0
defeituosos é
n 100
P( x ) = p x (1 − p)n − x P(x=0) = P(0) = 0 ,010 (1 − 0 ,01)100 − 0 = 0,366
x 0
100 1
P(x=1) = P(1) = 0,01 (1 − 0,01)100−1 = 0,370
1
100
P(x=2) = P(2) = 0,012 (1 − 0,01)100 − 2 = 0,185
2
100
P(x=3) = P(3) = 0,01 (1 − 0,01)
3 100 − 3
= 0,061
3
100
P(x=4) = P(4) = 0,014 (1 − 0,01)100 − 4 = 0,015
4
0,3
P(x)
0,2
0,1
0
x=0 x=1 x=2 x=3 x=4
Exercícios:
1. Um processo opera segundo uma chance de falha de 2%. Coletando amostras de 25
unidades, qual a probabilidade de uma amostra selecionada apresentar 2
defeituosos ou menos.
Distribuição de Poisson
e − λ λx
P( x ) = onde x=0,1,2,....
x!
onde P(X) = probabilidade de X sucessos, dado o conhecimento de λ
λ = número esperado de sucessos
Exemplo:
Suponha que o número de defeitos no cordão de solda de uma carroceria siga uma
distribuição de Poisson com λ = 2.
Então a probabilidade de uma carroceria apresentar mais de 3 defeitos será:
P(X> 3) = 1 – P(x ≤ 3) = 1-[ P(x=0) + P(x=1) + P(x=2) + P(x=3)]
e − λ λx e −2 2 0
Onde P( x ) = P(0) = = 0,135
x! 0!
e −2 21
P(x=1) = P(1) = = 0,271
1!
P(x=2) = P(2) = 0,271 P(x=3) = P(3) = 0,180
Logo,
P(X> 3) = 1 – P(x ≤ 3) = 1-[ P(x=0) + P(x=1) + P(x=2) + P(x=3)]
= 1 – [0,135+0,271+0,271+0,180]
= 1 – [0,857]
=0,143 14%
A probabilidade de uma carroceria apresentar mais de três defeitos é 14%.
Exemplo 2:
e − λ λx e −4 45
P( x ) = P (5) = = 0,1563 = 15,63%
x! 5!
Exercícios:
1. O setor financeiro de uma loja de departamentos está tentando controlar o número
de erros cometidos na emissão das notas fiscais. Suponha que esses erros sigam o
modelo de Poisson com média λ = 0,03. Qual a probabilidade de uma nota
selecionada ao acaso conter 1 ou mais erros?
4. Dez por cento das ferramentas produzidas por um certo processo de fabricação
revelaram-se defeituosas. Determinar a probabilidade de, em uma amostra de 10
ferramentas escolhidas ao acaso, exatamente duas serem defeituosas mediante o
emprego da distribuição de Poisson.
Distribuição Normal
A Distribuição Normal é essencialmente importante na estatística por três razões
principais:
1. Inúmeros fenômenos contínuos parecem seguí-la ou podem ser aproximados por
meio dela
2. Podemos utilizá-la para aproximar várias distribuições de probabilidade discretas
3. Ela oferece a base para a inferência estatística clássica, devido à sua afinidade
com o teorema do limite central
95,44%
68,26%
-1σ +1σ
-2σ +2σ
-3σ +3σ
Para simplificar a notação de uma v.a.c. com distribuição normal, com média µ e variância
2
σ utiliza-se:
X~ N( µ, σ 2 )
A distribuição Normal acumulada é obtida calculando a probabilidade de X ser menor que
um dado valor a :
a
P( x ≤ a) = F(a) = ∫ f (x)dx
−∞
Função densidade acumulada
Essa integral não pode ser resolvida em forma fechada, mas a solução está apresentada
em tabelas onde se entra com a variável reduzida ou variável padronizada Z e
encontra-se F(Z) ou vice-versa.
a − µ
P( x ≤ a) = P Z ≤ = F(Z )
σ
950 − 1000
P(x>950) = P Z > = P(Z > −1,25) = 0,3944 + 0,5000 = 0,8944
40
Tabelado
X=950 µ =1000 Z=-1,25 µ =0
σ =40 σ =1
Se forem feitas 4000 medições, aproximadamente 2305 estarão entre 95 e 112. (4000 x
57,64%)
4. A saída de uma bateria segue o modelo Normal com média 12,15 V e desvio padrão
0,2 V. Encontre o percentual que irá falhar em atender às especificações 12 V ±
0,5 V.
7. Sabe-se que o conteúdo de uma lata de cerveja é 350 ml e que tem distribuição
aproximadamente normal com média 350 ml e desvio padrão 10 ml.
a. Que % de latas tem menos que 345 ml de conteúdo?
b. Que % de latas tem mais que 360 ml de conteúdo?
8. Uma fábrica de pneus fez um teste para medir o desgaste de pneus e verificou que
ele seguia o comportamento de uma curva normal com média 48.000 km e desvio
padrão de 2.000 km. Calcule a probabilidade de um pneu escolhido ao acaso:
a. Dure mais que 47.000 km?
b. Dure entre 45.000 e 51.000 km?
c. Até que quilometragem duram 90% dos pneus?
Sejam:
µ x = média da população = µ
µ x = média da distribuição amostral
σ x = desvio padrão da população = σ
σ x = desvio padrão da distribuição amostral
N = tamanho da população
n = tamanho da amostra
σ N−n
População Finita: µx = µ e σx =
n N −1
µx = µ σ
População Infinita: e σx =
n
A fórmula do desvio padrão nos diz que a quantidade de dispersão na distribuição amostral
depende de dois fatores:
- a dispersão da população
- o tamanho da amostra (utilizando raiz quadrada)
Por exemplo, em qualquer população, o aumento do tamanho das amostras extraídas
resultará em menor variabilidade entre as possíveis médias amostrais. E se o mesmo
tamanho de amostra é usado com diferentes populações, as populações com maior
quantidade de dispersão σ x tenderão a gerar maior quantidade de variabilidade entre as
médias de amostras extraídas delas.
Exemplos:
Calcule o desvio padrão da distribuição amostral de médias onde o desvio padrão da
distribuição populacional é 2 e o tamanho da amostra é 40.
σx 2
σx = = = 0,3162
n 40
Determine a média das distribuições de médias amostrais, sendo que a média populacional
é 678.
µ x = µ x = 678
Um fabricante de baterias alega que seu artigo de primeira categoria tem uma vida
esperada (média) de 50 meses. Sabe-se que o desvio padrão correspondente é de 4
meses. Que percentagem de amostras de 36 observações acusará vida média no intervalo
de 1 mês em torno de 50 meses, admitindo ser de 50 meses a verdadeira vida média das
baterias?
Sabemos que, como n>30, a distribuição das médias amostrais será
aproximadamente normal com média igual à média populacional e desvio padrão
igual ao desvio padrão populacional dividido pela raiz quadrada do tamanho da
???
49 50 51
Meses
µx
p = proporção populacional
p(1 − p)
σp =
n
e pode-se fazer uma aproximação para a distribuição normal quando n>30.
Exemplos:
Determine a média da distribuição de proporções amostrais, quando a proporção na
população é 72,3%
p =p=72,3%
Verificou-se que 2% das ferramentas produzidas por uma certa máquina são defeituosas.
Qual a probabilidade de que, em uma remessa de 400 dessas ferramentas, 3% ou mais
revelarem-se defeituosas?
3. Certas válvulas fabricadas por uma companhia têm vida média de 800 horas e
desvio padrão de 60 horas. Determinar a probabilidade de uma amostra aleatória
de 16 válvulas, retiradas do grupo, ter vida média a) entre 700 e 810 horas;
b)inferior a 785 horas; c) superior a 820 horas; d) entre 770 e 830 horas.
4. Um fabricante faz a remessa de 1000 lotes de 100 lâmpadas elétricas cada um. Se
5% das lâmpadas são normalmente defeituosas, em quantos lotes pode-se esperar
que existam; a) menos de 90 lâmpadas boas; b) 98 ou mais lâmpadas boas
Exemplos:
Parâmetro Tipo de estimativa
populacional Pontual Intervalar
População
Infinita Finita
Estimativa de médias
Pontual x x
Intervalar σ x conhecido σx σx N−n
x±z x±z
n n N −1
σ x desconhecido sx sx N−n
x±t x±t
n n N −1
Estimativa das proporções
Pontual x x
p = p =
n n
Intervalar p(1 − p) p(1 − p) N − n
p±z p±z
n n N −1
Onde:
z representa o valor tabelado da distribuição Normal, com nível de confiança α.
t representa o valor tabelado da distribuição t de Student, com nível de confiança α e GL
graus de liberdade1
N é o tamanho da população
n é o tamanho da amostra
1
O valor da distribuição t de Student depende do número de graus de liberdade
Prof. Cíntia Paese Giacomello 63
Exemplo:
Intervalo de confiança para a média µ quando se conhece a variância de população σ x
Seja uma amostra de tamanho 36 de uma população infinita, sabe-se que σ x =3 e x =24,2
Confiança Z
Fórmula Cálculo E Intervalo
desejada (tabelado)
σx 3
90% 1,65 x±z 24,2 ± 1,65 24,2 ± 0,825 23,375 a 25,025
n 36
σx 3
95% 1,96 x±z 24,2 ± 1,96 24,2 ± 0,980 23,220 a 25,180
n 36
σx 3
99% 2,58 x±z 24,2 ± 2,58 24,2 ± 1,290 23,110 a 25,690
n 36
Tamanho da amostra
Uma das perguntas mais freqüentes em estatística é: “Qual o tamanho da amostra que
devemos tomar?”
O tamanho da amostra dependerá do grau de confiança desejado (z), da quantidade de
dispersão entre os valores individuais ( σ x ), e de certa quantidade específica de erro
tolerável (e).
“O tamanho da amostra que você afinal selecionará dependerá de
seu orçamento, da importância econômica das decisões e da
variabilidade na população. Desses três problemas, dois são de
ordem gerencial, cabendo a você a decisão; apenas o terceiro
(variabilidade) está fora do seu controle .”(Brenda Landy, citada no
livro Pesquisa de Marketing – Naresh Malhotra. - 2001)
A fórmula do erro pode ser resolvida em relação a n. Assim, para o caso de estimação de
médias, tem-se:
2
σx σx σ
e=z n=z n = z x
n e e
Exercícios:
23 40 30 21 34
20 38 26 23 38
33 32 24 21 24
Exemplo: O estudo de uma amostra de tamanho 55 peças indicou que o diâmetro médio é
de 27,5 mm. Então:
H 0 : o diâmetro médio da população (de peças) é 27,5 mm
H 1 : o diâmetro médio da população (de peças) é diferente de 27,5 mm
Verdadeira Falsa
Os testes de hipótese podem ser unilaterais ou bilaterais. Nos testes unilaterais a hipótese
alternativa H 1 é do tipo µ>33 ou µ<33, por exemplo. Nos testes bilaterais a hipótese
alternativa é do tipo µ≠ 33. A hipótese nula permanece igual nos dois casos. A área de
rejeição é dividida quando o teste é bilateral.
H 1 : µ<33 H 1 : µ≠ 33 H 1 : µ>33
α α/2 α/2 α
Exercícios
1. Para cada um dos seguintes casos, trace uma curva normal, indicando a área de
rejeição na figura.
a) H 0 : µ=10, H 1 : µ≠ 10, α=0,02
b) H 0 : µ=120, H 1 : µ≠ 120, α =0,05
c) H 0 : µ=2000, H 1 : µ≠ 2000, α=0,01
d) H 0 : µ=2000, H 1 : µ>2000, α=0,01
e) H 0 : µ=2000, H 1 : µ< 2000, α=0,01
σ x conhecido
x − µo
z teste =
σx E H 0 é rejeitada se |Z teste | > Z α /2 (obtido em uma tabela da
n
distribuição normal).
Uma amostra de 8 valores foi coletada e indicou X = 0,847 . Sabendo que o desvio padrão
é σ =0,010, teste a hipótese do engenheiro usando um nível de significância α=0,05.
H o : µ = 0,850
H1 : µ ≠ 0,850
0,847 − 0,850
Z teste = = −0,85
0,010 / 8
Como Z teste = −0,85 > −Z 0 ,025 = −1,96 H 0 não pode ser rejeitada.
Conclusão: não podemos afirmar que os entalhes sejam diferentes que o especificado, ao
nível de significância de 0,05.
σ x desconhecido
Quando não se conhece o desvio padrão da população, deve-se estimá-lo a partir dos
dados amostrais usando o desvio padrão amostral. Quando isso ocorre (na maioria das
situações reais σ x é desconhecido), a distribuição t é a distribuição amostral adequada.
Suponha que X é uma variável aleatória Normal com média µ e variância σ 2
desconhecidas. Para testar a hipótese de que a média é igual a um valor especificado µo ,
formulamos:
Ho : µ = µ 0
H1 : µ ≠ µ o
Esse problema é idêntico àquele da seção anterior, exceto que agora a variância é
desconhecida.
x − µo
t teste =
sx
n
E a hipótese nula H 0 é rejeitada se |t teste |>t α /2 , onde t α /2, n-1 é um valor limite da
distribuição de Student tal que a probabilidade de se obter valores externos a t α /2 é α.
σ x conhecido
X1 − X 2
Z teste =
σ 12 σ 22
+
n1 n2
σ x desconhecido
Similarmente, quando , σ a e σ b , não são conhecidos, o teste para verificar a hipótese que
as médias sejam iguais é:
X1 − X 2
t teste =
S 2x1 S 2x 2
+
n1 n2
p0 (1 − p0 ) / n
e deve ser comparada com o valor crítico de Z (retirado de uma tabela da distribuição
normal)
Exemplo:
Um fabricante afirma que uma remessa de pregos contém menos de 1% de defeituosos.
Uma amostra aleatória de 200 pregos acusa 4 defeituosos. Teste a afirmação ao nível
0,01.
H 0 : p = 1%
H 1 : p > 1% pois desejamos evitar a aceitação de uma remessa com mais de
1% de defeituosos, mas nada há contra aceitar o fato da remessa apresentar
qualidade superior à acordada.
x −p 4 − 0,01
z teste = n 0
= z teste = 200 = 1,42
p0 (1 − p0 ) / n 0,01(1 − 0,01) / 200
Este teste baseia-se na distribuição qui-quadrado, onde o valor calculado deve ser
comparado com o valor tabelado. A decisão de aceitar ou rejeitar H 0 dependerá da
comparação deste valor com o valor tabelado da distribuição qui-quadrado.
Por exemplo, tem-se a distribuição de peças produzidas por turno e se essas peças são
boas ou apresentam algum tipo de defeito. No turno da manhã foram produzidas 967
peças, onde 183 apresentaram algum tipo de defeito.
Turno de produção
Total
Manhã Tarde Noite
Turno de produção
Total
Manhã Tarde Noite
224 x 967
Freq _ esperada = = 137,1
1580
(O − E) 2
χ2 = ∑ E
Se o valor obtido for maior que o valor crítico obtido na tabela χ 2 então diz-se que as
variáveis NÃO são independentes. Se o valor encontrado for menor, então diz-se que as
variáveis são independentes.
O valor dos GRAUS DE LIBERDADE é obtido através do cálculo:
graus de liberdade = (colunas-1)(linhas-1)
No exemplo apresentado:
Tem-se valor calculado > valor tabelado então diz-se que as variáveis NÃO são
independentes. OU SEJA, a proporção de peças boas produzidas depende do turno de
trabalho. A proporção de peças boas no turno da manhã é 81%, na tarde 90% e na noite
97%.
Exercícios:
1. Um fornecedor apresenta uma caixa, e afirma que o peso médio desta caixa é de
368 gramas. De experiências anteriores sabe-se que o desvio padrão da população
vale 15 g e que os valores se comportam segundo a distribuição Normal. Para
verificar se a afirmação é verdadeira, verifica-se uma amostra de 25 caixas, pesa-se
e calcula-se o peso médio da amostra, achando 372,5 g. Qual a conclusão a
respeito da afirmação do fornecedor, ao nível de significância 0,01?
2. Uma agência de empregos alega que os candidatos à diretoria por ela colocados
nos últimos seis meses têm salários de R$ 9000, em média. Uma agência
governamental extraiu uma amostra aleatória daquele grupo, encontrando salários
médios de R$ 8000, com desvio padrão de R$ 1000, com base em 50 empregados.
Teste a afirmação da agência, contra a alternativa, de que o salário médio é
inferior a R$ 9000, ao nível de significância 0,05.
7. No caso judicial EUA versus Cidade de Chicago, foram postas em dúvida as práticas
honestas de emprego. Um grupo minoritário (A) e um grupo majoritário (B) fizeram
o exame para capitão do corpo de bombeiros, com os seguintes resultados:
Aprovados Reprovados
Grupo A 10 14
Grupo B 417 145
Com os resultados acima, e com nível de significância de 5%, teste a afirmação de
que o sucesso no teste é independente do grupo.
10. A tabela abaixo apresenta dados relativos ao time vencedor em diferentes esportes.
Com o nível de 0,05 de significância, teste a afirmação de que as vitórias
casa/visitante são independentes do esporte.
Basquete Beisebol Hockey Futebol
O time da casa ganha 127 53 50 57
O time visitante ganha 71 47 43 42
Há situações onde se deseja comparar várias médias, cada uma oriunda de um grupo
diferente. Esses grupos, também chamados tratamentos, poderiam ser 5 máquinas de
corte, ou 4 pressões de operação, ou 4 layouts , 5 planos econômicos do governo, taxas
de câmbio em 3 diferentes países, resultados da implantação de um novo sistema em duas
filiais, etc.
Exemplo:
Para verificar se existe diferença significativa entre os salários médios dos economistas da
Região Sul, o sindicato da classe resolveu analisar os dados de algumas amostras. Assim
foram selecionados aleatoriamente 5 economistas de cada estado.
Exemplo:
Uma classe com 24 crianças foi dividida em três grupos. Cada grupo de crianças aprendeu
a ler de acordo com um método (três métodos diferentes). Após 3 meses as crianças
foram testadas, utilizando uma escala de 1 a 10. Os resultados foram
Método A 5 0 3 5 4 5 8 2
Método B 4 5 4 7 5 10 3 10
Método C 3 5 0 3 3 9 4 9
Tratamento Observações
1 Y11 , Y12 ... Y1n1
2 Y21 , Y22 ... Y2n2
: :
: :
: :
k Yk1 , Yk2 ... Yknk
Nosso objetivo será testar a hipótese referente ao efeito dos tratamentos e estimar esses
efeitos, ou seja, verificar se existe diferença significativa entre os resultados apresentados
por cada grupo.
H 0 : µ1 = µ 2 = ..... = µ k
H 1 : µi ≠ µ j para alguns i, j
(Yij − Y.. ) = (Y i. ) (
− Y.. + Yij − Y i . ) (1)
onde:
(Yij − Y i. )
é o desvio da observação individual em relação à média do tratamento
correspondente;
MQG
F=
MQR
Distribuição F
Valor tabelado
TC = ( T .. )2 N
SQT = ∑ ( Yij2 ) − TC
SQG = ∑ ( Ti 2. ni ) − TC
SQR = ∑ ( Yij2 ) − ∑ ( Ti .2 ni ) = SQT − SQG
onde
TC é o termo de correção
T.. é a soma de todas as observações
Ti. é a soma das observações no grupo i
Método A 5 0 3 5 4 5 8 2
Método B 4 5 4 7 5 10 3 10
Método C 3 5 0 3 3 9 4 9
TC = 116 2 / 24 = 560,67
SQT = (5 2 + 0 2 + 3 2 + ... + 4 2 + 9 2 ) – 560,67 = 738 – 560,67 = 177,33
322 482 362
SQG = + + − 560,67 = 578,00 - 560,67 = 17,33
8 8 8
Total 177,33 23
Método A 5 0 3 5 4 5 8 2
Método B 4 5 4 7 5 10 3 10
Método C 3 5 0 3 3 9 4 9
ou
Calculado
ANOVA
Fonte da variação SQ gl MQ F valor-P F crítico
Entre grupos 17,33 2 8,67 1,14 0,340 3,47
Dentro dos grupos 160,00 21 7,62
Total 177,33 23
Distribuição F
0,05
0
1,99
2. Duas turmas de pilotos de corrida de automóveis estão sendo treinadas para uma
grande corrida no domingo. Cada turma faz cinco provas de troca dos quatro pneus
num carro. As turmas são equivalentes ou uma delas é superior, ao nível de
significância 0,05? Complete a tabela da ANOVA e conclua a respeito.
Entre grupos
Dentro de grupos 0,12
Total 0,22
A 20 12 15 19
B 17 14 12 15
C 23 16 18 14
D 15 17 20 12
E 21 14 17 18
K 33 38 36 40 31 35
L 32 40 42 38 30 34
M 31 31 37 35 33 30
N 29 34 32 30 33 31
5. Um professor deseja testar três métodos diferentes de ensino I, II e III. Para isso são
escolhidos aleatoriamente três grupos de cinco estudantes, e cada grupo é instruído
por um método diferente. É dada a mesma prova a todos os estudantes e os graus
obtidos constam na tabela. Determinar se existe diferença entre os métodos de ensino
ao nível de significância 0,01.
I 75 62 71 58 73
II 81 85 68 92 90
III 73 79 60 75 81
6. A tabela apresenta os dados sobre a ferrugem acumulada sobre o ferro, que foi tratado
quimicamente com os produtos A, B ou C. Determinar se existe diferença significativa
nos tratamentos ao nível de 0,05.
A 3 5 4 4
B 4 2 3 3
C 6 4 5 5
20 mg 46 46 46 45 45 45 46 46
30 mg 48 48 47 47 47 47 47 48
40 mg 49 49 50 50 49 50 50 49
50 mg 52 53 52 52 52 52 53 53
9. Uma empresa deseja estudar três tipos de enxerto para ver se todos apresentam o
mesmo crescimento anual. O que se pode concluir a respeito? (use nível de
significância 0,05)
10. Os dados abaixo dão a vida observada dos pneus de quatro caminhões distribuidores
de sorvete, conforme a posição. Supondo comparáveis os caminhões e os motoristas,
poderemos afirmar que a duração média é independente da posição do pneu no
veículo? (use nível de significância 0,01). Disponha os cálculos numa tabela ANOVA.
Qual a importância da comparabilidade dos motoristas e veículos?
Dianteiro direito 17 19 20 24
Dianteiro esquerdo 25 27 18 22
Traseiro direito 22 21 19 26
Traseiro esquerdo 26 24 30 28
Exemplos:
Notas 2 o Notas
Família Renda Gastos Peso Altura Aluno
grau faculdade
... 58 170 D 60 65
OBS: A análise da regressão apenas indica qual relacionamento matemático pode existir, se
existir algum. Ou seja, nem a regressão, nem a correlação podem mostrar que uma variável
tenda a causar certos valores de outra variável, não garantido que exista relação de causa e
efeito.
“... a correlação entre beber um copo de vinho por dia e a menor chance de infarto do
miocárdio é um bom exemplo. Estudos recentes mostram que ela não se deve ao vinho e
ao álcool, mas sim ao betacaroteno, corante contido na uva. Para infelicidade de
muitos, tomar suco de uva dá o mesmo resultado que beber vinho tinto.” Jornal do
Brasil, 08/01/1999
Uma vez que as estimativas a e b são funções de variáveis aleatórias (x e y são variáveis
aleatórias) é necessário verificar a precisão das estimativas, conhecendo o erro padrão das
estimativas.
SE =
∑y 2
− ( a ∑ y + b∑ xy )
n−2
Para criar intervalos de confiança com base nos estimadores utiliza-se a equação:
yint ervalo = ŷ ± t S E
x y x2 xy
7,0 10,1 49,00 70,70
7,3 10,6 53,29 77,38
7,8 11,3 60,84 88,14
8,6 12,4 73,96 106,64
8,1 11,9 65,61 96,39
8,3 11,9 68,89 98,77
8,2 11,5 67,24 94,30
8,6 12,1 73,96 104,06
9,0 13,1 81,00 117,90
9,6 14,1 92,16 135,36
9,1 14,6 82,81 132,86
Σx = 91,6 Σy = 133,6 Σ x 2 = 768,76 Σ xy = 1122,50
Consum o pessoal
14,0
12,0
10,0
8,0
6,5 7,5 8,5 9,5 10,5
PIB
E o cálculo de a e b fica:
b= 11 (1122,5) - (91,6) (133,6)
= 1,668 133,6 - (1,668) 91,6
11 (768,76) - (91,6)2 e a= = −1,744
11
ŷ = −1,744 + 1,668 x , ou Consumo = −1,744 + 1,668 PIB ou seja, para cada unidade
acrescida do PIB, o consumo pessoal aumentará 1,668 unidades.
Ou seja, quando o PIB estiver em 10,0 o Consumo Pessoal poderá variar na faixa entre
14,083 e 15,789, com 90% de confiança.
-1 0 1
Correlação Inexistência Correlação
negativa de positiva
forte correlação forte
∑ xy − ∑ n ∑
( x )( y )
r=
∑ x − ∑ ∑ y − ∑
( x ) 2
( y) 2
2 2
n n
x y x2 y2 xy
7,0 10,1 49,00 102,01 70,70
7,3 10,6 53,29 112,36 77,38
7,8 11,3 60,84 127,69 88,14
8,6 12,4 73,96 153,76 106,64
8,1 11,9 65,61 141,61 96,39
8,3 11,9 68,89 141,61 98,77
8,2 11,5 67,24 132,25 94,30
8,6 12,1 73,96 146,41 104,06
9,0 13,1 81,00 171,61 117,90
9,6 14,1 92,16 198,81 135,36
9,1 14,6 82,81 213,16 132,86
Σx = 91,6 Σy = 133,6 Σ x 2 = 768,76 Σ y 2 = 1641,28 Σ xy = 1122,50
Utilizando o Excel
Maneira 1: A equação é da forma y = a + b x para os valores dos pares (x,y) e
os coeficientes da reta são calculados utilizando o método dos mínimos
quadrados.Após colocar os valores em duas colunas (valores de x e valores de
y) vá ao “Assistente de Função” e escolha as funções “INCLINAÇÃO” para
determinar o valor de b e “INTERCEPÇÃO” para calcular o valor de a. Os
passos seguintes devem ser feitos seguindo as indicações do programa. Para o
cálculo da correlação utiliza-se no “Assistente de Função” o CORREL. Em
Matriz1 devem ser colocadas as células referentes à variável x em Matriz2 as
células referentes à variável y.
Maneira 2: Selecionar “Ferramentas” e “Análise de dados” e então
“Regressão”. Informar o que for solicitado.
390
y = -1,181x + 1257,173
370 2
Velocidade
R = 0,865
350
330
310
740 750 760 770 780 790 800
Peso
Estatística de regressão R
R múltiplo 0,930
R-Quadrado 0,865
Se
R-quadrado ajustado 0,820
Erro padrão 9,851
Observações 5
gl SQ MQ F F de significação
Testes para a e b
Valores de a e b Se valor-P < 0,05, então a estimativa é
válida, caso contrário é significativamente
nula
X 1 2 3 6 9
Y 4 7 7 9 15
Se os dados forem correlacionados, estimar a reta de regressão:
Ano Investimento
1998 374
1999 555
2000 908
2001 1010
Número
Participação na renda
de anos de
(%)
estudo
1976 4,7 8,4
1990 5,7 16
1993 6,3 19
1996 6,6 21
a) Caso exista associação, quantos anos de estudo serão necessários para que a
participação da mulher na renda familiar chegue a 50% ?
b) E qual será a participação da mulher na renda familiar quando ela tiver 12 anos de
estudo?
c) Você poderia estimar o ano em que a mulher irá participar com 50% da renda?
Temperatura 21,2 20,3 22,7 22,0 22,3 23,5 24,8 24,2 25,5 25,2 25,5 25,8
Produtividade 142 148 131 132 145 138 144 136 141 124 133 128
Temperatura 27,5 26,3 28,2 28,6 29,0 29,7 30,7 30,3 30,2 31,4 32,5 32,7
Produtividade 132 137 124 117 122 131 124 111 119 129 123 116
Número de Vendas
Empresa
funcionários (Milhões US$)
Carrefour 37.004 4.582,4
Pão de Açúcar 39.642 3.976,4
Casas Bahia 11.508 1642,2
Sendas 16.990 1391,7
Ponto Frio 5.395 1223,6
Sonae 22.638 1083,9
Bompreço 13.225 1062,7
L. Americanas 12.485 900,6
McDonalds Não informou 726,7
AgipLiquigás 3.804 693,1
Pernambucanas 10.787 619,1
Fonte: Revista Exame
3.500 R 2 = 0 ,80 1
M ilhõ e s US$
3.000
2.500
2.000
1.500
1.000
500
-
- 5.000 10.000 15.000 20.000 25.000 30.000 35.000 40.000
Núm e r o d e fu ncion ár ios
a = 10 A e b = 10 B
Exemplo
Uma empresa fabricante de brinquedos registrou suas vendas nos últimos 10 anos,
obtendo os valores apresentados a seguir.
4 800 6.000
5 1.200 4.000
6 1.700 2.000
7 2.100 0
8 4.000
0 1 2 3 4 5 6 7 8 9 10 11
9 5.000 An o
10 7.000
x y Y=ln(y) x2 xY Y2
1 450 6,11 1 6,11 37,32
2 500 6,21 4 12,43 38,62
3 600 6,40 9 19,19 40,92
4 800 6,68 16 26,74 44,68
5 1.200 7,09 25 35,45 50,27
6 1.700 7,44 36 44,63 55,33
7 2.100 7,65 49 53,55 58,52
8 4.000 8,29 64 66,35 68,79
9 5.000 8,52 81 76,65 72,54
10 7.000 8,85 100 88,54 78,39
Total: 55 23.350 73,25 385,00 429,64 545,39
Então,
10( 429 ,64 ) − ( 55 )( 73 ,25 )
B= = 0,3245
10( 385 ) − ( 55 ) 2
73,25 − 0 ,325( 55 )
A= = 5 ,5399
10
b = exp( B ) = exp( 0 ,3245 ) = 1,3903 e a = exp( A ) = exp( 5 ,5399 ) = 254 ,42
Observe como os valores estimados pela equação estão próximos dos valores reais,
observados na série de dados.
8.000
7.000
V endas
6.000
obs ervadas
5.000
4.000
V endas
3.000
estim adas pela
2.000
equaç ão
1.000
0
1 2 3 4 5 6 7 8 9 10
a = 10 A
Exemplo
Os dados a seguir apresentam a produção de veículos automotivos (y) ao longo do tempo
(x). Para estes dados ajuste um modelo de potência
ano 59 60 61 62 63 64 65
produção 96,1 133,0 145,6 191,2 174,2 183,7 185,2
ano 66 67 68 69 70 71 72
produção 224,6 225,4 278,5 349,5 416,0 516,0 609,0
500,0
400,0
300,0
200,0
100,0
0,0
55 60 65 70 75
An o
Assim,
14( 319 ,335 ) − ( 58 ,522 )( 76 ,292 )
b= = 7,970
14( 244 ,684 ) − ( 58 ,522 ) 2
76 ,292 − 7 ,970( 58 ,522 )
A= = −27 ,868
14
a = exp( A ) = exp( −27 ,868 ) = 7 ,889 E − 13
7,970
Ou então, y=7,889E-13 x
600,0
Produção real
500,0
Produção estimada
400,0
pela equação
300,0
200,0
100,0
0,0
59 60 61 62 63 64 65 66 67 68 69 70 71 72
Exercícios
1. Aos dados a seguir ajuste um modelo exponencial e um polinomial. Estime a
quantidade de vendas para o ano de 2003, supondo que o comportamento dos dados
seja mantido. DICA: utilize os números de 1 a 11 para os anos e calcule o valor de y quando x
for 14.
Ano 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Vendas 15 16 17 18 25 28 32 42 55 76 93
2. Se você tivesse uma série de dados como expressa no diagrama de dispersão a seguir,
que modelo de regressão você utilizaria? O que você poderia dizer a respeito dos
valores dos parâmetros?
3. Uma companhia de energia elétrica estimou o consumo médio de energia das famílias
(kwh) de acordo com a renda (R$). Ajuste os seguintes modelos: y=ax b , y=ab x e
y=a+bx.
Renda 197 286 243 218 241 200 215 198 129 157 296 302
Consumo 1234 1432 1678 1300 1467 1245 1214 1200 770 890 2020 2100