P. 1
apostila Probabiliade e Estatística

apostila Probabiliade e Estatística

|Views: 15|Likes:
Published by Fernando Tempo

More info:

Published by: Fernando Tempo on Nov 26, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

11/07/2011

pdf

text

original

Sections

  • 1.1 Amostragem
  • 1.2 Tipos de variáveis
  • 4.1 Construção de distribuição de freqüência para dados contínuos
  • 4.2 Gráficos das distribuições de freqüência
  • 4.3 Construção de distribuição de freqüência para dados discretos
  • 4.5 Distribuições de freqüência para dados nominais e por postos
  • 4.6 Gráficos para distribuições de freqüência
  • 5.1 Média
  • 5.2 Mediana
  • 5.3 Moda
  • 5.4 Relação entre as medidas de tendência central
  • 6.1 Amplitude
  • 6.2 Variância
  • 6.3 Desvio padrão
  • 6.4 Coeficiente de variação
  • 8.1 Experimento aleatório
  • 8.2 Espaço amostral
  • 8.3 Eventos
  • 8.4 A probabilidade de um evento
  • 8.5 Cálculo das probabilidades
  • 10.1 Amostragem com e sem reposição
  • 10.2 Distribuições amostrais
  • 12.1 Teste de hipóteses para médias
  • 12.2 Testes de duas amostras para médias
  • 12.3 Teste para proporções
  • 12.4 Teste do qui-quadrado (k amostras para proporções)
  • 13.1 Formulário para solução
  • 13.2 Exemplo de solução no Excel
  • Regressão
  • 14.1 Aplicações da regressão
  • 14.2 Classificação das regressões
  • 14.3 Modelo linear
  • Correlação
  • 14.4 Objetivo da correlação
  • 14.5 O coeficiente r de Pearson (correlação)
  • 14.6 Coeficiente de determinação
  • 14.7 Exemplo de solução no Excel
  • 14.8 Outros modelos

UNIVERSIDADE DE CAXIAS DO SUL

PROFESSORA: CÍNTIA PAESE GIACOMELLO














Probabi li dade e Estatí stica













Prof. Cí nti a Paese Gi acomel lo 2
Índice

1 Introdução_____________________________________________________1
1.1 Amostragem ________________________________________________________ 2
1.2 Tipos de variáveis ____________________________________________________ 4
2 Séries estatísticas _______________________________________________5
3 Gráficos _______________________________________________________6
4 Distribuições de freqüências______________________________________12
4.1 Construção de distribuição de freqüência para dados contínuos ______________ 12
4.2 Gráficos das distribuições de freqüência _________________________________ 13
4.3 Construção de distribuição de freqüência para dados discretos ______________ 15
4.4 Construção de uma distribuição de freqüência acumulada___________________ 17
4.5 Distribuições de freqüência para dados nominais e por postos _______________ 18
4.6 Gráficos para distribuições de freqüência ________________________________ 19
5 Medidas de tendência central _____________________________________20
5.1 Média_____________________________________________________________ 20
5.2 Mediana___________________________________________________________ 23
5.3 Moda _____________________________________________________________ 25
5.4 Relação entre as medidas de tendência central ___________________________ 26
6 Medidas de variabilidade ________________________________________28
6.1 Amplitude _________________________________________________________ 28
6.2 Variância __________________________________________________________ 29
6.3 Desvio padrão ______________________________________________________ 29
6.4 Coeficiente de variação ______________________________________________ 30
7 Medidas de assimetria e curtose __________________________________31
8 Introdução à probabilidade_______________________________________33
8.1 Experimento aleatório _______________________________________________ 33
8.2 Espaço amostral ____________________________________________________ 34
8.3 Eventos ___________________________________________________________ 34
8.4 A probabilidade de um evento _________________________________________ 34
8.5 Cálculo das probabilidades ____________________________________________ 37
9 Distribuições de probabilidade ____________________________________43
10 Teoria elementar da amostragem ________________________________56
10.1 Amostragem com e sem reposição ____________________________________ 56
10.2 Distribuições amostrais _____________________________________________ 56
Prof. Cí nti a Paese Gi acomel lo 3
11 Estimação ___________________________________________________62
12 Testes de hipóteses ___________________________________________68
12.1 Teste de hipóteses para médias ______________________________________ 70
12.2 Testes de duas amostras para médias _________________________________ 72
12.3 Teste para proporções _____________________________________________ 72
12.4 Teste do qui-quadrado (k amostras para proporções) ____________________ 73
13 Análise de variância (ANOVA - Analysis of Variance) _________________79
13.1 Formulário para solução ____________________________________________ 83
13.2 Exemplo de solução no Excel ________________________________________ 85
14 Regressão e correlação ________________________________________90
Regressão ______________________________________________________________ 91
14.1 Aplicações da regressão ____________________________________________ 91
14.2 Classificação das regressões_________________________________________ 91
14.3 Modelo linear _____________________________________________________ 91
Correlação ______________________________________________________________ 94
14.4 Objetivo da correlação _____________________________________________ 94
14.5 O coeficiente r de Pearson (correlação)________________________________ 94
14.6 Coeficiente de determinação ________________________________________ 94
14.7 Exemplo de solução no Excel ________________________________________ 96
14.8 Outros modelos __________________________________________________ 100
15 Tabelas ____________________________________________________106


Prof. Cí nti a Paese Gi acomel lo 1
1 1 I In nt tr ro od du uç çã ão o

Estuda-se estatística para aplicar seus conceitos como auxílio nas tomadas de decisão
diante de incertezas, justificando cientificamente as decisões.
Os princípios estatísticos são utilizados em uma grande variedade de situações – no
governo, nos negócios e na indústria, bem como no âmbito das ciências sociais, biológicas
e físicas.
Estatística é a ciência ou método científico que estuda os fenômenos multicausais,
coletivos ou de massa e procura inferir as leis que os mesmos obedecem.
Método estatístico é um processo para se obter, apresentar e analisar características ou
valores numéricos para uma melhor tomada de decisão em situações de incerteza. Os
passos da metodologia estatística são os seguintes:
• Definição cuidadosa do problema
• Formulação de um plano para coleta das unidades de observação
• Coleta, resumo e apresentação das unidades de observação ou de seus valores
numéricos
• Análise dos resultados
• Divulgação de relatório com as conclusões, de tal modo que estas sejam facilmente
entendidas por quem as for usar na tomada de decisões.

Em geral, é aceita a divisão da estatística em dois grandes grupos: estatística descritiva e
indutiva.
Descritiva: corresponde aos procedimentos relacionados com a coleta, elaboração,
tabulação, análise, interpretação e apresentação dos dados. Isto é, inclui as técnicas que
dizem respeito à sintetização e à descrição de dados numéricos. Tais métodos podem ser
gráficos e envolvem a utilização de recursos computacionais. O objetivo da estatística
descritiva é tornar as coisas mais fáceis de entender, relatar e discutir.
Indutiva (ou inferencial): parte de uma ou mais amostras (subconjuntos da população) e
conclui sobre a população. Utiliza técnicas como a teoria das probabilidades, inferência
estatística, amostragem.

Com maior freqüência utilizamos o estudo da amostra do que da população, não só por
serem menos dispendiosas e consumirem menos tempo no processamento dos dados, mas
também porque muitas vezes não dispomos de todos os elementos da população.

Prof. Cí nti a Paese Gi acomel lo 2
Definições:
População: coleção completa de todos os elementos (valores, pessoas, medidas,...) a
serem estudados.
Amostra: subcoleção de elementos extraídos da população.
Censo: coleção de dados relativos a todos os elementos de uma população.
Amostragem: coleção de dados relativos a elementos de uma amostra.

Exemplo:
População Amostra




Parâmetro: medida numérica que descreve uma característica de uma população
Estatística: medida numérica que descreve uma característica de uma amostra


1.1 Amostragem
O objetivo da amostragem é permitir fazer inferências sobre uma população após inspeção
de apenas parte dela. Fatores como custo, tempo, ensaios destrutivos e populações
infinitas tornam a amostragem preferível a um estudo completo (censo).
Os principais tipos de amostragem utilizados são os probabilísticos, onde todos os
indivíduos da população têm a mesma chance de serem selecionados. Os planos de
amostragem probabilística são delineados de tal modo que se conhece todas as
combinações amostrais possíveis e suas probabilidades, podendo-se então determinar o
erro amostral.
Os métodos mais comuns de amostragem probabilística são:
• Amostragem aleatória simples: os elementos de uma população são escolhidos de
tal forma que todos tenham a mesma chance de serem escolhidos. Pode-se utilizar
uma tabela de números aleatórios ou um programa de geração de números
aleatórios.
• Amostragem estratificada: subdivide-se a população em, no mínimo, dois estratos
(subpopulações) que compartilham a mesma característica e em seguida escolhe-se
uma amostra de cada. Exemplo: homens e mulheres.
• Amostragem sistemática: escolhe-se um ponto de partida e então,
sistematicamente, selecionam-se os outros. Por exemplo: o 3°, 403°, 803°,
1203°,... indivíduos
Prof. Cí nti a Paese Gi acomel lo 3
• Amostragem por conglomerados: divide-se a população em conglomerados (áreas),
em seguida sorteiam-se algumas áreas e analisam-se todos os elementos dos
conglomerados escolhidos. Por exemplo: bairros.


Fonte: Triola, Mári o. 1999, 11.

Amostragens não probabilísticas são utilizadas quando a população em estudo é muito
pequena ou de difícil obtenção. Neste caso a análise de uma amostra poderia causar
distorções. Uma pessoa familiarizada com a população pode indicar melhor as unidades
amostrais. Este tipo de amostragem não permite avaliar o erro amostral. EX: doença rara.
Prof. Cí nti a Paese Gi acomel lo 4
1.2 Tipos de variáveis
Alguns conjuntos de dados consistem em números, enquanto outros são não numéricos.
Utiliza-se a nomenclatura de dados (ou variáveis) qualitativos e quantitativos.













Exercícios:
Identifique cada número como discreto ou contínuo
1. Cada cigarro Camel tem 16,13 mg de alcatrão
2. O altímetro de um avião da American Airlines indica uma altitude de 21.359 pés
3. Uma pesquisa efetuada com 1015 pessoas indica que 40 delas são assinante de um
serviço de informação on-line.
4. O tempo total gasto anualmente por um motorista de táxi de Nova York ao dar
passagem a pedestres é de 2367 segundos.

Apresente dois exemplos de dados discretos ou contínuos de sua empresa / pesquisa.
Quantitativas Qualitativas
Discretas Contínuas
Variáveis
Prof. Cí nti a Paese Gi acomel lo 5
2 2 S Sé ér ri ie es s e es st ta at tí ís st ti ic ca as s
Consiste no agrupamento dos dados estatísticos em tabelas.
Em qualquer série estatística são observados três elementos fundamentais:
• O fato, isto é, o que está sendo observado
• O espaço geográfico
• A época
Estes elementos criam classificações para as séries: específicas, temporais ou geográficas.

Séries temporais (ou históricas)
Os dados estão reunidos de acordo com o tempo, que varia. Os outros dois fatores - local
e fato - permanecem inalterados.










Séries geográficas
Os dados estão reunidos de acordo com o local, que varia. Os outros dois fatores - fato e
data - permanecem inalterados.








Prof. Cí nti a Paese Gi acomel lo 6
Séries específicas
Os dados estão reunidos de acordo com o evento, que varia. Os outros dois fatores - local
e data - permanecem inalterados.










As séries podem ainda apresentar-se sob a forma mista, resultante da combinação dos
fatores.










3 3 G Gr rá áf fi ic co os s
Os gráficos consistem em uma forma de apresentação dos dados, usualmente utilizada
pois facilita a interpretação dos resultados.
São elementos complementares de um gráfico:
• Título geral, época e local
• Escalas e respectivas unidades de medida
• Indicação das convenções adotadas (legenda)
• Fonte de informação dos dados

Prof. Cí nti a Paese Gi acomel lo 7
Principais tipos de gráficos: (Fonte: Site da Microsoft – www.microsoft.com.br)

Colunas
Um gráfico de colunas mostra as alterações
de dados em um período de tempo ou
ilustra comparações entre itens. As
categorias são organizadas na horizontal e
os valores são distribuídos na vertical, para
enfatizar as variações ao longo do tempo.

Gráficos de colunas empilhadas mostram o relacionamento de itens individuais com o todo
. O gráfico de colunas em perspectiva 3D
compara pontos de dados ao longo dos dois
eixos.
Nesse gráfico 3D, você pode comparar o
desempenho das vendas de quatro
trimestres na Europa com o desempenho de
outras duas divisões.
Vendas por local




Barras
Um gráfico de barras ilustra comparações
entre itens individuais. As categorias são
organizadas na vertical e os valores na
horizontal para enfocar valores de
comparação.


Gráficos de barras empilhadas mostram o
relacionamento de itens individuais com o
todo.

Vendas por produto



Prof. Cí nti a Paese Gi acomel lo 8
Linha
Um gráfico de linhas mostra
tendências nos dados em
intervalos iguais.
A união dos pontos faz sentido
pois a variável é contínua.
Meses usualmente são
tratados como variáveis
contínuas

Valor de venda do produto X



Pizza
Um gráfico de pizza mostra o tamanho
proporcional de itens que constituem uma série
de dados para a soma dos itens. Ele sempre
mostra somente uma única série de dados, sendo
útil quando você deseja dar ênfase a um
elemento importante.
Totaliza a informação (100%). Cada faixa do
gráfico é proporcional à informação.



Para facilitar a visualização de fatias pequenas, você pode
agrupá-las em um único item do gráfico de pizza e
subdividir esse item em um gráfico de pizza ou de barras
menor, ao lado do gráfico principal.


Diagrama de Dispersão (Dispersão XY)
Um gráfico xy (dispersão) mostra a
relação existente entre os valores
numéricos em várias séries de dados ou
plota dois grupos de números como uma
série de coordenadas xy. Esse gráfico
mostra intervalos irregulares ou clusters
de dados e é usado geralmente para
dados científicos.
Relação entre tempo e temperatura

Prof. Cí nti a Paese Gi acomel lo 9


Histograma
É um gráfico de colunas, porém utilizado
para apresentar distribuições de
freqüências.
Apresenta as classes ao longo do eixo
horizontal e as freqüências (absolutas ou
relativas) ao longo do eixo vertical. As
fronteiras das “barras” coincidem com os
pontos extremos dos intervalos de classe.
Distribuição da quantidade produzida
0.00
0.05
0.10
0.15
0.20
0.25
0.30
3 a 8 8 a 13 13 a 18 18 a 23 23 a 28 28 a 33
Safras (alq.)
%

d
a
s

á
r
v
o
r
e
s


Área
Um gráfico de área enfatiza a
dimensão das mudanças ao longo do
tempo. Exibindo a soma dos valores
plotados, o gráfico de área mostra
também o relacionamento das partes
com um todo.
Nesse exemplo, o gráfico de área
enfatiza o aumento das vendas em
Washington e ilustra a contribuição
de cada estado para o total das
vendas.


Superfície
Um gráfico de superfície é útil quando
você deseja localizar combinações
vantajosas entre dois conjuntos de dados.
Como em um mapa topográfico, as cores e
os padrões indicam áreas que estão no
mesmo intervalo de valores.
Esse gráfico mostra as várias combinações
de temperatura e tempo que resultam na
mesma medida de resistência à tração.

Prof. Cí nti a Paese Gi acomel lo 10


Radar
Um gráfico de radar compara os
valores agregados de várias séries de
dados.

Nesse gráfico, a série de dados que
cobre a maior parte da área, Marca A,
representa a marca com o maior
conteúdo de vitamina.




Ações
O gráfico de alta-baixa-fechamento é usado muitas vezes para ilustrar preços de ações.
Esse gráfico também pode ser usado com dados científicos para, por exemplo, indicar
mudanças de temperatura. Você deve organizar seus dados na ordem correta para criar
esse e outros gráficos de ações.

Um gráfico de ações que mede o volume tem dois eixos de valores: um para as colunas,
que medem o volume, e outro para os preços das ações. Você pode incluir volume em um
gráfico de alta-baixa-fechamento ou de abertura-alta-baixa-fechamento.


Prof. Cí nti a Paese Gi acomel lo 11
Bolhas
Um gráfico de bolhas é um tipo de gráfico xy (dispersão). O tamanho do marcador de
dados indica o valor de uma terceira variável.
Para organizar seus dados, coloque os valores de x em uma linha ou coluna e insira os
valores de y e os tamanhos das bolhas correspondentes nas linhas ou colunas adjacentes.

O gráfico nesse exemplo mostra que a Empresa A tem a maioria dos produtos e a maior
fatia do mercado, mas não necessariamente as melhores vendas.

Cone, cilindro e pirâmide
Os marcadores de dados em forma de cone, cilindro e pirâmide podem dar um efeito
especial aos gráficos de colunas e de barras 3D.


Rosca
Como um gráfico de pizza, o gráfico de
rosca mostra o relacionamento das partes
com o todo, mas pode conter mais de uma
série de dados. Cada anel do gráfico de
rosca representa uma série de dados.




Prof. Cí nti a Paese Gi acomel lo 12
4 4 D Di is st tr ri ib bu ui iç çõ õe es s d de e f fr re eq qü üê ên nc ci ia as s
Distribuição de freqüência é uma tabela resumida na qual os dados são organizados em
grupos de classe ou categorias convenientemente estabelecidas e numericamente
ordenadas.
As distribuições de freqüências são series heterógrafas, isto é, séries na qual o fenômeno
ou fato apresenta graduações ou subdivisões. Embora fixo, o fenômeno varia de
intensidade.
Nas distribuições de freqüência, os dados são agrupados segundo um critério de
magnitude, em classe ou pontos, permanecendo constante o fato, local e tempo, de tal
forma que se possa determinar a percentagem ou número, de cada classe. É um tipo de
apresentação que condensa uma coleção de dados conforme as freqüências ou repetições
de seus valores.

A construção da distribuição de freqüência depende do tipo de dado com os quais se está
lidando: contínuos ou discretos.

4.1 Construção de distribuição de freqüência para dados contínuos
Os principais estágios são:
1. Estabelecer a quantidade de classes ou intervalos de grupamento dos dados. O
número de classes deve variar entre 5 e 15. Aconselha-se utilizar n onde n é o
número de observações.
2. Determinar a amplitude das classes. Aconselha-se fazer amplitude / n
o
de classes.
(OBS: amplitude = maior valor – menor valor)
3. Enquadrar os dados nas classes, mediante contagem e apresentar os resultados em
uma tabela ou gráfico

Exemplo:
Os dados a seguir representam o tempo (em minutos) que 45 operadores de máquina
demoraram para fazer o setup de uma máquina.
6,5 4,0 7,1 8,3 5,4 7,6 9,0 15,7 16,7
6,4 5,0 8,5 5,7 7,7 7,2 12,4 7,1 5,5
9,7 4,4 7,0 6,3 8,3 6,9 5,7 7,6 7,9
7,9 6,0 8,2 10,4 9,9 3,9 9,8 8,2 5,6
7,9 6,4 7,4 7,0 13,0 8,7 6,4 6,7 7,4

1 – Número de classes 45 valores 45 =6,7 ≅ 7 classes
2 – Amplitude das classes 16,7 – 3,9 = 12,8 (Maior valor = 16,7; Menor valor =
3,9). Logo, tem-se a amplitude das classes 12,8 / 7 = 1,83 ≅ 2

Prof. Cí nti a Paese Gi acomel lo 13
3 – Escrever as classes e contar os valores

Tempo
(minutos)
Número de
operadores
% de
operadores
3 –| 5 4 8,9%
5 –| 7 15 33,3%
7 –| 9 18 40,0%
9 –| 11 4 8,9%
11 –| 13 2 4,4%
13 –| 15 0 0,0%
15 –| 17 2 4,4%
Total 45 100%

3 –| 5 equivale a 3 < x ≤ 5
Ou seja, são contados no
intervalo todos os valores
superiores a 3 e inferiores ou
iguais a 5.


A freqüência absoluta (f
i
) corresponde ao número de operadores
A freqüência relativa (f
ri
) corresponde ao percentual de operadores

4.2 Gráficos das distribuições de freqüência
Histograma de freqüências
Análise dos tempos para fazer o setup da máquina
4
15
18
4
2
0
2
0
2
4
6
8
10
12
14
16
18
20
3 –| 5 5 –| 7 7 –| 9 9 –| 11 11 –| 13 13 –| 15 15 –| 17
Tempo (minutos)
N
ú
m
e
r
o

d
e

o
p
e
r
a
d
o
r
e
s

Uma alternativa ao histograma de freqüências é o polígono de freqüências, construído
mediante a conexão dos pontos médios dos intervalos do histograma, com linhas retas.
Prof. Cí nti a Paese Gi acomel lo 14
Análise dos tempos para fazer o setup da máquina
4
15
18
4
2
0
2
0
2
4
6
8
10
12
14
16
18
20
3 –| 5 5 –| 7 7 –| 9 9 –| 11 11 –| 13 13 –| 15 15 –| 17
Tempo (minutos)
N
ú
m
e
r
o

d
e

o
p
e
r
a
d
o
r
e
s

OBS: uma vez que a área do polígono deve ser 100%, deve-se ligar o primeiro e o último
pontos médios com o eixo horizontal, de modo a cercar a área da distribuição observada.

Exercícios:
1. A tabela de dados representa o peso de 30 sacos de arroz da marca A selecionados
aleatoriamente em um supermercado. Construa a distribuição de freqüências e
apresente em um gráfico. (para facilitar os dados já estão ordenados)
922 930 936 950 954 954 958 965 968 974
977 979 987 989 1001 1006 1008 1010 1013 1017
1018 1034 1034 1035 1042 1044 1044 1048 1070 1116


2. Construa a distribuição de freqüência e o polígono de freqüências.
6,2 9,0 12,2 14,7 7,9 9,8 8,0 13,3 13,3 8,9
8,8 8,3 11,8 11,8 14,7 8,5 7,7 11,4 11,2 10,6









Prof. Cí nti a Paese Gi acomel lo 15
4.3 Construção de distribuição de freqüência para dados discretos
Na construção de uma distribuição de freqüência utilizando dados contínuos, perde-se
certa quantidade de informação porque os valores individuais perdem sua identidade
quando são agrupados em classes. Isso pode ou não ocorrer com dados discretos,
dependendo da natureza dos dados e os objetivos do analista.

Consideremos os seguintes dados relativos ao número de acidentes diários em um grande
estacionamento, durante o período de 50 dias.
1 6 3 6 2 4 5 3 7 9
5 4 5 3 4 5 6 0 8 4
4 1 9 5 7 5 5 4 5 8
4 5 3 2 6 7 4 3 1 4
0 0 5 4 2 6 6 2 8 7

Note que os dados estão entre 0 e 9.
Podemos construir uma distribuição de freqüência sem perda dos valores originais,
utilizando os próprios valores.


Classe
Freqüência
dias
% dos
dias
0 3 0,06
1 3 0,06
2 4 0,08
3 5 0,10
4 10 0,20
5 10 0,20
6 6 0,12
7 4 0,08
8 3 0,06
9 2 0,04
50 1,00
0
2
4
6
8
10
12
0 1 2 3 4 5 6 7 8 9
N
ú
m
e
r
o

d
e

d
i
a
s


Não houve perda de informação, ou seja, poderíamos construir a tabela original a partir da
distribuição de freqüências.
Prof. Cí nti a Paese Gi acomel lo 16
Por outro lado, poderíamos usar como classes 0-1, 2-3, 4-5, 6-7 e 8-9.

Classe
Freqüência
dias
% dos
dias
0-1 6 0,12
2-3 9 0,18
4-5 20 0,40
6-7 10 0,20
8-9 5 0,10
50 1,00
0
5
10
15
20
25
0-1 2-3 4-5 6-7 8-9
N
ú
m
e
r
o

d
e

d
i
a
s


De modo geral prefere-se uma distribuição de freqüência sem perda de informação
quando:
• Os dados são constituídos de valores inteiros.
• Há menos de, digamos, 16 classes.
• Há suficientes observações para originar uma distribuição significativa

Por outro lado, prefere-se uma distribuição de freqüência com perda da informação
quando:
• Estão em jogo inteiros e não inteiros
• Só existem inteiros, porém em número muito alto para permitir uma distribuição
útil.
• A perda da informação é de importância secundária (por exemplo, o
arredondamento do peso de um caminhão ou da renda anual para a unidade mais
próxima)
Prof. Cí nti a Paese Gi acomel lo 17
4.4 Construção de uma distribuição de freqüência acumulada
Uma distribuição de freqüência acumulada tem por objetivo indicar o número ou
percentual de itens menores do que, ou iguais a, determinado valor.
No caso dos acidentes podemos construir distribuições acumuladas para a distribuição com
e sem perda da informação.

Sem perda da informação
Classe N° dias % dias
Freqüências
acumuladas
0 3 0,06 0,06
1 3 0,06 0,12
2 4 0,08 0,20
3 5 0,10 0,30
4 10 0,20 0,50
5 10 0,20 0,70
6 6 0,12 0,82
7 4 0,08 0,90
8 3 0,06 0,96
9 2 0,04 1,00
50 1,00

Com perda da informação
Classe N° dias % dias
Freqüências
acumuladas
0-1 6 0,12 0,12
2-3 9 0,18 0,30
4-5 20 0,40 0,70
6-7 10 0,20 0,90
8-9 5 0,10 1,00
50 1,00
Podemos, pela primeira tabela, concluir que 90% dos dados correspondem a valores
menores ou iguais a 7. ou seja, Em 90% dos dias o número de acidentes não excede 7.



Prof. Cí nti a Paese Gi acomel lo 18
0.0
0.2
0.4
0.6
0.8
1.0
0 1 2 3 4 5 6 7 8 9
0.0
0.2
0.4
0.6
0.8
1.0
0-1 2-3 4-5 6-7 8-9


Os polígonos de freqüências acumuladas são também chamados de ogivas.
0,0
0,2
0,4
0,6
0,8
1,0
0 1 2 3 4 5 6 7 8 9
N. acidentes
%

d
o
s

d
i
a
s


4.5 Distribuições de freqüência para dados nominais e por postos
As distribuições de freqüências para dados nominais se assemelham às distribuições de
freqüência normais, porém apresentam as categorias em lugar das classes.
Por exemplo:
Vendas
absolutas
Vendas
relativas
Limão 600 0,375
Laranja 400 0,250
Melão 300 0,188
Melancia 200 0,125
Abacaxi 100 0,063
Total 1600 1,000

Usa-se o gráfico de barras ou colunas para representar dados nominais.

Prof. Cí nti a Paese Gi acomel lo 19
4.6 Gráficos para distribuições de freqüência
A distribuição de freqüência é muitas vezes utilizada para determinar o formato da
distribuição. A distribuição dos dados pode ser simétrica ou não.








Exercício:
Construa a distribuição de freqüência e desenhe o histograma dos dados a seguir. Qual é
o formato da distribuição?
20,7 18,7 26,2 21,7 18,8 20,6 20,7 20,2
18,5 21,3 19,3 18,3 25,1 18,8 24,3 28,4
23,3 25,3 20,4 18,3 24,0 21,2 19,4 20,6
18,9 26,6 22,4 18,9 22,6 21,4 27,0 23,6
28,3 20,3 21,7 18,2 20,3 19,2 24,7 18,4





Distribuições discretas
Simétrica Assimétrica à esquerda Assimétrica à direita
Prof. Cí nti a Paese Gi acomel lo 20
5 5 M Me ed di id da as s d de e t te en nd dê ên nc ci ia a c ce en nt tr ra al l
As medidas de tendência central são usadas para indicar um valor que tende a representar
melhor um conjunto de números. As três medidas mais usadas são a média, a mediana e a
moda.

5.1 Média
5.1.1 Média aritmética
A média aritmética é o resultado da divisão da soma de todos os valores da amostra pela
quantidade total de valores.





OBS: x lê-se X barra e significa média.

=
n
i
i
x
1
lê-se somatório de x
i
, i variando de 1 a n.

=
+ + + =
n
i
n i
x ... x x x
1
2 1


Se um estudante faz quatro provas, obtendo as notas 70, 60, 80 e 75, sua média é: 71,25.

Algumas propriedades da média
• A média de um conjunto de dados pode ser sempre calculada.
• Para um dado conjunto de números, a média é única.
• A média é sensível a (ou afetada por) todos os valores do conjunto, assim, se um
número se modifica, a média também se modifica.
• Somando-se uma constante a cada valor do conjunto, a média ficará aumentada do
valor constante. Analogamente, extraindo-se um valor constante de cada valor do
conjunto, a média também ficará diminuída desse valor.
• A soma dos desvios dos números de um conjunto a contar da média é zero.

n
x
x
n
i
i ∑
=
=
1
ou simplesmente
n
x
x

=
Prof. Cí nti a Paese Gi acomel lo 21
5.1.2 Média ponderada
A fórmula anterior para calcular a média aritmética supõe que cada observação tenha a
mesma importância. A média ponderada considera que as informações não tem a mesma
importância, ou seja, devem ser levados em conta o peso das informações.





Onde w
i
é o peso da observação de ordem i.

Consideremos que um professor informe a classe de que haverá dois exames parciais,
valendo cada um 30% da nota e um exame final valendo 40%. Um aluno obtém
desempenho 70 na primeira avaliação, 65 na segunda e 80 no exame final.
Média ponderada = 50 72
00 1
40 0 80 30 0 65 30 0 70
1
1
,
,
, x , x , x
w
x w
n
i
i
n
i
i i
=
+ +
=


=
=

5.1.3 Média geométrica
A média geométrica é utilizada quando se deseja fazer a média de taxas de juro, por
exemplo. Neste caso, multiplicam-se os n termos e em seguida extraí-se a raiz de ordem
n.
A média geométrica é o resultado da raiz de ordem n do produto de todos os valores da
amostra.



OBS:
n
n
i
i
x ... x x x x
3 2 1
1
=

=
lê-se produtório de x
i
, i variando de 1 a n.

5.1.4 Média harmônica
A média harmônica de um conjunto de n números é a recíproca da média aritmética dos
recíprocos dos números.
Média geométrica =
n
n
i
i
x

=1

Média ponderada =


=
=
n
i
i
n
i
i i
w
x w
1
1

Prof. Cí nti a Paese Gi acomel lo 22


5.1.5 Relação entre as médias aritmética, geométrica e harmônica
A média geométrica de um conjunto de números positivos é menor ou igual à sua média
aritmética, mas é maior ou igual à sua média harmônica.
Em símbolos: x G H ≤ ≤
O sinal de igualdade vale somente quando todos os números forem iguais.
Exemplo: o conjunto 2,4 e 8 tem média aritmética 4,67, média geométrica 4 e média
harmônica 3,43.


5.1.6 Cálculo da média para uma distribuição de freqüência
A média de uma distribuição de freqüência é calculada com base valor e na freqüência de
cada classe.
n
x f
x
i i ∑
=

Onde f
i
é a freqüência da classe i.
Para dados com perda da informação, utiliza-se em lugar de x
i
o ponto médio do intervalo.

Exemplo:
Classe
Ponto médio
(x
i
)
N° dias (f
i
) f
i
x
i

0-1 0,5 6 3,0
2-3 2,5 9 22,5
4-5 4,5 20 90,0
6-7 6,5 10 65,0
8-9 8,5 5 42,5
n = 50 223
46 4
50
223
,
n
x f
x
i i
= = =



Média harmônica =
∑ ∑
=

x
n
x n
n
i i
1 1 1
1
1

Prof. Cí nti a Paese Gi acomel lo 23

Classe (x
i
) N° dias (f
i
) f
i
x
i

0 3 0
1 3 3
2 4 8
3 5 15
4 10 40
5 10 50
6 6 36
7 4 28
8 3 24
9 2 18
50 222
44 4
50
222
,
n
x f
x
i i
= = =



Se fizéssemos a média a partir da tabela original obteríamos o valor de 4,44.

5.2 Mediana
A principal característica da mediana é dividir o conjunto de números em dois grupos
iguais: a metade terá valores inferiores ou iguais à mediana e a metade terá valores
superiores ou iguais à mediana.
Para calcular a mediana inicia-se ordenando os valores em ordem crescente. Em seguida
conta-se até a metade deles. Em geral a mediana ocupa a posição (n+1)/2.
Para número ímpar de valores a mediana é o valor do meio. Para amostras com número
par de unidades, a mediana é a média dos dois valores centrais.

Exemplos:
Amostra Número de elementos Dados ordenados Mediana
2 3 3 4 2 5 1 4 5 9 elementos ímpar 1 2 2 3 3 4 4 5 5 3
2 4 3 1 7 3 8 9 2 4 10 elementos par 1 2 2 3 3 4 4 7 8 9 3,5
3 4 2 3 1 5 3 2
6 7 3 2 5 2 3 6 2 1

Prof. Cí nti a Paese Gi acomel lo 24
Uma medida semelhante à mediana é o quartil. Os quartis dividem o conjunto ordenado de
dados em quatro grupos iguais. 25% dos valores são inferiores ao primeiro quarti (Q
1
),
25% estão entre Q
1
e a mediana, 25% estão entre a mediana e o terceiro quartil (Q
3
).
OBS: o segundo quartil corresponde à mediana (Q
2
=mediana).



LI Q
1
Q
2
=mediana Q
3
LS
LI = Limite inferior LS=Limite superior

5.2.1 Cálculo da mediana para uma distribuição de freqüência
Da mesma forma que para dados apresentados em série, a mediana é o ponto que divide
as informações ao meio.

A mediana pode ser obtida por interpolação, e é dada pela fórmula.
c
f
f
n
L Mediana
mediana

) (
2
1
1
|
|
|
|
¹
|

\
|

+ =


onde: L
1
= limite inferior da classe mediana, isso é, da classe que contém a mediana
n = número de itens dos dados (freqüência total)
(Σf)
1
=soma de todas as freqüências das classes anteriores à mediana
f
medi ana
= freqüência da classe mediana
c = amplitude do intervalo da classe mediana

Exemplo:
No caso dos acidentes, temos 50 observações, logo a mediana deve estar localizada na
posição (50+1)/2 = 25,5, ou seja, a classe que contém a mediana é a classe 4-5.
O limite inferior da classe mediana é 4. Antes da classe mediana ((Σf)
1
) haviam “passado”
15 dados. A classe mediana contém 20 observações e a amplitude da classe mediana é 1.
Então
5 4 5 0 4 1
20
15
2
50
4 , , x Mediana = + =
|
|
|
|
¹
|

\
|

+ =
Prof. Cí nti a Paese Gi acomel lo 25
5.3 Moda
A moda é o valor que aparece com maior freqüência na amostra. Um conjunto de dados
pode não apresentar moda, apresentar uma moda, duas modas (bimodal), três modas
(trimodal) ou mais modas (polimodal).

Exemplo:
A moda do conjunto 2 3 4 3 2 3 5 1 2 é 3, pois o três é o valor que mais vezes aparece.

5.3.1 Cálculo da moda para uma distribuição de freqüência
Quando não há perda da informação, a moda é idêntica ao valor da classe modal, que é a
classe com maior freqüência.
Quando há perda da informação, a moda representa o(s) valor(es) de X
correspondente(m) ao(s) ponto(s) de ordenada(s) máxima(s) da curva e pode ser
calculada pela fórmula:

c L Moda
|
|
¹
|

\
|
∆ + ∆

+ =
2 1
1
1

onde: L
1
=limite inferior da classe modal (isto é, a classe que contém a moda)

1
=excesso da freqüência modal sobre a da classe imediatamente anterior

2
= excesso da freqüência modal sobre a da classe imediatamente posterior
c = amplitude da classe modal

Exemplo:
No caso dos acidentes....
Classe N° dias (f
i
)
0-1 6
2-3 9
4-5 20
6-7 10
8-9 5
n = 50
52 4 52 0 4 1
10 11
11
4 , , Moda = + = |
¹
|

\
|
+
+ =
Classe modal
Prof. Cí nti a Paese Gi acomel lo 26
A distribuição pode ter mais de uma moda, sendo bimodal ou de modas múltiplas. OBS: as
duas modas não precisam, necessariamente, ter a mesma freqüência. Isso acontece
quando há um deslocamento da distribuição.







5.4 Relação entre as medidas de tendência central
Para as curvas de freqüência unimodal moderadamente inclinadas (assimétricas) vigora a
relação empírica
Média – Moda = 3 (Média – Mediana)







Exercícios:
1. Para os seguintes conjuntos de dados, determine os valores da média aritmética,
média geométrica, média harmônica, mediana e moda.
a) 12 15 16 15 12 15 15 5 7 14


b) 2 6 3 6 3 3 4


c) 2 8 3 10 2 1 6 9 4 3


d) 38 38 70 92 22 17

Moda Classe modal Classes modais Classes modais
Mediana
Média
Moda
Mediana
Média
Moda
Mediana
Média
Moda
Prof. Cí nti a Paese Gi acomel lo 27
2. Determine Q
1
, Q
2
e Q
3
nos conjuntos de dados que seguem:
a) 15 15 4 7 16 16 4 11 7
8 19 7 6 12 17 16 9 20
16 14 3 12 4 9 8 3 16


b) 4 12 4 7 4 9 11 12 5 8 9 4


3. Qual seria o efeito sobre a média de um conjunto de dados se se adicionasse 10:
a) a um dos números? b) a cada um dos números?


4. João possui 5 imóveis localizados nesta cidade. Ele deseja saber qual o valor
médio, por metro quadrado, das suas propriedades. Sabendo que imóveis no centro
valem R$ 450,00/m
2
e imóveis em bairros valem R$ 300,00/m
2
, calcule o valor
médio por m
2
do seu capital.
Apartamento de 80 m
2
no centro
Pavilhão de 450 m
2
no bairro
Casa de 280 m
2
no centro
Apartamento de 120 m
2
no bairro
Casa de 320 m
2
no bairro

Prof. Cí nti a Paese Gi acomel lo 28
6 6 M Me ed di id da as s d de e v va ar ri ia ab bi il li id da ad de e
As medidas de variabilidade ou dispersão indicam se os valores estão relativamente
próximos ou não uns dos outros.
Na análise de um conjunto de dados é necessário que sejam observados tanto as
informações relativas à localização (medidas de tendência central) quanto as informações
de dispersão (medidas de variabilidade).
Exemplo:






Exemplo:
Duas máquinas estão sendo comparadas. A seguir está descrita a produção de cada uma
durante 5 dias.
Produção Média
Máq 1 10 10 10 10 10 10
Máq 2 5 18 8 3 16 10
Você acha que a programação da produção para as duas máquinas pode ser a mesma
durante 1 semana? Por quê?


Consideraremos quatro medidas de dispersão: amplitude, variância, desvio padrão e
coeficiente de variação. Todas elas, exceto a amplitude, têm na média o ponto de
referência. Em cada caso, o valor zero indica ausência de variação; a dispersão aumenta à
proporção que aumenta o valor da medida (intervalo, variância, etc.).
6.1 Amplitude
Também conhecida como intervalo.
A amplitude de um grupo de dados é, de modo geral, mais simples de calcular e de
entender. Consiste na diferença entre o maior e o menor valor, ou seja, entre os valores
extremos.

Amplitude = X
max
- X
mín


Pequena variabilidade
Grande variabilidade
Prof. Cí nti a Paese Gi acomel lo 29
A maior limitação da amplitude é o fato de só levar em conta os valores extremos de um
conjunto, nada informado sobre os outros valores.

Exemplo:
1. Calcule a amplitude dos seguintes conjuntos de dados. Você acha que a dispersão
dos conjuntos é igual?
a) 15 15 12 14 16 16 4 15
b) 5 4 5 4 6 5 16 4


6.2 Variância
Calcula-se a variância de uma amostra elevando-se as diferenças de cada um dos valores
em relação à média, somando-se estas diferenças e dividindo-se por n-1.
1
2
2


=

n
) x x (
s
i
x


Quando se deseja a variância populacional, deve-se substituir n-1 por n na fórmula.
Usualmente iremos utilizar a variância amostral.

Exemplo:
Cálculo da variância do conjunto de dados 2,4,6,8, e 10.

x
i
x
x x
i
− ( x x
i
− )
2

2 6 -4 16
4 6 -2 4
6 6 0 0
8 6 2 4
10 6 4 16
Somas 0 40
10
1 5
40
1
2
2
=

=


=

n
) x x (
s
i
x



6.3 Desvio padrão
O desvio padrão é simplesmente a raiz quadrada da variância. Assim se a variância é 81, o
desvio padrão será 9.
Prof. Cí nti a Paese Gi acomel lo 30
( )
1 1
2
2
2


=


=



n
n
x
x
n
) x x (
s
i
i
i
x


Como anteriormente, a substituição de n-1 por n produz as fórmulas para a população.
A unidade na qual o desvio padrão é expresso é a mesma dos dados originais, ou seja, se
os dados são em Reais, o desvio padrão também vai ser em reais (e a variância em
reais
2
).

Exemplo:
Cálculo do desvio padrão do conjunto de dados 20, 5, 10, 15 e 25.
Usando a fórmula normal:
x
i
x
x x
i
− ( x x
i
− )
2

20 15 5 25
5 15 -10 100
10 15 -5 25
15 15 0 0
25 15 10 100
Somas 0 250
91 7 5 62
1 5
250
1
2
, ,
n
) x x (
s
i
x
= =

=


=



Usando a fórmula simplificada:

= + + + + = 75 25 15 10 5 20
i
x

= + + + + = 1375 25 15 10 5 20
2 2 2 2 2 2
i
x
( )
91 7
1 5
250
1 5
5
75
1375
1
2
2
2
,
n
n
x
x
s
i
i
x
=

=


=


=




6.4 Coeficiente de variação
O coeficiente de variação é uma medida de variação útil para comparar conjuntos de
dados diferentes. Ele é usualmente expresso em percentual.

O coeficiente de variação é dado pelo quociente entre o desvio padrão e a média dos
dados.
Prof. Cí nti a Paese Gi acomel lo 31
X
S
Média
padrão Desvio
CV
x
= =


Exemplo:
Entre os conjuntos de dados a seguir apresentados, qual apresenta maior variabilidade?
Conjunto A Conjunto B
12 3
25 4
16 5
23 2
Solução: 3187 0
19
06 6
,
,
MédiaA
A Padrão Desvio
CVA = = =
3688 0
5 3
29 1
,
,
,
MédiaB
B Padrão Desvio
CVB = = =
Então o conjunto que possui maior variabilidade é o conjunto B.

Exercícios:
1. O desvio padrão pode ser zero? Explique. Pode ser negativo? Explique.


2. Calcule a média e o desvio padrão para as vendas diárias.
R$ 8100 R$ 9000 R$ 4580 R$ 5600 R$ 7680 R$ 4800 R$ 10640


3. Consideremos os seguintes dados correspondentes a preços de propostas.
26,5 27,5 25,5 26,0 27,0 23,4 25,1 26,2 26,8
Calcule a amplitude, a variância, o desvio padrão, a média, moda, mediana e os
quartis

7 7 M Me ed di id da as s d de e a as ss si im me et tr ri ia a e e c cu ur rt to os se e
As medidas de assimetria e curtose indicam qual o formato da distribuição dos dados em
relação à distribuição normal (descrita adiante).
Assimetria é o grau de desvio, ou afastamento da simetria, de uma distribuição. Ela
retorna a distorção de uma distribuição. O valor enviesado caracteriza o grau de assimetria
de uma distribuição em torno de sua média. Um valor positivo indica uma distribuição com
uma ponta assimétrica que se estende em direção a valores mais positivos. Um valor
Prof. Cí nti a Paese Gi acomel lo 32
negativo indica uma distribuição com uma ponta assimétrica que se estende em direção a
valores mais negativos. No excel a função correspondente é distorção.
Assimetria =

|
¹
|

\
| −
− −
3
2 1 s
x x
) n )( n (
n
i







A curtose é o grau de achatamento de uma distribuição e caracteriza uma distribuição em
cume ou plana se comparada à distribuição normal (chamada mesocúrtica). A curtose
positiva indica uma distribuição relativamente em cume (chamada leptocúrtica). A curtose
negativa indica uma distribuição relativamente plana (chamada platicúrtica). A função
correspondente no excel chama-se CURT, e calcula a curtose de um conjunto de dados de,
no máximo, 30 valores.
Curtose =
) n )( n (
) n (
s
x x
) n )( n )( n (
) n ( n
i
3 2
1 3
3 2 1
1
2
4
− −


¦
)
¦
`
¹
¦
¹
¦
´
¦
|
¹
|

\
| −
− − −
+










Simétrica
a=0
Assimétrica negativa
a<0
Assimétrica positiva
a>0
Mesocúrtica
c=0
Platicúrtica
c<0
Leptocúrtica
c>0
Prof. Cí nti a Paese Gi acomel lo 33
8 8 I In nt tr ro od du uç çã ão o à à p pr ro ob ba ab bi il li id da ad de e

As origens da probabilidade remontam ao século XVI. As aplicações iniciais referiam-se
quase todas a jogos de azar. Os jogadores aplicavam o conhecimento da teoria das
probabilidades para planejar estratégias de apostas.
Atualmente a utilização das probabilidades ultrapassou de muito o âmbito desses jogos.
Hoje os governos, as empresas, as organizações profissionais incorporam a teoria das
probabilidades em seus processos diários de deliberações.
Independentemente de qual seja a aplicação em particular, a utilização das probabilidades
indica que existe um elemento de acaso, ou de incerteza, quanto à ocorrência ou não de
um evento futuro. Assim é que, em muitos casos, pode ser virtualmente impossível afirmar
por antecipação o que ocorrerá, mas é possível dizer o que pode ocorrer.
Há numerosos exemplos de tais situações no campo dos negócios e do governo. A previsão
da procura de um novo produto, o cálculo dos custos da produção, a previsão das safras,
a compra de apólices de seguros, a avaliação da redução de impostos sobre a inflação. As
probabilidades são úteis pois ajudam a desenvolver estratégias.
O ponto central em todas as situações é a possibilidade de quantificar quão provável é
determinado evento.
As probabilidades são utilizadas para exprimir a chance de ocorrência de determinado
evento. O estudo das probabilidades é importante pois elas são a base para o estudo
estatístico.

8.1 Experimento aleatório
Experimentos aleatórios são aqueles que, mesmo repetidos várias vezes sob condições
semelhantes, apresentam resultados imprevisíveis.
Características dos experimentos aleatórios:
1. Podem ser repetidos indefinidamente sob as mesmas condições.
2. Não se pode adiantar um resultado particular, mas pode-se descrever todos os
resultados possíveis
3. Se repetidos muitas vezes apresentarão uma regularidade em termos de
freqüência de resultados.
Exemplos: lançamento de uma moeda, lançamento de um dado, aposta na loteria, ....

Ao descrever um experimento aleatório deve-se especificar não somente que operação ou
procedimento deva ser realizado, mas também o que deverá ser observado. (Note a diferença
entre o 2
o
e o 3
o
)
• Joga-se um dado e observa-se o número obtido na face superior.
• Joga-se uma moeda 4 vezes e o observa-se o número de caras obtido.
Prof. Cí nti a Paese Gi acomel lo 34
• Joga-se uma moeda 4 vezes e observa-se a seqüência de caras e coroas.
• Um lote de 10 peças contém 3 defeituosas. As peças são retiradas uma a uma
(sem reposição) até que a última defeituosa seja encontrada. Conta-se o
número de peças retiradas.
• Uma lâmpada nova é ligada e observa-se o tempo gasto até queimar.
• Lança-se uma moeda até que ocorra uma cara e conta-se então o número de
lançamentos necessários.
• Lançam-se dois dados e anota-se o total de pontos obtidos.
• Lançam-se dois dados e anota-se o par obtido.

8.2 Espaço amostral
O espaço amostral (S) de um experimento aleatório é o conjunto de todos os possíveis
resultados do experimento.
n(S) é o número de elementos do conjunto S, ou o número de resultados possíveis.

Exemplo: um experimento é o lançamento de uma moeda. Os possíveis resultados são
cara ou coroa, então, S={cara, coroa}.
Em dois lançamentos de uma moeda, sendo interessante observar a ordem dos resultados,
os possíveis resultados são: 1) cara e cara, 2) cara e coroa, 3) coroa e cara e 4) coroa e
coroa. O espaço amostral é S={(Ca,Ca), (Ca,Co), (Co,Ca) e (Co,Co)}. n(S)=4

8.3 Eventos
Chama-se de evento qualquer subconjunto do espaço amostral S de um experimento
aleatório, ou seja, qualquer resultado do espaço amostral.
n(A) é o número de resultados associados ao evento A.

Exemplo: no lançamento de uma moeda S={cara, coroa}. Um evento de interesse A pode
ser “obter cara no lançamento de uma moeda” e n(A)=1.
No lançamento de um dado, o evento de interesse (A) pode ser obter face par e n(A)=3.

8.4 A probabilidade de um evento
Seja A um evento. A probabilidade deste evento ocorrer é dada por P(A), que é um
número entre 0 e 1. Quanto mais próxima a probabilidade estiver de 1, maior será sua
chance de ocorrência. A um evento impossível atribui-se probabilidade 0, enquanto que
um evento certo tem probabilidade 1.
Há três maneiras diferentes de calcular ou estimar probabilidades: o método clássico,
quanto o espaço amostral tem resultados igualmente prováveis. O método empírico, que
Prof. Cí nti a Paese Gi acomel lo 35
se baseia na freqüência relativa de ocorrência de um evento num grande número de
provas repetidas e o método subjetivo, que utiliza estimativas pessoais de probabilidade,
baseadas num certo grau de crença. Em geral vamos utilizar o método clássico de cálculo
de probabilidades.

Quando os resultados são equiprováveis, a probabilidade de cada resultado é função do
número de resultados possíveis:
possíveis resultados de total úmero n
A evento ao associados resultados de número
) A ( P =

Exemplo:
Experimento: lançar um dado e observar a face superior
Espaço amostral: S={1,2,3,4,5,6} n(S)=6
Evento A: face par n(A)=3
P(A)= 3/6 = ½ = 0,5 ou 50%

OBS: existe uma pequena diferença entre probabilidade e chance de um evento. A probabilidade
relaciona o número de resultados de A com o número de resultados total, enquanto que chance
compara o número de resultados de A com o número de resultados de outro evento (B ou C).
Em uma urna com 5 bolas brancas, 3 vermelhas e 2 azuis,
A probabilidade de selecionar uma bola branca é P(branca)=5/10=0,5 ou 50%
E a chance de selecionar uma bola branca é 5:5, que é semelhante a 1:1, o que significa que existe a
mesma chance de retirar uma bola branca ou uma bola de outra cor.

Exercícios:
1. Escreva o espaço amostral no lançamento de um dado. Ache a probabilidade
associada a cada evento.


2. Extrai-se uma carta de um baralho de 52 cartas. Determine a probabilidade de:
a) um valete
b) uma carta vermelha
c) um dez de paus
d) uma figura
e) uma carta de ouros
f) um nove vermelho

Prof. Cí nti a Paese Gi acomel lo 36
3. Complete a tabela com os valores calculados da probabilidade dos eventos
ocorrerem

Experimento Evento P(Evento)
Lançar uma moeda uma vez Cara

Lançar um dado uma vez Face 3

Extrair uma carta de um baralho com
52 cartas
6 vermelho

Extrair uma carta de um baralho de 52
cartas
Valete de ouros


4. Encontre n(S), n(A) e P(A) no lançamento de dois dados
Experimento: Lançar dois dados e observar a seqüência dos resultados
S={(1,1), (1,2), (1,3),.....,(6,4),(6,5),(6,6)}
N(S)=36
a. A: apareçam faces iguais
b. A: a segunda face é o dobro da primeira
c. A: apareçam somente números ímpares
d. A: apareçam faces iguais ou a segunda face é o quadrado da primeira
e. A: a soma das faces é igual a 7


5. Há 50 bolas numa urna: 20 azuis, 15 vermelhas, 10 pretas e 5 verdes. Misturam-se
as bolas. Determine a probabilidade da bola escolhida ser:
a) Verde
b) Azul
c) Verde ou azul
d) Não-vermelha
e) Vermelha ou verde
f) Amarela
g) Não-amarela


Prof. Cí nti a Paese Gi acomel lo 37
6. Um motorista tem uma marca num de seus pneus, e 20% do pneu é visível. Ao
parar, qual a probabilidade da marca ficar na parte visível?



7. Um motor tem 6 velas, e uma está defeituosa, devendo ser substituída. Duas estão
em posição de difícil acesso, o que torna difícil a substituição.
a) Qual a probabilidade de a vela defeituosa estar em posição difícil?
b) Qual a de não estar em posição difícil?



8. Os dados compilados pela gerência de um supermercado indicam que 915 dentre
1500 clientes compradores de domingo gastam mais de R$ 40,00 em suas compras.
Estime a probabilidade de um comprador em qualquer domingo gastar mais de R$
40,00.


9. Uma pesquisa de tráfego levada a efeito das 5 às 6 horas da manhã num trecho de
uma rodovia federal revelou que, de 200 carros que pararam para uma verificação
rotineira de segurança, 25 tinham pneus em más condições. Estime a probabilidade
de um carro que pare naquele trecho ter seus pneus em boas condições



8.5 Cálculo das probabilidades
Muitas aplicações da estatística exigem a determinação da probabilidade de combinações
dos eventos. Há duas características de combinações. Pode ser necessário determinar a
probabilidade de ambos os eventos acontecerem P(A e B) ou a probabilidade de um deles,
A ou B, ou seja, P(A ou B).

Em um prédio com 2 elevadores, poderíamos perguntar: Qual a probabilidade de ambos
elevadores estarem em serviço? Ou então, Qual a probabilidade de um ou outro elevador
estar em serviço?

Ambos implica P(A e B)
Um ou outro implica P(A ou B)

Prof. Cí nti a Paese Gi acomel lo 38
Regra da adição:
A regra da adição leva em conta a ocorrência do evento A ou do evento B ou de ambos os
eventos e é denotada por P(A∪B).




P(A ou B) = P(A) + P(B) – P(A e B)
Quando os eventos são mutuamente excludentes (não tem elementos em comum), então a
probabilidade de ambos é nula e o termo P(A e B) será zero.
Se A e B são mutuamente excludentes P(A ou B) = P(A) + P(B)

OBS: Para apresentar os eventos utilizam-se os Diagramas de Venn [apresentados por John Venn
(1834-1923)], que representam os espaços amostrais e os eventos como círculos, quadrados, ou outra
figura geométrica conveniente.


Exercícios:
1. Numa urna existem 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso.
Qual a probabilidade do número ser par ou maior que 4?


2. Numa urna existem 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso.
Qual a probabilidade do número ser um número primo ou maior que 8?
A B

Prof. Cí nti a Paese Gi acomel lo 39
Regra da multiplicação
Considerando-se dois eventos A e B de um mesmo espaço amostral, a probabilidade de A e
B ocorrerem P(A∩B) é dada por:





A probabilidade de A e B é igual à probabilidade de A, dado B, vezes
a probabilidade de B.
P(A e B) = P(A|B) P(B)
Onde P(A|B) é a probabilidade de A ocorrer dado que B tenha ocorrido.

Quando a probabilidade de B ocorrer não depender de A ter ocorrido, dizemos que A e B
são independentes, e P(B| A)=P(B)
Se A e B são independentes P(A e B)=P(A)P(B)

Exemplo 1: Deve-se inspecionar uma grande caixa de peças. Os registros indicam que 2%
das caixas acusam conteúdo inferior ao estipulado. Escolhidas duas caixas aleatoriamente,
qual a probabilidade de ambas acusarem conteúdo inferior, admitindo-se que a remessa
inspecionada é semelhante as anteriores (isto é, 2% de deficientes)?
P(ambas deficientes)=P(deficiente)P(deficiente)
=0,02 x 0,02
=0,0004 ou seja, 0,04% de probabilidade das caixas serem defeituosas.

Exemplo 2: Suponha que 20 canetas estão expostas numa papelaria. Seis são vermelhas e
14 azuis. Do conjunto de 20, iremos escolher 2 canetas aleatoriamente. Qual a
probabilidade de que as duas canetas selecionadas sejam vermelhas?
Neste caso os eventos não são independentes, pois a cor da primeira caneta
selecionada vai determinar a probabilidade da segunda caneta ser vermelha.
Seja A=a segunda caneta selecionada é vermelha
B=a primeira caneta selecionada é vermelha
Desejamos P(A e B) = P(A|B) P(B) = 0789 0
380
30
20
6
19
5
, = |
¹
|

\
|
= |
¹
|

\
|
|
¹
|

\
|

A B

Prof. Cí nti a Paese Gi acomel lo 40

Regras de probabilidade
P(A ou B), Para eventos não mutuamente excludentes:
P(A ou B ou ambos) = P(A) + P(B) – P(A e B)
para eventos mutuamente excludentes:
P(A ou B) = P(A) + P(B)
P(A e B), para eventos independentes:
P(A e B) = P(A) . P(B)
Para eventos dependentes
P(A e B) = P(B).P(A/B) ou P(A).P(B/A)


Outra forma de apresentar os eventos é através de tabelas de contingência (tabelas com
cruzamento de classificações).
Por exemplo:
Vermelha Preta Totais
Ás 2 2 4
Não ás 24 24 48
Totais 26 26 52


Exercícios

1. Uma urna contém 6 bolas vermelhas e 4 azuis. Em duas bolas consecutivas, sem
reposição, determine a probabilidade de retirar a primeira azul e a segunda
vermelha.


2. Uma urna contém 6 bolas vermelhas e 4 azuis. Em duas bolas consecutivas, com
reposição, determine a probabilidade de retirar a primeira azul e a segunda
vermelha.



3. Em um lote de 12 peças, quatro são defeituosas. Retira-se uma peça e inspeciona-
se. Qual a probabilidade:
a. Da peça ser defeituosa
b. Dela não ser defeituosa


Prof. Cí nti a Paese Gi acomel lo 41


4. Uma loja dispõe de pneus novos e recapados. Entre 100 pneus, sabe-se que 30 são
recapados.
a. Se um cliente levar um pneu, qual a probabilidade de que ele seja recapado?

b. Se um cliente levar dois pneus, qual a probabilidade de que ambos sejam
recapados?


c. Se um cliente levar 4 pneus, qual a probabilidade de que todos sejam
recapados?




5. Um dado é lançado 3 vezes. Calcule a probabilidade de que se obtenha face 6 nos 3
lançamentos.





6. Uma urna contém 50 bolas numeradas de 1 a 50. Serão selecionadas 5 bolas, sem
reposição. Qual a probabilidade de que uma pessoa que tenha feito um jogo
anotando os 5 número acerte todos?




Prof. Cí nti a Paese Gi acomel lo 42
7. Nos últimos anos, as empresas de cartões de crédito intensificaram esforços no
sentido de abrir mais contas para alunos de faculdade. Suponha que uma amostra
de 200 alunos em sua faculdade apresentou as seguintes informações em termos
de o aluno possuir cartão de crédito bancário e/ou cartão de crédito de viagem e
entretenimento:

CC de viagem e entretenimento
Sim Não
Totais
Sim 60 60 120
CC bancário
Não 15 65 80
Totais 75 125 200

a. Se um aluno é selecionado aleatoriamente, qual a probabilidade de que o
aluno possua um cartão de crédito bancário?
b. Se um aluno é selecionado aleatoriamente, qual a probabilidade de que o
aluno não possua um cartão de crédito bancário?
c. Se um aluno é selecionado aleatoriamente, qual a probabilidade de que o
aluno possua um cartão de crédito bancário e um cartão de viagem e
entretenimento?
d. Se um aluno é selecionado aleatoriamente, qual a probabilidade de que o
aluno não possua um cartão de crédito bancário nem cartão de viagem e
entretenimento?
e. Se um aluno é selecionado aleatoriamente, qual a probabilidade de que o
aluno possua um cartão de crédito bancário ou possua um cartão de viagem
e entretenimento?
f. Suponha que um aluno possui um cartão de crédito bancário. Qual a
probabilidade de que ele possua um cartão de viagem e entretenimento?
g. Suponha que o aluno não possui um cartão de viagem e entretenimento.
Qual a probabilidade de que ele ou ela possua um cartão de crédito
bancário?
h. Os dois eventos, possuir um cartão de crédito bancário e possuir um cartão
de viagem e entretenimento, são estatisticamente independentes? Explique.

Prof. Cí nti a Paese Gi acomel lo 43

9 9 D Di is st tr ri ib bu ui iç çõ õe es s d de e p pr ro ob ba ab bi il li id da ad de e

O histograma é usado para apresentar dados amostrais (Amostra=conjunto de
observações extraídas de uma população)
Por exemplo, 50 valores de satisfação dos clientes são interpretados como uma amostra
da satisfação de todos os clientes.
O uso de métodos estatísticos permite que se analise essa amostra e se tire alguma
conclusão sobre a satisfação dos clientes.
Uma distribuição de probabilidade é um modelo matemático que relaciona um certo valor
da variável em estudo com a sua probabilidade de ocorrência.

Há dois tipos de distribuição de probabilidade
1. Distribuições Contínuas: Quando a variável que está sendo medida é expressa
em uma escala contínua, como por exemplo, o peso de peças produzidas, diâmetro, etc.
2. Distribuições Discretas: Quando a variável que está sendo medida só pode
assumir certos valores, como por exemplo os valores inteiros 0, 1, 2, etc.

No caso de distribuições discretas, a probabilidade que a variável X assuma um valor
específico x
o
é dada por: P {X = x
o
} = P(x
o
)
No caso de variáveis contínuas, as probabilidades são especificadas em termos de
intervalos:

Relembrando: uma variável aleatória é uma função com valores numéricos, cujos
valores são determinados por fatores de chance.
Uma variável aleatória é considerada discreta se toma valores que podem ser
contados.
Uma variável aleatória é considerada contínua quando pode tomar qualquer valor
em determinado intervalo.

{ } P a x b f x dx
a
b
≤ ≤ =

( )
Prof. Cí nti a Paese Gi acomel lo 44
Os gráficos a seguir apresentam exemplos de distribuições de probabilidades discreta e
contínua.


Exemplo:
Distribuição de probabilidade para a variável aleatória “número de caras em duas jogadas
de uma moeda”.

Resultado
Número de
caras
Valor da V.A.
Prob. do
resultado
Número de
caras
Valor da V.A
Prob. do
resultado
Cara Cara 2 ½ x ½ = ¼ 0 ¼
Cara Coroa 1 ½ x ½ = ¼
Coroa Cara 1 ½ x ½ = ¼
1 ¼ + ¼ = ½
Coroa Coroa 0 ½ x ½ = ¼ 2 ¼
Soma = 1 Soma = 1


O valor esperado, ou esperança matemática, de uma variável aleatória é E(x), que consiste
no valor esperado para ela, ou seja, o valor médio da variável.

=
=
n
i
i i
x p ) x ( E
1
se X é v.a. discreta
ou


∞ −
= dx f(x) . x ) X ( E se X é v.a. contínua
E a variância de X é dada por
2 2
)] X ( E [ ) X ( E ) X ( Var − = .
O desvio padrão é ) X ( Var
Prof. Cí nti a Paese Gi acomel lo 45
Neste exemplo, o valor esperado é 0 . ¼ + 1 . ½ + 2 . ¼ = 1.
E a variância é Var(X)=E(X
2
)-[E(X)]
2
= E(X
2
) - 1= (0
2
.¼ + 1
2
.½ + 2
2
.¼) –1 =1,5-1=0,5 E
o desvio padrão = 0,71

Exemplo: um investidor julga que tem 0,4 de probabilidade de ganhar $ 25.000 e 0,6 de
perder $ 15.000. Seu ganho esperado é de:
E(X) = 0,4 (25.000) + 0,6 (-15.000) = $ 1.000.
E a variância é Var(X)=E(X
2
)-[E(X)]
2
= E(X
2
) – 1.000
2

=(0,4.25.000
2
+ 0,6.(-15.000)
2
)-1.000
2

=(0,4 x 625.000.000 + 0,6 x 225.000.000)-1.000
2

= 250.000.000+ 135.000.000 –1.000
2

= 385.000.000 –1.000.000
= 384.000.000
Desvio padrão = $ 19.595,92


Exercícios:
1. O número de chamadas telefônicas recebidas por uma mesa e suas respectivas
probabilidades para um intervalo de 3 minutos são:
Número de chamadas 0 1 2 3 4 5 Total
Freqüência relativa 0,60 0,20 0,10 0,04 0,03 0,03 1,00
Em média, quantas chamadas podem ser esperadas num intervalo de três minutos?

2. Um bilhete de loteria tem 0,00001 de chance de dar um prêmio de $ 100.000,
0,00002 de chance de dar um prêmio de $ 50.000 e 0,004 de chance de um prêmio
de $ 25. Qual seria o preço justo de venda do bilhete?

3. Uma confeitaria estabeleceu um registro de vendas para certo tipo de bolo.
Determine o número esperado de bolos encomendados.
N° bolos/dia 0 1 2 3 4 5 6 7 8 9 Total
Freqüência relativa 0,02 0,07 0,09 0,12 0,20 0,20 0,18 0,10 0,01 0,01 1,00

Prof. Cí nti a Paese Gi acomel lo 46
9.1.1 Distribuições discretas mais importantes
As principais distribuições discretas são a Distribuição de Bernoulli, Distribuição
Binomial e Distribuição Poisson.

Distribuição de Bernoulli
A distribuição de Bernoulli consiste em uma distribuição adequada à variável aleatória de
Bernoulli, que por sua vez é uma v.a. que assume apenas os valores 0 e 1, com função de
probabilidade tal que:
P(0) = P(X=0) = 1-p
P(1) = P(X=1) = p

Então, E(X)=p e Var(X)=p(1-p)

Distribuição Binomial
Seja um processo composto de uma seqüência de observações independentes, onde o
resultado de cada observação pode ser um sucesso ou uma falha.
Se a probabilidade de sucesso é constante e igual a p, a distribuição do número de
sucessos seguirá o modelo Binomial.
A distribuição Binomial é usada com freqüência no controle de qualidade. É o modelo
apropriado quando a amostragem é feita sobre uma população infinita ou muito grande.

A distribuição binomial possui quatro propriedades essenciais:
1. As observações possíveis podem ser obtidas através de dois diferentes
métodos de amostragem. Cada observação pode ser considerada como se
tivesse sido selecionada a partir de uma população infinita sem reposição ou
a partir de uma população finita com reposição.
2. Cada observação pode ser classificada em uma de duas categorias
mutuamente excludentes e coletivamente exaustivas, usualmente chamadas
sucesso ou falha.
3. A probabilidade de uma observação ser classificada como sucesso (p) é
constante de observação para observação. Assim sendo, a probabilidade de
fracasso 1-p também é constante.
4. O resultado (isto é, sucesso ou fracasso) de qualquer observação
independe do resultado de qualquer outra observação.

Em aplicações de controle da qualidade, x em geral representa o número de defeituosos
observados em uma amostra de n itens.
Prof. Cí nti a Paese Gi acomel lo 47
x n x
) p ( p
x
n
) x ( P


|
|
¹
|

\
|
= 1 e
)! x n ( ! x
! n
x
n

=
|
|
¹
|

\
|

onde
|
|
¹
|

\
|
x
n
representa o número de combinações de n objetos tomados x de cada vez
P(X) = probabilidade de X sucessos uma vez que n e p são conhecidos
n = tamanho da amostra
p = probabilidade de sucesso 1-p = probabilidade de falha
X = número de sucessos na amostra (X=0, 1, 2, ..., n)
A média de uma variável aleatória com distribuição binomial é µ = np e a variância é
dada por σ
2
= np(1-p) onde p é proporção de sucessos na amostra
n
x
p =

Exemplo:
Um processo industrial opera com média de 1% de defeituosos. Baseado em amostras de
100 unidades, calcule as probabilidades de uma amostra apresentar 0 , 1 , 2 , 3 e 4
defeituosos. Plote a distribuição de probabilidade correspondente.
Como a variável aleatória pode apresentar apenas duas possibilidades, ser boa ou
defeituosa, a distribuição que melhor se ajusta é a distribuição binomial, com
parâmetros p=0,01 e n=100.
Então, a probabilidade de uma amostra de tamanho n = 100 apresentar 0
defeituosos é

x n x
) p ( p
x
n
) x ( P


|
|
¹
|

\
|
= 1 P(x=0) = P(0) = = −
|
|
¹
|

\
|
−0 100 0
01 0 1 01 0
0
100
) , ( , 0,366
P(x=1) = P(1) =
= −
|
|
¹
|

\
|
−1 100 1
01 0 1 01 0
1
100
) , ( ,
0,370
P(x=2) = P(2) = = −
|
|
¹
|

\
|
−2 100 2
01 0 1 01 0
2
100
) , ( , 0,185
P(x=3) = P(3) = = −
|
|
¹
|

\
|
−3 100 3
01 0 1 01 0
3
100
) , ( , 0,061
P(x=4) = P(4) = = −
|
|
¹
|

\
|
−4 100 4
01 0 1 01 0
4
100
) , ( , 0,015

Prof. Cí nti a Paese Gi acomel lo 48
0
0,1
0,2
0,3
0,4
x=0 x=1 x=2 x=3 x=4
P
(
x
)


Exercícios:
1. Um processo opera segundo uma chance de falha de 2%. Coletando amostras de 25
unidades, qual a probabilidade de uma amostra selecionada apresentar 2
defeituosos ou menos.





2. Imagine que para o processo anterior, fossem coletadas amostras de 50 unidades e
o critério para parar o processo e procurar causas especiais fosse X=1 ou mais.
Calcule a percentagem de vezes que o processo seria interrompido logo após a
amostragem.





Distribuição de Poisson

A aplicação típica da distribuição de Poisson no controle da qualidade é como um modelo
para o número de defeitos (não-conformidades) que ocorre por unidade de produto (por
m
2
, por volume ou por tempo)
Diz-se que existe um processo de Poisson se pudermos observar eventos discretos numa
área de oportunidade – um intervalo contínuo (de tempo, de comprimento, de área, ...) de
maneira tal que, se encurtarmos a área de oportunidade ou intervalo suficientemente:
1. A probabilidade de se observar exatamente um sucesso no intervalo é
estável
Prof. Cí nti a Paese Gi acomel lo 49
2. A probabilidade de se observar mais de um sucesso no intervalo é zero
3. A ocorrência de um sucesso em qualquer intervalo é estatisticamente
independente da ocorrência em qualquer outro intervalo

A distribuição de Poisson tem um parâmetro λ (lambda) que é a média ou o número
esperado de sucessos por unidade. A variância desta distribuição é σ
2
=λ. O número de
sucessos X da variável aleatória de Poisson varia de 0 a ∞.

A expressão matemática para a distribuição de Poisson para se obterem X sucessos, dado
que λ sucessos são esperados é:
! x
e
) x ( P
x
λ
λ −
= onde x=0,1,2,....
onde P(X) = probabilidade de X sucessos, dado o conhecimento de λ
λ = número esperado de sucessos
e = constante matemática (aproximadamente 2,71828)
X = número de sucessos por unidade

Exemplo:
Suponha que o número de defeitos no cordão de solda de uma carroceria siga uma
distribuição de Poisson com λ = 2.
Então a probabilidade de uma carroceria apresentar mais de 3 defeitos será:
P(X> 3) = 1 – P(x≤3) = 1-[ P(x=0) + P(x=1) + P(x=2) + P(x=3)]
Onde
! x
e
) x ( P
x
λ
λ −
=
!
e
) ( P
0
2
0
0 2 −
= = 0,135
P(x=1) =
!
e
) ( P
1
2
1
1 2 −
= = 0,271
P(x=2) = P(2) = 0,271 P(x=3) = P(3) = 0,180
Logo,
P(X> 3) = 1 – P(x≤3) = 1-[ P(x=0) + P(x=1) + P(x=2) + P(x=3)]
= 1 – [0,135+0,271+0,271+0,180]
= 1 – [0,857]
=0,143 14%
A probabilidade de uma carroceria apresentar mais de três defeitos é 14%.

Exemplo 2:
Prof. Cí nti a Paese Gi acomel lo 50
Se chegam em média 2 carros por minuto em um posto de gasolina, qual a probabilidade
de que cheguem exatamente 5 carros em dois minutos?
Neste caso o tempo é diferente do tempo correspondente ao λ. Então deve-se transformar
o λ para que ele corresponda ao tempo de 2 minutos. Chegam em média 2 carros por
minuto chegam em média 4 carros em 2 minutos
λ = 4
! x
e
) x ( P
x
λ
λ −
=
! 5
4
) 5 (
5 4 −
=
e
P = 0,1563 = 15,63%

Exercícios:
1. O setor financeiro de uma loja de departamentos está tentando controlar o número
de erros cometidos na emissão das notas fiscais. Suponha que esses erros sigam o
modelo de Poisson com média λ = 0,03. Qual a probabilidade de uma nota
selecionada ao acaso conter 1 ou mais erros?


2. Em uma indústria automotiva, defeitos superficiais de pintura ocorrem a uma taxa
de 0,15 defeitos/unidade. Encontre a probabilidade que uma unidade escolhida ao
acaso apresente 1 ou mais defeitos superficiais.



3. Em uma empresa industrial ocorrem, em média, 3 acidentes por mês. Qual a
probabilidade de que em um determinado mês, ocorra apenas um acidente?



4. Dez por cento das ferramentas produzidas por um certo processo de fabricação
revelaram-se defeituosas. Determinar a probabilidade de, em uma amostra de 10
ferramentas escolhidas ao acaso, exatamente duas serem defeituosas mediante o
emprego da distribuição de Poisson.


5. Se a probabilidade de um indivíduo sofrer uma reação nociva, resultante da injeção
de um determinado soro é 0,001, qual a probabilidade de, entre 2000 indivíduos,
a) exatamente 3 sofrerem aquela reação? b) Mais de 2 sofrerem a reação?

Prof. Cí nti a Paese Gi acomel lo 51

9.1.2 Distribuições contínuas
A distribuição mais importante e mais utilizada na prática é a Distribuição Normal.
Outros modelos importantes de distribuições contínuas são: Uniforme, Exponencial, Gama,
Qui-Quadrado, t de Student e F de Snedecor.

Distribuição Normal
A Distribuição Normal é essencialmente importante na estatística por três razões
principais:
1. Inúmeros fenômenos contínuos parecem seguí-la ou podem ser aproximados por
meio dela
2. Podemos utilizá-la para aproximar várias distribuições de probabilidade discretas
3. Ela oferece a base para a inferência estatística clássica, devido à sua afinidade
com o teorema do limite central

Os parâmetros da distribuição Normal são a média e o desvio padrão. Trata-se de uma
distribuição simétrica, unimodal, em forma de sino.

A função de probabilidade da distribuição normal é dada por:
2
2
1
2
1
|
|
¹
|

\
| − −
=
σ
µ
π σ
x
exp ) x ( f


onde: e = constante matemática (aproximada por 2,71828)
π = constante matemática (aproximada por 3,14159)
µ = média aritmética da população
σ = desvio padrão da população
X = qualquer valor da variável aleatória contínua onde -∞ < X < ∞
Prof. Cí nti a Paese Gi acomel lo 52




















Para simplificar a notação de uma v.a.c. com distribuição normal, com média µ e variância
σ
2
utiliza-se:
X~ N(µ,σ
2
)
A distribuição Normal acumulada é obtida calculando a probabilidade de X ser menor que
um dado valor a:

∞ −
= = ≤
a
dx ) x ( f ) a ( F ) a x ( P Função densidade acumulada
Essa integral não pode ser resolvida em forma fechada, mas a solução está apresentada
em tabelas onde se entra com a variável reduzida ou variável padronizada Z e
encontra-se F(Z) ou vice-versa.
) Z ( F
a
Z P ) a x ( P =
)
`
¹
¹
´
¦ −
≤ = ≤
σ
µ


Valor tabelado (Procurar na tabela da distribuição Normal padronizada)

µ µµ µ
99,73%
95,44%
68,26%
-1σ +1σ
-2σ +2σ
-3σ +3σ
Prof. Cí nti a Paese Gi acomel lo 53
Exemplo:
O peso de um produto é uma característica muito importante. Sabe-se que o peso segue
um modelo normal com média 1000 gramas e desvio padrão 40 gramas. Se a especificação
técnica estabelece que o peso deve ser maior que 950 gramas, qual a probabilidade de
que um pacote selecionado aleatoriamente satisfaça a especificação?
OBS: este esquema equivale
P(x>950) = 8944 0 5000 0 3944 0 25 1
40
1000 950
, , , ) , Z ( P Z P = + = − > =
)
`
¹
¹
´
¦ −
>






A probabilidade de que um pacote selecionado aleatoriamente satisfaça a especificação é
de 89%.

Exemplo 2: Sabe-se que X representa medições feitas em um processo que segue o
modelo Normal com média 100 e desvio padrão 10. Se forem feitas 4000 medições,
quantas estarão entre 95 e 112?

P(95<x<112)=
)
`
¹
¹
´
¦ −
< <

10
100 112
10
100 95
Z P
= P(-0,5<Z<1,2)
=0,1915+0,3849
=0,5764 Aproximadamente 58% estarão entre 95 e 112.

Se forem feitas 4000 medições, aproximadamente 2305 estarão entre 95 e 112. (4000 x
57,64%)

µ=1000
σ=40

X=950
µ=0
σ=1

Z=-1,25
µ=100
σ=10

Valores tabelados
T
a
b
e
l
a
d
o

Prof. Cí nti a Paese Gi acomel lo 54
Exercícios:
1. A resistência à tração do papel usado em sacolas de supermercado é uma
característica de qualidade importante. Sabe-se que essa resistência segue um
modelo Normal com média 40 psi e desvio padrão 2 psi. Se a especificação
estabelece que a resistência deve ser maior que 35 psi, qual a probabilidade que
uma sacola produzida com este material satisfaça a especificação?





2. O diâmetro do eixo principal de um disco rígido segue a distribuição Normal com
média 25,08mm e desvio padrão 0,05mm. Se as especificações para esse eixo são
25,00 ± 0,15mm (isto é, varia de 24,85 a 25,15mm), determine o percentual de
unidades produzidas em conformidades com as especificações.





3. A resistência à tração de isoladores cerâmicos apresenta distribuição Normal com
média 95 Kg e desvio padrão 4 Kg. Se são produzidas 10.000 unidades desses
isoladores, quantos apresentarão resistência inferior a 85 Kg? E quantos
apresentarão resistência superior a 90 Kg?





4. A saída de uma bateria segue o modelo Normal com média 12,15 V e desvio padrão
0,2 V. Encontre o percentual que irá falhar em atender às especificações 12 V ±
0,5 V.



Prof. Cí nti a Paese Gi acomel lo 55
5. A vida útil de lavadora de pratos automáticas é de 1,5 anos, com desvio padrão 0,3
anos. Se os defeitos se distribuem normalmente, qual é a probabilidade de uma
lavadora necessitar conserto antes de expirar o período de 1 ano de garantia?




6. O tempo necessário, em uma oficina, para o conserto de transmissão para certo
carro é normalmente distribuído com média 45 min e desvio padrão 8 min. O
mecânico planeja começar o conserto do carro 10 min após o cliente deixá-lo na
oficina, comunicando que o carro estará pronto em 1 h. Qual a probabilidade de
que o cliente tenha que esperar caso o mecânico esteja enganado e o cliente fique
esperando?



7. Sabe-se que o conteúdo de uma lata de cerveja é 350 ml e que tem distribuição
aproximadamente normal com média 350 ml e desvio padrão 10 ml.
a. Que % de latas tem menos que 345 ml de conteúdo?
b. Que % de latas tem mais que 360 ml de conteúdo?



8. Uma fábrica de pneus fez um teste para medir o desgaste de pneus e verificou que
ele seguia o comportamento de uma curva normal com média 48.000 km e desvio
padrão de 2.000 km. Calcule a probabilidade de um pneu escolhido ao acaso:
a. Dure mais que 47.000 km?
b. Dure entre 45.000 e 51.000 km?
c. Até que quilometragem duram 90% dos pneus?



9. Descreva um exemplo de aplicação da distribuição normal na sua profissão. Qual
seria a média dos dados e o desvio padrão?


Prof. Cí nti a Paese Gi acomel lo 56
1 10 0 T Te eo or ri ia a e el le em me en nt ta ar r d da a a am mo os st tr ra ag ge em m

A teoria da amostragem é o estudo das relações existentes entre uma população e as
amostras dela extraídas. É muito utilizada para a estimação das grandezas desconhecidas
da população (parâmetros) através de conhecimento das grandezas correspondentes nas
amostras (estatísticas amostrais).
A teoria da amostragem é também útil para determinar se as diferenças observadas entre
duas amostras são devidas a uma variação casual ou são verdadeiramente significativas.
Por exemplo: queremos testar se os tempos de processamento da matéria prima de dois
sistemas de produção são diferentes ou não. A resposta a esta questão implica o uso de
testes de hipótese, que será visto mais adiante.
Denomina-se inferência estatística a inferência de parâmetros (da população) com base
nos resultados obtidos na amostra.
Para que as conclusões sejam válidas, é necessário que a amostra selecionada seja
representativa da população. Para isso podem ser utilizados os métodos de amostragem
probabilísticos apresentados no capítulo 1: aleatória, sistemática, estratificada ou por
conglomerados. O método mais utilizado é o por amostragem aleatória.

10.1 Amostragem com e sem reposição
Quando selecionamos uma amostra devemos analisar se esta amostragem é com ou sem
reposição. Na amostragem com reposição o mesmo elemento pode ser escolhido mais de
uma vez. Na amostragem sem reposição cada elemento só pode ser selecionado uma única
vez.
Exemplo: uma urna contém dez bolas, numeradas de 0 a 9. Retira-se a primeira bola,
anota-se o número, 3 por exemplo, e não se recoloca a bola na urna. Os outros números
que podem ser sorteados são 0, 1, 2, 4, 5, 6, 7, 8 e 9. Este sistema é o sistema sem
reposição. Entretanto, se tivéssemos recolocado a bola 3 na urna, então todos os números
poderiam ser selecionados na segunda extração, inclusive o 3. Este sistema é chamado
sistema com reposição.
Em geral, quando uma amostragem é sem reposição, dizemos que a população é finita.
Quando uma amostragem é com reposição, então dizemos que a população é infinita, pois
a população nunca será exaurida. Para fins práticos a amostragem de uma população finita
muito grande pode ser considerada infinita.

10.2 Distribuições amostrais
Consideremos todas as amostras possíveis de tamanho n que podem ser retiradas de uma
população dada (com ou sem reposição). Para cada amostra podemos calcular uma
grandeza estatística, por exemplo, a média. Deste modo obtemos a distribuição amostral
da média. Da mesma forma podemos calcular a distribuição amostral do desvio padrão, da
variância, das proporções, ...
Prof. Cí nti a Paese Gi acomel lo 57

Distribuição amostral das médias
Uma distribuição amostral de médias é uma distribuição de probabilidade que indica quão
prováveis são diversas médias amostrais. A distribuição é função da média, do desvio
padrão da população e do tamanho da amostra. Para cada combinação da média, desvio
padrão e tamanho da amostra haverá uma única distribuição amostral de médias.

Sejam:
x
µ = média da população = µ
x
µ
= média da distribuição amostral
x
σ = desvio padrão da população = σ
x
σ = desvio padrão da distribuição amostral
N = tamanho da população
n = tamanho da amostra

Admita-se que todas as amostras possíveis de tamanho n sejam retiradas de uma
população finita de tamanho N>n. Então:
População Finita: µ µ =
x
e
1 −

=
N
n N
n
x
σ
σ
Se a população for infinita, ou se amostragem for tomada com reposição, os resultados
serão:
População Infinita:
µ µ =
x
e
n
x
σ
σ =

A fórmula do desvio padrão nos diz que a quantidade de dispersão na distribuição amostral
depende de dois fatores:
- a dispersão da população
- o tamanho da amostra (utilizando raiz quadrada)
Por exemplo, em qualquer população, o aumento do tamanho das amostras extraídas
resultará em menor variabilidade entre as possíveis médias amostrais. E se o mesmo
tamanho de amostra é usado com diferentes populações, as populações com maior
quantidade de dispersão σ
x
tenderão a gerar maior quantidade de variabilidade entre as
médias de amostras extraídas delas.

Para amostras grandes n>30 a distribuição amostral das médias é aproximadamente
normal, com média
x
µ
e desvio padrão
x
σ , independente da população, desde que a
variância e a média da população sejam finitas e o tamanho da população seja, no
mínimo, o dobro da amostra. Este resultado para população infinita é um caso especial do
Prof. Cí nti a Paese Gi acomel lo 58
teorema do limite central da teoria avançada de probabilidade, que mostra que a precisão
da aproximação melhora quando n cresce. Isto é indicado, algumas vezes, dizendo-se que
a população é assintoticamente normal. No caso da população ser normalmente
distribuída, a distribuição amostral das médias também o será, mesmo para pequenos
valores de n (n<30).
Teorema do limite central
1. Se a população sob amostragem tem distribuição normal, a
distribuição das médias amostrais também será normal para
todos os tamanhos de amostra.
2. Se a população básica é não normal, a distribuição de médias
amostrais será aproximadamente normal para grandes
amostras.

Exemplos:
Calcule o desvio padrão da distribuição amostral de médias onde o desvio padrão da
distribuição populacional é 2 e o tamanho da amostra é 40.
3162 0
40
2
,
n
x
x
= = =
σ
σ

Determine a média das distribuições de médias amostrais, sendo que a média populacional
é 678.
678 = =
x x
µ µ

A média de uma distribuição amostral de médias é 50 e seu desvio padrão é 10 (desvio
padrão da distribuição amostral das médias). Suponha normal a distribuição amostral.
Que percentagem das médias amostrais estará entre 45 e 55?
O procedimento é análogo ao visto no capítulo referente à distribuição normal,
entretanto deve-se utilizar o valor de
x
µ = 50 e
x
σ =10.
Então P(45<
x
µ <55)=0,3830

Um fabricante de baterias alega que seu artigo de primeira categoria tem uma vida
esperada (média) de 50 meses. Sabe-se que o desvio padrão correspondente é de 4
meses. Que percentagem de amostras de 36 observações acusará vida média no intervalo
de 1 mês em torno de 50 meses, admitindo ser de 50 meses a verdadeira vida média das
baterias?
Sabemos que, como n>30, a distribuição das médias amostrais será
aproximadamente normal com média igual à média populacional e desvio padrão
igual ao desvio padrão populacional dividido pela raiz quadrada do tamanho da
Prof. Cí nti a Paese Gi acomel lo 59
amostra. Além disso vamos pressupor população infinita, pois a produção de baterias
não termina (teoricamente!)











A solução envolve a determinação do número de desvios padrões que 49 e 51 distam
da média (amostral).
Determinemos primeiro o desvio padrão da distribuição amostral:
67 0
36
4
,
n
x
x
= = =
σ
σ para n=36
Então devemos trabalhar com x ∼N(50;0,67)
P(49< x <51)
x
x x
z
σ

= 5 1
67 0
50 49
,
,
− =


5 1
67 0
50 51
,
,
+ =


P(49< x <51)=P(-1,5<z<1,5) = 0,4332+0,4332=0,8664
Então o percentual de amostras que apresentará problemas entre 49 e 51 meses é
de 87%.



49 50 51
Meses
x
µ
???
Prof. Cí nti a Paese Gi acomel lo 60
Distribuição amostral das proporções
Sendo a probabilidade de ocorrência de um evento p (sucesso) e a probabilidade de não
ocorrência 1-p (fracasso).
Consideram-se todas as amostras possíveis de tamanho n de uma população infinita e,
para cada amostra, determina-se a proporção de sucessos. Assim obtém-se a distribuição
amostral das proporções.
A média da distribuição amostral é sempre igual à proporção p p = onde
p = proporção populacional
p = média da distribuição amostral das proporções
Quando a população é muito grande ou infinita, o desvio padrão da distribuição amostral
se calcula
n
) p ( p
p

=
1
σ
e pode-se fazer uma aproximação para a distribuição normal quando n>30.


Exemplos:
Determine a média da distribuição de proporções amostrais, quando a proporção na
população é 72,3%
p =p=72,3%

Determine o desvio padrão da distribuição amostral de proporções para n=100 e uma
proporção populacional de 60%
049 0
100
6 0 1 6 0 1
,
) , ( ,
n
) p ( p
p
=

=

= σ

Verificou-se que 2% das ferramentas produzidas por uma certa máquina são defeituosas.
Qual a probabilidade de que, em uma remessa de 400 dessas ferramentas, 3% ou mais
revelarem-se defeituosas?
p =p=0,02 e
n
) p ( p
p

=
1
σ = 007 0
400
98 0 02 0
,
, * ,
=
Como n>30 pode-se utilizar a distribuição normal, então
P(p>0,03)=P( % , , ) , z ( P )
,
, ,
z 636 7 07636 0 43 1
007 0
02 0 03 0
= = > =

>

Prof. Cí nti a Paese Gi acomel lo 61
Exercícios:
1. Determine a média da distribuição das proporções amostrais quando a proporção na
população é ....
a. 30%
b. 99%
c. 54%

2. Calcule o desvio padrão da distribuição amostral de médias para cada um dos
seguintes casos:
a. σ
x
=6, n=6
b. σ
x
=6, n=20
c. σ
x
=6, n=40
d. σ
x
=6, n=100


3. Certas válvulas fabricadas por uma companhia têm vida média de 800 horas e
desvio padrão de 60 horas. Determinar a probabilidade de uma amostra aleatória
de 16 válvulas, retiradas do grupo, ter vida média a) entre 700 e 810 horas;
b)inferior a 785 horas; c) superior a 820 horas; d) entre 770 e 830 horas.



4. Um fabricante faz a remessa de 1000 lotes de 100 lâmpadas elétricas cada um. Se
5% das lâmpadas são normalmente defeituosas, em quantos lotes pode-se esperar
que existam; a) menos de 90 lâmpadas boas; b) 98 ou mais lâmpadas boas


Prof. Cí nti a Paese Gi acomel lo 62
1 11 1 E Es st ti im ma aç çã ão o

A estimação é o processo que consiste em utilizar dados amostrais para estimar
parâmetros populacionais.
As estatísticas amostrais são utilizadas como estimadores de parâmetros populacionais.
Assim, uma média amostral é usada como estimativa da média populacional, a proporção
de defeituosos de uma caixa é utilizada para estimar a proporção de defeituosos na
produção toda, etc.
Tais estimativas chamam-se estimativas pontuais, porque originam apenas uma única
estimativa do parâmetro. Em virtude da variabilidade amostral, é usual incluir uma
“estimativa intervalar” para acompanhar a estimativa pontual. Esta nova estimativa
proporciona um intervalo, ou âmbito, de possíveis valores do parâmetro populacional.

Estimativa pontual: estimativa única de um parâmetro populacional
Estimativa intervalar: intervalo de valores possíveis, o qual se admite que esteja
contendo o parâmetro.

Um intervalo de confiança dá um intervalo de valores, centrado na estatística amostral, no
qual julgamos, com um risco conhecido de erro, estar o parâmetro da população.

Exemplos:
Tipo de estimativa
Parâmetro
populacional
Pontual Intervalar
Média Um carro de motor 1.0 anda, em
média, 14 km com um litro de
combustível
Um carro de motor 1.0 anda, em
média, entre 12 e 16 km com 1
litro de combustível

Proporção A proporção de peças defeituosas
é de 2%
A proporção de peças defeituosas
está entre 1,5 % e 2,5 %

Desvio padrão O desvio padrão da temperatura
numa piscina não aquecida é da
ordem de 2
o
C
O desvio padrão da temperatura
numa piscina não aquecida está
entre 1
o
C e 3
o
C

Os intervalos de confiança podem ser unilaterais (por exemplo, a proporção de defeitos é
maior de 3%) ou bilaterais (a proporção de defeitos está entre 2% e 4%).

Prof. Cí nti a Paese Gi acomel lo 63
A capacidade de estimar parâmetros populacionais por meio de dados amostrais está
ligada diretamente ao conhecimento da distribuição amostral da estatística que está sendo
usada como estimador.
Os intervalos de confiança para os parâmetros são construídos de forma que se considera
uma variação em torno do valor amostral e, assim, pode-se escrever que o parâmetro
situa-se entre dois limites:
Valor do parâmetro = estimativa pontual ± erro de amostragem
O erro de amostragem depende da distribuição amostral do parâmetro, do nível de
confiança adotado e do tamanho da amostra.
A tabela a seguir apresentada resume as informações necessárias para intervalos de
confiança.

População
Infinita Finita
Estimativa de médias
Pontual x x
Intervalar σ
x
conhecido
n
z x
x
σ
±
1 −

±
N
n N
n
z x
x
σ

σ
x
desconhecido
n
s
t x
x
±
1 −

±
N
n N
n
s
t x
x

Estimativa das proporções
Pontual
p =
n
x
p =
n
x

Intervalar
n
) p ( p
z p

±
1

1
1

− −
±
N
n N
n
) p ( p
z p

Onde:
z representa o valor tabelado da distribuição Normal, com nível de confiança α.
t representa o valor tabelado da distribuição t de Student, com nível de confiança α e GL
graus de liberdade
1

N é o tamanho da população
n é o tamanho da amostra


1
O valor da distribuição t de Student depende do número de graus de liberdade
Prof. Cí nti a Paese Gi acomel lo 64
Exemplo:
Intervalo de confiança para a média µ quando se conhece a variância de população σ
x
Seja uma amostra de tamanho 36 de uma população infinita, sabe-se que σ
x
=3 e x =24,2

Confiança
desejada
Z
(tabelado)
Fórmula Cálculo E Intervalo
90% 1,65
n
z x
x
σ
±
36
3
65 1 2 24 , , ±
24,2±0,825 23,375 a 25,025
95% 1,96
n
z x
x
σ
±
36
3
96 1 2 24 , , ±
24,2±0,980 23,220 a 25,180
99% 2,58
n
z x
x
σ
±
36
3
58 2 2 24 , , ±
24,2±1,290 23,110 a 25,690


Tamanho da amostra
Uma das perguntas mais freqüentes em estatística é: “Qual o tamanho da amostra que
devemos tomar?”
O tamanho da amostra dependerá do grau de confiança desejado (z), da quantidade de
dispersão entre os valores individuais (σ
x
), e de certa quantidade específica de erro
tolerável (e).
“O tamanho da amostra que você afinal selecionará dependerá de
seu orçamento, da importância econômica das decisões e da
variabilidade na população. Desses três problemas, dois são de
ordem gerencial, cabendo a você a decisão; apenas o terceiro
(variabilidade) está fora do seu controle.”(Brenda Landy, citada no
livro Pesquisa de Marketing – Naresh Malhotra. - 2001)

A fórmula do erro pode ser resolvida em relação a n. Assim, para o caso de estimação de
médias, tem-se:
n
z e
x
σ
=
e
z n
x
σ
=
2
|
|
¹
|

\
|
=
e
z n
x
σ


E, para estimação de proporções
n
p) p(1
z e

=

2
|
|
¹
|

\
|

=
n
p) p(1
z e
2

2
2
e
p) - p(1 z
n =

Prof. Cí nti a Paese Gi acomel lo 65
Que tamanho de amostra será necessário para produzir um intervalo de 90% de confiança
para a verdadeira média da população, com erro de 1,0 em qualquer dos sentidos, se o
desvio padrão da população é 10?
Sabemos que σ
x
=10 e e=1 e queremos um intervalo 90% de confiança para a
média, o que implica utilizar um valor de z=1,65.
2
|
|
¹
|

\
|
=
e
z n
x
σ
25 272
1
10
65 1
2
, , n = |
¹
|

\
|
= tamanho da amostra 273.

As companhias de seguro estão ficando preocupadas com o fato de que o número
crescente de telefones celulares resulte em maior número de colisões de carros. Estão, por
isso, pensando em cobrar prêmios mais elevados para os motoristas que utilizam celulares.
Desejamos estimar, com uma margem de erro de três pontos percentuais, a percentagem
de motoristas que falam ao celular enquanto dirigem. Supondo que se pretende um nível
de confiança de 95% nos resultados, quantos motoristas devem ser investigados?
Suponha que não tenhamos nenhuma informação sobre p.
2
2
e
p) - p(1 z
n = 11 , 1067
03 ,
96 ,
= =
2
2
0
0,5) - 0,5(1 1
n tamanho da amostra 1068.

Exercícios:

1. Os dados a seguir representam a temperatura coletada aleatoriamente em 15
cidades do estado. Determine o intervalo de confiança 90% para a temperatura
média. Não dispomos da variância populacional, mas sabemos que a população é
infinita. Dispomos apenas das seguintes informações.

23 40 30 21 34
20 38 26 23 38
33 32 24 21 24


2. Uma amostra aleatória de 40 contas não comerciais na filial de um banco acusou
saldo médio diário de R$ 140 com desvio padrão de R$ 30.
a. Construa um intervalo de 90% de confiança para a verdadeira média
b. Construa um intervalo de 95% de confiança para a verdadeira média
c. Construa um intervalo de 99% de confiança para a verdadeira média


Prof. Cí nti a Paese Gi acomel lo 66
3. Uma firma emprega diversos vendedores. Numa amostra aleatória de 15 notas de
despesa numa semana de dezembro, um auditor constatou uma despesa média de
R$ 220, com desvio padrão de R$ 20.
a. Qual a estimativa pontual da despesa média?
b. Construa um intervalo de 99% de confiança para a quantia de despesa
média por vendedor.
c. Admitindo-se 200 vendedores, qual seria a estimativa pontual média para o
total de despesas?
d. Construa um intervalo de 99% de confiança para a quantia de despesa total.



4. Uma amostra aleatória de 40 homens trabalhando num grande projeto de
construção revelou que 6 não usavam capacetes protetores.
a. Construa um intervalo de 95% de confiança para a verdadeira proporção dos
que não estão utilizando capacetes neste projeto.
b. Se há 1000 operários no projeto, converta o percentual em número de
capacetes necessários para que todos estejam seguros.



5. Uma amostra aleatória de 1000 fregueses da parte da manhã de um supermercado
revelou que apenas 10 não incluem leite em suas compras.
a. Qual seria a estimativa pontual da percentagem dos que compram leite?
b. Construa um intervalo de 90% de confiança para a verdadeira proporção dos
que compram leite.



6. Qual o tamanho de amostra necessário para estimar o tempo médio de que um
vendedor de uma loja de móveis gasta com cada cliente, admitindo erro de 1
minuto, para mais ou para menos, para obter um nível de confiança de 99%.
Suponha σx=12 minutos.



Prof. Cí nti a Paese Gi acomel lo 67
7. Determine o número de observações necessário para estimar o tempo médio de
serviço de atendimento a chamadas de um bombeiro hidráulico, se o erro máximo
deve ser de 0,6 hora para um nível de confiança de 95%, sabendo que o tempo de
atendimento tem um desvio padrão de 1 hora. Suponha normalidade na população.





8. Um engenheiro deseja estimar a quantidade de açúcar existente nos alimentos
produzidos pela empresa. Ele coletou uma amostra de 18 unidades do alimento e
verificou média 24 gr de açúcar, com desvio padrão de 5 gr. Construa o intervalo
de confiança de 90% para a quantidade de açúcar presente nos alimentos.






9. Numa pesquisa com funcionários de uma empresa questionou-se a satisfação com a
política desenvolvida pela diretoria. De 300 funcionários, 36 estavam insatisfeitos.
Construa uma estimativa para a proporção de funcionários insatisfeitos, com 95%
de confiança.






10. O IBOPE está interessado em estimar a proporção de residências que assistem ao
programa do Faustão. Qual o número mínimo de residências que se deve analisar
para ter 95% de confiança e margem de erro máxima de 0,03 para a estimativa?

Prof. Cí nti a Paese Gi acomel lo 68
1 12 2 T Te es st te es s d de e h hi ip pó ót te es se es s
Os testes de hipóteses são também conhecidos como testes de significância.
A finalidade dos testes de hipóteses é avaliar afirmações sobre os valores de parâmetros
populacionais.
Os testes de hipóteses e a estimação são dois ramos principais da inferência estatística.
Enquanto o objetivo da estimação é estimar algum parâmetro populacional, o objetivo dos
testes de hipóteses é decidir se determinada afirmação sobre um parâmetro populacional é
verdadeira. Por exemplo, podemos querer determinar se são verdadeiras as afirmações:
- o tempo médio de realização do teste é 80 minutos
- três por cento da população (de determinado item) é defeituosa
- os percentuais de não conformes dos dois processos são iguais

Utilizam-se duas hipóteses, sendo chamadas de hipótese nula (H
0
) e hipótese alternativa
(H
1
)
A hipótese nula H
0
é uma afirmação que diz que o parâmetro
populacional é tal como especificado (isto é, a afirmação é
verdadeira)
A hipótese alternativa H
1
é uma afirmação que oferece uma
alternativa à alegação (isto é, o parâmetro é maior (ou menor)
que o valor alegado)

Exemplo: O estudo de uma amostra de tamanho 55 peças indicou que o diâmetro médio é
de 27,5 mm. Então:
H
0
: o diâmetro médio da população (de peças) é 27,5 mm
H
1
: o diâmetro médio da população (de peças) é diferente de 27,5 mm

Os testes de hipótese utilizam a significância adotada pelo pesquisador. A significância é a
probabilidade de uma hipótese nula ser rejeitada, quando verdadeira. Que coincide com o
erro tipo I.

Ao testar uma hipótese, há dois tipos de erros que podemos cometer:
α = P {rejeitar H
0
/ H
0
é verdadeira} = erro do tipo I
β = P {aceitar H
0
/ H
0
é falsa} = erro do tipo II

O procedimento usual é fixar o valor de α e verificar o valor de β. O risco β é uma função
do tamanho da amostra, e é controlado indiretamente. Quanto maior o tamanho da
amostra, menor será o risco β.
Prof. Cí nti a Paese Gi acomel lo 69

Se H
0
é
Verdadeira Falsa
Aceitar H
0
Decisão correta Erro tipo II (β)
Ação
Rejeitar H
0
Erro tipo I (α) Decisão correta

Basicamente os testes de hipótese envolvem as seguintes etapas:
1. Estabelecer as hipóteses nula e alternativa;
2. Identificar a distribuição amostral adequada;
3. Escolher um nível de significância (e assim os valores críticos);
4. Calcular a estatística do teste e compará-la com os valores críticos;
5. Rejeitar a hipótese de nulidade se a estatística do teste excede o(s) valor (es)
crítico(s); caso contrário, aceitá-la.

Os testes de hipótese podem ser unilaterais ou bilaterais. Nos testes unilaterais a hipótese
alternativa H
1
é do tipo µ>33 ou µ<33, por exemplo. Nos testes bilaterais a hipótese
alternativa é do tipo µ≠33. A hipótese nula permanece igual nos dois casos. A área de
rejeição é dividida quando o teste é bilateral.







Exercícios
1. Para cada um dos seguintes casos, trace uma curva normal, indicando a área de
rejeição na figura.
a) H
0
: µ=10, H
1
: µ≠10, α=0,02
b) H
0
: µ=120, H
1
: µ≠120, α=0,05
c) H
0
: µ=2000, H
1
: µ≠2000, α=0,01
d) H
0
: µ=2000, H
1
: µ>2000, α=0,01
e) H
0
: µ=2000, H
1
: µ<2000, α=0,01

α/2 α/2 α α
Rejeitar H
0
Rejeitar
H
0

Rejeitar
H
0

Rejeitar H
0

H
1
: µ<33 H
1
: µ>33 H
1
: µ≠33
Prof. Cí nti a Paese Gi acomel lo 70
2. Um fornecedor de mancais comprometeu-se a enviar para uma firma lotes que não
contenham mais de 2% de defeituosos. O comprador extrai amostras ao receber a
remessa, para verificar a qualidade. Indique H0 e H1.



3. Um engenheiro acredita que o tempo para produção de um motor é de 5 horas. Ele
analisa uma amostra para verificar se está certo ou não. Escreva H0 e H1




12.1 Teste de hipóteses para médias
σ σσ σ
x
conhecido
Quando se conhece o desvio padrão da população, a distribuição amostral adequada é a
distribuição normal. Se a população é normal, a distribuição amostral será normal para
todos os tamanhos de amostra. Se a população é não normal, ou se sua forma é
desconhecida, pode-se usar um teste de uma amostra só para tamanhos de amostras
superiores a 30 observações. Assim, pequenas amostras de população não normais não
podem ser tratadas por este processo.

Suponha que X é uma variável aleatória com média µ desconhecida e variância σ
2
x

conhecida. E queremos testar a hipótese de que a média é igual a um certo valor
especificado µ
0
. O teste de hipótese pode ser formulado como segue:
H
0
: µ = µ
0

H
1
: µ ≠ µ
0

Para testar a hipótese, toma-se uma amostra aleatória de n observações e calcula-se a
estatística
n
x
z
x
o
teste
σ
µ −
=
E H
0
é rejeitada se |Z
teste
| > Z
α/2
(obtido em uma tabela da
distribuição normal).

Prof. Cí nti a Paese Gi acomel lo 71
Exemplo:
Uma máquina de usinagem deveria produzir entalhes com 0,85 mm de profundidade. O
engenheiro desconfia que os entalhes que estão sendo produzidos são diferentes que o
especificado.
Uma amostra de 8 valores foi coletada e indicou 847 0, X = . Sabendo que o desvio padrão
é σ=0,010, teste a hipótese do engenheiro usando um nível de significância α=0,05.
85 0
8 010 0
850 0 847 0
850 0
850 0
1
,
/ ,
, ,
Z
, : H
, : H
teste
o
− =

=

=
µ
µ

Como 96 1 85 0
025 0
, Z , Z
, teste
− = − > − = H
0
não pode ser rejeitada.
Conclusão: não podemos afirmar que os entalhes sejam diferentes que o especificado, ao
nível de significância de 0,05.

σ σσ σ
x
desconhecido
Quando não se conhece o desvio padrão da população, deve-se estimá-lo a partir dos
dados amostrais usando o desvio padrão amostral. Quando isso ocorre (na maioria das
situações reais σ
x
é desconhecido), a distribuição t é a distribuição amostral adequada.
Suponha que X é uma variável aleatória Normal com média µ e variância σ
2

desconhecidas. Para testar a hipótese de que a média é igual a um valor especificado µ
o
,
formulamos:
o
o
: H
: H
µ µ
µ µ

=
1
0

Esse problema é idêntico àquele da seção anterior, exceto que agora a variância é
desconhecida.

Como σ
X
não é conhecido, usa-se a distribuição de Student para construir a estatística do
teste:
n
s
x
t
x
o
teste
µ −
=


E a hipótese nula H
0
é rejeitada se |t
teste
|>t
α/2
, onde t
α/2, n-1
é um valor limite da
distribuição de Student tal que a probabilidade de se obter valores externos a t
α/2
é α.
Prof. Cí nti a Paese Gi acomel lo 72
12.2 Testes de duas amostras para médias
Os testes de duas amostras são usados para decidir se as médias de duas populações são
iguais. Exigem-se amostras independentes, ou seja, uma de cada população. Eles são
freqüentemente utilizados para comparar dois métodos de ensino, duas cidades, duas
marcas, duas fábricas, ....
OBS: dados provenientes de antes-depois são dependentes, não podendo, portanto, serem
tratados por este método.
σ σσ σ
x
conhecido
Quando há duas populações com médias desconhecidas, digamos µ
a
e µ
b
e desvios
padrões conhecidos, σ
a
e σ
b
, o teste para verificar a hipótese que as médias sejam iguais
é o seguinte:
2 1 1
2 1
µ µ
µ µ

=
: H
: H
o

2
2
2
1
2
1
2 1
n n
X X
Z
teste
σ σ
+

=
E rejeita-se H
0
se |Z
teste
| > Z
α/2


σ σσ σx desconhecido
Similarmente, quando , σ
a
e σ
b
, não são conhecidos, o teste para verificar a hipótese que
as médias sejam iguais é:
2
2
2
1
2
1
2 1
n
S
n
S
X X
t
x x
teste
+

=
E rejeita-se H
0
se |t
teste
| > t
α/2, n1+n2-2


12.3 Teste para proporções
Este tipo de teste é apropriado quando os dados sob análise consistem de contagem ou
freqüências de itens em duas ou mais classes. A finalidade de tal teste é avaliar
afirmações sobre a proporção (ou percentagem) de uma população. O teste se baseia na
premissa de que uma proporção amostral será igual à verdadeira proporção populacional,
a menos da variabilidade amostral. O teste foca na diferença entre o número esperado de
ocorrências (supondo-se verdadeira uma afirmação) e o número efetivamente observado.
A diferença é então comparada com a variabilidade prescrita por uma distribuição amostral
baseada na hipótese de que H
0
é realmente verdadeira.
Prof. Cí nti a Paese Gi acomel lo 73
Quando a finalidade da amostragem é julgar a validade de uma alegação acerca de uma
proporção populacional, é apropriado o teste para proporções.Onde:
H
0
: p = p
0

H
1
: p ≠p
0


O valor da estatística de teste é dado por
n / ) p ( p
p
n
x
z
teste
0 0
0
1 −

=
e deve ser comparada com o valor crítico de Z (retirado de uma tabela da distribuição
normal)

Exemplo:
Um fabricante afirma que uma remessa de pregos contém menos de 1% de defeituosos.
Uma amostra aleatória de 200 pregos acusa 4 defeituosos. Teste a afirmação ao nível
0,01.
H
0
: p = 1%
H
1
: p > 1% pois desejamos evitar a aceitação de uma remessa com mais de
1% de defeituosos, mas nada há contra aceitar o fato da remessa apresentar
qualidade superior à acordada.

n / ) p ( p
p
n
x
z
teste
0 0
0
1 −

= = 42 1
200 01 0 1 01 0
01 0
200
4
,
/ ) , ( ,
,
z
teste
=


=
Na tabela da distribuição normal, z
0,01
=2,33
Aceita-se H
0
, e pode-se dizer que a quantidade de pregos defeituosos é 1% ou
menos, ao nível de significância 0,01.


12.4 Teste do qui-quadrado (k amostras para proporções)
A finalidade de um teste de k amostras é avaliar se as proporções de k amostras
independentes provenham de populações que contenham a mesma proporção de
determinado item. Conseqüentemente, tem-se:
H
0
: As proporções populacionais são todas iguais
H
1
: As proporções populacionais não são iguais
Ou seja, estamos testando se as duas variáveis são ou não associadas, por exemplo, se
queremos testar se a proporção de mulheres e de homens que trabalham no horário
Prof. Cí nti a Paese Gi acomel lo 74
noturno em uma fábrica são iguais, automaticamente estaremos testando se sexo e turno
de trabalho são variáveis associadas.

Este teste baseia-se na distribuição qui-quadrado, onde o valor calculado deve ser
comparado com o valor tabelado. A decisão de aceitar ou rejeitar H
0
dependerá da
comparação deste valor com o valor tabelado da distribuição qui-quadrado.

Por exemplo, tem-se a distribuição de peças produzidas por turno e se essas peças são
boas ou apresentam algum tipo de defeito. No turno da manhã foram produzidas 967
peças, onde 183 apresentaram algum tipo de defeito.

Turno de produção
Manhã Tarde Noite
Total
Peças com algum defeito 183 30 11 224
Peças boas 784 264 308 1356
Total 967 294 319 1580

O teste baseia-se na pressuposição que, se as duas variáveis fossem independentes, então
o valor esperado de cada célula poderia ser encontrado fazendo-se:

geral _ total
) coluna _ total ( x ) linha _ total (
Esperada _ Frequência =
Neste caso, a tabela com as freqüências esperadas seria:

Tabela de freqüências esperadas
Turno de produção
Manhã Tarde Noite
Total
Peças com algum defeito 137,1 41,7 45,2 224
Peças boas 829,9 252,3 273,8 1356
Total 967 294 319 1580

1 137
1580
967 224
,
x
esperada _ Freq = =

Prof. Cí nti a Paese Gi acomel lo 75
O teste de independência qui-quadrado é obtido utilizando-se a estatística


=
E
) E O (
2
2
χ
Se o valor obtido for maior que o valor crítico obtido na tabela χ
2
então diz-se que as
variáveis NÃO são independentes. Se o valor encontrado for menor, então diz-se que as
variáveis são independentes.
O valor dos GRAUS DE LIBERDADE é obtido através do cálculo:
graus de liberdade = (colunas-1)(linhas-1)
No exemplo apresentado:
88 51
8 273
8 273 308
7 41
7 41 30
1 137
1 137 183
2 2 2
2
,
,
) , (
...
,
) , (
,
) , (
=

+ +

+

= χ
e o valor crítico encontrado na tabela para (2-1)x(3-1)=2 graus de liberdade e nível de
significância 0,05 é 5,991.

Tem-se valor calculado > valor tabelado então diz-se que as variáveis NÃO são
independentes. OU SEJA, a proporção de peças boas produzidas depende do turno de
trabalho. A proporção de peças boas no turno da manhã é 81%, na tarde 90% e na noite
97%.

Exercícios:
1. Um fornecedor apresenta uma caixa, e afirma que o peso médio desta caixa é de
368 gramas. De experiências anteriores sabe-se que o desvio padrão da população
vale 15 g e que os valores se comportam segundo a distribuição Normal. Para
verificar se a afirmação é verdadeira, verifica-se uma amostra de 25 caixas, pesa-se
e calcula-se o peso médio da amostra, achando 372,5 g. Qual a conclusão a
respeito da afirmação do fornecedor, ao nível de significância 0,01?



2. Uma agência de empregos alega que os candidatos à diretoria por ela colocados
nos últimos seis meses têm salários de R$ 9000, em média. Uma agência
governamental extraiu uma amostra aleatória daquele grupo, encontrando salários
médios de R$ 8000, com desvio padrão de R$ 1000, com base em 50 empregados.
Teste a afirmação da agência, contra a alternativa, de que o salário médio é
inferior a R$ 9000, ao nível de significância 0,05.
Prof. Cí nti a Paese Gi acomel lo 76
3. O gerente de marketing de uma fábrica de automóveis está interessado em
determinar a proporção de novos proprietários de carros compactos que teriam
adquirido um air-bag inflável para o lado do passageiro se o mesmo estivesse
disponível a um custo adicional de $ 300,00. Por informações anteriores, o gerente
acredita que a proporção é 30%. Suponha que é feito um levantamento com 200
novos proprietários de carros compactos e 79 indiquem que teriam comprado os
air-bags infláveis. No nível de significância de 0,05, há evidencias de que a
proporção da população é diferente de 0,3?






4. Suponha que o diretor de produção de uma fábrica de tecidos precise determinar se
uma nova máquina está produzindo um tipo de tecido de acordo com as
especificações do fabricante. As especificações indicam que o tecido devia ter uma
resistência de rompimento superior a 70 libras (1 libra = 433,59 gramas) e um
desvio padrão de 3,5 libras. Uma amostra de 36 peças revela uma média aritmética
da amostra igual a 69,7 libras. Há evidências de que a máquina não está atendendo
às especificações, em termos da média da resistência de rompimento? (utilize um
nível de significância de 0,05)





5. Uma rede de postos de gasolina afirma que, em seus estabelecimentos não se
vende gasolina adulterada. Sabe-se que, de acordo com os padrões de qualidade, a
gasolina não pode conter mais de 240 ml de álcool por litro. O órgão de fiscalização
colheu 25 medições do produto nos postos dessa rede, obtendo a partir delas uma
média de 240,75 ml de álcool/litro. Admitindo-se que a quantidade de álcool
presente na gasolina tem uma distribuição normal com desvio-padrão de 2,5
ml/litro. Ao nível de significância 5%, pode-se afirmar que a gasolina é adulterada?



Prof. Cí nti a Paese Gi acomel lo 77
6. Um psicólogo de indústrias deseja estudar os efeitos da motivação nas vendas, em
determinada empresa. Foi selecionada uma amostra aleatória de 24 indivíduos, 12
de cada grupo. Os dados a seguir representam o volume de vendas (em milhares
de reais) alcançado durante o primeiro mês de emprego. Há evidências de que o
volume médio de vendas seja diferente entre os grupos? (utilize nível de
significância 0,05)
Por hora Comissão
256 207 224 285
212 219 261 225
239 228 254 237
216 225 228 232
222 241 273 277
236 230 234 245





7. No caso judicial EUA versus Cidade de Chicago, foram postas em dúvida as práticas
honestas de emprego. Um grupo minoritário (A) e um grupo majoritário (B) fizeram
o exame para capitão do corpo de bombeiros, com os seguintes resultados:
Aprovados Reprovados
Grupo A 10 14
Grupo B 417 145
Com os resultados acima, e com nível de significância de 5%, teste a afirmação de
que o sucesso no teste é independente do grupo.




8. Solicitou-se a quatro amostras de 30 funcionários de uma grande empresa que
opinassem sobre a nova direção da empresa. Ao nível de significância 0,01, o que
se pode concluir?
Estagiários Treinees Técnicos Gerentes
Aprovam 5 4 20 27
Desaprovam 25 26 10 3

Prof. Cí nti a Paese Gi acomel lo 78
9. Um estudo de usuários e não usuários do cinto de segurança resultou nos dados
amostrais aleatórios resumidos na tabela a seguir. Teste a afirmação de que a
quantidade de fumo é independente do uso do cinto de segurança. Uma teoria
plausível é que as pessoas que fumam mais estão menos preocupadas com a sua
saúde e segurança, sendo assim, menos propensas a usar cintos. Com nível de
significância 0,01, os dados amostrais apóiam esta teoria?
Número de cigarros fumados por dia
0 1-14 15-34 35 ou +
Usam cinto de segurança 175 20 42 6
Não usam cinto de segurança 149 17 41 9








10. A tabela abaixo apresenta dados relativos ao time vencedor em diferentes esportes.
Com o nível de 0,05 de significância, teste a afirmação de que as vitórias
casa/visitante são independentes do esporte.
Basquete Beisebol Hockey Futebol
O time da casa ganha 127 53 50 57
O time visitante ganha 71 47 43 42

Prof. Cí nti a Paese Gi acomel lo 79
1 13 3 A An ná ál li is se e d de e v va ar ri iâ ân nc ci ia a ( (A AN NO OV VA A - - A An na al ly ys si is s o of f V Va ar ri ia an nc ce e) )

Há situações onde se deseja comparar várias médias, cada uma oriunda de um grupo
diferente. Esses grupos, também chamados tratamentos, poderiam ser 5 máquinas de
corte, ou 4 pressões de operação, ou 4 layouts, 5 planos econômicos do governo, taxas
de câmbio em 3 diferentes países, resultados da implantação de um novo sistema em duas
filiais, etc.

Exemplo:
Para verificar se existe diferença significativa entre os salários médios dos economistas da
Região Sul, o sindicato da classe resolveu analisar os dados de algumas amostras. Assim
foram selecionados aleatoriamente 5 economistas de cada estado.

Econ.1 Econ.2 Econ.3 Econ.4 Econ.5
Rio Grande do Sul 370 420 280 340 410
Santa Catarina 280 350 430 290 405
Paraná 325 400 295 350 380

Exemplo:
Uma classe com 24 crianças foi dividida em três grupos. Cada grupo de crianças aprendeu
a ler de acordo com um método (três métodos diferentes). Após 3 meses as crianças
foram testadas, utilizando uma escala de 1 a 10. Os resultados foram

Método A 5 0 3 5 4 5 8 2
Método B 4 5 4 7 5 10 3 10
Método C 3 5 0 3 3 9 4 9


Prof. Cí nti a Paese Gi acomel lo 80
Nesses casos, os dados foram tabelados conforme aparecem a seguir:

Tratamento Observações
1 Y
11
, Y
12
... Y
1n1
2 Y
21
, Y
22
... Y
2n2
: :
: :
: :
k Y
k1
, Y
k2
... Y
knk


Os resultados poderiam ser representados por um modelo aditivo:
i
ij i ij
n ..., , 1 = j
k ,....., 1 i ; Y = ε + τ + µ =


Onde Y
ij
é a observação j medida no tratamento i;
µ é a média geral de todas as observações;
τ
i
é o efeito do tratamento i;
ε
ij
é o erro aleatório. (OBS: Para fins de testes de hipótese, supomos que o
erro aleatório ε
ij
segue um modelo normal com média 0 e variância σ
2

aproximadamente igual para todos os tratamentos)

Nosso objetivo será testar a hipótese referente ao efeito dos tratamentos e estimar esses
efeitos, ou seja, verificar se existe diferença significativa entre os resultados apresentados
por cada grupo.

Existem dois tipos de problemas a serem abordados:
Modelo a níveis fixos: quando o efeito de cada tratamento é fixo, como no caso em que
os tratamentos são 4 pressões de operações, ou 4 layouts fixados pelo engenheiro;
Modelo a níveis aleatórios: quando o efeito de cada tratamento é aleatório, como no
caso em que os tratamentos são k lotes de produção, ou k operadores escolhidos
aleatoriamente.

Prof. Cí nti a Paese Gi acomel lo 81
No modelo a níveis fixos, os efeitos dos tratamentos são definidos como desvios da média
geral, tais que:
j i, alguns para : H
..... : H
j i 1
k 2 1 0
µ ≠ µ
µ = = µ = µ


Na H
o
(hipótese nula) supõe-se que todas as médias sejam iguais, ou seja, os
economistas têm o mesmo salário nos três estados (e as diferenças entre os seus salários
são devidas ao acaso) ou os três métodos de ensino são equivalentes.
A H
1
(hipótese alternativa) indica que pelo menos uma das médias difere, ou seja,
existem pelo menos dois estados com salários diferentes entre si ou pelo menos dois
métodos de ensino diferem.

O procedimento utilizado para comparar simultaneamente todos os grupos é chamado de
Análise de Variância, que será visto a seguir.

A análise de variância é uma técnica que pode ser
usada para determinar se as médias de duas ou mais
populações são iguais. O teste se baseia numa
amostra extraída de cada população.

A Análise de Variância é uma técnica para investigar quanto de variabilidade em um
conjunto de observações (dados) pode ser descrito por diferentes causas.

Os cálculos associados à Análise de Variância são apresentados em uma tabela, chamada
de Tabela de Análise de Variância ou Tabela ANOVA

Fonte de variação SQ GDL MQ Teste F
Entre grupos SQG k-1 MQG MQG/MQR
Dentro de grupos SQR N-k MQR
Total SQT N-1


onde k é o número de níveis do fator.
N é a quantidade total de observações
Prof. Cí nti a Paese Gi acomel lo 82
A Análise de Variância se baseia na decomposição da variabilidade total. Mais
especificamente, os desvios das observações individuais em relação à média global podem
ser escritos como:

( ) ( ) ( )
Y Y Y Y Y Y
ij
i
ij
i
− = − + −
..
.
..
.

(1)
onde:
( )
Y Y
i. ..

é o desvio da média do tratamento i em relação à média global;
( )
Y Y
ij
i

.
é o desvio da observação individual em relação à média do tratamento
correspondente;

Elevando ao quadrado ambos os termos da equação (1) e efetuando o somatório, resulta:
( ) ( ) ( )
Y Y n Y Y Y Y
ij i
i i j
i
ij i
ij
− = − + −
∑ ∑ ∑ ..
,
.
.. .
2 2 2
(2)
Na equação (2), identificamos as seguintes somas quadradas:
SQT = SQG + SQR
onde:
SQT é a soma dos quadrados totais, decomposta em:
SQG soma dos quadrados dos grupos (tratamentos), associada exclusivamente a um
efeito dos grupos;
SQR soma dos quadrados dos resíduos, devida exclusivamente ao erro aleatório, medida
dentro dos grupos.
As divisões das somas de quadrados (SQ) pelos graus de liberdade fornecem as médias
quadradas (MQ), que são as estimativas de variabilidade de cada parcela.

Os graus de liberdade são obtidos através do número de níveis do fator e da quantidade
de repetições para cada nível, ou seja, se o fator tem 5 níveis, terá 4 graus de liberdade
(k-1). Os graus de liberdade totais são obtidos através do total de observações menos 1
(N-1) e os graus de liberdade dentro dos grupos será a diferença entre eles (N-1)-(k-1) =
(N-k).

Para testar a hipótese referente ao efeito dos grupos, usamos a distribuição F :
MQR
MQG
F =

Prof. Cí nti a Paese Gi acomel lo 83
O valor resultante do teste F deve ser comparado com uma tabela de valores F, que indica
o valor máximo da estatística no caso de H
o
ser verdadeira, a um determinado nível de
confiança.
Como o valor tabelado de F é contínuo e depende da combinação dos graus de liberdade
do numerador e do denominador, é usual apresentar seus valores apenas para os níveis de
confiança 0,05 e 0,01. Os graus de liberdade para a determinação do valor F são os
mesmos apresentados na tabela da ANOVA.
Os valores constantes na tabela F são valores críticos: apresentam a linha divisória entre a
variação aleatória e a não aleatória. Ao fazer a análise de variância, utilizam-se as duas
estimativas amostrais da variância para calcular uma razão F. Compara-se então o número
resultante com o número tabelado. Se o valor calculado é maior que o valor tabelado,
rejeita-se a hipótese nula. Se o valor calculado é menor que o valor tabelado, a hipótese
nula não pode ser rejeitada.










13.1 Formulário para solução
Para o cálculo das Somas Quadradas é recomendado o uso do seguinte formulário:
TC T N = ( .. )
2
( )
SQT Y TC
ij
= −

2
( ) SQG T n TC
i i
= − ∑
.
2
( ) ( )
SQR Y T n SQT SQG
ij i i
= − = −
∑ ∑
2 2
.

onde
TC é o termo de correção
T.. é a soma de todas as observações
T
i
. é a soma das observações no grupo i

Valor tabel ado
Concl uir pelo
não-acaso
Rejeitar Ho
Concl uir pelo
acaso
Aceitar Ho
Nível de signi ficância = área da cauda
0
Distribuição F
Prof. Cí nti a Paese Gi acomel lo 84
Resolvendo o exemplo dos métodos de ensino através deste formulário obtém-se:
Uma classe com 24 crianças foi dividida em três grupos. Cada grupo de crianças aprendeu
a ler de acordo com um método (três métodos diferentes). Após 3 meses as crianças
foram testadas, utilizando uma escala de 1 a 10. Os resultados foram

Método A 5 0 3 5 4 5 8 2
Método B 4 5 4 7 5 10 3 10
Método C 3 5 0 3 3 9 4 9

k = 3 (três níveis do fator, método A, B e C)
N = 24 (oito alunos por método)
T.. = 5 + 0 + 3 + ... + 4 + 9 = 116 (somar todas as observações)
T
A.
= 5 + 0 + 3 + 5 + 4 + 5 + 8 + 2 = 32 (somar as observações do método A)
T
B.
= 48 (somar as observações do método B)
T
C.
= 36 (somar as observações do método C)

TC = 116
2
/ 24 = 560,67
SQT = (5
2
+ 0
2
+ 3
2
+ ... + 4
2
+ 9
2
) – 560,67 = 738 – 560,67 = 177,33
17,33 560,67 - 578,00 560,67
8
36
8
48
8
32
SQG
2 2 2
= = −
|
|
¹
|

\
|
+ + =

SQR = SQT – SQG = 177,33 – 17,33 = 160,00

Então a tabela da ANOVA ficaria:

Fonte de variação SQ GDL MQ Teste F
Entre grupos 17,33 2 8,67 1,14
Dentro de grupos 160,00 21 7,62
Total 177,33 23

O valor de F tabelado com 2 e 21 graus de liberdade no numerador e denominador,
respectivamente, e nível de significância de 0,05 é F
0,05
≈ 3,49. Como F calculado < F
tabelado, concluímos que não há evidências de que os métodos de ensino alterem a
aprendizagem das crianças, ou seja, os métodos de ensino devem ser equivalentes.

Prof. Cí nti a Paese Gi acomel lo 85

Utilizando o Excel
Clique em Ferramentas e depois em Análise de Dados. (OBS: Se no seu
computador não aparecer Análise de Dados é porque este suplemento não está
ativado. Vá em Ferramentas, depois Suplementos. Disponibilize Análise de
Dados e Análise de Dados VBA.)

Selecione ANOVA – Fator único.
Preencha com as informações que forem necessárias.



13.2 Exemplo de solução no Excel
Uma classe com 24 crianças foi dividida em três grupos. Cada grupo de crianças aprendeu
a ler de acordo com um método (três métodos diferentes). Após 3 meses as crianças
foram testadas, utilizando uma escala de 1 a 10. Os resultados foram

Método A 5 0 3 5 4 5 8 2
Método B 4 5 4 7 5 10 3 10
Método C 3 5 0 3 3 9 4 9

Os dados devem agrupados em linhas ou colunas.
ou

No menu Ferramentas e Análise de Dados, após selecionar ANOVA fator único.
Prof. Cí nti a Paese Gi acomel lo 86
Na janela da ANOVA informar as questões que forem solicitadas.

Os resultados estarão localizados na planilha chamada resultados.

Anova: fator único
RESUMO
Grupo Contagem Soma Média Variância
Método A 8 32 4,0 5,714
Método B 8 48 6,0 7,429
Método C 8 36 4,5 9,714


ANOVA
Fonte da variação SQ gl MQ F valor-P F crítico
Entre grupos 17,33 2 8,67 1,14 0,340 3,47
Dentro dos grupos 160,00 21 7,62

Total 177,33 23

Tabelado
Calculado
Prof. Cí nti a Paese Gi acomel lo 87
Exercícios:
1. Suponha que o valor crítico de F na análise de variância seja 1,99 ao nível de 0,05.
Com base na figura: a) Como você interpretaria uma estatística de teste maior que
1,99? b) Como você interpretaria uma estatística de teste menor que 1,99?










2. Duas turmas de pilotos de corrida de automóveis estão sendo treinadas para uma
grande corrida no domingo. Cada turma faz cinco provas de troca dos quatro pneus
num carro. As turmas são equivalentes ou uma delas é superior, ao nível de
significância 0,05? Complete a tabela da ANOVA e conclua a respeito.

Fonte de variação SQ GDL MQ Teste F
Entre grupos
Dentro de grupos 0,12
Total 0,22


3. Realiza-se um experimento para determinar-se as produções de cinco variedades de
trigo: A, B, C, D e E. São atribuídos quatro lotes de terra para cada variedade e as
produções, em toneladas, estão apresentadas na tabela. Supondo-se que os lotes
possuem fertilidades semelhantes e que as variedades são atribuídas aos lotes
aleatoriamente, determinar se existe diferença entre as produções ao nível de
significância 0,01.

A 20 12 15 19
B 17 14 12 15
C 23 16 18 14
D 15 17 20 12
E 21 14 17 18
1,99
0
Distribuição F
0,05
Prof. Cí nti a Paese Gi acomel lo 88
4. Uma empresa deseja testar quatro tipos diferentes de pneus: K, L, M e N. Suas
durações, determinadas pelas bandas de rodagem, estão na tabela (em milhares de
quilômetros), onde cada tipo foi testado, aleatoriamente, em seis automóveis
semelhantes. Determinar de existe diferença significante entre os pneus ao nível de
significância 0,05.

K 33 38 36 40 31 35
L 32 40 42 38 30 34
M 31 31 37 35 33 30
N 29 34 32 30 33 31


5. Um professor deseja testar três métodos diferentes de ensino I, II e III. Para isso são
escolhidos aleatoriamente três grupos de cinco estudantes, e cada grupo é instruído
por um método diferente. É dada a mesma prova a todos os estudantes e os graus
obtidos constam na tabela. Determinar se existe diferença entre os métodos de ensino
ao nível de significância 0,01.

I 75 62 71 58 73
II 81 85 68 92 90
III 73 79 60 75 81

6. A tabela apresenta os dados sobre a ferrugem acumulada sobre o ferro, que foi tratado
quimicamente com os produtos A, B ou C. Determinar se existe diferença significativa
nos tratamentos ao nível de 0,05.

A 3 5 4 4
B 4 2 3 3
C 6 4 5 5

7. Um experimento mede os quocientes de inteligência (QI) de estudantes do sexo
masculino de estaturas alta, média e baixa, cujos resultados aparecem na tabela.
Determinar se existe qualquer diferença nas contagens do QI em relação às diferentes
alturas ao nível de significância de 0,01.

Alta 110 105 118 90
Média 95 103 119 104
Baixa 108 112 104 93

Prof. Cí nti a Paese Gi acomel lo 89
8. A fim de produzir um tipo superior de ração para galinhas, adicionou-se à ração
tradicional quatro quantidades diferentes de um mesmo produto químico. Cada
quantidade de ração é dada a 8 pintos e o peso das aves após 3 meses é anotado.
Concluir se houve diferença entre as quantidades do produto químico ao nível de
significância 0,05.

20 mg 46 46 46 45 45 45 46 46
30 mg 48 48 47 47 47 47 47 48
40 mg 49 49 50 50 49 50 50 49
50 mg 52 53 52 52 52 52 53 53


9. Uma empresa deseja estudar três tipos de enxerto para ver se todos apresentam o
mesmo crescimento anual. O que se pode concluir a respeito? (use nível de
significância 0,05)

Enxerto 1 Enxerto 2 Enxerto 3
14,4 10,8 11,1
14,8 12,2 9,5
12,7 11,2 10,8
12,2 12,8 12,7
10,9 13,0 10,9


10. Os dados abaixo dão a vida observada dos pneus de quatro caminhões distribuidores
de sorvete, conforme a posição. Supondo comparáveis os caminhões e os motoristas,
poderemos afirmar que a duração média é independente da posição do pneu no
veículo? (use nível de significância 0,01). Disponha os cálculos numa tabela ANOVA.
Qual a importância da comparabilidade dos motoristas e veículos?

Dianteiro direito 17 19 20 24
Dianteiro esquerdo 25 27 18 22
Traseiro direito 22 21 19 26
Traseiro esquerdo 26 24 30 28



Prof. Cí nti a Paese Gi acomel lo 90
1 14 4 R Re eg gr re es ss sã ão o e e c co or rr re el la aç çã ão o

A análise de regressão e de correlação compreende a análise de dados amostrais para
saber se e como duas ou mais variáveis estão relacionadas uma com a outra em uma
população.

A análise de correlação fornece o número
(coeficiente) que resume o grau de
relacionamento entre duas variáveis.

A análise de regressão apresenta como
resultado uma equação matemática que
descreve um determinado relacionamento.

Os valores para a análise de regressão e correlação provêm de observações e, para um
problema com duas variáveis, cada observação dá origem a dois valores, uma para cada
variável. Uma das variáveis será a dependente e a outra independente.

Exemplos:
Família Renda Gastos Peso Altura Aluno
Notas 2
o

grau
Notas
faculdade
1 R$ 1550 R$ 1350 56 179 A 80 85
2 R$ 2000 R$ 1970 67 176 B 75 70
3 R$ 1000 R$ 550 89 180 C 95 95
... 58 170 D 60 65
n R$ 770 R$ 690 45 130 E 70 80

Uma maneira de apresentar os resultados é através do diagrama de dispersão.


Relação l inear
positiva perfeita
Relação l inear
negativa perfeita
X e y posi tivamente
correl acionados
X e y negati vamente
correl acionados
X e y não
correl acionados

Prof. Cí nti a Paese Gi acomel lo 91
Regressão
14.1 Aplicações da regressão
1. Estimar valores de uma variável com base em valores conhecidos de outra variável.
(Situações em que as duas variáveis medem aproximadamente a mesma situação, mas
uma delas é relativamente dispendiosa ou difícil de lidar, enquanto a outra não.)
2. Explicar valores de uma variável em termos da outra, isto é, pode-se suspeitar de
uma relação de causa e efeito.
3. Predizer valores de uma variável.

OBS: OBS: OBS: OBS: A análise da regressão apenas indica qual relacionamento matemático pode existir, se
existir algum. Ou seja, nem a regressão, nem a correlação podem mostrar que uma variável
tenda a causar certos valores de outra variável, não garantido que exista relação de causa e
efeito.
“... a correlação entre beber um copo de vinho por dia e a menor chance de infarto do
miocárdio é um bom exemplo. Estudos recentes mostram que ela não se deve ao vinho e
ao álcool, mas sim ao betacaroteno, corante contido na uva. Para infelicidade de
muitos, tomar suco de uva dá o mesmo resultado que beber vinho tinto.” Jornal do
Brasil, 08/01/1999
14.2 Classificação das regressões
Quanto ao número de variáveis: Simples (uma variável independente explica bem o
fenômeno) ou Múltipla (mais de uma variável independente são necessárias para explicar
bem o fenômeno)
Quanto à qualidade da relação: Linear (os fenômenos podem ser bem explicados por
equações de primeiro grau) ou Não lineares (os fenômenos não podem ser bem explicados
por equações de primeiro grau, exigindo funções de ordem superior).

14.3 Modelo linear
14.3.1 A equação da linha reta
Forma da equação linear:
bx a y ˆ + =

Duas características importantes são:
• A ordenada da reta (valor de em y) determinado ponto (quando x=0) a
• A inclinação da reta (coeficiente angular) b
O método mais usado para ajustar uma linha reta a um conjunto de pontos é conhecido
como método dos mínimos quadrados.
Prof. Cí nti a Paese Gi acomel lo 92
n
x b y
a
) x ( ) x ( n
) y )( x ( ) xy ( n
b
2 2
∑ ∑
∑ ∑
∑ ∑ ∑

=


=

14.3.2 Erro padrão da estimativa linear
Uma vez que as estimativas a e b são funções de variáveis aleatórias (x e y são variáveis
aleatórias) é necessário verificar a precisão das estimativas, conhecendo o erro padrão das
estimativas.
2 n
) xy b y a ( y
S
2
E

+ −
=
∑ ∑ ∑


14.3.3 Intervalo de confiança para a estimativa
Para criar intervalos de confiança com base nos estimadores utiliza-se a equação:
E ervalo int
S t y
ˆ
y ± =


Onde: y ˆ

é obtido da equação.
t é o valor da distribuição t de Student para n-2 graus de liberdade e nível de
confiança determinado (tabelado)
e S
E
é o erro padrão da estimativa
Exemplo:
Seja y o consumo pessoal médio e x o PIB do Brasil em anos consecutivos. Encontre o
Intervalo de confiança 90% para a estimativa quando o PIB for 10,0.

x y x
2
xy
7,0 10,1 49,00 70,70
7,3 10,6 53,29 77,38
7,8 11,3 60,84 88,14
8,6 12,4 73,96 106,64
8,1 11,9 65,61 96,39
8,3 11,9 68,89 98,77
8,2 11,5 67,24 94,30
8,6 12,1 73,96 104,06
9,0 13,1 81,00 117,90
9,6 14,1 92,16 135,36
9,1 14,6 82,81 132,86
Σx = 91,6 Σy = 133,6 Σ x
2
= 768,76 Σ xy = 1122,50

Prof. Cí nti a Paese Gi acomel lo 93
É ideal que sempre se inicie o estudo de regressão com o gráfico de dispersão dos valores.
Consumo pessoal em função do PIB
8,0
10,0
12,0
14,0
6,5 7,5 8,5 9,5 10,5
PIB
C
o
n
s
u
m
o

p
e
s
s
o
a
l


E o cálculo de a e b fica:

668 , 1 b
2
(91,6) - (768,76) 11
(133,6) (91,6) - (1122,5) 11
= =
e 744 , 1
11
91,6 (1,668) - 133,6
a − = =

x 668 , 1 744 , 1 y ˆ + − = , ou PIB 668 , 1 744 , 1 Consumo + − = ou seja, para cada unidade
acrescida do PIB, o consumo pessoal aumentará 1,668 unidades.

E o intervalo de confiança para y quando x=10 será:

4653 , 0
2 11
)) 50 , 1122 ( 668 , 1 ) 6 , 133 )( 744 , 1 (( 28 , 1641
S
E
=

+ − −
=

936 , 14 ) 10 ( 668 , 1 744 , 1 y ˆ = + − =

) 4653 , 0 ( 833 , 1 936 , 14
int
± =
ervalo
y
853 , 0 936 , 14
int
± =
ervalo
y
Ou seja, quando o PIB estiver em 10,0 o Consumo Pessoal poderá variar na faixa entre
14,083 e 15,789, com 90% de confiança.

Valor de t tabelado
Prof. Cí nti a Paese Gi acomel lo 94
Correlação
14.4 Objetivo da correlação
O objetivo da correlação é determinar a força do relacionamento entre duas observações
emparelhadas, porque indica até que ponto os valores de uma variável estão relacionados
com os valores da outra variável.
O resultado da análise de correlação é chamado de coeficiente de correlação – um valor
que quantifica o grau de correlação.
O método mais comum de análise de correlação envolve observações em valores
numéricos. Neste caso utiliza-se o coeficiente r de Pearson.

14.5 O coeficiente r de Pearson (correlação)
O coeficiente r de Pearson mede o grau de associação linear em duas variáveis. Ele
possui duas propriedades importantes:
• Seu sinal. Positivo indica correlação linear positiva, ou seja, à medida que uma variável
cresce, a outra cresce também. Sinal negativo indica correlação linear negativa, ou
seja, à medida que uma variável cresce, a outra decresce.
• Sua grandeza indica quão próximos da reta estão os pontos individuais caso fosse
ajustada uma reta de regressão. O valor do coeficiente pode variar de –1 a 1.



-1

0

1
Correlação
negativa
forte
Inexistência
de
correl ação
Correlação
positiva
forte

O cálculo do valor do coeficiente r de Pearson pode ser obtido através da equação:
|
|
¹
|

\
|

|
|
¹
|

\
|


=




∑ ∑

n
) y (
y
n
) x (
x
n
) y )( x (
xy
r
2
2
2
2


14.6 Coeficiente de determinação
O coeficiente de determinação ou de explicação (r
2
) indica quantos por cento a variação
explicada pela regressão representa da variação total.
r
2
= r.r e 0 ≤ r
2
≤ 1
Prof. Cí nti a Paese Gi acomel lo 95
Exemplo:
Prosseguindo o exemplo anterior, sendo y o consumo pessoal médio e x o PIB do Brasil em
anos consecutivos.

x y x
2
y
2
xy
7,0 10,1 49,00 102,01 70,70
7,3 10,6 53,29 112,36 77,38
7,8 11,3 60,84 127,69 88,14
8,6 12,4 73,96 153,76 106,64
8,1 11,9 65,61 141,61 96,39
8,3 11,9 68,89 141,61 98,77
8,2 11,5 67,24 132,25 94,30
8,6 12,1 73,96 146,41 104,06
9,0 13,1 81,00 171,61 117,90
9,6 14,1 92,16 198,81 135,36
9,1 14,6 82,81 213,16 132,86
Σx = 91,6 Σy = 133,6 Σ x
2
= 768,76 Σ y
2
= 1641,28 Σ xy = 1122,50

O cálculo do coeficiente de correlação é dado por:
=
|
|
¹
|

\
|

|
|
¹
|

\
|


=
11
) 6 , 133 (
28 , 1641
11
) 6 , 91 (
76 , 768
11
) 6 , 133 )( 6 , 91 (
5 , 1122
r
2 2
0,9446
Ou seja, existe uma correlação forte positiva entre os valores do PIB e do consumo
pessoal.
O valor do coeficiente de determinação é: r
2
= 0,9446 x 0,9446 = 0,8923, o que significa
que 89% da variação total é explicada por este modelo.


Utilizando o Excel
Maneira 1: A equação é da forma y = a + bx para os valores dos pares (x,y) e
os coeficientes da reta são calculados utilizando o método dos mínimos
quadrados.Após colocar os valores em duas colunas (valores de x e valores de
y) vá ao “Assistente de Função” e escolha as funções “INCLINAÇÃO” para
determinar o valor de b e “INTERCEPÇÃO” para calcular o valor de a. Os
passos seguintes devem ser feitos seguindo as indicações do programa. Para o
cálculo da correlação utiliza-se no “Assistente de Função” o CORREL. Em
Matriz1 devem ser colocadas as células referentes à variável x em Matriz2 as
células referentes à variável y.
Maneira 2: Selecionar “Ferramentas” e “Análise de dados” e então
“Regressão”. Informar o que for solicitado.

Prof. Cí nti a Paese Gi acomel lo 96
14.7 Exemplo de solução no Excel
A velocidade máxima de automóveis de fórmula 1 com motores de mesma potência é
função, entre outras variáveis, do peso do veículo, no intervalo entre 700 e 800 Kg. Assim,
verificou-se qual a velocidade máxima atingida em uma reta de 1.200 m. Os resultados
foram:


Peso(Kg) 750 755 777 782 793
Veloc.Máx.(Km/h) 380 354 348 330 320

a) Construa o gráfico dos dados
b) Qual a velocidade esperada para um veículo de 760 Kg?



GRÁFICO DOS DADOS (Diagrama de dispersão)
Relação entre velocidade e peso dos veículos de F1
y = -1,181x + 1257,173
R
2
= 0,865
310
330
350
370
390
740 750 760 770 780 790 800
Peso
V
e
l
o
c
i
d
a
d
e

RESUMO DOS RESULTADOS

Estatística de regressão
R múltiplo 0,930
R-Quadrado 0,865
R-quadrado ajustado 0,820
Erro padrão 9,851
Observações 5

S
e

R
Prof. Cí nti a Paese Gi acomel lo 97




ANOVA (teste de significância para o modelo linear ajustado)
gl SQ MQ F F de significação
Regressão 1 1864,051 1864,051 19,207 0,022
Resíduo 3 291,149 97,050
Total 4 2155,200







Coefici-
entes
Erro
padrão
Stat t valor-P
95%
inferiores
95%
superiores
Inferior
95,0%
Superior
95,0%
Interseção 1257,173 207,862 6,048 0,009 595,662 1918,685 595,662 1918,685
Peso(Kg) -1,181 0,269 -4,383 0,022 -2,038 -0,323 -2,038 -0,323

A equação linear de relacionamento dos dados é Velocidade =1257,173 – 1,181 Peso
Então, a velocidade estimada para um veículo com 760 kg é Velocidade=1257,173–
1,181(760) = 359,61 km /hora





Se F de significação < 0,05, então o
modelo linear ajustado aos dados é
válido. Se F > 0,05 o modelo não se
ajusta adequadamente aos dados.
Valores de a e b
Testes para a e b
Se valor-P < 0,05, então a estimativa é
válida, caso contrário é significativamente
nula
Prof. Cí nti a Paese Gi acomel lo 98
Exercícios
1. Determinar o coeficiente de correlação dos dados a seguir:

X 1 2 3 6 9
Y 4 7 7 9 15
Se os dados forem correlacionados, estimar a reta de regressão:


2. A tabela a seguir apresenta os valores dos investimentos administrados on-line a partir
de 1998. Verifique se existe correlação entre os anos (x) e os investimentos (y), caso
exista correlação, apresente o intervalo de confiança de 95% para o valor dos
investimentos no ano de 2002 e 2003.

Ano Investimento
1998 374
1999 555
2000 908
2001 1010


3. Os gráficos e a tabela indicam o número de anos de escolaridade das chefes de família
(x) e a participação feminina na renda familiar (y) em alguns anos


Número
de anos de
estudo
Participação na renda
(%)
1976 4,7 8,4
1990 5,7 16
1993 6,3 19
1996 6,6 21


a) Caso exista associação, quantos anos de estudo serão necessários para que a
participação da mulher na renda familiar chegue a 50% ?
b) E qual será a participação da mulher na renda familiar quando ela tiver 12 anos de
estudo?
c) Você poderia estimar o ano em que a mulher irá participar com 50% da renda?


Prof. Cí nti a Paese Gi acomel lo 99
4. Após uma regulagem eletrônica um veículo apresenta um rendimento ideal no que
tange o consumo de combustível. Contudo, com o passar do tempo esse rendimento
vai se degradando. Os dados a seguir representam o rendimento medido mês a mês
após a regulagem. Ajuste um modelo linear a estes dados. Calcule o coeficiente de
correlação. Interprete os resultados.

x: Meses após a regulagem
1 2 3 4 5 6
y: Rendimento
10,7 10,9 10,8 9,3 9,5 10,4


x: Meses após a regulagem
7 8 9 10 11 12
y: Rendimento
9,0 9,3 7,6 7,6 7,9 7,7


5. O gerente de uma indústria localizada em um país tropical suspeita que há uma
correlação entre a temperatura do dia e a produtividade. Dados coletados
aleatoriamente ao longo de um período de seis meses revelaram o seguinte.

Temperatura 21,2 20,3 22,7 22,0 22,3 23,5 24,8 24,2 25,5 25,2 25,5 25,8
Produtividade 142 148 131 132 145 138 144 136 141 124 133 128

Temperatura 27,5 26,3 28,2 28,6 29,0 29,7 30,7 30,3 30,2 31,4 32,5 32,7
Produtividade 132 137 124 117 122 131 124 111 119 129 123 116

Plote um gráfico de dispersão e visualize a natureza da correlação entre temperatura e
produtividade. Depois estime a equação da reta de regressão e calcule o valor do
coeficiente de correlação. Interprete os resultados.
Estime a produtividade quando a temperatura estiver em 35 graus. Construa um
Intervalo de Confiança de 90% para esta produtividade.

6. Suponha que os valores obtidos para o desempenho de alunos em uma determinada
disciplina e as rendas familiares sejam os que seguem.
Aluno X
(renda)
Y
(desempenho)
1 750 5
2 690 8
3 400 4
4 900 9
5 200 2
6 1000 10
7 300 3
8 600 6
9 1200 10
Os dados são correlacionados? Justifique sua resposta. Se forem, estime a reta de
regressão.

Prof. Cí nti a Paese Gi acomel lo 100
7. A revista Exame Melhores e Maiores apresentou as maiores empresas do comércio, por
vendas no ano anterior. Entre as que pertencem ao setor de comércio varejista estão
destacadas as 11 maiores. Através da análise da tabela e do gráfico, o que você pode
concluir?

Empresa
Número de
funcionários
Vendas
(Milhões US$)
Carrefour 37.004 4.582,4
Pão de Açúcar 39.642 3.976,4
Casas Bahia 11.508 1642,2
Sendas 16.990 1391,7
Ponto Frio 5.395 1223,6
Sonae 22.638 1083,9
Bompreço 13.225 1062,7
L. Americanas 12.485 900,6
McDonalds Não informou 726,7
AgipLiquigás 3.804 693,1
Pernambucanas 10.787 619,1
Fonte: Revista Exame

Vendas no ano de 1999 das 11 maiores empresas do
Brasil do setor de comércio varejista
y = -42,462 + 0,1015 x
R
2
= 0,801
-
500
1.000
1.500
2.000
2.500
3.000
3.500
4.000
4.500
5.000
- 5.000 10.000 15.000 20.000 25.000 30.000 35.000 40.000
Número de funcionários
M
i
l
h
õ
e
s

U
S
$



14.8 Outros modelos
Muitas vezes a forma funcional entre as variáveis x e y não é linear. Alguns modelos,
mesmo não sendo lineares, são facilmente linearizáveis. Este procedimento busca facilitar
o cálculo dos coeficientes da equação.
No entanto, o uso de softwares estatísticos, calculadoras e planilhas eletrônicas auxilia na
obtenção dos coeficientes.
O valor de r
2
serve como uma forma de comparação entre os modelos. O modelo que
apresentar maior valor de r
2
é o que apresenta melhor ajuste dos dados.
Prof. Cí nti a Paese Gi acomel lo 101

14.8.1 Função exponencial -
x
ab y =



a>0 0<b<1 a>0 b>1 a<0 0<b<1 a<0 b>1

Utilizando as propriedades dos logaritmos pode-se chegar a Bx A Y + = onde
b log B e a log A , y log Y = = =

Pelo método dos mínimos quadrados obtém-se A e B e depois convertem-se os valores
para a e b.
B A
10 b e 10 a = =


Exemplo
Uma empresa fabricante de brinquedos registrou suas vendas nos últimos 10 anos,
obtendo os valores apresentados a seguir.

Ano (x) Vendas (y)
1 450
2 500
3 600
4 800
5 1.200
6 1.700
7 2.100
8 4.000
9 5.000
10 7.000

Vendas do brinquedo, por ano
0
2.000
4.000
6.000
8.000
10.000
0 1 2 3 4 5 6 7 8 9 10 11
Ano
V
e
n
d
a
s


O diagrama de dispersão dos dados indica que a relação não é linear.

Prof. Cí nti a Paese Gi acomel lo 102
Para ajustar uma função exponencial, inicia-se com o cálculo dos somatórios de Y, x, Y
2
,
x
2
e xY, onde Y = ln (y)

x y Y=ln(y) x
2
xY Y
2

1 450 6,11 1 6,11 37,32
2 500 6,21 4 12,43 38,62
3 600 6,40 9 19,19 40,92
4 800 6,68 16 26,74 44,68
5 1.200 7,09 25 35,45 50,27
6 1.700 7,44 36 44,63 55,33
7 2.100 7,65 49 53,55 58,52
8 4.000 8,29 64 66,35 68,79
9 5.000 8,52 81 76,65 72,54
10 7.000 8,85 100 88,54 78,39
Total: 55 23.350
73,25 385,00 429,64 545,39

Então,
0,3245
) 55 ( ) 385 ( 10
) 25 , 73 )( 55 ( ) 64 , 429 ( 10
B
2
=


=
5399 , 5
10
) 55 ( 325 , 0 25 , 73
A =

=
3903 , 1 ) 3245 , 0 exp( ) B exp( b = = = e 42 , 254 ) 5399 , 5 exp( ) A exp( a = = =

Logo, a equação final será
Vendas =(254,42)(1,3903)
ano


Observe como os valores estimados pela equação estão próximos dos valores reais,
observados na série de dados.
0
1.000
2.000
3.000
4.000
5.000
6.000
7.000
8.000
1 2 3 4 5 6 7 8 9 10
Vendas
observadas
Vendas
estimadas pela
equação

Prof. Cí nti a Paese Gi acomel lo 103
14.8.2 Função geométrica ou de potência -
b
ax y =



a>0 b ímpar a>0 b par a<0 b ímpar a<0 b par

Utilizando as propriedades dos logaritmos pode-se chegar a bX A Y + = onde
x log X e a log A , y log Y = = =

Pelo método dos mínimos quadrados obtém-se A e b e depois convertem-se os valores
para a.
A
10 a =


Exemplo
Os dados a seguir apresentam a produção de veículos automotivos (y) ao longo do tempo
(x). Para estes dados ajuste um modelo de potência

ano 59 60 61 62 63 64 65
produção 96,1 133,0 145,6 191,2 174,2 183,7 185,2

ano 66 67 68 69 70 71 72
produção 224,6 225,4 278,5 349,5 416,0 516,0 609,0

O diagrama de dispersão dos dados sugere que um modelo potencial é indicado.

Produção automobilística anual
0,0
100,0
200,0
300,0
400,0
500,0
600,0
700,0
55 60 65 70 75
Ano
M
i
l
h
a
r
e
s

d
e

u
n
i
d
a
d
e

Prof. Cí nti a Paese Gi acomel lo 104
Cálculo dos parâmetros:

Ano Produção Y=ln(y) X=ln(x) Y
2
X
2
XY
59 96,1 4,565 4,078 20,843 16,626 18,616
60 133,0 4,890 4,094 23,916 16,764 20,023
61 145,6 4,981 4,111 24,809 16,899 20,476
62 191,2 5,253 4,127 27,597 17,033 21,681
63 174,2 5,160 4,143 26,628 17,166 21,379
64 183,7 5,213 4,159 27,179 17,296 21,682
65 185,2 5,221 4,174 27,263 17,426 21,796
66 224,6 5,414 4,190 29,315 17,553 22,684
67 225,4 5,418 4,205 29,353 17,679 22,781
68 278,5 5,629 4,220 31,690 17,804 23,753
69 349,5 5,857 4,234 34,299 17,928 24,797
70 416,0 6,031 4,248 36,369 18,050 25,621
71 516,0 6,246 4,263 39,014 18,170 26,625
72 609,0 6,412 4,277 41,111 18,290 27,421
Totais: 76,292 58,522 419,386 244,684 319,335

Assim,
7,970
) 522 , 58 ( ) 684 , 244 ( 14
) 292 , 76 )( 522 , 58 ( ) 335 , 319 ( 14
b
2
=


=
868 , 27
14
) 522 , 58 ( 970 , 7 292 , 76
A − =

=
13 E 889 , 7 ) 868 , 27 exp( ) A exp( a − = − = =

Y=A+bX Y=-27,868+7,970X onde Y e X são, respectivamente, ln(x) e ln(y)

Ou então, y=7,889E-13 x
7,970

Logo, a equação final será
Produção de automóveis =7,889E-13 (ano)
7,970


O gráfico comparativo entre os valores observados para a produção e os estimados através
da curva Produção de automóveis =7,889E-13 (ano)
7,970
é:

Prof. Cí nti a Paese Gi acomel lo 105
0,0
100,0
200,0
300,0
400,0
500,0
600,0
700,0
59 60 61 62 63 64 65 66 67 68 69 70 71 72
Produção real
Produção estimada
pela equação


Exercícios
1. Aos dados a seguir ajuste um modelo exponencial e um polinomial. Estime a
quantidade de vendas para o ano de 2003, supondo que o comportamento dos dados
seja mantido. DICA: utilize os números de 1 a 11 para os anos e calcule o valor de y quando x
for 14.

Ano 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Vendas 15 16 17 18 25 28 32 42 55 76 93


2. Se você tivesse uma série de dados como expressa no diagrama de dispersão a seguir,
que modelo de regressão você utilizaria? O que você poderia dizer a respeito dos
valores dos parâmetros?


3. Uma companhia de energia elétrica estimou o consumo médio de energia das famílias
(kwh) de acordo com a renda (R$). Ajuste os seguintes modelos: y=ax
b
, y=ab
x
e
y=a+bx.
Renda 197 286 243 218 241 200 215 198 129 157 296 302
Consumo 1234 1432 1678 1300 1467 1245 1214 1200 770 890 2020 2100
Prof. Cí nti a Paese Gi acomel lo 106
1 15 5 T Ta ab be el la as s





Índice

1

Introdução _____________________________________________________1
1.1 1.2 Amostragem ________________________________________________________ 2 Tipos de variáveis ____________________________________________________ 4

2 3 4

Séries estatísticas _______________________________________________5 Gráficos _______________________________________________________6 Distribuições de freqüências ______________________________________12
4.1 4.2 4.3 4.4 4.5 4.6 Construção de distribuição de freqüência para dados contínuos ______________ 12 Gráficos das distribuições de freqüência _________________________________ 13 Construção de distribuição de freqüência para dados discretos ______________ 15 Construção de uma distribuição de freqüência acumulada___________________ 17 Distribuições de freqüência para dados nominais e por postos _______________ 18 Gráficos para distribuições de freqüência ________________________________ 19

5

Medidas de tendência central _____________________________________20
5.1 5.2 5.3 5.4 Média _____________________________________________________________ 20 Mediana ___________________________________________________________ 23 Moda _____________________________________________________________ 25 Relação entre as medidas de tendência central ___________________________ 26

6

Medidas de variabilidade ________________________________________28
6.1 6.2 6.3 6.4 Amplitude _________________________________________________________ 28 Variância __________________________________________________________ 29 Desvio padrão ______________________________________________________ 29 Coeficiente de variação ______________________________________________ 30

7 8

Medidas de assimetria e curtose __________________________________31 Introdução à probabilidade_______________________________________33
8.1 8.2 8.3 8.4 8.5 Experimento aleatório _______________________________________________ 33 Espaço amostral ____________________________________________________ 34 Eventos ___________________________________________________________ 34 A probabilidade de um evento _________________________________________ 34 Cálculo das probabilidades ____________________________________________ 37

9 Distribuições de probabilidade ____________________________________43 10 Teoria elementar da amostragem ________________________________56
10.1 10.2 Amostragem com e sem reposição ____________________________________ 56 Distribuições amostrais _____________________________________________ 56
2

Prof. Cíntia Paese Giacomello

11 12

Estimação ___________________________________________________62 Testes de hipóteses ___________________________________________68
Teste de hipóteses para médias ______________________________________ 70 Testes de duas amostras para médias _________________________________ 72 Teste para proporções _____________________________________________ 72 Teste do qui-quadrado (k amostras para proporções) ____________________ 73

12.1 12.2 12.3 12.4

13

Análise de variância (ANOVA - Analysis of Variance) _________________79
Formulário para solução ____________________________________________ 83 Exemplo de solução no Excel ________________________________________ 85

13.1 13.2

14

Regressão e correlação ________________________________________90
Aplicações da regressão ____________________________________________ 91 Classificação das regressões_________________________________________ 91 Modelo linear _____________________________________________________ 91

Regressão ______________________________________________________________ 91 14.1 14.2 14.3

Correlação ______________________________________________________________ 94 14.4 14.5 14.6 14.7 14.8 Objetivo da correlação _____________________________________________ 94 O coeficiente r de Pearson (correlação)________________________________ 94 Coeficiente de determinação ________________________________________ 94 Exemplo de solução no Excel ________________________________________ 96 Outros modelos __________________________________________________ 100

15

Tabelas ____________________________________________________106

Prof. Cíntia Paese Giacomello

3

biológicas e físicas. nos negócios e na indústria. Prof. é aceita a divisão da estatística em dois grandes grupos: estatística descritiva e indutiva. mas também porque muitas vezes não dispomos de todos os elementos da população. O objetivo da estatística descritiva é tornar as coisas mais fáceis de entender. apresentar e analisar características ou valores numéricos para uma melhor tomada de decisão em situações de incerteza. Cíntia Paese Giacomello 1 . coletivos ou de massa e procura inferir as leis que os mesmos obedecem. tabulação. Os princípios estatísticos são utilizados em uma grande variedade de situações – no governo. elaboração. relatar e discutir. Método estatístico é um processo para se obter. Descritiva: corresponde aos procedimentos relacionados com a coleta. Utiliza técnicas como a teoria das probabilidades. inferência estatística. Estatística é a ciência ou método científico que estuda os fenômenos multicausais. bem como no âmbito das ciências sociais. inclui as técnicas que dizem respeito à sintetização e à descrição de dados numéricos. Em geral. amostragem.1 I ntrodução Estuda-se estatística para aplicar seus conceitos como auxílio nas tomadas de decisão diante de incertezas. não só por serem menos dispendiosas e consumirem menos tempo no processamento dos dados. de tal modo que estas sejam facilmente entendidas por quem as for usar na tomada de decisões. Com maior freqüência utilizamos o estudo da amostra do que da população. resumo e apresentação das unidades de observação ou de seus valores numéricos Análise dos resultados Divulgação de relatório com as conclusões. Isto é. análise. Os passos da metodologia estatística são os seguintes: • • • • • Definição cuidadosa do problema Formulação de um plano para coleta das unidades de observação Coleta. Indutiva (ou inferencial): parte de uma ou mais amostras (subconjuntos da população) e conclui sobre a população. justificando cientificamente as decisões. Tais métodos podem ser gráficos e envolvem a utilização de recursos computacionais. interpretação e apresentação dos dados.

. Censo: coleção de dados relativos a todos os elementos de uma população. Pode-se utilizar uma tabela de números aleatórios ou um programa de geração de números aleatórios. Fatores como custo. Por exemplo: o 3°. no mínimo. pessoas.. medidas.) a serem estudados. 803°. 1203°.. Amostragem: coleção de dados relativos a elementos de uma amostra.. Os principais tipos de amostragem utilizados são os probabilísticos. Amostragem sistemática: escolhe-se um ponto de partida e então. Exemplo: População Amostra Parâmetro: medida numérica que descreve uma característica de uma população Estatística: medida numérica que descreve uma característica de uma amostra 1. dois estratos (subpopulações) que compartilham a mesma característica e em seguida escolhe-se uma amostra de cada. Amostragem estratificada: subdivide-se a população em. Cíntia Paese Giacomello .Definições: População: coleção completa de todos os elementos (valores. tempo. onde todos os indivíduos da população têm a mesma chance de serem selecionados. Exemplo: homens e mulheres. indivíduos 2 • • Prof. sistematicamente. Amostra: subcoleção de elementos extraídos da população. 403°. podendo-se então determinar o erro amostral. selecionam-se os outros.. Os métodos mais comuns de amostragem probabilística são: • Amostragem aleatória simples: os elementos de uma população são escolhidos de tal forma que todos tenham a mesma chance de serem escolhidos.1 Amostragem O objetivo da amostragem é permitir fazer inferências sobre uma população após inspeção de apenas parte dela.. Os planos de amostragem probabilística são delineados de tal modo que se conhece todas as combinações amostrais possíveis e suas probabilidades. ensaios destrutivos e populações infinitas tornam a amostragem preferível a um estudo completo (censo).

em seguida sorteiam-se algumas áreas e analisam-se todos os elementos dos conglomerados escolhidos. Neste caso a análise de uma amostra poderia causar distorções. Este tipo de amostragem não permite avaliar o erro amostral. 1999. Por exemplo: bairros. Prof. Uma pessoa familiarizada com a população pode indicar melhor as unidades amostrais. EX: doença rara.• Amostragem por conglomerados: divide-se a população em conglomerados (áreas). Fonte: Triola. Mário. 11. Cíntia Paese Giacomello 3 . Amostragens não probabilísticas são utilizadas quando a população em estudo é muito pequena ou de difícil obtenção.

Uma pesquisa efetuada com 1015 pessoas indica que 40 delas são assinante de um serviço de informação on-line.359 pés 3. O tempo total gasto anualmente por um motorista de táxi de Nova York ao dar passagem a pedestres é de 2367 segundos.2 Tipos de variáveis Alguns conjuntos de dados consistem em números. Variáveis Quantitativas Qualitativas Discretas Contínuas Exercícios: Identifique cada número como discreto ou contínuo 1. Apresente dois exemplos de dados discretos ou contínuos de sua empresa / pesquisa.13 mg de alcatrão 2. O altímetro de um avião da American Airlines indica uma altitude de 21. Utiliza-se a nomenclatura de dados (ou variáveis) qualitativos e quantitativos. 4. Cada cigarro Camel tem 16. Prof. enquanto outros são não numéricos.1. Cíntia Paese Giacomello 4 .

que varia.2 Séries estatístic as Consiste no agrupamento dos dados estatísticos em tabelas. isto é. temporais ou geográficas. Prof.local e fato . Séries temporais (ou históricas) Os dados estão reunidos de acordo com o tempo. o que está sendo observado O espaço geográfico A época Estes elementos criam classificações para as séries: específicas.permanecem inalterados. Em qualquer série estatística são observados três elementos fundamentais: • • • O fato. Cíntia Paese Giacomello 5 .permanecem inalterados. Os outros dois fatores . Os outros dois fatores .fato e data . Séries geográficas Os dados estão reunidos de acordo com o local. que varia.

Os outros dois fatores . 3 Gráficos Os gráficos consistem em uma forma de apresentação dos dados. que varia. época e local Escalas e respectivas unidades de medida Indicação das convenções adotadas (legenda) Fonte de informação dos dados Prof.permanecem inalterados. usualmente utilizada pois facilita a interpretação dos resultados. São elementos complementares de um gráfico: • • • • Título geral. resultante da combinação dos fatores.local e data . As séries podem ainda apresentar-se sob a forma mista. Cíntia Paese Giacomello 6 .Séries específicas Os dados estão reunidos de acordo com o evento.

para enfatizar as variações ao longo do tempo. Nesse gráfico 3D. Prof. O gráfico de colunas em perspectiva 3D compara pontos de dados ao longo dos dois eixos.br) Colunas Um gráfico de colunas mostra as alterações de dados em um período de tempo ou ilustra comparações entre itens.com.Principais tipos de gráficos: (Fonte: Site da Microsoft – www.microsoft. As categorias são organizadas na horizontal e os valores são distribuídos na vertical. Vendas por local Barras Um gráfico de barras ilustra comparações entre itens individuais. As categorias são organizadas na vertical e os valores na horizontal para enfocar valores de comparação. Vendas por produto Gráficos de barras empilhadas mostram o relacionamento de itens individuais com o todo. Cíntia Paese Giacomello 7 . você pode comparar o desempenho das vendas de quatro trimestres na Europa com o desempenho de outras duas divisões. Gráficos de colunas empilhadas mostram o relacionamento de itens individuais com o todo .

Diagrama de Dispersão (Dispersão XY) Um gráfico xy (dispersão) mostra a relação existente entre os valores numéricos em várias séries de dados ou plota dois grupos de números como uma série de coordenadas xy. Totaliza a informação (100%). você pode agrupá-las em um único item do gráfico de pizza e subdividir esse item em um gráfico de pizza ou de barras menor.Linha Um gráfico de linhas mostra tendências nos dados em intervalos iguais. Cíntia Paese Giacomello 8 . Ele sempre mostra somente uma única série de dados. ao lado do gráfico principal. Para facilitar a visualização de fatias pequenas. A união dos pontos faz sentido pois a variável é contínua. Esse gráfico mostra intervalos irregulares ou clusters de dados e é usado geralmente para dados científicos. Relação entre tempo e temperatura Prof. Meses usualmente são tratados como variáveis contínuas Valor de venda do produto X Pizza Um gráfico de pizza mostra o tamanho proporcional de itens que constituem uma série de dados para a soma dos itens. sendo útil quando você deseja dar ênfase a um elemento importante. Cada faixa do gráfico é proporcional à informação.

20 0. Apresenta as classes ao longo do eixo horizontal e as freqüências (absolutas ou relativas) ao longo do eixo vertical. Superfície Um gráfico de superfície é útil quando você deseja localizar combinações vantajosas entre dois conjuntos de dados.15 0. Distribuição da quantidade produzida % das árvores 0. porém utilizado para apresentar distribuições de freqüências.Histograma É um gráfico de colunas.25 0. As fronteiras das “barras” coincidem com os pontos extremos dos intervalos de classe. Esse gráfico mostra as várias combinações de temperatura e tempo que resultam na mesma medida de resistência à tração.10 0.30 0.) Área Um gráfico de área enfatiza a dimensão das mudanças ao longo do tempo.05 0. Nesse exemplo.00 3a8 8 a 13 13 a 18 18 a 23 23 a 28 28 a 33 Safras (alq. Prof. Como em um mapa topográfico. as cores e os padrões indicam áreas que estão no mesmo intervalo de valores. o gráfico de área mostra também o relacionamento das partes com um todo. o gráfico de área enfatiza o aumento das vendas em Washington e ilustra a contribuição de cada estado para o total das vendas. Exibindo a soma dos valores plotados. Cíntia Paese Giacomello 9 .

Cíntia Paese Giacomello 10 . Prof. Marca A. Nesse gráfico. Ações O gráfico de alta-baixa-fechamento é usado muitas vezes para ilustrar preços de ações. Você deve organizar seus dados na ordem correta para criar esse e outros gráficos de ações. que medem o volume. representa a marca com o maior conteúdo de vitamina. Esse gráfico também pode ser usado com dados científicos para. indicar mudanças de temperatura.Radar Um gráfico de radar compara os valores agregados de várias séries de dados. por exemplo. Você pode incluir volume em um gráfico de alta-baixa-fechamento ou de abertura-alta-baixa-fechamento. e outro para os preços das ações. Um gráfico de ações que mede o volume tem dois eixos de valores: um para as colunas. a série de dados que cobre a maior parte da área.

O tamanho do marcador de dados indica o valor de uma terceira variável.Bolhas Um gráfico de bolhas é um tipo de gráfico xy (dispersão). coloque os valores de x em uma linha ou coluna e insira os valores de y e os tamanhos das bolhas correspondentes nas linhas ou colunas adjacentes. o gráfico de rosca mostra o relacionamento das partes com o todo. Cone. O gráfico nesse exemplo mostra que a Empresa A tem a maioria dos produtos e a maior fatia do mercado. cilindro e pirâmide Os marcadores de dados em forma de cone. Prof. mas não necessariamente as melhores vendas. cilindro e pirâmide podem dar um efeito especial aos gráficos de colunas e de barras 3D. mas pode conter mais de uma série de dados. Cíntia Paese Giacomello 11 . Rosca Como um gráfico de pizza. Para organizar seus dados. Cada anel do gráfico de rosca representa uma série de dados.

4 9.0 5.9 13.8 6.0 8.5 7.7 9.7 – 3.0 6. de tal forma que se possa determinar a percentagem ou número. os dados são agrupados segundo um critério de magnitude.7 ≅ 7 classes 2 – Amplitude das classes 16.3 9.7 5. 4. n onde n é o 2.4 5. Embora fixo.7 8.2 7. mediante contagem e apresentar os resultados em uma tabela ou gráfico Exemplo: Os dados a seguir representam o tempo (em minutos) que 45 operadores de máquina demoraram para fazer o setup de uma máquina. isto é. (OBS: amplitude = maior valor – menor valor) 3.9 4.7 7. em classe ou pontos. Enquadrar os dados nas classes.7.0 4.5 6.7 7.7 9.9 5. de cada classe. Determinar a amplitude das classes.9 8. As distribuições de freqüências são series heterógrafas.4 8.4 6.4 7. É um tipo de apresentação que condensa uma coleção de dados conforme as freqüências ou repetições de seus valores.9 3.7 6. A construção da distribuição de freqüência depende do tipo de dado com os quais se está lidando: contínuos ou discretos. Nas distribuições de freqüência.9 7.3 5.2 6. tem-se a amplitude das classes 12.6 7.2 6. Logo.5 7.83 ≅ 2 Prof. local e tempo.3 10. permanecendo constante o fato.4 7. Aconselha-se fazer amplitude / n o de classes. séries na qual o fenômeno ou fato apresenta graduações ou subdivisões.0 7.0 5.8 / 7 = 1.8 (Maior valor = 16.6 7.9 = 12.4 1 – Número de classes 45 valores 45 =6. Aconselha-se utilizar número de observações. o fenômeno varia de intensidade.7 16.9). O número de classes deve variar entre 5 e 15.1 8. Cíntia Paese Giacomello 12 .4 15. Estabelecer a quantidade de classes ou intervalos de grupamento dos dados.0 12. Menor valor = 3.1 Construção de distribuição de freqüência para dados contínuos Os principais estágios são: 1. 6.4 Distribuições de freqüências Distribuição de freqüência é uma tabela resumida na qual os dados são organizados em grupos de classe ou categorias convenientemente estabelecidas e numericamente ordenadas.1 7.4 7.6 8.

com linhas retas.3% 40.2 Gráficos das distribuições de freqüência Histograma de freqüências Análise dos tempos para fazer o setup da máquina 20 18 16 14 12 10 8 6 4 2 0 3 –| 5 5 –| 7 7 –| 9 9 –| 11 Tempo (minutos) 18 15 Número de operadores 4 4 2 0 11 –| 13 13 –| 15 15 –| 17 2 Uma alternativa ao histograma de freqüências é o polígono de freqüências.0% 4.9% 33.4% 100% 3 –| 5 equivale a 3 < x ≤ 5 Ou seja. construído mediante a conexão dos pontos médios dos intervalos do histograma. Cíntia Paese Giacomello 13 . A freqüência absoluta (f i ) corresponde ao número de operadores A freqüência relativa (f ri ) corresponde ao percentual de operadores 4.9% 4. Prof.3 – Escrever as classes e contar os valores Tempo (minutos) 3 –| 5 5 –| 7 7 –| 9 9 –| 11 11 –| 13 13 –| 15 15 –| 17 Total Número de operadores 4 15 18 4 2 0 2 45 % de operadores 8.4% 0.0% 8. são contados no intervalo todos os valores superiores a 3 e inferiores ou iguais a 5.

de modo a cercar a área da distribuição observada.8 9.6 Prof. Exercícios: 1.2 11.4 13.7 11. Construa a distribuição de freqüências e apresente em um gráfico.2 8.0 7.0 8.3 11. Construa a distribuição de freqüência e o polígono de freqüências.7 13. 6.5 8.8 8. (para facilitar os dados já estão ordenados) 922 977 930 979 936 987 950 954 954 958 965 968 974 989 1001 1006 1008 1010 1013 1017 1018 1034 1034 1035 1042 1044 1044 1048 1070 1116 2.7 9. deve-se ligar o primeiro e o último pontos médios com o eixo horizontal.9 14.2 8.8 14.8 7.3 11. A tabela de dados representa o peso de 30 sacos de arroz da marca A selecionados aleatoriamente em um supermercado.3 12.9 10.Análise dos tempos para fazer o setup da máquina 20 18 Número de operadores 16 14 12 10 8 6 4 2 0 3 –| 5 5 –| 7 7 –| 9 15 18 4 4 2 0 9 –| 11 11 –| 13 13 –| 15 15 –| 17 2 Tempo (minutos) OBS: uma vez que a área do polígono deve ser 100%. Cíntia Paese Giacomello 14 .

Cíntia Paese Giacomello 15 . Consideremos os seguintes dados relativos ao número de acidentes diários em um grande estacionamento. poderíamos construir a tabela original a partir da distribuição de freqüências.08 0. Isso pode ou não ocorrer com dados discretos.3 Construção de distribuição de freqüência para dados discretos Na construção de uma distribuição de freqüência utilizando dados contínuos.20 0.12 0. Classe 0 1 2 3 4 5 6 7 8 9 Freqüência dias 3 3 4 5 10 10 6 4 3 2 50 % dos dias 0.4. durante o período de 50 dias.04 1.06 Número de dias 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 0. Podemos construir uma distribuição de freqüência sem perda dos valores originais.10 0.08 0.06 0. utilizando os próprios valores. Prof.20 0. perde-se certa quantidade de informação porque os valores individuais perdem sua identidade quando são agrupados em classes.00 Não houve perda de informação. ou seja. 1 5 4 4 0 6 4 1 5 0 3 5 9 3 5 6 3 5 2 4 2 4 7 6 2 4 5 5 7 6 5 6 5 4 6 3 0 4 3 2 7 8 5 1 8 9 4 8 4 7 Note que os dados estão entre 0 e 9.06 0. dependendo da natureza dos dados e os objetivos do analista.

porém em número muito alto para permitir uma distribuição útil. 16 classes.20 0. A perda da informação é de importância secundária (por exemplo. 4-5.Por outro lado. Há suficientes observações para originar uma distribuição significativa Por outro lado. digamos.18 0. Cíntia Paese Giacomello 16 . prefere-se uma distribuição de freqüência com perda da informação quando: • • • Estão em jogo inteiros e não inteiros Só existem inteiros. poderíamos usar como classes 0-1. 2-3.10 1.40 0. o arredondamento do peso de um caminhão ou da renda anual para a unidade mais próxima) Prof.12 0. 6-7 e 8-9. Há menos de.00 Número de dias 25 20 15 10 5 0 0-1 2-3 4-5 6-7 8-9 De modo geral prefere-se uma distribuição de freqüência sem perda de informação quando: • • • Os dados são constituídos de valores inteiros. Classe 0-1 2-3 4-5 6-7 8-9 Freqüência dias 6 9 20 10 5 50 % dos dias 0.

determinado valor.06 0.50 0.82 0.12 0.00 Com perda da informação Classe 0-1 2-3 4-5 6-7 8-9 N° dias 6 9 20 10 5 50 % dias 0.00 Podemos. ou seja.08 0.70 0. Sem perda da informação Classe 0 1 2 3 4 5 6 7 8 9 N° dias 3 3 4 5 10 10 6 4 3 2 50 % dias 0.20 0.30 0.96 1.06 0.04 1.10 1. ou iguais a .90 0. pela primeira tabela.18 0.06 0.12 0.10 0. concluir que 90% dos dados correspondem a valores menores ou iguais a 7. Cíntia Paese Giacomello 17 .20 0. No caso dos acidentes podemos construir distribuições acumuladas para a distribuição com e sem perda da informação.12 0.40 0.06 0.20 0. Em 90% dos dias o número de acidentes não excede 7.12 0. Prof.4 Construção de uma distribuição de freqüência acumulada Uma distribuição de freqüência acumulada tem por objetivo indicar o número ou percentual de itens menores do que.00 Freqüências acumuladas 0.70 0.00 Freqüências acumuladas 0.20 0.90 1.30 0.4.08 0.

acidentes 4.000 Usa-se o gráfico de barras ou colunas para representar dados nominais.0 0.6 0.6 0.0 0.375 0.0 0.4 0.5 Distribuições de freqüência para dados nominais e por postos As distribuições de freqüências para dados nominais se assemelham às distribuições de freqüência normais.2 0.0 0 1 2 3 4 5 6 7 8 9 % dos dias N. 1.2 0. Prof.188 0. Por exemplo: Vendas absolutas Limão Laranja Melão Melancia Abacaxi Total 600 400 300 200 100 1600 Vendas relativas 0.8 0.063 1.8 0.4 0.4 0.2 0.125 0.1. Cíntia Paese Giacomello 18 .0 0 1 2 3 4 5 6 7 8 9 1.8 0.6 0.250 0.0 0-1 2-3 4-5 6-7 8-9 Os polígonos de freqüências acumuladas são também chamados de ogivas. porém apresentam as categorias em lugar das classes.

0 24.3 18.2 18.7 20.4 20.4.3 20.3 26.9 28.0 22.6 Gráficos para distribuições de freqüência A distribuição de freqüência é muitas vezes utilizada para determinar o formato da distribuição.7 24.4 27.4 Prof.4 22.7 21.6 18.8 21.6 23.6 18.3 18.7 18.9 18.4 19. A distribuição dos dados pode ser simétrica ou não.3 25.5 23.7 21. Qual é o formato da distribuição? 20.7 18.3 26.2 20.4 21.2 28.6 20. Distribuições discretas Assimétrica à direita Simétrica Assimétrica à esquerda Exercício: Construa a distribuição de freqüência e desenhe o histograma dos dados a seguir.2 19.3 18. Cíntia Paese Giacomello 19 .1 24.6 20.3 20.3 18.2 21.8 25.3 19.

5 Medidas de ten dência central As medidas de tendência central são usadas para indicar um valor que tende a representar melhor um conjunto de números. sua média é: 71. • Prof. As três medidas mais usadas são a média. Para um dado conjunto de números. se um número se modifica. A média é sensível a (ou afetada por) todos os valores do conjunto. assim.1. ∑x i =1 n i lê-se somatório de x i .. 60. extraindo-se um valor constante de cada valor do conjunto. 80 e 75. A soma dos desvios dos números de um conjunto a contar da média é zero. obtendo as notas 70.1 Média aritmética A média aritmética é o resultado da divisão da soma de todos os valores da amostra pela quantidade total de valores. ∑x i =1 n i = x1 + x 2 + . a média ficará aumentada do valor constante. a mediana e a moda.1 Média 5. Algumas propriedades da média • • • • A média de um conjunto de dados pode ser sempre calculada. Analogamente. 5. ∑x x= i =1 n i n ou simplesmente x = ∑x n OBS: x lê-se X barra e significa média. + x n Se um estudante faz quatro provas. a média é única. a média também se modifica. Somando-se uma constante a cada valor do conjunto. i variando de 1 a n.25. a média também ficará diminuída desse valor.. Cíntia Paese Giacomello 20 .

Um aluno obtém desempenho 70 na primeira avaliação.50 1.00 5.x n lê-se produtório de x i .3 Média geométrica A média geométrica é utilizada quando se deseja fazer a média de taxas de juro. ∑wx i n i Média ponderada = i =1 n ∑w i =1 = i 70x 0. devem ser levados em conta o peso das informações. ∑w x i n i Média ponderada = i =1 n ∑w i =1 i Onde w i é o peso da observação de ordem i. valendo cada um 30% da nota e um exame final valendo 40%. multiplicam-se os n termos e em seguida extraí-se a raiz de ordem n.. i variando de 1 a n.30 + 65x 0. Neste caso.5.1. 5. Prof.30 + 80x 0.1.2 Média ponderada A fórmula anterior para calcular a média aritmética supõe que cada observação tenha a mesma importância. A média geométrica é o resultado da raiz de ordem n do produto de todos os valores da amostra. por exemplo.40 = 72. 65 na segunda e 80 no exame final. n Média geométrica = n ∏x i =1 i n OBS: ∏x i =1 i = x1x 2 x 3. Cíntia Paese Giacomello 21 . ou seja..4 Média harmônica A média harmônica de um conjunto de n números é a recíproca da média aritmética dos recíprocos dos números. Consideremos que um professor informe a classe de que haverá dois exames parciais. A média ponderada considera que as informações não tem a mesma importância.1.

5.0 22. geométrica e harmônica A média geométrica de um conjunto de números positivos é menor ou igual à sua média aritmética. Em símbolos: H≤G≤x O sinal de igualdade vale somente quando todos os números forem iguais.67. utiliza-se em lugar de x i o ponto médio do intervalo.46 50 Prof. Exemplo: Classe 0-1 2-3 4-5 6-7 8-9 Ponto médio (x i ) 0. média geométrica 4 e média harmônica 3.5 8. x = ∑ fx i i n Onde f i é a freqüência da classe i.5 N° dias (f i ) 6 9 20 10 5 n = 50 f i xi 3.0 65.1.5 2. Exemplo: o conjunto 2.Média harmônica = 1 1 1 ∑x n i −1 i n = n ∑x 1 5.6 Cálculo da média para uma distribuição de freqüência A média de uma distribuição de freqüência é calculada com base valor e na freqüência de cada classe.0 42. Cíntia Paese Giacomello 22 .5 Relação entre as médias aritmética.5 90.4 e 8 tem média aritmética 4.5 4. mas é maior ou igual à sua média harmônica.5 223 x= ∑ fx i i n = 223 = 4.43.1.5 6. Para dados com perda da informação.

Em seguida conta-se até a metade deles.2 Mediana A principal característica da mediana é dividir o conjunto de números em dois grupos iguais: a metade terá valores inferiores ou iguais à mediana e a metade terá valores superiores ou iguais à mediana. Para número ímpar de valores a mediana é o valor do meio.44. 5. Cíntia Paese Giacomello 23 . a mediana é a média dos dois valores centrais. Exemplos: Amostra 2 3 34 25 14 5 2 4 31 73 89 24 3 4 23 15 32 6 7 32 52 36 21 Número de elementos 9 elementos 10 elementos ímpar par Dados ordenados 1 2 23 3 4 45 5 1 2 23 34 47 89 Mediana 3 3.44 50 Se fizéssemos a média a partir da tabela original obteríamos o valor de 4. Em geral a mediana ocupa a posição (n+1)/2. Para calcular a mediana inicia-se ordenando os valores em ordem crescente. Para amostras com número par de unidades.Classe (x i ) 0 1 2 3 4 5 6 7 8 9 N° dias (f i ) 3 3 4 5 10 10 6 4 3 2 50 f i xi 0 3 8 15 40 50 36 28 24 18 222 x = ∑ fx i i n = 222 = 4.5 Prof.

isso é. temos 50 observações.1 Cálculo da mediana para uma distribuição de freqüência Da mesma forma que para dados apresentados em série. A mediana pode ser obtida por interpolação. A classe mediana contém 20 observações e a amplitude da classe mediana é 1. e é dada pela fórmula.Uma medida semelhante à mediana é o quartil. Então  50  − 15    x1 = 4 + 0. Os quartis dividem o conjunto ordenado de dados em quatro grupos iguais. a mediana é o ponto que divide as informações ao meio. LI LI = Limite inferior Q1 Q 2 =mediana Q3 LS LS=Limite superior 5. 25% dos valores são inferiores ao primeiro quarti (Q 1 ). O limite inferior da classe mediana é 4.5. Cíntia Paese Giacomello 24 .5 = 4.2. 25% estão entre a mediana e o terceiro quartil (Q 3 ). ou seja.5 Mediana = 4 +  2  20      Prof. Antes da classe mediana (( Σ f) 1 ) haviam “passado” 15 dados. OBS: o segundo quartil corresponde à mediana (Q 2 =mediana). logo a mediana deve estar localizada na posição (50+1)/2 = 25. 25% estão entre Q 1 e a mediana. n   − ( ∑ f )1   c Mediana = L1 +  2  f mediana      onde: L 1 = limite inferior da classe mediana. da classe que contém a mediana n = número de itens dos dados (freqüência total) ( Σ f) 1 =soma de todas as freqüências das classes anteriores à mediana f mediana = freqüência da classe mediana c = amplitude do intervalo da classe mediana Exemplo: No caso dos acidentes. a classe que contém a mediana é a classe 4-5.

Exemplo: A moda do conjunto 2 3 4 3 2 3 5 1 2 é 3. duas modas (bimodal). que é a classe com maior freqüência.. pois o três é o valor que mais vezes aparece. três modas (trimodal) ou mais modas (polimodal).52  11 + 10  Prof. a moda é idêntica ao valor da classe modal. Cíntia Paese Giacomello 25 ..52 = 4 .3 Moda A moda é o valor que aparece com maior freqüência na amostra.5.3.. apresentar uma moda. a classe que contém a moda) ∆ 1 =excesso da freqüência modal sobre a da classe imediatamente anterior ∆ 2 = excesso da freqüência modal sobre a da classe imediatamente posterior c = amplitude da classe modal Exemplo: No caso dos acidentes. Classe 0-1 2-3 4-5 6-7 8-9 N° dias (f i ) 6 9 20 10 5 n = 50 Classe modal  11  Moda = 4 +  1 = 4 + 0 . Quando há perda da informação. a moda representa o(s) valor(es) de X correspondente(m) ao(s) ponto(s) de ordenada(s) máxima(s) da curva e pode ser calculada pela fórmula:  ∆1 Moda = L 1 +  ∆ + ∆  1 2  c   onde: L 1 =limite inferior da classe modal (isto é. 5.1 Cálculo da moda para uma distribuição de freqüência Quando não há perda da informação. Um conjunto de dados pode não apresentar moda.

média harmônica. mediana e moda. ter a mesma freqüência. determine os valores da média aritmética. Moda Classe modal Classes modais Classes modais 5. a) 12 15 16 15 12 15 15 5 7 14 b) 2 6 3 6 3 3 4 c) 2 8 3 10 2 1 6 9 4 3 d) 38 38 70 92 22 17 Prof. necessariamente. sendo bimodal ou de modas múltiplas. OBS: as duas modas não precisam.A distribuição pode ter mais de uma moda. Isso acontece quando há um deslocamento da distribuição. Cíntia Paese Giacomello 26 . Para os seguintes conjuntos de dados.4 Relação entre as medidas de tendência central Para as curvas de freqüência unimodal moderadamente inclinadas (assimétricas) vigora a relação empírica Média – Moda = 3 (Média – Mediana) Moda Mediana Média Moda Mediana Média Moda Mediana Média Exercícios: 1. média geométrica.

Q 2 e Q 3 nos conjuntos de dados que seguem: a) 15 8 16 15 19 14 4 7 3 7 6 12 16 12 4 16 17 9 4 16 8 11 9 3 7 20 16 b) 4 12 4 7 4 9 11 12 5 8 9 4 3. por metro quadrado. Ele deseja saber qual o valor médio. Sabendo que imóveis no centro valem R$ 450.00/m 2 . das suas propriedades. calcule o valor médio por m 2 do seu capital.2. Qual seria o efeito sobre a média de um conjunto de dados se se adicionasse 10: a) a um dos números? b) a cada um dos números? 4. Cíntia Paese Giacomello 27 . João possui 5 imóveis localizados nesta cidade. Determine Q 1 . Apartamento de 80 m 2 no centro Pavilhão de 450 m 2 no bairro Casa de 280 m 2 no centro Apartamento de 120 m 2 no bairro Casa de 320 m 2 no bairro Prof.00/m 2 e imóveis em bairros valem R$ 300.

variância. o valor zero indica ausência de variação. Exemplo: Pequena variabilidade Grande variabilidade Exemplo: Duas máquinas estão sendo comparadas. têm na média o ponto de referência. 6. Em cada caso. Na análise de um conjunto de dados é necessário que sejam observados tanto as informações relativas à localização (medidas de tendência central) quanto as informações de dispersão (medidas de variabilidade). Produção Máq 1 Máq 2 10 5 10 18 10 8 10 3 10 16 Média 10 10 Você acha que a programação da produção para as duas máquinas pode ser a mesma durante 1 semana? Por quê? Consideraremos quatro medidas de dispersão: amplitude. Amplitude = X max .6 Medidas de vari abilidade As medidas de variabilidade ou dispersão indicam se os valores estão relativamente próximos ou não uns dos outros.). A seguir está descrita a produção de cada uma durante 5 dias. de modo geral. variância. entre os valores extremos. a dispersão aumenta à proporção que aumenta o valor da medida (intervalo.1 Amplitude Também conhecida como intervalo. etc. exceto a amplitude. ou seja. Todas elas. Consiste na diferença entre o maior e o menor valor. mais simples de calcular e de entender. desvio padrão e coeficiente de variação. A amplitude de um grupo de dados é. Cíntia Paese Giacomello 28 .X mín Prof.

Assim se a variância é 81.2 Variância Calcula-se a variância de uma amostra elevando-se as diferenças de cada um dos valores em relação à média. nada informado sobre os outros valores.6. e 10. Você acha que a dispersão dos conjuntos é igual? a) b) 15 5 15 4 12 5 14 4 16 6 16 5 4 16 15 4 6. Exemplo: 1. Exemplo: Cálculo da variância do conjunto de dados 2.4. somando-se estas diferenças e dividindo-se por n-1. Prof.8. xi 2 4 6 8 10 Somas x 6 6 6 6 6 xi − x -4 -2 0 2 4 0 ( xi − x )2 16 4 0 4 16 40 s 2 x ∑ (x = i − x)2 n −1 = 40 = 10 5 −1 6. Usualmente iremos utilizar a variância amostral. deve-se substituir n-1 por n na fórmula. Calcule a amplitude dos seguintes conjuntos de dados. s 2 x ∑ (x = i − x)2 n −1 Quando se deseja a variância populacional. o desvio padrão será 9.3 Desvio padrão O desvio padrão é simplesmente a raiz quadrada da variância. Cíntia Paese Giacomello 29 .A maior limitação da amplitude é o fato de só levar em conta os valores extremos de um conjunto.

5. Exemplo: Cálculo do desvio padrão do conjunto de dados 20. O coeficiente de variação é dado pelo quociente entre o desvio padrão e a média dos dados.91 Usando a fórmula simplificada: ∑x ∑x i 2 i = 20 + 5 + 10 + 15 + 25 = 75 = 202 + 52 + 102 + 152 + 252 = 1375  x x −∑ i ∑   n −1 2 i ( ) 2 sx =  n    = 1375 − 75 5 −1 2 5 = 250 = 7. 15 e 25. ou seja.5 = 7.91 5 −1 6.4 Coeficiente de variação O coeficiente de variação é uma medida de variação útil para comparar conjuntos de dados diferentes. Cíntia Paese Giacomello 30 . Prof. o desvio padrão também vai ser em reais (e a variância em reais 2 ). se os dados são em Reais. a substituição de n-1 por n produz as fórmulas para a população. Ele é usualmente expresso em percentual. Usando a fórmula normal: xi 20 5 10 15 25 Somas x 15 15 15 15 15 xi − x 5 -10 -5 0 10 0 ( xi − x )2 25 100 25 0 100 250 sx = ∑ (x i − x)2 n −1 = 250 = 5 −1 62. 10.sx = ∑ (x i − x)2 n −1 = 2  ∑ xi   ∑x −  n     n −1 2 i ( ) Como anteriormente. A unidade na qual o desvio padrão é expresso é a mesma dos dados originais.

0 27. Calcule a média e o desvio padrão para as vendas diárias.29 = = 0. ou afastamento da simetria.8 Calcule a amplitude.3187 MédiaA 19 Desvio Padrão B 1. moda.5 25.5 Então o conjunto que possui maior variabilidade é o conjunto B. 2.2 26. qual apresenta maior variabilidade? Conjunto A Conjunto B 12 3 25 4 16 5 23 2 Solução: CVA = CVB = Desvio Padrão A 6.3688 MédiaB 3. Ela retorna a distorção de uma distribuição. 26. o desvio padrão. O desvio padrão pode ser zero? Explique. mediana e os quartis 7 Medidas de a ssi metria e curtose As medidas de assimetria e curtose indicam qual o formato da distribuição dos dados em relação à distribuição normal (descrita adiante). Exercícios: 1. Pode ser negativo? Explique.06 = = 0.0 23. Assimetria é o grau de desvio. R$ 8100 R$ 9000 R$ 4580 R$ 5600 R$ 7680 R$ 4800 R$ 10640 3.5 27. Um valor positivo indica uma distribuição com uma ponta assimétrica que se estende em direção a valores mais positivos. a média.5 26. O valor enviesado caracteriza o grau de assimetria de uma distribuição em torno de sua média. Cíntia Paese Giacomello 31 . a variância. Consideremos os seguintes dados correspondentes a preços de propostas. de uma distribuição.CV = Desvio padrão S x = Média X Exemplo: Entre os conjuntos de dados a seguir apresentados.4 25.1 26. Um valor Prof.

A curtose negativa indica uma distribuição relativamente plana (chamada platicúrtica). A função correspondente no excel chama-se CURT. no máximo. 4  n(n + 1) 3(n − 1) 2  xi − x       − Curtose =  ∑  s   (n − 2)(n − 3)  (n − 1)(n − 2)(n − 3)   Leptocúrtica c>0 Mesocúrtica c=0 Platicúrtica c<0 Prof. A curtose positiva indica uma distribuição relativamente em cume (chamada leptocúrtica). e calcula a curtose de um conjunto de dados de.negativo indica uma distribuição com uma ponta assimétrica que se estende em direção a valores mais negativos. 30 valores. n x − x Assimetria = ∑ i s  (n − 1)(n − 2)   3 Assimétrica positiva a>0 Simétrica a=0 Assimétrica negativa a<0 A curtose é o grau de achatamento de uma distribuição e caracteriza uma distribuição em cume ou plana se comparada à distribuição normal (chamada mesocúrtica). Cíntia Paese Giacomello 32 . No excel a função correspondente é distorção .

lançamento de um dado.. a previsão das safras. Exemplos : lançamento de uma moeda. Ao descrever um experimento aleatório deve-se especificar não somente que operação ou procedimento deva ser realizado. 33 Prof. as organizações profissionais incorporam a teoria das probabilidades em seus processos diários de deliberações. 8. o cálculo dos custos da produção. As probabilidades são úteis pois ajudam a desenvolver estratégias. aposta na loteria. Cíntia Paese Giacomello .1 Experimento aleatório Experimentos aleatórios são aqueles que. quanto à ocorrência ou não de um evento futuro. Características dos experimentos aleatórios: 1. mesmo repetidos várias vezes sob condições semelhantes. . Hoje os governos. Independentemente de qual seja a aplicação em particular. Os jogadores aplicavam o conhecimento da teoria das probabilidades para planejar estratégias de apostas.8 I nt r oduç ão à p robabilid ad e As origens da probabilidade remontam ao século XVI. Se repetidos muitas vezes apresentarão uma regularidade em termos de freqüência de resultados. em muitos casos. as empresas. Não se pode adiantar um resultado particular. apresentam resultados imprevisíveis.. a utilização das probabilidades indica que existe um elemento de acaso. A previsão da procura de um novo produto. ou de incerteza. mas pode-se descrever todos os resultados possíveis 3. (Note a diferença entre o 2 o e o 3 o ) • • Joga-se um dado e observa-se o número obtido na face superior. Podem ser repetidos indefinidamente sob as mesmas condições. As aplicações iniciais referiam-se quase todas a jogos de azar. Joga-se uma moeda 4 vezes e o observa-se o número de caras obtido. 2. a compra de apólices de seguros. Há numerosos exemplos de tais situações no campo dos negócios e do governo.. Assim é que. As probabilidades são utilizadas para exprimir a chance de ocorrência de determinado evento. O ponto central em todas as situações é a possibilidade de quantificar quão provável é determinado evento. O estudo das probabilidades é importante pois elas são a base para o estudo estatístico. Atualmente a utilização das probabilidades ultrapassou de muito o âmbito desses jogos. mas é possível dizer o que pode ocorrer. pode ser virtualmente impossível afirmar por antecipação o que ocorrerá. a avaliação da redução de impostos sobre a inflação. mas também o que deverá ser observado.

coroa}. Um lote de 10 peças contém 3 defeituosas.3 Eventos Chama-se de evento qualquer subconjunto do espaço amostral S de um experimento aleatório. n(A) é o número de resultados associados ao evento A. Conta-se o número de peças retiradas. A probabilidade deste evento ocorrer é dada por P(A).4 A probabilidade de um evento Seja A um evento. • • • • 8. que é um número entre 0 e 1. Lançam-se dois dados e anota-se o total de pontos obtidos. maior será sua chance de ocorrência.Co). Cíntia Paese Giacomello 34 . Lançam-se dois dados e anota-se o par obtido. n(S) é o número de elementos do conjunto S. Lança-se uma moeda até que ocorra uma cara e conta-se então o número de lançamentos necessários. n(S)=4 8. O método empírico. os possíveis resultados são: 1) cara e cara. ou o número de resultados possíveis. As peças são retiradas uma a uma (sem reposição) até que a última defeituosa seja encontrada.Ca).Co)}. Há três maneiras diferentes de calcular ou estimar probabilidades: o método clássico. Quanto mais próxima a probabilidade estiver de 1. sendo interessante observar a ordem dos resultados. A um evento impossível atribui-se probabilidade 0. No lançamento de um dado.• • Joga-se uma moeda 4 vezes e observa-se a seqüência de caras e coroas. que Prof. enquanto que um evento certo tem probabilidade 1. Exemplo : um experimento é o lançamento de uma moeda. coroa}. então. quanto o espaço amostral tem resultados igualmente prováveis. S={cara. Em dois lançamentos de uma moeda.2 Espaço amostral O espaço amostral (S) de um experimento aleatório é o conjunto de todos os possíveis resultados do experimento. O espaço amostral é S={(Ca.Ca) e (Co. Uma lâmpada nova é ligada e observa-se o tempo gasto até queimar. ou seja. (Ca. 3) coroa e cara e 4) coroa e coroa. 2) cara e coroa. Exemplo : no lançamento de uma moeda S={cara. 8. (Co. qualquer resultado do espaço amostral. o evento de interesse (A) pode ser obter face par e n(A)=3. Os possíveis resultados são cara ou coroa. Um evento de interesse A pode ser “obter cara no lançamento de uma moeda” e n(A)=1.

que utiliza estimativas pessoais de probabilidade.6} Evento A: face par P(A)= 3/6 = ½ = 0. Determine a probabilidade de: a) um valete b) uma carta vermelha c) um dez de paus d) uma figura e) uma carta de ouros f) um nove vermelho Prof. Exercícios: 1.5 ou 50% E a chance de selecionar uma bola branca é 5:5. 2. A probabilidade de selecionar uma bola branca é P(branca)=5/10=0. 3 vermelhas e 2 azuis. baseadas num certo grau de crença. A probabilidade relaciona o número de resultados de A com o número de resultados total. o que significa que existe a mesma chance de retirar uma bola branca ou uma bola de outra cor. Em geral vamos utilizar o método clássico de cálculo de probabilidades.5. que é semelhante a 1:1. Escreva o espaço amostral no lançamento de um dado.2.3. enquanto que chance compara o número de resultados de A com o número de resultados de outro evento (B ou C). a probabilidade de cada resultado é função do número de resultados possíveis: P( A ) = número de resultados associados ao evento A número total de resultados possíveis Exemplo: Experimento: lançar um dado e observar a face superior Espaço amostral: S={1. Cíntia Paese Giacomello 35 . Ache a probabilidade associada a cada evento.5 ou 50% n(S)=6 n(A)=3 OBS: existe uma pequena diferença entre probabilidade e chance de um evento.se baseia na freqüência relativa de ocorrência de um evento num grande número de provas repetidas e o método subjetivo. Em uma urna com 5 bolas brancas. Quando os resultados são equiprováveis.4. Extrai-se uma carta de um baralho de 52 cartas.

A: a segunda face é o dobro da primeira c. n(A) e P(A) no lançamento de dois dados Experimento: Lançar dois dados e observar a seqüência dos resultados S={(1.. A: apareçam somente números ímpares d.. Há 50 bolas numa urna: 20 azuis.5).. A: apareçam faces iguais b. 10 pretas e 5 verdes.4). Misturam-se as bolas.. Cíntia Paese Giacomello 36 . Encontre n(S). Complete a tabela com os valores calculados da probabilidade dos eventos ocorrerem Experimento Lançar uma moeda uma vez Lançar um dado uma vez Extrair uma carta de um baralho com 52 cartas Extrair uma carta de um baralho de 52 cartas Evento Cara Face 3 6 vermelho Valete de ouros P(Evento) 4.(6.3. (1.3). 15 vermelhas.. Determine a probabilidade da bola escolhida ser: a) Verde b) Azul c) Verde ou azul d) Não-vermelha e) Vermelha ou verde f) Amarela g) Não-amarela Prof. A: a soma das faces é igual a 7 5.6)} N(S)=36 a.(6.1). (1.(6. A: apareçam faces iguais ou a segunda face é o quadrado da primeira e..2).

Os dados compilados pela gerência de um supermercado indicam que 915 dentre 1500 clientes compradores de domingo gastam mais de R$ 40. Pode ser necessário determinar a probabilidade de ambos os eventos acontecerem P(A e B) ou a probabilidade de um deles. Uma pesquisa de tráfego levada a efeito das 5 às 6 horas da manhã num trecho de uma rodovia federal revelou que.00 em suas compras. A ou B. a) Qual a probabilidade de a vela defeituosa estar em posição difícil? b) Qual a de não estar em posição difícil? 8.5 Cálculo das probabilidades Muitas aplicações da estatística exigem a determinação da probabilidade de combinações dos eventos. poderíamos perguntar: Qual a probabilidade de ambos elevadores estarem em serviço? Ou então.00. 9. Em um prédio com 2 elevadores. Estime a probabilidade de um carro que pare naquele trecho ter seus pneus em boas condições 8. Um motor tem 6 velas. Duas estão em posição de difícil acesso. o que torna difícil a substituição. Ao parar. ou seja. Há duas características de combinações. Um motorista tem uma marca num de seus pneus. Cíntia Paese Giacomello 37 . Qual a probabilidade de um ou outro elevador estar em serviço? Ambos implica P(A e B) Um ou outro implica P(A ou B) Prof.6. 25 tinham pneus em más condições. devendo ser substituída. e uma está defeituosa. e 20% do pneu é visível. P(A ou B). de 200 carros que pararam para uma verificação rotineira de segurança. qual a probabilidade da marca ficar na parte visível? 7. Estime a probabilidade de um comprador em qualquer domingo gastar mais de R$ 40.

Regra da adição: A regra da adição leva em conta a ocorrência do evento A ou do evento B ou de ambos os eventos e é denotada por P(A∪B).

A

B

P(A ou B) = P(A) + P(B) – P(A e B) Quando os eventos são mutuamente excludentes (não tem elementos em comum), então a probabilidade de ambos é nula e o termo P(A e B) será zero. Se A e B são mutuamente excludentes P(A ou B) = P(A) + P(B)

OBS: Para apresentar os eventos utilizam-se os Diagramas de Venn [apresentados por John Venn (1834-1923)], que representam os espaços amostrais e os eventos como círculos, quadrados, ou outra figura geométrica conveniente.

Exercícios:
1. Numa urna existem 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso. Qual a probabilidade do número ser par ou maior que 4?

2. Numa urna existem 10 bolas numeradas de 1 a 10. Retira-se uma bola ao acaso. Qual a probabilidade do número ser um número primo ou maior que 8?

Prof. Cíntia Paese Giacomello

38

Regra da multiplicação Considerando-se dois eventos A e B de um mesmo espaço amostral, a probabilidade de A e B ocorrerem P(A∩B) é dada por:

A

B

A probabilidade de A e B é igual à probabilidade de A, dado B, vezes a probabilidade de B. P(A e B) = P(A|B) P(B) Onde P(A|B) é a probabilidade de A ocorrer dado que B tenha ocorrido.

Quando a probabilidade de B ocorrer não depender de A ter ocorrido, dizemos que A e B são independentes, e P(B| A)=P(B) Se A e B são independentes P(A e B)=P(A)P(B)

Exemplo 1: Deve-se inspecionar uma grande caixa de peças. Os registros indicam que 2% das caixas acusam conteúdo inferior ao estipulado. Escolhidas duas caixas aleatoriamente, qual a probabilidade de ambas acusarem conteúdo inferior, admitindo-se que a remessa inspecionada é semelhante as anteriores (isto é, 2% de deficientes)? P(ambas deficientes)=P(deficiente)P(deficiente) =0,02 x 0,02 =0,0004 ou seja, 0,04% de probabilidade das caixas serem defeituosas.

Exemplo 2: Suponha que 20 canetas estão expostas numa papelaria. Seis são vermelhas e 14 azuis. Do conjunto de 20, iremos escolher 2 canetas aleatoriamente. Qual a probabilidade de que as duas canetas selecionadas sejam vermelhas? Neste caso os eventos não são independentes, pois a cor da primeira caneta selecionada vai determinar a probabilidade da segunda caneta ser vermelha. Seja A=a segunda caneta selecionada é vermelha B=a primeira caneta selecionada é vermelha Desejamos P(A e B) = P(A|B) P(B) = 

 5  6   30    =   = 0,0789  19  20   380 

Prof. Cíntia Paese Giacomello

39

Regras de probabilidade P(A ou B), Para eventos não mutuamente excludentes: P(A ou B ou ambos) = P(A) + P(B) – P(A e B) para eventos mutuamente excludentes: P(A ou B) = P(A) + P(B) P(A e B), para eventos independentes: P(A e B) = P(A) . P(B) Para eventos dependentes P(A e B) = P(B).P(A/B) ou P(A).P(B/A)

Outra forma de apresentar os eventos é através de tabelas de contingência (tabelas com cruzamento de classificações). Por exemplo: Vermelha Ás Não ás Totais 2 24 26 Preta 2 24 26 Totais 4 48 52

Exercícios
1. Uma urna contém 6 bolas vermelhas e 4 azuis. Em duas bolas consecutivas, sem reposição, determine a probabilidade de retirar a primeira azul e a segunda vermelha.

2. Uma urna contém 6 bolas vermelhas e 4 azuis. Em duas bolas consecutivas, com reposição, determine a probabilidade de retirar a primeira azul e a segunda vermelha.

3. Em um lote de 12 peças, quatro são defeituosas. Retira-se uma peça e inspecionase. Qual a probabilidade: a. Da peça ser defeituosa b. Dela não ser defeituosa

Prof. Cíntia Paese Giacomello

40

Um dado é lançado 3 vezes. a. sabe-se que 30 são recapados. Se um cliente levar dois pneus. Se um cliente levar um pneu. Calcule a probabilidade de que se obtenha face 6 nos 3 lançamentos. Uma urna contém 50 bolas numeradas de 1 a 50. sem reposição. Cíntia Paese Giacomello 41 . Serão selecionadas 5 bolas. qual a probabilidade de que todos sejam recapados? 5. Uma loja dispõe de pneus novos e recapados. Qual a probabilidade de que uma pessoa que tenha feito um jogo anotando os 5 número acerte todos? Prof. qual a probabilidade de que ambos sejam recapados? c. Entre 100 pneus. Se um cliente levar 4 pneus. 6.4. qual a probabilidade de que ele seja recapado? b.

Se um aluno é selecionado aleatoriamente. Se um aluno é selecionado aleatoriamente. Suponha que um aluno possui um cartão de crédito bancário. Suponha que uma amostra de 200 alunos em sua faculdade apresentou as seguintes informações em termos de o aluno possuir cartão de crédito bancário e/ou cartão de crédito de viagem e entretenimento: CC de viagem e entretenimento Sim CC bancário Sim Não Totais 60 15 75 Não 60 65 125 Totais 120 80 200 a. Suponha que o aluno não possui um cartão de viagem e entretenimento. Qual a probabilidade de que ele possua um cartão de viagem e entretenimento? g. qual a probabilidade de que o aluno não possua um cartão de crédito bancário nem cartão de viagem e entretenimento? e. possuir um cartão de crédito bancário e possuir um cartão de viagem e entretenimento. qual a probabilidade de que o aluno possua um cartão de crédito bancário e um cartão de viagem e entretenimento? d. Nos últimos anos. Se um aluno é selecionado aleatoriamente. qual a probabilidade de que o aluno possua um cartão de crédito bancário ou possua um cartão de viagem e entretenimento? f.7. Prof. Se um aluno é selecionado aleatoriamente. Os dois eventos. Qual a probabilidade de que ele ou ela possua um cartão de crédito bancário? h. qual a probabilidade de que o aluno não possua um cartão de crédito bancário? c. qual a probabilidade de que o aluno possua um cartão de crédito bancário? b. as empresas de cartões de crédito intensificaram esforços no sentido de abrir mais contas para alunos de faculdade. são estatisticamente independentes? Explique. Cíntia Paese Giacomello 42 . Se um aluno é selecionado aleatoriamente.

2. Uma variável aleatória é considerada contínua quando pode tomar qualquer valor em determinado intervalo. Uma distribuição de probabilidade é um modelo matemático que relaciona um certo valor da variável em estudo com a sua probabilidade de ocorrência.9 Distribuições de probabilidade O histograma é usado para apresentar observações extraídas de uma população) dados amostrais (Amostra=conjunto de Por exemplo. cujos valores são determinados por fatores de chance. 50 valores de satisfação dos clientes são interpretados como uma amostra da satisfação de todos os clientes. a probabilidade que a variável específico x o é dada por: P {X = x o } = P(x o ) X assuma um valor No caso de variáveis contínuas. Há dois tipos de distribuição de probabilidade 1. Prof. etc. etc. 1. o peso de peças produzidas. como por exemplo. as probabilidades são especificadas em termos de b intervalos: P a ≤ x ≤ b = ∫a f ( x ) dx { } Relembrando: uma variável aleatória é uma função com valores numéricos. Distribuições Discretas: Quando a variável que está sendo medida só pode assumir certos valores. Distribuições Contínuas: Quando a variável que está sendo medida é expressa em uma escala contínua. No caso de distribuições discretas. Uma variável aleatória é considerada discreta se toma valores que podem ser contados. Cíntia Paese Giacomello 43 . 2. diâmetro. como por exemplo os valores inteiros 0. O uso de métodos estatísticos permite que se analise essa amostra e se tire alguma conclusão sobre a satisfação dos clientes.

E( x ) = ∑px i i =1 n i se X é v. Resultado Cara Cara Número de caras Valor da V.A. do resultado ½ x ½=¼ ½ x ½=¼ Número de caras Valor da V. o valor médio da variável. ou esperança matemática. 2 1 1 0 Prob. discreta ou ∞ E( X) = ∫ x. Exemplo: Distribuição de probabilidade para a variável aleatória “número de caras em duas jogadas de uma moeda”. de uma variável aleatória é E(x).a. que consiste no valor esperado para ela.a. f(x) dx se X é v. O desvio padrão é Var ( X) 44 Prof. do resultado ¼ ¼ +¼ =½ ¼ Soma = 1 Cara Coroa Coroa Cara Coroa Coroa ½ x ½=¼ ½ x ½=¼ Soma = 1 2 O valor esperado.A 0 1 Prob.Os gráficos a seguir apresentam exemplos de distribuições de probabilidades discreta e contínua. Cíntia Paese Giacomello . contínua −∞ E a variância de X é dada por Var( X ) = E( X 2 ) − [E( X )]2 . ou seja.

000.000.Neste exemplo.000 Desvio padrão = $ 19. o valor esperado é 0 . Seu ganho esperado é de: E(X) = 0.10 3 0.00 Prof. O número de chamadas telefônicas recebidas por uma mesa e suas respectivas probabilidades para um intervalo de 3 minutos são: Número de chamadas Freqüência relativa 0 0.000.000 e 0.000.(-15.20 5 0. Uma confeitaria estabeleceu um registro de vendas para certo tipo de bolo. quantas chamadas podem ser esperadas num intervalo de três minutos? 2.000 2 = 385. Determine o número esperado de bolos encomendados.000+ 135.000 2 =(0.10 8 0.71 Exemplo: um investidor julga que tem 0.000) + 0.000 + 0. E a variância é Var(X)=E(X 2 )-[E(X)] 2 = E(X 2 ) .5 E o desvio padrão = 0.000 –1.004 de chance de um prêmio de $ 25. Cíntia Paese Giacomello 45 .000.000 e 0.½ + 2 2 .4.6 de perder $ 15.6.000.000.03 Total 1.00 Em média.07 2 0.¼) –1 =1.12 4 0.01 Total 1.09 3 0. 0.4 x 625.03 5 0.20 2 0. ¼ + 1 . ¼ = 1.000 2 + 0. ½ + 2 .000.000 2 = 250.18 7 0.000. E a variância é Var(X)=E(X 2 )-[E(X)] 2 = E(X 2 ) – 1.000) 2 )-1.00002 de chance de dar um prêmio de $ 50.20 6 0.00001 de chance de dar um prêmio de $ 100.595. Um bilhete de loteria tem 0.000 –1.000) = $ 1.¼ + 1 2 .25.6 (-15.5-1=0.000 2 =(0.92 Exercícios: 1.1= (0 2 .000)-1.4 (25.01 9 0.4 de probabilidade de ganhar $ 25.6 x 225.02 1 0. N ° bolos/dia Freqüência relativa 0 0. Qual seria o preço justo de venda do bilhete? 3.60 1 0.000 = 384.000.04 4 0.

p ) Distribuição Binomial Seja um processo composto de uma seqüência de observações independentes. Cada observação pode ser classificada em uma de duas categorias mutuamente excludentes e coletivamente exaustivas. 4. Em aplicações de controle da qualidade. As observações possíveis podem ser obtidas através de dois diferentes métodos de amostragem. x em geral representa o número de defeituosos observados em uma amostra de n itens. que por sua vez é uma v.p P(1) = P(X=1) = p Então. com função de probabilidade tal que: P(0) = P(X=0) = 1.9. que assume apenas os valores 0 e 1. Distribuição de Bernoulli A distribuição de Bernoulli consiste em uma distribuição adequada à variável aleatória de Bernoulli.a. Distribuição Binomial e Distribuição Poisson. usualmente chamadas sucesso ou falha.1 Distribuições discretas mais importantes As principais distribuições discretas são a Distribuição de Bernoulli.1. Se a probabilidade de sucesso é constante e igual a p. Cada observação pode ser considerada como se tivesse sido selecionada a partir de uma população infinita sem reposição ou a partir de uma população finita com reposição. Prof. a distribuição do número de sucessos seguirá o modelo Binomial. 3. A probabilidade de uma observação ser classificada como sucesso ( p ) é constante de observação para observação. Cíntia Paese Giacomello 46 . sucesso ou fracasso) de qualquer observação independe do resultado de qualquer outra observação. A distribuição Binomial é usada com freqüência no controle de qualidade. A distribuição binomial possui quatro propriedades essenciais: 1. a probabilidade de fracasso 1-p também é constante. onde o resultado de cada observação pode ser um sucesso ou uma falha. É o modelo apropriado quando a amostragem é feita sobre uma população infinita ou muito grande. 2. E(X)= p e Var(X)= p (1. O resultado (isto é. Assim sendo.

2 .010 (1 − 0 . ser boa ou defeituosa. 1..01 e n=100.01 (1 − 0.015  4 0. .01)    3 100 − 3 = 0.01)    P(x=3) = P(3) =   3 0. calcule as probabilidades de uma amostra apresentar 0 . Plote a distribuição de probabilidade correspondente. 3 e 4 defeituosos..01)    Prof. 1 . com parâmetros p=0. 2.01 (1 − 0. a distribuição que melhor se ajusta é a distribuição binomial. n) A média de uma variável aleatória com distribuição binomial é µ = np e a variância é dada por σ 2 = np(1-p) onde p é proporção de sucessos na amostra p = x n Exemplo: Um processo industrial opera com média de 1% de defeituosos.01 (1 − 0. Como a variável aleatória pode apresentar apenas duas possibilidades.01)100−1 = 0. Então.n P ( x ) =   p x (1 − p ) n − x x   onde e n n!   = x x ! ( n − x )!   n   representa o número de combinações de n objetos tomados x de cada vez x   P(X) = probabilidade de X sucessos uma vez que n e p são conhecidos n = tamanho da amostra p = probabilidade de sucesso 1-p = probabilidade de falha X = número de sucessos na amostra (X=0.370  1    100  100  100  2 100 − 2 P(x=2) = P(2) =  = 0.061 4 100 − 4 P(x=4) = P(4) =  = 0.01 (1 − 0. Cíntia Paese Giacomello 47 ..366   0  P(x=1) = P(1) = 100 1  0.01)100 − 0 = 0.185  2 0. Baseado em amostras de 100 unidades. a probabilidade de uma amostra de tamanho n = 100 apresentar 0 defeituosos é n P( x ) =  p x (1 − p)n − x x   P(x=0) = P(0) =    100   0 .

Um processo opera segundo uma chance de falha de 2%. por volume ou por tempo) Diz-se que existe um processo de Poisson se pudermos observar eventos discretos numa área de oportunidade – um intervalo contínuo (de tempo.3 P(x) 0.) de maneira tal que. de comprimento.1 0 x=0 x=1 x=2 x=3 x=4 Exercícios: 1. fossem coletadas amostras de 50 unidades e o critério para parar o processo e procurar causas especiais fosse X=1 ou mais..2 0. . Distribuição de Poisson A aplicação típica da distribuição de Poisson no controle da qualidade é como um modelo para o número de defeitos (não-conformidades) que ocorre por unidade de produto (por m 2 . qual a probabilidade de uma amostra selecionada apresentar 2 defeituosos ou menos. Calcule a percentagem de vezes que o processo seria interrompido logo após a amostragem. Cíntia Paese Giacomello 48 . A probabilidade de se observar exatamente um sucesso no intervalo é estável Prof. se encurtarmos a área de oportunidade ou intervalo suficientemente: 1. Imagine que para o processo anterior. de área. Coletando amostras de 25 unidades.. 2.0.4 0.

71828) X = número de sucessos por unidade Exemplo: Suponha que o número de defeitos no cordão de solda de uma carroceria siga uma distribuição de Poisson com λ = 2. Exemplo 2: Prof. P(X> 3) = 1 – P(x ≤ 3) = 1-[ P(x=0) + P(x=1) + P(x=2) + P(x=3)] = 1 – [0.. dado que λ sucessos são esperados é: P( x ) = onde e − λ λx onde x=0. x! P(X) = probabilidade de X sucessos. A expressão matemática para a distribuição de Poisson para se obterem X sucessos.180] = 1 – [0.857] =0.135 0! e −2 21 P(x=1) = P(1) = = 0. A ocorrência de um sucesso em qualquer intervalo é estatisticamente independente da ocorrência em qualquer outro intervalo A distribuição de Poisson tem um parâmetro λ (lambda) que é a média ou o número esperado de sucessos por unidade.2.. Então a probabilidade de uma carroceria apresentar mais de 3 defeitos será: P(X> 3) = 1 – P(x ≤ 3) = 1-[ P(x=0) + P(x=1) + P(x=2) + P(x=3)] Onde P( x ) = e − λ λx x! P(0) = e −2 2 0 = 0. dado o conhecimento de λ λ = número esperado de sucessos e = constante matemática (aproximadamente 2..271+0.143 14% P(x=3) = P(3) = 0.180 A probabilidade de uma carroceria apresentar mais de três defeitos é 14%. Cíntia Paese Giacomello 49 .1.271+0..135+0. O número de sucessos X da variável aleatória de Poisson varia de 0 a ∞ . A probabilidade de se observar mais de um sucesso no intervalo é zero 3. A variância desta distribuição é σ 2 = λ .2.271 1! P(x=2) = P(2) = 0.271 Logo.

qual a probabilidade de. Dez por cento das ferramentas produzidas por um certo processo de fabricação revelaram-se defeituosas. Suponha que esses erros sigam o modelo de Poisson com média λ = 0.63% 5! Exercícios: 1.15 defeitos/unidade. em uma amostra de 10 ferramentas escolhidas ao acaso. ocorra apenas um acidente? 4. defeitos superficiais de pintura ocorrem a uma taxa de 0. Qual a probabilidade de uma nota selecionada ao acaso conter 1 ou mais erros? 2.1563 = 15. Se a probabilidade de um indivíduo sofrer uma reação nociva.001. Em uma empresa industrial ocorrem. O setor financeiro de uma loja de departamentos está tentando controlar o número de erros cometidos na emissão das notas fiscais. em média.03. Encontre a probabilidade que uma unidade escolhida ao acaso apresente 1 ou mais defeitos superficiais. exatamente duas serem defeituosas mediante o emprego da distribuição de Poisson. 3 acidentes por mês. entre 2000 indivíduos. Então deve-se transformar o λ para que ele corresponda ao tempo de 2 minutos.Se chegam em média 2 carros por minuto em um posto de gasolina. resultante da injeção de um determinado soro é 0. Cíntia Paese Giacomello 50 . Determinar a probabilidade de. Em uma indústria automotiva. Qual a probabilidade de que em um determinado mês. 5. qual a probabilidade de que cheguem exatamente 5 carros em dois minutos? Neste caso o tempo é diferente do tempo correspondente ao λ. a) exatamente 3 sofrerem aquela reação? b) Mais de 2 sofrerem a reação? Prof. Chegam em média 2 carros por minuto chegam em média 4 carros em 2 minutos λ =4 e − λ λx P( x ) = x! e −4 45 P (5) = = 0. 3.

Inúmeros fenômenos contínuos parecem seguí-la ou podem ser aproximados por meio dela 2. Outros modelos importantes de distribuições contínuas são: Uniforme.9. Exponencial. Cíntia Paese Giacomello 51 .71828) π = constante matemática (aproximada por 3.1.2 Distribuições contínuas A distribuição mais importante e mais utilizada na prática é a Distribuição Normal. devido à sua afinidade com o teorema do limite central Os parâmetros da distribuição Normal são a média e o desvio padrão. Distribuição Normal A Distribuição Normal é essencialmente importante na estatística por três razões principais: 1. Gama. Qui-Quadrado. Podemos utilizá-la para aproximar várias distribuições de probabilidade discretas 3.∞ < X < ∞ Prof.14159) µ = média aritmética da população σ = desvio padrão da população X = qualquer valor da variável aleatória contínua onde . A função de probabilidade da distribuição normal é dada por: f ( x) = 1 σ 2π exp −1  x − µ    2 σ    2 onde: e = constante matemática (aproximada por 2. Ela oferece a base para a inferência estatística clássica. t de Student e F de Snedecor. em forma de sino. unimodal. Trata-se de uma distribuição simétrica.

73% 95. mas a solução está apresentada em tabelas onde se entra com a variável reduzida ou variável padronizada Z e encontra-se F(Z) ou vice-versa. com distribuição normal.a.c.99. com média µ e variância 2 σ utiliza-se: X~ N( µ. Cíntia Paese Giacomello 52 . a − µ  P( x ≤ a) = P Z ≤  = F(Z ) σ   Valor tabelado (Procurar na tabela da distribuição Normal padronizada) Prof.44% 68.26% µ -1σ +1σ -2σ -3σ +2σ +3σ Para simplificar a notação de uma v. σ 2 ) A distribuição Normal acumulada é obtida calculando a probabilidade de X ser menor que um dado valor a : P( x ≤ a) = F(a) = ∫ f (x)dx −∞ a Função densidade acumulada Essa integral não pode ser resolvida em forma fechada.

Sabe-se que o peso segue um modelo normal com média 1000 gramas e desvio padrão 40 gramas. quantas estarão entre 95 e 112? P(95<x<112)= P  = P(-0. qual a probabilidade de que um pacote selecionado aleatoriamente satisfaça a especificação? OBS: este esquema equivale P(x>950) = P Z >   950 − 1000   = P(Z > −1.5000 = 0.25 µ =0 σ =1 A probabilidade de que um pacote selecionado aleatoriamente satisfaça a especificação é de 89%. aproximadamente 2305 estarão entre 95 e 112.3849 =0. Exemplo 2: Sabe-se que X representa medições feitas em um processo que segue o modelo Normal com média 100 e desvio padrão 10.5<Z<1. (4000 x 57. Se a especificação técnica estabelece que o peso deve ser maior que 950 gramas.1915+0.Exemplo: O peso de um produto é uma característica muito importante. Se forem feitas 4000 medições.8944 40  Tabelado X=950 µ =1000 σ =40 Z=-1.3944 + 0. Se forem feitas 4000 medições. Cíntia Paese Giacomello 53 .25) = 0.5764 112 − 100   95 − 100 <Z<  10  10  µ =100 σ =10 Valores tabelados Aproximadamente 58% estarão entre 95 e 112.2) =0.64%) Prof.

Sabe-se que essa resistência segue um modelo Normal com média 40 psi e desvio padrão 2 psi. qual a probabilidade que uma sacola produzida com este material satisfaça a especificação? 2. 0. determine o percentual de unidades produzidas em conformidades com as especificações.85 a 25. quantos apresentarão resistência inferior a 85 Kg? E quantos apresentarão resistência superior a 90 Kg? 4. varia de 24.15 V e desvio padrão 0. Encontre o percentual que irá falhar em atender às especificações 12 V ± Prof.2 V.05mm.08mm e desvio padrão 0.000 unidades desses isoladores.00 ± 0.5 V.15mm (isto é. A saída de uma bateria segue o modelo Normal com média 12. 3. Se são produzidas 10. A resistência à tração do papel usado em sacolas de supermercado é uma característica de qualidade importante. Cíntia Paese Giacomello 54 . Se a especificação estabelece que a resistência deve ser maior que 35 psi.15mm). A resistência à tração de isoladores cerâmicos apresenta distribuição Normal com média 95 Kg e desvio padrão 4 Kg. Se as especificações para esse eixo são 25. O diâmetro do eixo principal de um disco rígido segue a distribuição Normal com média 25.Exercícios: 1.

Uma fábrica de pneus fez um teste para medir o desgaste de pneus e verificou que ele seguia o comportamento de uma curva normal com média 48. Dure mais que 47. Até que quilometragem duram 90% dos pneus? 9. comunicando que o carro estará pronto em 1 h.000 km? c. Que % de latas tem menos que 345 ml de conteúdo? b. a. A vida útil de lavadora de pratos automáticas é de 1. Sabe-se que o conteúdo de uma lata de cerveja é 350 ml e que tem distribuição aproximadamente normal com média 350 ml e desvio padrão 10 ml. em uma oficina.000 km e desvio padrão de 2. com desvio padrão 0.000 km.3 anos. O mecânico planeja começar o conserto do carro 10 min após o cliente deixá-lo na oficina. para o conserto de transmissão para certo carro é normalmente distribuído com média 45 min e desvio padrão 8 min. Se os defeitos se distribuem normalmente. Qual seria a média dos dados e o desvio padrão? Prof. O tempo necessário. Dure entre 45. Descreva um exemplo de aplicação da distribuição normal na sua profissão. Calcule a probabilidade de um pneu escolhido ao acaso: a. Cíntia Paese Giacomello 55 .000 km? b.000 e 51. Que % de latas tem mais que 360 ml de conteúdo? 8.5 anos. Qual a probabilidade de que o cliente tenha que esperar caso o mecânico esteja enganado e o cliente fique esperando? 7.5. qual é a probabilidade de uma lavadora necessitar conserto antes de expirar o período de 1 ano de garantia? 6.

Este sistema é chamado sistema com reposição. 6. que será visto mais adiante. dizemos que a população é finita. 5. . 10. Para isso podem ser utilizados os métodos de amostragem probabilísticos apresentados no capítulo 1: aleatória. Quando uma amostragem é com reposição. anota-se o número.. Entretanto. Denomina-se inferência estatística a inferência de parâmetros (da população) com base nos resultados obtidos na amostra. Exemplo: uma urna contém dez bolas. Na amostragem sem reposição cada elemento só pode ser selecionado uma única vez. então todos os números poderiam ser selecionados na segunda extração. inclusive o 3. das proporções. pois a população nunca será exaurida. 2. A teoria da amostragem é também útil para determinar se as diferenças observadas entre duas amostras são devidas a uma variação casual ou são verdadeiramente significativas. Prof. A resposta a esta questão implica o uso de testes de hipótese.1 0 T e o r i a e l e m e n t a r d a a m o s t r a g em A teoria da amostragem é o estudo das relações existentes entre uma população e as amostras dela extraídas. Cíntia Paese Giacomello 56 . numeradas de 0 a 9. por exemplo. Em geral. 8 e 9. quando uma amostragem é sem reposição. 4. Este sistema é o sistema sem reposição. Para fins práticos a amostragem de uma população finita muito grande pode ser considerada infinita. 7. 10.1 Amostragem com e sem reposição Quando selecionamos uma amostra devemos analisar se esta amostragem é com ou sem reposição. Retira-se a primeira bola. sistemática. Na amostragem com reposição o mesmo elemento pode ser escolhido mais de uma vez. se tivéssemos recolocado a bola 3 na urna. Para cada amostra podemos calcular uma grandeza estatística. é necessário que a amostra selecionada seja representativa da população. Os outros números que podem ser sorteados são 0. É muito utilizada para a estimação das grandezas desconhecidas da população ( parâmetros ) através de conhecimento das grandezas correspondentes nas amostras ( estatísticas amostrais ). O método mais utilizado é o por amostragem aleatória. Para que as conclusões sejam válidas. Da mesma forma podemos calcular a distribuição amostral do desvio padrão. e não se recoloca a bola na urna. Deste modo obtemos a distribuição amostral da média.2 Distribuições amostrais Consideremos todas as amostras possíveis de tamanho n que podem ser retiradas de uma população dada (com ou sem reposição). então dizemos que a população é infinita. 1. da variância. Por exemplo: queremos testar se os tempos de processamento da matéria prima de dois sistemas de produção são diferentes ou não. estratificada ou por conglomerados.. a média. 3 por exemplo.

o dobro da amostra. com média µx e desvio padrão σx. o aumento do tamanho das amostras extraídas resultará em menor variabilidade entre as possíveis médias amostrais. desvio padrão e tamanho da amostra haverá uma única distribuição amostral de médias. as populações com maior quantidade de dispersão σ x tenderão a gerar maior quantidade de variabilidade entre as médias de amostras extraídas delas. os resultados serão: População Infinita: µx = µ e σx = σ n A fórmula do desvio padrão nos diz que a quantidade de dispersão na distribuição amostral depende de dois fatores: a dispersão da população o tamanho da amostra (utilizando raiz quadrada) Por exemplo. Cíntia Paese Giacomello 57 . independente da população. E se o mesmo tamanho de amostra é usado com diferentes populações. A distribuição é função da média. Para cada combinação da média. do desvio padrão da população e do tamanho da amostra. Então: População Finita: µx = µ e σx = σ n N−n N −1 Se a população for infinita. Este resultado para população infinita é um caso especial do Prof. em qualquer população. Para amostras grandes n>30 a distribuição amostral das médias é aproximadamente normal.Distribuição amostral das médias Uma distribuição amostral de médias é uma distribuição de probabilidade que indica quão prováveis são diversas médias amostrais. desde que a variância e a média da população sejam finitas e o tamanho da população seja. no mínimo. ou se amostragem for tomada com reposição. Sejam: µ x = média da população = µ µ x = média da distribuição amostral σ x = desvio padrão da população = N = tamanho da população n = tamanho da amostra σ σ x = desvio padrão da distribuição amostral Admita-se que todas as amostras possíveis de tamanho n sejam retiradas de uma população finita de tamanho N>n.

Se a população sob amostragem tem distribuição normal. σx = σx n = 2 40 = 0. 2. algumas vezes. Que percentagem das médias amostrais estará entre 45 e 55? O procedimento é análogo ao visto no capítulo referente à distribuição normal. Cíntia Paese Giacomello 58 . que mostra que a precisão da aproximação melhora quando n cresce. Se a população básica é não normal. a distribuição amostral das médias também o será. admitindo ser de 50 meses a verdadeira vida média das baterias? Sabemos que. mesmo para pequenos valores de n (n<30).3162 Determine a média das distribuições de médias amostrais. entretanto deve-se utilizar o valor de µ x = 50 e σ x =10. Exemplos: Calcule o desvio padrão da distribuição amostral de médias onde o desvio padrão da distribuição populacional é 2 e o tamanho da amostra é 40. dizendo-se que a população é assintoticamente normal. Isto é indicado. Sabe-se que o desvio padrão correspondente é de 4 meses. No caso da população ser normalmente distribuída. sendo que a média populacional é 678. Que percentagem de amostras de 36 observações acusará vida média no intervalo de 1 mês em torno de 50 meses.teorema do limite central da teoria avançada de probabilidade.3830 Um fabricante de baterias alega que seu artigo de primeira categoria tem uma vida esperada (média) de 50 meses. a distribuição das médias amostrais também será normal para todos os tamanhos de amostra. como n>30. Suponha normal a distribuição amostral. Teorema do limite central 1. a distribuição das médias amostrais será aproximadamente normal com média igual à média populacional e desvio padrão igual ao desvio padrão populacional dividido pela raiz quadrada do tamanho da Prof. Então P(45< µ x <55)=0. µ x = µ x = 678 A média de uma distribuição amostral de médias é 50 e seu desvio padrão é 10 (desvio padrão da distribuição amostral das médias). a distribuição de médias amostrais será aproximadamente normal para grandes amostras.

Cíntia Paese Giacomello 59 .8664 Então o percentual de amostras que apresentará problemas entre 49 e 51 meses é de 87%.67) P(49< x <51) z= x−x σx 49 − 50 = −1.4332+0.5) = 0.67 P(49< x <51)=P(-1. Além disso vamos pressupor população infinita. Determinemos primeiro o desvio padrão da distribuição amostral: σx = σx n = 4 36 = 0.0.5 0.67 para n=36 Então devemos trabalhar com x ∼ N(50. Prof. pois a produção de baterias não termina (teoricamente!) ??? 49 50 Meses 51 µx A solução envolve a determinação do número de desvios padrões que 49 e 51 distam da média (amostral).5 0.amostra.5<z<1.67 51 − 50 = +1.4332=0.

007 Prof.636% 0.98 = 0.02 ) = P(z > 1. Assim obtém-se a distribuição amostral das proporções. Qual a probabilidade de que.6) = 0.6(1 − 0. então P(p>0. A média da distribuição amostral é sempre igual à proporção p = p onde p = proporção populacional p = média da distribuição amostral das proporções Quando a população é muito grande ou infinita. Cíntia Paese Giacomello 60 . em uma remessa de 400 dessas ferramentas.43) = 0. Consideram-se todas as amostras possíveis de tamanho n de uma população infinita e.03)=P( z > 0.02 * 0.3% p =p=72. 3% ou mais revelarem-se defeituosas? p =p=0.007 400 Como n>30 pode-se utilizar a distribuição normal. Exemplos: Determine a média da distribuição de proporções amostrais.049 100 Verificou-se que 2% das ferramentas produzidas por uma certa máquina são defeituosas.07636 = 7.3% Determine o desvio padrão da distribuição amostral de proporções para n=100 e uma proporção populacional de 60% σp = p(1 − p) = n 0. o desvio padrão da distribuição amostral se calcula σp = p(1 − p) n e pode-se fazer uma aproximação para a distribuição normal quando n>30.03 − 0. para cada amostra.Distribuição amostral das proporções Sendo a probabilidade de ocorrência de um evento p (sucesso) e a probabilidade de não ocorrência 1-p (fracasso). determina-se a proporção de sucessos.02 eσp = p(1 − p) = n 0. quando a proporção na população é 72.

Exercícios: 1. n=40 d. b) 98 ou mais lâmpadas boas Prof. σ x =6. a. a) menos de 90 lâmpadas boas.. Calcule o desvio padrão da distribuição amostral de médias para cada um dos seguintes casos: a. Determinar a probabilidade de uma amostra aleatória de 16 válvulas. Um fabricante faz a remessa de 1000 lotes de 100 lâmpadas elétricas cada um. ter vida média a) entre 700 e 810 horas. Certas válvulas fabricadas por uma companhia têm vida média de 800 horas e desvio padrão de 60 horas. c) superior a 820 horas. 4. σ x =6. retiradas do grupo. 30% b. n=20 c. Cíntia Paese Giacomello 61 . Determine a média da distribuição das proporções amostrais quando a proporção na população é ... σ x =6. n=6 b. Se 5% das lâmpadas são normalmente defeituosas. n=100 3. d) entre 770 e 830 horas. 99% c. 54% 2. σ x =6. em quantos lotes pode-se esperar que existam. b)inferior a 785 horas.

Prof. no qual julgamos. Um intervalo de confiança dá um intervalo de valores. uma média amostral é usada como estimativa da média populacional. 14 km com um litro de combustível Intervalar Um carro de motor 1. Em virtude da variabilidade amostral. a proporção de defeitos é maior de 3%) ou bilaterais (a proporção de defeitos está entre 2% e 4%).5 % e 2. é usual incluir uma “estimativa intervalar” para acompanhar a estimativa pontual. a proporção de defeituosos de uma caixa é utilizada para estimar a proporção de defeituosos na produção toda.11 Estimação A estimação é o processo que consiste em utilizar dados amostrais para estimar parâmetros populacionais. estar o parâmetro da população.5 % Desvio padrão O desvio padrão da temperatura numa piscina não aquecida é da ordem de 2 o C O desvio padrão da temperatura numa piscina não aquecida está entre 1 o C e 3 o C Os intervalos de confiança podem ser unilaterais (por exemplo. Exemplos: Parâmetro populacional Média Tipo de estimativa Pontual Um carro de motor 1. Tais estimativas chamam-se estimativas pontuais. em média. porque originam apenas uma única estimativa do parâmetro. etc. Estimativa pontual: estimativa única de um parâmetro populacional Estimativa intervalar: intervalo de valores possíveis. Esta nova estimativa proporciona um intervalo. Cíntia Paese Giacomello 62 .0 anda. em média. As estatísticas amostrais são utilizadas como estimadores de parâmetros populacionais. de possíveis valores do parâmetro populacional.0 anda. com um risco conhecido de erro. ou âmbito. Assim. entre 12 e 16 km com 1 litro de combustível Proporção A proporção de peças defeituosas é de 2% A proporção de peças defeituosas está entre 1. o qual se admite que esteja contendo o parâmetro. centrado na estatística amostral.

assim. Cíntia Paese Giacomello . Os intervalos de confiança para os parâmetros são construídos de forma que se considera uma variação em torno do valor amostral e. População Infinita Estimativa de médias Pontual Intervalar σ x conhecido Finita x x±z x σx n sx n x±z σx n sx n N−n N −1 N−n N −1 σ x desconhecido x±t x±t Estimativa das proporções Pontual p = x n p = x n Intervalar p±z p(1 − p) n p±z p(1 − p) N − n n N −1 Onde: z representa o valor tabelado da distribuição Normal. com nível de confiança α e GL graus de liberdade1 N é o tamanho da população n é o tamanho da amostra 1 O valor da distribuição t de Student depende do número de graus de liberdade 63 Prof. pode-se escrever que o parâmetro situa-se entre dois limites: Valor do parâmetro = estimativa pontual ± erro de amostragem O erro de amostragem depende da distribuição amostral do parâmetro.A capacidade de estimar parâmetros populacionais por meio de dados amostrais está ligada diretamente ao conhecimento da distribuição amostral da estatística que está sendo usada como estimador. t representa o valor tabelado da distribuição t de Student. com nível de confiança α. A tabela a seguir apresentada resume as informações necessárias para intervalos de confiança. do nível de confiança adotado e do tamanho da amostra.

65 Fórmula Cálculo E Intervalo x±z x±z x±z σx n 24. sabe-se que σ x =3 e x =24. dois são de ordem gerencial.96 σx n 24.110 a 25.2 ± 0. Assim.2 ± 1.025 95% 1.2001) A fórmula do erro pode ser resolvida em relação a n.96 24.290 23. Cíntia Paese Giacomello 64 . para o caso de estimação de médias. cabendo a você a decisão. “O tamanho da amostra que você afinal selecionará dependerá de seu orçamento. Desses três problemas.980 23.2 ± 2.Exemplo: Intervalo de confiança para a média µ quando se conhece a variância de população σ x Seja uma amostra de tamanho 36 de uma população infinita.375 a 25.58 σx n 24. da quantidade de dispersão entre os valores individuais ( σ x ). e de certa quantidade específica de erro tolerável (e).825 23. para estimação de proporções p(1 − p) e=z n  p(1 − p)   e = z   n   2 2 n= z 2p(1 .”(Brenda Landy.2 Confiança desejada 90% Z (tabelado) 1.65 24. apenas o terceiro (variabilidade) está fora do seu controle .2 ± 1. citada no livro Pesquisa de Marketing – Naresh Malhotra.2 ± 1. da importância econômica das decisões e da variabilidade na população.220 a 25. tem-se: e=z σx n n=z σx e  σ n = z x  e      2 E.180 99% 2. .2 ± 0.p) e2 Prof.690 Tamanho da amostra Uma das perguntas mais freqüentes em estatística é: “Qual o tamanho da amostra que devemos tomar?” O tamanho da amostra dependerá do grau de confiança desejado (z).58 3 36 3 36 3 36 24.

Dispomos apenas das seguintes informações.11 0. se o desvio padrão da população é 10? Sabemos que σ x =10 e e=1 e queremos um intervalo 90% de confiança para a média. Construa um intervalo de 99% de confiança para a verdadeira média Prof.65.5) = 1067. Exercícios: 1. o que implica utilizar um valor de z=1. Determine o intervalo de confiança 90% para a temperatura média. com uma margem de erro de três pontos percentuais. 23 20 33 40 38 32 30 26 24 21 23 21 34 38 24 2. Estão.96 2 0. com erro de 1.65  = 272. Construa um intervalo de 90% de confiança para a verdadeira média b.25 1  2 tamanho da amostra 273. Uma amostra aleatória de 40 contas não comerciais na filial de um banco acusou saldo médio diário de R$ 140 com desvio padrão de R$ 30. por isso. Cíntia Paese Giacomello 65 .032 tamanho da amostra 1068. Supondo que se pretende um nível de confiança de 95% nos resultados. Os dados a seguir representam a temperatura coletada aleatoriamente em 15 cidades do estado.p) e2 n= 1. n= z 2p(1 . a percentagem de motoristas que falam ao celular enquanto dirigem. As companhias de seguro estão ficando preocupadas com o fato de que o número crescente de telefones celulares resulte em maior número de colisões de carros. pensando em cobrar prêmios mais elevados para os motoristas que utilizam celulares. Não dispomos da variância populacional.0 em qualquer dos sentidos. Construa um intervalo de 95% de confiança para a verdadeira média c.Que tamanho de amostra será necessário para produzir um intervalo de 90% de confiança para a verdadeira média da população. mas sabemos que a população é infinita.5(1 .  σ n = z x  e      2 10   n = 1. a.0. quantos motoristas devem ser investigados? Suponha que não tenhamos nenhuma informação sobre p. Desejamos estimar.

4. para obter um nível de confiança de 99%. a. a. Uma firma emprega diversos vendedores. com desvio padrão de R$ 20. para mais ou para menos. 5.3. Uma amostra aleatória de 40 homens trabalhando num grande projeto de construção revelou que 6 não usavam capacetes protetores. 6. Uma amostra aleatória de 1000 fregueses da parte da manhã de um supermercado revelou que apenas 10 não incluem leite em suas compras. um auditor constatou uma despesa média de R$ 220. Construa um intervalo de 90% de confiança para a verdadeira proporção dos que compram leite. admitindo erro de 1 minuto. Cíntia Paese Giacomello 66 . a. Prof. converta o percentual em número de capacetes necessários para que todos estejam seguros. Se há 1000 operários no projeto. Numa amostra aleatória de 15 notas de despesa numa semana de dezembro. c. qual seria a estimativa pontual média para o total de despesas? d. Suponha σ x=12 minutos. Admitindo-se 200 vendedores. b. Construa um intervalo de 99% de confiança para a quantia de despesa média por vendedor. Construa um intervalo de 99% de confiança para a quantia de despesa total. Qual o tamanho de amostra necessário para estimar o tempo médio de que um vendedor de uma loja de móveis gasta com cada cliente. Construa um intervalo de 95% de confiança para a verdadeira proporção dos que não estão utilizando capacetes neste projeto. Qual a estimativa pontual da despesa média? b. Qual seria a estimativa pontual da percentagem dos que compram leite? b.

9. Construa uma estimativa para a proporção de funcionários insatisfeitos.03 para a estimativa? Prof. 36 estavam insatisfeitos. De 300 funcionários. O IBOPE está interessado em estimar a proporção de residências que assistem ao programa do Faustão. Numa pesquisa com funcionários de uma empresa questionou-se a satisfação com a política desenvolvida pela diretoria. Suponha normalidade na população. 8. com 95% de confiança. com desvio padrão de 5 gr. 10. Cíntia Paese Giacomello 67 . se o erro máximo deve ser de 0.6 hora para um nível de confiança de 95%.7. Ele coletou uma amostra de 18 unidades do alimento e verificou média 24 gr de açúcar. Qual o número mínimo de residências que se deve analisar para ter 95% de confiança e margem de erro máxima de 0. Um engenheiro deseja estimar a quantidade de açúcar existente nos alimentos produzidos pela empresa. sabendo que o tempo de atendimento tem um desvio padrão de 1 hora. Construa o intervalo de confiança de 90% para a quantidade de açúcar presente nos alimentos. Determine o número de observações necessário para estimar o tempo médio de serviço de atendimento a chamadas de um bombeiro hidráulico.

Por exemplo. Então: H 0 : o diâmetro médio da população (de peças) é 27.5 mm Os testes de hipótese utilizam a significância adotada pelo pesquisador. a afirmação é verdadeira) A hipótese alternativa H 1 é uma afirmação que oferece uma alternativa à alegação (isto é. Que coincide com o erro tipo I. Quanto maior o tamanho da amostra. há dois tipos de erros que podemos cometer: α = P {rejeitar H 0 / H 0 é verdadeira} = erro do tipo I β = P {aceitar H 0 / H 0 é falsa} = erro do tipo II O procedimento usual é fixar o valor de α e verificar o valor de β . o parâmetro é maior (ou menor) que o valor alegado) Exemplo: O estudo de uma amostra de tamanho 55 peças indicou que o diâmetro médio é de 27.5 mm. Cíntia Paese Giacomello 68 . sendo chamadas de hipótese nula (H 0 ) e hipótese alternativa (H 1 ) A hipótese nula H 0 é uma afirmação que diz que o parâmetro populacional é tal como especificado (isto é. e é controlado indiretamente. Prof. Enquanto o objetivo da estimação é estimar algum parâmetro populacional. A finalidade dos testes de hipóteses é avaliar afirmações sobre os valores de parâmetros populacionais. O risco β é uma função do tamanho da amostra. podemos querer determinar se são verdadeiras as afirmações: o tempo médio de realização do teste é 80 minutos três por cento da população (de determinado item) é defeituosa os percentuais de não conformes dos dois processos são iguais Utilizam-se duas hipóteses.5 mm H 1 : o diâmetro médio da população (de peças) é diferente de 27.12 Testes de h ipóteses Os testes de hipóteses são também conhecidos como testes de significância. quando verdadeira. Ao testar uma hipótese. o objetivo dos testes de hipóteses é decidir se determinada afirmação sobre um parâmetro populacional é verdadeira. Os testes de hipóteses e a estimação são dois ramos principais da inferência estatística. A significância é a probabilidade de uma hipótese nula ser rejeitada. menor será o risco β .

Identificar a distribuição amostral adequada. 5. trace uma curva normal. Calcular a estatística do teste e compará-la com os valores críticos. a) H 0 : µ=10. α =0. por exemplo. Nos testes unilaterais a hipótese alternativa H 1 é do tipo µ>33 ou µ<33. Os testes de hipótese podem ser unilaterais ou bilaterais. 3. H 1 : µ<33 α Rejeitar H 0 H 1 : µ≠ 33 α/2 Rejeitar H0 H 1 : µ>33 α/2 Rejeitar H0 α Rejeitar H 0 Exercícios 1. H 1 : µ>2000. caso contrário. α=0. Estabelecer as hipóteses nula e alternativa. indicando a área de rejeição na figura. α=0. Nos testes bilaterais a hipótese alternativa é do tipo µ≠ 33. Para cada um dos seguintes casos. α=0.05 c) H 0 : µ=2000.Se H 0 é Verdadeira Ação Aceitar H 0 Rejeitar H 0 Decisão correta Erro tipo I ( α) Falsa Erro tipo II ( β ) Decisão correta Basicamente os testes de hipótese envolvem as seguintes etapas: 1. 2. aceitá-la.01 d) H 0 : µ=2000. A área de rejeição é dividida quando o teste é bilateral.01 e) H 0 : µ=2000. 4. Escolher um nível de significância (e assim os valores críticos). H 1 : µ≠ 120. H 1 : µ≠ 10. H 1 : µ≠ 2000. A hipótese nula permanece igual nos dois casos.01 Prof. Cíntia Paese Giacomello 69 .02 b) H 0 : µ=120. Rejeitar a hipótese de nulidade se a estatística do teste excede o(s) valor (es) crítico(s). H 1 : µ< 2000. α=0.

Cíntia Paese Giacomello 70 . Se a população é não normal. pequenas amostras de população não normais não podem ser tratadas por este processo. pode-se usar um teste de uma amostra só para tamanhos de amostras superiores a 30 observações. a distribuição amostral será normal para todos os tamanhos de amostra. ou se sua forma é desconhecida. toma-se uma amostra aleatória de n observações e calcula-se a estatística z teste = x − µo σx n E H 0 é rejeitada se |Z teste | > Z α /2 (obtido em uma tabela da distribuição normal). 3. Suponha que X é uma variável aleatória com média µ desconhecida e variância σ 2 x conhecida.2. Prof. Um engenheiro acredita que o tempo para produção de um motor é de 5 horas. Escreva H0 e H1 12. Se a população é normal. Assim. para verificar a qualidade. Um fornecedor de mancais comprometeu-se a enviar para uma firma lotes que não contenham mais de 2% de defeituosos. E queremos testar a hipótese de que a média é igual a um certo valor especificado µ0 . O teste de hipótese pode ser formulado como segue: H 0 : µ = µ0 H 1 : µ ≠ µ0 Para testar a hipótese. Indique H0 e H1. Ele analisa uma amostra para verificar se está certo ou não.1 Teste de hipóteses para médias σ x conhecido Quando se conhece o desvio padrão da população. a distribuição amostral adequada é a distribuição normal. O comprador extrai amostras ao receber a remessa.

Exemplo: Uma máquina de usinagem deveria produzir entalhes com 0. Prof. onde t α /2. H o : µ = 0. Cíntia Paese Giacomello 71 .025 = −1. ao nível de significância de 0.010. exceto que agora a variância é desconhecida. Quando isso ocorre (na maioria das situações reais σ x é desconhecido). Conclusão: não podemos afirmar que os entalhes sejam diferentes que o especificado.85 Como Z teste = −0. Para testar a hipótese de que a média é igual a um valor especificado µo . Como σ X não é conhecido.850 Z teste = 0. deve-se estimá-lo a partir dos dados amostrais usando o desvio padrão amostral. σ x desconhecido Quando não se conhece o desvio padrão da população.850 0.850 H1 : µ ≠ 0.010 / 8 = −0. n-1 é um valor limite da distribuição de Student tal que a probabilidade de se obter valores externos a t α /2 é α.85 mm de profundidade. usa-se a distribuição de Student para construir a estatística do teste: t teste = x − µo sx n E a hipótese nula H 0 é rejeitada se |t teste |>t α /2 .05. Sabendo que o desvio padrão é σ =0. Uma amostra de 8 valores foi coletada e indicou X = 0.847 − 0.85 > −Z 0 . Suponha que X é uma variável aleatória Normal com média µ e variância σ 2 desconhecidas. a distribuição t é a distribuição amostral adequada. teste a hipótese do engenheiro usando um nível de significância α=0. O engenheiro desconfia que os entalhes que estão sendo produzidos são diferentes que o especificado.05.96 H 0 não pode ser rejeitada. formulamos: Ho : µ = µ 0 H1 : µ ≠ µ o Esse problema é idêntico àquele da seção anterior.847 .

A diferença é então comparada com a variabilidade prescrita por uma distribuição amostral baseada na hipótese de que H 0 é realmente verdadeira.. σ a e σ b .12. . OBS: dados provenientes de antes-depois são dependentes. σ a e σ b . O teste foca na diferença entre o número esperado de ocorrências (supondo-se verdadeira uma afirmação) e o número efetivamente observado. duas cidades. O teste se baseia na premissa de que uma proporção amostral será igual à verdadeira proporção populacional. duas fábricas. a menos da variabilidade amostral. o teste para verificar a hipótese que as médias sejam iguais é o seguinte: Ho : µ1 = µ 2 H1 : µ1 ≠ µ 2 Z teste = X1 − X 2 σ 12 n1 + 2 σ2 n2 E rejeita-se H 0 se |Z teste | > Z α /2 σ x desconhecido Similarmente. não são conhecidos.. digamos µ a e µ b e desvios padrões conhecidos. n1+n2-2 12.3 Teste para proporções Este tipo de teste é apropriado quando os dados sob análise consistem de contagem ou freqüências de itens em duas ou mais classes. o teste para verificar a hipótese que as médias sejam iguais é: t teste = X1 − X 2 S 21 S 2 2 x + x n1 n2 E rejeita-se H 0 se |t teste | > t α /2. quando . duas marcas. A finalidade de tal teste é avaliar afirmações sobre a proporção (ou percentagem) de uma população. Eles são freqüentemente utilizados para comparar dois métodos de ensino.2 Testes de duas amostras para médias Os testes de duas amostras são usados para decidir se as médias de duas populações são iguais. Cíntia Paese Giacomello 72 . não podendo. Exigem-se amostras independentes. portanto.. σ x conhecido Quando há duas populações com médias desconhecidas. ou seja. serem tratados por este método. uma de cada população. Prof.

e pode-se dizer que a quantidade de pregos defeituosos é 1% ou menos. por exemplo.4 Teste do qui-quadrado (k amostras para proporções) A finalidade de um teste de k amostras é avaliar se as proporções de k amostras independentes provenham de populações que contenham a mesma proporção de determinado item.01 200 = 1.01. ao nível de significância 0. mas nada há contra aceitar o fato da remessa apresentar qualidade superior à acordada. 12.Quando a finalidade da amostragem é julgar a validade de uma alegação acerca de uma proporção populacional. H 0 : p = 1% H 1 : p > 1% pois desejamos evitar a aceitação de uma remessa com mais de 1% de defeituosos. z 0. z teste = x −p 0 n = z teste = p0 (1 − p0 ) / n − 0.33 Aceita-se H 0 . estamos testando se as duas variáveis são ou não associadas.42 0.01. Cíntia Paese Giacomello 73 . Teste a afirmação ao nível 0. Conseqüentemente. Uma amostra aleatória de 200 pregos acusa 4 defeituosos. se queremos testar se a proporção de mulheres e de homens que trabalham no horário Prof.Onde: H0: p = p0 H1: p ≠p0 O valor da estatística de teste é dado por z teste = x −p 0 n p0 (1 − p0 ) / n e deve ser comparada com o valor crítico de Z (retirado de uma tabela da distribuição normal) Exemplo: Um fabricante afirma que uma remessa de pregos contém menos de 1% de defeituosos. tem-se: H 0 : As proporções populacionais são todas iguais H 1 : As proporções populacionais não são iguais Ou seja.01) / 200 4 Na tabela da distribuição normal. é apropriado o teste para proporções.01(1 − 0.01 =2.

a tabela com as freqüências esperadas seria: Tabela de freqüências esperadas Turno de produção Total Manhã Peças com algum defeito Peças boas Total 137.8 319 224 1356 1580 Freq _ esperada = 224 x 967 = 137.1 829.9 967 Tarde 41.1 1580 Prof. onde o valor calculado deve ser comparado com o valor tabelado. onde 183 apresentaram algum tipo de defeito. Este teste baseia-se na distribuição qui-quadrado.2 273. Por exemplo. automaticamente estaremos testando se sexo e turno de trabalho são variáveis associadas. se as duas variáveis fossem independentes.7 252.3 294 Noite 45. tem-se a distribuição de peças produzidas por turno e se essas peças são boas ou apresentam algum tipo de defeito. Cíntia Paese Giacomello 74 . então o valor esperado de cada célula poderia ser encontrado fazendo-se: Frequência _ Esperada = (total _ linha) x (total _ coluna) total _ geral Neste caso. Turno de produção Total Manhã Peças com algum defeito Peças boas Total 183 784 967 Tarde 30 264 294 Noite 11 308 319 224 1356 1580 O teste baseia-se na pressuposição que.noturno em uma fábrica são iguais. A decisão de aceitar ou rejeitar H 0 dependerá da comparação deste valor com o valor tabelado da distribuição qui-quadrado. No turno da manhã foram produzidas 967 peças.

encontrando salários médios de R$ 8000.05. A proporção de peças boas no turno da manhã é 81%. e afirma que o peso médio desta caixa é de 368 gramas. verifica-se uma amostra de 25 caixas. pesa-se e calcula-se o peso médio da amostra. Cíntia Paese Giacomello 75 . De experiências anteriores sabe-se que o desvio padrão da população vale 15 g e que os valores se comportam segundo a distribuição Normal.. Se o valor encontrado for menor. Uma agência de empregos alega que os candidatos à diretoria por ela colocados nos últimos seis meses têm salários de R$ 9000. contra a alternativa.8) 2 χ = + + .01? 2. ao nível de significância 0. em média.88 137. OU SEJA. com desvio padrão de R$ 1000.O teste de independência qui-quadrado é obtido utilizando-se a estatística χ2 = (O − E) 2 ∑ E Se o valor obtido for maior que o valor crítico obtido na tabela χ 2 então diz-se que as variáveis NÃO são independentes..5 g.05 é 5. Um fornecedor apresenta uma caixa.1 41. + = 51. achando 372. Tem-se valor calculado > valor tabelado então diz-se que as variáveis NÃO são independentes. de que o salário médio é inferior a R$ 9000.991. Para verificar se a afirmação é verdadeira.7) 2 (308 − 273.7 273. Qual a conclusão a respeito da afirmação do fornecedor.8 2 e o valor crítico encontrado na tabela para (2-1)x(3-1)=2 graus de liberdade e nível de significância 0. a proporção de peças boas produzidas depende do turno de trabalho. Exercícios: 1. ao nível de significância 0. então diz-se que as variáveis são independentes. com base em 50 empregados. O valor dos GRAUS DE LIBERDADE é obtido através do cálculo: graus de liberdade = (colunas-1)(linhas-1) No exemplo apresentado: (183 − 137. Uma agência governamental extraiu uma amostra aleatória daquele grupo. Teste a afirmação da agência.1) 2 (30 − 41. Prof. na tarde 90% e na noite 97%.

3. o gerente acredita que a proporção é 30%. O gerente de marketing de uma fábrica de automóveis está interessado em determinar a proporção de novos proprietários de carros compactos que teriam adquirido um air-bag inflável para o lado do passageiro se o mesmo estivesse disponível a um custo adicional de $ 300.59 gramas) e um desvio padrão de 3.5 libras. Uma amostra de 36 peças revela uma média aritmética da amostra igual a 69. O órgão de fiscalização colheu 25 medições do produto nos postos dessa rede. de acordo com os padrões de qualidade. pode-se afirmar que a gasolina é adulterada? Prof. em seus estabelecimentos não se vende gasolina adulterada.7 libras. Há evidências de que a máquina não está atendendo às especificações. obtendo a partir delas uma média de 240.05. As especificações indicam que o tecido devia ter uma resistência de rompimento superior a 70 libras (1 libra = 433. Cíntia Paese Giacomello 76 .75 ml de álcool/litro. em termos da média da resistência de rompimento? (utilize um nível de significância de 0. Uma rede de postos de gasolina afirma que.3? 4.00. a gasolina não pode conter mais de 240 ml de álcool por litro. há evidencias de que a proporção da população é diferente de 0. Por informações anteriores. Sabe-se que. No nível de significância de 0.05) 5. Admitindo-se que a quantidade de álcool presente na gasolina tem uma distribuição normal com desvio-padrão de 2. Suponha que é feito um levantamento com 200 novos proprietários de carros compactos e 79 indiquem que teriam comprado os air-bags infláveis.5 ml/litro. Suponha que o diretor de produção de uma fábrica de tecidos precise determinar se uma nova máquina está produzindo um tipo de tecido de acordo com as especificações do fabricante. Ao nível de significância 5%.

Cíntia Paese Giacomello 77 . No caso judicial EUA versus Cidade de Chicago. Ao nível de significância 0.6.05) Por hora 256 212 239 216 222 236 207 219 228 225 241 230 224 261 254 228 273 234 Comissão 285 225 237 232 277 245 7. Foi selecionada uma amostra aleatória de 24 indivíduos. em determinada empresa. 8. 12 de cada grupo. o que se pode concluir? Aprovam Desaprovam Estagiários 5 25 Treinees 4 26 Técnicos 20 10 Gerentes 27 3 Prof. Um psicólogo de indústrias deseja estudar os efeitos da motivação nas vendas. foram postas em dúvida as práticas honestas de emprego. e com nível de significância de 5%. Há evidências de que o volume médio de vendas seja diferente entre os grupos? (utilize nível de significância 0. Um grupo minoritário (A) e um grupo majoritário (B) fizeram o exame para capitão do corpo de bombeiros. teste a afirmação de que o sucesso no teste é independente do grupo. Solicitou-se a quatro amostras de 30 funcionários de uma grande empresa que opinassem sobre a nova direção da empresa. Os dados a seguir representam o volume de vendas (em milhares de reais) alcançado durante o primeiro mês de emprego.01. com os seguintes resultados: Grupo A Grupo B Aprovados 10 417 Reprovados 14 145 Com os resultados acima.

Com nível de significância 0.01. Um estudo de usuários e não usuários do cinto de segurança resultou nos dados amostrais aleatórios resumidos na tabela a seguir. Teste a afirmação de que a quantidade de fumo é independente do uso do cinto de segurança.9. Cíntia Paese Giacomello 78 . A tabela abaixo apresenta dados relativos ao time vencedor em diferentes esportes. menos propensas a usar cintos.05 de significância. os dados amostrais apóiam esta teoria? Número de cigarros fumados por dia 0 1-14 15-34 35 ou + 175 20 42 6 149 17 41 9 Usam cinto de segurança Não usam cinto de segurança 10. sendo assim. Uma teoria plausível é que as pessoas que fumam mais estão menos preocupadas com a sua saúde e segurança. Com o nível de 0. O time da casa ganha O time visitante ganha Basquete 127 71 Beisebol 53 47 Hockey 50 43 Futebol 57 42 Prof. teste a afirmação de que as vitórias casa/visitante são independentes do esporte.

Exemplo: Para verificar se existe diferença significativa entre os salários médios dos economistas da Região Sul.4 340 290 350 Econ.3 280 430 295 Econ. também chamados tratamentos. Assim foram selecionados aleatoriamente 5 economistas de cada estado. cada uma oriunda de um grupo diferente.2 420 350 400 Econ. poderiam ser 5 máquinas de corte. taxas de câmbio em 3 diferentes países. utilizando uma escala de 1 a 10. resultados da implantação de um novo sistema em duas filiais. ou 4 pressões de operação. Cada grupo de crianças aprendeu a ler de acordo com um método (três métodos diferentes). ou 4 layouts . Econ. etc. Após 3 meses as crianças foram testadas. o sindicato da classe resolveu analisar os dados de algumas amostras. Cíntia Paese Giacomello 79 .1 Rio Grande do Sul Santa Catarina Paraná 370 280 325 Econ.5 410 405 380 Exemplo: Uma classe com 24 crianças foi dividida em três grupos.13 Anális e de vari ância (ANOVA - Analys is of Var ianc e) Há situações onde se deseja comparar várias médias. Os resultados foram Método A Método B Método C 4 5 5 3 0 4 5 3 7 0 5 5 3 4 5 10 8 3 4 2 10 9 3 9 Prof. Esses grupos. 5 planos econômicos do governo.

. .. Existem dois tipos de problemas a serem abordados: Modelo a níveis fixos: quando o efeito de cada tratamento é fixo. Yknk Os resultados poderiam ser representados por um modelo aditivo: Yij = µ + τi + εij . Y12 . Y1n1 Y21 . ou 4 layouts fixados pelo engenheiro. é a média geral de todas as observações. verificar se existe diferença significativa entre os resultados apresentados por cada grupo. Y2n2 : : : Yk1 . ε ij é o erro aleatório. Modelo a níveis aleatórios: quando o efeito de cada tratamento é aleatório. ou k operadores escolhidos aleatoriamente. Yk2 .. os dados foram tabelados conforme aparecem a seguir: Tratamento 1 2 : : : k Observações Y11 .. (OBS: Para fins de testes de hipótese. i = 1. como no caso em que os tratamentos são k lotes de produção... Prof.. Y22 .. ou seja.. supomos que o erro aleatório ε ij segue um modelo normal com média 0 e variância σ 2 aproximadamente igual para todos os tratamentos) Nosso objetivo será testar a hipótese referente ao efeito dos tratamentos e estimar esses efeitos..... é o efeito do tratamento i. k j = 1. ni Onde Y ij µ τi é a observação j medida no tratamento i. como no caso em que os tratamentos são 4 pressões de operações.. Cíntia Paese Giacomello 80 .Nesses casos..

tais que: H 0 : µ1 = µ 2 = . j H o (hipótese nula) supõe-se que todas as médias sejam iguais. os efeitos dos tratamentos são definidos como desvios da média geral. O teste se baseia numa amostra extraída de cada população. Os cálculos associados à Análise de Variância são apresentados em uma tabela. A análise de variância é uma técnica que pode ser usada para determinar se as médias de duas ou mais populações são iguais. os economistas têm o mesmo salário nos três estados (e as diferenças entre os seus salários são devidas ao acaso) ou os três métodos de ensino são equivalentes...No modelo a níveis fixos.. ou seja. A H 1 (hipótese alternativa) indica que pelo menos uma das médias difere. existem pelo menos dois estados com salários diferentes entre si ou pelo menos dois métodos de ensino diferem. Cíntia Paese Giacomello 81 . A Análise de Variância é uma técnica para investigar quanto de variabilidade em um conjunto de observações (dados) pode ser descrito por diferentes causas. N é a quantidade total de observações Prof. chamada de Tabela de Análise de Variância ou Tabela ANOVA Fonte de variação Entre grupos Dentro de grupos Total SQ SQG SQR SQT GDL k-1 N-k N-1 MQ MQG MQR Teste F MQG/MQR onde k é o número de níveis do fator.. = µ k H 1 : µi ≠ µ j Na para alguns i. que será visto a seguir. O procedimento utilizado para comparar simultaneamente todos os grupos é chamado de Análise de Variância. ou seja.

medida dentro dos grupos. é o desvio da observação individual em relação à média do tratamento correspondente. devida exclusivamente ao erro aleatório.. ) é o desvio da média do tratamento i em relação à média global. que são as estimativas de variabilidade de cada parcela. terá 4 graus de liberdade (k-1). Os graus de liberdade totais são obtidos através do total de observações menos 1 (N-1) e os graus de liberdade dentro dos grupos será a diferença entre eles (N-1)-(k-1) = (N-k). onde: − Y.. ) + ∑ (Yij − Yi.. Cíntia Paese Giacomello 82 . j i ij Na equação (2). (Yij − Y i. os desvios das observações individuais em relação à média global podem ser escritos como: (Yij − Y. associada exclusivamente a um efeito dos grupos. ou seja. usamos a distribuição F : F= MQG MQR Prof. decomposta em: 2 2 2 (2) SQG soma dos quadrados dos grupos (tratamentos). − Y. SQR soma dos quadrados dos resíduos. resulta: ∑ (Yij − Y . ) i. Os graus de liberdade são obtidos através do número de níveis do fator e da quantidade de repetições para cada nível.A Análise de Variância se baseia na decomposição da variabilidade total. ) ( ) (1) (Y i. ) = ∑ ni (Y i. ) = (Y i. Mais especificamente. se o fator tem 5 níveis. + Yij − Y i . identificamos as seguintes somas quadradas: SQT = SQG + SQR onde: SQT é a soma dos quadrados totais.. As divisões das somas de quadrados (SQ) pelos graus de liberdade fornecem as médias quadradas (MQ).. Para testar a hipótese referente ao efeito dos grupos. − Y . ) Elevando ao quadrado ambos os termos da equação (1) e efetuando o somatório.

Se o valor calculado é menor que o valor tabelado.01.O valor resultante do teste F deve ser comparado com uma tabela de valores F. utilizam-se as duas estimativas amostrais da variância para calcular uma razão F. Distribuição F Concluir pelo acaso Aceitar Ho Concluir pelo não-acaso Rejeitar Ho Nível de significância = área da cauda 0 Valor tabelado 13.. Ao fazer a análise de variância. )2 N SQT = ∑ ( Yij2 ) − TC SQG = ∑ ( Ti 2 ni ) − TC . a um determinado nível de confiança. a hipótese nula não pode ser rejeitada.05 e 0. Como o valor tabelado de F é contínuo e depende da combinação dos graus de liberdade do numerador e do denominador.1 Formulário para solução Para o cálculo das Somas Quadradas é recomendado o uso do seguinte formulário: TC = ( T .2 ni ) = SQT − SQG onde TC é o termo de correção T. é a soma das observações no grupo i Prof. SQR = ∑ ( Yij2 ) − ∑ ( Ti . Se o valor calculado é maior que o valor tabelado. rejeita-se a hipótese nula. é usual apresentar seus valores apenas para os níveis de confiança 0. Cíntia Paese Giacomello 83 .. que indica o valor máximo da estatística no caso de H o ser verdadeira. é a soma de todas as observações Ti. Os graus de liberdade para a determinação do valor F são os mesmos apresentados na tabela da ANOVA. Compara-se então o número resultante com o número tabelado. Os valores constantes na tabela F são valores críticos: apresentam a linha divisória entre a variação aleatória e a não aleatória.

67 = 738 – 560.67 7. = 36 (somar as observações do método C) TC = 116 2 / 24 = 560.33 = 160. Os resultados foram Método A Método B Método C 4 5 5 3 0 4 5 3 7 0 5 5 3 4 5 10 8 3 4 2 10 9 3 9 k = 3 (três níveis do fator.33 SQG =  + + 8 8   8  SQR = SQT – SQG = 177.00 177. + 4 2 + 9 2 ) – 560..67 = 17. método A.49.05 é F 0.33 160.05 ≈ 3.67 = 578. os métodos de ensino devem ser equivalentes. ou seja.Resolvendo o exemplo dos métodos de ensino através deste formulário obtém-se: Uma classe com 24 crianças foi dividida em três grupos. = 48 (somar as observações do método B) T C. = 5 + 0 + 3 + . Prof. respectivamente.. e nível de significância de 0.560.33  322 482 362    − 560. Como F calculado < F tabelado. utilizando uma escala de 1 a 10.00 Então a tabela da ANOVA ficaria: Fonte de variação Entre grupos Dentro de grupos Total SQ 17.33 GDL 2 21 23 MQ 8.67 SQT = (5 2 + 0 2 + 3 2 + . = 5 + 0 + 3 + 5 + 4 + 5 + 8 + 2 = 32 (somar as observações do método A) T B.67 = 177. concluímos que não há evidências de que os métodos de ensino alterem a aprendizagem das crianças. Após 3 meses as crianças foram testadas.14 O valor de F tabelado com 2 e 21 graus de liberdade no numerador e denominador. + 4 + 9 = 116 (somar todas as observações) T A. B e C) N = 24 (oito alunos por método) T.00 ... Cíntia Paese Giacomello 84 . Cada grupo de crianças aprendeu a ler de acordo com um método (três métodos diferentes).33 – 17.62 Teste F 1..

Após 3 meses as crianças foram testadas. Prof. utilizando uma escala de 1 a 10. depois Suplementos. (OBS: Se no seu computador não aparecer Análise de Dados é porque este suplemento não está ativado. Vá em Ferramentas. Cada grupo de crianças aprendeu a ler de acordo com um método (três métodos diferentes). após selecionar ANOVA fator único. Cíntia Paese Giacomello 85 . Disponibilize Análise de Dados e Análise de Dados VBA. Preencha com as informações que forem necessárias.) Selecione ANOVA – Fator único.Utilizando o Excel Clique em Ferramentas e depois em Análise de Dados. 13. Os resultados foram Método A Método B Método C 4 5 5 3 0 4 5 3 7 0 5 5 3 4 5 10 8 3 4 2 10 9 3 9 Os dados devem agrupados em linhas ou colunas. ou No menu Ferramentas e Análise de Dados.2 Exemplo de solução no Excel Uma classe com 24 crianças foi dividida em três grupos.

33 gl 2 21 23 MQ 8.0 4.429 9.714 Calculado Tabelado ANOVA Fonte da variação Entre grupos Dentro dos grupos Total SQ 17.00 177.67 7.714 7.33 160.5 Variância 5. Os resultados estarão localizados na planilha chamada resultados. Anova: fator único RESUMO Grupo Método A Método B Método C Contagem Soma 8 32 8 48 8 36 Média 4.0 6.340 F crítico 3.62 F 1.Na janela da ANOVA informar as questões que forem solicitadas. Cíntia Paese Giacomello 86 .47 Prof.14 valor-P 0.

05? Complete a tabela da ANOVA e conclua a respeito. Cíntia Paese Giacomello 20 17 23 15 21 12 14 16 17 14 15 12 18 20 17 19 15 14 12 18 87 . São atribuídos quatro lotes de terra para cada variedade e as produções. determinar se existe diferença entre as produções ao nível de significância 0.01. Suponha que o valor crítico de F na análise de variância seja 1. D e E. em toneladas.22 3. estão apresentadas na tabela. As turmas são equivalentes ou uma delas é superior. C.99? Distribuição F 0. Cada turma faz cinco provas de troca dos quatro pneus num carro. A B C D E Prof. Fonte de variação Entre grupos Dentro de grupos Total SQ GDL MQ Teste F 0.Exercícios: 1.99 ao nível de 0.12 0. Duas turmas de pilotos de corrida de automóveis estão sendo treinadas para uma grande corrida no domingo. Realiza-se um experimento para determinar-se as produções de cinco variedades de trigo: A.05.99 2. Supondo-se que os lotes possuem fertilidades semelhantes e que as variedades são atribuídas aos lotes aleatoriamente.05 0 1. B.99? b) Como você interpretaria uma estatística de teste menor que 1. ao nível de significância 0. Com base na figura: a) Como você interpretaria uma estatística de teste maior que 1.

É dada a mesma prova a todos os estudantes e os graus obtidos constam na tabela. II e III.01. Um experimento mede os quocientes de inteligência (QI) de estudantes do sexo masculino de estaturas alta. Para isso são escolhidos aleatoriamente três grupos de cinco estudantes. onde cada tipo foi testado. L.01.4. Determinar se existe qualquer diferença nas contagens do QI em relação às diferentes alturas ao nível de significância de 0. Determinar se existe diferença significativa nos tratamentos ao nível de 0. e cada grupo é instruído por um método diferente. determinadas pelas bandas de rodagem. A B C 3 4 6 5 2 4 4 3 5 4 3 5 7. Uma empresa deseja testar quatro tipos diferentes de pneus: K. estão na tabela (em milhares de quilômetros). Determinar se existe diferença entre os métodos de ensino ao nível de significância 0. cujos resultados aparecem na tabela. M e N. média e baixa. aleatoriamente. I II III 75 81 73 62 85 79 71 68 60 58 92 75 73 90 81 6. Suas durações. A tabela apresenta os dados sobre a ferrugem acumulada sobre o ferro.05. Determinar de existe diferença significante entre os pneus ao nível de significância 0. Cíntia Paese Giacomello 88 .05. em seis automóveis semelhantes. Alta Média Baixa 110 95 108 105 103 112 118 119 104 90 104 93 Prof. que foi tratado quimicamente com os produtos A. K L M N 33 32 31 29 38 40 31 34 36 42 37 32 40 38 35 30 31 30 33 33 35 34 30 31 5. Um professor deseja testar três métodos diferentes de ensino I. B ou C.

7 10. adicionou-se à ração tradicional quatro quantidades diferentes de um mesmo produto químico.2 12.8 12. Cada quantidade de ração é dada a 8 pintos e o peso das aves após 3 meses é anotado.2 11. O que se pode concluir a respeito? (use nível de significância 0.4 14.9 Enxerto 2 10.5 10.9 10. poderemos afirmar que a duração média é independente da posição do pneu no veículo? (use nível de significância 0. Disponha os cálculos numa tabela ANOVA. Os dados abaixo dão a vida observada dos pneus de quatro caminhões distribuidores de sorvete. Qual a importância da comparabilidade dos motoristas e veículos? Dianteiro direito Dianteiro esquerdo Traseiro direito Traseiro esquerdo 17 25 22 26 19 27 21 24 20 18 19 30 24 22 26 28 Prof.05.7 12. A fim de produzir um tipo superior de ração para galinhas. Uma empresa deseja estudar três tipos de enxerto para ver se todos apresentam o mesmo crescimento anual.1 9.2 10.0 Enxerto 3 11. Cíntia Paese Giacomello 89 . Concluir se houve diferença entre as quantidades do produto químico ao nível de significância 0. conforme a posição.05) Enxerto 1 14.01).8 12.8 13. 20 30 40 50 mg mg mg mg 46 48 49 52 46 48 49 53 46 47 50 52 45 47 50 52 45 47 49 52 45 47 50 52 46 47 50 53 46 48 49 53 9.8.8 12. Supondo comparáveis os caminhões e os motoristas.

Exemplos: Família 1 2 3 .. A análise de correlação fornece o número (coeficiente) que resume o grau de relacionamento entre duas variáveis. uma para cada variável. Relação linear positiva perfeita Relação linear negativa perfeita X e y positivamente correlacionados X e y negativamente correlacionados X e y não correlacionados Prof. cada observação dá origem a dois valores. n R$ 770 R$ 690 Renda R$ 1550 R$ 2000 R$ 1000 Gastos R$ 1350 R$ 1970 R$ 550 Peso 56 67 89 58 45 Altura 179 176 180 170 130 Aluno A B C D E Notas 2 o grau 80 75 95 60 70 Notas faculdade 85 70 95 65 80 Uma maneira de apresentar os resultados é através do diagrama de dispersão.. para um problema com duas variáveis.14 Regressão e co rrelação A análise de regressão e de correlação compreende a análise de dados amostrais para saber se e como duas ou mais variáveis estão relacionadas uma com a outra em uma população. A análise de regressão apresenta como resultado uma equação matemática que descreve um determinado relacionamento. Uma das variáveis será a dependente e a outra independente. Cíntia Paese Giacomello 90 . Os valores para a análise de regressão e correlação provêm de observações e.

3. isto é... Estimar valores de uma variável com base em valores conhecidos de outra variável. mas uma delas é relativamente dispendiosa ou difícil de lidar. nem a regressão. Ou seja.3. Explicar valores de uma variável em termos da outra. se existir algum.Regressão 14. a correlação entre beber um copo de vinho por dia e a menor chance de infarto do miocárdio é um bom exemplo.3 Modelo linear 14.1 Aplicações da regressão 1. de OBS: A análise da regressão apenas indica qual relacionamento matemático pode existir. corante contido na uva. Prof. pode-se suspeitar uma relação de causa e efeito. 14. Estudos recentes mostram que ela não se deve ao vinho e ao álcool. (Situações em que as duas variáveis medem aproximadamente a mesma situação. 08/01/1999 14.2 Classificação das regressões Quanto ao número de variáveis: Simples (uma variável independente explica bem o fenômeno) ou Múltipla (mais de uma variável independente são necessárias para explicar bem o fenômeno) Quanto à qualidade da relação: Linear (os fenômenos podem ser bem explicados por equações de primeiro grau) ou Não lineares (os fenômenos não podem ser bem explicados por equações de primeiro grau.” Jornal do Brasil. “. tomar suco de uva dá o mesmo resultado que beber vinho tinto. Para infelicidade de muitos. não garantido que exista relação de causa e efeito. mas sim ao betacaroteno. exigindo funções de ordem superior). nem a correlação podem mostrar que uma variável tenda a causar certos valores de outra variável.) 2. Cíntia Paese Giacomello 91 .1 A equação da linha reta Forma da equação linear: ˆ = a + bx y a Duas características importantes são: • • A ordenada da reta (valor de em y) determinado ponto (quando x=0) A inclinação da reta (coeficiente angular) b O método mais usado para ajustar uma linha reta a um conjunto de pontos é conhecido como método dos mínimos quadrados . Predizer valores de uma variável. enquanto a outra não.

30 104. Encontre o Intervalo de confiança 90% para a estimativa quando o PIB for 10.29 60.6 8.1 14.86 Σ xy = 1122.6 9.38 88.6 y 10.36 132.0 7.1 14.90 135.1 10. x2 49.61 68.6 11.3 7.3. conhecendo o erro padrão das estimativas.3 Intervalo de confiança para a estimativa Para criar intervalos de confiança com base nos estimadores utiliza-se a equação: yint ervalo = ˆ ± t S E y Onde: ˆ é obtido da equação.00 53.77 94.3 8.81 Σ x 2 = 768.1 8.9 11.6 xy 70.2 Erro padrão da estimativa linear Uma vez que as estimativas a e b são funções de variáveis aleatórias (x e y são variáveis aleatórias) é necessário verificar a precisão das estimativas. Cíntia Paese Giacomello 92 .9 11.84 73. SE = ∑y 2 − ( a ∑ y + b∑ xy ) n−2 14.96 81.76 x 7.b= n( ∑ xy ) − ( ∑ x )( ∑ y ) n( ∑ x 2 ) − ( ∑ x ) 2 a= ∑ y − b∑ x n 14.06 117.16 82.96 65.50 Prof.8 8.70 77.6 Σy = 133.1 Σx = 91.89 67.3.1 13.64 96.00 92. y t é o valor da distribuição t de Student para n-2 graus de liberdade e nível de confiança determinado (tabelado) e S E é o erro padrão da estimativa Exemplo: Seja y o consumo pessoal médio e x o PIB do Brasil em anos consecutivos.0.3 12.14 106.24 73.5 12.4 11.0 9.2 8.39 98.6 9.

É ideal que sempre se inicie o estudo de regressão com o gráfico de dispersão dos valores.

Consumo pessoal em função do PIB
Consum o pessoal 14,0 12,0 10,0 8,0 6,5 7,5 PIB 8,5 9,5 10,5

E o cálculo de

a e b fica:

b=

11 (1122,5) - (91,6) (133,6) 11 (768,76) - (91,6)2

= 1,668

e

a=

133,6 - (1,668) 91,6 = −1,744 11

ˆ = −1,744 + 1,668 x , y

ou

Consumo = −1,744 + 1,668 PIB ou seja, para cada unidade

acrescida do PIB, o consumo pessoal aumentará 1,668 unidades.

E o intervalo de confiança para y quando x=10 será:

SE =

1641,28 − (( −1,744 )( 133 ,6 ) + 1,668( 1122 ,50 )) = 0 ,4653 11 − 2
Valor de t tabelado

ˆ = −1,744 + 1,668( 10 ) = 14 ,936 y
yint ervalo = 14,936 ± 1,833 (0,4653)

yint ervalo = 14,936 ± 0,853
Ou seja, quando o PIB estiver em 10,0 o Consumo Pessoal poderá variar na faixa entre 14,083 e 15,789, com 90% de confiança.

Prof. Cíntia Paese Giacomello

93

Correlação 14.4 Objetivo da correlação
O objetivo da correlação é determinar a força do relacionamento entre duas observações emparelhadas, porque indica até que ponto os valores de uma variável estão relacionados com os valores da outra variável. O resultado da análise de correlação é chamado de coeficiente de correlação – um valor que quantifica o grau de correlação. O método mais comum de análise de correlação envolve observações em valores numéricos. Neste caso utiliza-se o coeficiente r de Pearson.

14.5 O coeficiente r de Pearson (correlação)
O coeficiente r de Pearson mede o grau de associação linear em duas variáveis. Ele possui duas propriedades importantes:

Seu sinal. Positivo indica correlação linear positiva, ou seja, à medida que uma variável cresce, a outra cresce também. Sinal negativo indica correlação linear negativa, ou seja, à medida que uma variável cresce, a outra decresce. Sua grandeza indica quão próximos da reta estão os pontos individuais caso fosse ajustada uma reta de regressão. O valor do coeficiente pode variar de –1 a 1.

-1
Correlação negativa forte

0
Inexistência de correlação

1
Correlação positiva forte

O cálculo do valor do coeficiente r de Pearson pode ser obtido através da equação:

r=

( x )( y ) ∑ xy − ∑ n ∑  ( x )  ( y) ∑ x − ∑  ∑ y − ∑   n n
2 2 2

2



   

14.6 Coeficiente de determinação
O coeficiente de determinação ou de explicação (r 2 ) indica quantos por cento a variação explicada pela regressão representa da variação total. r 2 = r.r e 0 ≤ r2 ≤ 1

Prof. Cíntia Paese Giacomello

94

Exemplo:
Prosseguindo o exemplo anterior, sendo y o consumo pessoal médio e x o PIB do Brasil em anos consecutivos. x2 49,00 53,29 60,84 73,96 65,61 68,89 67,24 73,96 81,00 92,16 82,81
Σ x 2 = 768,76

x 7,0 7,3 7,8 8,6 8,1 8,3 8,2 8,6 9,0 9,6 9,1
Σx = 91,6

y 10,1 10,6 11,3 12,4 11,9 11,9 11,5 12,1 13,1 14,1 14,6
Σy = 133,6

y2 102,01 112,36 127,69 153,76 141,61 141,61 132,25 146,41 171,61 198,81 213,16
Σ y 2 = 1641,28

xy 70,70 77,38 88,14 106,64 96,39 98,77 94,30 104,06 117,90 135,36 132,86
Σ xy = 1122,50

O cálculo do coeficiente de correlação é dado por:

( 91,6 )( 133,6 ) 11 r= 2  ( 91,6 )  ( 133,6 ) 2  768 ,76 − 11  1641,28 −  11   1122 ,5 −

   

= 0,9446

Ou seja, existe uma correlação forte positiva entre os valores do PIB e do consumo pessoal. O valor do coeficiente de determinação é: r 2 = 0,9446 x 0,9446 = 0,8923, o que significa que 89% da variação total é explicada por este modelo.

Utilizando o Excel Maneira 1: A equação é da forma y = a + b x para os valores dos pares (x,y) e os coeficientes da reta são calculados utilizando o método dos mínimos quadrados.Após colocar os valores em duas colunas (valores de x e valores de y) vá ao “Assistente de Função” e escolha as funções “INCLINAÇÃO” para determinar o valor de b e “INTERCEPÇÃO” para calcular o valor de a. Os passos seguintes devem ser feitos seguindo as indicações do programa. Para o cálculo da correlação utiliza-se no “Assistente de Função” o CORREL. Em Matriz1 devem ser colocadas as células referentes à variável x em Matriz2 as células referentes à variável y. Maneira 2: Selecionar “Ferramentas” e “Análise de dados” e então “Regressão”. Informar o que for solicitado.

Prof. Cíntia Paese Giacomello

95

14.200 m. Assim. do peso do veículo.Máx. entre outras variáveis.930 0.820 9.173 R = 0. Os resultados foram: Peso(Kg) Veloc.865 0.181x + 1257.(Km/h) 750 380 755 354 777 348 782 330 793 320 a) Construa o gráfico dos dados b) Qual a velocidade esperada para um veículo de 760 Kg? GRÁFICO DOS DADOS (Diagrama de dispersão) Relação entre velocidade e peso dos veículos de F1 390 Velocidade 370 350 330 310 740 y = -1. verificou-se qual a velocidade máxima atingida em uma reta de 1.851 5 R Se Prof.865 2 750 760 770 Peso 780 790 800 RESUMO DOS RESULTADOS Estatística de regressão R múltiplo R-Quadrado R-quadrado ajustado Erro padrão Observações 0. Cíntia Paese Giacomello 96 . no intervalo entre 700 e 800 Kg.7 Exemplo de solução no Excel A velocidade máxima de automóveis de fórmula 1 com motores de mesma potência é função.

323 Inferior 95.05 o modelo não se ajusta adequadamente aos dados.200 MQ 1864.0% 595.181 Peso Então.009 0.662 -2. Se F > 0.383 valor-P 0.149 2155.685 -0.269 Stat t 6.05.0% 1918.181(760) = 359.173 Peso(Kg) -1. Cíntia Paese Giacomello 97 .662 -2.022 95% 95% inferiores superiores 595.323 A equação linear de relacionamento dos dados é Velocidade =1257.862 0.173– 1.173 – 1.207 F de significação 0. a velocidade estimada para um veículo com 760 kg é Velocidade=1257.Se F de significação < 0. então o modelo linear ajustado aos dados é válido.048 -4. ANOVA (teste de significância para o modelo linear ajustado) gl Regressão Resíduo Total 1 3 4 SQ 1864.051 97.038 1918.038 Superior 95. então a estimativa é válida.051 291.685 -0.181 Erro padrão 207.050 F 19. caso contrário é significativamente nula Coeficientes Interseção 1257.022 Valores de a e b Testes para a e b Se valor-P < 0.61 km /hora Prof.05.

A tabela a seguir apresenta os valores dos investimentos administrados on-line a partir de 1998.3 6. estimar a reta de regressão: 2.6 Participação na renda (%) 8. Ano 1998 1999 2000 2001 Investimento 374 555 908 1010 3.Exercícios 1. apresente o intervalo de confiança de 95% para o valor dos investimentos no ano de 2002 e 2003. quantos anos de estudo serão necessários para que a participação da mulher na renda familiar chegue a 50% ? b) E qual será a participação da mulher na renda familiar quando ela tiver 12 anos de estudo? c) Você poderia estimar o ano em que a mulher irá participar com 50% da renda? Prof. Determinar o coeficiente de correlação dos dados a seguir: X Y 1 4 2 7 3 7 6 9 9 15 Se os dados forem correlacionados. Os gráficos e a tabela indicam o número de anos de escolaridade das chefes de família (x) e a participação feminina na renda familiar (y) em alguns anos 1976 1990 1993 1996 Número de anos de estudo 4.7 5. Cíntia Paese Giacomello 98 . caso exista correlação. Verifique se existe correlação entre os anos (x) e os investimentos (y).4 16 19 21 a) Caso exista associação.7 6.

6 4 9. Estime a produtividade quando a temperatura estiver em 35 graus.7 5.8 128 32.4 12 7.5 123 25. Cíntia Paese Giacomello 99 .5 138 29. Se forem.3 148 26.5 141 30. 6.4 129 25. Ajuste um modelo linear a estes dados.5 133 32.5 132 20. Após uma regulagem eletrônica um veículo apresenta um rendimento ideal no que tange o consumo de combustível.7 7 9. O gerente de uma indústria localizada em um país tropical suspeita que há uma correlação entre a temperatura do dia e a produtividade.2 119 25. Interprete os resultados. Interprete os resultados.7 131 24. Dados coletados aleatoriamente ao longo de um período de seis meses revelaram o seguinte.0 2 10. Calcule o coeficiente de correlação. Depois estime a equação da reta de regressão e calcule o valor do coeficiente de correlação. Temperatura Produtividade Temperatura Produtividade 21.0 122 23. Prof. Aluno 1 2 3 4 5 6 7 8 9 X (renda) 750 690 400 900 200 1000 300 600 1200 Y (desempenho) 5 8 4 9 2 10 3 6 10 Os dados são correlacionados? Justifique sua resposta.3 145 29. Construa um Intervalo de Confiança de 90% para esta produtividade.9 6 10.2 124 22.3 137 22.8 144 30.6 5 9.3 3 10.7 131 28. Os dados a seguir representam o rendimento medido mês a mês após a regulagem.9 8 9. x: Meses após a regulagem y: Rendimento x: Meses após a regulagem y: Rendimento 1 10. estime a reta de regressão. com o passar do tempo esse rendimento vai se degradando. Suponha que os valores obtidos para o desempenho de alunos em uma determinada disciplina e as rendas familiares sejam os que seguem.7 116 Plote um gráfico de dispersão e visualize a natureza da correlação entre temperatura e produtividade.7 124 24.5 11 7.6 117 22. Contudo.0 132 28.4.2 124 31.8 9 7.2 136 30.3 10 7.2 142 27.3 111 25.

000 1.638 13.000 20.000 4. O modelo que apresentar maior valor de r 2 é o que apresenta melhor ajuste dos dados.4 3.787 Vendas (Milhões US$) 4.000 M ilhõ e s US$ 3.7 900.225 12.2 1391.582.004 39. por vendas no ano anterior. o uso de softwares estatísticos.6 1083. O valor de r 2 serve como uma forma de comparação entre os modelos.000 40.000 2. calculadoras e planilhas eletrônicas auxilia na obtenção dos coeficientes. A revista Exame Melhores e Maiores apresentou as maiores empresas do comércio.7 693.8 Outros modelos Muitas vezes a forma funcional entre as variáveis x e y não é linear.500 3.6 726.000 10.10 15 x R 2 = 0 .9 1062.990 5.508 16.80 1 Núm e r o d e fu ncion ár ios 14. Entre as que pertencem ao setor de comércio varejista estão destacadas as 11 maiores. Prof.000 y = -42 . Este procedimento busca facilitar o cálculo dos coeficientes da equação.976.4 1642.4 62 + 0 .1 619. o que você pode concluir? Empresa Carrefour Pão de Açúcar Casas Bahia Sendas Ponto Frio Sonae Bompreço L. Cíntia Paese Giacomello 100 .642 11. Através da análise da tabela e do gráfico. Alguns modelos.485 Não informou 3.7 1223. são facilmente linearizáveis.000 30.000 35.500 2. No entanto.000 25.500 4. mesmo não sendo lineares. Americanas McDonalds AgipLiquigás Pernambucanas Fonte: Revista Exame Número de funcionários 37.500 1.000 500 5.1 V e nd as no an o d e 1999 das 11 m aior e s e m pr e s as d o Br as il do s e tor de co m é r cio var e jis ta 5.7.000 15.395 22.804 10.

obtendo os valores apresentados a seguir. Prof. por ano 10.000 4. Cíntia Paese Giacomello 101 .1 Função exponencial - y = ab x a>0 0<b<1 a>0 b>1 a<0 0<b<1 a<0 b>1 Utilizando as propriedades dos logaritmos pode-se chegar a Y = A + Bx onde Y = log y .000 0 0 1 2 3 4 5 6 An o 7 8 9 10 11 O diagrama de dispersão dos dados indica que a relação não é linear.000 5.100 4.700 2.000 Vendas do brinquedo.000 7. a = 10 A e b = 10 B Exemplo Uma empresa fabricante de brinquedos registrou suas vendas nos últimos 10 anos. A = log a e B = log b Pelo método dos mínimos quadrados obtém-se A e B e depois convertem-se os valores para a e b .000 8. Ano (x) 1 2 3 4 5 6 7 8 9 10 Vendas (y) 450 500 600 800 1.200 1.000 2.000 Ve n d as 6.8.14.

350 Y=ln(y) 6.19 26.000 7.29 8.35 76.000 6.52 68.92 44.000 23.68 50.54 78.39 x 1 2 3 4 5 6 7 8 9 10 Total: 55 y 450 500 600 800 1.21 6.42 Logo.200 1.00 Y2 37.65 8.39 545.42)(1.000 4.3245 ) = 1.65 88.44 7.33 58.100 4.27 55.000 7.85 73.000 2.63 53.325( 55 ) = 5 .74 35. Y 2 .64 ) − ( 55 )( 73 .32 38. observados na série de dados.25 xY 6. a equação final será Vendas =(254.5399 10 b = exp( B ) = exp( 0 . B= 10( 429 .000 5.79 72.68 7.000 3.5399 ) = 254 .55 66.000 5.45 44.000 1.3903 e a = exp( A ) = exp( 5 .62 40.52 8.3903) ano Observe como os valores estimados pela equação estão próximos dos valores reais.25 − 0 . onde Y = ln (y) x2 1 4 9 16 25 36 49 64 81 100 385.43 19.3245 10( 385 ) − ( 55 ) 2 A= 73.000 0 1 2 3 4 5 6 7 8 9 10 V endas obs ervadas V endas estim adas pela equaç ão Prof.Para ajustar uma função exponencial. inicia-se com o cálculo dos somatórios de Y.64 Então.40 6.11 12. 8. x.11 6.54 429.700 2.25 ) = 0. Cíntia Paese Giacomello 102 .09 7. x 2 e xY.

P rodução automobilística anual 700.2 72 609.6 68 278.2 69 349.6 60 133.0 300.0 Milhares de unidade 600.0 O diagrama de dispersão dos dados sugere que um modelo potencial é indicado. A = log a e X = log x Pelo método dos mínimos quadrados obtém-se A e para a . b e depois convertem-se os valores a = 10 A Exemplo Os dados a seguir apresentam a produção de veículos automotivos (y) ao longo do tempo (x).0 500.0 65 185.2 Função geométrica ou de potência - y = ax b a>0 b ímpar a>0 b par a<0 b ímpar a<0 b par Utilizando as propriedades dos logaritmos pode-se chegar a Y = A + bX onde Y = log y . Para estes dados ajuste um modelo de potência ano produção ano produção 59 96.0 67 225.7 71 516.0 400.0 64 183.0 200.0 100.8.1 66 224.2 70 416.0 55 60 65 An o 70 75 Prof. Cíntia Paese Giacomello 103 .5 62 191.5 63 174.4 61 145.14.0 0.

299 36.679 17.970 14( 244 . respectivamente.292 ) = 7.094 4.296 17.629 5.797 25.2 183. y=7.050 18.353 31.379 21.014 41.414 5.2 174.857 6.970 é: Prof.0 Totais: Y=ln(y) 4.890 4.1 133.916 24.868 ) = 7 .522 ) = −27 .522 )( 76 .684 ) − ( 58 .809 27.522 XY 18.5 349.335 ) − ( 58 .170 18.205 4.804 17.843 23.290 244.023 20.970( 58 .0 516.625 27.690 34.426 17.682 21.522 ) 2 A= 76 .127 4.220 4.292 X=ln(x) 4.5 416.234 4.033 17.263 29.166 17.781 23.970X onde Y e X são.621 26.2 224.335 Assim.970 Logo. Cíntia Paese Giacomello 104 . ln(x) e ln(y) Ou então.Cálculo dos parâmetros: Y2 20.421 319.597 26.143 4.6 191. b= 14( 319 .928 18.369 39.684 22.981 5.628 27.681 21.899 17.078 4.889E-13 x 7.868+7.159 4.179 27.174 4.386 X2 16.253 5.889 E − 13 Y=A+bX Y=-27.246 6.412 76.111 4.753 24.213 5.263 4.553 17.626 16.6 225.764 16.0 145.684 Ano 59 60 61 62 63 64 65 66 67 68 69 70 71 72 Produção 96.031 6. a equação final será Produção de automóveis = 7.476 21.248 4.292 − 7 .889E-13 (ano) 7.616 20.0 609.565 4.277 58.111 419.7 185.796 22.315 29.970 O gráfico comparativo entre os valores observados para a produção e os estimados através da curva Produção de automóveis = 7.4 278.868 14 a = exp( A ) = exp( −27 .889E-13 (ano) 7.160 5.190 4.221 5.418 5.

Ajuste os seguintes modelos: y=ax b . Cíntia Paese Giacomello 105 . Aos dados a seguir ajuste um modelo exponencial e um polinomial. y=ab x e y=a+bx. Estime a quantidade de vendas para o ano de 2003.0 400. DICA: utilize os números de 1 a 11 para os anos e calcule o valor de y quando x for 14. que modelo de regressão você utilizaria? O que você poderia dizer a respeito dos valores dos parâmetros? 3. supondo que o comportamento dos dados seja mantido.0 59 60 61 62 63 64 65 66 67 68 69 70 71 72 Produção estimada pela equação Produção real Exercícios 1.0 0.0 200. Ano Vendas 1990 15 1991 16 1992 17 1993 18 1994 25 1995 28 1996 32 1997 42 1998 55 1999 76 2000 93 2. Se você tivesse uma série de dados como expressa no diagrama de dispersão a seguir. Uma companhia de energia elétrica estimou o consumo médio de energia das famílias (kwh) de acordo com a renda (R$).0 300.0 600.700.0 100.0 500. Renda Consumo 197 1234 286 1432 243 1678 218 1300 241 1467 200 1245 215 1214 198 1200 129 770 157 890 296 2020 302 2100 Prof.

15 Tabelas Prof. Cíntia Paese Giacomello 106 .

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->