Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
APOSTILA
DE
ESTATÍSTICA
BÁSICA
1
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
CAPITULO 1
O que é estatística?
É a parte da matemática aplicada que fornece métodos para coleta, organização,
descrição, análise e interpretação dos dados e para utilização dos mesmos na tomada de
decisões.
A estatística se divide em duas partes:
(1) ESTATÍSTICA DESCRITIVA: Responsável pela coleta, organização e descrição
dos dados observados.
(2) ESTATÍSTICA INDUTIVA OU INFERENCIAL: Responsável pela análise e
interpretação dos dados.
Fases do método estatístico:
- Coleta dos dados: Feito através de registros – nascimento, casamento, óbitos,
importação e exportação de mercadoria, banco de dados de empresas, questionários,....
- Crítica dos dados: Para verificar possíveis erros por parte dos informantes, por
distração ou má interpretação das perguntas que lhe forem feitas.
- Exposição ou apresentação dos dados: Tabulação e gráficos.
- Análise dos resultados: Conclusão sobre o todo (POPULAÇÃO) a partir de
informações fornecidas por parte representativa do todo (AMOSTRA).
POPULAÇÃO: é o conjunto de indivíduos ou objetos que apresentam pelo menos uma
característica comum.
AMOSTRA: é um subconjunto finito de uma população.
Exemplo: Digamos que a Secretaria Estadual de Educação queira pesquisar o grau de
satisfação dos alunos no que se refere à qualidade da merenda escolar.
População: Alunos da rede estadual.
Amostra: Parte do total de alunos que representa o todo (população).
Variável em estudo: variáveis que possam informar a satisfação dos alunos com a
merenda escolar.
2
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
As variáveis podem ser quantificadas ou qualificadas. Teremos, portanto, variáveis
quantitativas e qualitativas.
Qualitativas: quando seus valores são expressos por atributos.
Exemplos:
População: moradores de uma cidade.
Variável: cor dos olhos (pretos, castanhos, azuis, etc...).
População: Peças produzidas por uma máquina.
Variável: qualidade da peça (perfeita ou defeituosa).
População: Candidatos a um exame de vestibular.
Variável: sexo (masculino ou feminino).
Quantitativa: Quando seus valores são expressos em números. Podem ser subdivididas
em discretas (assumem valores enumeráveis, números inteiros não-negativos, contagens)
e contínuas (assumem valores num certo intervalo, medições).
Exemplos:
População: casais residentes em uma cidade.
Variáveis: Número de filhos – (quantitativa discreta)
Idade – (quantitativa continua)
População: As jogadas possíveis com um dado.
Variável: Ponto obtido em cada jogada (quantitativa discreta)
População: peças produzidas em uma linha de montagem.
Variável: Número de defeitos por unidade (quantitativa discreta)
Diâmetro por unidade (quantitativa contínua)
População: Funcionários de uma empresa.
Variável: Salário (discreta)
População: Alunos da CEFETEQ
Variável: Peso dos alunos (contínua)
3
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
LISTA DE EXERCÍCIOS 1
1) O que é estatística?
2) O que é população?
3) o que é amostra?
4) A Estatística se divide em duas partes. Cite e explique cada uma delas.
5) Quais são as fases do método estatístico?
6) Qual a diferença entre variável qualitativa e quantitativa?
7) Classifique as variáveis em qualitativas, quantitativas contínuas ou quantitativas
discreta.
a) População: Alunos de uma escola.
Variável: Cor da pele ___________________________
b) População: Casais residentes em um bairro.
Variável: Nº de filhos ___________________________
c) População: Jogadas de um dado.
Variável: O ponto obtido em cada jogada____________________
d) População: Peças produzidas por certa máquina.
Variável: Número de peças produzidas por hora________________
e) População: Aparelho produzido em uma linha de montagem.
Variável: Nº de defeitos por unidade________________________
f) População: Pessoas residentes em uma cidade.
Variável: Idade ___________________________
g) População: Bolsa de valores de São Paulo.
Variável: Nº de ações negociadas_________________________
h) População: Funcionários de uma empresa.
Variável: Salário ___________________________
i) População: Pregos produzidos por uma máquina.
Variável: Comprimento do prego_________________________
j) População: Casais residentes em uma cidade.
Variável: Sexo dos filhos ___________________________
4
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
8) Dizer quais dos seguintes itens representam dados discretos e quais representam dados
contínuos.
a) Altura de precipitação da chuva em centímetros, de uma cidade durante vários
meses do ano.____________________________
b) Velocidade de um automóvel em km/h._________________________
c) Número de notas de vinte dólares em circulação nos Estados Unidos, em qualquer
época._________________________________
d) Valor total das ações vendidas diariamente na Bolsa de
Valores.______________________
e) Número de estudantes matriculados em uma universidade, em certo número de
anos._____________________________
9) Estabelecer quais dos dados seguintes são discretos e quais são contínuos.
a) Temperatura registrada a cada meia hora em um posto de
meteorologia.______________________

b) Vida média das válvulas de televisão produzidas por uma determinada
companhia.___________________________
c) Comprimento de 1000 parafusos produzidos numa fábrica. __________________
5
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
CAPITULO 2
O objetivo da estatística é sintetizar os valores que uma ou mais variáveis podem
assumir e isso ela consegue apresentando esses valores em TABELAS E GRÁFICOS.
TABELAS ESTATÍSTICAS
• TABELA É UM QUADRO QUE RESUME UM CONJUNTO DE
OBSERVAÇÕES
CATEGORIAS TOTAL DE MATRICULAS
1º GRAU 2.000
2º GRAU 2.500
3º GRAU 3.000
TOTAL 7.500
FONTE: IBGE.
MATRÍCULAS NAS ESCOLAS DA CIDADE A -1995
TÍTULO
CABEÇALHO
CORPO DA
TABELA
RODAPÉ
COLUNA
NUMÉRICA
COLUNA
INDICADORA
SÉRIES ESTATÍSTICAS
Definição: Série Estatística é toda tabela que apresenta a distribuição de um conjunto de
dados em função da época, do local ou da espécie.
Daí, podemos inferir que numa série estatística observamos a existência de três elementos
ou fatores: o tempo, o espaço e a espécie.
Conforme varie um dos elementos da série, podemos classificá-la em histórica,
geográfica e específica.
• SÉRIE HISTÓRICA, CRONOLÓGICA, TEMPORAIS: Descrevem valores
da variável, em determinado local, discriminados segundo intervalos de tempo.
(OS DADOS VARIAM COM O TEMPO).
PRODUÇÃO MEDIA DE SOJA NO BRASIL
2005-06
ANOS
PRODUÇÃO (1.000 t)
2005
2006
51 138
52 223
FONTE: IBGE.
6
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
• SÉRIES GEOGRÁFICAS, ESPACIAIS, TERRITORIAIS OU DE
LOCALIZAÇÃO: Descrevem valores da variável, em determinado instante,
discriminados segundo regiões. (OS DADOS VARIAM NO LOCAL).
DURAÇÃO MÉDIA DOS
ESTUDOS SUPERIORES
1994
PAÍSES
NÚMERO DE
ANOS
Itália
Alemanha
França
Holanda
7,5
7,0
7,0
5,9
FONTE: APA.
• SÉRIES ESPECÍFICAS OU CATEGÓRICAS: Descrevem valores da variável
em determinado tempo e local, discriminados segundo especificações e
categorias (OS DADOS VARIAM DE ACORDO COM A ESPÉCIE OU
QUALIDADE DO FENÔMENO).
• SÉRIES CONJUGADAS, TABELAS DE DUPLA ENTRADA: Quando
precisamos apresentar em uma única tabela a variação de valores de mais de uma
variável (OS DADOS SÃO RELATIVOS A 2 OU 3 ASPECTOS
SIMULTANEAMENTE).
7
EXPORTAÇÃO BRASILEIRA
2005
PRODUTOS
QUANTIDADE
(em bilhões de toneladas)
Grãos
Farelo
Óleo
20,5
14,2
2,4
FONTE: Companhia Nacional de Abastecimento (Conab).
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
REGIÕES 1991 1992 1993
NORTE 342.938 375.658 403.494
NORDESTE 1.287.813 1.379.101 1.486.649
SUDESTE 6.234.501 6.729.767 7.231.634
SUL 1.497.315 1.608.989 1.746.232
CENTRO-OESTE 713.357 778.925 884.822
Fonte: Revista Veja.
TERMINAIS TELEFÔNICOS EM SERVIÇOS - 1991 - 1993
EXERCÍCIO:
Verificou-se, em 1985 e 1995, a seguinte movimentação de exportação de
mercadorias:
13,0% em 1985 e 13,4% em 1995 oriundas da América Latina, dos Estados
Unidos e Canadá, 28,2% em 1985 e 22,2% em 1995; e da Europa, 33,9% em 1985
e 20,7% e, 1995.
Confeccione a série correspondente e classifique-a, sabendo que os dados acima
foram fornecidos pelo MIC e SECEX.
GRÁFICOS ESTATÍSTICOS
O gráfico estatístico é uma forma de apresentar os dados estatísticos, com
o objetivo de mostrar uma impressão mais rápida do fenômeno em estudo, com
simplicidade, clareza e veracidade.
• Títulos completos e o mais claro possível;
• Sempre que possível a escala vertical deve ser escolhida de modo a aparecer na
linha o valor zero;
• A escala horizontal deve ser lida da esquerda para direita e a escala vertical deve
ser lida de baixo para cima.
8
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Tipos mais comuns de gráficos:
• Gráfico em colunas ou em barras
ANOS QUANTIDADE (1.000 t)
1989 18.196
1990 11.168
1991 10.468
1992 9.241
Fonte: Agropalma.
(GRÁFICO DE COLUNAS) (GRÁFICO EM BARRAS)
PRODUÇÃO BRASILEIRA DE CARVÃO MINERAL
BRUTO - 1987 - 1992
PRODUÇÃO BRASILEIRA DE CARVÃO
MINERAL BRUTO - 1989 - 1992
0
5.000
10.000
15.000
20.000
1989 1990 1991 1992
Anos
M
i
l

t
o
n
e
l
a
d
a
s
Fonte: Ministério da Agricultura.
PRODUÇÃO BRASILEIRA DE
CARVÃO MINERAL BRUTO - 1989 -
1992
0 5.000 10.000 15.000 20.000
1989
1990
1991
1992
A
n
o
s
Mil toneladas
Fonte: Ministério da Agricultura.
• Gráfico de linhas ou em curva
ANOS QUANTIDADE (1.000 t)
1987 39
1988 53
1989 69
1990 55
1991 42
1992 38
Fonte: Agropalma.
PRODUÇÃO BRASILEIRA DE ÓLEO DE DENDÊ -
1987 - 1992
Produção Brasileira de Óleo de
Dendê - 1987 a 1992
0
20
40
60
80
1987 1988 1989 1990 1991 1992
Anos
M
i
l

t
o
n
e
l
a
d
a
s
Fonte: Agropalma.
9
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
• Gráfico em setores ou de pizza:
Considere a utilização de um gráfico de pizza quando:
• Você tiver apenas uma série de dados que deseja plotar.
• Nenhum dos valores que deseja plotar for negativo.
• Quase nenhum dos valores que deseja plotar for igual a zero.
• Você não tiver mais de sete categorias.
• As categorias representarem partes de toda a pizza.
1
0
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
CAPITULO 3
Após a coleta de dados relativos a um determinado fenômeno em estudo, que compõem
uma amostra, obtemos um conjunto de dados que será tabulado.
Por exemplo:
TABELA 1
ESTATURA DE 40 ALUNOS DA CEFETEQ
Observe que a tabela foi formada por dados que não estão organizados. Dessa forma ela
recebe o nome de TABELA PRIMITIVA.
Dessa forma difícil ter uma idéia exata do comportamento da variável em estudo
(estatura). Precisamos organizar os dados tabelados através de uma ordenação crescente
ou decrescente.
TABELA 2
ESTATURA DE 40 ALUNOS DA CEFETEQ
Obteremos uma segunda tabela ordenada que recebe o nome de ROL.
Dessa forma, podemos saber, com relativa facilidade, qual a menor estatura (150) e qual
a maior (173); qual a amplitude de variação (173-150=23cm); qual o ponto médio
(160+161)/2 = 160,5.
Ainda assim, a variável observada (ESTATURA) será mais facilmente estudada quando
dispusermos os valores ordenados em uma coluna e ao lado de cada valor o número de
vezes que aparece repetido (FREQÜÊNCIA).
Obtemos dessa forma uma tabela que recebe o nome de DISTRIBUIÇÃO DE
FREQÜÊNCIA.
1
1
166 160 161 150 162 160 165 167 164 160
162 161 168 163 156 173 160 155 164 168
155 152 163 160 155 155 169 151 170 164
154 161 156 172 153 157 156 158 158 161
150 154 155 157 160 161 162 164 166 169
151 155 156 158 160 161 162 164 167 170
152 155 156 158 160 161 162 164 168 172
153 155 156 160 160 161 162 164 168 173
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
ESTATURA (cm) Freq
150 1
151 1
152 1
153 1
154 1
155 4
156 3
157 1
158 2
160 5
161 4
162 2
163 2
164 3
165 1
166 1
167 1
168 2
169 1
170 1
172 1
173 1
Total 40
Fonte: MEC
Estatura de 40 alunos do
colégio A
Outra solução aceitável e mais conveniente para diminui o tamanho da tabela quando o
número de valores da variável é grande, seria agrupá-los em vários intervalos
(INTERVALOS DE CLASSE).
Nesse caso a tabela passa a ser denominada: DISTRIBUIÇÃO DE FREQÜÊNCIA
POR INTERVALO DE CLASSE.
Lê-se: 4 alunos têm estatura entre 150 e 154 anos (exclusive) – intervalo fechado à
esquerda.
1
2
ESTATURA (cm) Freq
150 a 154 4
154 a 158 9
158 a 162 11
162 a 166 8
166 a 170 5
170 a 174 3
Total 40
Fonte: MEC
Estatura de 40 alunos do
colégio A
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
ELEMENTOS DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIA.

(1) CLASSE (i): São intervalos de variação da variável.
Ex.: Intervalo 150 a 154 define a 1ª classe (i=1),
i = 1, 2, 3,......, k
i = classe
k = número total de classes.
(2) LIMITES DE CLASSE: São os extremos de cada classe.
i
l
= Limite inferior i
L
= Limite superior
Ex.: Na primeira classe: i
l
= 150 e i
L
= 154.

(3) AMPLITUDE DE UM INTERVALO DE CLASSE ( i
h
): É a medida do intervalo
que define a classe. Diferença entre o limite superior e inferior da classe.
Ex.: Na primeira classe: i
l
= 150 e i
L
= 154.
i
h
= i
L
– i
l
= 154 – 150 = 4 cm.
(4) AMPLITUDE TOTAL DA DISTRIBUIÇÃO (AT): É a diferença entre o Limite
superior da ultima classe e o Limite inferior da primeira classe.
AT = L (Max) – l (min)
Ex.: 174 – 150 = 24 cm
Observe que como as classes possuem o mesmo intervalo vale a relação:
k
h
AT
i
·
24/4 = 6 (6 = Número total de classes)
(5) PONTO MÉDIO DE UMA CLASSE ( i
x
): É o ponto que divide o intervalo de
classe em duas partes iguais.
Ex.: Classe 1: (150 + 154)/2 = 152 cm
1
3
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
TIPOS DE FREQÜÊNCIA:
(1) FREQÜÊNCIA SIMPLES OU ABSOLUTA ( i
f
): É o número de observações
correspondentes a classe ou a um valor.
ESTATURA (cm) fi
150 a 154 4
154 a 158 9
158 a 162 11
162 a 166 8
166 a 170 5
170 a 174 3
Total 40
Fonte: MEC
Estatura de 40 alunos do
colégio A
Ex.:
1
f
= 4 => freqüência da classe 1,
2
f
= 9 => freqüência da classe 2,...............
A soma de todas as freqüências será: ∑
·
·
k
i
i
n f
1
,
n = número total de observações.
(2) FREQÜÊNCIA RELATIVA (
i
fr
): É a razões entre a freqüência simples a
freqüência total.

·
·
k
i
i
i
i
f
f
fr
1
Ex.:
275 , 0
40
11
40
1
3
3
· · ·

· i
i
f
f
fr
ESTATURA (cm) fi fri
150 a 154 4 0,100
154 a 158 9 0,225
158 a 162 11 0,275
162 a 166 8 0,200
166 a 170 5 0,125
170 a 174 3 0,075
Total 40 1
Fonte: MEC
Estatura de 40 alunos do colégio A
(3) FREQÜÊNCIA ACUMULADA ( i
F
): É o total das freqüências de todos os valores
inferiores ao limite superior do intervalo de classe.
1
4
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009

·
· + + + ·
k
i
i k i
f f f f F
1
2 1
.....
Ex:

·
· + + · · + + ·
3
1
3 2 1 3
24 11 9 4
i
i
f f f f F
, ou seja, existem 24 alunos com
estatura inferior a 162 cm ( 3
L
da 3ª classe).
ESTATURA (cm) fi fri Fi
150 a 154 4 0,100 4
154 a 158 9 0,225 13
158 a 162 11 0,275 24
162 a 166 8 0,200 32
166 a 170 5 0,125 37
170 a 174 3 0,075 40
Total 40 1
Fonte: MEC
Estatura de 40 alunos do colégio A
(4) FREQÜÊNCIA ACUMULADA RELATIVA ( i
Fr
): É a freqüência acumulada da
classe dividida pela freqüência total da distribuição.

·
·
k
i
i
i
i
f
F
Fr
1
Ex.:
600 , 0
40
24
40
1
3
3
· · ·

· i
i
f
F
Fr
ESTATURA (cm) fi fri Fi Fri
150 a 154 4 0,100 4 0,100
154 a 158 9 0,225 13 0,325
158 a 162 11 0,275 24 0,600
162 a 166 8 0,200 32 0,800
166 a 170 5 0,125 37 0,925
170 a 174 3 0,075 40 1
Total 40 1
Fonte: MEC
Estatura de 40 alunos do colégio A
1
5
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
OBSERVAÇÃO: Critério para calcular o número de classes a ser utilizado
CRITÉRIO DA RAIZ
Se a seqüência estatística contém n elementos e se indicarmos por i o número de
classes a ser utilizado, então:
n i ·
onde n = número total de observações.
Amplitude do intervalo de classe que chamaremos de h é determinada por:
i
AT
h ·
, onde AT é a Amplitude Total e n i ·
Exemplo:
n = 40
Então, 40 · i = 6,324, portanto o inteiro mais próximo é 6.
Devemos trabalhar com o inteiro mais próximo da raiz de n, o inteiro
imediatamente anterior e o inteiro imediatamente superior.
Logo, as opções para i são: 5, 6 ou 7.
Então,
A amplitude do intervalo de classe (h) é determinada por:
4
6
150 - 174 (min) l - (Max) L
· · · ·
i i
AT
h
Observe que a opção por 6 classes foi feita em função de um valor de h mais fácil
de se operar.
1
6
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
REPRESENTAÇÃO GRÁFICA DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIA.
• Histograma
- Consiste em um conjunto de retângulos, tantos quantos forem às classes de uma
distribuição.
- As classes são as bases dos retângulos (tantas partes quantas forem às classes)
- A escala para marcação dos pontos no eixo Y corresponde às freqüências.
Exemplo:
• Polígono de freqüências
Freqüência Simples:
1
7
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Freqüência Acumulada:
- As bases dos retângulos vão estar centradas nos pontos médios das classes.
Exemplo:
1
8
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
CAPITULO 4
MEDIDAS DE POSIÇÃO: MÉDIA, MODA e MEDIANA;
O estudo sobre a Distribuição de Freqüência permitiu descrever, de um modo
geral, os valores que uma variável pode assumir. Agora precisamos de um “indicativo”
generalizado.
O modo mais comum de se obter esse tipo de informação é através das
MEDIDAS DE POSIÇÃO, estatística que representa à posição relativa da distribuição
em relação ao eixo horizontal.
As medidas de posição mais importantes são as MEDIDAS DE TENDÊNCIA
CENTRAL – recebem esse nome pelo fato dos dados observados, em geral, se agruparem
em torno dos valores centrais.
São elas:
• MÉDIA ARITMÉTICA
• MODA
• MEDIANA
Outras medidas de posição são:
• SEPARATRIZES
• QUARTIS
• PERCENTIS
Essas medidas quando bem interpretadas, podem fornecer-nos informações muito
valiosas com respeito às séries estatísticas, ou seja, com estas medidas tenta-se encontrar
um valor numérico que represente o comportamento típico da serei em estudo.
(11 MÉDIA ARITMÉTICA SIMPLES ( x )
• DADOS NÃO AGRUPADOS (dados brutos ou rol): Quando desejamos
conhecer a média dos dados não agrupados, determinamos a média
aritmética simples.
1
9
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
n
x
x
n
i
i ∑
·
·
1
, onde (
x
) é a média aritmética, (
i
x
) os valores da variável e (n) o
número de valores.
Ex.: Produção leiteira diária da vaca A, durante uma semana, foi de 10, 14, 13, 15, 16,
18 e 12 litros. Qual a produção média da semana.
litros x 14
7
98
7
12 18 16 15 13 14 10
· ·
+ + + + + +
·
• MÉDIA PARA DADOS AGRUPADOS SEM INTERVALO DE
CLASSE.
i
n
i
i i
f
f x
x


·
·
1 ,
Observe que i
f
é a freqüência simples de cada variável que neste caso funciona
como fator de ponderação (MÉDIA ARITMÉTICA PONDERADA).
Exemplo:
2
0
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Exercício: Calcule a Média.
Variável estudada X(idade): 2, 5, 5, 5, 5, 6, 6, 6, 8, 8
IDADES f
i
f
i
x
i
2
5
6
8
Total
• MÉDIA PARA DADOS AGRUPADOS COM INTERVALO DE
CLASSE.
i
n
i
i i
f
f x
x


·
·
1 ,
( i
x
) é o ponto médio de cada intervalo de classe.
( i
f
) a freqüência simples de cada intervalo de classe.
Exemplo:
Exercício: (resposta: 161 cm)
ESTATURA (cm) fi
150 a 154 4
154 a 158 9
158 a 162 11
162 a 166 8
166 a 170 5
170 a 174 3
Total 40
Fonte: MEC
Estatura de 40 alunos do
colégio A
2
1
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
(11 MODA (MO): É o valor que ocorre com maior freqüência em uma
série de dados. Quando uma série de dados não apresentar moda chamaremos
de AMODAL. Dois valores na série, duas modas, chamaremos de
BIMODAL.
• DADOS NÃO AGRUPADOS (dados brutos ou rol)
Exemplo:
• DADOS AGRUPADOS SEM INTERVALO DE CLASSE.
Basta verificar o valor da variável de maior freqüência.

Nº de meninos na família fi
0 2
1 6
2 10
3 12
4 4
Total 34
Uma vez agrupado os dados basta fixar o valor da variável de MAIOR
freqüência. A moda nesse caso é 3.
Exercício: Qual a moda e o tipo para os dados agrupados em freqüência:
2
2
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
• DADOS AGRUPADOS COM INTERVALO DE CLASSE.
A classe que apresentar a maior freqüência é denominada CLASSE MODAL
que servirá de base para os seguintes cálculos:
a) Moda bruta: Ponto médio da classe modal.
2
* *
L l
M
O
+
·
Onde: l* é o limite inferior da classe modal;
L* é o limite superior da classe modal.
b) Moda de KING
* *
h
f f
f
l Mo
pos ant
pos
×
+
+ ·

c) Moda de CZUBER
*
2 1
1 *
h
D D
D
l Mo ×
+
+ ·

pos
ant
f f
f f
l Onde
− ·
− ·
*
2
*
1
*
*
ant
pos
*
D
D
modal classe da intervalo do amplitude a é h
modal classe da simples freqüência a é f
modal classe a anterior classe da simples freqüência a é f
modal classe a posterior classe da simples freqüência a é f
modal classe da inferior limite o é :
2
3
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Exercício: Calcule a moda utilizando os três métodos
Resp.: 50
Observação:
1) A moda é utilizada quando desejamos obter uma medida rápida e
aproximada de posição ou quando o valor da distribuição deve ser o valor
mais típico da distribuição.
2) A moda é uma medida de posição, pois indica a região das máximas
freqüências.
(11 MEDIANA (Md)
É o valor que divide o conjunto de dados ordenados em duas metades, com metade
dos valores acima da mediana e a metade dos valores abaixo dela. Quando o número de
observações (n) é ímpar, a mediana é o valor que ocupa a posição central. Quando n for
par, há duas posições centrais no conjunto, então a mediana é a média aritmética dos dois
valores que ocupam as posições centrais.
Observação:
1) Se n for ímpar (n=número de observações), o valor mediano será o de ordem

,
`

.
| +
2
1 n
, ou seja, o valor do elemento que ocupa está posição será a mediana.
2) Se n for par, o rol admite dois termos centrais que ocupam as posições.O de ordem
 

,
`

.
|
+
,
`

.
|
1
2 2
n
e
n
, então, a mediana será a média dos valores que ocupam estas posições.
Exemplos:
2
4
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
• DADOS AGRUPADOS SEM INTERVALO DE CLASSE.
Se os dados se agrupam em uma distribuição de freqüência será preciso
determinar um valor tal que divida a distribuição em dois grupos que contenham o
mesmo número de elementos. Esse valor será encontrado através da seguinte fórmula:
2

·
i
i
f
F => nos fornece a posição do valor na série de dados.
Passos para o cálculo da mediana:
(1) Achar n
(2) Calcular Fi
(3) Calcular Posição da mediana P(Md)
(4) Procurar P(Md) em Fi
Exemplo:
1)
Nº de meninos fi Fi
0 2 2
1 6 8
2 10 18
3 12 30
4 4 34
Total 34
2

·
i
i
f
F = 34/2 = 17 (é a posição!!)
A mediana vai ser a média entre o 17º valor e o 18º valor da série (pois temo um número
par de elementos (n=34).
Então,
Md = (2+2)/2 = 2 meninos.
2
5
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
2)
X fi Fi
12 1 1
14 2 3
15 1 4
16 2 6
17 1 7
20 1 8
Total 8
2

·
i
i
f
F = 8/2 = 4 (4ª posição na série)
A mediana será a média entre o 4º e o 5º elemento da série => Md=(15+16)/2 = 31/2 =
15,5
3)
idade f
i
F
i
2 1 1
5 5 6
8 10 16
10 6 22
12 1 23
total 23
2

·
i
i
f
F = 23/2=11,5 (POSIÇÃO12ª)
Md = 8
Exercícios: Calcule a mediana.
2
6
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
• DADOS AGRUPADOS COM INTERVALO DE CLASSE.
Passos para o cálculo da Mediana:
(1) Achar n
(2) Calcular Fi
(3) Calcular P(Md)
(4) Determinar a Classe Mediana
Fórmula para o cálculo
*
*
*
2
h
f
F
n
l Md
ant
×

,
`

.
|

+ ·
Onde:
mediana a contém que classe de intervalo do amplitude a é h
mediana classe da simples freqüência a é f
mediana classe à anterior classe da acumulada freqüência a é F
série na mediana da posição a é
2
mediana classe da inferior limite o é
*
*
ant
*
n
l
Exemplo:
idade f
i
F
i
3 |--- 6 2 2
6 |--- 9 5 7
9 |--- 12 7 14
12 |--- 15 3 17
15 |--- 18 2 19
total 19
2

·
i
i
f
F =19/2=9,5 =10
O 10º elemento está na 3ª classe.
*
*
*
2
h
f
F
n
l Md
ant
×

,
`

.
|

+ ·
=
( )
3
7
7 5 , 9
9 ×

+ · =10,1
2
7
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Exercício: Calcule a mediana para o caso da distribuição de freqüência abaixo:
idade f
i
F
i
450 |--- 550 8
550 |--- 650 10
650 |--- 750 11
750 |--- 850 16
850 |--- 950 13
950 |--- 1.050 5
1.050 |-- 1.150 1
total 64
Observação:
No caso de existir uma freqüência acumulada exatamente igual a
2
∑i
f
, a Mediana será
o limite superior da classe correspondente.
Por exemplo:
Classes f
i
F
i
0 |---10 1 1
10 |---20 3 4
20 |---30 9 13
30 |---40 7 20
40 |---50 4 24
50 |---60 2 26
total 26
30 10
9
) 4 13 (
20
:
30
13
2
26
2
*
·

+ ·
· ·
· ·

x Md
Veja
L Md
Então
f
i
2
8
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Nota:
1) A mediana pode coincidir ou não com um elemento da série. Vimos que, quando
tivermos um número de elementos ímpar na série de dados, há coincidência.
Quanto o número de elementos de uma série é par, na há coincidência.
2) A mediana depende da posição e não dos valores centrais na série ordenada.
3) Usamos a mediana quando desejamos obter o ponto que divide a distribuição em
partes iguais; quando há valores extremos afetando de uma maneira acentuada a
média e quando a variável em estudo é salário.
Exemplo:
5, 7, 10, 13, 15 => Média = 10 e Md = 10
5, 7, 10, 13, 65 => Média = 20 e Md = 10
Observe que a mediana permanece a mesma e a média sofreu influencia dos
valores extremos.
2
9
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
SEPARATRIZES
As separatrizes, como o próprio nome sugere são medidas que separam a série em
partes iguais.
Não são medidas de tendência central, mas estão ligadas à mediana relativamente
a sua segunda característica, já que se baseiam em sua posição na série.
• QUARTIS: São valores de uma série que a dividem em 4 partes
iguais. Assim temos:
o
1
Q = 1º quartil: Separa a seqüência ordenada deixando 25%
dos valores a sua esquerda e 75% dos valores a sua direita.
o
2
Q = 2º quartil: Separa a seqüência ordenada deixando 50%
dos valores a sua esquerda e 50% dos valores a sua direita.
o
3
Q = 3º quartil: Separa a seqüência ordenada deixando 75%
dos valores a sua esquerda e 25% dos valores a sua direita.
!---------!---------!---------!---------!
Q1 Q2 Q3
Pode-se observar que o 2º quartil e a mediana tem os mesmos valores, pois ambos
dividem uma série ordenada em duas partes iguais.
!---------!---------!---------!---------!
Q1 Q2 Q3
!-------------------!-------------------!
Md
• QUINTIS: Quando dividimos uma série em 5 partes iguais, cada parte
ficará com 20% dos elementos da série. Assim temos:
o
1
K = 1º quintil – separa a seqüência ordenada deixando 20%
dos valores a sua esquerda e 80% dos valores a sua direita.
o
2
K = 2º quintil – separa a seqüência ordenada deixando 40%
dos valores a sua esquerda e 60% dos valores a sua direita.
o
3
K = 3º quintil – separa a seqüência ordenada deixando 60%
dos valores a sua esquerda e 40% dos valores a sua direita.
o
4
K = 4º quintil – separa a seqüência ordenada deixando 80%
dos valores a sua esquerda e 20% dos valores a sua direita.
!---------!---------!---------!---------!---------!

1
K
2
K
3
K
4
K
3
0
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
• DECIS: Quando dividimos uma série em 10 partes iguais, cada parte
ficará com 10% dos elementos da série. Assim temos:
o
1
D = 1º decil – separa a seqüência ordenada deixando 10%
dos valores a sua esquerda e 90% dos valores a sua direita.
o
2
D = 2º decil – separa a seqüência ordenada deixando 20%
dos valores a sua esquerda e 80% dos valores a sua direita.
o
3
D = 3º decil – separa a seqüência ordenada deixando 30%
dos valores a sua esquerda e 70% dos valores a sua direita.
o .
o .
o .
o
8
D = 8º decil – separa a seqüência ordenada deixando 80%
dos valores a sua esquerda e 20% dos valores a sua direita.
o
9
D = 9º decil – separa a seqüência ordenada deixando 90%
dos valores a sua esquerda e 10% dos valores a sua direita.
!---!---!---!---!---!---!---!---!---!---!
D1 D2 D3 D4 D5 D6 D7 D8 D9
• PERCENTIS ou CENTIL: São valores de uma série que a dividem
em 100 partes iguais. Cada parte ficará com 1% dos elementos da
série. Assim temos:
o
1
P = 1º percentil: separa a seqüência ordenada deixando 1%
dos valores a sua esquerda e 99% dos valores a sua direita.
o
2
P = 2º percentil: separa a seqüência ordenada deixando 2%
dos valores a sua esquerda e 98% dos valores a sua direita.
o
3
P = 3º percentil: separa a seqüência ordenada deixando 3%
dos valores a sua esquerda e 97% dos valores a sua direita.
o .
o .
o .
o
o
98
P = 98º percentil: separa a seqüência ordenada deixando
98% dos valores a sua esquerda e 2% dos valores a sua direita.
o
99
P = 99º percentil: separa a seqüência ordenada deixando
99% dos valores a sua esquerda e 1% dos valores a sua direita.
!---!---!---!---!---!---!---!---!---!---!
C10 C20 C30 C40 C50 C60 C70 C80 C90
Observação: Podemos separar em quantas partes quisermos.
3
1
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Podemos notar que os quartis, quintis e decis podem ser expressões em termos dos
precentis,
Q
1
=P25 K
1
=P20 D
1
=P
10
Q
2
=P50 K
2
=P40 D
2
=P
20
Q
3
=P75 K
3
=P60 D
3
=P
30
K
4
=P80 D
4
=P
40
D
5
=P
50
D
6
=P
60
D
7
=P
70
D
8
=P
80
D
9
=P
90
Cálculo das medidas separatrizes:
• QUARTIL
É o mesmo cálculo de mediana sendo que
2
∑i
f
deve ser substituído por
4
∑i
f
k
, onde k é o número de ordem do quartil.
*
*
*
.
4
f
h F
f k
l Q
ant
i
k
]
]
]
]


+ ·

Exemplo:
1. Calcule o Q
1
da seqüência X: 2, 5, 8, 5, 5, 10, 1, 12, 12, 11, 13, 15.
2. Calcule o Q
1
e Q
3


ESTATURA (cm) fi Fi
150 a 154 4 4
154 a 158 9 13
158 a 162 11 24
162 a 166 8 32
166 a 170 5 37
170 a 174 3 40
Total 40
Fonte: MEC
Estatura de 40 alunos do colégio A
Exercício: Para os dados agrupados em freqüência, encontre o primeiro e segundo quartil.
3
2
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
• QUINTIS
É o mesmo cálculo de mediana sendo que
2
∑i
f
deve ser substituído por
5
∑i
f
k
, onde k é o número de ordem do quintil.
*
*
*
.
5
f
h F
f k
l K
ant
i
k
]
]
]
]


+ ·

Exemplo:
Considerando a tabela de distribuição de freqüência por intervalo de classe, calcule K
2
.
ESTATURA (cm) fi Fi
150 a 154 4 4
154 a 158 9 13
158 a 162 11 24
162 a 166 8 32
166 a 170 5 37
170 a 174 3 40
Total 40
Fonte: MEC
Estatura de 40 alunos do colégio A
3
3
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
• DECIS
É o mesmo cálculo de mediana sendo que
2
∑i
f
deve ser substituído por
10
∑i
f
k
, onde k é o número de ordem do decil.
*
*
*
.
10
f
h F
f k
l D
ant
i
k
]
]
]
]


+ ·

Exemplo: Considerando a tabela de distribuição de freqüência por intervalo de classe,
calcule D
3
.
ESTATURA (cm) fi Fi
150 a 154 4 4
154 a 158 9 13
158 a 162 11 24
162 a 166 8 32
166 a 170 5 37
170 a 174 3 40
Total 40
Fonte: MEC
Estatura de 40 alunos do colégio A
• PERCENTIS
É o mesmo cálculo de mediana sendo que
2
∑i
f
deve ser substituído por
100
∑i
f
k
, onde k é o número de ordem do percentil.
*
*
*
.
100
f
h F
f k
l P
ant
i
k
]
]
]
]


+ ·

Exemplo: Considerando a tabela de distribuição de freqüência por intervalo de
classe, calcule P
8
.
ESTATURA (cm) fi Fi
150 a 154 4 4
154 a 158 9 13
158 a 162 11 24
162 a 166 8 32
166 a 170 5 37
170 a 174 3 40
Total 40
Fonte: MEC
Estatura de 40 alunos do colégio A
3
4
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
CAPITULO 5
MEDIDAS DE DISPERSÃO OU VARIABILIDADE.
As medidas de dispersão ou variabilidade servem para avaliar o quanto os dados
são semelhantes, descreve então o quanto os dados distam do valor central. Desse jeito,
as medidas de dispersão servem também para avaliar qual o grau de representação da
média.
É fácil demonstrar que apenas a média é insuficiente para descrever um grupo de
dados. Dois grupos podem ter a mesma média, mas serem muito diferentes na amplitude
de variação de seus dados. Por exemplo:
-Grupo A (dados observados): 5; 5; 5.
-Grupo B (dados observado): 4; 5; 6.
-Grupo C (dados observados): 0; 5; 10.
A média dos três grupos é a mesma (5), mas no grupo “A” não há variação entre
os dados, enquanto no grupo “B” a variação é menor que no grupo “C”. Dessa forma,
uma maneira mais completa de apresentar os dados (além de aplicar uma medida de
tendência central como a média) é aplicar uma medida de dispersão.
Dessas medidas, estudaremos as seguintes:
• Medidas de variação absoluta que são: a amplitude total, a variância e o
desvio padrão.
• Medidas de variação relativas que são: coeficiente de variação e a
variância relativa.
(1) MEDIDAS DE VARIAÇÃO ABSOLUTA
• Amplitude Total
É a diferença entre o maior e o menor valor observado. Tem o inconveniente de só
levar em conta os dois valores extremos da série, não levando em consideração os valores
intermediários. Ela é apenas uma indicação aproximada da dispersão ou variabilidade.
AT = L (Max) – l (min)
3
5
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
• Variância e Desvio Padrão
A variância e o desvio padrão são medidas que levam em consideração a
totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade
bastante estáveis e, por isso mesmo, os mais geralmente empregados.
A variância é a média aritmética do quadrado dos desvios (em relação à média).

) (
ou
) (
1
1
2
2
) (
1
2
2
) (

∑ ∑
·
· ·

·

·
n
i
i
i
n
i
i
x
n
i
i
x
f
f x x
n
x x
σ σ
Etapas do cálculo da Variância:
1. - Calcular a média aritmética X
2. - Subtrair a média X de cada valor Xi do conjunto
( ) X Xi −
, o que chamamos de
desvio;
3. - Elevar cada desvio ao quadrado ( )
2
X Xi −
4. - Somar os quadrados dos desvios ( )
2
n
1 i
X Xi

·

5. - Dividir a soma por (n-1) quando se tratar de dados amostrais, ou simplesmente por
n se os dados representam todos os valores de uma população.
Sendo a variância calculada a partir dos quadrados dos desvios, ela é um número
em unidade quadrada em relação à variável em questão, o que, sob o ponto de vista
prático, é um inconveniente.
Por isso mesmo, imaginou-se uma nova medida que tem a interpretação prática,
denominada desvio padrão, definida como a raiz quadrada da variância.

) (
ou
) (
1
1
2
) (
1
2
) (

∑ ∑
·
· ·

·

·
n
i
i
i
n
i
i
x
n
i
i
x
f
f x x
n
x x
σ σ
3
6
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Obs.: (1) O desvio padrão sempre será positivo!
(2) O desvio padrão de uma série indica o quanto os dados estão afastados
da média e, que se os dados são iguais, o valor da medida é zero.
Exemplo 7:
Em uma turma de aluno, verificaram-se através da análise das notas de 15 alunos (amostra), os
seguintes desempenhos:
Alunos Conceito na Prova
1 4,3 9,1204
2 4,5 7,9524
3 9 2,8224
4 6 1,7424
5 8 0,4624
6 6,7 0,3844
7 7,5 0,0324
8 10 7,1824
9 7,5 0,0324
10 6,3 1,0404
11 8 0,4624
12 5,5 3,3124
13 9,7 5,6644
14 9,3 3,9204
15 7,5
0,0324
Total 109,8 44,16
Média 7,32 3,155 Variância
Desvio Padrão 1,77
Observamos no exemplo, que a média das provas, foi estimada em 7,32 com desvio
padrão em 1,77. Concluímos que a maioria das notas concentrou-se em 9,09 e 5,55.
Exercício: Calcular a média aritmética e o desvio padrão dos seguintes dados relativos à
dosagem de hemoglobina verificada em 12 animais bovinos (mg).
15 14 13 11 13 14 13,5 12 16 14,5 12 9
Resp.: Média = 13,083mg Variância = 3,583mg
2
Desvio padrão = 1,892mg
3
7
( )
2
X Xi −
( )
2
n
1 i
X Xi

·

Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
( 2) MEDIDAS DE VARIAÇÃO RELATIVA
• A variância relativa
A variância relativa de uma série X é definida por:

2
2
) (
) (
x
x
x V
σ
·
• O coeficiente de variação
O coeficiente de variação de uma série X é definido por:
x
x
x CV
) (
) (
σ
·

É a razão entre o desvio padrão e a média aritmética da série dos dados.
Note que o coeficiente de variação, como é uma divisão de elementos de mesma
unidade, é um número puro. Portanto pode ser expresso em percentual .
Exemplo:
Se uma série X apresentar: 10 · x e
2 ) ( · x σ
E uma série Y apresentar:
100 · y
e
5 ) ( · y σ
Do ponto de vista da dispersão absoluta, a série Y apresenta maior dispersão que a
série X.
No entanto, se levarmos em consideração as médias das séries, o desvio padrão de
Y que é 5 em relação a 100 é um valor menos significativo que o desvio padrão de X que
é 2 em relação a 10. Isso nos leva a definir as medidas de dispersão relativas.
Desse modo, se calcularmos os coeficientes de variação das séries X e Y
obteremos: cv(x) = 2/10 = 0,2 ou 20% cv(y) = 5/100 = 0,05 ou 5%
Comparando os valores destes dois coeficientes concluímos que a série X admite
maior dispersão relativa.
3
8
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Como a medida de dispersão relativa leva em consideração a medida de dispersão
absoluta e a média da série, é uma medida mais completa que a medida de dispersão
absoluta.
Portanto, a medida de dispersão relativa prevalece sobre a medida de dispersão
absoluta. Podemos afirmar que a série que tem a maior dispersão relativa, tem de modo
geral a maior dispersão.
Ou seja,
A série Y apresenta maior dispersão absoluta.
A série X apresenta maior dispersão relativa.
Portanto, a série X apresenta maior dispersão.
Exercício: Responda, justificando em cada caso, as questões abaixo:
(a) Qual das séries apresenta maior dispersão absoluta?
(b) Qual das séries apresenta maior dispersão relativa?
(c) Qual das séries apresenta maior dispersão?
Caso 1)
20 · x
2 ) ( · x σ
20 · y
5 ) ( · y σ
Caso 2)
50 · x
2 ) ( · x σ
100 · y
3 ) ( · y σ
3
9
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
CAPITÚLO 6
EXPERIMENTO ALEATÓRIO, ESPAÇO AMOSTRAL, EVENTOS E
PROBABILIDADE.
DEFINIÇÕES:
EXPERIMENTO ALEATÓRIO: São aqueles que, mesmo repetidos várias
vezes sob condições semelhantes, apresentam resultados imprevisíveis.
Ex.: Em uma jogada de futebol, é provável que seu time: perca; que ele ganha;
que ele empate.
ESPAÇO AMOSTRAL (S): Cada experimento aleatório corresponde, em geral, a
vários resultados possíveis. O conjunto desses resultados possíveis recebe o nome de
espaço amostral ou conjunto universo, representado por S.
Exemplo: Lançamento de uma moeda: S = {Ca, Co}
Lançamento de um dado: S={1, 2, 3, 4, 5, 6}
Cada um dos elementos de “S” que correspondem a um resultado recebe o
nome de PONTO AMOSTRAL, por exemplo, 2 ∈ a S => 2 é um ponto amostral de S
(no caso do lançamento do dado).
EVENTOS (A): Chamamos de evento qualquer subconjunto do espaço amostral S
de um experimento aleatório.
Exemplo: Lançamento de um dado:
Espaço amostral: S={1, 2, 3, 4, 5, 6}
Eventos:
a) Obter um número par na face superior:
A={2, 4, 6} => S A ⊂ , logo, A é um evento de S.
b) Obter um número menor ou igual a 6 na face superior:
B={1, 2, 3, 4, 5, 6}
4
0
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Observação:
Seja E um evento qualquer:
Se E = S => E é chamado de EVENTO CERTO
Se S E ⊂ e E é um conjunto unitário => E é chamado de EVENTO ELEMENTAR.
Se E=∅, E é chamado de EVENTO IMPOSSÍVEL.
Exemplos:
No lançamento de um dado, onde S = {1,2,3,4,5,6}, temos:
A: Obter um número para na face superior.
A={2,4,6} = > A é um evento de S.
B: Obter um número menor ou igual a 6.
B={1,2,3,4,5,6} = > logo, B é um evento certo de S = > B=S.
C: Obter o número 4 na face superior.
C={4} = > C é um evento elementar de S.
D: Obter um número maior que 6 na face superior.
D=∅= > é um evento impossível de S
4
1
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
PROBABILIDADE
Seja S o seu espaço amostral. Se todos os elementos de S tem a mesma chance de
acontecer, então, chamamos de PROBABILIDADE DE UM EVENTO A, S A ⊂ , o
número real P(A), tal que:
) (
) (
) (
S n
A n
A P ·
, Onde n(A) é o número de elementos de A e n(S) é o número de
elementos de S.
Exemplos:
a) Considere o lançamento de uma moeda e o evento A “obter cara”.
S= {Ca, Co} n(S) = 2 A = {Ca} n(A) = 1
P(A) =
2
1
, ou seja, 50% de chance de aparecer cara na face superior.
b) Considere o lançamento de um dado:
Evento A: “obter um número par na face superior”.
S = {1, 2, 3, 4, 5, 6} n(S) = 6
A = {2, 4, 6} n(A) = 3
P(A) =
2
1
6
3
·
Evento B: “obter um número menor ou igual a 6 na face superior”.
S = {1, 2, 3, 4, 5, 6} n(S) = 6
4
2
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
B = {1, 2, 3, 4, 5, 6} n(B) = 6
P(B) = 1 (podemos chamar esse evento de EVENTO CERTO, pois coincide
com o espaço amostral S).
EVENTOS COMPLEMENTARES
- Se p é a probabilidade de um evento ocorrer (sucesso) e q a probabilidade de que
ele não ocorra (insucesso), então para um mesmo evento existe a relação
p + q = 1 = > q = 1 – p
Ex.: A probabilidade de sair 4 no lançamento de um dado é p=1/6, então, a probabilidade
de não tirar 4 no lançamento de um dado é
q = 5/6.
EVENTOS MUTUAMENTE EXCLUSIVOS
- Dois ou mais eventos são mutuamente exclusivos quando a realização de um
exclui a realização dos outros, ou seja, se os mesmos elementos não podem ocorrer
simultaneamente.
- Se os eventos são mutuamente exclusivos, a probabilidade de que um ou outro
se realize é igual a soma das probabilidades.
P(A∪B) = P(A) + P(B)
- Se os eventos não forem mutuamente exclusivos, temos:
P(A∪B) = P(A) + P(B) - P(A∩B)
EVENTOS INDEPENDENTES
- Dois eventos são independentes quando a ocorrência ou a não ocorrência de um
evento não tem efeito algum na probabilidade de ocorrência do outro evento. Quando
lançamos dois dados, o resultado obtido em um deles independe do resultado obtido no
outro.
- A probabilidade de dois eventos ocorrerem simultaneamente é igual ao produto
das probabilidades.
4
3
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
P(A e B) = P(A∩B) = P(A)P(B)
Exemplo:
Uma moeda é lançada duas vezes, a probabilidade de que ambos os resultados
sejam “cara” é:
Evento A = sair cara nos 2 lançamentos
P(A) = P(A1 ∩ A2) = (1/2)x(1/2)
- Quando dois eventos são dependentes, o conceito de probabilidade condicional é
empregado para indicar a probabilidade de ocorrência de um evento relacionado. A
expressão P(B/A) indica a probabilidade de ocorrer o evento B, dado que tenha ocorrido
o evento A. Note que “B/A” não é uma fração.
P(B/A) =
) (
) (
A P
BeA P
=
) (
) (
A P
A B P ∩

P(A e B) = P(A∩B)=P(A)P(B/A)
Exemplo:
Suponha um conjunto de 10 peças contendo 8 em boas condições e duas
defeituosas. O experimento consiste em se retirar duas peças aleatoriamente e sem
reposição. A probabilidade de que as duas peças selecionadas sejam boas é:
Evento B = as duas peças sejam boas
P(B) = P(B1∩B2)= P(B1)P(B2/B1)= (8/10)(7/9)=56/90=28/45
4
4
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Exercícios:
1) Qual a probabilidade de sair ás de ouros quanto retiramos uma carta de um
baralho de 52 cartas?
2) Qual a probabilidade de sair um rei quanto retiramos uma carta de um baralho de
52 cartas?
3) Um lote de 12 peças, 4 são defeituosas. Sendo retirada uma peça, calcule?
a- A probabilidade de essa peça ser defeituosa:
b- A probabilidade de essa peça não ser defeituosa:
4) No lançamento de dois dados, calcule a probabilidade de se obter soma igual a 5.
5) De dois baralhos de 52 cartas retiram-se, simultaneamente, uma carta do primeiro
baralho e uma carta do segundo baralho. Qual a probabilidade de a carta do
primeiro baralho ser um rei e a do segundo baralho ser o 5 de paus?
6) Uma urna A contém: 3 bolas brancas, 4 pretas, 2 verdes; Uma urna B contém: 5
bolas brancas, 2 pretas, 1 verde; Uma urna C contém: 2 bolas brancas, 3 pretas e 4
verdes. Uma bola é retirada de cada urna. Qual a probabilidade de as 3 bolas
retiradas da primeira, segunda e terceira urnas serem, respectivamente, branca,
preta e verde?
7) De um baralho de 52 cartas retiram-se, ao acaso, duas cartas sem reposição. Qual
a probabilidade de a primeira carta ser o ás de paus e a segunda ser o rei de paus?
8) Qual a probabilidade de sair uma figura quando retiramos uma carta de um
baralho de 52 cartas?
9) Qual a probabilidade de sair uma carta de copas ou de ouros quando retiramos
uma carta de um baralho de 52 cartas?
10) No lançamento de um dado, qual a probabilidade de se obter um número não
inferior a 5?
4
5
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Observações:
1) O menor valor que uma probabilidade pode ter é 0 (indica que o evento é impossível) e
o maior valor é 1(indica que o evento certamente irá ocorrer). Então em geral:
0 <= P(A) <= 1
2) P(S) = 1
3) Quando desejamos determinar a probabilidade de ocorrer um evento ou um outro (ou
ambos) em uma só observação podemos representar, segundo a linguagem da teoria dos
conjuntos, como união de A e B => P (A∪B).
P(A∪B) = P(A) + P(B) - P(A∩B)
5) Se os eventos forem mutuamente exclusivos a P(A∩B)=0 (os eventos não podem
ocorrer ao mesmo tempo), então,
P (AUB) = P(A) + P(B)
6) Probabilidade condicional indica a probabilidade de ocorrer o evento B, dado que
tenha ocorrido o evento A. Note que “B/A” não é uma fração.

P(B/A) =
) (
) (
A P
A B P ∩
7) Regra da multiplicação:
Se os eventos são independentes:
P(A e B) = P(A∩B) = P(A)P(B)
Se os eventos são dependentes:
P(A e B) = P(A∩B) = P(A)P(B/A) ou P(B e A) = P(B∩A )= P(B)P(A/B)
4
6
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
CAPÍTULO 07
Revisão: VARIÁVEIS ALEATÓRIAS DISCRETAS E CONTÍNUAS
Uma variável aleatória tem um número para cada resultado de um experimento:
Exemplo:
X= número de mulheres entre 10 empregados recém-admitidos.
X = número de alunos que não compareceram à aula de estatística hoje.
X= altura de um adulto do sexo masculino selecionado aleatoriamente.
O termo VARIÁVEL ALEATÓRIA é empregado para descrever o valor que corresponde
ao resultado de determinado experimento.
Definições:
Uma VARIÁVEL ALEATÓRIA DISCRETA: ou admite um número finito de valores ou
tem uma quantidade enumerável de valores.
Uma VARIÁVEL ALEATÓRIA CONTÍNUA: pode tomar um número infinito de
valores em uma escala contínua.
Por exemplo:
a) Número de expectadores que vêem um filme é um número inteiro (variável
aleatória discreta).
b) A voltagem de uma pilha de um detector de fumaça pode ser qualquer valor entre
0 volts e 9 volts (variável aleatória contínua).
___________________________________//___________________________________
Além de identificar valores de uma variável aleatória, podemos atribuir uma
probabilidade a cada um desses valores.
Quando conhecemos todos os valores de uma variável aleatória juntamente com suas
respectivas probabilidade, temos uma distribuição de probabilidade.
Definição: Uma DISTRIBUIÇÃO DE PROBABILIDADE dá a probabilidade de cada
valor de uma variável aleatória.
4
7
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Exemplo: Distribuição de probabilidade no número de acidentes aéreos com a GOL,
dentre sete acidentes.
X p(x)
0 0,210
1 0,367
2 0,275
3 0,115
4 0,029
5 0,004
6 0+
7 0+
A representação gráfica de uma DISTRIBUIÇÃO DE PROBABILIDADES é feito
através do HISTOGRAMA DE PROBABILIDADES, semelhantes ao HISTOGRAMA
DE FREQÜÊNCIA, sendo que a escala vertical apresenta probabilidades, em lugar das
correspondentes freqüências.
Condições para uma DISTRIBUIÇÃO DE PROBABILIDADE:
1) A soma de todas as probabilidades individuais é 1:
( ) 1 ·

x p
2) Para qualquer evento A implica que p(x) deve estar entre 0 e 1 para qualquer valor de
x:
1 ) ( 0 ≤ ≤ x P
Exemplos:
1) P(x)= x/5 (onde x toma os valores 0, 1, 2, 3) define a distribuição de
probabilidades?
Solução: para que fique definida uma distribuição de probabilidades, devem ser
satisfeitas as duas condições, ou seja,
1 0 ≤ ≤ ) ( A P
e
( ) 1 · S P
.
1
5
6
5
3
5
2
5
1
5
0
) 3 ( ) 2 ( ) 1 ( ) 0 ( ) ( ≠ · + + + · + + + ·

p p p p x p
Como a primeira condição não é satisfeita => neste exemplo não é uma distribuição de
probabilidade.
2) P(x) = x/3 (onde x pode ser 0, 1 ou 2) define uma distribuição de probabilidades?
Solução:
4
8
• A probabilidade de 0 acidentes com
a GOL (dentre sete acidentes) é
0,210;
• Os valores denotados 0+
representam probabilidades muito
pequenas;
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
1ª (condição)=>
1
3
2
3
1
3
0
) 2 ( ) 1 ( ) 0 ( ) ( · + + · + + ·

p p p x p

2ª (condição) => cada valor de p(x) está entre 0 e 1 inclusive.
Então, como as duas condições são satisfeitas, a função p(x) deste exemplo é uma
distribuição de probabilidade.
MÉDIA E VARIÂNCIA DE UMA DISTRIBUIÇÃO DE PROBABILIDADE
- Valor esperado de uma variável aleatória (E): É a média dos valores possíveis de X,
cada um com a sua probabilidade de ocorrência.
( ) ( )

·
· ·
n
i
i i
x p x X E
1
µ
- Variância de uma variável aleatória: É uma medida de dispersão da variável aleatória
em torno da média
( ) ( ) [ ] ( )

·
− · ·
n
i
i i
x p X E x X VAR
1
2 2
σ
4
9
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Exercícios:
1) Determine se é dada uma distribuição de probabilidade. Nos casos em que não é
descrita uma distribuição de probabilidade, identifique a condição que não é satisfeita. E
quando for descrita uma distribuição de probabilidade, determine sua média, variância e
desvio padrão.
a) Se sua faculdade contrata os 4 próximos funcionários sem distinção de sexo e o
conjunto de candidatos é grande, com números iguais de homens e mulheres, a
tabela a seguir dá a distribuição de probabilidade do número x de mulheres
contratadas.
X p(x)
0 0,0625
1 0,2500
2 0,3750
3 0,2500
4 0,0625
b) Ao avaliar riscos de crédito, Jefferson investiga o número de cartões de crédito
que a pessoa tem. Com x sendo o número de cartões de crédito que os adultos
possuem a tabela a seguir dá a distribuição de probabilidade para um conjunto de
solicitantes.
X p(x)
0 0,26
1 0,16
2 0,12
3 0,09
4 0,07
5 0,09
6 0,07
7 0,14

2) Seja X uma variável aleatória discreta assumido valores no conjunto {1, 2, 3} e com
distribuição de probabilidade dada por:
x 1 2 3
P(X=x) 1/3 1/6 1/2
a. Calcule a média de X.
b. Calcule a (
( ) 2 ≥ x P
c. Calcule a (
( ) 2 > x P
5
0
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
3) O tempo T, em minutos, necessário para um operário processar certa peça é uma
variável aleatória com a seguinte distribuição de probabilidade:
T 2 3 4 5 6 7
P(T=t) 0,1 0,1 0,3 0,2 0,2 0,1
Calcule o tempo médio de processamento.
(1) VARIÁVEL ALEATÓRIA DISCRETA: DISTRIBUIÇÃO BINOMIAL
Vimos que uma variável aleatória associa um valor numérico a cada resultado de
um experimento aleatório e uma distribuição de probabilidade associa uma probabilidade
a cada valor de uma variável aleatória.
Veremos agora como determinar as probabilidades para uma categoria importante
de distribuição de probabilidades: OS EXPERIMENTOS BINOMIAIS.
Os experimentos binomiais têm a característica de apresentarem exatamente dois
resultados complementares: SUCESSO E FRACASSO.
Exemplo:
• Em processos industriais: as peças falham ou não falham.
• Na medicina: um paciente sobrevive um ano ou morre.
• Em propaganda, um consumidor reconhece um produto ou não.
Definição:
Um experimento binomial é um experimento que satisfaz as seguintes condições:
1. O experimento deve comportar um número fixo de provas.
2. As provas devem ser independentes (o resultado de qualquer prova não afeta
as probabilidades das outras provas.)
3. Cada prova deve ter todos os resultados classificados em duas categorias.
4. As probabilidades devem permanecer constantes para cada prova.
Quando fazemos um experimento binomial, a distribuição da variável aleatória x é
chamada uma DISTRIBUIÇÃO BINOMIAL.
5
1
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
NOTAÇÃO:
S => sucesso
F => fracasso
p => probabilidade de sucesso => P(S)=p
q => probabilidade de fracasso => P(F)=q = 1-p
n = número fixo de provas
x => denota um número específico de sucessos em n provas, podendo ser
qualquer inteiro entre 0 e n, inclusive.
P(x) => denota a probabilidade de obter exatamente x sucessos em n provas.
Exemplo: Dado que 10% das pessoas são canhotas, suponha que queiramos achar a
probabilidade de obter exatamente 3 estudantes canhotos em uma turma de 15 estudantes.
b)Trata-se de um experimento binomial
b)Em caso afirmativo, identifique os valores de n, x, p e q.
A probabilidade pode ser calculada utilizando-se a seguinte fórmula:
( )
x n x n
x
p p x X P

− · · ) 1 .( ). (
( )
x n x x n x
x n
x n x n
x
q p
x x n
n
p p C p p x X P
p n Bin X
− − −

· − · − · · . .
! )! (
!
) 1 .( . ) 1 .( ). (
) , ( ~
,
Para x = 0, 1, 2, .....,n
Com
n = número de provas.
x = número de sucessos em n provas.
p = probabilidade de sucesso em qualquer prova.
q = probabilidade de fracasso em qualquer prova.
Obs.: lembrando que 0! = 1 (por definição)
Exercícios:
5
2
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
1) Aplicando a fórmula da probabilidade binomial, determine a probabilidade de
obter 3 estudantes canhotos em uma turma de 15 estudantes, dado que 10% da
população são canhotos. Isto é determine P(3), se n=15, x=3, p=0,1 e 1=0,9.
2) Determine se os experimentos são binomiais.
a) 50 jogadas de um dado.
b) 200 jogadas de uma moeda equilibrada.
c) Selecionar aleatoriamente (sem reposição) um grupo de 12 pneus
diferentes de uma população de 30 pneus, dos quais 5 são defeituosos.
d) Pesquisar 2000 espectadores de televisão para saber se recordam o nome
de determinado produto após verem um comercial.
e) Pesquisa de 1000 consumidores americanos, perguntando se reconhece a
marca NIKE.
3) Suponha que em um experimento binomial, uma prova se repita n vezes.
Determine a probabilidade de x sucessos, dada a probabilidade p de sucesso em
uma prova:
a) n = 3, x= 2, p=0,9
b) n=8, x=7, p=0,99
c) n=10, x=4, p=0,30
d) n=6, x=1, p=0,05
4) Uma firma afirma que 20% de suas pastilhas de chocolate M&M são vermelhas.
Determine a probabilidade de que, em 15 pastilhas M&M escolhidas
aleatoriamente, exatamente 20%, ou seja, 3 pastilhas sejam vermelhas.
5) Acredita-se que 20% dos moradores das proximidades de uma grande indústria
siderúrgica têm alergia aos poluentes lançados ao ar. Admitindo que este
percentual de alérgicos é real (correto), calcule a probabilidade de que pelo menos
4 moradores tenham alergia entre 13 selecionados ao acaso.
6) Três em cada quatro alunos de uma universidade fizeram cursinho antes de prestar
vestibular. Se 16 alunos são selecionados ao acaso, qual é a probabilidade de que:
a) Pelo menos 12 tenham feito cursinho?
b) No máximo 13 tenham feito cursinho?
c) Exatamente 12 tenham feito cursinho?
5
3
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
7) Em um lote de 50 mudas, qual é a probabilidade de que pelo menos
45 sejam aproveitáveis?
8) Considerando um lote contendo 25 peças das quais 5 são defeituosas. Quatro
peças foram escolhidas ao acaso e seja X o número de peças defeituosas
encontradas nessa amostra.
Determine a distribuição de X se a amostra foi obtida com reposição.
5
4
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
(2) VARIÁVEL ALEATÓRIA CONTÍNUA - DISTRIBUIÇÃO NORMAL ou de
GAUSS
Definição: Se X é uma variável aleatória contínua, então X assume todos os valores em
um intervalo de números reais (ℜ).
- A distribuição de probabilidade de X é descrita por uma curva de densidade, ou função
de densidade.
- A probabilidade de qualquer evento é a área sob a curva de densidade entre os valores
de X que compõe o evento.
- A área total sob qualquer curva de densidade é 1, de modo que a probabilidade de um
evento varia entre 0 e 1.
• Definição Distribuição Normal:
A variável aleatória X, tem distribuição Normal, com parâmetros µ e σ 2 se essa
distribuição é simétrica e apresenta a forma de sino (curva normal ou de Gauss).
Sua função de probabilidade é dada por:
( )
2
2
1
2
.
2
1
) , ( ~

,
`

.
| −

·
σ
µ
π σ
σ µ
x
e x f
N X
 Π (Pi): constante matemática (≈ 3,14159)
 exp: função exponencial exp(y) = ey
 e: constante matemática (≈ 2,71828).
• Propriedades:
 E(X) = µ
 VAR(X) = σ 2
 P(X=x) = f(X) = 0 (pois não existe a probabilidade no ponto e sim na área)
5
5
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
 f(X) é simétrica ao redor da média, ou seja, a probabilidade de ocorrer valor
menor do que a média é igual a probabilidade de ocorrer valor menor do que a
média.
 A curva normal depende de duas constantes, µ e σ
2
:
- µ corresponde ao centro da simetria da curva
- σ 2 graficamente, fornece a distância do centro da simetria aos pontos onde
a curva muda de sentido.
• Representação gráfica
Para quaisquer dois valores específicos podemos determinar a proporção de área
sob a curva entre esses dois valores. Para a distribuição Normal, a proporção de valores
caindo dentro de um, dois, ou três desvios padrão da média é:
5
6
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Exemplo: Suponha que os comprimentos de um particular tipo de peixe podem
ser descritos por uma distribuição normal, com média 140mm e desvio padrão 15mm.
Podemos calcular a proporção dos peixes que têm comprimentos entre 110 e 170mm, por
exemplo, como a proporção da área sob a curva entre 110 e 170mm.
Então em nosso exemplo, cerca de 95% dos peixes tem comprimentos entre
110mm e 170mm.
Obs.: Quando temos uma variável aleatória com distribuição Normal, nosso principal
interesse é obter a probabilidade de essa variável aleatória assumir um valor em um
determinado intervalo.
• Distribuição Normal Padrão:
Na prática desejamos calcular probabilidades para diferentes valores de µ e .
Para isso, a variável cuja distribuição é ) , ( ~
2
σ µ N X é transformada numa
forma padronizada com distribuição
) 1 , 0 ( ~ N X
(distribuição normal padrão),
pois tal distribuição é tabelada. A quantidade é dada por
σ
µ −
·
X
Z
Exemplo:
1) Se já X a variável aleatória que representa os diâmetros dos parafusos produzidos por
certa máquina. Suponha que essa variável tenha Distribuição Normal com média 2cm e
desvio padrão 0,04cm.
a) A probabilidade de um parafuso ter um diâmetro com valor entre 2 e 2,05 é:
3944 , 0 ) 25 , 1 0 ( )
04 , 0
2 05 , 2
04 , 0
2 2
( ) 05 , 2 2 ( · < < ·

<

<

· < < Z P
X
P X P
σ
µ
4) P(-1,25<Z<0)
5) P(-1,25<Z<0)
5
7
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
6) P(0,8<Z<1,23)
7) P(Z>0,6)
5
8
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,000000 0,003989 0,007978 0,011966 0,015953 0,019939 0,023922 0,027903 0,031881 0,035856
0,1 0,039828 0,043795 0,047758 0,051717 0,055670 0,059618 0,063559 0,067495 0,071424 0,075345
0,2 0,079260 0,083166 0,087064 0,090954 0,094835 0,098706 0,102568 0,106420 0,110261 0,114092
0,3 0,117911 0,121720 0,125516 0,129300 0,133072 0,136831 0,140576 0,144309 0,148027 0,151732
0,4 0,155422 0,159097 0,162757 0,166402 0,170031 0,173645 0,177242 0,180822 0,184386 0,187933
0,5 0,191462 0,194974 0,198468 0,201944 0,205401 0,208840 0,212260 0,215661 0,219043 0,222405
0,6 0,225747 0,229069 0,232371 0,235653 0,238914 0,242154 0,245373 0,248571 0,251748 0,254903
0,7 0,258036 0,261148 0,264238 0,267305 0,270350 0,273373 0,276373 0,279350 0,282305 0,285236
0,8 0,288145 0,291030 0,293892 0,296731 0,299546 0,302337 0,305105 0,307850 0,310570 0,313267
0,9 0,315940 0,318589 0,321214 0,323814 0,326391 0,328944 0,331472 0,333977 0,336457 0,338913
1,0 0,341345 0,343752 0,346136 0,348495 0,350830 0,353141 0,355428 0,357690 0,359929 0,362143
1,1 0,364334 0,366500 0,368643 0,370762 0,372857 0,374928 0,376976 0,379000 0,381000 0,382977
1,2 0,384930 0,386861 0,388768 0,390651 0,392512 0,394350 0,396165 0,397958 0,399727 0,401475
1,3 0,403200 0,404902 0,406582 0,408241 0,409877 0,411492 0,413085 0,414657 0,416207 0,417736
1,4 0,419243 0,420730 0,422196 0,423641 0,425066 0,426471 0,427855 0,429219 0,430563 0,431888
1,5 0,433193 0,434478 0,435745 0,436992 0,438220 0,439429 0,440620 0,441792 0,442947 0,444083
1,6 0,445201 0,446301 0,447384 0,448449 0,449497 0,450529 0,451543 0,452540 0,453521 0,454486
1,7 0,455435 0,456367 0,457284 0,458185 0,459070 0,459941 0,460796 0,461636 0,462462 0,463273
1,8 0,464070 0,464852 0,465620 0,466375 0,467116 0,467843 0,468557 0,469258 0,469946 0,470621
1,9 0,471283 0,471933 0,472571 0,473197 0,473810 0,474412 0,475002 0,475581 0,476148 0,476705
2,0 0,477250 0,477784 0,478308 0,478822 0,479325 0,479818 0,480301 0,480774 0,481237 0,481691
2,1 0,482136 0,482571 0,482997 0,483414 0,483823 0,484222 0,484614 0,484997 0,485371 0,485738
2,2 0,486097 0,486447 0,486791 0,487126 0,487455 0,487776 0,488089 0,488396 0,488696 0,488989
2,3 0,489276 0,489556 0,489830 0,490097 0,490358 0,490613 0,490863 0,491106 0,491344 0,491576
2,4 0,491802 0,492024 0,492240 0,492451 0,492656 0,492857 0,493053 0,493244 0,493431 0,493613
2,5 0,493790 0,493963 0,494132 0,494297 0,494457 0,494614 0,494766 0,494915 0,495060 0,495201
2,6 0,495339 0,495473 0,495604 0,495731 0,495855 0,495975 0,496093 0,496207 0,496319 0,496427
2,7 0,496533 0,496636 0,496736 0,496833 0,496928 0,497020 0,497110 0,497197 0,497282 0,497365
2,8 0,497445 0,497523 0,497599 0,497673 0,497744 0,497814 0,497882 0,497948 0,498012 0,498074
2,9 0,498134 0,498193 0,498250 0,498305 0,498359 0,498411 0,498462 0,498511 0,498559 0,498605
3,0 0,498650 0,498694 0,498736 0,498777 0,498817 0,498856 0,498893 0,498930 0,498965 0,498999
3,1 0,499032 0,499065 0,499096 0,499126 0,499155 0,499184 0,499211 0,499238 0,499264 0,499289
3,2 0,499313 0,499336 0,499359 0,499381 0,499402 0,499423 0,499443 0,499462 0,499481 0,499499
3,3 0,499517 0,499534 0,499550 0,499566 0,499581 0,499596 0,499610 0,499624 0,499638 0,499651
3,4 0,499663 0,499675 0,499687 0,499698 0,499709 0,499720 0,499730 0,499740 0,499749 0,499758
3,5 0,499767 0,499776 0,499784 0,499792 0,499800 0,499807 0,499815 0,499822 0,499828 0,499835
3,6 0,499841 0,499847 0,499853 0,499858 0,499864 0,499869 0,499874 0,499879 0,499883 0,499888
3,7 0,499892 0,499896 0,499900 0,499904 0,499908 0,499912 0,499915 0,499918 0,499922 0,499925
3,8 0,499928 0,499931 0,499933 0,499936 0,499938 0,499941 0,499943 0,499946 0,499948 0,499950
3,9 0,499952 0,499954 0,499956 0,499958 0,499959 0,499961 0,499963 0,499964 0,499966 0,499967
4,0 0,499968 0,499970 0,499971 0,499972 0,499973 0,499974 0,499975 0,499976 0,499977 0,499978
5
9
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
CAPITULO 8
INTRODUÇÃO
A REGRESSÃO e a CORRELAÇÃO são técnicas utilizadas para estimar uma
relação que possa existir na população, enquanto as técnicas anteriormente estudadas
(Medidas de Tendência Central e de Dispersão: Média, Desvio Padrão, Variância, etc.)
servem para estimar um único parâmetro populacional.
A análise de correlação e regressão compreende a análise de dados amostrais para
saber se e como duas ou mais variáveis estão relacionadas uma com a outra numa
população.
A correlação mede a força, ou grau, de relacionamento entre duas variáveis; a
regressão dá a equação que descreve o relacionamento em termos matemáticos.
Os dados para análise de regressão e correlação provêm de observações de
variáveis emparelhadas. Na regressão pressupõe-se alguma relação de causa e efeito, de
explanação do comportamento entre as variáveis.
Ex. a idade e a altura de cada indivíduo; a alíquota de imposto e a arrecadação; preço e
quantidade.
Se o relacionamento entre X e Y for consistente e necessitamos fazer uma
predição para o valor de Y, conhecido um valor de X, através de uma formula
matemática adequada, podemos aplicar a chamada análise de regressão simples.
6
0
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
(1) CORRELAÇÃO
Definição: Quando duas variáveis estão ligadas por uma relação estatística, dizemos que
existe correlação entre elas.
Por exemplo:
- A circunferência C e o raio r estão perfeitamente correlacionados, porque
π 2 · C
r.
- As variáveis altura e peso de indivíduos revelariam alguma correlação.
Diagrama de dispersão: O diagrama de dispersão é um gráfico onde pontos no espaço
cartesiano XY são usados para representar simultaneamente os valores de duas variáveis
quantitativas medidas em um conjunto de dados.
Por exemplo:
Um dos objetivos dos pesquisadores neste estudo é encontrar uma maneira de
conhecer o peso do urso através de uma medida mais fácil de se obter do que a direta
(carregar uma balança para o meio da selva e colocar os ursos em cima dela) como, por
exemplo, uma medida de comprimento (altura, perímetro do tórax, etc.).
O problema estatístico aqui é encontrar uma variável que tenha uma relação forte com
o peso, de modo que, a partir de seu valor medido, possa ser calculado (estimado) o valor
peso indiretamente, através de uma equação matemática.
O primeiro passo para encontrar esta variável é fazer o diagrama de dispersão das
variáveis candidatas (eixo horizontal) versus o peso (eixo vertical), usando os pares de
informações de todos os ursos. Você pode tentar as variáveis: idade, altura, comprimento
da cabeça, largura da cabeça, perímetro do pescoço e perímetro do tórax.
A Figura mostra a relação entre peso e altura e entre peso e perímetro do tórax.
6
1
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Analisando o gráfico:
1) Podemos ver que, tanto a altura quanto o perímetro do tórax são fortemente
associados ao peso do urso, no sentido de que quanto mais alto o urso ou quanto
maior a medida de seu tórax, mais pesado ele será.
2) Note que este crescimento é linear para o perímetro do tórax e não-linear para a
altura.
3) Os pontos estão mais dispersos no gráfico da altura, a variável mais adequada
para estimar o peso é o perímetro do tórax (a técnica estatística adequada aqui chama-
se Regressão Linear Simples).
Observação: A correlação entre duas variáveis pode ser POSITIVA, NULA ou
NEGATIVA.
Exemplo:
6
2
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
-30
-25
-20
-15
-10
-5
0
5
10
0 5 10 15 20 25 30
Gráfico 1 Gráfico 2
-10
-5
0
5
10
15
0 5 10 15 20 25 30
Gráfico 3
Coeficiente de correlação linear
É um instrumento utilizado para a medida da correlação linear. Indica o grau de
intensidade entre duas variáveis e ainda o sentido dessa correlação (positivo ou
negativo).
Só deve ser utilizado com variáveis contínuas.
Faremos o uso do coeficiente de correlação de Pearson.
Definição: Dado n pares de valores (x1, y1), (x2, y2), ..., (xn, yn), o coeficiente entre
as duas variáveis X e Y é dado pela média dos valores dos produtos padronizados das
variáveis.
( ) ( )
( ) ( ) ( ) ( )
∑ ∑ ∑ ∑
∑ ∑ ∑
− −

· ·
2
2
2
2
i i i i
i i i i
y y n x x n
y x y x n
r ρ
6
3
-10
-5
0
5
10
15
20
25
30
0 5 10 15 20 25 30
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
A partir dos valores de R ou ρ , podemos verificar o tipo da correlação existente
entre as variáveis estudadas, conforme tabela seguinte:
Exercícios:
1) Considerando uma amostra aleatória, formada por dez dos 98 alunos de uma
classe da faculdade A e pelas notas obtidas por eles em Matemática e Estatística:
Matemática (x) Estatística (y)
1 5,0 6,0
8 8,0 9,0
24 7,0 8,0
38 10,0 10,0
44 6,0 5,0
58 7,0 7,0
59 9,0 8,0
72 3,0 4,0
80 8,0 6,0
92 2,0 2,0
Notas
Alunos
Calcule o coeficiente de correlação e interprete seu valor.
Matemática (x) Estatística (y) xy
1 5 6 30 25 36
8 8 9 72 64 81
24 7 8 56 49 64
38 10 10 100 100 100
44 6 5 30 36 25
58 7 7 49 49 49
59 9 8 72 81 64
72 3 4 12 9 16
80 8 6 48 64 36
92 2 2 4 4 4
Total 65 65 473 481 475
Notas
Alunos
2
i
x
2
i
y
6
4
Valor de R ou ρ
Correlação
0,0 nula
0,0 ----| 0,3 fraca
0,3 ----| 0,6 media
0,6 ----| 0,9 forte
0,9 ----| 0,99 fortíssima
1,0 perfeita
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
911 , 0
18 , 554
505
525 585
505
) 4225 4750 )( 4225 4810 (
4225 4730
) 65 475 10 )( 65 481 10 (
65 65 473 10
2 2
· · ·
− −

·
− −

·
x
x x
x x
r
Gráfico:
Gráfico de dispersão
0
2
4
6
8
10
12
0 2 4 6 8 10 12
Matemática
E
s
t
a
t
í
s
t
i
c
a
Conclusão: O resultado nos indica uma correlação linear positiva altamente significativa
entre as duas variáveis.
Exercícios:
1) Observou-se que o volume mensal de lixo gerado em uma cidade, em função do
número de dormitórios das residências, é o seguinte (em m
3
):
N
o
Dormitórios 1 2 3 4
Volume de lixo 0,15 0,29 0,45 0,57
a) Calcular o coeficiente de correlação de Pearson.
b) Interprete o gráfico de dispersão dessa relação.
Gráfico de dispersão
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0 1 2 3 4 5
Número de dormitórios
V
o
l
u
m
e

d
e

l
i
x
o
6
5
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009

(2) REGRESSÃO
Objetivo: A regressão linear simples constitui uma tentativa de estabelecer uma equação
matemática linear (linha reta) que descreva o relacionamento entre duas variáveis.
Para obter uma reta de regressão, n pares de observações das variáveis são
utilizados. Considerando X como a variável independente e Y como a variável
dependente, a reta de regressão é dada por:
Y = α + β X + u
α é o coeficiente linear, ou seja, é o ponto onde a reta corta o eixo Y;
β é o coeficiente angular, ou seja, determina a inclinação da reta.
Graficamente:
 u representa o incremento em Y quando X aumenta em uma unidade;
ESTIMADORES DE α E β PARA O MODELO DE REGRESSÃO
LINEAR
Os valores de a e b serão determinados, através do Método dos Mínimos
Quadrados (MMQ). O objetivo é encontrar a e b tal que a soma dos erros quadráticos
médios seja o menor possível.
O erro é determinado por:
i i i
y y e ˆ − ·
tal que
) (
i i i
bx a y e + − ·
α + β X + u
α + β X
α
β
X X+1
Y
X
6
6
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Os valores de a e b são encontrados através da seguinte fórmula:
2
1
2
1
ˆ
x n x
y x n y x
b
n
i
i
n
i
i i


·


·
·
x b y a
ˆ
ˆ − ·
É importante observar que:
- b mede a variação que ocorre em Y por unidade de variação de X.
- Quando não houver relação entre X e Y teremos
·

Y
Y , pois b=0
- Quando as relações entre X e Y forem proporcionais, a reta passa na origem e
a = 0, logo
·

Y
bX
Exemplo:
Sejam duas variáveis X e Y, entre as quais exista uma correlação acentuada, embora não
perfeita:
xi yi
5 6
8 9
7 8
10 10
6 5
7 7
9 8
3 4
8 6
2 2
Gráfico de dispersão
0
2
4
6
8
10
12
0 2 4 6 8 10 12
Podemos concluir que o gráfico se trata de uma correção retilínea, de modo a
permitir o ajustamento de uma reta, imagem da função Y = α + β X + u.
Então, precisamos calcular os valores dos parâmetros da equação
bX a Y + ·

que
é uma estimativa da verdadeira equação da reta de regressão, onde

Y
é o estimado.
6
7
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
xi yi xy x2
5 6 30 25
8 9 72 64
7 8 56 49
10 10 100 100
6 5 30 36
7 7 49 49
9 8 72 81
3 4 12 9
8 6 48 64
2 2 4 4
Total 65 65 473 481
n=10
médias 6,5 6,5
8632 , 0
5 , 58
5 , 50
) 65 ( 473 10
5 , 6 5 , 6 10 473
ˆ
2
2
1
2
1
· ·
− ⋅
⋅ ⋅ −
·


·


·
·
x n x
y x n y x
b
n
i
i
n
i
i i
8892 , 0 5 , 6 8632 , 0 5 , 6
ˆ
ˆ · ⋅ − · − · x b y a
Logo,
X Y 8632 , 0 8892 , 0 + ·

Para traçar a reta: X=0 =>

Y
=0,89 X=5 =>

Y
= 0,89+5.0,86 = 5,19
Estimativa da reta de regressão
0
2
4
6
8
10
12
0 2 4 6 8 10 12
5
5,19
0,89
X Y 8632 , 0 8892 , 0 + ·

6
8
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Exercício:
Exemplo 1: Um laboratório está interessado em medir o efeito da temperatura sobre a
potência de um antibiótico. Dez amostras de 50 gramas cada foram guardadas a
diferentes temperaturas, e após 15 dias, mediu-se a potência. Os resultados estão no
quadro abaixo.
Temperatura 30 36 50 54 60 73 78 82 91 95
Potência 38 43 32 26 33 19 27 23 14 21
a) Qual a variável dependente?
b) Qual a variável independente?
c) Encontre os estimadores da reta de regressão.
d) Interprete seus valores.
6
9
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Uma importante função de determinar a reta de regressão para duas variáveis é a
possibilidade de realizar previsões, ou seja, uma vez que obtemos a reta de regressão,
podemos escolher um valor de interesse para a variável independente (X) e determinar o
valor esperado para a variável dependente (Y).
Exemplo 1: Determinar a potência do antibiótico quando a exposição for de 65
o
C.
5677 , 27 65 * 3511 , 0 3892 , 50
ˆ
· − · Y .
COEFICIENTE DE DETERMINAÇÃO
Encontrar uma reta de regressão para duas variáveis não significa encontrar o
melhor modelo matemático para representar a relação entre elas. Isso porque podemos
calcular a equação para quaisquer duas variáveis.
Uma das formas de determinar se o modelo encontrado é satisfatório para explicar
os dados é calculando o COEFICIENTE DE DETERMINAÇÃO do modelo. Esse
coeficiente compara a variabilidade do modelo com a variabilidade total dos dados.
 A variabilidade do modelo pode ser calculada como:
2
1
) ˆ (

·

n
i
i
y y
.
 A variabilidade total pode ser calculada como: ∑
·

n
i
i
y y
1
2
) (
.
Assim, o coeficiente de determinação R
2
, é calculado da seguinte forma:


·
·


·
n
i
i
n
i
i
y y
y y
R
1
2
1
2
2
) (
) ˆ (
7
0
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
Exemplo 1: Calcular e interpretar o coeficiente de determinação R
2
para os dados do
primeiro exercício.
Temperatura
(X)
Potência
(Y)
Valores
preditos (

)
2
) ( y y
i

2
) ˆ ( y y
i

30 38 39.86 108.16 150.21
36 43 37.75 237.16 103.01
50 32 32.83 19.36 27.40
54 26 31.43 2.56 14.67
60 33 29.32 29.16 2.97
73 19 24.76 73.96 8.07
78 27 23.00 0.36 21.13
82 23 21.60 21.16 36.01
91 14 18.44 184.96 83.92
95 21 17.03 43.56 111.63
y
27,6

·

n
i
i
y y
1
2
) (
720,4

·

n
i
i
y y
1
2
) ˆ (
559,02
R
2
0,7759
Interpretação: o modelo X Y 3511 , 0 3892 , 50
ˆ
− · explica 77,59% da variabilidade total
de Y. Em outras palavras, a variabilidade da potência do antibiótico é 77,59% explicada
pela sua temperatura de armazenamento.
7
1
Instituto Federal de Educação, Ciência e Tecnologia – RJ

Prof.: Janaina S. de Q. Pereira – 1º Semestre/2009
EXERCÍCIO
Uma amostra de 5 ratos da raça Wistar foi obtida e suas idades (em dias) e pesos (em
gramas) são apresentados na tabela abaixo:
Idade (dias) Peso médio (gramas)
30 63,94
34 74,91
38 81,65
42 95,05
46 105,89
a. Esboce um diagrama de dispersão para essas variáveis.
b. Calcule o coeficiente de correlação de Pearson.
c. Com base nos itens (a) e (b), você acha que há relação entre as duas variáveis? Que
tipo de relação é essa?
d. Deseja-se obter uma reta que explique o peso médio dos ratos em função das suas
idades. Qual deve ser a variável independente e qual deve ser a variável dependente?
e. Obtenha e interprete a reta de regressão.
f. Calcule o coeficiente de determinação para a reta obtida. Você acha que o modelo se
ajusta bem aos dados observados? Por quê?
g. Qual o peso médio, em gramas, para ratos com 32, 40, 43 e 49 dias?
7
2