ENGENHARIA DE CONTROLE E AUTOMAÇÃO

ESTATÍSTICA BÁSICA





















PROF. SEBASTIÃO ALVES CARNEIRO



VITÓRIA
2011-2

DIREITOS RESERVADOS
IFES – Centro Federal de Educação Tecnológica do Espírito Santo
Créditos de autoria da editoração
COPYRIGHT – É proibido a reprodução, mesmo que parcial, por qualquer meio, sem
autorização escrita dos autores e do detentor dos direitos autorais.

Catalogação na fonte: Rogéria Gomes Belchior - CRB 12/417



C289 Carneiro, Sebastião Alves

Probabilidade e estatística. / Sebastião Alves Carneiro. – Vitória: CEFETES, 2008.

1. Probabilidade. 2. Estatística. I. Centro Federal de Educação Tecnológica do Espírito
Santo. II. Título.

CDD 519

sumário
Olá, Aluno (a)!

Seja bem-vindo (a) ao nosso curso de Estatística Básica!

Sou o professor Sebastião Alves Carneiro, responsável pela gerência e produção de material dessa
disciplina, no curso de Tecnologia em Análise e Desenvolvimento de Sistemas.

Sou formado em Engenharia Elétrica e tenho Mestrado em Controle de Sistemas pela Universidade
Federal do Espírito Santo - UFES. Atualmente, ocupo o cargo de Diretor Adjunto, no Campus Serra.
Já lecionei a disciplina de Probabilidade e Estatística no curso de Análise e Desenvolvimento de
Sistemas, no Campus Serra.

Acredito que, com tecnologia na sala de aula, o papel do educador muda de detentor do
conhecimento para guia das investigações dos alunos. O novo professor tem que estar preparado
para deixar de ser o que apenas fornece informações para ser um orientador, aquele que ajuda a
selecionar informações e fazer articulações. Nós aprendemos uns com os outros, a toda hora, a
qualquer momento.

A disciplina de Estatística é importante para sua formação, pois é uma área do conhecimento que
utiliza teorias probabilísticas para explicação de eventos, estudos e experimentos. Tem por objetivo
obter, organizar e analisar dados, determinar as correlações que apresentem, tirando delas suas
conseqüências para descrição e explicação do que passou e previsão e organização do futuro.
Portanto, serão estudados neste curso tanto os conceitos fundamentais, como as técnicas formais da
estatística.

Nosso curso será dividido em 6 capítulos:no primeiro, faremos a introdução de nossos estudos; no
segundo, estudaremos a construção de gráficos, bem como suas propriedades e aplicações; no
terceiro, veremos métodos gráficos; no quarto estudaremos medidas de ordenamento e posição; no
quinto, estudaremos medidas de dispersão e por fim Correlação e Regressão.

Um curso de Estatística Básica requer um tempo diário de estudo e dedicação. Por isso é muito
importante que você faça todas as atividades propostas, tanto neste material como na sua sala de
aula virtual.

• Leia os textos com bastante atenção, sempre com espírito questionador e investigativo.
• Personalize o seu estudo. Dê novos títulos e subtítulos, reorganizando a divisão do texto. Assim,
você o verá por uma nova ótica e será mais fácil reter as informações por partes.
• Crie perguntas e tente respondê-las sem pesquisar. Depois, confira as respostas.
• Sintetize com suas palavras o que foi estudado. Faça resumos: destaque o tema central, as
definições essenciais, os exemplos, os casos particulares, as observações.
• Leia bem os enunciados das questões propostas e interprete o que se pede. Comece, então, a
responder com atenção, sempre pesquisando no livro texto ou em outros meios que facilitem sua
resposta. Verifique se todas estão corretas, revendo o que foi feito.
• Interesse-se, participe e discuta com o professor e com seus colegas.
• Faça análise dos exercícios resolvidos que se encontram ao longo deste fascículo e, se houver
dúvidas, entre em contato com o seu professor.


Você logo perceberá que o sucesso neste curso é questão de tempo!

CAPÍTULO 1

AMOSTRAGEM
1.1. INTRODUÇÃO



Olá, Aluno (a)!
O objetivo fundamental da Introdução é dar uma visão inicial da estatística.
Neste capítulo, veremos históricos da estatística, método estatístico,
definições básicas da estatística e iniciaremos amostragem.

A estatística é uma área do conhecimento que utiliza teorias probabilísticas
para explicação de eventos, estudos e experimentos. Tem por objetivo obter,
organizar e analisar dados; bem como determinar suas correlações, tirando
delas suas conseqüências, explicar o que passou e prever o que ocorrerá no
futuro.
Bons estudos!
Prof. Sebastião A. Carneiro

1.2. HISTÓRICO

Faremos um breve histórico para expor o modo como a estatística surgiu.

ANTIGUIDADE: os povos na antiguidade registravam o número de habitantes, nascimentos,
óbitos. Já faziam "estatísticas".
IDADE MÉDIA: as informações na Idade Média eram tabuladas com finalidades tributárias e
bélicas.
SÉCULO XVI: no século XVI surgem as primeiras análises sistemáticas, as primeiras tabelas e
os números relativos.
SÉCULO XVIII: no século XVIII a estatística surge com notação científica a qual é adotada
pelo acadêmico alemão GODOFREDO ACHENWALL. As tabelas ficam mais completas,
surgindo às primeiras representações gráficas e os cálculos de probabilidades. A estatística deixa
de ser uma simples tabulação de dados numéricos para se tornar o estudo de como se chegar à
conclusão sobre uma população, partindo de observação de partes dessa população.

1.3 MÉTODO ESTATÍSTICO


O método estatístico se aplica ao estudo dos fenômenos aleatórios. Um fenômeno é considerado
aleatório se seus resultados variarem, a cada repetição, nas mesmas condições.















1.4. FASES DO MÉTODO ESTATÍSTICO


É importante conhecer todas as fases do método estatístico, pois você deverá segui-las quando desejar
fazer uma pesquisa.









Comentando as fases do método estatístico:


1
a
- DEFINIÇÃO DO PROBLEMA: Saber exatamente o que se quer pesquisar é o mesmo que
definir corretamente o problema.

2
a
- PLANEJAMENTO: Como levantar informações? Que dados deverão ser obtidos? Qual o
levantamento a ser utilizado: censitário, por amostragem? E o cronograma de atividades? Os custos
envolvidos?

3
a
- COLETA DE DADOS: Fase operacional. É o registro sistemático de dados, com um objetivo
determinado.

MÉTODO: é um meio mais eficaz para atingir determinada meta.

MÉTODO CIENTÍFICO: é um conjunto de regras básicas para
desenvolver uma experiência a fim de produzir novo conhecimento, bem
como corrigir e integrar conhecimentos pré-existentes.Destacamos o método
experimental e o método estatístico.

MÉTODO EXPERIMENTAL: consiste em manter constantes toda a
causa, menos uma, que é a que sofre variação para se observarem seus
efeitos.
Exemplos: Estudos da Química, da Física, etc.

MÉTODO ESTATÍSTICO: é um processo para obter, apresentar e analisar
características ou valores numéricos para uma melhor tomada de decisão em
situações de incerteza.
Exemplo: Quais as causas que definem o preço de uma mercadoria quando a
sua oferta diminui?
Comentário: Seria impossível, no momento da pesquisa, manter constantes a
uniformidade dos salários, o gosto dos consumidores, o nível geral de preços
de outros produtos, etc.
Apresentação
dos dados

Definição
do
problema
Coleta
de
dados
Apuração dos
dados

Planejamento

4º - APURAÇÃO DOS DADOS: Resumo dos dados por meio de sua contagem e de seu
agrupamento. É a condensação e tabulação de dados.

5º - APRESENTAÇÃO DOS DADOS: Há duas formas de apresentação, que não se excluem
mutuamente. A apresentação tabular é uma apresentação numérica dos dados em linhas e colunas
distribuídas de modo ordenado, segundo regras práticas fixadas pelo Conselho Nacional de
Estatística. A apresentação gráfica dos dados numéricos constitui uma apresentação geométrica que
permite uma visão rápida e clara do fenômeno.

6º - ANÁLISE E INTERPRETAÇÃO DOS DADOS: A última fase do trabalho estatístico é a
mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e coeficientes, cuja
finalidade principal é descrever o fenômeno (estatística descritiva).





1.5. CONCEITOS BÁSICOS


Muitas vezes, apesar dos recursos computacionais e da boa vontade, não é possível estudar todo um
conjunto de dados de interesse, pois fica caro e leva muito tempo. Assim, normalmente, se trabalha
com partes da população denominadas de amostras.



1.5.1 População

ATIVIDADE 1

Responda a questão a seguir:

Em que fase do método estatístico devemos:
a) ter uma visão rápida e clara do fenômeno?
b) fazer o registro sistemático de dados?;
c) fazer a condensação e tabulação de dados?
d) ser mais cuidadosos, pois é a fase mais importante e delicada do
método?
e) fazer o cronograma de atividades?
f) definir corretamente o problema?

População é o conjunto total de elementos portadores de, pelo menos, uma característica comum.

Note-se que o termo população é usado num sentido amplo e não significa, em geral, conjunto de
pessoas.o

Exemplos:

a) o conjunto das rendas de todos os habitantes do Espírito Santo;
b) o conjunto de todas as notas dos alunos de Estatística;
c) o conjunto das alturas de todos os alunos da Universidade; etc.

Um levantamento efetuado sobre toda uma população é denominado de levantamento censitário ou
Censo.
1.5.2 Amostras

Amostras são parcelas representativas de uma população, examinada com o propósito de se tirarem
conclusões sobre essa população.

Exemplos:
a) antes da eleição diversos órgãos de pesquisa e imprensa ouvem um conjunto selecionado
de eleitores para ter uma idéia do desempenho dos vários candidatos nas futuras eleições;
b) uma empresa metal-mecânica toma uma amostra do produto fabricado em intervalos de
tempo especificados para verificar se o processo está sob controle e evitar a fabricação
de itens defeituosos;
c) o IBGE faz levantamentos periódicos sobre emprego, desemprego, inflação, etc;
d) redes de rádio e TV se utilizam constantemente dos índices de popularidade dos
programas para fixar valores da propaganda, ou então, modificar ou eliminar programas
com audiência insatisfatória;
e) biólogos marcam pássaros, peixes, etc, para tentar prever e estudar seus hábitos.








1.5.3 Variável

Variável é, convencionalmente, o conjunto de resultados possíveis de um fenômeno.

• Variável qualitativa: quando seus valores são expressos por atributos:
Exemplo: sexo, cor da pele, etc.

• Variável quantitativa: quando os dados são de caráter nitidamente quantitativo, e o conjunto
dos resultados possui uma estrutura numérica. Divide-se em:

a) Variável discreta: seus valores são expressos geralmente por números inteiros não
negativos. Resulta normalmente de contagens.

Exemplo:

ATIVIDADE 2

1) Estabeleça a população, a amostra e o tipo de fonte de dados em cada
caso:

a) Numa escola de primeiro grau com 560 alunos matriculados, foram
sorteados 100 alunos que responderam a um questionário sobre
preferência por sites na internet.
b) Entre os 1300 funcionários de uma empresa de manutenção em
informática selecionaram 65 pessoas e perguntaram qual componente do
computador que apresentava maior quantidade de defeitos. Os resultados
obtidos foram os seguintes:

Componente defeituoso Número de funcionários
Mouse 35
Teclado 10
Fonte de tensão 20


a) número de computadores vendidos no mês (231);
b) quantidade de placa mãe em estoque (346).

b) Variável contínua: resulta normalmente de uma mensuração, e a escala numérica de seus
possíveis valores corresponde ao conjunto R dos números Reais, ou seja, pode assumir, teoricamente,
qualquer valor entre dois limites.

Exemplos:
a) quando se mede a temperatura do corpo de alguém com um termômetro de mercúrio,
o que ocorre é o seguinte: o filete de mercúrio, ao dilatar-se, passa por todas as
temperaturas intermediárias até chegar à temperatura do corpo no momento da
medição (37,6
o
C).
b) diâmetro de um furo (23,456mm);
c) peso de um objeto (12,2345kg).



ATIVIDADE 3

1) Classifique as variáveis abaixo em qualitativas ou quantitativas:
- cor dos olhos dos alunos;
- índice de liquidez nas indústrias capixabas;..
- produção de café no Brasil;
- número de defeitos em aparelhos de TV;.
- comprimento dos pregos produzidos por uma empresa;
- pontuação obtida em cada jogada de um dado.

2) Para os seguintes valores, indique as variáveis discretas (D) e as contínuas (C):
(a) peso do conteúdo de um pacote de DVD virgem;
(b) diâmetro de um CD;
(c) número de artigos defeituosos produzidos;
(d) número de indivíduos, em uma área geográfica, que recebem seguro- desemprego;
(e) número médio de clientes potenciais visitados por vendedores de uma empresa durante
o último mês;
(f) temperatura interna de um computador;
(g) número de unidades estocadas de um artigo;
(h) razão entre o ativo circulante e o passivo exigível;
(i) total de toneladas embarcadas;
(j) quantidade embarcada de computadores;
(k) volume de tráfego de um posto de pedágio;
(l) número de comparecimento ao encontro anual de uma companhia.

1.6 AMOSTRAGEM

O processo de escolha de uma amostra da população é denominado de amostragem.



Quando a amostra é tendenciosa, não podemos extrapolar os resultados obtidos para o universo da
população. É o caso da amostragem por conveniência, que ocorre quando a participação é voluntária
ou os elementos da amostra são escolhidos por uma questão de conveniência (muitas vezes,
os amigos e os amigos dos amigos). Deste modo, o processo amostral não garante que a amostra seja
representativa.

A melhor forma de conseguir este objetivo é obter uma amostra aleatória de uma população bem
definida. Existem técnicas de amostragem a que devemos recorrer para assegurar que a amostra
forneça uma boa estimativa dos parâmetros populacionais.
Há vários métodos de amostragem: aleatória simples, (cada elemento da população tem igual
probabilidade de ser escolhido para caracterizar a amostra); amostragem sistemática (depois de
ordenada a população, seleciona-se a amostra probabilística);amostragem estratificada, etc.


1.6.1 AMOSTRAGEM CASUAL OU ALEATÓRIA SIMPLES

A amostragem casual ou aleatória simples é o processo mais elementar e frequentemente utilizado na
coleta de dados. Todos os elementos da população têm que ter a mesma probabilidade de
pertencerem à amostra. Equivale a um sorteio lotérico. Pode ser realizada numerando-se a população
de 1 a n e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, x números dessa
seqüência, os quais corresponderão aos elementos pertencentes à amostra.

Exemplo 1:

Vamos obter uma amostra, de 10%, representativa para a pesquisa da estatura de 90 alunos de
uma escola:
1º passo - Numeramos os alunos de 1 a 90.
2º passo - Escrevemos os números dos alunos, de 1 a 90, em pedaços iguais de papel, colocamos
em uma urna e, após mistura, retiramos, um a um, os nove números que formarão a amostra.

Resultado obtido= {aluno 20, aluno 27, aluno 15, aluno 56, aluno 81, aluno 12, aluno 66, aluno
54, aluno 72}.


Exemplo 2:

Uma cidade turística tem 30 hotéis de três estrelas. Pretende-se conhecer o custo médio da diária para
apartamento de casal. Os valores populacionais consistem nos seguintes preços diários: 125, 120, 135,
121, 122, 124, 125, 130, 138, 124, 120, 120, 125, 120, 119, 125, 123, 124, 128, 124, 124, 122, 128,
126, 123, 125, 122, 127, 125, 123.
Extraia uma amostra aleatória simples de tamanho 5 desta população por sorteio.
R: Escrevemos os valores em papéis, então os colocamos em uma urna, misturamos e sorteamos a
amostra de n=5 .
Resultado obtido: n= (120, 124, 122, 128, 123)

Obs.: Quando o número de elementos da amostra é muito grande, esse tipo de sorteio torna-se muito
trabalhoso. Nesse caso, utiliza-se uma tabela de números aleatórios ou isso é feito por meio de
software que gera esses números.

1.6.2 Amostragem sistemática


Amostra sistemática é constituída de elementos retirados da população, segundo um sistema
preestabelecido.

É conveniente quando a população está naturalmente ordenada, como fichas em um fichário, listas
telefônicas, etc.

Exemplo 1:

Suponha que uma empresa de telefonia fixa deseja saber o grau da satisfação de seus usuários com os
serviços prestados. O número de assinantes é da ordem de 50.000 e nós desejamos selecionar uma
amostra aleatória de 1.000 assinantes com o intuito de obter a avaliação sobre os serviços.

Um modo alternativo de seleção é a seleção de 1 assinante a cada 50. O procedimento será selecionar
aleatoriamente um assinante entre os primeiros 50, digamos que o vigésimo assinante (20) fosse
selecionado. O próximo selecionado seria o de ordem 70 (20+50), o seguinte de ordem 120 (70+50) e
assim por diante, ou seja: 20, 70, 120, 170, 220 ....... . Com esse método são economizados recursos
físicos e financeiros.

A amostra sistemática é frequentemente utilizada em pesquisas nas quais o tamanho da população é
grande ou que a pesquisa seja feita por pessoas que não estão familiarizadas com tabelas de números
aleatórios ou com uso de software.

No caso da seleção de amostra aleatória simples de assinantes, seria necessário que tivéssemos os
assinantes numerados, sequencialmente, de 1 a 50.000 e seriam selecionados os 1.000 assinantes. A
seleção poderia ser feita com o uso de uma tabela de números aleatórios ou de software que gerasse
esses números.


Exemplo 2:
É dada uma população constituída pelas 12 primeiras letras do alfabeto. Explique o que você faria
para obter uma amostra sistemática de 3 elementos.


Resolução:
Dividindo 12 por 3 obtém-se 4. Sorteie então uma das quatro primeiras letras do alfabeto. Essa letra
sorteada será a primeira da amostra. Depois, a partir dessa letra, conte quatro e retire a quarta letra
para a amostra. Repita o procedimento e retire mais uma letra de forma sucessiva.
Exemplo: Se a letra sorteada for B, então a amostra será C, G e K.

As amostras sistemáticas são suscetíveis a erros induzidos por periodicidade naturais da população,
permitindo ao investigador prever e, possivelmente, manipular quem entrará na amostra.

1.6.3 AMOSTRAGEM PROPORCIONAL ESTRATIFICADA

Quando a população se divide em estratos (subpopulações), convém que o sorteio dos elementos
da amostra os leve em consideração. Desse modo, obtemos os elementos da amostra
proporcionalmente ao número de elementos desses estratos.

Exemplo:

Vamos obter uma amostra proporcional estratificada, de 10%, do exemplo anterior, supondo que,
dos 90 alunos, 54 sejam meninos e 36 sejam meninas. São, portanto, dois estratos (sexo
masculino e sexo feminino). Logo, temos:





Tabela 1.1 Amostra proporcional estratificada









Numeramos, então, os alunos de 01 a 90 (de 01 a 54 para os meninos e de 55 a 90 para as meninas) e
procedemos ao sorteio.


Exemplo:

Em determinada região, a população com cursos superiores é composta por 40% de homens e 60% de
mulheres. Deseja-se fazer uma pesquisa com 50 pessoas com cursos superiores.

Neste caso, seleciona, os dois grupos (homens e mulheres) e sorteiam-se 20 homens e 30 mulheres.

Homens = 40% de 50 = 20;
Mulheres= 60% de 50 =30.






Riscos da amostragem.

O processo de amostragem envolve riscos, pois se toma decisões sobre toda a população com
base em apenas uma parte dela. A teoria da probabilidade, que veremos neste curso, pode ser
utilizada para fornecer uma idéia do risco envolvido, ou seja, do erro cometido ao utilizar uma
amostra ao invés de toda a população.















SEXO POPULACÃO 10 % AMOSTRA
MASC. 54 5,4 5
FEMIN. 36 3,6 4
Total 90 9,0 9

Na realidade, a amostragem proporcional estratificada leva em consideração
as diferenças que há dentro de uma população e é mais democrática.
ATIVIDADE 4

1) Imagine que você tem 500 cadastros arquivados em sua empresa, dos quais você
quer uma amostra de 2%. Como você procederia para obter uma amostra
sistemática e uma amostra aleatória?

2) Uma população se encontra dividida em quatro estratos, com tamanhos
90 N
1
=
,
120 N
2
=
,
60 N
3
=
e
480 N
4
=
. Ao se realizar uma amostra, doze elementos
da amostra foram retirados do primeiro estrato. Qual o número de elementos de
cada estrato?

3) Com o objetivo de fazer testes de qualidade com determinados produtos de uma
empresa de informática, optou-se por realizar um levantamento por amostragem. A
população é constituída por:
Produto A : A1, A2, A3, A4, A5, A6, A7, A8, A9, A10;
Produto B : B1, B2, B3, B4, B5, B6, B7, B8, B9, B10;
Produto C : C1, C2, C3, C4, C5, C6, C7, C8, C9, C10,
C11, C12, C13, C14,C15,C16, C17, C18, C19, C20,
C21, C22, C23, C24, C25, C26, C27, C28, C29, C30.

Como você faria para obter uma amostra global, de tamanhos 10?



4) Uma escola possui 120 alunos, sendo 32 na quinta série, 24 na sexta série, 26 na
sétima série e 38 na oitava série. Em uma amostra de 15 alunos, quantos de cada série farão
parte dessa amostra, nessa mesma ordem de séries?
a) 4, 2, 3 e 6 alunos
b) 4, 3, 4 e 4 alunos
c) 5, 2, 3 e 5 alunos
d) 4, 3, 3 e 5 alunos



CAPÍTULO 2

SÉRIES E CONSTRUÇÃO DE GRÁFICOS


Olá, Aluno (a)!

Neste capítulo, estudaremos séries e construção de gráficos. As tabelas, os gráficos e as figuras
são elementos gráficos que apresentam dados ou informações com a finalidade de facilitar sua
leitura e compreensão.
Bons estudos!
Prof. Sebastião A. Carneiro

2.1 SÉRIE ESTATÍSTICA

Qualquer tabela que apresente a distribuição de um conjunto de dados estatísticos em função da
época, do local ou da espécie é uma série estatística.

Os trabalhos técnico-científicos utilizam-se, em geral, de tabelas estatísticas para apresentar
dados. Elas podem ser definidas como conjuntos de dados estatísticos associados a um fenômeno,
dispostos numa determinada ordem de classificação. Expressam, pois, as variações qualitativas e
quantitativas de um fenômeno.

TABELA é um quadro que resume um conjunto de dados dispostos em linhas e colunas de
maneira sistemática.
De acordo com a Resolução 886, do IBGE, nas casas ou células da tabela, devem-se inserir:
- um traço horizontal (-) quando o valor é zero;
- três pontos (...), quando não se têm os dados;
- zero (0),quando o valor é muito pequeno para ser expresso pela unidade utilizada;
- um ponto de interrogação (?),quando há dúvidas quanto à exatidão de determinado valor.
Obs.: o lado direito e o esquerdo de uma tabela oficial devem ser abertos.



2.1.1 SÉRIE TEMPORAL

Também chamada de histórica ou evolutiva, a série temporal identifica-se pelo caráter variável do
fator cronológico (tempo). O local e a espécie (fenômeno) são elementos fixos.

Exemplo:

Tabela 2.1 Evolução das reservas brasileiras

Ano
Evolução das reservas brasileiras
(em bilhões de dólares)
2000 32
2001 36
2002 37
2003 49
2004 52
2005 53
2006 85
2007 180
2008 190
Fonte: Revista Veja - edição 2050

Observar que a Evolução das reservas brasileiras (em bilhões de dólares) variou com o
tempo (de 2000 a 2008).



2.1.2 SÉRIE GEOGRÁFICA

Também chamada de espacial, territorial ou de localização, a série geográfica apresenta como
elemento variável o fator geográfico. A época e o fato (espécie) são elementos fixos.

Exemplo:
Tabela 2.2 Vendas em 2007 da empresa ABC Informática Ltda..

FILIAIS
COMPUTADOR
ES
VENDIDOS
São Paulo 12.645
Rio de Janeiro 15.765
Minas Gerais 13.410
Espírito Santo 8.546
TOTAL 50.366


Observar como as vendas de computadores da empresa ABC Informática Ltda. variaram em 2007
nos estados da região Sudeste; ou seja, houve variação geográfica.







2.1.3 SÉRIE ESPECÍFICA

Também chamada de categórica, a série específica tem como caráter variável apenas o fato ou
espécie.

Exemplo:
Tabela 2.3 Vendas por setor em 2006 das 200 maiores empresas de tecnologia do
Brasil.














Observar que houve variação por setores de empresas de tecnologia do Brasil e não há informação quanto
à variação no tempo ou por região.


De uma forma geral, se a série simples não for temporal ou geográfica, você pode considerá-la
específica.


2.1.4 SÉRIES CONJUGADAS

Também chamadas de tabelas de dupla entrada, as séries conjugadas são apropriadas à apresentação
de duas ou mais séries de maneira conjugada, com duas ordens de classificação: uma horizontal e
outra vertical. O exemplo abaixo é o de uma série geográfico-temporal.

Exemplo:

Tabela 2.4 Vendas no 1º bimestre de 2007 da empresa ABC Informática
Ltda.

FILIAIS Janeiro Fevereiro Março Abril Maio Junho
São Paulo 1200 1280 1360 1440 1520 1600
Rio de Janeiro 1350 1390 1430 1470 1510 1550
Minas Gerais 1410 1670 1930 2190 2450 2710
Espírito Santo 1046 1099 1152 1205 1258 1311
TOTAL 5006 5439 5872 6305 6738 7171

Observar que as vendas de computadores variam nos estados da região Sudeste, de janeiro a junho de
2007, caracterizando, assim, a série conjugada geográfico-temporal.


Setores
Vendas
(milhões de dólares)
Comunicação 56.927,70
Hardware 20.488,20
Serviços de Software 7.300,40
Serviços 5.603,50
Software 2.419,10
Distribuição 1.380,40
Internet 657,40
Fonte: Info Exame- ago. 2007.















ATIVIDADE 1

1. Que tipo de série está representado nesta tabela?

TERMINAIS TELEFÔNICOS EM SERVIÇO
1992-1993
REGIÕES 1992 1993
Norte 375.658 403.494
Nordeste 1.379.101 1.486.649
Sudeste 6.729.467 7.231.634
Sul 1.608.989 1.746.232
Centro-oeste 778.925 884.822
Fonte: Ministério das Comunicações.


2. qual a origem dos dados para a elaboração da tabela?


3. Procure identificar em jornais ou em revistas exemplos das séries apresentadas.







2.2 Gráficos Estatísticos

Gráficos estatísticos são representações visuais dos dados estatísticos. Não substituem as tabelas
estatísticas apenas fornecem uma representação mais imediata dos dados.


Os gráficos estatísticos têm como características a simplicidade, a clareza e a veracidade. Fazem uso
de escalas e do sistema de coordenadas e possibilitam uma compreensão mais imediata dos dados.


Veremos a seguir os tipos de gráficos mais utilizados

2.2.1DIAGRAMAS

Diagramas são gráficos geométricos dispostos em duas dimensões. São os mais usados na
representação de séries estatísticas, por esse motivo não abordaremos os outros tipos de gráficos. Os
diagramas podem ser:




a) Gráficos Em Linhas Ou Lineares

Gráficos em linhas ou lineares são os frequentemente usados para representação de séries
cronológicas com um grande número de períodos de tempo. As linhas são mais eficientes do que as
colunas quando existem intensas flutuações nas séries ou quando há necessidade de se representarem
várias séries em um mesmo gráfico.

Exemplo:

Tabela 2.5 Evolução das reservas

Ano
Evolução das reservas brasileiras
(em bilhões de dólares)
2000 32
2001 36
2002 37
2003 49
2004 52
2005 53
2006 85
2007 180
2008 190
Fonte: Revista Veja - edição 2050


0
20
40
60
80
100
120
140
160
180
200
1998 2000 2002 2004 2006 2008 2010


Figura 1 - Gráfico Evolução das reservas brasileiras




Observe que as reservas brasileiras dispararam depois de 2005. O gráfico retrata isso mais
facilmente!


B) GRÁFICOS EM BARRAS HORIZONTAIS

Quando as legendas não são breves, usam-se de preferência, os gráficos em barras horizontais. Neles,
os retângulos têm a mesma altura e as bases são proporcionais aos respectivos dados.


Exemplo :
Tabela 2.6 Empresas com maior número de funcionários
entre as maiores empresas de tecnologia do Brasil

Empresas Funcionários
ATENTO BRASIL (Serviços) 54.415
CONTAX (Serviços) 49.397
DEDIC (Serviços) 14.903
EMBRATEL (Comunicação) 14.268
TELEFUTURA (Serviços) 11.174
CSU CARDSYSTEM (Serviços) 10.153
TIM (Comunicação) 9.972
SERPRO (Serviços de Software) 9.960
CTBC (Comunicação) 8.734
EDS (Serviços) 8.239
Fonte: Info Exame, ago. 2007


a
0 10.000 20.000 30.000 40.000 50.000 60.000
ATENTO BRASIL (Serviços)
CONTAX (Serviços)
DEDIC (Serviços)
EMBRATEL (Comunicação)
TELEFUTURA (Serviços)
CSU CARDSYSTEM (Seviços)
TIM (Comunicação)
SERPRO (Serviços de Software)
CTBC (Counicação)
EDS (Serviços)


Figura 2 - Gráfico Empresas com maior número de funcionários entre as maiores empresas de
tecnologia do Brasil.


ATIVIDADE 2

Reproduza os dois tipos de gráficos anteriores usando uma planilha
eletrônica, buscando novos dados em jornais ou em revistas, e, a seguir,
compare os resultados: lembre-se de que o resultado deverá ser o mesmo..



c) Gráficos em barras verticais (colunas)

Quando as legendas não são breves, usam-se, de preferência, os gráficos em barras verticais. Nesses
gráficos, os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados.

Exemplo:
A tabela a seguir mostra alguns resultados das empresas com maior crescimento de vendas - em % -
entre as 200 maiores empresas de tecnologia do Brasil.

Tabela 2.7 Empresas com maior crescimento de vendas entre as
200 maiores empresas de tecnologia do Brasil.

Empresas Vendas (%)
VIATELECOM (Comunicação) 181,80
NEXTSYS (Software) 156,90
PROVIDER (Serviços) 85,30
TEELAP (Distribuição) 84,10
POSITIVO (Hardware) 77,60
HOLDI TI (Serviços) 74,40
SYNTAX (Hardware) 71,10
TIVIT (Serviços) 70,90
NEXTEL (Comunicação) 67,10
WITTEL (Software) 65,00
Fonte: Info Exame, ago. 2007.

0,00
20,00
40,00
60,00
80,00
100,00
120,00
140,00
160,00
180,00
200,00
VI AT ELECOM
(Comuni cação)
NEXT SYS
(Ser vi ços de
Sof t war e
PROVI DER
(Ser vi ços)
T EELAP
(Di st r i bui ção)
POSI T I VO
(Har dwar e)
HOLDI T I
(Ser vi ços)
SYNT AX
(Har dwar e)
T I VI T (Ser vi ços) NEXT EL
(Comuni cação)
WI T T EL (Ser vi ços
de Sof t war e)

Figura 3 - Gráfico Empresas com maior crescimento de vendas entre as 200 maiores empresas de
tecnologia do Brasil.


d) Gráficos em colunas superpostas

Os gráficos em colunas superpostas diferem dos gráficos em barras ou colunas convencionais apenas
pelo fato de apresentarem cada barra ou coluna segmentada em partes por componentes. Servem para
representar comparativamente dois ou mais atributos.

Exemplo:

Construção de um diagrama em colunas superpostas que retrate os lucros retidos e os
dividendos da Empresa de Aço Steel Corporation , 1969-74, em milhões de dólares.

Tabela 2.8 lucros retidos e os dividendos da Steel Corporation, 1969-74.

Ano Lucros Dividendos Lucros Retidos
1969
1970
1971
1972
1973
1974
217
148
154
157
326
635
130
130
98
87
87
119
87
18
56
70
239
516
Fonte: Fictícia

0
100
200
300
400
500
600
700
1969 1970 1971 1972 1973 1974

Figura 4 - Gráfico lucros retidos e os dividendos da Steel Corporation, 1969-74.



ATIVIDADE 2.3

Reproduza os dois tipos de gráficos anteriores, usando uma planilha eletrônica, buscando
também novos dados em jornais ou em revistas. A seguir, compare os resultados; lembrando-se
de que este deverá ser o mesmo.

E) GRÁFICOS EM SETORES (PIZZA)


Os gráficos em setores são construídos com base em um círculo e são empregados sempre que
desejamos ressaltar a participação do dado no total. O total é representado pelo círculo, que fica
dividido em tantos setores quantas são as partes. Os setores são tais que suas áreas são
respectivamente proporcionais aos dados da série. O gráfico em setores só deve ser empregado
quando há, no máximo, sete dados para não sobrecarregar sua partição.


Exemplo:

Construção de um diagrama em setores que retrate a participação no mercado mundial das
empresas de smartphones.


Tabela 2.9 Participação no mercado mundial dos fabricantes de
smartphones.


Empresas
Participação no
mercado mundial
(%)
Symbian 71,7
Linux 14,3
Windows Mobile 6,9
Blackberry 4,7
Palm OS 2,3
Outros 0,1
Fonte: Info Exame, ago. 2007

Symbian
71,7%
Linux
14,3%
Windows Mobile
6,9%
Blackberry
4,7%
Outros
0,1%
Palm OS
2,3%
Symbian
Linux
Windows Mobile
Blackberry
Palm OS
Outros

Figura 5 - Gráfico Participação no mercado mundial dos fabricantes de smartphones.


Observe que, atualmente, a empresa Symbian domina o mercado de smartphones!




F) GRÁFICO POLAR (RADAR)

O gráfico polar é o ideal para representar séries temporais cíclicas, isto é, séries ideais que
apresentem em seu desenvolvimento determinada periodicidade, como a ocorrência de chuvas no ano
numa determinada região, a variação da temperatura ao longo do dia, a venda de monitores da filial 1
durante a semana, o consumo de energia elétrica durante o mês ou ano, o número de passageiros de
uma linha de ônibus ao longo da semana, etc.

O gráfico polar faz uso do sistema de coordenadas polares.

Exemplo:

Dada a série: número de ocorrências de manutenção efetuadas nos computadores da companhia
InfoWay em 2007.


Tabela 2.10 Número de ocorrências de manutenção

MESES
OCORRÊNCIAS
Janeiro 148
Fevereiro 164
Março 152
Abril 188


















1. traçamos uma circunferência de raio arbitrário (em particular, damos preferência ao raio de
comprimento proporcional à média dos valores da série);
6 construímos uma semi-reta (de preferência, na horizontal) partindo de O (pólo) e com uma
escala (eixo polar);
7 dividimos a circunferência em tantos arcos quantas forem às unidades temporais;
8 traçamos, a partir do centro O (pólo), semi-reta passando pelos pontos de divisão;
9 marcamos os valores correspondentes das ocorrências de manutenção, iniciando pela semi-reta
horizontal (eixo polar);
10 ligamos os pontos encontrados com segmentos de reta;
11 se pretendermos fechar a poligonal obtida, empregamos uma linha interrompida.



Figura 6 - Gráfico número de ocorrências efetuadas nos computadores em 2007

Pelo gráfico, percebemos que os meses em que houve mais ocorrências efetuadas nos
computadores foram outubro e novembro; com essa informação, podemos nos planejar para
esses meses, contratando mais funcionários, etc. Observe quanto uma informação como essa
é importante em sua vida profissional!

Maio 160
Junho 176
Julho 164
Agosto 184
Setembro 164
Outubro 219
Novembro 211
Dezembro 140
FONTE: Sindan.
Exemplo 2:

Comparar os itens mais vendidos de uma empresa de informática, por meio de gráfico polar, nos
meses de janeiro e fevereiro de 2010.


2.11 Itens mais vendidos de uma empresa de informática.

Itens mais
Vendidos
Janeiro Fevereiro
Placas-mãe 280 250
Teclados 350 400
Mouses 400 320
Impressoras 180 220
Fontes
203 150
Gabinetes 281 260
Processadores 98 130

0
100
200
300
400
Placas-mãe
Teclados
Mouses
Impressoras Fontes
Gabinetes
Processadores
Figura 7 – Gráfico itens mais vendidos de uma empresa de informática

____ Vendas em janeiro - - - - Vendas em fevereiro


Análise:

Observando o gráfico polar, verificamos que houve queda de vendas em Placas-mãe, mouses, fontes
e gabinetes, enquanto as vendas aumentaram para teclados, impressoras e processadores.

2.3 Uso indevido de gráficos

Muitas vezes, o uso indevido dos gráficos pode trazer uma interpretação falsa dos dados que estão
sendo analisados, chegando mesmo a confundir o leitor. Vejamos, através de um exemplo, como esse
fato pode ocorrer. Os dois gráficos apresentados a seguir representam os mesmos dados, e a primeira
impressão é a de que os dois representam dados nitidamente diferentes.

No gráfico (a), as flutuações das vendas aparecem nitidamente, já no gráfico(b), tem-se a impressão
de que a flutuação das vendas não manifesta praticamente tendência alguma, exceto leve flutuação.
Trata-se, na realidade, de um problema de construção de escalas. Enquanto o gráfico apresenta-se
com uma escala mais ou menos convencional, o gráfico(b) revela proporções consideravelmente
diferentes para as escalas em que foram divididos os dois eixos.





Vendas de computadores no ano de 2009 da empresa ABC informática.

0
1000
2000
3000
4000
J
a
n
F
e
v
M
a
r
A
b
r
M
a
i
J
u
n
J
u
l
A
g
o
S
e
t
O
u
t
N
o
v
D
e
z

Figura 8 – Gráfico A – Visão real dos dados

0
1000
2000
3000
4000
Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez

Figura 9 – Gráfico B - Visão distorcida dos dados

Veja os dados reais de vendas de computadores no ano de 2009 da empresa ABC informática:

Tabela 2.12 Vendas de computadores no ano de 2009 da empresa ABC informática

Mês Vendas
Jan 2401
Fev 2520
Mar 1900
Abr 2610
Mai 1940
Jun 2750
Jul 2200
Ago 2970
Set 2980
Out 3180
Nov 3420
Dez 3800



ATIVIDADE 2.4

1) Reproduza os gráficos anteriores, manualmente e usando uma planilha eletrônica, buscando
novos dados em jornais ou em revistas, e, a seguir, compare os resultados; lembrando-se de que
o resultado deverá ser o mesmo.

2) Monte um gráfico do tipo barras verticais das empresas que apresentaram maior lucro, em
milhões de reais, entre as empresas de tecnologia:

Empresas
Lucro
(em Milhões de Reais)
Empresa 1 150,50
Empresa 2 95,70
Empresa 3 47,30
Empresa 4 42,90
Empresa 5 37,50
Empresa 6 33,60
Empresa 7 27,30
Empresa 8 19,10
Empresa 9 9,30
Empresa 10 7,90

3) Numa empresa de manutenção em informática, 60% dos funcionários vão fazer manutenção
em monitores, 24 % em mouses e teclados, 8% em fontes e 8% nas demais peças do computador.
O gráfico que melhor representa essa situação é o de:

e) ( ) Linha
f) ( ) Barras
g) ( ) Setores
h) ( ) Colunas superpostas





Chegamos ao final de mais um capítulo; nele, vimos às diversas formas de organizar e analisar os
dados de uma série de observações, as tabelas de frequências e os métodos gráficos. É
importante que esses conceitos estejam bem compreendidos; caso contrário, faça uma revisão,
pois eles serão necessários nos próximos capítulos.

Vamos para o capítulo 3!
CAPÍTULO 3

MÉTODOS GRÁFICOS






3.1 Distribuição de frequência

Distribuição de frequência é um tipo de tabela que condensa uma coleção de dados conforme as
frequências (repetições de seus valores).

Distribuição de frequências é uma técnica para apresentar uma coleção de objetos
classificados de modo a mostrar a quantidade existente em cada classe. Será muito utilizada
em frequências de probabilidades. Resumidamente, significa agrupar os dados repetidos.




3.1.1 Tabela primitiva ou tabela de dados brutos

É a tabela inicial de coleta de dados, os elementos não são numericamente organizados. É difícil
formar uma idéia exata do comportamento da pesquisa efetuada.






Olá, Aluno (a)!

Neste capítulo, estudaremos métodos gráficos, que são os histogramas que servirão de
base para a compreensão dos capítulos seguintes. Entender esse conteúdo, então, é de
fundamental importância, pois a análise gráfica em estatística é feita com base nele.

Bons estudos!
Prof. Sebastião A. Carneiro
Olá, Turma!
Acompanhe atentamente os passos seguintes, pois vamos usar um exemplo para deixar bem clara
cada etapa.

Prof. Sebastião A. Carneiro
Exemplo:

Foram tomados os preços de 20 monitores de 15 polegadas, LCD, em 20 empresas de informática.




Figura 10 - Monitores LCD

Tabela 3.1 Preços de 20 monitores LCD

Empresas
Valor do
monitor
Empresa 1 R$ 418,0
Empresa 2 R$ 420,0
Empresa 3 R$ 418,0
Empresa 4 R$ 410,0
Empresa 5 R$ 413,0
Empresa 6 R$ 430,0
Empresa 7 R$ 420,0
Empresa 8 R$ 430,0
Empresa 9 R$ 416,0
Empresa 10 R$ 418,0
Empresa 11 R$ 418,0
Empresa 12 R$ 420,0
Empresa 13 R$ 417,0
Empresa 14 R$ 418,0
Empresa 15 R$ 420,0
Empresa 16 R$ 430,0
Empresa 17 R$ 418,0
Empresa 18 R$ 430,0
Empresa 19 R$ 415,0
Empresa 20 R$ 418,0








Como podemos ver, não é possível identificar, de imediato, quem tem o menor ou o maior
preço.

3.1.2 ROL
É a tabela obtida após a ordenação dos dados (crescente ou decrescente).







Exemplo

Tabela 3.2 Ordenação dos preços dos monitores

Empresas
Valor do
monitor
Empresa 4 R$ 410,0
Empresa 5 R$ 413,0
Empresa 19 R$ 413,0
Empresa 9 R$ 415,0
Empresa 13 R$ 416,0
Empresa 1 R$ 416,0
Empresa 3 R$ 416,0
Empresa 10 R$ 416,0
Empresa 11 R$ 416,0
Empresa 14 R$ 417,0
Empresa 17 R$ 417,0
Empresa 20 R$ 418,0
Empresa 2 R$ 418,0
Empresa 7 R$ 418,0
Empresa 12 R$ 420,0
Empresa 15 R$ 420,0
Empresa 6 R$ 420,0
Empresa 8 R$ 420,0
Empresa 16 R$ 430,0
Empresa 18 R$ 430,0






3.1.3 Distribuição de frequência sem intervalos de classe

Vamos continuar utilizando o exemplo anterior para construir nossa tabela ROL.
Observou!? Agora temos, de imediato, a empresa que vende mais barato, a que
vende mais caro...
A distribuição de frequência sem intervalos de classe é a simples condensação dos dados, conforme
as repetições de seus valores; ou seja, é a ocorrência que o valor repete. É usada para diminuir o
tamanho da série.

Exemplo:

Vamos continuar utilizando o exemplo anterior para construir a distribuição de frequência sem
intervalos de classe.

Tabela 3.3 Valor do monitor e número de empresas com o mesmo preço

Valor do
monitor
Número de empresas
com o mesmo preço
R$ 410,0 1
R$ 413,0 2
R$ 415,0 1
R$ 416,0 5
R$ 417,0 2
R$ 418,0 3
R$ 420,0 4
R$ 430,0 2
Total 20



a) Diagrama de uma distribuição de frequência

Uma distribuição de frequência sem intervalos de classe é representada graficamente por um
diagrama, em que cada valor da variável é representado por um segmento de reta vertical e de
comprimento proporcional à respectiva frequência.

Notou!? O tamanho da tabela foi reduzido; as informações continuaram as mesmas.

FIGURA 11 – Diagrama de uma distribuição de freqüência sem intervalo de classe.


3.1.4 Distribuição de frequência com intervalos de classe

Quando a amostra é grande, a tabela também tende a ser grande; nesse caso, é mais racional efetuar o
grupamento dos valores em vários intervalos de classe.

Exemplo:

Ao acaso, foram pesquisados os preços de 200 monitores LCD, de um mesmo modelo, em 200
empresas de informática. Veja os valores no anexo da apostila e observe que, após o ordenamento dos
preços em ordem crescente (ROL), o valor mínimo encontrado é R$ 412,0 e o valor máximo é R$
440,0. Com os preços ordenados, montamos a tabela a seguir:

Tabela 3.4 Preços de 200 monitores LCD em 200 empresas de informática

Valor do monitor
(R$)
Frequências
412 |------- 415 10
415 |------- 418 15
418 |------- 421 20
421 |------- 424 25
A partir de agora, chamaremos o número de repetições de “frequência de ocorrência” ou
simplesmente de “frequência”.

Número de repetições = frequência de ocorrência = frequência.
424 |------- 427 30
427 |------- 430 30
430 |------- 433 28
433 |------- 436 22
436 |------- 439 12
439 |------- 442 * 8
Total 200



* Se você está com dúvida sobre o modo como a tabela foi montada, não se
preocupe, pois o objetivo deste capítulo é exatamente esse. Fique atento e
não perca os próximos passos da matéria.


A partir de agora, iremos chamar a primeira coluna de “classe”.

a) Elementos de uma distribuição de frequência com intervalos de classe




a) Classe

Classe é o intervalo de variação da variável, simbolizada por i. O número total de classes é
simbolizado por k.

Exemplo:

Na tabela anterior, temos: k=10 e para 415 |------- 418 a classe é 2 (i =2).

b) Limites de classe:

São os extremos de cada classe. O menor número é o limite inferior de classe (li) e o maior número é
o limite superior de classe (Li).

Exemplo:

Em 427 |------- 430... Limite inferior l6= 427 e limite superior L6= 430

O símbolo |------ representa um intervalo fechado à esquerda e aberto à direita. O dado 427 do ROL,
não pertence à classe 5, e sim, classe 6, representada por 427 |----- 430.

c) Amplitude de intervalo de classe

É a diferença entre o limite superior e o inferior da classe. É simbolizada por hi = Li - li.


Antes de iniciarmos a construção de uma distribuição de frequência com intervalos de classe,
vamos ver alguns conceitos importantes.

Exemplo:

Na tabela anterior, hi= 427 – 424 = 3.

Obs.: Na distribuição de frequência com classe, o hi será igual em todas as classes.

d) Amplitude total da distribuição

É a diferença entre o limite superior da última classe e o limite inferior da primeira classe.
AT = L(max) - l(min).

Exemplo:

Na tabela anterior, AT = 442 - 412= 30.

e) Amplitude total da amostra

É a diferença entre o valor máximo e o valor mínimo da amostra.

Em que:

AA = Xmax - Xmin.

Xmax = 440 (máximo valor real encontrado do monitor)

Xmin = 412 (mínimo valor real encontrado do monitor)

Em nosso exemplo, AA = 440 - 412 = 28.

Observe que: AT sempre será maior que AA. Você tem que estar convencido dessa afirmação.

f) Ponto médio de classe:

É o ponto que divide o intervalo de classe em duas partes iguais.

Exemplo:

Em 418 |------- 421 o ponto médio x3 = (418+421)/2 = 419,5, ou seja, x3=(l3+L3)/2.


Veja como fica a distribuição de frequência de preços de 200 monitores anterior:

Tabela 3.5 Classe Frequência de preços de 200 monitores


Classe Frequências
i=1 (primeira classe) 412 |------- 415 10
i=2 (segunda classe) 415 |------- 418 15
i=3 (terceira classe) 418 |------- 421 20
i=4 (quarta classe) 421 |------- 424 25
i=5 (quinta classe) 424 |------- 427 30
i=6 sexta classe) 427 |------- 430 30
i=7 (sétima classe) 430 |------- 433 28
i=8 (oitava classe) 433 |------- 436 22
i=9 (nona classe) 436 |------- 439 12
i=10 (décima classe) 439 |------- 442 8
Total 200






ATIVIDADE 3.3

1. Determine a amplitude da amostra -1, -2 , 3, 4, 5.
2. Dada a distribuição de frequência a seguir, que representa os diâmetro de furos encontrados
em gabinetes de computadores:




















Determine:
a) o limite superior da sexta classe;
b) o limite inferior da segunda classe;
c) a Amplitude total da distribuição;
d) o Ponto médio da quinta classe;
e) o intervalo de classe;
f) quantos computadores apresentaram diâmetros de furos entre 28 a 30,99 mm;
g) quantos computadores apresentaram diâmetros de furos igual ou superiores a 22 mm;
h) percentualmente, quantos computadores apresentaram diâmetros de furos entre 16 e 27,99
mm.

Diâmetros de Furos
(mm) Computadores
10 |------- 13 5
13 |------- 16 15
16 |------- 19 25
19 |------- 22 35
22 |------- 25 45
25 |------- 28 30
28 |------- 31 28
31 |------- 34 22
34 |------- 37 12
37 |------- 40 8
Total 225

c) Método prático para construção de uma distribuição de freqüência







Depois de feita a pesquisa de campo, siga os seguintes passos:

(Vamos utilizar o exemplo dos preços de 200 monitores LCD levantados em 200 empresas de
informática).

1º - Organize os dados brutos em um ROL;
2º - Calcule a amplitude amostral AA;

No nosso exemplo: AA =440 - 412 =28.

3º - Calcule o número de classes por meio da "Regra de Sturges";

A Regra de Sturges é uma fórmula que compacta os dados e estabelecerá o número de classes
(número de linhas) que a distribuição de frequência terá. Ela é dada conforme a fórmula seguir:

i =1 + 3,3 . log n

Em que:

i = número de classes (valor inteiro mais próximo);
n = quantidade de amostras da pesquisa.


Obs.: Qualquer regra para determinação do número de classes da
distribuição de frequência (o número de linhas que terá a tabela) não nos
leva a uma decisão final; isso pois esta vai depender de um julgamento
pessoal, que deve estar ligado à natureza dos dados e à clareza que se deseja
obter na distribuição de frequência.

Existem outras opções à regra de Sturges, como:

i = n
1/2




No caso do nosso exemplo dos 200 monitores:

n = 200 amostras

i =1 + 3,3 . log 200

i = 8,6 , adotamos i = 9, ou seja a tabela terá 9 linhas



Vamos mostrar um método prático para construção de uma distribuição de frequência.


Observe que, efetivamente no nosso exemplo, i = 10.
Veremos em breve o motivo.



4º - Calcule a amplitude do intervalo de classe h = AA/i.;

No nosso exemplo: AA/i = 28/9 = 3,11.

Obs.: Adotaremos neste caso h = 3 para termos intervalos de classe valores inteiros e assim obter uma
melhor visualização na tabela.



5º - Monte a tabela da seguinte forma:

ℓi |------- Li= ℓi + h

Exemplo:


1
|------- L
1
= ℓ
1
+ h
412 |------- 415

Em que:


1
é o menor número inteiro da amostra.

Obs.: ℓ
1
deve ser preferencialmente um valor inteiro menor ou igual a Xmin e
L
1
deve ser preferencialmente um valor inteiro maior ou igual a ℓ
1
+ h.

No nosso exemplo: o menor número da amostra é 412. Assim, teremos: L
1
= ℓ
1
+ h = 412+3 = 415,
logo, a primeira classe será representada por 412 |------- 415.

O primeiro elemento das classes seguintes sempre serão formados pelo último elemento da classe
anterior.

Assim a segunda classe fica:


2
= L
1
e

L
2
= ( ℓ
2
+ h )



2
|------- L
2
= ( ℓ
2
+ h )



2
= 415 e L
2
= 415 + 3 = 418

415 |------- 418 Observe que confere com a tabela 3.6.

As classes seguintes respeitarão o mesmo procedimento.


Ao final da montagem da tabela, percebemos que a última classe é 10 e não 9, conforme
estabelecia a regra de sturges. Isso ocorre porque a regra de sturges fornece a orientação do
número de classe, mas preferimos utilizar números inteiros nos limites inferiores e superiores
de classe para melhorar a apresentação da tabela, com isto, a classe passou de 9 para 10.
c) Representação gráfica de uma distribuição

Em todos os gráficos acima, utilizamos o primeiro quadrante do sistema de eixos coordenados
cartesianos ortogonais. Na linha horizontal (eixo das abscissas), colocamos os valores da variável e,
na linha vertical (eixo das ordenadas), as frequências.
.

Histograma: é formado por um conjunto de retângulos justapostos, cujas bases se localizam
sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os pontos
médios dos intervalos de classe. A área de um histograma é proporcional à soma das
frequências simples ou absolutas.


Exemplo: Vamos montar o histograma da distribuição de frequência anterior:

Tabela 3.6 Valores dos monitores

Valor do monitor
(R$)
Frequências
412 |------- 415 10
415 |------- 418 15
418 |------- 421 20
421 |------- 424 25
424 |------- 427 30
427 |------- 430 30
430 |------- 433 28
433 |------- 436 22
436 |------- 439 12
439 |------- 442 8
Total 200



Histograma da distribuição de frequência


Figura 12 - Histograma da distribuição de frequência



Quem estiver utilizando a planilha eletrônica Excel deve instalar esse recurso em
Ferramentas/Suplementos/Ferramentas de Análise; caso contrário, pode-se utilizar as
ferramentas de desenho dos aplicativos.



3.1.5 Polígono de frequência

É um gráfico em linha, sendo as frequências marcadas sobre perpendiculares ao eixo
horizontal, levantadas pelos pontos médios dos intervalos de classe. Fornece, na realidade, o
contorno, ou seja, a envoltória, em vez de retângulos paralelos.


Exemplo de polígono de frequência:



Figura 13 - Exemplo de Polígono de frequência da distribuição de dados

a) Frequências simples ou absolutas

São os valores que realmente representam o número de dados de cada classe. A soma das
frequências simples é igual ao número total dos dados da distribuição. Veja exemplo a seguir.

b) Frequências relativas

São os valores das razões entre as frequências absolutas de cada classe e a frequência total da
distribuição. A soma das frequências relativas é igual a 1 (100 %).

Exemplo de frequências relativas fri (%)


Tabela 3.7 Exemplo de frequências relativas fri

classe fi fri (%)
412 |------- 415 10 5,0%
415 |------- 418 15 7,5%
418 |------- 421 20 10,0%
421 |------- 424 25 12,5%
424 |------- 427 30 15,0%
427 |------- 430 30 15,0%
430 |------- 433 28 14,0%
433 |------- 436 22 11,0%
436 |------- 439 12 6,0%
439 |------- 442 8 4,0%
Total 200 100%
c) Frequência simples acumulada de uma classe – Fi

É o total das frequências de todos os valores inferiores ao limite superior do intervalo de uma
determinada classe.


Tabela 3.8 Exemplo de frequências relativas fri e acumulada Fri

classe fi fri (%) Fi
412 |------- 415 10 5,0% 10
415 |------- 418 15 7,5% 25
418 |------- 421 20 10,0% 45
421 |------- 424 25 12,5% 70
424 |------- 427 30 15,0% 100
427 |------- 430 30 15,0% 130
430 |------- 433 28 14,0% 158
433 |------- 436 22 11,0% 180
436 |------- 439 12 6,0% 192
439 |------- 442 8 4,0% 200
Total 200 100%



d) Frequência relativa acumulada de uma classe – Fri

É a frequência acumulada da classe, dividida pela frequência total da distribuição.


Tabela 3.9 Exemplo de frequências relativas fri e acumulada Fri

classe fi fri (%) Fi Fri (%)
412 |------- 415 10 5,0% 10 5,0%
415 |------- 418 15 7,5% 25 12,5%
418 |------- 421 20 10,0% 45 22,5%
421 |------- 424 25 12,5% 70 35,0%
424 |------- 427 30 15,0% 100 50,0%
427 |------- 430 30 15,0% 130 65,0%
430 |------- 433 28 14,0% 158 79,0%
433 |------- 436 22 11,0% 180 90,0%
436 |------- 439 12 6,0% 192 96,0%
439 |------- 442 8 4,0% 200 100,0%
Total 200 1

Observar que temos o valor acumulativo em percentagens. Como exemplo, podemos ver da
tabela anterior que o preço do monitor até R$ 436,00 está entre os 90% dos monitores pesquisados, ou
seja, apenas 10% dos monitores custam mais do que R$ 436,00

3.1.6 Curva de Frequência (Curva polida):

Enquanto o polígono de frequência nos dá a imagem real do fenômeno estudado, a curva de
frequência nos dá a imagem tendencial; ou seja, mostra o comportamento dos dados segundo um
gráfico de linha já estudado. O polimento, do ponto de vista geométrico, corresponde à eliminação
dos vértices da linha poligonal de um polígono de frequência. Para conseguir o polimento, vamos
utilizar uma fórmula bastante simples, apresentada a seguir:


A fci (frequência calculada da classe ou frequência polida) é, na realidade, uma média ponderada
das frequências em torno da frequência a ser polida.

( )
4
. 2 fpost fi fant
fci
+ +
=

Em que:

fci = frequência calculada da classe considerada (frequência polida).
fi = frequência simples da classe a ser polida.
fant = frequência simples da classe anterior a ser polida.
fpost = frequência simples da classe posterior a ser polida.




Figura 14 - Curva de Frequência ou Curva polida da distribuição de dados


ATIVIDADE 3.5

1) A tabela a seguir apresenta as velocidades dos Links de Internet de 400 computadores
conectados a uma grande empresa.

Kbytes
Quantidade de
computadores
conectados
300 |------- 400 14
400 |------- 500 46
500 |------- 600 58
600 |------- 700 76
700 |------- 800 68
800 |------- 900 62
900 |------- 1000 48
1000 |------- 1100 22
1100 |------- 1200 6

Com relação a essa tabela, determine:
a) a frequência da quarta classe;
b) a frequência relativa da sexta classe;
c) a frequência acumulada da quinta classe;
d) o número de computadores cuja velocidade do link não atinge 700 kbites;
e) o número de computadores cuja velocidade do link atinge e ultrapassa 800 kbites;
f) a percentagem de computadores cuja velocidade do link não atinge 600 kbites;
g) a percentagem de computadores cuja velocidade do link seja maior ou igual a 900
kbites;
h) a percentagem de computadores cuja velocidade do link seja maior ou igual a 500
kbites e inferior a 1000 kbites;
i) a classe dos 72º computadores mais rápidos no link.

2) Os dados a seguir, obtidos em uma pesquisa realizada no comércio local, apresentam as
diferenças encontradas nos preços de 100 placas-mãe. Com base nisso:

a) forme com esses dados uma distribuição de frequência com intervalo de classe;
b) confeccione o histograma e o polígono de frequência correspondentes.


3,9 7,4 10.0 11,8 2,3 4,5 10,5 8,4 15,6 7,6
18,8 2,9 2,3 0,4 5 9 5,5 9,2 12,4 8,7
4,5 4,4 10,6 5,6 8,5 2,4 17,8 11,6 0,8 4,4
7,1 3.2 2,7 9,5 2,7 9,5 13,1 3,8 6,3 7,9
4,8 5,3 12,9 6,9 6,3 7,5 2,6 3,3 4,6 16
3,9 7,4 10.0 11,8 2,3 4,5 10,5 8,4 15,6 7,6
18,8 2,9 2,3 0,4 5 9 5,5 9,2 12,4 8,7
4,5 4,4 10,6 5,6 8,5 2,4 17,8 11,6 0,8 4,4
7,1 3.2 2,7 9,5 2,7 9,5 13,1 3,8 6,3 7,9
4,8 5,3 12,9 6,9 6,3 7,5 2,6 3,3 4,6 16

3) Examinando o histograma abaixo, que corresponde às notas relativas à aplicação de um teste
de inteligência a um grupo de alunos do curso de análise e desenvolvimento de sistema,
responda:
a. Qual é o intervalo de notas que apresentou maior frequência?
b. Qual a amplitude total da distribuição?
c. Qual o número total de alunos?
d. Qual é a frequência do intervalo de classe 14 |– 15?
e. Quantos alunos receberam notas entre 9 e 16?
f. Quantos alunos receberam notas não-inferiores a 12?




25






20






15






10






5



1

4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Olá, Aluno (a)!

Chegamos ao final do terceiro capítulo, em que foram apresentadas diversas formas de
organizar e analisar os dados de uma série de observações, as tabelas de frequências e os
métodos gráficos. É importante que esses conteúdos estejam bem compreendidos; caso
contrário, faça uma revisão, pois eles serão necessários nos próximos capítulos.

Sigamos adiante!


NOTAS
CAPÍTULO 4
MEDIDAS DE ORDENAMENTO E DE POSIÇÃO



4.1 MEDIDAS DE POSIÇÃO
As mais importantes medidas de posição são as medidas de tendência central, pois se verifica uma
tendência dos dados observados a se agruparem em torno dos valores centrais.

As medidas de tendência central mais utilizadas são: média aritmética, moda e mediana. Outras
medidas de tendência central menos utilizadas, que não estudaremos neste curso, são as médias:
geométrica, harmônica, quadrática, cúbica e bi quadrática.
Outras medidas de posição são as separatrizes, que englobam: a própria mediana, os decis, os quartis
e os percentis.

4.2 MÉDIA DE POPULAÇÃO E DE AMOSTRAS
Em estatística, o conceito de média também pode ser usado para descrever um conjunto de
observações. Quando o conjunto das observações é uma população, é chamado de média da
população e representaremos por µ. Quando o conjunto das observações é uma amostra estatística, é
chamado de média amostral e representaremos por X . Na prática, ao lidar com grandes populações,
é quase sempre impossível achar o valor exato da média da população, devido ao tempo, ao custo e a
outras restrições de recursos. Por esse motivo, estudaremos somente a média amostral que será
chamada de média, simplesmente.

4.3 REPRESENTAÇÃO DOS VALORES DE UMA SÉRIE DE VALORES
Os valores de uma série de valores serão representados por uma letra maiúscula, normalmente X, e a
sua posição na série, por uma letra minúscula, normalmente i. A quantidade total de valores na série
será representada por n.

Na série X: 4, 8, 12, 20 e 50, temos: X1= 4; X2= 8; X3=12; X4=12; X5=50 e n=5.


Olá, Aluno (a)!

Neste capítulo, estudaremos as medidas de ordenamento e de posição, denominadas também de
medidas de tendência central, tais como média, moda, mediana e separatrizes, as quais nos
permitirão resumir e analisar uma série de dados.

Bons estudos!

Prof. Sebastião A. Carneiro
Em um conjunto de dados, podemos definir vários tipos de médias. Porém, em nossos
estudos, vamos nos limitar ao mais importante: a média aritmética.

4.4 MÉDIA ARITMÉTICA ( )

É igual ao quociente da soma dos valores do conjunto e o número total dos valores.
n
Xi
X

=

A média sempre será indicada por uma letra maiúscula com um traço superior.


Exemplo 1:
Calcular a média dos valores anteriores:
4, 8, 12, 20 e 50.

= 4+ 8+ 12+ 20 + 50 = 94_ = 18,8
5 5
Exemplo 2:
Calcular a média dos valores a seguir:
2; -4; 0; 11; 1; 20; 30.
= 2+ -4+ 0+ 11+ 1+ 20+ 30 = 60 = 8,57
7 7

4.4.1 Média Aritmética para dados não-agrupados:
Quando desejamos conhecer a média dos dados não-agrupados em tabelas de frequências,
determinamos a média aritmética simples, conforme já visto no item anterior.
Exemplo:
A venda diária de memória RAM 1 GB , durante uma semana, foi de 100, 140, 130, 150, 160, 180 e
120 unidades; então, a venda média diária de memória RAM foi:

Figura 15 - Memória RAM
.= (100+140+130+150+160+180+120) / 7 = 140 unidades
O resultado obtido, 140, representa o valor diário de venda de memórias RAM. Ou seja, 140
representa os 7 valores.

4.4.2 DESVIO EM RELAÇÃO À MÉDIA

É a diferença entre cada elemento da série de valores e a média aritmética, ou seja: di = Xi -


No exemplo anterior, temos sete desvios:... d1 = 100 - 140 = - 40 , ...d2 = 140 - 140 = 0 , ...d3 = 130 -
140 = -10 , ...d4 = 150 - 140 = 10 ,... d5 = 160 - 140 = 20 ,... d6 = 180 - 140 = 40 ...e... d7 = 120 - 140
= - 20.

4.4.3 PROPRIEDADES DA MÉDIA

1ª propriedade: A soma algébrica dos desvios em relação à média é sempre nula.




No exemplo anterior: d1+d2+d3+d4+d5+d6+d7 = 0

2ª propriedade: Somando-se (ou subtraindo-se) uma constante (c) a todos os valores de uma
variável, a média do conjunto fica maior (ou menor) dessa constante.

Se no exemplo original somarmos a constante 2 a cada um dos valores da variável, teremos:
= 102+142+132+152+162+182+122 / 7 = 142 unidades ou
= .+ 2 = 140 +2 = 142 unidades

3ª propriedade: Multiplicando-se (ou dividindo-se) todos os valores de uma variável por
uma constante (c), a média do conjunto fica multiplicada (ou dividida) por essa constante.


Se no exemplo original multiplicarmos a constante 3 a cada um dos valores da variável, teremos:
a) Z = 300+420+390+450+480+540+360 / 7 = 420 unidades
Z= x 3 = 140 x 3 = 420 unidades
ATIVIDADE 4.1

1) Marque a opção correta. Na tabela primitiva: {6, 2, 7, 6, 5, 4} a soma dos desvios
em relação à média aritmética é igual:
a) ( ) ao número - 4
b) ( ) ao número 8
c) ( ) ao número 0
d) ( ) ao número 25
e) ( ) ao número 4
2) Numa empresa de informática, a média de vendas é de 130 computadores. A
empresa faz uma promoção e a quantidade de unidades vendidas aumenta em
20%. Assim, qual a média de vendas no período da promoção?
3) Marque a opção correta. um professor, após verificar que toda a classe obteve
nota baixa, eliminou as questões a que os alunos não responderam. Com isso, as
notas de todos os alunos foram aumentadas de 3 pontos. Então:
a) ( ) a média aritmética ficou alterada de 3, assim como a soma dos desvios;
b) ( ) a média aritmética diminui de 3;
c) ( ) não houve alteração nem na média nem nos desvios;
d) ( ) a média aritmética aumentou de 3.

4) Considerando que você tem série aritmética, na qual o primeiro termo é -3, a
razão é -5 e o número de elementos é 389, pede-se: qual a soma dos desvios da
série considerada?

5) Qual a soma dos desvios da média da série considerada a seguir?
33 28 23 18 13 8
12 33 54 75 96 117
-9 38 85 132 179 226
-30 43 116 189 262 335
-51 48 147 246 345 444
-72 53 178 303 428 553
-93 58 209 360 511 662

b) Média Aritmética para dados agrupados:
b1) Sem intervalos de classe
Numa rede, trafega um fluxo diário de dados, conforme a tabela a seguir. Qual a média diária de
dados que trafega na rede?
Tabela 4.1 Tráfego de fluxo diário de dados na rede
Fluxo de dados Duração (h)
128 MB 2






Tabela 4.2 Tráfego de fluxo diário de dados na rede representada por Xi fi.





Como a duração são números indicadores da intensidade de cada valor da variável, as frequências
funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada da
seguinte forma:


=
fi
fi Xi
X
.


Devemos, assim, montar uma nova coluna (Xi.fi) na tabela:
Tabela 4.3 Ocorrência de tráfego de fluxo diário (Xi x fi)




256 MB 6
350 MB 8
380 MB 5
400 MB 3
Total 24
O fluxo de dados será representado pela variável Xi, a duração com que os dados trafegam na
rede, representaremos por fi.
Xi fi
128 MB 2
256 MB 6
350 MB 8
380 MB 5
400 MB 3
Total 24
Devemos observar que a média ponderada não é uma nova fórmula para o cálculo da média. Na
realidade, há um agrupamento dos valores repetidos.
Xi fi Xi.fi
128 MB 2 128 . 2 = 256
256 MB 6 256 . 6 = 1536
350 MB 8 350 . 8 = 2800
380 MB 5 380 . 5 = 1900
400 MB 3 400 . 3 = 1200
Total Σ ΣΣ Σ fi = 24 Σ ΣΣ Σ Xi.fi = 7692

Calcular a média conforme a fórmula a seguir:
5 , 320
24
7692
.
= = =


fi
fi Xi
X


Ou seja, a quantidade média de dados que trafegam na rede é de 320,5 MB.

ATIVIDADE 4.2
1-Marque a alternativa correta:
Em uma prova de Estatística, 3 alunos obtiveram a nota 8,2; outros 3 obtiveram a nota 9,0;
5 obtiveram a nota 8,6; 1 obteve a nota 7,0 e 1, a nota 8,9. A média aritmética é:
a) ( ) uma média aritmética simples com valor 8,0;
b) ( ) uma média aritmética simples com valor 8,7;
c) ( ) uma média aritmética ponderada com valor 8,0;
d) ( ) uma média aritmética ponderada com valor 8,5;
e) ( ) nenhuma das respostas anteriores.
2 – Em uma classe de 50 alunos, as notas obtidas foram as seguintes:

Notas
Número de
alunos
4 3
5 8
6 12
7 12
8 8
9 5
10 2

Qual a nota média da turma?

3- Suponha que adicionamos 100 a cada um dos valores de uma amostra. O que acontece
com a média?



b2) Com intervalos de classe
No caso de média aritmética para dados agrupados com intervalos de classe, convencionamos
que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto
médio, e definimos a média da mesma maneira como calculamos a média aritmética para dados
agrupados sem intervalos de classe.

Xi =(Li +li)/2

Em que:

Xi – Ponto médio da classe;
Li – Limite superior da classe;
Li - Limite inferior da classe.



=
fi
fi Xi
X
.


Exemplo:
Vamos usar o exemplo da pesquisa dos preços de 200 monitores LCD da marca AOC, em 200
empresas de informática, para calcular a média de preços.
Tabela 4.4 Preços de 200 monitores LCD da marca AOC em 200 empresas de
informática.












Calculando os valores de Xi. fi, teremos:
Tabela 4.5 Ocorrências de Preços de 200 monitores LCD da marca AOC, em 200
empresas de informática (Xi. fi)

Classe Fi Xi Xi. fi
412 |------- 415 10 413,5 4135
415 |------- 418 15 416,5 6247,5
418 |------- 421 20 419,5 8390
Valor do monitor
(R$)
Frequências
412 |------- 415 10
415 |------- 418 15
418 |------- 421 20
421 |------- 424 25
424 |------- 427 30
427 |------- 430 30
430 |------- 433 28
433 |------- 436 22
436 |------- 439 12
439 |------- 442 8
Total 200
421 |------- 424 25 422,5 10562,5
424 |------- 427 30 425,5 12765
427 |------- 430 30 428,5 12855
430 |------- 433 28 431,5 12082
433 |------- 436 22 434,5 9559
436 |------- 439 12 437,5 5250
439 |------- 442 8 440,5 3524
Total 200 85370

Logo, a média será:
9 , 426
200
85370
.
= = =


fi
fi Xi
X
ATIVIDADE 4.3


1) Calcule o valor médio da placa-mãe (mainboard ou motherboard), cujos valores estão
distribuídos a seguir:

Tipo de
placa-mãe
Valor
R$
Quantidade
Tipo 1 300 |------- 305 14
Tipo 2 305 |------- 310 46
Tipo 3 310 |------- 315 58
Tipo 4 315 |------- 320 76
Tipo 5 320 |------- 325 68
Tipo 6 325 |------- 330 62
Tipo 7 330 |------- 335 48
Tipo 8 335 |------- 340 22

2) Marque a opção correta: Um aluno faz três provas com pesos 2, 2 e 3. Se ele tirou 2 e 7 nas
duas primeiras, quanto precisa tirar na terceira prova para ficar com média maior ou igual a
6?
a) ( ) pelo menos 5
b) ( ) pelo menos 6
c) ( ) pelo menos 7
d) ( ) pelo menos 8




4.5 MODA (MO)
A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição. Já a média
aritmética é a medida de posição que possui a maior estabilidade.
É especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentado sob
a forma de nomes ou categorias, para os quais não se pode calcular a média.

É o valor que ocorre com maior frequência em uma série de valores.

Desse modo, o salário modal dos empregados de uma fábrica é o salário mais comum, isto é, o
recebido pelo maior número de empregados dessa fábrica.

4.5.1 MODA QUANDO OS DADOS NÃO ESTÃO AGRUPADOS

A moda é facilmente reconhecida, basta, de acordo com a definição, procurar o valor que mais se
repete.

Exemplo:
Na série {7 , 8 , 9 , 10 , 10 , 10 , 11 , 12}, a moda é 10.
1. Há séries nas quais não existe o valor modal, isto é, não há repetições de valores.
Exemplo:
A série {3 , 5 , 8 , 10 , 12} não apresenta moda. Ela é amodal.
• .Em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então, que a
série tem dois ou mais valores modais.
Exemplo:
A série {2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9} apresenta duas modas: 4 e 7. Ela é bimodal.

4.5.2 MODA QUANDO OS DADOS ESTÃO AGRUPADOS
a) Sem intervalos de classe
Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta fixar o
valor da variável de maior frequência.

Exemplo: Na medição de temperatura durante o mês de junho de 2005, na cidade de Curitiba, qual a
mais recorrente?
Tabela 4.6 Ocorrências de temperaturas em junho de 2005, na cidade de Curitiba.
Temperaturas Frequência
0º C 3
1º C 9
2º C 12
3º C 6

Resposta: 2º C é a temperatura modal, pois é a de maior frequência.
a) Com intervalos de classe

A classe que apresenta a maior frequência é denominada classe modal. Pela definição, podemos
afirmar que a moda, nesse caso, é o valor dominante que está compreendido entre os limites inferior e
superior da classe modal. O método mais simples para o cálculo da moda consiste em tomar o ponto
médio da classe modal. Damos a esse valor a denominação de moda bruta.
Mo = (ℓ* + L* ) / 2
Em que:
ℓ* = limite inferior da classe modal e,
L*= limite superior da classe modal.


Exemplo:
Calcule o preço modal dos pendrives de 4Gb, os preços estão dispostos na tabela a seguir:


Figura 16 - Pendrive de 4Gb

Tabela 4.7 Distribuição de Frequência dos preços dos pendrives
Preço
R$
Frequência
54|------ 58 9
58|------ 62 11
62|------ 66 8
66|------ 70 5

Resposta: a classe modal é 58|-------- 62, pois é a de maior frequência. ℓ*=58 e L*=62
Mo = (58+62) / 2 = R$ 60 (esse valor é estimado, pois não conhecemos o valor real da moda).
.
O cálculo da moda também pode ser feito pela fórmula de CZUBER. Vale a pena pesquisá-lo.


ATIVIDADE 4.4

1- Calcule o tipo modal dos mouses ópticos a seguir:










2- Calcule o valor modal da placa-mãe (mainboard ou motherboard), cujos valores estão
distribuídos na tabela a seguir:

Tipo de
placa-mãe
Valor R$ Quantidade
Tipo 1 300 |------- 305 14
Tipo 2 305 |------- 310 46
Tipo 3 310 |------- 315 58
Tipo 4 315 |------- 320 76
Tipo 5 320 |------- 325 68
Tipo 6 325 |------- 330 62
Tipo 7 330 |------- 335 48
Tipo 8 335 |------- 340 22

3-quando queremos verificar que tipo de monitor apresentou maior número de defeitos,
utilizamos:

a) ( ) moda;
b) ( ) mediana;
c) ( ) média;
d) ( ) qualquer das anteriores.


Mouse Quantidades
Tipo 1 344
Tipo 2 234
Tipo 3 656
Tipo 4 125
Tipo 5 111
Tipo 6 256
4.6 MEDIANA (MD)

Ordenados os elementos da série de dados, a mediana é o valor (pertencente ou não à série) que a
divide ao meio e ocupa a (n+1)/2 posição na série, isto é, 50% dos elementos da série são menores ou
iguais à mediana e os outros 50% são maiores ou iguais à mediana.


Emprego da Mediana
• Quando desejamos obter o ponto que divide a distribuição em duas partes iguais.
• Quando há valores extremos que afetam de maneira acentuada a média aritmética.
A mediana é usada em computação em diversas aplicações.

Exemplo: Processamento de imagens, mantendo as propriedades das bordas da imagem(filtro
mediana). filtro de mediana é um dos coringas para processamento de imagens.

4.6.1 MEDIANA PARA SÉRIE COM NÚMERO ÍMPAR DE TERMOS

Para Série com número ímpar de termos a mediana pertence à série de dados.

.Exemplo:
Cálculo da mediana da série {1, 3, 0, 0, 2, 4, 1, 2, 5}:
1º - Ordenar a série {0, 0, 1, 1, 2, 2, 3, 4, 5};
Temos n = 9; logo, a mediana ocupa a 5
a
posição, ou seja (9+1)/2 = 5 elemento da série será a
mediana;
Observe que a mediana pertence à série de dados.

4.6.2 MEDIANA PARA SÉRIE COM NÚMERO PAR DE TERMOS:
Para Série com número par de termos a mediana não pertence à série de dados.



A mediana é obtida pela média dos dois elementos centrais da série.

Exemplo:

Cálculo da mediana da série {1, 3, 0, 0, 2, 4, 1, 3, 5, 6}:
1º - Ordenar a série {0, 0, 1, 1, 2, 3, 3, 4, 5, 6};

Temos n = 10; logo, a mediana ocupa a 5,5
a
posição, ou seja (10+1)/2 = 5,5 elemento da série será a
mediana;

Para obter o valor 5,5
a
da série, basta dividir os valores da 5
a
e da 6
a
posição ;
Temos:
5
a
posição = 2
6
a
posição = 3

A mediana será a média desses 2 valores, ou seja Md= (2+3) / 2, ou seja, Md = 2,5 .

Observe que a mediana(2,5) não pertence à série de dados.


Notas:
• Quando o número de elementos da série estatística for ímpar, haverá
coincidência da mediana com um dos elementos da série.
• Em uma série a mediana, a média e a moda não têm,
necessariamente, o mesmo valor.
• A mediana depende da posição e não dos valores dos elementos na
série ordenada. Essa é uma das diferenças marcantes entre mediana
e média (que se deixa influenciar, e muito, pelos valores
extremos). Vejamos:
Em {5, 7, 10, 13, 15}, a média = 10 e a mediana = 10;
Em {5, 7, 10, 13, 65}, a média = 20 e a mediana = 10;
A média do segundo conjunto de valores é maior do que a do primeiro por
influência dos valores extremos, ao passo que a mediana permanece a
mesma.
.
4.6.3 MEDIANA PARA SÉRIE COM DADOS AGRUPADOS
a) Sem intervalos de classe:
(Caso 1) Não haver nenhuma frequência acumulada igual à metade da frequência acumulada
total.
Fci
fi
Fi ≠ =

2

No caso da mediana para série com dados agrupados sem intervalos de classe, é o bastante,
identificar a frequência acumulada imediatamente superior à metade da soma das frequências. A
mediana será o valor da variável que corresponde a tal frequência acumulada.

Exemplo:
Calcule a mediana da tabela abaixo:
Tabela 4.8 Distribuição de Frequência

Variável
Xi
Frequência
fi
Frequência acumulada
Fc
0 2 2
1 6 8
2 9 17
3 13 30
4 5 35
total 35

Como o somatório das frequências é 35, a fórmula ficará: (35+1) / 2 = 18 e não existe este valor na
freqüência acumulada(2,8,17,30,35)⇒ (30 é o valor imediatamente superior a 18); logo, a mediana
será igual a 3.
.
(Caso 2) Haver nenhuma frequência acumulada igual à metade da frequência acumulada total.
Fci
fi
Fi = =

2

No caso de existir uma frequência acumulada (Fci), tal que:
Fci
fi
Fi = =

2

a mediana será dada por:
2
X X
1) Fc(i Fci +
+
= Md

.
Exemplo 1:
Calcule a mediana da tabela abaixo:
Tabela 4.9 Distribuição de Frequência
Variável
Xi
Frequência
Fi
Frequência
acumulada
Fc
12 1 1
14 2 3
15 1 4
16 2 6
17 1 7
20 1 8
total 8

Temos
2

=
fi
Fi =8/2=4, neste caso existe este valor na freqüência acumulada(1,3,4,6,7,8)⇒ logo,
a mediana será igual:

X
Fci
=15
X
Fc(i+1)
=16

Md= [15+16)]/2 = 15,5

Md=15,5

Exemplo 2

Calcule a mediana da tabela abaixo:

Tabela 4.10 Distribuição de Frequência
Variável
Xi
Frequência
Fi
Frequência
acumulada
Fc
1 2 2
7 7 9
83 9 18
total 18

Temos
2

=
fi
Fi =18/2=9, neste caso existe este valor na freqüência acumulada(2,9,18)⇒ logo, a
mediana será igual:

X
Fci
=7
X
Fc(i+1)
=83

Md= [7+83]/2 = 45

Md=45

b) Com intervalos de classe
Desejamos calcular a mediana da tabela abaixo, que representa os pesos de 40 alunos.
Tabela 4.10 Pesos de 40 alunos







Primeiramente, vamos incluir a frequência acumulada na Tabela.

Tabela 4.11 Pesos de 40 alunos
Classes frequência
fi
Frequência
acumulada
F
50 |----- 54 4 4
54 |----- 58 9 13
58 |----- 62 11 24
62 |----- 66 8 32
66 |----- 70 5 37
70 |----- 74 3 40
Total 40
Temos:

Pesos (kg) fi
50 |------ 54 4
54 |------ 58 9
58 |------ 62 11
62 |------ 66 8
66 |------ 70 5
70 |------ 74 3
Total 40
Devemos seguir estes passos:
1º) Determinamos as frequências acumuladas;
2º) Calculamos
2

fi
;
3º) Marcamos a classe correspondente à frequência acumulada imediatamente superior à
2

fi
. Tal
classe será a classe mediana;
4º) Calculamos a mediana pela seguinte fórmula:..
*
*
*
. ) (
2
f
h ant F
fi
Md
(
(
¸
(

¸


+ =

l
Em que:
ℓ* é o limite inferior da classe mediana;
F(ant) é a frequência acumulada da classe anterior à classe mediana;
f* é a frequência simples da classe mediana;
h* é a amplitude do intervalo da classe mediana.
20
2
40
2
= =

fi


Logo, a classe mediana será 58 |----- 62, pois 24, correspondente a frequência acumulada
imediatamente superior 20, veja na tabela anterior.
Assim:
ℓ* = 58 (limite inferior do intervalo)
F(ant) = 13 (frequência acumulada inferior a 20)
f* = 11 (frequência simples do intervalo 58 |----- 62)
h* = 4 (intervalo de classe, observe que é fixo e igual a 4)

Portanto, a mediana será:
( ) [ ]
4 .
11
13 20
58
. ) (
2
*
*
*

+ =
(
(
¸
(

¸


+ =

f
h ant F
fi
Md l

Md= 60,54 kg

Interpretação: Md = 60,54 kg

50% dos alunos, ou seja, 20 alunos, pesam menos ou igual a 60,54 kg.




ATIVIDADE 4.5

1. Calcule a marca mediana dos mouses ópticos a seguir:









2. medida que tem o mesmo número de valores, abaixo e acima dela, é:

a) ( ) a moda.
b) ( ) a média.
c) ( ) a mediana.
d) ( ) o lugar mediano.

Calcule a marca mediana dos teclados:









4) Calcule o tipo mediano da placa-mãe (mainboard ou motherboard), cujos valores estão
distribuídos abaixo:

Tipo de
placa-mãe
Valor R$ Quantidade
Tipo 1 300 |------- 305 14
Tipo 2 305 |------- 310 46
Tipo 3 310 |------- 315 58
Tipo 4 315 |------- 320 76
Tipo 5 320 |------- 325 68
Tipo 6 325 |------- 330 62
Tipo 7 330 |------- 335 48
Tipo 8 335 |------- 340 22
Mouse Quantidades
Tipo 1 344
Tipo 2 234
Tipo 3 656
Tipo 4 125
Tipo 5 111
Tipo 6 256
Teclados Quantidades
Fabricante A 344
Fabricante B 234
Fabricante C 656
Fabricante D 125
Fabricante E 111
4.7 ASSIMETRIA

As medidas de assimetria mostram o quanto a curva de frequência se desvia ou afasta da posição
simétrica (área do lado esquerdo igual a área lado direito do gráfico de distribuição de frequência).



Simetria: uma distribuição de frequência é simétrica quando a média, a mediana e a moda são
iguais, ou seja, apresentam um mesmo valor ou, ainda, coincidem num mesmo ponto. Neste caso,
temos o lado esquerdo igual ao lado direito.

Assimetria: uma distribuição de frequência é assimétrica quando a média, a mediana e a moda
recaem em pontos diferentes da distribuição, isto é, apresentam valores diferentes, sendo que o
deslocamento desses pontos pode ser para a direita ou para a esquerda. Quanto ao grau de
deformação, as curvas de frequência podem ser:

a) Simétrica ⇒ Média = Moda
b) Assimétrica Positiva ⇒ Média > Moda
c) Assimétrica Negativa ⇒ Média < Moda


A Figura 4.3 a seguir ilustra os tipos de assimetria:

Figura 17 - Tipos de assimetria
ATIVIDADE 4.6

a) Determine o tipo de assimetria das séries a seguir:

1. Série A

Estatura(m) frequência
fi
2 |----- 6 6
6 |----- 10 12
10|----- 14 24
14|----- 18 12
18|----- 22 6
Total 60

2. Série B

Estatura(m) frequência
fi
2 |----- 6 6
6 |----- 10 12
10|----- 14 24
14|----- 18 30
18|----- 22 6
Total 78

3. Série C










Estatura(m) frequência
fi
2 |----- 6 6
6 |----- 10 30
10|----- 14 24
14|----- 18 12
18|----- 22 6
Total 78













4.8 SEPARATRIZES

As medidas separatrizes são medidas de posição e têm por finalidade dividir uma série de dados. As
medidas separatrizes são: mediana, quartil, decil e percentil.



4.8.1 QUARTIS

Denominamos quartis os três valores que separam a série em 4 partes iguais.




Q1 – Primeiro quartil, valor que representa os primeiros 25% dos elementos da série;
Q2 – Segundo quartil (mediana) , valor que representa os primeiros 50% dos elementos da série;
Q3 – Terceiro e último quartil, valor que representa os primeiros 75% dos elementos da série;

Quartis em dados não agrupados

Deve-se utilizar o mesmo princípio do cálculo da mediana para os 3 quartis. Efetivamente, serão
calculadas "3 medianas" na mesma série.

Exemplo1:
Calcule os quartis da série {5, 2, 6, 9, 10, 13, 15}.
O primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores:
{2, 5, 6, 9, 10, 13, 15}.
O valor que divide a série acima em duas partes iguais é 9; logo, a Md = 9, que será = Q
2
.
Observe que temos agora {2, 5, 6} e {10, 13, 15} como os dois grupos de valores iguais
proporcionados pela mediana (quartil 2). Para o cálculo dos quartis 1 e 3, basta calcular as medianas
das partes iguais provenientes da verdadeira Mediana da série (quartil 2).
Logo, em {2, 5, 6} a mediana é = 5. Ou seja: o quartil 1;
em {10, 13, 15} a mediana é =13. Ou seja: o quartil 3.
Exemplo 2:
Calcule os quartis da série {1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13}.
A série já está ordenada, então calcularemos o Quartil 2 = Md = (5+6)/2 = 5,5.
O quartil 1 será a mediana da série à esquerda de Md: {1, 1, 2, 3, 5, 5}
Q
1
= (2+3)/2 = 2,5
O quartil 3 será a mediana da série à direita de Md: {6, 7, 9, 9, 10, 13}
Q
3
= (9+9)/2 = 9

b) Quartis para dados agrupados em classes
Usamos a mesma técnica do cálculo da mediana, bastando substituir, na fórmula da mediana,
2

fi
por
4
.

fi k
.

Para determinar os quartis, devemos seguir estes passos:
1º) determinamos as frequências acumuladas;
2º) calculamos
4
.

fi k
,
Sendo k o número de ordem do quartil;
3º) calculamos a Mediana pela seguinte fórmula:..
*
*
*
. ) (
4
.
f
h ant F
fi k
Qk
(
(
¸
(

¸


+ =

l
Em que:
ℓ* é o limite inferior da classe mediana.
F(ant) é a frequência acumulada da classe anterior à classe mediana.
f* é a frequência simples da classe mediana.
h* é a amplitude do intervalo da classe mediana.


Exemplo 3:
Calcule os quartis da tabela abaixo, que representa os pesos de 40 alunos.



Tabela 4.12 Pesos de 40 alunos








Vamos calcular o primeiro quartil (Q
1
).

Primeiramente, vamos incluir a frequência acumulada na Tabela.
Pesos (kg) fi
50 |------ 54 4
54 |------ 58 9
58 |------ 62 11
62 |------ 66 8
66 |------ 70 5
70 |------ 74 3
Total 40








Temos k=1 para o primeiro quartil

Calculamos 10
4
40 . 1
4
.
= =

fi k

Procuramos na tabela anterior a frequência acumulada, imediatamente, superior a 10; neste caso,
temos o valor 13.





Logo, a classe do primeiro quartil é 54 |------ 58,
Assim:
ℓ* = 54.
F(ant) = 4
f* = 9
h* = 4
Logo, o primeiro quartil será:
[ ]
67 , 56 4 .
9
4 10
54
. ) (
4
.
*
*
*
1 =

+ =
(
(
¸
(

¸


+ =

f
h ant F
fi k
Q l

Q
1
= 56,66 kg

Interpretação: Q
1
= 56,66 kg
25% dos alunos pesam menos ou igual a 56,66 kg.
Ou ainda, podemos afirmar que 75% dos alunos pesam mais que 56,66 kg.

4. Vamos calcular o terceiro quartil (Q
3
):
Temos k=3
Calculamos 30
4
40 . 3
4
.
= =

fi k

Pesos (kg) fi F
50 |------ 54 4 4
54 |------ 58 9 13
58 |------ 62 11 24
62 |------ 66 8 32
66 |------ 70 5 37
70 |------ 74 3 40
Total 40
Pesos (kg) fi F
50 |------ 54 4 4
54 |------ 58 9 13 ⇐ Valor imediatamente superior a 10
58 |------ 62 11 24
Logo,.a classe do terceiro quartil é 62 |------ 66
Assim:
ℓ* = 62
F(ant) = 24
f* = 8
h* = 4
Logo, o terceiro quartil (Q3) será:

[ ]
0 , 65 4 .
8
24 30
62
. ) (
4
.
*
*
*
3 =

+ =
(
(
¸
(

¸


+ =

f
h ant F
fi k
Q l

Q
3
= 65 kg

Interpretação: Q
3
= 65 kg
75% dos alunos pesam menos ou igual a 65kg.
.



4.8.2 DECIS

Denominamos decis os nove valores que separam uma série em 10 partes iguais.




D1 – Primeiro decil, valor que representa os primeiros 10% dos elementos da série;
D2 – Segundo decil, valor que representa os primeiros 20% dos elementos da série;


D5 – Quinto decil (mediana), valor que representa os primeiros 50% dos elementos da série;
ATIVIDADE 4.7

Calcule os 3 quartis das séries a seguir:

a) Teclados:








b) Tipos de placa-mãe:

Tipos de
placa-mãe
Valor R$ Quantidade
Tipo 1 300 |------- 305 14
Tipo 2 305 |------- 310 46
Tipo 3 310 |------- 315 58
Tipo 4 315 |------- 320 76
Tipo 5 320 |------- 325 68
Tipo 6 325 |------- 330 62
Tipo 7 330 |------- 335 48
Tipo 8 335 |------- 340 22
Teclados Quantidades
Tipo 1 344
Tipo 2 234
Tipo 3 656
Tipo 4 125
Tipo 5 111
D9– Nono e último decil, valor que representa os primeiros 20% dos elementos da série;

Para o cálculo dos percentis, usaremos a mesma técnica do cálculo dos quartis, bastando
substituir, na fórmula,
4
.

fi k
por
10
.

fi k
.


4.8.3 PERCENTIL OU CENTIL
Denominamos percentis ou centis os noventa e nove valores que separam uma série em 100 partes
iguais.



Indicamos: P
1
, P
2
, ... , P
99
.
É evidente que P
50
= Md ; P
25
= Q
1
e P
75
= Q
3
.
Os percentis, normalmente, são usados para grandes séries de dados.

Para o cálculo dos percentis, usaremos a mesma técnica do cálculo dos quartis, bastando
substituir, na fórmula,
4
.

fi k
por
100
.

fi k
.
Exemplo:
Vamos calcular o 8º percentil (P
8
) da tabela abaixo, que representa os pesos de 40 alunos:

Tabela 4.13 Pesos de 40 alunos








Pesos (kg) fi
50 |------ 54 4
54 |------ 58 9
58 |------ 62 11
62 |------ 66 8
66 |------ 70 5
70 |------ 74 3
Total 40
Novamente, vamos incluir a frequência acumulada na Tabela.







Temos k=8
Calculamos 2 , 3
100
40 . 8
100
.
= =

fi k

Logo,.a classe do 8º percentil é 50 |------ 54
Assim:
ℓ* = 50
f* = 4
h* = 4
Logo, o 8º percentil (P
8
) será:
P
8
= 53,2 kg

Interpretação: P
8
= 53,2 kg
8% das pessoas pesam menos ou igual a 53,2kg.


Pesos (kg) fi F
50 |------ 54 4 4
54 |------ 58 9 13
58 |------ 62 11 24
62 |------ 66 8 32
66 |------ 70 5 37
70 |------ 74 3 40
Total 40
F(ant) = 0



Cuidado! Sempre a frequência acumulada anterior da primeira classe será
zero.


ATIVIDADE 4.8

1- Calcule o 16
o
, o 29
o
e o 73
o
percentis das séries a seguir:

a) Teclados:








b) Tipos de placa-mãe:

Tipos de
placa-mãe
Valor R$ Quantidade
Tipo 1 300 |------- 305 14
Tipo 2 305 |------- 310 46
Tipo 3 310 |------- 315 58
Tipo 4 315 |------- 320 76
Tipo 5 320 |------- 325 68
Tipo 6 325 |------- 330 62
Tipo 7 330 |------- 335 48
Tipo 8 335 |------- 340 22


Teclados Quantidades
Tipo 1 344
Tipo 2 234
Tipo 3 656
Tipo 4 125
Tipo 5 111



























ATIVIDADE 4.8

Após construir o histograma e a curva polida do seu trabalho prático, calcule
a média, a mediana, o primeiro, o segundo e o terceiro quartis, além dos
percentis (P
15
,P
25
,P
35
,P
50
,P
75
e P
80
), determinando também o tipo de
assimetria que o histograma apresenta.

Chegamos ao final deste capítulo, no qual aprendemos a calcular as medidas
de ordenamento e posição. É importante que esse conteúdo esteja bem
compreendido; caso contrário, faça uma revisão, pois ele será necessário
para entender os próximos conteúdos.

Vamos para o capítulo 5!

Prof. Sebastião A. Carneiro
CAPÍTULO 5
MEDIDAS DE VARIABILIDADE



Será que a média é uma medida suficiente para caracterizar uma série de dados?

Veja o exemplo a seguir:

Exemplo 1:

Observe o tráfego de dados numa rede de computadores: em uma hora há tráfego de dados a 49
Mbps(rápida) e na próxima hora há tráfego de dados a 51 Mbps(rápida também), enquanto que em
outra rede uma hora o tráfego de dados é 1 Mbps (muito lenta) e na próxima hora o tráfego de
dados é 99 Mbps(muito rápida).

49Mbps 49Mbps
51Mbps 51Mbps
01:00h
02:00h

Figura 18 Dois computadores se comunicando a 49 Mbps e 51 Mbps

Olá, Turma!

Neste capítulo, veremos que a média não é suficiente para identificar uma série de dados.
Devemos encontrar uma medida que nos mostre a forma como os elementos da série se
distribuem, dispersam-se ou variam em torno da média.

Bons estudos!
Prof. Sebastião A. Carneiro
1Mbps 1Mbps
99Mbps 99Mbps
01:00h
02:00h

Figura 19 Dois computadores se comunicando a 1 Mbps e 99 Mbps



As duas redes têm a mesma média de comunicação de dados nas 2 horas de comunicação, 50 Mbps,
mas em condições diferentes: observe que a primeira rede é mais estável que a segunda.


Portanto, temos a mesma média, mas em condições diferentes.



MEDIDAS DE DISPERSÃO

Dispersão ou Variabilidade:

É a maior ou a menor diversificação dos valores de uma variável em torno de um valor de
tendência central (média ou mediana) tomado como ponto de comparação.

A média é o valor que melhor representa uma série de valores, mas ela, por si só, não pode destacar o
grau de homogeneidade ou heterogeneidade existente entre os valores que compõem o conjunto. Por
esse motivo, precisamos de mais elementos que concretizem bem uma série de valores.

Consideremos os seguintes conjuntos de valores das variáveis X, Y e Z:

Por esse motivo, vamos estudar o conceito de variabilidade, pois, se alguém pedisse para você
escolher, qual você escolheria?Embora a média de tráfego das duas redes de computadores seja
50 Mbps. A responda, com certeza, seria uma rede mais estável (Figura 5.1), pois varia menos.
Assim, veremos a seguir como quantificar as variações das séries em torno da média.

X = { 5, 5, 5, 5, 5 } ⇒ ⇒⇒ ⇒ 5 = X
Y = { 3, 4, 5, 6, 7 } ⇒ ⇒⇒ ⇒ 5 = Y
Z = { 0, 1, 5, 9, 10 } ⇒ ⇒⇒ ⇒ 5 = Z


Observe que os três conjuntos apresentam a mesma média aritmética (25/5 = 5). Entretanto, é fácil
notar que o conjunto X é mais homogêneo que os conjuntos Y e Z. O conjunto Y, por sua vez, é mais
homogêneo que o conjunto Z.


5.1 MEDIDAS DE DISPERSÃO ABSOLUTA

5.1.1 Amplitude total (AT):

a) Para uma série de dados, a amplitude total é a diferença entre o maior e o menor valor observado:

AT = X máximo - X mínimo.


Exemplo:

Para os valores 4, 5, 8, 2 e 17 a amplitude total será: AT = 17 - 14 = 13

b) Para uma série de dados, mesmo quando os dados estão agrupados sem intervalos de classe, ainda
temos:

AT = X máximo - X mínimo


Exemplo:

Para os dados seguintes, agrupados sem intervalos, a amplitude total será:

Tabela 5.1 dados agrupados sem intervalos







AT = 14 - 10 = 4

c) Para uma série de dados com intervalos de classe, a amplitude total será o limite superior da última
classe e o limite inferior da primeira classe. Logo:
AT = L máximo - l mínimo

Exemplo:

Para os dados agrupados em intervalos de classe conforme a seguir, a amplitude total será:

Tabela 5.2 Dados agrupados em intervalos de classe.

Xi Fi
10 11
11 6
13 5
14 13





AT = 26 - 10 = 16



A amplitude total tem o inconveniente de só levar em conta os dois valores
extremos da série.

É a única medida de dispersão que não tem na média o ponto de referência.




5.1.2 VARIÂNCIA

Variância é a medida que considera a totalidade dos valores da variável em estudo. Baseia-se nos
desvios em torno da média.

a) VARIÂNCIA DA POPULAÇÃO (σ
2
)

A variância de uma população, que representaremos por
2
σ , é a média aritmética dos quadrados
dos desvios absolutos.
n
d

=
2
2
σ
Sabemos que:

d= xi - µ

Em que:

µ - Média aritmética da população, representada por uma série x
i,
em que i = 1, 2, ....,n

Logo:

( )
n
xi


=
2
2
µ
σ

Também pode ser representada deste modo:

( )
2
1
2
1

=
− =
n
i
xi
n
µ σ


b) VARIÂNCIA DA AMOSTRA (s
2
)

Classes fi
10 |------ 16 4
16 |------ 22 5
22|-------26 2
Se o conjunto das observações é uma amostra estatística, teremos, neste caso, a variância amostral e
a representaremos por
2
s ; sua média é representada por X .

A variância de uma amostra, que representaremos por
2
s , é dada conforme indicação a seguir:
1
2
2

=

n
d
s
Sabemos que:

d= xi - x

Em que:
x - Média aritmética da amostra, representada por uma série x
i ,
, em que i = 1, 2, ....,n

Logo:

( )
1
2
2


=

n
x xi
s

Também pode ser representada deste modo:

( )
2
1
2
1
1

=


=
n
i
x xi
n
s

No cálculo da variância de uma amostra, devemos dividir a soma dos desvios quadráticos por (n-1)
e não n, para que o valor esperado da variância seja o melhor estimador da variabilidade do
conjunto de dados.



c) VARIÂNCIA PARA SÉRIE DE DADOS SIMPLES


Exemplo:

Cálculo da variância da amostra representada por - 2 cm , -1 cm, 0 cm , 1 cm , 4 cm.

Primeiramente, devemos calcular a média:

4 , 0
5
2
= = =

n
Xi
X

O passo seguinte é calcular os desvios e seus quadrados. Acompanhe a tabela a seguir:


Tabela 5.3 Desvios e seus quadrados de uma série de dados.



Xi
x d= xi - x d
2
=
2
) ( x xi −
- 2 0,4 - 2,4 5,76
- 1 0,4 - 1,4 1,96









Temos n = 5, a variância fica:

( )
2
2
2
3 , 5
4
2 , 21
1 5
2 , 21
1
cm
n
x xi
s = =

=


=



Propriedades:

PROPRIEDADE 1

Quando somamos ou subtraímos uma constante (k) a todos os valores de uma variável, a sua
variância fica inalterada, pois a variância de uma constante é igual a zero.

PROPRIEDADE 2

Quando multiplicamos ou dividimos todos os valores de uma variável por uma constante (k), a
sua variância fica multiplicada ou dividida pelo quadrado da constante.




ATIVIDADE 5.1

1) Marque a opção correta: Para a série amostral de valores 0, -1, -2, 5, 4, -3, -7, 2, -4 e 6:
a. ( ) a média é 3,4 e a variância, 17,8.
b. ( ) a média é zero e a variância, 16.
c. ( ) a média é 3,4 e a variância, 4.
d. ( ) a média é zero e a variância, 17,8.
e. ( ) a média é zero, mas é impossível calcular a variância.

2) Faça uma análise visual e observe qual série é mais dispersa:

X: 10,11,12,13 e
Y: 1, 110, 120, 130

Agora, comprove a sua afirmação.

3) Calcule a variância da série amostral: 3 kg, 4kg e 7kg, indicando o valor correto dentre
as opções a seguir:
a) ( ) 4,3 kg
b) ( ) 2,9 kg
c) ( ) 2,9 kg
2

d) ( ) 4,3 kg
2


4) Calcule a variância, considerando os dois casos, população e a mostra, da série 31
Kbytes, 38 Kbytes , 19 Kbytes , 27 Kbytes , 24 Kbytes, 42 Kbytes , 32 Kbytes , 18
Kbytes , 43 Kbytes , 15 Kbytes, 39 Kbytes, indicando o valor correto dentre as opções a
0 0,4 - 0,4 0,16
1 0,4 0,6 0,36
4 0,4 3,6 12,96

2 , 21 ) (
2
= −

x xi
seguir:
a) ( ) S
2
=90,7 Kbytes e σ
2
=99,8 Kbytes
b) ( ) S
2
=90,7 Kbytes
2
e σ
2
=99,8 Kbytes
2

c) ( ) S
2
=90,7 e σ
2
=99,8
d)
( ) S
2
=99,8 Kbytes
2
e σ
2
=90,7 Kbytes
2

5)- Suponha que adicionamos 500 a cada um dos valores de uma amostra. O que acontece
com a média, desvio médio e a variância?


D) VARIÂNCIA PARA DISTRIBUIÇÃO DE FREQUÊNCIA - σ σσ σ
2

Quando os dados estiverem agrupados em intervalos de frequencia, a variância é calculada
conforme a seguir:

( )



=
fi
fi xi .
2
2
µ
σ

Exemplo:

Cálculo da variância da série a seguir, que representa a variação interna de computadores em
o
C:

X: 0,0,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4

Considerar os dados como populacional

Inicialmente, montar a DF:
Tabela 5.4 Distribuição de frequência







Em seguida, calcular a média:
Tabela 5.5 Distribuição de frequência com Xi Fi










= = =


30
63
.
fi
fi Xi
µ 2,1°C


Montar a tabela a seguir para facilitar os cálculos:

Xi f i
0 2
1 6
2 12
3 7
4 3
xi f i xi.f i
0 2 0
1 6 6
2 12 24
3 7 21
4 3 12
Σfi =30 Σxi.fi= 63
Tabela 5.6 Distribuição de frequência com (xi-µ µµ µ)
2
. f i











Usamos a fórmula a seguir para calcular a variância:

( )
( )
2
0
2
2
09 , 1
30
7 , 32
.
C
fi
fi xi
= =

=


µ
σ

Outra maneira de calcular a variância populacional é desenvolver o somatório:

( )
( )
n
xi
xi x xi
2
2
2

∑ ∑
− = −


Tente resolver essa igualdade!
Assim, a variância para dados não agrupados fica:

( )
2
2
2
2
2
|
|
¹
|

\
|
− =

=
∑ ∑


n
xi
n
xi
n
n
xi
xi
σ

E para dados agrupados, a variância na população fica:

2
2
2
.
|
|
¹
|

\
|
− =
∑ ∑
n
fi xi
n
fi xi
σ
ou

2
2
2
.
|
|
¹
|

\
|
− =




fi
fi xi
fi
fi xi
σ


Para calcular a variância de dados agrupados amostrais, bastar substituir o denominador n por
(n-1) ou ∑fi por ∑fi-1

Uma das vantagens de calcular a variância dessa forma é o fato de não usar a média, pois a
média em alguns casos tem que ser arredondada, o que gera erros de arredondamento. Nos
casos em que a média não é arredondada, as duas fórmulas fornecem o mesmo resultado.



Exemplo:

Xi f i xi-µ µµ µ (xi- µ µµ µ)
2
(xi- µ µµ µ)
2
f i

0 2 -2,1 4,41 8,82
1 6 -1,1 1,21 7,26
2 12 -0,1 0,01 0,12
3 7 0,9 0,81 5,67
4 3 1,9 3,61 10,83
Σfi =30 32,7
Resolução do exemplo anterior, usando a segunda maneira de calcular a variância:

Montar a tabela a seguir:

Tabela 5.7 Distribuição de frequência com xi
2
f i









Calcular a variância:

( )
2
0
2
2
2
2
09 , 1
30
63
30
165
.
C
n
fi xi
n
fi xi
=
|
¹
|

\
|
− =
|
|
¹
|

\
|
− =
∑ ∑
σ


Observou? Como não houve arredondamento na média, os dois valores da variância são
idênticos, como já era esperado.

ATIVIDADE 5.2

2) Calcule a variância populacional das distâncias a seguir:









2m 13m 15m 20m
2m 13m 15m 20m
2m 13m 15m 20m
2m 13m 15m 20m
2m 13m 15m 20m
2m 13m 15m 20m
2m 13m 15m 20m
2m 13m 15m 20m
2m 13m 15m
2m 13m 15m
2m 13m 15m
13m 15m
13m 15m
13m 15m
13m 15m
13m 15m
13m 15m
13m 15m
13m
13m

xi xi
2
f i xi . f i xi
2
. f i
0 0 2 0 0
1 1 6 6 6
2 4 12 24 48
3 9 7 21 63
4 16 3 12 48
Total Σfi =30 Σxi.fi= 63 Σxi
2
. f i =165

Observe que a unidade da série está elevada ao quadrado (
o
C)
2
, o que, sob o
ponto de vista prático, é um inconveniente. Por esse motivo, imaginou-se
uma nova medida com utilidade e interpretação prática.

A variância, na verdade, é uma medida que tem pouca utilidade como
estatística descritiva pois amplifica os desvios, além de apresentar sua
unidade ao quadrado; porém, é extremamente importante na inferência
estatística, além de ser base para o conceito de desvio padrão.




5.1.3 DESVIO PADRÃO – S

O desvio padrão, que é representado por s, é a medida de dispersão mais empregada no cálculo de
variabilidade, pois elimina a amplificação dos desvios e sua unidade é a mesma da série de dados.

O desvio padrão por definição é simplesmente a raiz quadrada positiva da variância.

2
s s =

Assim, todas as fórmulas de variância são utilizadas no cálculo de desvio padrão; basta, é claro,
tirar a raiz quadrada positiva das fórmulas da variância.

Exemplo:

Cálculo do desvio padrão populacional da série seguinte, que representa a variação interna de
computadores em
o
C:

X: 0,0,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4

Como já calculada no exemplo anterior, a variância da série é s
2
=1,09 (
o
C)
2


O desvio padrão é a raiz quadrada de σ
2
=1,09 (
o
C)
2
, ou seja:

= = = C) ( 1,09
2 o 2
σ σ 1,04
o
C

O desvio padrão possui algumas propriedades, dentre as quais destacamos:


PROPRIEDADE 1

Se somarmos, ou subtrairmos, uma constante(k) a todos os valores da série, o desvio padrão não
se altera.

yi= xi ± k ⇒ Sy =Sx ou sy = sx

Exemplo:

Y= { 11,12,13,14} e X= {1,2,3,4} ⇒ Y = 10 + X : Sy = Sx = 1,118

Observe: Sy = Sx

PROPRIEDADE 2

Se multiplicarmos, ou dividirmos uma constante(k) a todos os valores da série por uma constante
(diferente de zero), o desvio padrão fica multiplicado, ou dividido, por essa constante.

yi= xi . k ⇒ sy = sx . k ou sy= sx . k
Exemplo:

Y= { 10,20,30,40} e X= {1,2,3,4} ⇒ Y = 10.X : Sy = 11,18 e Sx = 1,118

Observe: Sy = 10. Sx



ATIVIDADE 5.3

1- Marque a opção correta: Dados os conjuntos de números: A = {-2, -1, 0, 1, 2} e B = {220,
225, 230, 235, 240}.
Podemos afirmar, de acordo com as propriedades do desvio padrão, que o desvio padrão de B é
igual:
a) ( ) ao desvio padrão de A;
b) ( ) ao desvio padrão de A, multiplicado pela constante 5;
c) ( ) ao desvio padrão de A, multiplicado pela constante 5;
d) ( ) ao desvio padrão de A mais a constante 230.

2- Considere os seguintes conjuntos de números:
A = {10, 20, 30, 40, 50}
B = {100, 200, 300, 400, 500}
Que relação existe entre os desvios padrões dos dois conjuntos de números?

3- Dados os conjuntos de números:
A = {220, 230, 240, 250, 260}
B = {20, 30, 40, 50, 60}
Que relação existe entre os desvios padrões dos dois conjuntos de números?

4- Suponha que adicionamos 100 a cada um dos valores de uma amostra. O que acontece com a
média, desvio médio, variância e o desvio padrão?

5- Marque a opção correta: O desvio padrão de um conjunto de dados é 9. A variância será:

a) ( ) 3;
b) ( ) 18;
c) ( ) 36;
d) ( ) 81.
6- Marque a opção correta: A variância de um conjunto de dados é 9. desvio padrão será:

a) ( ) 3;
b) ( ) 18;
c) ( ) 36;
d) ( ) 81.




Na estatística descritiva, o desvio padrão por si só tem limitações. Veja o exemplo:
Um desvio padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo
valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito. Além disso, o
fato do desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando
desejamos comparar duas ou mais séries de valores, expressas em unidades diferentes.

Veja outro exemplo:
O desvio padrão da temperatura interna de computadores é 2,5
o
C, enquanto o desvio padrão dos
preços desses computadores é de R$ 30,00. A pergunta em relação à variabilidade é, quem variou
mais a temperatura interna dos computadores ou os preços?

Para contornar essas dificuldades e limitações, iremos definir a seguir o Coeficiente de Variação
de Pearson - CVP.


5.1.4 COEFICIENTE DE VARIAÇÃO DE PEARSON - CVP

O coeficiente de variação de Pearson contorna as limitações de comparação de séries diferentes do
desvio padrão.


O Coeficiente de Variação de Pearson é a razão entre o desvio padrão e a média referente a dados
de uma mesma série:

(%) 100 .
x
s
CVP =


Exemplo:

Vamos tomar os resultados das estaturas e dos pesos de um grupo de indivíduos:

Tabela 5.8 Estaturas e pesos de um grupo de alunos






Qual das duas medidas, estatura ou peso, apresenta maior variabilidade?

Resposta:

Observe que não podemos compará-las, pois são séries diferentes; para resolver o problema, basta
calcular o CVP da estatura e o CVP do peso. O resultado maior será o mais heterogêneo (maior
dispersão ou variabilidade).


CVP estatura = ( 5 / 175 ) x 100 = 2,86 %
CVP peso = ( 2 / 68 ) x 100 = 2,94 %.
DISCRIMINAÇÃO MÉDIA DESVIO PADRÃO
ESTATURAS 175 cm 5,0 cm
PESOS 68 kg 2,0 kg

Logo, nesse grupo de alunos, os pesos apresentam maior grau de dispersão que as estaturas.
(Se tomássemos somente o desvio padrão para responder a pergunta, teríamos, com certeza, uma
resposta errada).

Observe! A série estatura apresenta maior desvio padrão; mesmo assim, é mais homogênea que a
série peso, que apresenta menor desvio padrão.


ATIVIDADE 5.4



1- A renda média mensal na localidade A é R$ 1.750,00 e na localidade B é R$ 1.500,00. Os
desvios padrões são R$ 100,00 e R$ 80,00. Faça uma análise comparativa quanto ao grau de
homogeneidade da renda nessas duas localidades.

2- Um grupo de 95 moças tem estatura média de 160,6 cm, com um desvio padrão igual a 5,97
cm. Outro grupo de 128 moças tem uma estatura média de 161,9 cm, com um desvio padrão
igual a 6,01 cm. Qual é o coeficiente de variação de cada um dos grupos? Qual o grupo mais
homogêneo?

3- Um grupo de 200 famílias tem renda média de R$ 1.063,8, com um coeficiente de variação de
4,3%. Qual o desvio padrão da renda desse grupo?

4- Uma distribuição apresenta as seguintes estatísticas: S = 2,6 e CVP = 1,9%. Determine a
média dessa distribuição.

5- Numa pequena cidade, 165 famílias têm a renda média de R$ 1.350,98, com um desvio padrão
de R$ 55,98. Qual a variabilidade relativa das famílias?

6- Ao se formar você obteve duas ofertas de empregos de empresas de informática . Qual a
empresa representa a melhor opção? Porque?


Empresa 1 Empresa 2
Média Salarial R$ 3900,00 R$ 4500,00
Mediana R$ 3500,00 R$ 2700,00
Desvio Padrão R$ 117,00 R$ 225,00






ATIVIDADE 5.5

Após construir o histograma e a curva polida do seu trabalho prático, calcule a média, a mediana
e o primeiro, o segundo e o terceiro quartis; calcule também os percentis (P
15
,P
25
,P
35
,P
50
,P
75
e
P
80
) e o coeficiente de variação de Pearson.

Chegamos ao final deste capítulo, em que aprendemos a calcular as medidas de variabilidade.
Observe, no exemplo mostrado no início do capítulo, envolvendo os tráfegos de dados de duas
redes de computadores, que temos:

Primeiro caso:

2 computadores que se comunicam a 49 Mbps e 51 Mbps

Velocidade média = 50 Mbps

e desvio padrão = 1 Mbps

Segundo caso:

2 computadores que se comunicam a 1 Mbps e 99 Mbps

Velocidade média = 50 Mbps

e desvio padrão = 49 Mbps

Ou seja, no primeiro caso teremos uma média de 50 Mbps com uma pequena variação de
velocidade (desvio padrão = 1Mbps), enquanto que no segundo caso temos também a mesma
média de 50 Mbps, só que neste caso com uma grande variação de velocidade (desvio padrão =
49 Mbps). Embora já no início, intuitivamente, você tenha percebido o conceito de
variabilidade, para esse exemplo simples, o desvio padrão na realidade quantifica a
variabilidade para qualquer série de dados, e aí sim você poderá comparar os dados.

Concluindo, a média não é uma medida suficiente por si só, necessita-se de mais informações
para se representar uma série de dados.


Vamos adiante!

Prof. Sebastião A. Carneiro
CAPÍTULO 6


6.1 INTRODUÇÃO
Em diversas investigações deseja-se avaliar a relação entre duas medidas
quantitativas. Por exemplo, o uso do cigarro e incidência do câncer ou câncer ou consumo
e a renda familiar.
Procuramos até agora descrever a distribuição de valores de uma única variável. Assim,
calculamos as medidas de tendência central e variabilidade.
Quando temos duas ou mais variáveis, temos um novo problema: as relações que podem
existir entre as variáveis estudadas. Nesse caso, as medidas estudadas não são eficientes.
Assim, quando consideramos variáveis como peso e altura de um grupo de pessoas, uso do
cigarro e incidência do câncer, vocabulário e compreensão da leitura, domi nânci a e submissão,
procuramos verificar se existe alguma relação entre as variáveis de cada um dos pares e qual o grau
dessa relação. Para isso, é necessário o conhecimento de novas medidas.
Sendo a relação entre as variáveis de natureza quantitativa, a correlação c o instrumento
adequado para descobrir e medir essa relação.
Uma vez caracterizada a relação, procuramos descrevê-la através de uma função matemática. A
regressão é o instrumento adequado para a determinação dos parâmetros dessa função.
NOTA:
• No nosso curso ficaremos restritos às relações entre duas vari ávei s (correlação simples).
6.2 CORRELAÇÃO
6.2.1. Relação funcional
Sabemos que o perímetro de uma circunferência e o seu raio estão relacionados. A relação
entre os dois é perfeitamente definida e pode ser expressa por meio de uma sentença
matemática:
C = 2 π . R
Em que:
C é o perímetro de uma circunferência
R é o raio da circunferência
Vemos que esta relação é exata, portanto, é uma relação funcional.

6.2.2 Relação Estatística

Quando existe uma relação entre as variáveis que não é exata, veja o exemplo:
A relação entre o peso e a altura de um grupo de pessoas. Observamos facilmente que a ligação entre
peso e altura não é tão precisa quanto à ligação entre o raio e a área de um círculo, porém, em média
quanto maior a altura, maior o peso.


6.2.3 Correlação
Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre
elas. A correlação, então, é a verificação da existência e do grau de relação entre duas variáveis.

Assim As relações do ti po raio e a área de um círculo são conhecidas como relações
funcionais e as do tipo peso e estatura são conhecidas como relações estatísticas.


6.2.4 Diagrama de Dispersão

Diagrama de Dispersão é uma forma simples de verificar a tendência da correlação existente.

Consideremos uma amostra aleatória, formada por dez dos 183 alunos(só alunos do sexo
masculinos) do curso de Engenharia de Controle e automação:

Tabela 1
Quantidade Aluno Altura Peso
1 1 160 65
2 22 163 67
3 138 167 68
4 34 168 69
5 11 169 74
6 67 171 71
7 87 173 72
8 90 175 74
9 56 176 77
10 74 178 76

Se plotarmos os dados amostrais num sistema cartesiano ortogonal de pares ordenados,
obteremos o gráfico a seguir:











Os pares de valores das duas variáveis colocados num diagrama cartesiano chamamos de
“diagrama de dispersão”

A vantagem de construir um diagrama de dispersão está em que, muitas vezes uma simples
observação já nos dá uma idéia bastante clara de como as duas variáveis se relacionam.

Uma vez caracterizada esta relação, procura-se descrevê-la sob forma matemática, através de
uma função no nosso exemplo temos uma reta imagem. A estimação dos parâmetros dessa
função matemática é o objeto da regressão que veremos a seguir.













A correlação pode ser:
• linear positiva se os pontos do diagrama têm como "imagem" uma reta ascendente;
• linear negativa se os pontos têm como "imagem" uma reta descendente;
• não-linear se os pontos têm como "imagem" uma curva.
Se os pontos apresentam-se dispersos, não oferecendo uma "imagem" definida, concluímos que
não há relação alguma entre as variáveis em estudo.

Algumas situações que podem se apresentar os diagramas de dispersão











6.3. Coeficiente de correlação linear
Empregamos para a medir a correlação linear o coeficiente de correlação. Esse coeficiente deve
indicar o grau de intensidade da correlação entre as duas variáveis e o sentido da correlação (positivo
ou negativo).

Usaremos o coeficiente de correlação de Pearson, que é dado de acordo com a fórmula a seguir:


∑ ∑ ∑ ∑
∑ ∑ ∑
− −

=
] ) ( . ][ ) ( . [
) ).( ( .
2 2 2 2
i i i i
i i i i
y y n x x n
y x y x n
r


Em que:
n é o número de observações.

O coeficiente de correlação de Pearson ( r ) assume valores limites de -1 a +1, assim, o valor
de r pertence ao intervalo [-1, +1].


Pode-se verificar que:
a. se a correlação entre duas variáveis é perfeita e positiva, então r = +1;
b. se a correlação é perfeita e negativa, então r = -1;
c. se não há correlação entre as variáveis, ou a relação não é linear então r = 0.
NOTAS:
• Para que uma relação possa ser descrita por meio do coeficiente de correlação de Pearson é
imprescindível que ela se aproxime de uma função linear. Uma maneira prática de verificarmos a
linearidade da relação é a inspeção do diagrama de dispersão.

Analise do comportamento simultâneo das variáveis

• Se 0,6 ≤ | r | ≤ 1 há uma forte correlação entre as variáveis analisadas
• Se 0,3 ≤ | r | ≤ 0,6 há uma correlação fraca entre as variáveis analisadas
• Se 0 ≤ | r | ≤ 0,3 não há uma correlação entre as variáveis analisadas ou nada podemos con-
cluir sobre a relação entre as variáveis.

Exemplo 1:

Calcular o coeficiente de correlação relativo do exemplo dado na tabela a seguir.









Quantidade Aluno Altura Peso
1 1 160 65
2 22 163 67
3 138 167 68
4 34 168 69
5 11 169 74
6 67 171 71
7 87 173 72
8 90 175 74
9 56 176 77
10 74 178 76
Resolução: O modo simples para obtermos r é criarmos novas colunas na tabela correspondentes aos
valores de x
i
y
i
, x
2
e y
2
. Assim:


Altura (xi) Peso (yi) xi . yi xi
2
yi
2

160 65 10400 25600 4225
163 67 10921 26569 4489
167 68 11356 27889 4624
168 69 11592 28224 4761
169 74 12506 28561 5476
171 71 12141 29241 5041
173 72 12456 29929 5184
175 74 12950 30625 5476
176 77 13552 30976 5929
178 76 13528 31684 5776
Σxi= 1700 Σyi= 713 Σxi .yi= 121402 Σxi
2
= 289298 Σyi
2
= 50981















Como r= 0,927 há uma forte correlação entre as variáveis analisadas, pois 0,6 ≤ | r | ≤ 1



Exemplo 2:

Calcular o coeficiente de correlação relativo do exemplo dado na tabela a seguir.


∑ ∑ ∑ ∑
∑ ∑ ∑
− −

=
] ) ( . ][ ) ( . [
) ).( ( .
2 2 2 2
i i i i
i i i i
y y n x x n
y x y x n
r
Quantidade xi yi
1 20 64
2 16 61
3 34 84
4 23 70
5 27 88
6 32 92
7 18 72
8 22 77

Resolução: O modo simples para obtermos r é criarmos novas colunas na tabela correspondentes
aos valores de x
i
y
i
, x
2
e y
2
. Assim:

n (xi) (yi) xi . yi xi
2
yi
2

1 20 64 1280 400 4096
2 16 61 976 256 3721
3 34 84 2856 1156 7056
4 23 70 1610 529 4900
5 27 88 2376 729 7744
6 32 92 2944 1024 8464
7 18 72 1296 324 5184
8 22 77 1694 484 5929
n= 8 Σxi= 192 Σyi= 608 Σxi .yi= 15032 Σxi
2
= 4902 Σyi
2
= 47094













Como r= 0,862 há uma forte correlação entre as variáveis analisadas, pois 0,6 ≤ | r | ≤ 1


∑ ∑ ∑ ∑
∑ ∑ ∑
− −

=
] ) ( . ][ ) ( . [
) ).( ( .
2 2 2 2
i i i i
i i i i
y y n x x n
y x y x n
r
Exemplo 3:

Calcular o coeficiente de correlação relativo do exemplo dado na tabela a seguir.

Quantidade xi yi
1 1 60
2 2 51
3 3 95
4 4 70
Resolução: O modo simples para obtermos r é criarmos novas colunas na tabela correspondentes
aos valores de x
i
y
i
, x
2
e y
2
. Assim:



n (xi) (yi) xi . yi xi
2
yi
2

1 1 60 60 1 3600
2 2 51 102 4 2601
3 3 95 285 9 9025
4 4 70 280 16 4900
n= 4 Σxi= 10 Σyi= 276 Σxi .yi= 727 Σxi
2
= 30 Σyi
2
= 20126




Como r= 0,503 há uma fraca correlação entre as variáveis analisadas, pois 0,3 ≤ | r | ≤ 0,6



ATIVIDADE 6.1


1) Considere os resultados de 2 grandezas físicas, X(Temperatura) e Y(Pressão), obtidos num
laboratório de calibragem:

Temperatura (
o
C) 50 55 60 65 70 75 80 85 90
Pressão(kgf/cm²) 20 35 37 42 37 52 50 68 66


a)Verifique, pelo diagrama, se existe correlação retilínea.
b) Em caso afirmativo, calcule o coeficiente de correlação.



6.3 REGRESSÃO
6.3.1. Ajustamento da reta
Em regressão linear simples desejamos estudar determinada variável em função de outra,
utilizamos para isso a análise de regressão.
A análise de regressão tem por objetivo descrever, através de um modelo matemático, a relação
entre as duas variáveis, partindo de n observações entre as mesmas.
Quando estamos analisando o comportamento de duas variáveis a variável na qual desejamos
fazer uma estimativa recebe o nome de variável dependente e a outra recebe o nome de variável
independente.
Para a determinação dos parâmetros utilizaremos o método dos mínimos quadrados
Método dos Mínimos Quadrados
É o método mais utilizado para ajustar uma linha reta a um conjunto de pontos, pois utiliza a técnica
dos mínimos quadrados. A reta resultante tem duas características importantes: (1
a
) aa soma dos
desvios verticais dos pontos em relação à reta é zero, e (2
a
) a soma dos quadrados desses desvios é
mínima, ou seja, nenhuma outra reta apresenta uma menor soma de quadrados de tais desvios.
Para o nosso exemplo podemos considerar a altura como a variável independente(X) e o peso a
variável como a dependente(Y), Nosso problema agora consiste em determinar o ajustamento de uma
reta à relação entre essas duas variáveis, ou seja, vamos obter uma função definida por:
Reta de regressão linear
= a . X + b
Em que :
a e b são os parâmetros.
• Calculo do parâmetro a:





∑ ∑
∑ ∑ ∑


=
2 2
) ( .
) ).( ( .
i i
i i i i
x x n
y x y x n
a
• Calculo do parâmetro b:



Em que :

é a média da variável Y.

é a média da variável X.

Ou seja:






Exemplo 4:


Estabeleca a equação de regresssão da altura (X) sobre o peso (Y) do exemplo 1

















Resolução:
Devemos obter:

• Cálculo do parâmetro a:

Quantidade Aluno Altura Peso
1 1 160 65
2 22 163 67
3 138 167 68
4 34 168 69
5 11 169 74
6 67 171 71
7 87 173 72
8 90 175 74
9 56 176 77
10 74 178 76




Devemos reutilizar a Tabela feita no exemplo 1:

Altura (xi) Peso (yi) xi . yi xi
2
yi
2

160 65 10400 25600 4225
163 67 10921 26569 4489
167 68 11356 27889 4624
168 69 11592 28224 4761
169 74 12506 28561 5476
171 71 12141 29241 5041
173 72 12456 29929 5184
175 74 12950 30625 5476
176 77 13552 30976 5929
178 76 13528 31684 5776
Σxi= 1700 Σyi= 713 Σxi .yi= 121402 Σxi
2
= 289298 Σyi
2
= 50981










• Cálculo do parâmetro b:









b= -38,23


∑ ∑
∑ ∑ ∑


=
2 2
) ( .
) ).( ( .
i i
i i i i
x x n
y x y x n
a
Assim, temos a equação da reta:




Plotando a reta imagem teremos a Figura a seguir:





6.3.2 Interpolação e extrapolação
Na regressão, os valores Y são preditos com base em valores dados ou conhecios de X.

Ou seja, basta atribuir valores a X e obter através da equação Y = a . X +b o valor de Y.

Exemplo 5:

Considerando os dados do exemplo 1, qual o peso de um aluno de 162 cm ?
Resolução:
Podemos observar que tal altura não existe na Tabela do exemplo 1, neste caso vamos lançar
mão da reta imagem para resolver o problema.

X= 162 Y = 0,644 . X – 38,23 = 0,644 . 162 – 38,23 = 66,1 kg

Assim, para um aluno que tem 162 estimamos que ele deve pesar 66,1 kg

Observe que o valor 162 pertence ao intervalo de altura dado na Tabela [160 – 178 ], dizemos
neste caso que fizemos uma interpolação.

162 ∈ [160 – 178 ] interpolação

Exemplo 6:

Considerando os dados do exemplo 1, qual o peso de um aluno de 158 cm ?
Resolução:
Podemos observar que tal altura não existe na Tabela do exemplo 1, neste caso vamos lançar
mão da reta imagem para resolver o problema.

X= 158 Y = 0,644 . X – 38,23 = 0,644 . 158 – 38,23 = 63,5 kg

Assim, para um aluno que tem 158 estimamos que ele deve pesar 63,5 kg

Observe que o valor 158 não pertence ao intervalo de altura dado na Tabela [160 – 178 ],
dizemos neste caso que fizemos uma extrapolação.

158 ∉ [160 – 178 ] extrapolação

IMPORTANTE:
Devemos ter o cuidado de só usar a extrapolação em casos onde as considerações teóricas ou
experimentais demonstrem a sua possibilidade, pois estamos fora do campo de observação que foi
feito o levantamento.
Exemplo:
Ao fazer o levantamento da temperatura versus pressão numa caldeira, podemos utilizar a interpolação
para obter medidas não observadas durante o ensaio, mas se fizermos uma extrapolação tomando
temperaturas acima da temperatura da caldeira a pressão interna poderá destruí-la parcial ou
totalmente.

6.4 Outros tipos de regressão
Para as funções não lineares são aplicados modelos de regressão não lineares, as funções mais comuns
não lineares são:
6.4 1.Função Múltipla
Quando uma função tem diversas variáveis explanatórias.

6.4 2.Função Potencial
Também conhecida como função de Cobb-Douglas.

6.4 3.Função Exponencial

6.4 4.Função Logística

Os diversos tipos de regressão são freqüentemente usados para o cálculo de demandas.
Exemplos que podemos citar são: o tempo de execução de uma tarefa em função do tempo de
experiência na execução desta tarefa, o cálculo do volume de vendas em função dos anos, o cálculo do
custo em função da taxa de câmbio.

ATIVIDADE 6.2

1) A tabela abaixo apresenta o desempenho de um veículo(km) adicionando aditivo(ml)
colocado em 1 litro de gasolina em proporções variáveis:

Ensaio
Aditivo
(ml/1Lgasolina)
Desempenho
(km)
1 1,0 10
2 2,0 11,25
3 3,0 12,5
4 4,0 16,25
5 5,0 17,5
6 6,0 17,5
7 7,0 20

a. Verifique, pelo diagrama de dispersão, se há correlação retilínea entre o aditivo e o
desempenho do veículo
b. Calcule o coeficiente de correlação;
c. Caso se verifique a correlação retilínea obtenha a equação do desempenho do veículo em
função do aditivo adicionado.
d. Caso se verifique a correlação retilínea verifique o desempenho do veículo para a condição de
não adicionar aditivo.
e. Caso se verifique a correlação retilínea verifique o desempenho do veículo para uma
quantidade de 3,5 ml/1L gasolina.
f. Caso se verifique a correlação retilínea verifique o desempenho do veículo para uma
quantidade de 3,5 ml/1L gasolina.
g. Caso se verifique a correlação retilínea verifique o desempenho do veículo para uma
quantidade de 100 ml/1L gasolina. (Comente o resultado )
2) Considere os resultados de 2 grandezas físicas, X(Temperatura) e Y(Pressão), obtidos num
laboratório de calibragem:

Temperatura (
o
C) 50 55 60 65 70 75 80 85 90
Pressão(kgf/cm²) 20 35 37 42 37 52 50 68 66

Caso se verifique a correlação retilínea verifique a pressão para as temperaturas possíveis a:
a) 57
o
C
b) 76,5
o
C
c) 110
o
C
d) 40
o
C

3) Um departamento de vendas de uma industria relacionou as vendas anuais em milhões,
denominada como variável dependente y, com o investimento anual em propaganda em milhões
denominada como variável independente x, cujos valores estão registrados na tabela seguinte.
Pede-se:


Propaganda
(milhões)
30 21 35 42 37 20 8 17 35 25
vendas
(milhões)
430 335 520 490 470 210 195 270 400 480


a) analisar a possibilidade de definir um modelo que represente a relação entre as variáveis da
amostra.
b) Obter a reta de regressão linear, com o método dos quadrados mínimos e desenhar os dados e
a reta de regressão.
c) Projetar os valores para valores de investimentos em propaganda iguais a 20, 30 e 45
milhões.



4) Suponha que um analista toma uma amostra aleatória de 10 carregamentos recentes por caminhão
feitos por uma companhia e anota a distância em quilômetros(X) e o tempo de entrega em dias(Y)
e anote os dados na Tabela a seguir. Pede-se:
a) Faça considerações se parece apropriada a análise de regressão linear simples entre a distância em
quilômetros e o tempo de entrega em dias.
b) Caso se confirme a regressão linear simples, obtenha a reta de regressão linear.
c) Analise do ponto de vista de interpolação ou extrapolação o ponto X = 0

Distância(km) 825 215 1070 550 480 920 1350 325 670 1215
tempo de
entrega(dias) 3,5 1 4 2 1 3 4,5 1,5 3 5

5- Um departamento de manutenção de uma industria relacionou uma amostra dos atendimentos/hora
dos seus clientes e no número de reclamações no Procon, cujos valores estão registrados na tabela
seguinte. Pede-se:


Atendimentos/h 2 4 6 8 10 12 14 16 18 20
Reclamações 50 40 45 30 20 23 15 8 10 5


d) analisar a possibilidade de definir um modelo que represente a relação entre as variáveis da
amostra.
e) Obter a reta de regressão linear, com o método dos quadrados mínimos e desenhar os dados e
a reta de regressão.
f) Projetar os valores para valores de investimentos em propaganda iguais a 0, 1 e 25
Atendimentos/h.

6- Suponha que um analista de um laboratório de industria química toma uma amostra aleatória de 10
produtos embalados sob pressão, onde a pressão [g/cm
2
] (X) e o PH(Y) são anotados na Tabela a
seguir. Pede-se:
a) Faça considerações se parece apropriada a análise de regressão linear simples entre a pressão e o
PH nos produtos embalados.
b) Caso se confirme a regressão linear simples, obtenha a reta de regressão linear.
c) Projetar os valores para pressões iguais a 168, 171 e 174 [g/cm
2
]















Pressão PH
166 6,5
167,5 7,5
169 7,2
170,5 6,5
172 7,4
173,5 7,1
175 7,8
176,5 6,6
178 7,7
179,5 7
Leitura Complementar

Embora o conceito Arredondamento de dados esteja em Leitura Complementar é importantíssimo que
você leia com atenção, pois iremos utilizá-lo constantemente no curso e em toda sua vida profissional.

Arredondamento de dados de acordo com a resolução 886/66 do IBGE

Muitas vezes, é necessário ou conveniente suprimir unidades inferiores às de determinada ordem. Esta
técnica é denominada arredondamento de dados.
De acordo com a resolução 886/66 do IBGE, o arredondamento é feito da seguinte maneira:
1 - Quando o primeiro algarismo a ser abandonado é 0,1,2,3 ou 4, fica inalterado o último
algarismo a permanecer.
Ex: 54,24 passa a 54,2 ; 34,03 passa a 34,0

2 - Quando o primeiro algarismo a ser abandonado é 6,7,8, ou 9, aumenta-se de uma unidade o
algarismo a permanecer.
Ex: 13,87 passa a 13,9 ; 24,08 passa a 24,1 ; 14,99 passa a 15,0

3 - Quando o primeiro algarismo a ser abandonado é 5, há duas soluções:
a) Se ao 5 seguir em qualquer casa um algarismo diferente de zero, aumenta-se uma unidade ao
algarismo a permanecer.
Ex: 7,352 passa a 7,4 ; 95,6501 passa a 95,7 ; 86,250002 passa a 86,3
b) Se o 5 for o último algarismo ou se ao 5 só se seguirem zeros, o último algarismo a ser conservado
só será aumentando de uma unidade se for ímpar.
Exemplos:
• 34,75 passa a 34,8
• 44,65 passa a 44,6
• 54,75000 passa 54,8
• 74,6500 passa a 74,6
Obs: Não devemos nunca fazer arredondamento sucessivos. Exemplo: 37,3452 passa a 37,3 e não para
37,35 e depois para 37,4.

Compensação

Suponhamos os dados abaixo, aos quais aplicamos as regras do arredondamento:
15,32 + 37,85 + 40,44 + 71,17 = 164,78 ( (167,8)
15,3 + 37,8 + 40,4 + 71,2 = 167,7
Verificamos que houve uma pequena discordância: a soma é exatamente 164,78
quando, pelo arredondamento, deveria ser 164,8, entretanto, para a apresentação
dos resultados, é necessário que desapareça tal diferença, o que é possível pela
prática do que denominamos compensação, conservando o mesmo número de
casas decimais.
Usamos "descarregar" a diferença na(s) maior(es) parcela(s). Veja:
15,3 + 37,8 + 40,4 + 71,3 = 167,8
Obs: Se a maior parcela é igual ou maior que o dobro de qualquer outra parcela,
"descarregamos" a diferença apenas na maior parcela.



ANEXOS

Resultado da pesquisa de campo referente aos preços (R$) de 200 monitores LCD de uma
determinada marca em 200 empresas de informática

431,3 431,3 431,3 432,0 413,0 413,0 413,0 414,0 414,0 414,0
422,0 422,5 422,5 422,5 422,8 416,0 416,0 417,0 417,0 417,0
425,5 425,5 426,0 426,0 426,0 419,0 419,0 419,0 420,0 420,0
421,0 421,0 421,0 421,0 421,0 422,0 422,0 422,0 422,0 422,0
424,0 424,0 424,0 424,0 424,0 424,0 424,5 424,5 424,5 424,5
427,0 427,0 427,0 427,0 427,0 427,0 427,5 427,5 427,5 427,5
430,0 430,0 430,0 430,0 430,0 430,0 430,6 430,6 430,6 430,6
433,0 433,0 433,0 433,0 433,0 434,0 434,0 434,0 434,0 434,0
436,0 436,0 436,0 436,0 437,0 437,0 437,0 437,0 438,0 438,0
439,0 439,0 439,0 440,0 440,0 440,0 440,0 440,0 417,0 438,0
420,0 420,0 420,3 420,3 420,3 420,3 420,7 420,7 420,7 420,7
418,0 418,0 418,0 418,0 419,0 422,8 422,8 422,8 423,0 423,0
424,5 424,5 425,0 425,0 425,0 425,0 425,5 425,5 425,5 425,5
427,5 427,5 428,0 428,0 428,0 428,0 428,5 428,5 428,5 428,5
430,6 430,6 431,0 431,0 431,0 431,0 431,0 431,3 431,3 431,3
434,0 434,0 435,0 435,0 435,0 435,0 435,0 435,0 435,0 435,0
417,8 417,8 417,8 417,8 438,0 435,0 435,0 423,0 423,0 423,5
415,0 415,0 415,0 415,0 416,0 426,0 426,0 426,3 423,5 423,5
428,5 428,5 429,0 429,0 429,0 429,0 429,0 429,8 429,8 429,8
412,0 412,0 412,5 412,5 432,0 432,0 432,0 432,0 426,3 426,3













































REFERÊNCIAS


Bibliografia Básica (títulos; periódicos etc.)
Título/Periódico Autor Ed. Local Editora Ano
CURSO DE
ESTATÍSTICA
FONSECA, JAIRO S.
& MARTINS,
GILBERTO A.
6ª SÃO PAULO ATLAS 2008
INTRODUÇÃO À
ESTATÍSTICA
TRIOLA, MARIO F. 10ª RIO DE
JANEIRO
LTC 2008
ESTATÍSTICA
BÁSICA
TOLEDO, GERALDO
L. & OVALLE, IVO I.
2ª SÃO PAULO ATLAS 1995

Bibliografia Complementar (títulos; periódicos etc.)
Título/Periódico Autor Ed. Local Editora Ano
ESTATÍSTICA
USANDO EXCEL
LAPPONI, JUAN
CARLOS
1ª SÃO PAULO
LAPPONI
TREINAMENTO E
EDITORA
2002
ESTATÍSTICA
SPIEGEL, MURRAY
R.
3ª SÃO PAULO
MAKRON BOOKS

2004
ESTATÍSTICA
BÁSICA
BUSSAB, WILTON O.
& MORETTTIN,
PEDRO A.
5ª SÃO PAULO SARAIVA 2004
ESTATÍSTICA
APLICADA À
ADMINISTRAÇÃO
STEVENSON,
WILLIAM J.
1ª SÃO PAULO HARBRA 2001
ESTATÍSTICA
FÁCIL
CRESPO, ANTÔNIO
ARNOT
18ª
SÃO PAULO SARAIVA 2006

Sign up to vote on this title
UsefulNot useful