You are on page 1of 214

Estatstica e

Probabilidades
Brulio Roberto Gonalves Marinho Couto
Janana Giovani Noronha de Oliveira
Octvio Alcntara Torres
Reinaldo Carvalho de Morais
Brulio Roberto Gonalves Marinho Couto
Janana Giovani Noronha de Oliveira
Octvio Alcntara Torres
Reinaldo Carvalho de Morais

ESTATSTICA E PROBABILIDADES

Belo Horizonte
Junho de 2015
COPYRIGHT 2015
GRUPO NIMA EDUCAO
Todos os direitos reservados ao:
Grupo nima Educao

Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prvia autorizao
por escrito da detentora dos direitos, poder ser reproduzida ou transmitida, sejam quais forem os meios
empregados: eletrnicos, mecnicos, fotogrficos, gravaes ou quaisquer outros.

Edio
Grupo nima Educao

Vice Presidncia
Arthur Sperandeo de Macedo

Coordenao de Produo
Gislene Garcia Nora de Oliveira

Ilustrao e Capa
Alexandre de Souza Paz Monsserrate
Leonardo Antonio Aguiar

Equipe EaD
Conhea
o Autor
Brulio Roberto Gonalves Marinho Couto
doutor em Bioinformtica, mestre em Cincia
da Computao, especialista em Estatstica,
bacharel em Engenharia Qumica e tcnico
em Qumica. Atuante nas reas de Estatstica,
Clculo Numrico, Informtica em Sade,
Epidemiologia Hospitalar e Bioinformtica.
Professor do Centro Universitrio de Belo
Horizonte (UniBH).
Conhea
a Autora
Janana Giovani Noronha de Oliveira
mestre em Estatstica e graduada
em Licenciatura em Matemtica com
Habilitao em Fsica. Possui experincia
como docente na rea de Matemtica e
Estatstica do Ensino superior e mdio.
Experincia com orientao de Monografias.
Conhea
o Autor
Octvio Alcntara Torres bacharel em
Estatstica e mestre em Demografia. Possui
experincia nas reas de probabilidade
e estatstica, regresso e correlao,
anlise estatstica multivariada e controle
estatstico de processo. reas de interesse:
projees populacionais, projees de mo
de obra qualificada, pesquisa de mercado,
estatstica aplicada.
Conhea
o Autor
Reinaldo Carvalho de Morais mestre e
bacharel em Administrao Pblica, graduado
em Estatstica e especialista em Gesto
Financeira. Possui experincia em pesquisas
sobre economia e finanas pblicas mineiras,
bem como docncia nas disciplinas de
estatstica, de economia, de engenharia
econmica, de matemtica financeira e de
administrao da produo.
Apresentao
da disciplina
Egressos de cursos de Engenharia e Tecnologia so profissionais que
resolvem problemas. E como isso ocorre? Pela aplicao eficiente
do mtodo cientfico. Pois bem, disso que se trata essa disciplina:
apresentar ferramentas estatsticas que possibilitaro a voc
transformar-se num especialista em qualquer rea do conhecimento
e, portanto, apto a resolver problemas. A disciplina dividida em oito
unidades cujo objetivo introduzir o aluno na rea da Estatstica e
Probabilidades, tornando-o capaz de planejar e de executar experimentos
de pequeno e mdio porte nas reas de Cincias Exatas e de Engenharia.
Alm de fazer a anlise exploratria dos dados e de realizar inferncias,
por meio da tomada de deciso na presena de incerteza.

A Unidade 1 apresenta definies fundamentais para a correta


compreenso do processo de coleta e de anlise de dados. Conceitos
sobre populao e amostra, censo e amostragem, e variveis so
discutidos nessa unidade. A Unidade 2 trata da anlise exploratria de
dados, quando so apresentadas tcnicas de Estatstica Descritiva. O
objeto dessa unidade, bastante intuitiva, trabalhar a sntese numrica,
grfica e tabular dos dados. A ideia usar ferramentas como o Excel para
construir tabelas e grficos, como histograma, diagrama de disperso,
Pareto e calcular valores como mdia, mediana, desvio padro, e
coeficiente de variao. Na Unidade 3 so introduzidos conceitos bsicos
de probabilidades, cruciais para que se entenda o processo de tomada de
deciso na presena de incerteza. Na unidade 4, que uma continuao
da terceira unidade, so apresentados os modelos probabilsticos mais
importantes para se modelar problemas de pequeno e mdio porte na
rea de Engenharia e Tecnologia.

A partir da Unidade 5 caminhamos para a rea nobre da Estatstica, que


envolve as inferncias, isto , o processo de generalizao de resultados
parciais, observados em amostras, para toda a populao envolvida
num problema. Nessa unidade discutida a forma de obter os intervalos
de confiana, tanto para mdia quanto para proporo. Na Unidade 5
discute-se, por exemplo, como o resultado de uma pesquisa eleitoral
calculado e o significado do intervalo definido pela soma e subtrao de
uma margem de erro.

A Unidade 6 voltada para o planejamento de experimentos, quando


apresentado, por exemplo, como calcular o tamanho de uma
amostra. Em alguns livros este item colocado na primeira unidade,
o que tem certa lgica por tratar da coleta de dados, primeira etapa
de qualquer anlise estatstica. Entretanto, como so necessrios
conceitos probabilsticos e de inferncia para entender o planejamento
de experimentos, optamos por colocar essa unidade logo aps a
discusso sobre intervalos de confiana.

As Unidades 7 e 8 fecham a disciplina, apresentado as ferramentas mais


teis para que voc finalmente se transforme num especialista em uma
rea qualquer e, portanto, realmente apto a resolver seus problemas. Na
Unidade 7 so discutidos os mtodos para fazer e interpretar testes de
hipteses, num contexto uni variado e, na Unidade 8, discute-se mtodos
de correlao e regresso, introduzindo a anlise multivariada.

Ao longo das oito unidades, procuraremos apresentar uma abordagem


baseada em PPL Aprendizagem Baseada em Problemas, alm de
usarmos como ferramentas computacionais o Microsoft Excel e o
software de domnio pblico, EpiInfo.

Bom trabalho!

Brulio, Janana, Octvio e Reinaldo.


UNIDADE 1  003
Introduo estatstica  004
Conceitos bsicos  006
O papel das variveis numa base de dados: identificao, auxiliares,
variveis explicativas e varivel reposta (desfecho)  012
Tipos de variveis 015
Uso do Excel como um sistema de gerenciamento de dados
e dos formulrios do Google Docs para coleta de informaes 017
Reviso  021

UNIDADE 2  023
Anlise exploratria de dados  024
Sntese grfica de dados  026
Sntese tabular de dados  047
Sntese numrica de dados 048
Reviso 059

UNIDADE 3  061
Introduo teoria de probabilidades  062
A teoria das probabilidades 064
Probabilidade clssica e probabilidade frequentista  066
Leis bsicas de probabilidades  067
Unio e interseo de eventos 068
Tabelas de contingncia 070
Eventos independentes 072
Teorema de Bayes 072
Reviso 076

UNIDADE 4  079
Modelos probabilsticos  080
Variveis aleatrias  081
Modelos probabilsticos  088
Distribuio binomial 088
Distribuio Poisson 089
Distribuio normal 090
Reviso 095
UNIDADE 5  096
Estimao de mdias e propores  097
Teorema central do limite  099
Estimao pontual e por intervalos de confiana para uma
mdia populacional  103
Estimao pontual e por intervalos de confiana para uma
proporo populacional 112
Uso do Excel no clculo de intervalos de confiana para
mdia e proporo 116
Introduo ao programa EpiInfo  120
Reviso 121

UNIDADE 6  124
Planejamento de experimentos  125
Clculo de tamanho de amostra baseado em intervalos de
confiana para uma proporo  127
Clculo de tamanho de amostra baseado em intervalos de confiana
para uma mdia  132
Planejamento de experimentos 135
Planejamento de experimentos - terminologia bsica 140
Reviso 144

UNIDADE 7  147
Testes de Hipteses  148
A construo e o significado de uma hiptese estatstica  149
Testes para uma amostra  151
Testes para duas ou mais amostras 167
Reviso 172

UNIDADE 8  174
Anlise de correlao e regresso  175
Anlise de correlao  176
Regresso linear simples  185
Regresso linear mltipla 193
Reviso 200

REFERNCIAS  202
Introduo
estatstica
Introduo

Podemos entender o mtodo estatstico como um processo para obter,


apresentar e analisar caractersticas ou valores numricos, identificando
Conceitos
padres que possibilitam a tomada de deciso em situaes de incerteza.
bsicos
Pode acreditar, se voc aplicar o mtodo estatstico para a anlise e soluo
O papel das
de problemas, muito rapidamente se tornar um especialista de qualquer variveis numa
rea do conhecimento! Num mundo real, completamente cercado de base de dados:
identificao,
incertezas, ser capaz de identificar padres de comportamento de
auxiliares,
pessoas, projetos, produtos, servios, etc pode transform-lo num mago. variveis
explicativas e
vriavel reposta
Entretanto, antes de voc transformar-se num mago, necessrio (desfecho)
um entendimento adequado do mtodo estatstico, que tem suas
Tipos de
armadilhas. Costumo dizer que Estatstica no Matemtica... muito variveis
mais difcil. Na verdade, Estatstica uma das reas da Matemtica Uso do Excel
que, por sinal, a Cincia cuja aplicao no mundo real possibilitou ter como um
sistema de
uma vida incrivelmente confortvel. Bom, quando afirmo que Estatstica
gerenciamento
no Matemtica, quero dizer que, na Matemtica que voc aprendeu no de dados e dos
Ensino Fundamental e Mdio, os problemas tm usualmente uma nica formulrios do
Google Docs
forma de serem resolvidos e devem todos chegar ao mesmo resultado para coleta de
(uma nica resposta correta). Na Estatstica, os problemas tm vrias informaes
formas de serem resolvidos, podem chegar a resultados diferentes e Reviso
todos esto corretos! Isso ocorre porque a Estatstica requer a habilidade
de considerarmos as coisas dentro de uma perspectiva probabilstica, o
que vai completamente contra a conceituao usual dos problemas em
simplesmente certo ou errado. No buscaremos a verdade absoluta,
mas padres de comportamento que nos possibilitaro tomar decises
com alto grau de confiana.
Para melhor entendermos o que ser discutido, o mtodo estatstico
ser dividido em quatro grandes reas:

1. amostragem e coleta de dados;

2. anlise exploratria de dados (estatstica descritiva);

3. teoria das probabilidades;

4. deciso na presena de incerteza (inferncia).

A ideia por trs dessa unidade levar at voc o conhecimento


fundamental que lhe permitir entender a coleta de dados.
Estudaremos conceitos fundamentais de Estatstica, questes
simples, mas essenciais para que tenhamos sucesso nas outras
etapas do mtodo estatstico, que sero discutidas nas prximas
unidades. Estes so os objetivos da Unidade 1:

a) apresentar conceitos bsicos de Estatstica e Probabilidades;

b) identificar as funes e os principais tipos de dados e de variveis;

c) identificar e corrigir problemas de dados faltantes (missing);

d) configurar o Excel como instrumento de coleta de dados;

e) entender o sistema de endereamento de clulas do Excel.

f) construir formulrios de coleta de dados no Google Docs;

g) enviar formulrios de coleta de dados por meio de mala direta.

crucial que voc entenda os conceitos que sero discutidos


nessa unidade. Sem o entendimento do que seja, por exemplo, uma
varivel, o seu tipo e a sua funo na base de dados, no h como
voc ser feliz nas outras etapas do processo!
ESTATSTICA E PROBABILIDADES

Conceitos
bsicos
Voc sabe o que populao? E amostra? Vejamos o exemplo a seguir.

Vamos supor que uma cozinheira esteja preparando dois litros de sopa.

Como ela sabe se a sopa est temperada?

Os dois litros de sopa formam a populao e, se a cozinheira


comer/provar toda a sopa, estar fazendo um censo, o que geraria
um absurdo do tipo , a sopa estava tima!.

A cozinheira sabe que em experimentos baseados em ensaios


destrutivos, quando a prpria anlise destri o dado coletado, o
censo um absurdo. Na verdade, ela sabe que censos, de modo
geral, so inviveis, muito caros e/ou muito demorados. Mais
ainda, ela sabe que se usar uma pequena amostra cuidadosamente
retirada, chamada amostra representativa, poder tomar decises
sobre toda a populao envolvida no problema com um alto grau
de confiana.

A cozinheira ento retira uma pequena amostra, uma pitada


da comida, prova-a e generaliza o resultado para toda a sopa.
Isso chamado de inferncia: tomar decises sobre toda uma
populao com base em informaes parciais de uma amostra
(veja a FIGURA 1).

Entretanto, a cozinheira sabe que para fazer inferncias vlidas,


deve tomar cuidado para no trabalhar com amostras viciadas. E o
que seria isso?

Se ela retirar uma amostra somente da parte de cima da sopa, muito


provavelmente ter uma amostra viciada, isto , sem representantes

006
unidade 1
ESTATSTICA E PROBABILIDADES

de todos os componentes da sopa como um todo que, neste caso,


a populao amostrada.

E como ela retira uma amostra representativa da sua populao


(sopa)? Como a cozinheira procede para obter uma amostra com
representantes de cada estrato da sopa?

Simples, ela mistura a sopa fazendo uma homogeneizao e sorteia


uma poro/pitada que ser usada no seu processo decisrio.
Fazendo uma amostragem aleatria, a cozinheira sabe que ter
grande chance de trabalhar com amostras representativas.

Podemos agora resumir esses conceitos.

Populao:

a. consiste na totalidade das unidades de observao a partir


Populao finita: o
dos quais ou sobre os quais deseja tomar uma deciso; nmero de unidades
de observao pode
b. conjunto de elementos que formam o universo do nosso ser contado e
estudo e que so passveis de serem observados; limitado.

c. conjunto de indivduos sobre os quais recairo todas as


generalizaes das concluses obtidas no estudo;

d. usualmente, as unidades de observaes so pessoas,


objetos ou eventos;

e.  o universo a ser amostrado;

f. do ponto de vista matemtico, a populao definida como


um conjunto de elementos que possuem pelo menos uma
caracterstica em comum (SILVA, 2001).

Populao finita: o nmero de unidades de observao pode ser


contado e limitado. Exemplos:

a. alunos matriculados na disciplina Estatstica e


Probabilidades;

007
unidade 1
ESTATSTICA E PROBABILIDADES

b. todas as declaraes de renda recebidas pela Receita Federal;

c. todas as pessoas que compram telefone celular num


determinado ano;

d. um lote com N produtos.

Populao infinita: a quantidade de unidades de observao


ilimitada, ou a sua composio tal que as unidades da populao
no podem ser contadas. Exemplos:

a. conjunto de medidas de determinado comprimento;

b. gases, lquidos e alguns slidos em que as suas unidades


no podem ser identificadas e contadas. Populao infinita:
a quantidade
de unidades de
Amostra: conjunto de unidades selecionadas de uma populao, ou
observao
seja, uma parte dos elementos da populao. ilimitada, ou a sua
composio tal
Amostra representativa: uma verso em miniatura da populao,
que as unidades
da populao
exatamente como ela , somente menor. A amostra representativa no podem ser
segue o modelo populacional, tal que suas caractersticas contadas.
importantes so distribudas similarmente entre ambos os grupos.

Unidade amostral: a menor parte distinta de uma populao,


identificvel para fins de seleo e construo da amostra.

Amostra aleatria: aquela obtida por meio de um processo de


sorteio ou aleatorizao.

Amostra viciada: aquela que representa apenas parte da


populao, no possuindo elementos de todos os estratos ou
subconjuntos que formam a populao como um todo.

Censo: exame de todas as unidades de observao de uma


populao. Como discutido no exemplo da cozinheira, se a

008
unidade 1
ESTATSTICA E PROBABILIDADES

pesquisa envolve ensaio destrutivo, o censo invivel. Na verdade,


somente se a populao alvo for pequena razovel observ-la
por inteiro, atravs do censo, pois mesmo quando viveis, censos
so caros e demorados. Outros exemplos de ensaios destrutivos,
nos quais impossvel aplicar censo: pesquisa sobre a fora de
trao de um lote de barras de ao para construo; pesquisa
sobre contaminao de soro fisiolgico em um lote; testes de
resistncia e durabilidade de um lote de concreto; tempo de pega
de um lote de cimento.

Amostragem: processo pelo qual uma amostra de unidades da


populao retirada e observada. a parte mais importante
do processo de pesquisa. O principal e fundamental objetivo de
qualquer plano de amostragem selecionar a amostra, de tal
maneira que ela retrate fielmente a populao pesquisada.

FIGURA 1 - Populao alvo, populao amostrada e amostra

Populao alvo do estudo

Inferncia Populao
amostrada

Amostra

Fonte: Elaborado pelo autor.

Inferir significa generalizar resultados de uma amostra para toda


a populao.

Por que usar amostras? Por que no incluir no estudo todos os


indivduos da populao?

009
unidade 1
ESTATSTICA E PROBABILIDADES

A amostragem deve ser usada porque torna o processo eficiente


e preciso. E ela eficiente, uma vez que o recurso que poderia
ser despendido na coleta de dados desnecessrios de um
grande nmero de indivduos pode ser gasto em outra atividade,
como na monitorao da qualidade da prpria coleta dos dados.
As amostras, por serem menores que a populao, podem ser
estudadas mais rapidamente que censos e so tambm mais
baratas. Alm disso, se o processo de amostragem gerar uma
amostra representativa da populao alvo do estudo, os resultados
observados podero ser generalizados, sem risco de chegar a
uma concluso diferente daquela que seria obtida se trabalhar
com toda a populao.

Vejamos agora alguns aspectos relevantes para o campo da


amostragem. So eles:

-- Questes da amostragem: Qual o tamanho da amostra?


Como a amostra ser obtida? Como garantir que a amostra A amostragem deve
ser usada porque
obtida seja representante da populao objeto do estudo? A
torna o processo
questo mais importante no o seu tamanho, mas como eficiente e preciso.
a amostra ser obtida, pois a amostragem mal feita invalida
qualquer pesquisa.

-- Tamanho da amostra (n): est relacionado ao total de


unidades amostradas, usadas no processo de inferncia.
Imagino que voc esteja curioso em relao ao tamanho
da amostra, mas, como citado anteriormente, esta no
de longe a questo mais importante. Por exemplo, o que
voc que teria mais credibilidade numa pesquisa sobre
a aceitao (ou no) do aborto por parte da populao
brasileira: resultados de pesquisa realizada no domingo
noite por uma emissora de TV, envolvendo milhes de
pessoas que, aps assistirem a uma reportagem sobre o
assunto, responderam pesquisa; ou resultados de uma
amostra de 2.500 pessoas selecionadas aleatoriamente
no territrio brasileiro?

010
unidade 1
ESTATSTICA E PROBABILIDADES

No entanto, essa no uma questo muito importante


para obtermos o tamanho da amostra adequada para uma
pesquisa, visto que necessrio estudarmos alguns conceitos
probabilsticos, que sero apresentadas somente nas
prximas unidades.

A maioria das pessoas, quando questionadas sobre qual o tamanho da

amostra necessria para uma pesquisa, tem o raciocnio equivocado de

que o tamanho da amostra (n) tem relao direta com o tamanho da

populao amostrada (N). Inevitavelmente, a maioria das pessoas afirma

erroneamente que uma boa amostra deve conter pelo menos, digamos,

30% da populao. O que a cozinheira diria disto? Para provar dois litros

de sopa, quanto de amostra ela teria que avaliar? Isso mesmo, uma pitada. Amostra
probabilstica:
E para provar 400 litros de sopa, ela beberia um prato inteiro? No. Ela
existe uma garantia,
provar a mesma pitada, pois sabe que, o mais importante nesse processo em termos de
inferencial no o tamanho da amostra, mas provar uma amostra no probabilidade, de que
viciada, representativa de toda a sopa. qualquer membro
da populao possa
ser selecionado para
Voltando aos processos de amostragem, as amostras podem ser amostra.
classificadas em probabilsticas e no probabilsticas:

Amostra probabilstica:

-- existe uma garantia, em termos de probabilidade, de que


qualquer membro da populao possa ser selecionado
para amostra.

Amostra no probabilstica:

-- os elementos da amostra no so escolhidos por meio de


um sorteio.

CARVALHO e COUTO (2003) apresentam as principais


caractersticas de tipos de amostragem mais comuns, relacionados

011
unidade 1
ESTATSTICA E PROBABILIDADES

principalmente com pesquisas de survey. Outras amostras, por


exemplo, amostragem de minrio, de solo, de gases e de lquidos
tm procedimentos prprios que buscam, em ltima instncia,
obter amostras que sejam representativas de cada populao
envolvida. Em suma, qualquer que seja o esquema de amostragem,
probabilstico ou no, deve-se sempre garantir que a amostra reflita
as caractersticas da populao da qual foi retirada.

Conforme discutido anteriormente, algumas pessoas acreditam que uma

amostra representativa necessria coletar dados de um percentual

mnimo da populao, digamos, 30% do total de indivduos. Isso

absolutamente falso e, o que pior, mesmo que fossem analisados


Qualquer que
tal percentual de indivduos da populao, no o tamanho que
seja o esquema
garante representatividade da amostra, mas a forma com ela obtida. de amostragem,
a imparcialidade do processo de seleo dos seus elementos e a probabilstico
ou no, deve-se
homogeneidade da distribuio das caractersticas da amostra e da
sempre garantir que
populao que garantem a representatividade da amostra. a amostra reflita as
caractersticas da
populao da qual
foi retirada.

O papel das variveis


numa base de dados:
identificao, auxiliares,
variveis explicativas
e varivel reposta
(desfecho)
O primeiro passo de qualquer processo estatstico a coleta
de dados. Portanto, tudo o mais ser alicerado sobre o que
for coletado. Sendo assim, essa fase deve ser cuidadosamente

012
unidade 1
ESTATSTICA E PROBABILIDADES

planejada, j que da qualidade dos dados coletados depender


toda a anlise e a tomada de deciso subsequente.

Antes da coleta de um dado, importante entender o conceito


de varivel que est por trs da informao que voc procura. A
varivel contm a informao que voc quer analisar, sob a forma
de uma medio sobre determinadas caractersticas dos indivduos
estudados e das unidades de observao.

E, por que esse conceito to importante? Porque, no fim das contas,


a varivel que analisada e no a informao que ela contm. Por
isso, importante que voc, antes de sair coletando informaes,
analise o seu questionrio de coleta de dados, identifique cada varivel
envolvida e responda perguntas, tais como: O que exatamente a
varivel est medindo? Para que serve esta varivel e, principalmente,
possvel analis-la? E com que mtodo estatstico?
Uma varivel a
quantificao de
uma caracterstica
de interesse da
pesquisa (SOARES e
Uma varivel a quantificao de uma caracterstica de interesse da SIQUEIRA, 2002).
pesquisa (SOARES e SIQUEIRA, 2002). Refere-se ao fenmeno a ser

pesquisado. o campo de variao de cada tipo de dado a ser pesquisado.

Observe que, como o prprio nome diz, uma varivel deve variar, ou seja,

se voc est coletando dados sobre caractersticas de alunos da disciplina

Clculo Diferencial, podemos pensar em inmeras variveis para a unidade

de observao aluno: idade, sexo, curso, local do ensino mdio, tempo

entre final do ensino mdio e incio da graduao, nota final, percentual de

presena s aulas etc. Entretanto, o tipo de disciplina no uma varivel

nesse caso, pois ela constante (Clculo Diferencial).

O grau de variabilidade de uma varivel chave no mtodo


estatstico e ser foco de discusses nas prximas unidades.
Entretanto, neste momento, crucial que voc entenda dois
aspectos bsicos de qualquer varivel: o seu tipo e a sua funo, o
papel que ela exerce na base de dados.

013
unidade 1
ESTATSTICA E PROBABILIDADES

Toda anlise que ser feita na base de dados depender do seu

entendimento sobre o tipo e a funo de cada varivel coletada!

Vejamos os tipos de funes de cada varivel:

QUADRO 1 - O papel de uma varivel numa base de dados.

TIPOS CARACTERSTICAS

Servem para o rastreamento dos indivduos e das unidades


Variveis de identificao amostrais, ou so usadas na definio de outras variveis. Exemplos
e auxiliares de variveis de identificao: CPF, nome, nmero de matrcula,
nmero da amostra etc.

Exemplos de variveis auxiliares: datas, peso e altura.


Variveis de identificao e auxiliares no so analisadas, mas fazem
parte da base de dados.

So aquelas que, por hiptese, podem influenciar, determinar ou afetar


Variveis explicativas a varivel resposta ou desfecho da pesquisa. So chamadas tambm
de co-variveis ou variveis independentes.

Para cada estudo existem variveis explicativas prprias, definidas


por hipteses da prpria pesquisa ou conforme reviso da literatura.
Em processos qumicos, quando se busca entender os fatores que
afetam o rendimento de uma reao qumica, so exemplos de
variveis explicativas a temperatura, a presso, o tipo de catalisador e
a concentrao de reagentes. Se algum pesquisar sobre as razes de
algumas pessoas serem maiores que outras, as alturas do pai e da me,
a origem tnica, a idade e o sexo so exemplos de variveis explicativas.

aquela que queremos explicar, em funo de ser influenciada, afetada


Varivel desfecho por outros fatores (variveis explicativas). Tambm denominada de
varivel dependente ou varivel resposta. Sempre defina um ou mais
desfechos para o estudo, conforme os objetivos da sua pesquisa. Por
exemplo, numa pesquisa cujo objetivo explicar porque imveis de
uma mesma regio tm preos to variados, o preo de venda seria
uma varivel resposta. Fatores como rea, nmero de quatros, nmero
e tipo de vaga de garagem, quantidade de sutes, presena de salo de
festas ou piscina so algumas das possveis variveis explicativas para
esse problema.

Fonte: Elaborado pelo autor.

014
unidade 1
ESTATSTICA E PROBABILIDADES

A funo de cada varivel na base de dados, assim como o seu


tipo, definir que tipo de anlise ser feita. No subestime esses
conceitos pois, sem eles, no h como entender os mtodos de
anlise estatstica que sero estuados nas prximas unidades.

Tipos de
variveis
Se considerarmos a maioria absoluta das variveis envolvidas em
experimentos de pequeno e mdio porte nas reas de Cincias
Exatas e Engenharia, teremos duas situaes para o tipo da varivel.

I) Varivel qualitativa ou categrica: aquela que expressa


caractersticas ou atributos de classificao, distribudos em
A funo de cada
categorias mutuamente exclusivas de objetos ou entidades.
varivel na base
Categorias mutuamente exclusivas ou mutuamente excludentes de dados, assim
no podem ser observadas simultaneamente num mesmo como o seu tipo,
definir que tipo de
indivduo. Por exemplo, grupo sanguneo (A, B, AB, O) uma
anlise ser feita.
varivel categrica mutuamente exclusiva: um indivduo tem
somente um grupo sanguneo, no podendo ser classificado em
mais de uma categoria ao mesmo tempo. Variveis qualitativas
tm um nvel baixo de informao, sendo obtidas por um critrio
de classificao. Por exemplo, sexo (masculino, feminino), estado
civil (com companheiro, sem companheiro), cor de um produto
(branco, verde, amarelo, azul), tipo de transmisso de um carro
(manual, automtica), conformidade de qualidade de um produto
(aceito, no aceito), dia chuvoso (sim, no), resultado final de um
aluno numa disciplina (aprovado, reprovado) etc.

A anlise de uma varivel categrica muito restrita e simples:


conta-se quantas unidades amostrais ou resultados observados em
cada categoria da varivel e calcula-se o percentual de ocorrncia
de cada classe ou categoria.

015
unidade 1
ESTATSTICA E PROBABILIDADES

II) Varivel quantitativa: aquela obtida por meio de um processo


de medio ou contagem. Por exemplo: peso, altura, dosagem
e concentraes de produtos qumicos e outros insumos,
temperatura, presso, altitude, umidade, largura, dimetro,
comprimento, voltagem, corrente, quantidade de chuva (mm),
nmero de falhas, nmero de ligaes telefnicas, nmero de
mensagens eletrnicas, nmero de faltas de um aluno numa
disciplina, nota final na disciplina, rea, preo, etc.

A varivel quantitativa possui o mais alto nvel de informao,


sendo objeto de inmeras tcnicas de anlise. Para cada varivel
quantitativa podemos calcular seu valor mdio, mediano, modal,
mnimo, mximo, seu desvio padro, coeficiente de variao,
intervalos especficos de variao e outras tcnicas analticas que
sero descritas na prxima unidade.

As variveis quantitativas so chamadas tambm de numricas,


As variveis
mas essa nomenclatura pode gerar confuso, pois o simples quantitativas so
fato de alocar nmeros aos resultados de uma varivel no a chamadas tambm
de numricas.
torna quantitativa. Por exemplo, se os grupos sanguneos fossem
classificados em 1, 2, 3 e 4 (ao invs de A, B, AB e O), tal codificao
no a tornaria uma varivel quantitativa. Na verdade, para que uma
varivel seja quantitativa, deve ser possvel aplicarmos operaes
aritmticas aos seus resultados. A capacidade de realizarmos, por
exemplo, somas e subtraes vlidas aos resultados de uma
varivel um indicativo de que ela quantitativa. Claro que a anlise
do seu processo de obteno mais importante: os resultados
de uma varivel quantitativa devem ser obtidos por medio ou
contagem. Alm disso, essas variveis podem ser contnuas,
quando representadas por nmeros reais, ou discretas, quando
representadas por nmeros inteiros.

Usualmente, se ela obtida por medio, ento contnua. Caso


seja obtida por meio de contagem, uma varivel discreta. Para
efeitos prticos, no faremos distino entre variveis contnuas e
discretas, o fundamental entend-las como quantitativas.

016
unidade 1
ESTATSTICA E PROBABILIDADES

Algumas variveis originalmente de classificao. As notas obtidas


por um aluno numa prova so tratadas como quantitativas, mesmo
que no sejam obtidas por meio de um aparelho ou dosador. Nesse
caso, a nota de uma prova tratada como varivel quantitativa
porque considera-se vlido aplicar operaes aritmticas aos seus
resultados. Entretanto, ser que um aluno que obtm 80 pontos
numa disciplina sabe o dobro que um aluno que obteve 40 pontos?
Claro que no. J uma pessoa de 100 Kg tem o dobro de peso de
uma pessoa de 50 Kg. Outro exemplo, as temperaturas medidas
em Graus Celsius so tratadas como variveis quantitativas. Isso
quer dizer que um dia com 40C tem o dobro de calor de um dia
com 20C? Transforme os valores em Graus Celsius para Kelvin e
compare o resultado.

Bom, os conceitos por trs dessa discusso envolve o nvel de


mensurao da varivel (nominal, ordinal, intervalar e de razo) que Para efeito prtico,
ser tratado a seguir. Para efeito prtico, consideraremos somente consideraremos
duas categorias de variveis: quantitativas versus categricas.
somente duas
categorias
Conforme citado anteriormente, esses so os tipos de varivel de variveis:
coletadas em problemas tpicos de Cincias Exatas e de Engenharia. quantitativas
versus categricas.

Uso do Excel como


um sistema de
gerenciamento de dados
e dos formulrios do
Google Docs para coleta
de informaes
Duas ferramentas essenciais para coleta de dados de
experimentos de pequeno e mdio porte na rea de Cincias
Exatas e Engenharia so o Excel, um dos componentes do

017
unidade 1
ESTATSTICA E PROBABILIDADES

pacote Office da Microsoft, e os Formulrios do Google Docs


<https://docs.google.com/forms>.

O Excel uma planilha eletrnica com origens no Lotus


1-2-3 (GAZZARRRINI, 2013). Ambas as ferramentas so
extremamente prticas, de grande utilidade e sero discutidas
por meio de vdeo aulas.

Os formulrios do Google Docs so timos para pesquisas


envolvendo pessoas que tm endereo eletrnico (e-mails).
Para us-los voc ter que obter uma lista com os nomes dos
respondentes e os respectivos e-mails. Aps construir o formulrio
de coleta de dados no Google Docs, voc poder envi-lo usando o
mecanismo de mala direta, da aba correspondncias do Word,
que tambm parte do pacote Office da Microsoft. As respostas
enviadas pelos respondentes so automaticamente armazenadas
em planilha eletrnica, facilitando a coleta e a anlise dos dados.

crucial que voc domine o Excel como instrumento de coleta


de dados e entenda perfeitamente o papel de cada varivel a ser
coletada. Identificar variveis explicativas e desfecho (s), distinguir
entre varivel quantitativa e categrica uma questo relativamente
simples, mas fundamental para as discusses que sero feitas nas
prximas unidades.

Considere o artigo Utilizao de efluente de frigorfico, tratado com

macrfita aqutica, no cultivo de tilpia do Nilo, de autoria de Adilson

Reidel e outros pesquisadores da Universidade Estadual do Oeste do

Paran (REIDEL et al.; 2005) disponvel em:

<http://www.agriambi.com.br/revista/suplemento/index_arquivos/

PDF/181.pdf>

018
unidade 1
ESTATSTICA E PROBABILIDADES

Neste trabalho, os pesquisadores fizeram um experimento em que,

resumidamente, foram colocadas amostras aleatrias de alevinos

(filhotes) de tilpia em aqurios com gua potvel (tratamento A) e em

tanques com efluente de frigorfico aps passar num sistema de filtro com

aguap (tratamento B), avaliando-se comparativamente o desenvolvimento

e a sobrevivncia dos peixes. A pergunta principal da pesquisa era:

possvel cultivar tilpias em efluente de frigorfico tratado com aguap?

Nas tabelas 1 e 2 do artigo, so apresentados alguns resultados e um

conjunto de variveis envolvidas na pesquisa.

TABELA 1 Valores mdios dos parmetros fsico-qumicos


determinados durante o cultivo da tilpia do Nilo (O. niloticus)
TRATAMENTOS
PARMETROS
A B

Temperatura mdia (C) 26,4 = 1,60 26,4 = 1,70


Oxigienio Dissolvido (mg L ) -1
7,17 = 0,60 7,18 = 0,90
Condutividade Eltrica (uS cm-1) 227,48 = 36 1779,7 = 68
pH 8,44 = 0,12 7,40 = 0,35

Tratamentos: (A) controle (gua potvel + rao); (B) efluente tratado (efluente do sistema de
filtro de aguap + rao)

Fonte: REIDEL et al., 2005.

TABELA 2 Valores mdios de desempenho e sobrevivncia de alevinos


de tilpia do Nilo, cultivados com gua potvel e efluente tratado

Tratamento A Tratamento B Teste t-Student


VARIVEIS
mdia O mdia O T calculado

Peso inicial (indivduo) (g) 0,235 a 43,267 0,232 a 46,113 0


Biomassa inicial (aqurio) (g) 1,172 a 2,426 1,160 a 1,901 0,001
Peso final (indivduo) (g) 1,391 a 42,269 1,054 a 45,582 0,028
Biomassa final (aqurio) 5,280 a 38,890 4,300 a 45,721 0,028
Sobrevivncia (%) 75 a 80,467 80 a 25,819 0,08

Mdias seguidas da mesma letra, na linha, no diferem significadamente pelo teste t de Student ao nvel 5% de significncia

Fonte: REIDEL et al.; 2005.

019
unidade 1
ESTATSTICA E PROBABILIDADES

Esse um exemplo prtico da aplicao de conceitos discutidos


na Unidade 1 em experimentos de pequeno e mdio porte na rea
de Cincias Exatas e de Engenharia. O experimento baseado
em amostragem e analisa o impacto de variveis explicativas em
desfechos diretamente ligados ao objetivo do projeto: sobrevivncia
dos peixes, peso e biomassa final no aqurio.

Nesse trabalho so usadas trs variveis resposta, uma categrica


(O peixe sobreviveu? sim ou no) e dois desfechos quantitativos
(peso final e biomassa final, medidos em gramas). Dentre as
variveis explicativas envolvidas, a mais importante, que est
diretamente ligada ao objetivo da pesquisa o tipo de tratamento (A
versus B), uma varivel categrica dicotmica.

Muitas pessoas tm dificuldade em identificar essa varivel


explicativa, apesar dela ser a mais importante na pesquisa. As
outras variveis explicativas so todas quantitativas e, como tal,
foram obtidas por meio de um processo de medio, contagem
ou dosagem: temperatura (C), oxignio Dissolvido (mg L-1),
condutividade Eltrica (S cm-1), pH, peso inicial (g) e biomassa
inicial (g).

Nas tabelas apresentadas aparecem mtricas (mdia, desvio


padro e valor de t de student) que so usadas na anlise e na
concluso do projeto. Fique tranquilo, esses conceitos sero
tratados nas prximas unidades!

De qualquer forma, a concluso da pesquisa para a pergunta


possvel cultivar tilpias em efluente de frigorfico tratado com
aguap?, : Sim, possvel cultivar tilpias em efluente de
frigorfico tratado com aguap. Os dados no mostraram diferena
significativa entre os dois tratamentos, tanto em relao ao
desenvolvimento quanto sobrevivncia dos peixes.

O entendimento completo das razes para chegar a essa concluso


ser obtido nas prximas unidades. Entretanto, neste momento,

020
unidade 1
ESTATSTICA E PROBABILIDADES

fundamental que voc j entenda conceitos referentes ao processo


de amostragem/coleta de dados e, principalmente, que consiga
diferenciar os tipos e as funes das variveis numa pesquisa.

Reviso
Vimos nessa unidade alguns dos principais tpicos introdutrios do
campo da Estatstica. Em resumo, estudamos sobre:

Populao, amostra, censo e amostragem:

-- Censo de toda a populao no vivel, devido aos altos


custos e/ou quando a pesquisa envolve ensaios destrutivos.

-- Uma pequena, mas cuidadosamente escolhida, amostra


pode ser usada para representar a populao.
Varivel
quantitativa:
-- Os resultados observados numa amostra representativa aquela obtida
por meio de
podero ser generalizados, sem risco de chegar a uma
um processo
concluso diferente daquela que seria obtida no caso de de medio ou
trabalhar com toda a populao. contagem.

-- A questo mais importante numa amostragem no


o tamanho da amostra, mas como a amostra ser
obtida, pois o delineamento amostral mal feito invalida
qualquer pesquisa.

Tipos de variveis:

-- Varivel qualitativa ou categrica: aquela que expressa


caractersticas ou atributos de classificao, distribudos
em categorias mutuamente exclusivas de objetos ou
entidades.

-- Varivel quantitativa: aquela obtida por meio de um


processo de medio ou contagem.

021
unidade 1
ESTATSTICA E PROBABILIDADES

Funo das variveis:

-- Variveis de identificao e auxiliares: servem para o


rastreamento dos indivduos e das unidades amostrais ou
so usadas na definio de outras variveis.

-- Variveis explicativas: so aquelas que, por hiptese,


podem influenciar, determinar ou afetar a varivel resposta
ou desfecho da pesquisa.

-- Varivel desfecho: aquela que queremos explicar, em


funo de ser influenciada e/ou afetada por outros fatores
(variveis explicativas). Tambm denominada de varivel
dependente ou varivel resposta. Aconselha-se sempre
definir um ou mais desfechos para o estudo, conforme os
objetivos da sua pesquisa.

Ainda compreendemos que alguns sistemas computacionais so


ferramentas essenciais para coleta de dados de experimentos de
pequeno e mdio porte na rea de Cincias Exatas e da Engenharia.
So eles: o Excel, um dos componentes do pacote Office da Microsoft,
e os Formulrios do Google Docs <https://docs.google.com/forms>.

Para aprofundar sobre as questes discutidas nessa unidade, leia o

Captulo 1 do livro texto: LEVINE, David M. et al. Estatstica: teoria e

aplicaes usando Microsoft Excel em portugus, 3 edio ou superior:

Introduo e Coleta de Dados, assim como o suplemento do captulo 1

Introduo Utilizao do Microsoft Excel.

022
unidade 1
Anlise
exploratria
de dados
Introduo

Conforme citado na Unidade 1, se voc usar tcnicas de anlise


estatstica, voc poder rapidamente se transformar num especialista
em qualquer assunto, certo? Pois bem, como exemplo, que tal se tornar
um especialista em reprovao em disciplinas bsicas de cursos de
Engenharia e Tecnologia? E voc no precisar repetir nenhuma
dessas disciplinas para ser um especialista em reprovao...! Esse
um problema bem conhecido, mas suas causas e fatores associados
no! Uma hiptese que durante o ensino fundamental e mdio muitos
alunos no conseguem adquirir habilidade em resolver problemas Sintese grfica
de dados
matemticos. Essa deficincia ento culmina nos cursos de Engenharia
Sintese tabular
com altos ndices de reprovao no ciclo bsico. Disciplinas como
de dados
Clculo Diferencial, Geometria Analtica e lgebra Linear (GAAL),
Sinteses
Qumica Geral e Algoritmos (AEDS) podem ser verdadeiros infernos numrica de
para alunos da rea de Exatas. dados
Reviso
Considerando o problema geral desempenho acadmico em
disciplinas de ciclo bsico de cursos de Engenharia, que tal analisar
dados de amostra de alunos, buscando identificar as caractersticas
e possveis fatores associados aos desfechos conceito (aprovado
ou reprovado), nota histrico (0 a 100 pontos) e abandonou a
disciplina? (sim ou no)?

Para resolver o problema acima, qual a primeira providncia? Muitos


podem pensar: Preciso estudar melhor o assunto, fazer uma
reviso da literatura sobre o problema. Em seguida, preciso planejar
e executar a coleta dos dados. Essa primeira etapa j foi feita e
faz parte de projeto de iniciao cientfica do Centro Universitrio
de Belo Horizonte UniBH, cujo ttulo da pesquisa Fatores
associados ao desempenho acadmico de alunos em disciplinas do
ciclo bsico de cursos de Engenharia. A pesquisa foi aprovada pelo
Comit de tica em Pesquisa (CEP) do UniBH com o n 920.308,
em 17/12/2014 e os dados esto disponveis para download no link:
http://disciplinas.nucleoead.com.br/complementos/graduacao/
grad_ep/arquivos/dados_brutos.xlsx.

Agora que voc j tem acesso aos dados, qual o prximo passo para
resolvermos o problema de reprovao e abandono em Clculo,
GAAL, Qumica Geral e AEDS? A primeira etapa de qualquer anlise
estatstica, ou melhor, a fase preliminar da busca das informaes
agregadas a dados j coletados, a anlise exploratria dos
mesmos. Como o prprio nome diz, a anlise exploratria dos
dados o conjunto de ferramentas da Estatstica Descritiva que tm
como objetivo fazer uma sntese dos dados, organizando-os sob a
forma de tabelas, grficos e nmeros. Portanto, para entendermos e
resolvermos nosso problema de reprovao, precisamos estudar as
ferramentas da Estatstica Descritiva:

a. Sntese tabular: Resumo da anlise por meio de tabelas;

b. Sntese numrica: Medidas de posio (mdia, mediana e


moda) e medidas de variabilidade (soma dos quadrados dos
resduos, varincia, desvio padro, coeficiente de variao);

c. Sntese grfica: Grficos de pizza, barra, coluna, linha, sries


histricas, histograma, grfico de Pareto, grfico misto, de
coluna e de linha, diagrama de disperso e box-plot.

O objetivo desta unidade promover o conhecimento fundamental


que lhe permitir entender dados coletados, transformando dados
brutos em informaes teis!
ESTATSTICA E PROBABILIDADES

Sntese grfica
de dados
Uma figura vale mais que mil palavras! Isso verdade, entretanto um
grfico vale mais que mil palavras se e somente se ele for desenhado
de forma clara, correta e concisa. Sempre desenhe grficos a partir
de seus dados, mas tente faz-los de tal forma que a frase basta
olhar para entender seja vlida. Os grficos mais teis para anlise
de dados de experimentos de pequeno e mdio porte na rea de
Cincias Exatas e Engenharia so: grficos de pizza, barras, colunas,
linha, sries histricas, histograma, grfico de Pareto, grfico misto,
de coluna e de linha, diagrama de disperso e box-plot (tabela 3).
De todos esses, somente vejo sentido em construi-los mo
histogramas e diagramas de disperso. Entretanto, na prtica
devemos construir grficos usando ferramentas computacionais
como o Excel.

TABELA 3 - Grficos mais teis para anlise de dados de experimentos


de pequeno e mdio porte na rea de Cincias Exatas e Engenharia.

TIPO DE GRFICO NMERO DE VARIVEIS TIPO DE VARIVEL ANALISADA


ENVOLVIDAS
Pizza ou setor Uma Categrica

Colunas (verticais) Uma Categrica

Barras (horizontais) Uma Categrica

Histograma Uma Quantitativa, mas categorizada numa


tabela de distribuio de frequncias

Grficos de linha Duas Quantitativa no eixo vertical, e


categrica no eixo horizontal

Sries histricas Duas Quantitativa no eixo vertical, e


o tempo no eixo horizontal

Grfico de Pareto Uma Categrica

Grfico misto, de Duas Quantitativa no eixo vertical, e


coluna e linhas o tempo no eixo horizontal

Diagrama de Duas Varivel explicativa quantitativa no eixo horizontal, e


disperso desfecho quantitativo no eixo vertical

Box-plot Uma ou mais Quantitativa

Fonte: Elaborado pelo autor.

026
unidade 2
ESTATSTICA E PROBABILIDADES

Como fazer os grficos? Siga regras e comentrios abaixo e voc


ter sucesso ao desenhar grficos:

1. Um grfico deve conter um ttulo, entretanto este no deve


ser colocado no prprio grfico (como o Excel insiste em
fazer...). Quando desenhamos um grfico usando o Excel,
por exemplo, este ser exportado para algum documento
do Word ou para o PowerPoint, ou para outros editores de
texto e apresentadores de slides. O ttulo do grfico ser
ento colocado no slide ou na descrio da figura no editor
de textos, sendo desnecessrio e errado coloc-lo no
meio do prprio grfico. Mesmo em casos excepcionais,
quando o grfico no exportado para nenhum outro
aplicativo, sendo impresso diretamente do Excel, o ttulo
Mesmo em casos
no deve ser colocado no meio da figura. O ttulo deve ser
excepcionais,
inserido no cabealho da planilha que contm o grfico. quando o grfico
no exportado
2. Ao escrever um relatrio, comece pelas figuras. para nenhum
outro aplicativo,
impressionante, mas as pessoas leem artigos cientficos,
sendo impresso
relatrios tcnicos, jornais e revistas de fofoca da diretamente do
mesma forma: comeamos pelas figuras! Por isso, o ttulo Excel, o ttulo no
deve ser colocado
de grficos e tabelas deve ser o mais claro possvel: toda
no meio da figura.
informao necessria para o entendimento da figura
deve estar no seu ttulo. Essa uma tendncia das revistas
cientficas (Nature, Science, por exemplo) e tem um efeito
colateral: o ttulo da figura fica muito longo. Isso no
exatamente uma regra, mas recomendao. Se voc quer
que seu relatrio seja lido, invista nos ttulos de figuras
e tabelas e sempre coloque respostas claras para pelo
menos quatro perguntas: O que? Quem? Quando? Onde?
A interpretao das informaes no grfico tambm deve
ser colocada como subttulo da figura. Se necessrio,
coloque notas explicativas, usando siglas somente para
coisas realmente conhecidas de quem ler o seu texto
(seu chefe ou o chefe do seu chefe...). Veja um exemplo
de grfico de pizza na figura a seguir.

027
unidade 2
ESTATSTICA E PROBABILIDADES

FIGURA 2 Principais ferramentas estatsticas encontradas em


artigos publicados no New England Journal of Medicine (NEJM).

A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou somente tcnicas de
Estatstica Descritiva na anlise dos dados. Praticamente um quarto dos artigos usou teste t de student e 15% aplicou
teste de qui-quadrado nas tabelas de contingncia, ferramentas que sero discutidas na Unidade 7 deste livro.

Fonte: BAILAR & MOSTELLER,1992.

3. Caso o grfico tenha eixos (horizontal X e vertical Y), estes


devem estar rotulados para entendimento. Os rtulos dos
eixos devem conter as respectivas unidades de medida
envolvidas (g, R$, kg, m/s, etc.). Esse mais um ponto de
erro do Excel! Alm de no colocar os rtulos nos eixos,
o Excel coloca o ttulo no meio da figura e uma legenda
que no tem a menor utilidade. Na verdade, as legendas
somente devem ser colocadas se existirem mais de um
grupo de dados na figura. Veja um exemplo correto de
grfico de barras na figura a seguir.

028
unidade 2
ESTATSTICA E PROBABILIDADES

FIGURA 3 Risco de reprovao em disciplinas de cursos de Engenharia


e Tecnologia do Centro Universitrio de Belo Horizonte UniBH.

Anlise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399 alunos.
Quatro disciplinas tm mais de 40% de seus alunos reprovados: Clculo Diferencial, Geometria Analtica e lgebra
Linear, Clculo de Vrias Variveis e Algoritmo e Estruturas de Dados.

Fonte: Elaborado pelo autor.

4. No existe regra fixa para a escolha da escala do grfico.


Qualquer escala boa desde que os valores no grfico
no fiquem muito espalhados nem muito juntos numa
nica regio da figura.

5. Sombreamento, efeitos 3D e pequenas figuras relacionadas


com o tipo de dado usado no grfico, colocados para
dar vida figura: na maioria das vezes esses efeitos so
inteis, podendo at mesmo distorcer o grfico.

6. A maioria dos grficos apresenta o valor zero como ponto


de incio dos eixos, mas isso no necessrio se o ponto
de incio da escala devidamente marcado na figura. Na
verdade, as pessoas usualmente assumem que o valor
zero est na base do grfico. Para os grficos de linha isso

029
unidade 2
ESTATSTICA E PROBABILIDADES

no problemtico, entretanto, quando se tratar de grficos


de colunas ou de barras, o valor zero deve obrigatoriamente
estar na base da coluna. Caso isso no seja feito, ocorre
uma distoro do grfico levando a uma interpretao
errada dos dados. Veja o exemplo abaixo. O primeiro
grfico, como no comea no valor zero, est errado, ele
ilude o leitor: a auditoria foi um sucesso?!

FIGURA 4 Exemplos de grfico de colunas: o valor


zero deve obrigatoriamente ser includo na figura.

Fonte: Elaborado pelo autor.

7. Mais de uma curva ou linha pode ser desenhada em um


nico grfico com o objetivo de comparao. Entretanto,
deve-se diferenciar claramente os dados de cada linha
para que no haja erro de interpretao (use cores
diferentes ou linhas pontilhadas ou mesmo smbolos).
Linhas de grade, usualmente colocadas no grfico para
auxiliar a leitura das escalas, devem ser discretas (na cor
cinza, por exemplo) ou serem eliminadas.

030
unidade 2
ESTATSTICA E PROBABILIDADES

FIGURA 5- Exemplo de grfico com legenda identificando diferentes dados.

Fonte: Elaborado pelo autor.

8. Os grficos devem ser desenhados no formato de


paisagem, com a altura tendo aproximadamente da sua
largura. Caso isso no seja feito, poder haver distoro
da figura e da prpria informao, que fica comprometida:
o primeiro grfico est correto, mas os outros esto na
categoria como mentir com estatstica...

031
unidade 2
ESTATSTICA E PROBABILIDADES

FIGURA 6 Formato dos grficos: a figura deve ser desenhada em


formato de paisagem, com a altura tendo aproximadamente 75% da largura.

Fonte: Elaborado pelo autor.

FIGURA 7 Grfico distorcido: desenhando a figura com a altura muito pequena, em relao
largura, a informao falseada e se tem a sensao de estabilidade dos dados.

Fonte: Elaborado pelo autor.

032
unidade 2
ESTATSTICA E PROBABILIDADES

FIGURA 8 - Grfico distorcido: desenhando a figura com a altura


muito grande, em relao largura, a informao falseada e se
tem a sensao de reduo dos dados ao longo do tempo

Fonte: Elaborado pelo autor.

9. Grficos de pizza, o queridinho: Apesar de muito


engraadinhos, estes grficos so muitos confusos.
Evite o seu uso, substituindo por grficos de barra ou de
colunas. aceitvel construi-los somente quando so
poucos setores bem definidos (at cinco pedaos). Evitar
grficos de pizza em 3D, com vrios pedaos. Construi-
los como na figura 2.

10. Diagrama de disperso: Ferramenta que nos permite


avaliar o efeito de uma varivel explicativa quantitativa
sobre um desfecho. Serve tanto para visualizarmos
funes matemticas tericas (figura 9) quanto
funes de relacionamentos empricos j conhecidos
(figura 10), mas a sua grande utilidade quando
tentamos estabelecer a associao entre duas variveis
quantitativas (figura 11). A figura 9 um diagrama de

033
unidade 2
ESTATSTICA E PROBABILIDADES

disperso mostrando uma relao completamente


terica entre duas variveis (x e y). Como uma relao
exata, somente desenhada a linha que liga os pontos do
grfico. Na figura 10 desenhada uma relao emprica,
no caso a lei de Abrams, que relaciona a resistncia do
concreto compresso (R) com o fator gua/cimento
(fx) da seguinte forma: R = /fx. Nessa figura, e foram
definidos como 100 e 10 respectivamente, de tal forma
que a equao ficou R = 100/10fx, fx variando de 0 a 3.
J a figura 11 mostra o uso nobre dos diagramas de
disperso, quando tentamos explorar, criar e propor uma
nova relao emprica entre duas variveis quantitativas.
Nesse exemplo, ao invs de aplicarmos a relao
emprica de Abrams, usamos dados reais de fator fx
de gua/cimento e a resistncia medida em 28 dias de
uma amostra de concretos (desfecho). Ao inserirmos
uma linha de tendncia linear, estamos sugerindo que,
na faixa de variao medida de fx (entre 0,2 e 1,0), a
resistncia compresso do concreto se relaciona com
fx por meio de uma equao de reta.

FIGURA 9 Diagrama de disperso sem os marcadores


e com linhas contnuas mostrando a relao de x e sua
funo f(x) = 2x3 cos(x+1) 3. Nesse caso o diagrama
est mostrando uma relao terica exata, tal como
aquela encontrada nas disciplinas de Clculo Diferencial.

Fonte: Elaborado pelo autor.

034
unidade 2
ESTATSTICA E PROBABILIDADES

FIGURA 10 Diagrama de disperso com marcadores e linhas contnuas mostrando


a relao emprica da lei de Abrams que relaciona a resistncia compresso
de concretos, medida em megapascal (MPa), e o fator gua/cimento (fx),
determinado pela razo do peso de gua pelo peso em cimento do concreto.

Fonte: Elaborado pelo autor.

FIGURA 11 Diagrama de disperso somente com os marcadores e sem


linhas contnuas mostrando uma possvel relao linear entre resistncia
compresso de concretos em 28 dias (MPa) e o fator gua/cimento (fx).

Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Arajo. Mtodo Simples para Explicar a Resistncia
Compresso do Concreto de Alto Desempenho. Disponvel em: http://www2.ucg.br/nupenge/pdf/Dario.pdf. Acesso em
14 maio 2015.

035
unidade 2
ESTATSTICA E PROBABILIDADES

A figura 12 mostra possveis padres de relacionamento entre uma


varivel explicativa (X) e o desfecho (Y), ambos quantitativos. Sempre
que construir um diagrama de disperso, voc deve interpretar o
grfico gerado em um dos quatro padres mostrados na figura 12. A)
Correlao positiva: Em mdia, quando X aumenta, Y tambm aumenta,
numa tendncia em linha reta. Por exemplo, quanto maior a rea de
um imvel, maior o seu preo de venda. B) Correlao negativa: Em
mdia, quando X aumenta, Y tende a diminuir. Por exemplo, quanto
mais velho um imvel, menor o seu preo de venda. C) Associao
curvilinear: Em mdia, quando X aumenta, Y tambm aumenta, mas
no numa tendncia em linha reta, e sim em curva. Isso pode
ocorrer quando, por exemplo, a relao entre a varivel resposta (Y) e a
explicativa (X) for uma equao de segundo grau (parbola) ou cbica,
de grau trs. D) Sem associao: Tambm um padro importante,
pois indica que no h relao entre as duas variveis associadas, que
a varivel explicativa, na verdade, no explica o desfecho! Por exemplo,
frequentemente se observa que a idade do aluno no est associada
sua nota na maioria das disciplinas que ele cursa.

FIGURA 12 Padres de relacionamentos entre variveis avaliadas por meio de diagrama


de disperso: correlao positiva (A), correlao negativa (B), associao curvilinear (C) e
ausncia de associao (D).

Fonte: Elaborado pelo autor.

036
unidade 2
ESTATSTICA E PROBABILIDADES

11. Histograma: A ideia deste grfico categorizar uma varivel


quantitativa, dividindo-a em intervalos ou classes, contar
quantos valores se encaixam em cada intervalo e construir
um grfico de colunas com o resultado. Ao se interpretar
um histograma, deve-se tentar responder s seguintes
questes: Qual a forma da distribuio dos dados? Existe
um ponto central bem definido? Como a amplitude de
variao dos dados? Existe apenas um pico isolado? A
distribuio simtrica? Os exemplos abaixo podem auxili-
lo na interpretao de um histograma. Procure descobrir
com qual destes oito tipos o seu histograma se parece.

Exemplo 1 - Histograma simtrico: A frequncia de dados mais


alta no centro e decresce gradualmente esquerda e direita de
forma aproximadamente simtrica, em forma de sino.

Fonte: Elaborado pelo autor

Exemplo 2 - Histograma fortemente assimtrico: A frequncia dos


dados decresce rapidamente num dos lados e muito lentamente
no outro, provocando uma assimetria na distribuio dos valores. A
distribuio dos salrios numa empresa um exemplo comum de
histograma assimtrico: muitas pessoas ganham pouco e poucas
pessoas ganham muito (a). A situao (b), apesar de mais rara,
tambm pode acontecer.

037
unidade 2
ESTATSTICA E PROBABILIDADES

Fonte: Elaborado pelo autor

Exemplo 3 - Histograma tipo despenhadeiro: O histograma termina


abruptamente em um ou nos dois lados, dando a impresso de que
faltam dados. Na verdade, essa possivelmente deve ser a explicao
para histogramas com esse formato: os dados muito pequenos e/
ou muito grandes foram eliminados da amostra.

038
unidade 2
ESTATSTICA E PROBABILIDADES

Fonte: Elaborado pelo autor

Exemplo 4 - Histograma com dois picos: Ocorrem picos na


distribuio e a frequncia baixa entre os picos. Possivelmente,
os dados se referem a uma mistura de valores de diferentes
populaes, devendo ser avaliados com cuidado. Se houve mistura
dos dados, melhor separ-los.

Fonte: Elaborado pelo autor

Exemplo 5 - Histograma tipo plat: As classes de valores centrais


apresentam aproximadamente a mesma frequncia. Essa situao
tambm sugere mistura de valores de diferentes populaes.

039
unidade 2
ESTATSTICA E PROBABILIDADES

Fonte: Elaborado pelo autor

Exemplo 6 Histograma com uma pequena ilha isolada: Alguns


valores isolados tm frequncia elevada, formando uma espcie de
ilha. Tambm pode ter ocorrido uma mistura de dados.

Fonte: Elaborado pelo autor

Exemplo 7 Histograma tipo serrote: As frequncias de valores se


alternam formando vrios dentes. Pode indicar algum problema na
obteno (leitura) dos dados.

040
unidade 2
ESTATSTICA E PROBABILIDADES

Fonte: Elaborado pelo autor

Vamos usar como exemplo de dados para a construo de um


histograma notas de amostra de alunos em uma prova de Clculo
Diferencial (n=120):

FIGURA 13 Dados brutos de notas de amostra de alunos em prova de


Clculo Diferencial. Centro Universitrio de Belo Horizonte UniBH, 2014/2.

0 0 0 1 5 5 6 9 13 17 18 21
0 0 0 1 5 5 6 10 13 17 18 21
0 0 0 1 5 5 6 11 14 17 20 22
0 0 0 2 5 5 9 11 14 17 20 22
0 0 0 2 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 13 15 17 20 25
0 0 0 5 5 6 9 13 15 17 20 25
0 0 0 5 5 6 9 13 17 18 21 25
0 0 1 5 5 6 9 13 17 18 21 25

Fonte: Elaborado pelo autor

Passo 1 - Determinar valores mnimo, mximo e amplitude (R):

mn = 0; mx = 25; R = mx mn = 25 0 = 25

Passo 2 Determinar quantas classes ou intervalos (k) sero


usados para dividir os dados. O nmero de classes deve ser

041
unidade 2
ESTATSTICA E PROBABILIDADES

algo entre 5 a 20 subintervalos. Regra emprica: k n e

5 k 20 . No exemplo, n 120; k 120 10.


R
Passo 3 Determinar o tamanho de cada subintervalo (h). h k . No
R 25
exemplo, h k 10 . 2,5 Ou seja, no nosso exemplo, temos 120
valores que variam de 0 a 25 e vamos dividi-los em 10 classes de
tamanho 2,5.

Passo 4 - Contar a frequncia de valores em cada classe. No


exemplo, comeando em zero (valor mnimo), teremos uma
tabela de distribuio de frequncias, base para construo do
histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar
na base de dados quantos valores se encaixam em cada classe.

Observe na figura 14 o smbolo --|, ele indica que o valor direita


Lembre-se de que
faz parte do intervalo, mas o valor sua esquerda no! Ou seja, o
o total, a soma da
intervalo 2,5 --| 5,0 implica em valores acima de 2,5 e menores ou coluna Frequncia,
iguais a 5,0. Por exemplo, alunos que tiraram 5,0 so contabilizados deve ser exatamente
o tamanho da
somente no segundo intervalo (2,5 --| 5,0), assim como aqueles
amostra (n).
que tiraram 7,5 pontos entram somente na terceira classe (5,0
--| 7,5). Veja tambm o smbolo |--|, ele s pode ser usado no
primeiro subintervalo e possibilita que incluamos o valor 0,0 na
primeira classe (0,0 |--| 2,5). Se no fizssemos isso, no teramos
onde colocar a frequncia de valores iguais a zero. Eventualmente
voc poder se deparar com tabelas construdas com o smbolo
invertido, |--, que indica valores maiores ou iguais ao nmero
colocado esquerda e menores que o valor colocado direita. Por
exemplo, 30 |-- 40 implica valores maiores ou iguais a 30 e menores
que 40. Usei a notao --| que o padro usado pelo Excel na
construo de histogramas (figura 14).

Lembre-se de que o total, a soma da coluna Frequncia, deve


ser exatamente o tamanho da amostra (n). Alm da coluna de
frequncia absoluta, podemos calcular a frequncia relativa ou
percentual de cada classe (em relao ao total de valores) e

042
unidade 2
ESTATSTICA E PROBABILIDADES

a frequncia acumulada ou percentual acumulado, til para a


construo de grficos de Pareto (que ser explicado mais frente).

FIGURA 14 Tabela de distribuio de frequncias das notas de amostra de alunos em


prova de Clculo Diferencial. Centro Universitrio de Belo Horizonte UniBH, 2014/2.

NOTA FREQUNCIA PERCENTUAL PERCENTUAL ACUMULADO

0,0 |--| 2,5 35 29% 29%

2,5 --| 5,0 22 18% 48%

5,0 --| 7,5 6 5% 53%

7,5 --| 10,0 9 8% 60%

10,0 --| 12,5 4 3% 63%

12,5 --| 15,0 12 10% 73%

15,0 --| 17,5 10 8% 82%

17,5 --| 20,0 10 8% 90%

20,0 --| 22,5 6 5% 95%

22,5 --| 25,0 6 5% 100%

Total 120 100%

Fonte: Elaborado pelo autor

FIGURA 15 Histograma com a distribuio das notas na prova de Clculo


Diferencial: os dados mostram um padro de distribuio assimtrico,
semelhante quele apresentado no histograma do exemplo 2.

Fonte: Elaborado pelo autor

043
unidade 2
ESTATSTICA E PROBABILIDADES

12. Grfico de Pareto: Esta ferramenta tima para ajudar


na definio de prioridades, quando precisamos fazer
um plano de ao para melhoria de qualidade de um
servio ou produto. Por exemplo, se um determinado
problema ou defeito pode ocorrer de diversas formas,
como escolher os tipos de defeito prioritrios para
serem corrigidos? A ideia do efeito Pareto que 80%
dos problemas esto associados a 20% dos problemas.
Nem sempre esse efeito ocorre, mas esse o objetivo
do grfico de Pareto: verificar quais itens ou problemas
ocorrem com maior frequncia num determinado
cenrio. Por exemplo, numa amostra de 400 defeitos de
fabricao de uma pea mecnica, foram observados
16 tipos de defeito: rebarbas, dimetro menor, dimetro
maior, sem usinagem, altura menor, trincas, altura maior,  Grfico de Pareto:
borda muito fina, enviesado, base maior que o topo, borda Esta ferramenta
tima para ajudar
muito grossa, cor muito escura, estrutura pouco flexvel,
na definio de
base menor que o topo, cor muito clara e estrutura frgil. prioridades, quando
Ao se construir um grfico de Pareto com os dados precisamos fazer
um plano de ao
(figura 16), observa-se que a maioria absoluta (66%)
para melhoria de
dos defeitos se refere somente a trs tipos: rebarbas qualidade de um
(32%), dimetro menor (21%) e dimetro maior (13%). Ou servio ou produto.
seja, ao fazer um plano de ao para corrigir possveis
defeitos de fabricao dessa pea, ignore 13 defeitos e
priorize suas aes em apenas esses trs. Fazendo isso,
66% do problema estar corrigido!

044
unidade 2
ESTATSTICA E PROBABILIDADES

FIGURA 16 Grfico de Pareto com a frequncia de defeitos de fabricao


de uma pea mecnica: 66% dos defeitos so somente de trs categorias prioritrias
para um plano de ao para melhorar a qualidade do processo de fabricao
(rebarbas, dimetro menor e dimetro maior).

Fonte: Elaborado pelo autor

13. Box-plot: Este grfico, tambm conhecido como


diagrama em caixa ou caixa e bigode, informa sobre
a distribuio dos dados. Somente se aplica a variveis
quantitativas (figura 17), informando o menor valor
(pequena linha horizontal inferior) e valor mximo
(pequena linha horizontal superior). A distncia entre
o valor mnimo e a aresta inferior da caixa cinza a
amplitude em que ocorrem os 25% dos valores mais
baixos. Este conhecido como 1 quartil, sendo
delimitado pelo percentil 25 dos dados. As duas caixas,
cinza e vermelha, mostram onde esto 50% dos dados.
A distncia entre a aresta superior da caixa vermelha
e a pequena linha horizontal superior, que equivale
ao mximo dos dados, refere-se ao intervalo em que
ocorrem 25% dos maiores valores da varivel. A linha
separando as duas caixas representa a mediana, que

045
unidade 2
ESTATSTICA E PROBABILIDADES

expressa o valor do meio se todos os dados fossem


colocados em ordem. Assim como os histogramas, o
box-plot nos informa sobre a maneira de distribuio dos
dados, tendo a vantagem de permitir a visualizao de
grupos de dados (figura 18). Nessa figura, apresentado
um resumo comparativo da taxa de aprovao de oito
disciplinas de ciclo bsico de cursos de Engenharia.

FIGURA 17 Exemplo de box-plot para uma varivel quantitativa genrica: quanto maior o
tamanho das duas caixas, vermelho e cinza, maior a variabilidade e disperso dos dados.

Fonte: Elaborado pelo autor

046
unidade 2
ESTATSTICA E PROBABILIDADES

FIGURA 18 Box-plot com as taxas de aprovao de oito disciplinas de ciclo bsico de cursos
de Engenharia: Desenho e Estatstica se destacam das outras disciplinas, que tm taxas de
aprovao bem menores e mais heterogneas. Clculo Integral a disciplina com menor taxa de
aprovao e maior variabilidade dos dados.

Fonte: Elaborado pelo autor

Sntese tabular
de dados
Na anlise exploratria de dados, em ltima instncia, todos os
resultados so apresentados ou na forma de figuras ou de tabelas.
Assim como nos grficos, invista no ttulo da tabela e sempre
coloque respostas claras para pelo menos quatro perguntas: O
que? Quem? Quando? Onde? Sugerimos que a interpretao das
informaes na tabela tambm seja colocada no prprio ttulo. Se
necessrio, coloque notas explicativas, usando siglas somente
para coisas realmente conhecidas. A tabela 4 um exemplo de
formato de tabelas, apresentando modelo para sntese de variveis
categricas de uma base de dados.

047
unidade 2
ESTATSTICA E PROBABILIDADES

TABELA 4 Anlise exploratria de variveis categricas: a sntese de variveis


categricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas
categorias, a frequncia de valores em cada categoria e os respectivos percentuais.

VARIVEL CATEGORIA FREQUNCIA PERCENTUAL

Conceito Aprovado 2287 49%

Reprovado 2386 51%

Local do ensino mdio Instituio privada 1509 32%

Instituio pblica 3164 68%

Sexo Feminino 1948 42%

Masculino 2725 58%

Turno Manh 1153 25%

Noite 3520 75%

Fonte: Elaborado pelo autor.

Sntese numrica
de dados
A sntese numrica de variveis categricas muito simples, basta
que voc apresente suas categorias, a frequncia de valores em
cada categoria e os respectivos percentuais, tal como apresentado
na tabela 3. J a sntese de variveis quantitativas mais ampla e
envolve resumir dois aspectos:

1. um valor tpico ou caracterstico para a varivel;

2. uma medida do grau de variabilidade ou de disperso


dos dados.

1. Valor tpico ou medida de posio: O objetivo


encontrar o valor caracterstico, aquele que melhor
represente os dados. Vamos discutir aqui as
duas possibilidades mais aplicadas a problemas

048
unidade 2
ESTATSTICA E PROBABILIDADES

de pequeno e mdio porte na rea de Cincias


Exatas e Engenharia: a mdia ( X ) e a mediana
( Md ). A mdia obtida pelo resultado da soma
de todos os valores, dividido pelo total de dados
ou tamanho da amostra (n). Matematicamente, a
mdia obtida por:

J a mediana, na verdade uma medida de ordem, indicando o


valor do meio, aquele que divide os dados em duas metades:

Passo 1 Colocar os dados em ordem crescente.

Passo 2 Encontrar o valor do meio, isto :

se n, o tamanho da amostra, mpar, ento Md o A mdia obtida pelo


valor central; resultado da soma
de todos os valores,
se n par, ento Md a mdia dos dois valores centrais.
dividido pelo total de
dados ou tamanho
Exemplo A (n=11), dados j ordenados: da amostra (n).
{3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}

Para a mediana, como so 11 valores (n mpar) e a metade de 11


5,5, ento Md o 6 valor, ou seja, o valor do meio (lembre-se
de que os dados j esto ordenados):

Md = 9

Exemplo B (n=18), dados j ordenados:

{17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}

049
unidade 2
ESTATSTICA E PROBABILIDADES

Para a mediana, como so 18 valores (n par) e a metade de 18 9,


ento Md a mdia entre o 9 e o 10 valor, ou seja:

30 + 40
Md = = 35
2

No se esquea, para obter a mediana necessrio, antes de tudo, colocar

os dados em ordem crescente. No ordenar os dados a principal fonte

de erro no clculo da mediana!

Se mdia e
Algumas pessoas se perguntam: Quantas casas decimais devo
mediana forem
apresentar no resultado?. Quanto menos casas decimais voc semelhantes,
conseguir apresentar nos seus resultados, melhor para o entendimento ento usar a mdia
da informao! Apresente seus resultados usando o mesmo nmero
para representar
os dados.
de casas decimais que os dados originais ou, no mximo, uma casa
decimal alm do original, como foi feito nos clculos anteriores.

Outra questo Quando escolher entre mdia e mediana


para melhor representar um conjunto de dados? ou Em que
situaes resumir uma varivel quantitativa usando a mdia e
quando a mediana melhor para representar os dados?. Para
essa resposta, preciso seguir uma regra prtica:

Se mdia e mediana forem semelhantes, ento usar a


mdia para representar os dados.

Se mdia e mediana forem muito diferentes, ento usar a


mediana para representar os dados.

050
unidade 2
ESTATSTICA E PROBABILIDADES

Alm de se basear nas regras acima, que exigem uma interpretao


caso a caso do que seja mdia e mediana muito diferentes, voc
poder construir histogramas e, pelo padro do grfico, escolher
uma ou outra medida para representar os dados. Nos modelos de
histograma colocados no tpico anterior, os exemplos 1 (simtrico),
3 (despenhadeiro) e 5 (plat), a mdia a melhor medida de posio.
J nos histogramas dos exemplos 2 (fortemente assimtrico)
e 6 (ilha isolada), a mediana a melhor medida de posio que
caracteriza o conjunto de dados.

2. Medida do grau de variabilidade ou de disperso dos


dados: O objetivo quantificar o quanto os dados so
heterogneos, so imprevisveis, em suma, quantificar o
grau de variabilidade de uma varivel quantitativa.

A princpio, podemos medir a variabilidade de um dado informando


o seu valor mnimo (mn) e o valor mximo (mx), o que nos leva
sua amplitude (R): R = mx mn.

Entretanto, essa uma forma muito simplista, pois envolve


somente dois valores da varivel, o mnimo e o mximo, ignorando
todos os outros. Para uma medida mais adequada de variabilidade,
uma forma calcular a sua mdia ( X ) e, em seguida, calcular
quanto os dados esto distantes da mdia, em mdia! Soa
estranho, mas a ideia faz sentido. Por exemplo, seja uma amostra
de n = 5 pessoas e seus respectivos nmeros de filhos:

Pessoa A B C D E

Nmero de filhos 0 1 1 2 3

Qual o nmero mdio de filhos?

Isso mesmo, essas pessoas tm, em mdia, 1,4 filhos! Voc deve
estar se perguntado, como assim... um e 0,4 filho? No existe

051
unidade 2
ESTATSTICA E PROBABILIDADES

0,4 filho!! No se preocupe, a mdia funciona como um modelo


e, como tal, uma aproximao da realidade. A mdia o melhor
valor representativo para esses dados e, caso seja necessrio
resumir toda a informao num nico valor, ela deve ser usada
para substituir o verdadeiro nmero de filhos de cada pessoa. Bom,
voltando variabilidade, como calcular o quanto os dados esto
distantes da mdia, em mdia? Para cada indivduo, devemos
subtrair o valor observado pela mdia, calculando um resduo:

Pessoa A B C D E

Nmero de filhos 0 1 1 2 3

Resduo 0-1,4 =-1,4 1-1,4 =-0,4 1-1,4 =-0,4 2-1,4 =


+0,6 3-1,4 = +1,6

O resduo mede a distncia de cada valor em relao mdia dos


dados, ou seja, uma medida de quanto os dados esto distantes
da mdia. Para resumir os resduos num nico valor, o ideal ento
calcular uma mdia dos resduos, que refletiria o quanto os dados
esto distantes da mdia, em mdia! Infelizmente, se fizermos essa
mdia, ela sempre dar zero, pois os resduos negativos anulam os
positivos, dando uma soma dos resduos igual a zero. Para resolver
esse problema, ao invs de simplesmente calcular os resduos,
devemos calcular o resduo elevado ao quadrado:

Pessoa A B C D E

Nmero de filhos 0 1 1 2 3

Resduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =


-1,4 -0,4 -0,4 +0,6 +1,6

Resduo elevado (-1,4)2 = (-0,4)2 = (-1,4)2 = (+0,6)2 = (+1,6)2 =


ao quadrado 1,96 0,16 0,16 0,36 2,56

Se somarmos os resduos elevados ao quadrado teremos a soma


n
dos quadrados dos resduos ( ( Xi -X )2 ), uma mtrica que aparece
i =1

em vrias outras anlises estatsticas. Quanto maior a soma dos

052
unidade 2
ESTATSTICA E PROBABILIDADES

quadrados dos resduos, maior a variabilidade dos dados! Para


resumir essa mtrica, calculamos a sua mdia, que chamada de
varincia amostral ( s2 ):

Nessas frmulas, Xi representa cada um dos dados individuais, X


a mdia e n o tamanho da amostra ou total de dados. Observe que,
no denominador, dividimos a soma dos quadrados dos resduos
por (n - 1) e no por ( n ). Isso feito porque nossos dados foram
obtidos por meio de amostragem e no por censo. Ou seja, sempre
que tivermos dados amostrais, que a situao mais comum,
calcularemos a varincia amostral dividindo a soma dos quadrados
dos resduos por (n - 1). Se tivermos acesso populao toda,
ou melhor, se fizermos um censo (o que muito raro), ento Sempre que
2
poderemos calcular a varincia populacional ( ), dividindo a soma tivermos dados
amostrais, que
dos quadrados dos resduos por (n):
a situao
mais comum,
calcularemos a
varincia amostral
dividindo a soma
importante se lembrar dessa diferena, pois ela aparece nas dos quadrados dos
calculadoras cientficas e no Excel, que permite o clculo tanto de s2 resduos por (n - 1).
2
quanto de . Na prtica (e na dvida), sempre calcule a varincia
amostral (s2).

Uma outra mtrica de variabilidade o desvio padro amostral (s).


Ele a raiz quadrada da varincia e tem uso mais difundido que
sua me (s2), porque, ao tirarmos a raiz quadrada da varincia,
o resultado tem a mesma unidade de medida que a mdia e os
dados originais. Assim, no exemplo anterior, do nmero de filhos da
amostra de n=5 pessoas, a varincia amostral :

053
unidade 2
ESTATSTICA E PROBABILIDADES

O desvio padro amostral :

muito comum, ao divulgarmos uma sntese de uma varivel


quantitativa, apresentarmos a sua mdia, seguida do seu desvio
padro no formato ( X = s ). Ou seja, no exemplo anterior, essas
pessoas tm 1,4 = 1,1 filhos.

Cuidado, isso no significa que os dados variem somente dentro do


intervalo X = s , de 1,4 1,1 = 0,3 at 1,4 + 1,1 = 2,5 filhos! Essa
apenas uma forma usada para apresentar ambos os valores, de
mdia ( X ) e desvio padro (s). Na verdade, se os dados tiverem
um histograma de forma simtrica, aproximadamente 95% dos
muito comum, ao
dados ocorrero dentro do intervalo definido pela mdia mais ou divulgarmos uma
menos dois desvios padres ( X = 2s ), e 99,7% dentro da mdia sntese de uma
mais ou menos trs desvios padres ( X = 3s ). Se no tivermos
varivel quantitativa,
apresentarmos a sua
como avaliar a forma de distribuio dos dados, ou seja, se no mdia, seguida do
soubermos o padro do histograma dos dados, pelo menos 89% seu desvio padro no
dos dados cairo no intervalo X = 3s . formato ( X = s ).

Supondo que voc j consiga calcular o desvio padro ( s ) de um


conjunto de dados, como interpretar o seu resultado? fato que,
quanto maior o desvio padro, maior a variabilidade dos dados.
Mas, o que um desvio padro grande? Essa resposta depende da
magnitude da mdia ( X ), isto , para sabermos se um desvio padro
grande ou pequeno, vai depender do valor da mdia. Por exemplo,
sejam os resultados das provas de um atleta, resumidos abaixo:

Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos;

Salto em altura: X = 2,2 e s = 0,8 e metros.

Em qual prova, salto em altura e tempo para 100 m, o atleta mais


heterogneo, tem os resultados com maior variabilidade? Se voc

054
unidade 2
ESTATSTICA E PROBABILIDADES

responder essa questo comparando os dois desvios padres,


estar cometendo dois erros:

1 No se pode comparar diferentes unidades de medida (s versus m);

2 Deve-se considerar a magnitude da mdia ao se avaliar um


desvio padro.

Ento, como efetivamente obter o grau de variabilidade de


uma varivel? Isso feito pelo coeficiente de variao (cv),
uma relao percentual entre o desvio padro e a mdia:
s
cv = x x 100 (%).

Alm de ser uma medida adimensional, o que possibilita


comparaes entre diferentes variveis, o CV pode ser interpretado
de forma absoluta:

QUADRO 2 Definio e interpretao do grau de variabilidade de um conjunto de dados.

CV INTERPRETAO

CV <= 20% Dados com pouca variabilidade, bem comportados, homogneos. A varivel
tem um comportamento bem previsvel.

20 < CV <= 30% Dados com variabilidade intermediria.

CV > 30% Dados com muita variabilidade, heterogneos. A varivel tem um


comportamento muito imprevisvel.

CV > 100% Neste caso, o desvio padro maior que a mdia. Dados com variabilidade
extrema, muito heterognea. A varivel tem um comportamento catico,
completamente imprevisvel.

Fonte: Elaborado pelo autor.

No caso do atleta, teremos os seguintes valores de coeficiente de


variao:

2,1
Tempo para correr 100 metros: cv = x 100 = 18,26%;
11,5
0,8
Salto em altura: cv = x 100 = 36%;
2,2

055
unidade 2
ESTATSTICA E PROBABILIDADES

Podemos dizer ento que o atleta tem pouca variabilidade nos


seus resultados da corrida de 100 m e muita variabilidade nos
saltos em altura.

Quando voc fizer uma anlise exploratria de dados, lembre-se de corrigir

os grficos produzidos pelo Excel. Lembre-se tambm de colocar os

ttulos das tabelas e das figuras o mais informativo possvel. E, ao calcular

o desvio padro, no se esquea de considerar que voc tem dados

amostrais. Confira na sua calculadora e/ou no prprio Excel qual a frmula

que est sendo usada. Resuma os dados por meio de grficos, nmeros e

tabelas. Esse o primeiro e fundamental passo para entender os dados e

o problema investigado.

A anlise exploratria dos dados o primeiro passo para que


voc se torne especialista na rea investigada. Suas ferramentas
de anlise no produzem concluses definitivas sobre um
problema, mas possibilitam que hipteses sejam construdas de
forma consistente.

O artigo Avaliao do impacto do Clculo Zero no desempenho de alunos

ingressantes de cursos de Engenharia, apresentado em 2013 por COUTO

e cols. no COBENGE - Congresso Brasileiro de Educao em Engenharia,

teve como objetivo avaliar o impacto do Clculo Zero no desempenho de

alunos ingressantes em cursos de Engenharia e Cincia da Computao,

tanto em termos da nota final em Clculo Diferencial e Geometria

Analtica e lgebra Linear (GAAL), quanto na chance de aprovao nessas

disciplinas. As perguntas-chave do trabalho eram: O Clculo Zero afeta

de forma significativa o resultado dos alunos nas disciplinas obrigatrias

de Clculo Diferencial e GAAL? Vale a pena investir em projetos de Clculo

Zero? Quais so os fatores, as caractersticas que afetam o desempenho

dos alunos nessas duas disciplinas?

056
unidade 2
ESTATSTICA E PROBABILIDADES

Vrias tcnicas de anlise exploratria de dados foram utilizadas no artigo.

Por exemplo, usando um grfico de linhas, uma srie temporal, mostrou-

se no artigo a elevao no nmero de matrculas nas duas disciplinas-alvo

do trabalho, Clculo Diferencial e GAAL:

FIGURA 19 - Evoluo do nmero de alunos matriculados e o percentual de aprovados em


Clculo Diferencial e GAAL. Entre o 2 semestre de 2009 e o 2 semestre de 2012, o percentual
de aprovao em ambas as disciplinas apresentou elevao, principalmente em Clculo
Diferencial. O nmero de alunos matriculados nas disciplinas tambm aumentou de forma
importante no perodo, principalmente aps o 1 semestre de 2011.

Fonte: COUTO et al., 2013.

Um diagrama de disperso foi construdo mostrando claramente o efeito

das faltas s aulas na nota final de Clculo Diferencial:

057
unidade 2
ESTATSTICA E PROBABILIDADES

FIGURA 20 Grfico de disperso considerando o percentual de faltas/ausncias


s aulas de Clculo Diferencial e a nota final do aluno nessa disciplina: anlise
considerando somente alunos em que foram registradas pelo menos uma falta
s aulas durante o semestre. H uma forte correlao negativa (r= -0,77) entre
ausncias s aulas e a nota final do aluno: quanto mais faltas s aulas o aluno tiver,
menor a sua nota final em Clculo Diferencial. IET/ UniBH, 1 semestre de 2011.

Fonte: COUTO et al., 2013.

Alm de grficos, tabelas com a sntese numrica dos dados coletados no estudo

tambm foram apresentadas no artigo. O uso dessas ferramentas estatsticas

de anlise de dados mostrou de forma inequvoca que valia a pena implementar

aes como o Clculo Zero, pois o fato de se ofertar essa disciplina afetava o

resultado dos alunos nas disciplinas obrigatrias de Clculo Diferencial e GAAL.

Esse um exemplo real de como usar a anlise exploratria dos dados e

outras tcnicas de Estatstica e Probabilidades para se entender a fundo

um problema, resolvendo-o e se tornando um especialista na rea.

Referncia:

XLI CONGRESSO BRASILEIRO DE EDUCAO EM ENGENHARIA, 2013. Avaliao

do Impacto do Clculo Zero no Desempenho de Alunos Ingressantes de Cursos

de Engenharia. Paran: FADEP, 2013. Disponvel em: <http://www.fadep.br/

engenharia-eletrica/congresso/pdf/116280_1.pdf>. Acesso em 14 maio 2015.

058
unidade 2
ESTATSTICA E PROBABILIDADES

Reviso
Vimos nesta unidade os principais tpicos da anlise exploratria
de dados, tambm denominada de Estatstica Descritiva:

Sntese grfica: Uma figura vale mais que mil palavras! Isso
verdade, entretanto um grfico vale mais que mil palavras se e
somente se ele for desenhado de forma clara, correta e concisa.
Sempre desenhe grficos a partir de seus dados, mas tente faz-
los de tal forma que a frase basta olhar para entender seja vlida.
Os grficos mais teis para anlise de dados de experimentos de
pequeno e mdio porte na rea de Cincias Exatas e Engenharia
so: grficos de pizza, barras, colunas, linha, sries histricas,
histograma, grfico de Pareto, grfico misto, de coluna e de linha,
diagrama de disperso e box-plot. Na prtica devemos construir Na anlise
grficos usando ferramentas computacionais como o Excel. exploratria de
dados, em ltima
instncia, todos
Sntese tabular de dados: Na anlise exploratria de dados, em
os resultados so
ltima instncia, todos os resultados so apresentados ou na forma apresentados ou na
de figuras ou de tabelas. Assim, invista no ttulo da tabela e sempre forma de figuras ou
coloque respostas claras para pelo menos quatro perguntas: O
de tabelas.
que? Quem? Quando? Onde? Tambm sugiro que a interpretao
das informaes na tabela seja colocada no prprio ttulo. Se
necessrio, coloque notas explicativas, usando siglas somente para
coisas realmente conhecidas.

Sntese numrica: O resumo de uma varivel categrica muito


simples, basta que voc apresente suas categorias, a frequncia
de valores em cada categoria e os respectivos percentuais. J a
sntese de variveis quantitativas mais ampla e envolve resumir
dois aspectos:

1. Um valor tpico ou caracterstico para a varivel, que


definido pela mdia ( X ) e pela mediana (Md). Se mdia
e mediana forem semelhantes, ento a mdia deve ser
usada para representar os dados. Entretanto, caso haja

059
unidade 2
ESTATSTICA E PROBABILIDADES

discrepncia muito grande entre mdia e mediana, ento se


deve usar a mediana para representar os dados;

2. Uma medida do grau de variabilidade ou de disperso


dos dados, calculada pelo desvio padro amostral (s) e o
coeficiente de variao (CV).

Caso voc deseje aprofundar sobre as questes discutidas nesta unidade,

leia os captulos 2 e 3 do livro texto: LEVINE, David M. et al. Estatstica:

teoria e aplicaes: usando Microsoft Excel em portugus. 6. ed. Rio de

Janeiro: LTC, 2012,

060
unidade 2
Introduo
teoria de
probabilidades
Introduo

A origem da teoria das probabilidades comumente associada


questes colocadas por MR (1607-1684) a PASCAL (1623-
1662). Todavia, existem autores que sustentam que o clculo das
probabilidades iniciou-se na Itlia, com PACCIOLI (1445-1514),
CARDANO (1501-1576), TARTAGLIA (1499-1557) e GALILEO (1564-
1642), dentre outros.

Contudo, foi ADOLPHE QUTELET (1796 1874) o pioneiro na


tarefa de mensurar, ou seja, quantificar uma pequena amostra do Probabilidade
clssica e
universo de interesse da investigao, almejando inferir sobre toda probabilidade
a populao em estudo, baseando-se em anlises probabilsticas e frequentista
embasando-se em rigorosos mtodos cientficos. Leis bsicas de
probabilidade
A teoria das probabilidades, porm, s comea a fazer sentido Unio e
nas engenharias por volta de 1930, quando surgem os primeiros
interseo de
eventos
trabalhos prticos destinados aos engenheiros. O primeiro foi
Tabelas de
executado pelo matemtico WILLIAM GOSSET (1876 1937), com
contingncia
a aplicao das probabilidades no Controle de Qualidade em uma
Eventos
fbrica de cervejas. independentes
Teorema de
A teoria das probabilidades uma importante rea da estatstica Bayes
que possibilita ao profissional no mercado de trabalho calcular Reviso
percentuais, trabalhar com estimativas e realizar predies em toda
e qualquer rea do conhecimento. No que tange s Engenharias, a
probabilidade est presente no controle de processos de produtos
e servios, permitindo estimar o risco e o acaso de eventos futuros.
Tambm amplamente utilizada no que tange ao planejamento de
novas tcnicas e estratgias de produo e vendas, dentre outras.

Suponha que voc o engenheiro responsvel pela qualidade


na linha de produo de uma grande marca de bebidas. Sabe-
se que no possvel experimentar todos os produtos antes de
disponibiliz-lo ao mercado, pois ningum compraria uma bebida
j provada, e que o processo de fabricao composto por etapas,
por interferncias dos funcionrios, por equipamentos (que podem
estar ou no muito bem regulados), e por uma srie de outros
fatores controlveis ou no, como at mesmo uma simples umidade
excessiva no ambiente de fabricao devido ao perodo chuvoso.
No entanto, voc pode suspeitar que um determinado lote, devido
variabilidade inerente ao processo, apresente um percentual de itens
no conformes maior que o permitido pelos rgos fiscalizadores.

A teoria das probabilidades vem auxili-lo nesse processo de


tomada de deciso, permitindo inferir sobre a populao em estudo,
ou mesmo sobre eventos que ainda iro ocorrer, estimando as
chances de sucesso do mesmo.
ESTATSTICA E PROBABILIDADES

A teoria das
probabilidades
A teoria das probabilidades nasce na Idade Mdia com os
tradicionais jogos de azar existentes na Corte. Jogos de
cartas e dados, ou mesmo os lanamentos de moeda so
classificados como fenmenos que envolvem o acaso, assim
como a maioria dos jogos esportivos. Uma aplicao direta
da teoria das probabilidades no campo das Engenharias o
processo de deciso, seja para aumentar o investimento ou
cortar despesas, no qual o profissional do mercado de trabalho
deve arriscar-se mantendo os ps no cho.

Um dos principais conceitos matemticos amplamente estudado no que

diz respeito teoria das probabilidades o de conjunto. Um conjunto pode

ser definido como uma coleo de objetos, itens ou servios que possuem

caracterstica (s) comum (s).

No contexto da teoria das probabilidades, o conjunto de todos os

resultados possveis a ser estudado em um experimento aleatrio

denominado espao amostral.

Espao Amostral () qualquer conjunto de todos os possveis

resultados em um experimento aleatrio.

Sendo definido como experimento todo e qualquer resultado que sugere a

incerteza antes da observao, ou seja, fenmenos que, mesmo repetidos

vrias vezes sob condies semelhantes, apresentam resultados

imprevisveis (acaso). Os resultados dos experimentos so nomeados

estatisticamente como eventos.

Um Evento Aleatrio (E) qualquer subconjunto de um

espao amostral.

064
unidade 3
ESTATSTICA E PROBABILIDADES

O espao amostral () essencial na teoria das probabilidades


por definir o espao de interesse da investigao, permitindo
ao pesquisador de toda e qualquer rea do conhecimento fazer
inferncias sobre o todo a partir da parte estudada. Pode ser definido
de acordo com o evento de interesse da investigao, podendo
ser caracterizado por: (1) o mesmo evento repetidas vezes; ou (2)
eventos distintos; ou (3) eventos aleatrios.

Se tivermos o mesmo evento repetidas vezes, como no lanamento


de um dado ou de uma moeda, ou mesmo nas possibilidades
de filhos de um casal, ou de peas defeituosas em uma linha de
produo, o espao amostral () dado pelas possibilidades do
evento elevado ao nmero de repeties realizadas, por exemplo:

No lanamento de uma moeda trs vezes, temos duas possibilidades


(cara ou coroa) em cada lanamento, portanto o espao amostral
() dado por:

= ( possibilidades )(repeties)= 23 = 8

Se tivermos eventos distintos, como no lanamento de um dado


e uma moeda, o espao amostral () dado pelo produto da
quantidade de possibilidades de cada evento, como:

No lanamento de uma moeda e um dado, temos duas


possibilidades da moeda (cara ou coroa) e seis possibilidades do
dado (os nmeros inteiros de 1 a 6). Portanto, o espao amostral
() dado por:

= ( possibilidades ) . ( possibilidades ) = 2 . 6 = 12

Se tivermos eventos aleatrios, como o nmero de funcionrios


ausentes em um dia de trabalho de uma determinada linha de
produo, ou mesmo o nmero de caminhes presentes em uma
determinada rota, no h um modelo matemtico que simplifique a

065
unidade 3
ESTATSTICA E PROBABILIDADES

mensurao dos elementos que compem esse espao amostral.


preciso apelar para o princpio fundamental da contagem, ou seja,
o servio braal.

Os eventos que compem o espao amostral podem ser


classificados de acordo com a sua ocorrncia. Os eventos nos quais
cada elemento do banco de dados pode ocorrer com a mesma
probabilidade so chamados de eventos equiprovveis.

Eventos Equiprovveis so aqueles cujos todos os elementos do banco


de dados tm a mesma probabilidade de ocorrncia.

Os eventos so classificados como mutuamente exclusivos, se eles


no puderem ocorrer simultaneamente, ou seja, A B= .

Se E = , E chamado de evento certo.

Se E = , E chamado de evento impossvel.

Probabilidade
clssica e
probabilidade
frequentista
A probabilidade de realizao de um evento A dada pelo quociente
entre o nmero de ocorrncias de A pelo nmero de eventos
possveis, ou seja:

nmero de orcorrncias de A
P(A)=
espao amostral ()

066
unidade 3
ESTATSTICA E PROBABILIDADES

A probabilidade pode ser resumida como o quociente do que se


quer pelo que se tem. Na qual primeiro determina-se o que
possvel ter e depois retira o que se quer do que se tem, no
podendo querer mais do que tem, ou seja:

Existem duas restries aplicao da definio da


probabilidade clssica: (1) todos os eventos possveis devem
ter a mesma probabilidade de ocorrncia, ou seja, os eventos
devem ser equiprovveis e (2) deve-se ter um nmero finito de
eventos possveis.

Leis bsicas de
probabilidades A probabilidade
pode ser resumida
como o quociente
Para qualquer evento E de um espao amostral : 0 P ( E ) 1; do que se quer
pelo que se tem.

P ( ) = 1;

P ( Ac ) = 1 - P ( A ), sendo Ac o evento complementar ao evento A;

067
unidade 3
ESTATSTICA E PROBABILIDADES

As operaes com os eventos utilizam as mesmas propriedades

matemticas, ou seja:

QUADRO 3 Leis Matemticas

PROPRIEDADE DESCRIO MATEMTICA

Associatividade (AB)C=A(BC)
(AUB)UC=AU(BUC)

Comutatividade AB = BA
AUB = BUA

Distributividade (AB)UC=(AUC)(BUC)
(AUB)C=(AC)U(BC)

Absoro ACB AB=A


ACB AB=B

Modulares A = A
A =
A = As operaes
A =A com os eventos
utilizam as mesmas
Leis de De Morgan AB = AUB propriedades
AUB = AB matemticas.
Dupla negao A=A

Fonte: Elaborado pelo autor.

Unio e interseo
de eventos
A unio de dois eventos A e B, indicada por A U B, o evento que
contm todos os elementos de A e todos os elementos de B.

P(AUB)=P(A)+P(B)-P(AB)

P ( A U B ) = P ( A ) + P ( B ), se A e B so mutuamente exclusivos;

068
unidade 3
ESTATSTICA E PROBABILIDADES

A interseo de dois eventos A e B, indicada por A B, o evento


que contm todos os elementos comuns a A e B.

P(A B) = P(B). P(A | B)

Sendo P ( A | B ), a probabilidade condicional, ou seja, a probabilidade


de A ocorrer sabendo que o evento B ocorreu.

TABELA 5 Tipo Sanguneo

TIPO SANGUNEO

O A B AB TOTAL

Positivo 156 139 37 12 344

Negativo 28 25 8 4 65

Total 184 164 45 16 409

Fonte: Elaborado pela autora.

A probabilidade de o doador ter tipo sanguneo O ou A dada por:

184 + 164 = 0,8508


409

A probabilidade de o doador ter tipo sanguneo B ou ser Rh negativo


dada por:

45 + 65 - 8 = 0,2494
409

Dois ou mais eventos podem ser classificados como mutuamente

exclusivos quando a realizao de um exclui a realizao do (s) outro (s).

No lanamento de uma moeda, o evento "tirar cara" e o evento "tirar coroa"

so mutuamente exclusivos, j que a realizao de um deles implica,

necessariamente, na no realizao do outro.

069
unidade 3
ESTATSTICA E PROBABILIDADES

Portanto, em eventos mutuamente exclusivos, a probabilidade de que um

ou outro se realize igual soma das probabilidades de que cada um

deles se realize.

Eventos mutuamente exclusivos no a mesma coisa de eventos

independentes. O primeiro utilizado quando apenas um dos eventos

pode ocorrer, excluindo qualquer probabilidade de ocorrncia do outro. J

o segundo utilizado quando a ocorrncia de um dos eventos no afeta a

ocorrncia do outro.

Exemplo: Um grupo de alunos que usa culos independente do nmero

de alunos do sexo masculino em sala de aula, mas no so eventos

mutuamente exclusivos, pois possvel ter alunos do sexo masculino em

sala de aula que usam culos.


Eventos mutuamente
exclusivos no
a mesma
coisa de eventos

Tabelas de independentes.

contingncia
As tabelas de contingncia so aplicadas na avaliao do
relacionamento das categorias com respeito aos grupos segundo
dois modos: independncia ou homogeneidade. Ou seja, eventos
com dupla entrada.

A aplicao de tabela de contingncia dois por dois dada quando


n elementos, selecionados aleatoriamente de uma populao, so
classificados em duas categorias. Depois dos elementos serem
classificados, um tratamento aplicado e alguns so examinados
novamente e classificados nas duas categorias. O que se almeja
saber : o tratamento alterou significativamente a proporo de
objetos em cada uma das duas categorias?

070
unidade 3
ESTATSTICA E PROBABILIDADES

Em relao pratica apresentada no incio dessa unidade, suponha que

em uma amostra de 2000 produtos disponibilizados ao mercado, sejam

800 refrigerantes e 1200 cervejas, dos quais 5 e 10 apresentaram algum

tipo de defeito, respectivamente, seja no rtulo da embalagem, no volume

lquido ou qualquer outro tipo de avaria. A tabela 1 apresenta uma tabela

de contingncia para melhor visualizar esses dados.

TABELA 6 - Produtos Disponibilizados

CERVEJA REFRIGERANTE TOTAL

Bom 1190 795 1985

Defeito 10 5 15

Total 1200 800 2000

Fonte: Elaborado pela autora.

A partir dessa tabela, possvel estimar que a probabilidade dessa

empresa disponibilizar um produto (dentre cervejas e/ou refrigerantes) no

mercado com algum tipo de defeito dada por:

P (defeito) = 15 = 0,0075
2000

Portanto, apenas 0,75% dos produtos disponibilizados por essa empresa

apresentam algum tipo de defeito.

A tabela de contingncia um processo de organizar a informao

correspondente a dados dicotmicos. De uma maneira geral, uma tabela

de contingncia uma representao dos dados, quer de tipo qualitativo,

quer de tipo quantitativo, especialmente quando so de tipo bivariado, isto

, podem ser classificados segundo dois critrios.

071
unidade 3
ESTATSTICA E PROBABILIDADES

Eventos
independentes
Um ou mais eventos pode (m) ser classificado (s) como
independente (s) quando a realizao de um dos eventos no afeta
a probabilidade de ocorrncia do outro, e vice-versa.

Quando dois eventos so independentes, P ( A B ) = P ( A ) . P ( B ).

Nota na prova e ter feito a prova de chinelo;


Um ou mais
O valor de venda de um produto e a cor do cabelo das funcionrias que
eventos pode (m)
o fabricaram. ser classificado (s)
como independente
(s) quando a
realizao de um
dos eventos no
Teorema afeta a probabilidade
de ocorrncia do
de Bayes outro, e vice-versa.

A probabilidade condicional, ou seja, as chances de um evento A


ocorrer, dado que outro evento B ocorreu, dada por:

P(A B)
P(A|B)=
P(B)

para P ( B ) > 0.

O teorema de Bayes prope que, se os eventos E1 , E2, , En so


parties do espao amostral , ento:

P ( B | Ei ) . P ( E i )
P ( Ei | B ) =
P(B)

072
unidade 3
ESTATSTICA E PROBABILIDADES

Recorrendo lei de probabilidade total, possvel inferir que:

P ( Ei | B ) = P ( B | Ei ) . P ( Ei )
P ( B | Ej ) . P (Ej )

Seja B1, B2, , Bn um conjunto de eventos mutuamente exclusivos


cuja unio forma o espao amostral . Seja E outro evento no
mesmo espao amostral , tal que P ( E ) > 0, ento:

P ( E ) = P ( E B1 ) + P ( E B2 ) + P ( E B3 ) + ... + P ( E Bn )

P (E) = P (B1) . P (E | B1) + P (B2) P (E | B2) + P (B3 ) P (E | B3) + ... + P(Bn ) P (E | Bn)

Portanto,

P ( E ) = P ( Bi ) . P ( E | Bi )

Numa sala de aula, sabe-se que 10% dos homens e 2% das mulheres

tm mais de 1,80 m. A sala tem 70% de mulheres e 30% de homens. Um

estudante foi escolhido aleatoriamente, e constatou-se que tem mais de

1,80 m. Qual a probabilidade de que seja homem?

(0,1 x 0,3) = 0,03/0,044 = 0,682


(0,1x0,30 + 0,02x0,7)

073
unidade 3
ESTATSTICA E PROBABILIDADES

A teoria das probabilidades pode auxiliar facilmente a resolver o problema

proposto no incio dessa unidade. Vejamos:

Suponha que voc o engenheiro responsvel pela qualidade na linha

de produo de uma grande marca de bebidas. Est ciente de que no

possvel experimentar todos os produtos antes de disponibiliz-lo

ao mercado, pois ningum compraria uma bebida j provada, e que o

processo de fabricao composto por etapas, por interferncias dos

funcionrios, por equipamentos (que podem estar ou no muito bem

regulados), e por uma srie de outros fatores controlveis ou no, como

at mesmo uma simples umidade excessiva no ambiente de fabricao

devido ao perodo chuvoso. Voc pode suspeitar que um determinado lote,

devido variabilidade inerente ao processo, apresente um percentual de

itens no conformes maior que o permitido pelos rgos fiscalizadores?

Se a empresa aqui citada produzir dois lotes com duas mil unidades em

cada por semana, distribudas entre 1000 cervejas, 600 refrigerantes e 400

sucos por lote, com aproximadamente 0,2, 0,1 e 0,15 por cento de itens

defeituosos, respectivamente, podemos utilizar a teoria das probabilidades

para responder questes como:

a. Qual o percentual de refrigerantes distribudos semanalmente?

b. Qual a probabilidade do consumidor adquirir um suco?

c. Dentre as cervejas, qual a probabilidade do consumidor adquirir

uma cerveja com defeito?

d. Dentre os sucos, qual a probabilidade do consumidor adquirir um

suco sem defeito do primeiro lote?

e. Sabendo que foi adquirido um produto com defeito, qual a

probabilidade de ser um suco?

Para responder essas questes, utilizamos a probabilidade clssica para

responder o item (a); a unio de probabilidades para responder o item (b); a

probabilidade condicional para responder o item (c); e o teorema de Bayes

074
unidade 3
ESTATSTICA E PROBABILIDADES

para responder o item (d). Ou seja:

a) P (refrigerante ) = 1200 =0,30 = 30%


4000

b) P (suco) = 400 + 400 = 0,40 = 40%


2000 2000

Observe que, neste caso, tanto faz se o consumidor adquirir um suco do

primeiro lote ou do segundo lote, independente da ordem de ocorrncia do

evento.

P (cerveja com defeito )


c) P ( defeito | cerveja ) = =
P ( cerveja )

0,2 . 1000 + 0,2 . 1000 400


= = 0,20
1000 + 1000 2000

d) P ( suco sem defeito do primeiro lote | suco ) =

= 0,5. 0,2 . 0,85 = 0,0850 = 0,5


0,5.0,2.0,85+0,5.0,2.0,85 0,1700

075
unidade 3
ESTATSTICA E PROBABILIDADES

P ( suco com defeito | defeito ) =

= 2. (0,5 . 0,2 . 0,15 ) = 0,0150 = 0,1875

2. ( 0,5 . 0,2 . 0,15 + 0,5 .0,3 .0,1 + 0,5 .0,5 .0,2) 0,0800

Reviso
A teoria das probabilidades utilizada em todas as reas do
conhecimento. Ela visa auxiliar o profissional no mercado de
trabalho a predizer valores futuros, estimando as chances de
ocorrncia de um evento antes que ele ocorra.

Para calcular a probabilidade, basta dividir o que se quer pelo que


se tem, ou seja:

Sendo imprescindvel, primeiro, definir o que se tem para somente


depois retirar do que se tem o que se quer.

Quando a ocorrncia de um evento no afeta a realizao ou no de


um outro evento, eles so classificados como eventos independentes.

076
unidade 3
ESTATSTICA E PROBABILIDADES

O Teorema de Bayes aplicado em situaes cuja a probabilidade de


ocorrncia de um evento est vinculada s chances de sucesso de
um outro evento.

Filmes

A Probabilidade Estatstica do Amor Primeira Vista (Adaptado)

Jennifer E. Smith

Com uma certa atmosfera de Um dia, mas voltado para o pblico jovem

adulto, a probabilidade estatstica do amor primeira vista uma histria

romntica, capaz de conquistar fs de todas as idades. Quem imaginaria

que quatro minutos poderiam mudar a vida de algum? Mas exatamente

o que acontece com Hadley. Presa no aeroporto em Nova York, esperando

outro voo depois de perder o seu, ela conhece Oliver. Um britnico fofo,

que se senta a seu lado na viagem para Londres. Enquanto conversam

sobre tudo, eles provam que o tempo , sim, muito, muito relativo. Passada

em apenas 24 horas, a histria de Oliver e Hadley mostra que o amor,

diferentemente das bagagens, jamais se extravia.

SMITH, Jennifer E. A Probabilidade Estatstica do Amor Primeira Vista.

Rio de Janeiro: Galera Record, 2013

Quebrando a banca (Adaptado).

Ben Campbell (Jim Sturgess) um brilhante estudante do M.I.T.

(Instituto Tecnolgico de Massachusetts). O seu nico problema

no ter dinheiro para pagar as contas escolares, mas a soluo est

onde ele menos esperava: nas cartas. Ele recrutado para integrar o

grupo dos mais talentosos estudantes da escola, que todos os fins-

de-semana vo a Las Vegas, com falsas identidades e com as suas

mentes brilhantes, so capazes de aumentar em grande escala as

probabilidades de ganhar no blackjack.

077
unidade 3
ESTATSTICA E PROBABILIDADES

Alm disto, ainda contam com o professor de matemtica (e gnio da

estatstica) Micky Rosa (Kevin Spacey) como lder. A contagem das cartas

e um, muito bem definido esquemas de sinais, que permitem equipa

vencer nos grandes cassinos. Seduzido pelo dinheiro e pelo estilo de vida

de Vegas, e pela sua inteligente e sexy amiga Jill Taylor (Kate Bosworth),

Ben comea a ir at ao limite.

Apesar da contagem da carta no ser ilegal, o risco cada vez mais elevado

e o grande desafio prende-se agora com, no s manter a contagem

correta, mas tambm enganar o chefe de segurana dos casinos: Cole

Williams (Laurence Fishburne).

Quebrando a Banca. Direo: Robert Luketic. EUA: Sony Pictures, 2008.

(123 min), son., color., legendado.

078
unidade 3
Modelos
probabilsticos
Introduo

Variveis
Assim como a Matemtica, tambm a Estatstica apresenta
aleatrias
funes que norteiam o comportamento de suas variveis, como
Modelos
as retas, parbolas e hiprboles. Na Estatstica temos os modelos probabilsticos
probabilsticos. Esses modelos so funes paramtricas que
Distribuio
descrevem o comportamento de uma varivel em estudo. binomial
Distribuio
Possion
Distribuio
normal
Reviso
ESTATSTICA E PROBABILIDADES

Variveis
aleatrias
O estudo das variveis aleatrias de suma importncia nas
engenharias ou mesmo em qualquer outra rea do conhecimento
tcnico e cientfico. Isso porque, nem sempre, os dados que
compem o estudo estatstico so nmeros, sendo necessrio
descobrir um meio de transform-los em nmeros, a partir de uma
funo chamada de varivel aleatria, visando facilitar a estimativa
das medidas estatsticas.

Probabilidade As variveis
aleatrias podem
Seja um experimento aleatrio qualquer de um espao amostral e um ser classificadas
como contnuas ou
espao de probabilidades P. Ento a varivel aleatria X no espao de
discretas, de acordo
probabilidade uma funo real definida no espao amostral , tal que com o domnio da
( X x ) um evento aleatrio para qualquer x real. varivel abordada
no estudo.
As variveis aleatrias podem ser classificadas como contnuas ou
discretas, de acordo com o domnio da varivel abordada no estudo.
So classificadas como variveis discretas as funes para as
quais possvel associar um nico nmero real a cada evento de
uma partio do espao amostral . Portanto so variveis que
resultam de processos aleatrios nos quais os resultados possveis
so casuais e formam um conjunto enumervel.

So classificadas como variveis contnuas as funes para as


quais possvel associar infinitos valores a um intervalo ( a, b ),
sendo que para valores que no pertencem ao intervalo no qual se
limita o experimento, a probabilidade de ocorrncia zero.

081
unidade 4
ESTATSTICA E PROBABILIDADES

Variveis discretas
funo P ( x ) aquela nas quais se associam probabilidades aos
valores da varivel aleatria X abordada no estudo estatstico. Ou
seja, quando uma varivel aleatria X assume os valores x1,x2,x3,
,xn com as respectivas probabilidades p ( x1 ), p ( x2 ), p ( x3 ) ,,
p (xn) definidas por uma P ( X ), na qual a soma de todas as possveis
probabilidades igual a um, conforme apresentado na tabela 7, ou
seja:

TABELA 7 - Distribuio de probabilidades discretas

X x1 x2 x3 ... xn
P (X) p ( x1 ) p ( x2 ) p ( x3 ) ... p ( xn )

Fonte: Elaborado pelo autor.

Para uma distribuio discreta de probabilidades, possvel definir


O valor esperado,
a funo acumulada indicada por F ( x ) = P ( X xi ), ou seja, a indicado por
probabilidade da varivel aleatria assumir valores menores ou E (x) = , a
iguais a xi. mdia de uma
varivel discreta.

O valor esperado, indicado por E ( x ) = , a esperana matemtica


de uma varivel aleatria discreta X que assume os valores x1, x2, x3,
, xn com as respectivas probabilidades p ( x1 ), p ( x2 ), p ( x3 ),, p ( xn )
definidas por uma P ( Xn ), ou seja, igual ao valor mdio da varivel:

E ( x ) = x1 . p ( x1 ) + x2. p ( x2 ) + x3 .p ( x3 )+...+ xn. p (xn)


n
E (x) = xi . p ( xi )
i =1

O valor esperado, indicado por E (x) = , a mdia de uma varivel discreta.

A varincia, ou seja, a medida estatstica que concentra as


probabilidades em torno da mdia indicada por Var ( x ) ou 2 e
dada por:

082
unidade 4
ESTATSTICA E PROBABILIDADES

Var ( x ) = E ( x2 ) - [ E ( x ) ] 2

sendo E ( x ) o valor esperado, e E (x2 ) dada por:

E ( x2 ) = x12 . p ( x1 ) + x22. p ( x2 ) + x32 . p ( x3 ) + ... + xn2 . p ( xn )

n
2
E ( x2 ) = xi . p ( xi )
i =1

O desvio padro indicado por DP ( x ) = a raiz da varincia, ou seja:

DP ( x ) = Var ( x )

Para uma varivel aleatria n-dimensional (tambm chamada


de vetor aleatrio), com n=2, denota-se por ( X,Y ) o vetor
aleatrio, sendo:

TABELA 8 - Distribuio discreta

X VALORES ASSOCIADOS
P(Y)
Y VARIVEL X

Valores associados Probabilidade conjunta Probabilidade


varivel Y P ( X, Y ) marginal de Y

P(X) Probabilidade marginal de X 1 Pois P (X,Y)


uma f.d.p.

Fonte: Elaborado pelo autor.

083
unidade 4
ESTATSTICA E PROBABILIDADES

S possvel realizar anlises estatsticas sobre distribuies que

sejam uma funo densidade de probabilidade, ou seja, f.d.p. Dizemos

que uma ou mais variveis so uma f.d.p. quando a soma de todas as

probabilidades que compem o evento em estudo igual a 1, ou seja,

100%. Portanto, uma ou mais variveis podem ser classificadas como

f.d.p. quando:

n
p ( xi ) = p ( x1) + ( x2 ) + p ( x3 ) + ... + p ( xn ) = 1
i =1

As probabilidades so sempre dispostas paralelamente s suas

variveis na construo da tabela bidimensional. Portanto, se

invertermos as posies de X e Y na tabela anterior, teremos a seguinte

distribuio de probabilidades:

TABELA 9 - Distribuio discreta

Y VALORES ASSOCIADOS
P(X)
X VARIVEL Y

Valores associados Probabilidade conjunta Probabilidade


varivel X P ( X, Y ) marginal de X

P(Y) Probabilidade marginal de Y 1


Pois P (X,Y)
uma f.d.p.

Fonte: Elaborado pelo autor.

O valor esperado da distribuio conjunta, indicado por E ( X, Y),


dado pelo produto entre cada valor associado varivel X, com
cada valor associado varivel Y e sua respectiva probabilidade
conjunta, ou seja:

n n
E ( X, Y ) = xi . yj . p ( xi , yj )
i =1 j =1

084
unidade 4
ESTATSTICA E PROBABILIDADES

Portanto,
E ( X, Y ) = a . d . p ( a , d ) + b . d . p ( b, d ) + c . d . p ( c, d ) + a . e . p ( a, e ) + b . e . p ( b , e ) +
+ c . e . p ( c, e ) + a . f . p ( a, f ) + b . f . p ( b, f ) + c . f . p ( c, f )

Para a tabela de distribuio a seguir:


TABELA 10 - Distribuio discreta

X
Y a b c P(Y)

d P (a, d ) P ( b, d) P ( c, d ) P(d)
e P ( a, e ) P ( b, e ) P ( c, e ) P(e)
f P ( a, f ) P ( b, f ) P ( c, f ) P(f)
P(X) P ( a ) P ( b ) P(c) 1

Fonte: Elaborado pelo autor.

Variveis contnuas
uma funo f ( x ) aquela nas quais se associam probabilidades
aos infinitos valores da varivel aleatria X, abordada no estudo
estatstico. Ou seja, quando uma varivel aleatria X assume
infinitos valores em um determinado intervalo ( a, b ), sendo a
probabilidade igual a zero para valores fora desse intervalo e a
soma de todas as possveis probabilidades contidas nesse intervalo
igual a um. Portanto, para as variveis contnuas, temos que:

f (x) 0, x R;

+ oo


- oo
f ( x ) dx = 1 (toda rea sob a curva de probabilidade, ou
curva de frequncia, definida por f ( x ) vale um);
b

P ( a x b) =
a
f ( x ) dx (probabilidade correspondente
rea sob a curva limitada pelo intervalo compreendido
entre x = a e x = b ). Esse assunto ser mais detalhado
posteriormente no estudo da distribuio normal.

O valor esperado, indicado por E ( x ) = , a esperana matemtica


de uma varivel aleatria contnua X, que assume os infinitos
valores do intervalo ( a, b ), ou seja:

085
unidade 4
ESTATSTICA E PROBABILIDADES

E (x) = x .f ( x ) dx
a

A varincia, ou seja, a medida estatstica que concentra as


probabilidades em torno da mdia indicada por Var ( x ) ou 2 e
dada por:

Var ( x ) = E ( x2 ) - [ E ( x ) ]2,

sendo E ( x ) o valor esperado, e E ( x2 ) dada por:

E ( x ) = x2 . f ( x ) dx
2

a
A covarincia
para as variveis
Para uma varivel aleatria contnua bidimensional, definida
contnuas ou
em todos os valores dos nmeros reais, a funo densidade de discretas, ou seja, a
probabilidade conjunta f ( x, y ) uma funo que satisfaz: medida estatstica
que possibilita
f ( x, y ) 0, para todo ( x, y ) R2; verificar se as
variveis envolvidas
na anlise so

R R
f ( x, y ) d x d y =1 diretamente ou
inversamente
O valor esperado da distribuio conjunta, indicado por E ( X, Y ), proporcionais.
dado por:

E ( X, Y ) =
R R
x . y . f ( x, y ) d x d y

A covarincia para as variveis contnuas ou discretas, ou seja, a


medida estatstica que possibilita verificar se as variveis envolvidas
na anlise so diretamente ou inversamente proporcionais. Isso
porque medida que X aumenta o Y tambm aumenta, ou
medida que X diminui o Y aumenta, respectivamente. Tal relao
dada por:

086
unidade 4
ESTATSTICA E PROBABILIDADES

Cov ( X, Y ) = E ( X, Y ) - E ( X ) . E ( Y )

E o coeficiente de correlao das variveis contnuas ou discretas,


indicado por X,Y , ou seja, a medida estatstica que mensura a
relao entre as variveis X e Y dado por:

X, Y = Cov ( X, Y )
X . Y

Sendo -1 X,Y 1.

Independentemente de a classificao da varivel aleatria ser dada

como discreta ou contnua, sendo a e b constantes e x e y variveis

aleatrias, valem as propriedades:

E(X)= Var ( x ) = 2

E(a)=a Var ( a ) = 0

E(ax)=a.E(x) Var ( a x ) = a2 . Var ( x )

E(abx)=ab.E(x) Var ( a b x ) =b2 . Var ( x )

E(axby)=a.E(x)b.E(y) Var ( a x b y ) = a2 . Var ( x ) = b2 . Var ( y ) 2 . a . b . Cov ( x, y )

Duas variveis aleatrias X e Y so independentes se o produto das

distribuies marginais for igual distribuio conjunta, ou seja:

p ( x ) . p ( y ) = p ( x , y ) para distribuio discreta;

f ( x ) . f ( y ) = f ( x , y ) para distribuio contnua.

087
unidade 4
ESTATSTICA E PROBABILIDADES

Modelos
probabilsticos
Assim como na Matemtica, temos os modelos que representam
o comportamento da varivel abordada no estudo, ou seja,
as retas, parbolas e hiprboles dentre tantas outras funes
matemticas. Na Estatstica, os modelos probabilsticos descrevem
o comportamento de uma varivel, sendo possvel calcular
a probabilidade associada aos eventos da varivel abordada
no estudo, recorrendo apenas aos modelos probabilsticos.
Esses modelos so chamados de distribuies, apresentando
particularidades prprias que facilitam a sua identificao, podendo
ser divididos em contnuos e discretos, assim como as variveis
estudadas no incio deste tpico. A distribuio
binomial denotada
por X~Bin ( n; p ),
sendo n o nmero

Distribuio de amostragens
(tentativas) e p

binomial a probabilidade
de sucesso do
experimento.
A distribuio binomial denotada por X~Bin ( n; p ), sendo
n o nmero de tentativas e p a probabilidade de sucesso do
experimento. Trata-se de uma distribuio discreta, aplicada em
casos dicotmicos, ou seja, experimentos aleatrios com apenas
duas possibilidades de resposta, denotadas por sucesso ou falha.
Podemos citar como exemplo o lanamento de uma moeda, um
item ter defeito ou no, um funcionrio faltar ou no.

Para se caracterizar como distribuio binomial, a varivel aleatria


abordada no estudo deve ter:

a. n tentativas ou provas independentes, ou seja, eventos sem


reposio;

088
unidade 4
ESTATSTICA E PROBABILIDADES

b. cada uma das n tentativas s admite dois resultados


possveis, sendo eles sucesso ou falha;

c. as probabilidades de sucesso e falha so complementares


e constantes durante todo o processo de observao.

O valor esperado, ou seja, a mdia da distribuio binomial e a


varincia so dadas por:

E ( x ) = = n . p e Var ( x ) = 2 = np . ( 1 - p ), respectivamente.

A probabilidade de ocorrncia de um determinado evento na


distribuio binomial dada por:

n n-x
P ( X = x ) = ( x ). px. ( 1 - p )

n
sendo: ( ) a combinao de n elementos x a x, ou seja:
x
n
( )= n! e p a probabilidade de sucesso.
x
( n- x) ! . x!

A distribuio binomial amplamente aplicada para avaliar


probabilidades de eventos relacionados com controle de qualidade,
mercado de aes, risco de aplices de seguro, anlise demogrfica
e vendas, dentre outras inmeras situaes de controle da
variabilidade inerente ao processo produtivo.

Distribuio
Poisson
A distribuio Poisson denotada por X~Poisson (), sendo
1
a taxa mdia, ou seja, = e sendo tambm sempre
inversamente proporcional ao intervalo de tempo ou espao
definido no problema. Portanto, o seu valor deve corresponder
ao tamanho do intervalo apresentado. Assim, para qualquer

089
unidade 4
ESTATSTICA E PROBABILIDADES

outro intervalo, o valor da mdia deve sofrer a correo


numrica adequada.

A distribuio Poisson uma distribuio discreta, aplicada em


variveis aleatrias cujo nmero de sucessos observados num
intervalo contnuo, de tempo ou espao, pode estar relacionado
quantidade de: carros que passam em um sinal por minuto; defeitos
por metro quadrado de um revestimento; chamadas por hora numa
delegacia etc.

A probabilidade de ocorrncia de um determinado evento com


distribuio Poisson dada por:

e- . x
P(X=x)=
x!
A distribuio
Poisson pode ser
A distribuio Poisson pode ser aplicada como um caso limite da aplicada como
binomial, quando o tamanho da amostra em eventos dicotmicos
um caso limite da
binomial, quando
maior que 30. o tamanho da
amostra em eventos
dicotmicos
maior que 30.
Distribuio
normal
A distribuio normal denotada por X~Normal (; 2 ), sendo
o valor esperado, ou seja, a mdia da distribuio normal e a
varincia dadas por:

E ( x ) = e Var ( x ) = 2, respectivamente.

Por diversas razes, tanto na teoria quanto na prtica, a distribuio


normal a mais importante das distribuies de probabilidade.
Isso porque muitas variveis no mundo real tm comportamento
bastante aproximado dessa distribuio. Sua relevncia pode ser
destacada pelo fato de:

090
unidade 4
ESTATSTICA E PROBABILIDADES

a. seus resultados serem de fcil operao matemtica;

b. muitas tcnicas estatsticas pressuporem que os dados


tm distribuio normal;

c. os dados de muitas situaes reais, embora no sejam


rigorosamente normais, podem gerar bons resultados,
facilitando o tratamento matemtico;

d. a distribuio amostral de muitas estatsticas tenderem


distribuio normal, em face do teorema do limite central.

Essa distribuio classificada como contnua, podendo a varivel


assumir qualquer valor dentro de um intervalo previamente definido.
Essa distribuio, delineada por uma curva em forma de sino com
f.d.p, dada por:

A distribuio
amostral de
muitas estatsticas
tenderem
distribuio normal,
As principais propriedades da distribuio normal so: em face do teorema
do limite central.
1. ter a forma de um sino;

2. ser simtrica em relao mdia ;

3. ser assinttica1 em relao ao eixo de x;

4. ser unimodal2 e ter achatamento proporcional ao desvio


padro ou varincia;

5. ter mdia, moda e mediana iguais.

1 - No toca o eixo x.

2 - S tem uma moda.

091
unidade 4
ESTATSTICA E PROBABILIDADES

FIGURA 21 - Distribuio normal

Fonte: TRIOLA, 2011, p.88.

Como o clculo da rea abaixo da curva a integral da f.d.p. nos


limites desejados e esse clculo , muitas vezes, longo, a rea sob a
curva pode ser simplificada pela transformao:

x-
z=

Sendo z uma varivel aleatria com distribuio normal, mdia zero


e varincia 1, e x sendo uma varivel aleatria com distribuio
normal, mdia e varincia 2.

A rea total limitada pela curva normal e pelo eixo das abscissas
1u.a. (uma unidade de rea), ou seja, 100%, sendo as reas sob a
curva limitadas pela distncia entre o desvio padro e a mdia. Essa
rea apresentada na tabela a seguir.

092
unidade 4
ESTATSTICA E PROBABILIDADES

TABELA 11 - rea sob a curva da normal

Fonte: BARBETTA, 2010, p. 377.

Sendo a primeira coluna e a primeira linha o nmero inteiro


mais a primeira casa decimal e a segunda casa decimal,
respectivamente, do nmero z calculado pela estatstica de teste
x-
z= e, no centro da tabela, as probabilidades correspondentes

rea entre zero e esse ponto, conforme ilustrao a seguir.

093
unidade 4
ESTATSTICA E PROBABILIDADES

FIGURA 22 - Distribuio normal padro

Fonte: Elaborado pela autora.

Uma grande indstria compra diversos novos processadores de texto no

final de cada ano, sendo que o nmero exato deles depende da frequncia

dos reparos no ano anterior. Suponha que o nmero de processadores,

indicado por X, que so comprados a cada ano, tenha a seguinte

distribuio de probabilidade:

TABELA 12 - Distribuio de frequncias

X 0 1 2 3
P(X) 0,10 0,30 0,40 0,20

Fonte: Elaborado pelo autor.

Se o custo do modelo desejado permanecer fixo em R$ 1500,00 durante

este ano e um desconto de 50.X2 (em reais) for fornecido em relao a

qualquer compra, quanto a empresa espera gastar E ( X ) em novos

processadores no final do ano?

E ( X ) = 0.0,1 + 1.0,3 + 2.0,4 + 3.0,2

E ( X ) = 1,7

094
unidade 4
ESTATSTICA E PROBABILIDADES

Reviso
A distribuio discreta usada em casos cujos dados analisados podem
ser alocados em uma tabela de probabilidades, sendo que aquelas
localizadas no centro da tabela so classificadas como probabilidade
conjunta e as localizadas nas laterais, como probabilidades marginais.

Probabilidades marginais so aquelas que correspondem a apenas


uma das variveis em estudo, e as probabilidades conjuntas so as
que correspondem a duas variveis analisadas concomitantemente.

A distribuio contnua usada em casos cujos dados analisados


podem ser alocados em um intervalo contnuo.

No que tange as distribuies de probabilidade, cabe ressaltar:

TABELA 13 - Reviso das medidas de tendncia central

DISTRIBUIO LIMITAES QUANDO USAR

Binomial No usual para amostras com Quando os eventos estudados permitem apenas
mais de 30 elementos. duas respostas possveis.

Poisson Quando o foco do estudo na quantidade do


perodo.

Normal Quando a mdia e o desvio padro so


conhecidos.

Fonte: Elaborado pelo autor.

Para estudar mais sobre os contedos abordados nessa unida, sob perspectiva aplicada, consulte as

obras sugeridas abaixo.

MOORE, David. A estatstica bsica e sua prtica. Rio de Janeiro. LTC, 2014.

Para uma fundamentao matemtica mais aprofundada sobre o assunto, consulte a seguinte obra:

MONTGOMERY, Douglas; RUNGER, George Estatstica aplicada e probabilidade para engenheiros. 3 ed.

Rio de Janeiro: LTC, 2009.

095
unidade 4
Estimao de
mdias
e propores
Introduo

Teorema
Nas unidades anteriores, voc estudou trs grandes reas do
central do limite
mtodo estatstico: amostragem e coleta de dados; anlise
Estimao
exploratria de dados; e teoria de probabilidades. A partir de agora, pontual e por
voc vai entender como essas reas se relacionam para construir a intervalos de
confiana para
quarta rea do mtodo estatstico, que a deciso na presena de
uma mdia
incerteza ou estatstica inferencial. populacional
Estimao
A estatstica inferencial recebe esse nome por ser um conjunto de pontual e por
mtodos e tcnicas que permitem, a partir dos dados provenientes
intervalos de
confiana para
de uma amostra, inferir informaes sobre toda a populao alvo uma proporo
do estudo. Logicamente existe uma incerteza associada a esse populacional
processo, mas ela quantificada atravs dos nveis de confiana Uso do Excel
e margens de erro do estudo. Essa a grande contribuio da no clculo de
intervalos
estatstica inferencial, permitir que se conhea o nvel de incerteza de confiana
da informao antes de tomar decises. para mdia e
proporo

Existe uma infinidade de tcnicas de estatstica inferencial, Introduo ao


programa EpiInfo
como os intervalos de confiana, testes de hipteses
Reviso
paramtricos e no paramtricos, anlises de correlao
e regresso, dentre outras. Para que voc tenha noo da
quantidade de tcnicas, imagine que exista um curso de
graduao em Estatstica com durao de quatro anos em
que o aluno passa a maior parte do tempo estudando tcnicas
de estatstica inferencial. E ainda assim esse tempo no
suficiente para estudar todas as tcnicas!
A boa notcia que em todas essas tcnicas existe um ponto
em comum, conceitos que so utilizados em todas elas, como
estimativa pontual, intervalos de confiana e testes de hipteses.
Esses conhecimentos esto presentes em todas as tcnicas de
estatstica inferencial. E exatamente o que estudaremos nas
prximas unidades.

Nesta unidade, especificamente, voc vai conhecer o teorema


principal da estatstica, o fundamento de grande parte das tcnicas
de estatstica inferencial: o teorema central do limite. Esse teorema
fala sobre a relao entre o modelo normal de probabilidades e a
mdia calculada a partir de uma amostra. Voc consegue imaginar
qual seja essa relao?

Aqui voc vai descobrir como so calculadas as margens de erro


das pesquisas eleitorais, que so obtidas atravs das estimativas
pontuais e intervalares para mdias e propores populacionais. Vai
descobrir como utilizar o Excel para construir uma calculadora para
intervalos de confiana. E tambm um software muito til para fazer
vrias anlises estatsticas, o EpiInfo.
ESTATSTICA E PROBABILIDADES

Teorema central
do limite
Imagine a seguinte situao: um engenheiro de produo deseja
monitorar um processo de produo de fibra sinttica de maneira
a garantir que a caracterstica de qualidade resistncia trao
esteja sempre dentro dos limites de especificao. conhecido
que a resistncia trao das fibras produzidas naquela empresa
normalmente distribuda com mdia de 75 psi (libras fora por
polegada quadrada) com desvio-padro de 3,5 psi.

Como no vivel medir a caracterstica de qualidade em todas


as peas produzidas (inspeo 100%) ele decidiu coletar amostras
periodicamente para verificar se no houve alterao na mdia O TCL diz que
do processo. Acontece que cada vez que ele coleta uma amostra quando trabalhamos
com amostras
e obtm a mdia dessa amostra existe uma variao, ou seja,
e calculamos
as mdias das amostras so sempre diferentes. A dvida : o mdias, as mdias
engenheiro pode afirmar que houve alterao na mdia do processo das amostras
so normalmente
(de todas as peas produzidas) ou a variao devida simplesmente
distribudas em torno
uma flutuao amostral? da verdadeira mdia
populacional.
O teorema central do limite (TCL) poder auxiliar o engenheiro a
interpretar os resultados dessas amostras e resolver a dvida. O
TCL diz que quando trabalhamos com amostras e calculamos
mdias, as mdias das amostras so normalmente distribudas
em torno da verdadeira mdia populacional. Isso acontece porque,
exatamente pelo fato de serem baseadas em sorteio aleatrio, as
amostras so sempre diferentes e, se calcularmos ento a mdia
em cada amostra, bem difcil encontrarmos exatamente os
mesmos valores.

Entretanto, apesar de as amostras serem diferentes e terem mdias


diferentes, se selecionarmos vrias amostras e obtivermos suas
mdias, podemos fazer um histograma dessas mdias. Ao realizar
esse procedimento poderemos ver que, medida que aumentamos

099
unidade 5
ESTATSTICA E PROBABILIDADES

a quantidade de amostras, o histograma mais se assemelha curva


da distribuio normal de probabilidades e, ainda, a mdia dessas
mdias mais se aproxima da verdadeira mdia populacional.

Definio do teorema central do limite

Se X uma varivel aleatria com mdia e varincia 2 e a


mdia de uma amostra com n elementos dessa varivel aleatria,
ento podemos dizer que a forma limite da distribuio de

X-
z=

n

a distribuio normal padro quando n tende ao infinito.

Podemos dizer ainda que X normalmente distribudo com mdia

X = e desvio-padro X =
n .

EXEMPLO

Pensando no exemplo das fibras sintticas, chamamos de X a


varivel aleatria resistncia trao das fibras. Sabemos que a
mdia 75 psi e o desvio-padro 3,5 psi. Encontre a probabilidade
de uma amostra aleatria de n = 25 fibras ter uma resistncia mdia
menor que 73,6 psi.

Note que a distribuio amostral de normal, com mdia X =75


psi e um desvio-padro de

X = = 3,5 = 0,7 psi


n 25

Consequentemente, a probabilidade desejada corresponde rea


sombreada na figura abaixo.

100
unidade 5
ESTATSTICA E PROBABILIDADES

FIGURA 23 - Distribuio amostral de X - Mdia 75 e desvio-


padro 0,7

Fonte: Elaborada pelo autor.

Desse modo, podemos dizer que

P( < 73,6 ) = P ( Z < z ) onde o valor de z obtido atravs da


padronizao:

73,6 - 75
z= = -2
3,5
25

Ento,

P( < 73,6 ) = P ( Z < -2 ) = 0,0228 (pela tabela da distribuio


normal padro).

O resultado acima indica que a probabilidade de selecionar


uma amostra de fibras e obter resistncia mdia menor
que 73,6 psi de 2,28%. Na Unidade 7 veremos que essa
probabilidade pode ser considerada baixa e, portanto, de posse
dessa informao, o engenheiro poderia adotar o seguinte
critrio: ao observar uma amostra de fibras com resistncia
mdia menor que 73,6 psi, o processo deve ser verificado.

101
unidade 5
ESTATSTICA E PROBABILIDADES

importante ressaltar que o TCL pode ser utilizado ainda que


a distribuio da varivel aleatria X no seja normal, ou seja, o
teorema valido para qualquer que seja a distribuio de X. Essa
a grande contribuio do TCL para o desenvolvimento dos mtodos
estatsticos. Entretanto, nas situaes em que a distribuio da
varivel aleatria X seja muito assimtrica, a aplicao do TCL
adequada para amostras grandes ( n 30 ). A figura abaixo ilustra
as distribuies amostrais de para diferentes populaes e
diferentes tamanhos de amostra.

FIGURA 24 - Distribuies amostrais de para diferentes populaes e tamanhos de amostra


Populao original Distribuio amostral Distribuio amostral Distribuio amostral
(distribuio de X) de X para n = 2 de X para n = 5 de X para n = 30

Fonte: Elaborao do autor.

Note nos grficos acima que a aproximao pela distribuio normal


razovel para amostras com 30 ou mais observaes. Por essa
razo, a utilizao do teorema central do limite adequada quando

102
unidade 5
ESTATSTICA E PROBABILIDADES

o tamanho da amostra for ao menos 30 ou quando a distribuio da


varivel aleatria X for normal.

Nos prximos tpicos, voc vai descobrir como aplicar o


teorema central do limite para obter estimativas intervalares
para mdias e propores populacionais a partir da mdia e
propores amostrais. Na Unidade 7, o TCL ser utilizado para
realizar testes de hipteses sobre os parmetros populacionais.

Estimao pontual
e por intervalos de
confiana para uma
mdia populacional
Neste tpico, voc vai aprender a obter uma estimativa para mdia
populacional e calcular a preciso dessa estimativa. Voc vai
entender por que apresentar a margem de erro e o nvel de confiana
da pesquisa to importante quanto apresentar a estimativa
pontual para mdia. Aps a leitura deste tpico, voc ter um novo
olhar sobre as estatsticas que lhe so apresentadas diariamente
em jornais ou revistas.

Considere que uma montadora desenvolveu um novo modelo e est


elaborando a ficha tcnica do veculo. Uma informao relevante
para o cliente o consumo mdio de combustvel. Sabe-se que
o consumo est relacionado ao tipo de combustvel (etanol ou
gasolina ), maneira de conduzir, ao tipo de via (cidade ou estrada),
qualidade do combustvel, dentre outras variveis. O consumo
pode variar tambm entre os veculos de mesmo modelo, por
essa razo podemos tratar o consumo de combustvel como uma
varivel aleatria.

103
unidade 5
ESTATSTICA E PROBABILIDADES

Para definir o consumo mdio de combustvel do novo modelo de


veculo, a montadora coletou dados sobre distncia percorrida e
consumo de combustvel de 35 veculos. Com esses dados, calculou
o consumo mdio na estrada e na cidade tanto para gasolina quanto
para etanol. Os resultados so apresentados na tabela abaixo:

TABELA 14 - Reviso das medidas de tendncia central

TRAJETO ETANOL (KM/L) GASOLINA (KM/L)


Cidade 8,7 12,5
Estrada 10,4 15,2

Fonte: Elaborado pelo autor.

Os 35 veculos que participaram do experimento podem ser


considerados uma amostra do total de veculos produzidos pela
montadora, j que o objetivo obter informao sobre todos os
veculos do referido modelo que so produzidos. Dessa forma, a
montadora est utilizando a mdia da amostra para estimar , o
consumo mdio de todos os veculos.

Dizemos que a mdia da amostra representa um nico estimador


numrico da mdia da populao. Por essa razo, recebe o nome
de estimador pontual. Observe, por exemplo, na tabela 21 que o
consumo mdio do veculo na cidade com etanol foi estimado em
8,7 km/L, mas no foi apresentada nenhuma informao quanto
preciso dessa estimativa.

No tpico anterior, vimos que a mdia amostral pode ser


considerada uma varivel aleatria. Isso significa que, caso
selecionssemos outra amostra de 35 veculos e calculssemos
o consumo mdio na cidade com etanol, o resultado poderia
ser diferente de 8,7 km/L. Por essa razo, a estimativa pontual
deve vir sempre acompanhada da margem de erro, informando
assim sua preciso. A margem de erro pode ser obtida atravs
da equao a seguir:

104
unidade 5
ESTATSTICA E PROBABILIDADES

E = Z/
2

Onde:

z / est relacionado ao nvel de confiana desejado para o estudo;


2

 o desvio-padro populacional da varivel aleatria X;

n o tamanho da amostra coletada.

O nvel de confiana do estudo definido pelo valor de z/ que


2

pode ser obtido da tabela da distribuio normal padro. O nvel de


confiana dado em valor percentual e deve ser sempre inferior
a 100%. Chamamos significncia () o percentual restante, de
maneira que confiana + significncia = 100%. Por exemplo, para
um estudo com 95% de confiana, o valor de ser 5%. O valor de
z = 1,96 definido ento a partir da distribuio normal padro,
como ilustra a figura abaixo:

FIGURA 25 - Definio do valor de z para confiana de 95%

Fonte: Elaborado pelo autor.

Observe tambm que, para o clculo da margem de erro, precisamos


conhecer o desvio-padro populacional da varivel aleatria X, isto
, o desvio-padro do consumo de combustvel de todos os veculos
do referido modelo produzidos pela montadora. Entretanto, como a

105
unidade 5
ESTATSTICA E PROBABILIDADES

amostra pode ser considerada grande ( n > 30 ), podemos utilizar


o desvio-padro da amostra s como aproximao de , e ento o
clculo da margem de erro ser:

E = Z/ S
2

Vamos obter, portanto, a margem de erro para o verdadeiro consumo


mdio de etanol na cidade para esse veculo, com um nvel de 95%
de confiana, sabendo que o desvio-padro do consumo de etanol
na cidade para a amostra dos 35 veculos foi de 4 km/L.

4
E = 1,96 = 1,325
35

O clculo acima mostra que a margem de erro do estudo de 1,325


km/L para o consumo do veculo ao rodar com etanol na cidade.
Com isso, podemos dizer que o verdadeiro consumo mdio do
veculo de 8,7 km/L com uma margem de 1,325 km/L para mais
ou para menos, ou seja, est entre 8,7 - 1,325 = 7,375 km/L e 8,7 +
1,325 = 10,025 km/L. O intervalo que acabamos de construir (7,375;
10,025) conhecido como intervalo de confiana ou estimador
intervalar e definido pela equao:

IC [ ; ( 100 - ) % ] = E

Ou seja, o intervalo de confiana para , a verdadeira mdia


populacional, com um nvel de ( 100 - ) % de confiana, dado pela
mdia amostral menos a margem de erro e a mdia amostral mais a
margem de erro.

O resultado do exemplo acima comumente interpretado da


seguinte maneira: se obtivermos vrias amostras de 35 veculos
e, para cada uma delas, calcularmos os correspondentes intervalos
com 95% de confiana, esperamos que a proporo de intervalos
que contenham o verdadeiro consumo mdio seja igual a 95%.

106
unidade 5
ESTATSTICA E PROBABILIDADES

Exemplo:

Para os dados da tabela 21, supondo que o desvio-padro para o


consumo de etanol na estrada seja de 2 km/L, obtenha o intervalo
de 95% para o verdadeiro consumo mdio.

Soluo:

Para resolver a questo acima, podemos utilizar a equao:

IC [ ; 95% ] = E

Precisamos, portanto, encontrar a margem de erro do estudo. Para


isso, vamos utilizar a equao:

E = Z/ S
2

Logo:

2
E = 1,96 * = 0,663
35
Ento:

IC [ ; 95% ] = 10,4 0,663

O intervalo comumente apresentado como segue:

IC [ ; 95% ] = [ 9,737 ; 11,063 ]

Dessa forma, afirmamos com 95% de confiana que o consumo


mdio de etanol na estrada para o novo modelo de veculo est
entre 9,737 km/L e 11,063 km/L.

107
unidade 5
ESTATSTICA E PROBABILIDADES

Estimao por intervalos de confiana


para uma mdia populacional
(amostras pequenas)

Voc deve ter observado no tpico anterior que o clculo da


margem de erro para o intervalo de confiana exige o conhecimento
do desvio-padro populacional (). Entretanto, na maioria das vezes
em que se deseja estimar a mdia populacional, o desvio-padro
populacional tambm desconhecido, o que torna inadequada a
aplicao da equao para o clculo da margem de erro.

Felizmente, quando trabalhamos com grandes amostras


Felizmente, quando
( n > 30 ), o desvio-padro amostral (s) uma boa aproximao
trabalhamos com
para o desvio-padro populacional (), o que possibilita a utilizao grandes amostras
da equao apresentada para o clculo da margem de erro. Mas, o ( n > 30 ), o desvio-
padro amostral
que fazer quando a amostra pequena ( n < 30 )? exatamente o
(s) uma boa
que descobriremos aqui. aproximao para
o desvio-padro
Nas situaes em que a amostra pequena, nos deparamos com populacional (),
o que possibilita
dois problemas:
a utilizao
da equao
1. No podemos utilizar o teorema central do limite
apresentada para o
para dizer que a mdia amostral ( ) normalmente clculo da margem
distribuda, pois o TCL vlido somente para amostras de erro.
com mais de 30 observaes.

2. A aproximao do desvio-padro populacional pelo desvio-


padro amostral considerada pobre.

Para contornar o problema 1, lanamos mo do seguinte teorema:

Se X uma varivel aleatria normalmente distribuda, ao selecionar


amostras de tamanho n, a distribuio amostral de ser uma
distribuio normal.

108
unidade 5
ESTATSTICA E PROBABILIDADES

Esse teorema garante que, se a varivel aleatria X normalmente


distribuda, ento a distribuio amostral de ser normal
independente do tamanho da amostra.

Para contornar o problema 2, vamos precisar utilizar uma nova


distribuio de probabilidades, a distribuio t-student. Essa
distribuio muito semelhante distribuio normal: tem
forma de sino, simtrica e tem mdia zero. A diferena que a
distribuio t-student mais achatada (tem caudas mais pesadas).
Com isso, as estimativas obtidas a partir dessa distribuio sero
menos precisas.

FIGURA 26 - Comparao entre a distribuio normal e a distribuio t-student (5 gl)

Fonte: Elaborado pelo autor.

A figura a seguir ilustra parte da tabela dos valores mais utilizados


para distribuio t-student. Para construo de intervalos de
confiana, devemos olhar os valores para rea em duas caudas e a

rea deve se referir ao valor de + . Os graus de liberdade so
2 2
dados por n - 1, ou seja, o tamanho da amostra menos 1.

109
unidade 5
ESTATSTICA E PROBABILIDADES

FIGURA 27 -Valores tabelados para distribuio t-student

Fonte: TRIOLLA, 2013, p. 614.

Exemplo:

Uma equipe de engenharia est desenvolvendo uma nova


mistura para concreto e deseja estimar a resistncia mdia
do produto compresso. Como o teste de resistncia
compresso um ensaio destrutivo, o mximo que a equipe
conseguiu para realizao do estudo foram 10 corpos de prova.
A resistncia mdia compresso da amostra foi de 2.500 psi
e o desvio-padro foi de 45 psi. Sabendo que a resistncia do
concreto compresso segue uma distribuio normal, obtenha
uma estimativa intervalar para a verdadeira resistncia mdia
populacional com 95% de confiana.

110
unidade 5
ESTATSTICA E PROBABILIDADES

Soluo:

Observe que o tamanho da amostra pequeno, n = 10, e o desvio-


padro foi obtido da amostra (no conhecemos o desvio-padro
populacional). Nesse caso, para construir o intervalo de confiana,
necessrio utilizar a distribuio t-student e a margem de erro deve
ser calculada utilizando a equao:

E = t S
n

Onde t obtido da tabela t-student, sendo os parmetros:


a rea em cada uma das duas caudas e n - 1 os graus de
2
liberdade.

Como o intervalo de 95% de confiana, sabemos que a significncia


o = 5% (para consultar a tabela usamos o valor em decimal, 0,05).
Os graus de liberdade so obtidos calculando n-1, ou seja, 10 - 1 =
9. Assim, encontramos que o valor de t0,025;9 de 2,262.

FIGURA 28: Tabela t-student - encontrando t 0,025;9

Fonte: TRIOLA, 2013, p. 614

111
unidade 5
ESTATSTICA E PROBABILIDADES

Com isso, estimamos que a margem de erro ser:

E = 2,262 . 45 = 32,189
10
O intervalo de confiana pode ser ento obtido:

IC [ ; 95% ] = 2.500 32,189

IC [ ; 95% ] = [ 2.467,81 ; 2.532,19 ]

A equipe de engenharia pde interpretar o resultado como segue:


afirmamos com 95% de confiana que a resistncia mdia do
concreto compresso est entre 2.467,81 psi e 2.532,19 psi.

Estimao pontual
e por intervalos
de confiana para
uma proporo
populacional
Como so calculadas as margens de erro das pesquisas eleitorais?
Possivelmente no incio da unidade voc tenha ficado instigado a
descobrir como feito esse clculo. Antes de dar incio, preciso
entender que as pesquisas eleitorais buscam descobrir o percentual
de eleitores que so favorveis ao candidato A ou B, e esses
percentuais so tratados na estatstica como propores.

Para simplificar os clculos, vamos pensar em uma eleio que foi


para o segundo turno e, portanto, tem apenas dois candidatos. Uma
empresa de pesquisa entrevistou 2.500 eleitores quanto inteno
de voto nos candidatos A e B. Note que "candidato" uma varivel
qualitativa, e o que queremos descobrir como estimar a probabilidade

112
unidade 5
ESTATSTICA E PROBABILIDADES

de sucesso em um experimento binomial em que p a probabilidade


de que o eleitor escolhido prefira o candidato A, por exemplo. Uma
maneira bem intuitiva de estimar p para a populao usar a proporo
de sucessos da amostra:

p = Nmero de eleitores que preferem o candidato A

Nmero de eleitores amostrados

Suponha que dos 2.500 eleitores amostrados 1.300 tenham


declarado inteno de votar no candidato A, 950 no candidato B e
250 em branco ou nulo. Assim, podemos estimar a proporo de
eleitores que votariam no candidato A por:

1.300
p = = 0,52
2.500

Ou seja, a amostra indica que cerca de 52% dos eleitores


tm inteno de votar no candidato A. Entretanto, devemos
lembrar que caso fosse realizada outra amostragem e fossem
selecionados outros 2.500 eleitores o resultado poderia ser
diferente de 0,52. O valor de p uma estimativa pontual para p, a
verdadeira proporo de eleitores que tm inteno de votar no
candidato A em toda a populao.

Podemos tratar p como uma mdia, se pensarmos que X uma


varivel aleatria que assume 0 quando o eleitor declara votar no
candidato B, em branco ou nulo e 1 quando o eleitor declara votar
no candidato A. Nesse caso, podemos utilizar o teorema central do
limite e dizer que p normalmente distribudo com mdia p = p
p.q
e desvio-padro p = , onde q = 1-p, ou de maneira aproximada
n
p = p.q , pois no conhecemos os verdadeiros valores de p e q.
n

113
unidade 5
ESTATSTICA E PROBABILIDADES

Sabemos que o TCL vlido apenas para amostras grandes. No caso


de estimativas para propores, dizemos que a amostra grande
quando n . p 5 e tambm n . q 5, ou seja, ambos os critrios devem
ser satisfeitos.

Caso esses critrios tenham sido satisfeitos, podemos calcular a


margem de erro atravs da equao:

pq
E = Z
/2 n

E ento o intervalo de confiana para p ser:

IC [ p ; ( 100 - ) % ]= p E

No exemplo da pesquisa eleitoral, n . p = 2.500 * 0,52 = 1.300 e


n.q = 2.500 * 0,48 = 1.200. Como ambos os critrios foram
satisfeitos, dizemos que temos uma amostra grande o bastante
para justificar a utilizao do TCL, logo podemos obter a margem
de erro com o nvel de 95% de confiana:

E = 1,96 0,52 0,48 = 0,0196


2.500

E o intervalo de confiana ser:

IC [ p ; 95% ] = 0,52 0,0196

IC [ p ; 95% ] = [ 0,5004 ; 0,5396 ]

Podemos afirmar com 95% de confiana que a verdadeira proporo


de eleitores que votam no candidato A em toda a populao est
entre 50,04% e 53,96%. Observe que afirmar com 95% de confiana
significa dizer que, se fossem feitas 100 pesquisas e calculados os
intervalos de confiana, cerca de 95 deles conteriam a verdadeira
proporo de eleitores que votam no candidato A.

114
unidade 5
ESTATSTICA E PROBABILIDADES

Exemplo:

A empresa XYZ compra tubos de ao do fornecedor A. Na ltima


semana, a XYZ recebeu uma proposta de comprar tubos de ao do
fornecedor B pela metade do preo do fornecedor A. Para decidir,
o gerente de compras deseja estimar qual o percentual de no
conformidade nos tubos do fornecedor B (proporo de tubos
defeituosos). Em um lote de 150 tubos havia 21 no conformes.
Obtenha o intervalo de 90% de confiana para a verdadeira
proporo de tubos no conformes do fornecedor B.

Soluo:

Uma estimativa pontual para a verdadeira proporo de tubos no


conformes dada por:

p = 21 = 0,14
150

Verificamos que a aplicao do teorema central do limite adequada,


= 21 e n . q = 150 * 0,86 = 129, ou seja, ambos so maiores
pois n . p
que 5, indicando que a amostra suficientemente grande. Podemos
estimar a margem de erro do estudo pela equao:

E = Z
pq
/2 n

0,14 0,86
E = 1,645 150 = 0,047

Ento, definimos o intervalo com 90% de confiana para p


pela equao:

E
IC [ p ; 90% ] = p

IC [ p ; 90% ] = 0,14 0,047

IC [ p ; 90% ] = [ 0,093 ;0,187 ]

115
unidade 5
ESTATSTICA E PROBABILIDADES

O gerente de compras pode afirmar, com 90% de confiana, que


a verdadeira proporo de tubos no conformes provenientes do
fornecedor B est entre 9,3% e 18,7%. O gerente far sua deciso
baseado nessa informao e em outras que julgar convenientes.

Uso do Excel no
clculo de intervalos
de confiana para
mdia e proporo
Agora que voc j sabe exatamente como so obtidos os intervalos
O intervalo de
de confiana, vamos utilizar o Excel para construir uma calculadora
confiana para a
de intervalos de confiana. Comearemos pelo intervalo para mdia. mdia populacional
pode ser obtido
Nos tpicos anteriores, vimos que o intervalo de confiana para a
de duas maneiras:
utilizando a
mdia populacional pode ser obtido de duas maneiras: utilizando distribuio normal
a distribuio normal (estatstica z) ou a distribuio t-student (estatstica z)
(estatstica t). Vimos tambm que a distribuio t-student ou a distribuio
t-student
utilizada quando o tamanho da amostra menor que 30 e o desvio-
(estatstica t).
padro populacional desconhecido. Nos outros casos, utilizamos
a distribuio normal.

Vamos construir primeiramente uma calculadora para intervalos de


confiana utilizando a distribuio normal. Utilizaremos os dados
sobre consumo de combustvel do primeiro exemplo.

A figura a seguir ilustra como deve ficar nossa calculadora nas


colunas A e B.

116
unidade 5
ESTATSTICA E PROBABILIDADES

FIGURA 29 - Calculadora para intervalo de confiana para mdia:


amostras grandes ou desvio-padro populacional conhecido

Fonte: Elaborado pelo autor.

Nas linhas 4 a 7 so inseridas as informaes iniciais do problema,


como: desvio-padro, que pode ser tanto da populao quanto da
amostra; a mdia amostral ; o tamanho da amostra n; e o nvel
de confiana desejado. Note que a clula B7 deve ser configurada
como porcentagem.

Nas linhas 9 a 11 so realizados clculos intermedirios


como erro padro da mdia x (ou x ), o valor de z relativo ao
nvel de confiana desejado e a margem de erro resultante.
As frmulas utilizadas para cada um dos clculos so
apresentadas exatamente sua direita. Por exemplo, na clula
B9 foi inserida a frmula = B4/RAIZ(B6), que o desvio-padro
dividido pela raiz do tamanho da amostra. Nas linhas 13 e 14
apresentado o intervalo de confiana, sendo limite inferior do

117
unidade 5
ESTATSTICA E PROBABILIDADES

intervalo o valor de - E e o limite superior do intervalo o valor


de + E.

Para construir a calculadora para amostras pequenas e desvio-


padro populacional desconhecido, vamos utilizar os dados
do exemplo sobre a resistncia do concreto compresso.
O procedimento o mesmo do anterior, alterando apenas as
informaes relativas aos parmetros da distribuio t-student:

FIGURA 30 - Calculadora para intervalo de confiana para mdia:


amostras pequenas e desvio-padro populacional desconhecido

Fonte: Elaborado pelo autor.

Para construir a calculadora de intervalos de confiana para


propores, vamos utilizar os dados do exemplo da pesquisa
eleitoral. Nesse caso, os dados iniciais so o nmero de sucessos
e o tamanho da amostra. Lembrando que a palavra sucesso est
relacionada distribuio binomial e se refere ao nmero de vezes

118
unidade 5
ESTATSTICA E PROBABILIDADES

que ocorreu o evento de interesse. No caso do exemplo sobre as


eleies, o nmero de sucessos a quantidade de entrevistados
que declarou inteno de votar no candidato A, 1300 pessoas. O
tamanho da amostra foi de 2500 entrevistados. Com esses dados,
calcula-se a proporo estimada p dividindo o nmero de sucessos
pelo tamanho da amostra (clula B6).

O erro padro da mdia calculado atravs da equao p = =


p.q
n
implementada na clula B9. As demais clulas utilizam as mesmas
frmulas j apresentadas nas calculadoras anteriores.

FIGURA 31 - Calculadora para intervalo de confiana para proporo

Fonte: Elaborado pelo autor.

119
unidade 5
ESTATSTICA E PROBABILIDADES

Introduo ao
programa EpiInfo
O software EpiInfo uma ferramenta muito til para anlise de
dados. Esse software foi desenvolvido pelo Centro de Controle de
Doenas (CDC) para anlise de dados epidemiolgicos, entretanto
pode ser utilizado em qualquer rea, inclusive em engenharia. O
software est disponvel no site www.cdc.gov/epiinfo

Veja no material web da disciplina os vdeos de instalao do EpiInfo


e de introduo anlise de dados utilizando essa ferramenta.

Um fabricante de anis para pistes de motor deseja verificar se seu

produto atende as especificaes do cliente. Para isso, resolveu estimar

o dimetro mdio dos anis produzidos. A partir de uma amostra de 40

anis, registrou-se dimetro mdio de 74,045 milmetros com desvio-

padro de 0,02 milmetros. Construa o intervalo com 99% de confiana

para o verdadeiro dimetro mdio dos anis.

Soluo:

Note que o enunciado no informou a distribuio de probabilidade da

varivel dimetro dos anis e, alm disso, tambm no temos informao

a respeito do desvio-padro populacional dessa varivel. Entretanto, como

a amostra considerada grande (40 anis), podemos valer do teorema

central do limite e afirmar que a distribuio amostral do dimetro

mdio dos anis normal, com mdia e desvio-padro n , onde

o verdadeiro dimetro mdio dos anis e o verdadeiro desvio-padro.

Sabemos ainda que o estimador de X, a mdia amostral e o estimador

de s, o desvio-padro amostral. Dessa forma, utilizaremos as equaes

a seguir para construir o intervalo com 99% de confiana para o verdadeiro

dimetro mdio dos anis.

120
unidade 5
ESTATSTICA E PROBABILIDADES

IC [ ;99% ] = x E

Precisamos, portanto, encontrar a margem de erro do estudo. Para isso,

vamos utilizar a equao:

E = Z/ S
2

Logo:

0,02
E = 2,575 * = 0,008
40
Ento:

IC [ ; 99% ] = 74,045 0,008

O intervalo comumente apresentado como segue:

IC [ ;99% ] = [ 74,037 ; 74,053]

Dessa forma, afirmamos com 99% de confiana que o dimetro mdio dos

anis est entre 74,037 milmetros e 74,053 milmetros.

Reviso
Nesta unidade, voc aprendeu a construir estimativas pontuais e por
intervalos para os verdadeiros parmetros populacionais atravs de
dados provenientes de amostras. Aprendeu tambm que existem
ao menos quatro maneiras de obter estimativas intervalares, e que
a escolha da maneira adequada para cada situao determinada
basicamente pelo tipo de dados (qualitativo ou quantitativo) e
pelo tamanho da amostra ( n < 30 ou n 30 ). O esquema abaixo
apresenta de maneira resumida o processo de deciso:

121
unidade 5
ESTATSTICA E PROBABILIDADES

FIGURA 32 Processo de deciso

Tipo de dados

Quantitativo parmetro Qualitativo parmetro p

Amostra grande ( n 30 ) Amostra pequena ( n < 30 ) Aplicvel quando np 5 e nq 5

Pelo teorema central do O intervalo de confiana pode


O intervalo de
limite, o intervalo de ser obtido pela equao 3
confiana pode ser
confiana pode ser obtido apenas se a populao tem
obtido pela equao 4.
pelas equaes 1 ou 2. distribuio normal.

Fonte: Elaborada pelo autor

Equao 1: x Z/
2

Equao 2: x Z/ S
2

Equao 3: x t S
n

q
p
Equao 4: p Z 2
/ n

Caso voc tenha se interessado pelo assunto desta unidade e deseja

aprofundar nesse contedo, recomendo a leitura do captulo 5 do livro texto:

McCLAVE, James T. George Benson, Terry Sincich. Estatstica para

administrao e economia. trad. Fabrcio Pereira Soares e Fernando

Sampaio Filho; rev. tc. Galo Carlos Lopez Noriega. So Paulo: Pearson

Prentice Hall, 2009.

Se voc deseja uma leitura mais formal e tem interesse em demonstraes

das equaes, leia o captulo 8 do livro texto:

MONTGMOMERY, Douglas C. George C. Runger. Estatstica aplicada e

probabilidade para engenheiros. trad. e rev. tc. Vernica Calado. Rio de

Janeiro: LTC, 2009.

122
unidade 5
ESTATSTICA E PROBABILIDADES

Se voc deseja um estudo de caso com aplicao do contedo na rea de

engenharia, leia o artigo:

NETO, Antnio Peli. Intervalos de confiana, Intervalos de Predio e

Campo de Arbtrio nas Avaliaes de Imveis Urbanos. Associao

Brasileira dos Engenheiros Civis - Departamento da Bahia. Bahia, 2010.

Disponvel em: <http://www.abenc-ba.org.br/attachments/289_ANTONIO_

PELLI_ABNT%20NBR%2014653-2%20%282%C2%BAProjeto%29212751_1.

pdf>. Acesso em 16 jun. 2015.

123
unidade 5
Planejamento de
experimentos
Introduo

Na Unidade 5, Estimao de mdias e propores, voc aprendeu


a estimar parmetros populacionais a partir de dados amostrais.
Voc deve ter observado que os resultados amostrais foram
disponibilizados, mas no foram apresentados os mtodos
utilizados para seleo das amostras ou sequer a justificativa para
o tamanho amostral. Nesta unidade voc vai aprender a planejar
um experimento de pequeno e mdio porte na rea de Engenharia
e Cincias Exatas, bem como calcular o tamanho mnimo de uma
amostra que tenha representatividade estatstica.

Clculo de
Uma situao que utiliza o planejamento de experimentos muito tamanho de
frequentemente o estudo dos efeitos do tratamento trmico de amostra baseado
em intervalos de
metais sobre suas propriedades mecnicas. Considere que uma confiana para
equipe de engenharia deseja estudar o efeito de trs diferentes uma proporo
tipos de banho de tmpera sobre a dureza de um determinado tipo Clculo de
de ao. Os tipos de banho de tmpera utilizados so tmpera em
1 tamanho de
amostra baseado
gua, tmpera em leo e tmpera em soluo aquosa de cloreto em intervalos de
de sdio (gua salgada). O propsito do estudo determinar qual confiana para
uma mdia
banho de tmpera produzir a dureza mxima do ao.
Planejamento
de experimentos
A princpio, a equipe considerou suficiente para o propsito do
Planejamento
estudo submeter um determinado nmero de corpos de provas a
de experimentos
cada meio de tmpera e medir a dureza da liga metlica. A partir - terminologia
bsica
Reviso
A tmpera consiste essencialmente em aquecer uma pea de ao a uma certa
temperatura e, a seguir, resfri-la rapidamente em um banho, usualmente gua, leo
ou solues salinas. Seu objetivo , em geral, aumentar a dureza do ao e tornar
mais elevadas suas resistncias trao, compresso e ao desgaste
desses resultados calcular-se-ia a dureza mdia em cada um dos
diferentes tipos de banho. Aquele que apresentasse a maior dureza
mdia seria o mais adequado.

Entretanto, ao analisar o experimento com cautela, o engenheiro de


produo detectou vrias questes que deviam ser respondidas antes
do incio da coleta de dados: gua, leo e gua salgada so os nicos
banhos de interesse no processo de tmpera? H outros fatores que
possam afetar a dureza do ao e que devem ser pesquisados? Quantos
corpos de prova devem ser submetidos a cada banho de tmpera? De
que modo os corpos de prova devem ser alocados aos trs diferentes
banhos? Em que ordem os dados devem ser coletados? Qual mtodo de
anlise de dados deve ser utilizado? Qual diferena entre dureza mdia
ser considerada significativa do ponto de vista prtico?

Diante de todas essas questes, a equipe constatou a necessidade


de utilizar tcnicas estatsticas para planejamento do experimento,
a fim de assegurar a confiabilidade dos resultados do estudo. So
estas tcnicas que voc ir aprender nessa unidade.
ESTATSTICA E PROBABILIDADES

Clculo de
tamanho de
amostra baseado
em intervalos de
confiana para
uma proporo
Para alguns pesquisadores, a definio do tamanho da amostra
o nico cuidado necessrio para validade estatstica do estudo.
Como voc observou na introduo dessa unidade, existe uma srie
de cuidados que devem ser tomados ao conduzir experimentos em Se o objetivo do
engenharia, alm do tamanho da amostra. A comear pelo objetivo estudo comparar
resultados expressos
do estudo.
em forma de
porcentagens
Se o objetivo do estudo comparar resultados expressos em forma ou propores,
existe um mtodo
de porcentagens ou propores, existe um mtodo adequado para
adequado para o
o clculo do tamanho amostral. Se o objetivo comparar resultados clculo do tamanho
expressos em forma de mdias, existe outro mtodo adequado para amostral.
o clculo do tamanho amostral. Diversos outros fatores podem ser
considerados nestes clculos, alterando, assim, a adequao de
cada mtodo.

Neste tpico voc aprender a calcular o tamanho amostral para um


estudo que tem o interesse de estimar uma proporo populacional.
Os parmetros controlados so o nvel de confiana e a margem de
erro mxima desejados para o estudo. Vejamos um exemplo:

Exemplo 8

Uma empresa fabricante de motores deseja comprar correias do


fornecedor Borracho, pois o atual fornecedor tem apresentado

127
unidade 6
ESTATSTICA E PROBABILIDADES

um percentual elevado de peas defeituosas (no conformes).


Para estimar o percentual de correias no conformes produzidas
pelo fornecedor Borracho, a empresa fabricante de motores
deseja adquirir uma amostra que seja representativa. A equipe
de engenharia deseja que seja conduzido um estudo com 95% de
confiana e margem de erro mxima da estimativa de 2 pontos
percentuais, para mais ou para menos. Qual o tamanho de amostra
necessrio para esse estudo? A equao abaixo dever ser utilizada
para o clculo do tamanho amostral desejado:

Equao 1: Tamanho de amostra


exigido para estimativa de uma
proporo populacional Conhecendo
uma estimativa de p


(Z /2 )2 pq
n=
E2
Onde:

n: o tamanho da amostra calculado

z : escore z que separa uma rea de /2 na cauda direita da


2
distribuio normal padro

 uma estimativa da verdadeira proporo populacional.


p:

q : obtido por 1-p


E:  a margem de erro mxima aceitvel para o estudo.

Note que a equao acima exige que se tenha um


conhecimento prvio da verdadeira proporo populacional.
Esse pressuposto pode no ser satisfeito na prtica. Nesse
e a equao
caso, deve-se utilizar o valor 0,5 no lugar de p,
passa a ser:

128
unidade 6
ESTATSTICA E PROBABILIDADES

Equao 2: Tamanho de amostra


exigido para estimativa de uma
proporo populacional
Desconhecendo estimativa de p

(Z /2 )20,25
n=
E2

Para o exemplo das correias, a equipe utilizou a equao 2, uma vez



que no havia conhecimento sobre a estimativa de p.

1,962 x 0,25
n=
0,022

n = 2.401

Dessa forma, a equipe concluiu que para estimar a verdadeira


proporo de correias no conformes produzidas pelo fornecedor
Borracho, com 95% de confiana e uma preciso de 2%, ser
necessrio coletar uma amostra de 2.401 correias.

Note que, caso a equipe tivesse uma informao quanto ao


verdadeiro percentual de correias no conformes e desejasse
realizar um estudo apenas para confirmao da informao o
tamanho amostral, poderia ser significativamente menor. Suponha
que o fornecedor Borracho afirmasse que o percentual de
peas no conformes fosse de 5%. A equipe poderia utilizar essa
informao como uma estimativa de p e poderia ento utilizar a
equao 1:

1,962 x 0,05 x 0,95


n=
0,022

n = 456,19 457

Observe que o tamanho de amostra necessrio para confirmar a


afirmao do fornecedor de apenas 457 correias. Isso sempre

129
unidade 6
ESTATSTICA E PROBABILIDADES

acontecer, ou seja, o tamanho amostral resultante da equao 1


ser sempre menor que o resultante da equao 2, pois na primeira
j temos um conhecimento a priori do verdadeiro valor populacional
e desejamos apenas confirm-lo.

importante destacar que, para o clculo do tamanho amostral, o

resultado deve ser sempre arredondado para cima, independentemente

do valor decimal. Assim, no exemplo anterior, apesar de o clculo

exato resultar em 456,19 ainda assim arredondamos para 457 correias.

Isso ocorre porque o tamanho de amostra mnimo necessrio para

atender aos requisitos do nvel de confiana e margem de erro seria de

456,19 correias. Como no faz sentido amostrar 0,19 correia, devemos

selecionar uma pea a mais.


Para o clculo do
tamanho amostral,
Clculo de tamanho de amostra o resultado deve ser
sempre arredondado
baseado em intervalos de confiana para cima,
para uma proporo populao finita independentemente
do valor decimal.
No tpico anterior aprendemos a calcular o tamanho de
amostra para estimar uma proporo, mas observe que no foi
considerado o total de elementos na populao. Isso ocorre em
situaes em que a populao considerada infinita, ou seja, o
nmero de elementos da populao to grande que pode ser
considerado infinito. Em algumas situaes, no entanto, esse
pressuposto no minimamente razovel. Nessas situaes
precisamos utilizar um fator de correo para populao finita.
Utilizamos, ento, a equao 3:

130
unidade 6
ESTATSTICA E PROBABILIDADES

Equao 3: Tamanho de amostra


exigido para estimativa de uma
proporo populacional
Correo para populao finita

(z )2
N pq /2
n=
(z/ )2 + (N - 1) E 2
pq 2

Considere que desejamos estimar o percentual de peas defeituosas


em um lote de 100 peas. Qual o tamanho de amostra necessrio,
se queremos uma estimativa com 90% de confiana e margem de
erro mxima de 3%? Utilizando a equao 2 teramos o seguinte
resultado:

1,6452 x 0,25
n= = 752
0,032

Observe que o resultado da equao irreal, pois como poderamos


amostrar 457 peas em um lote de 100? Nessa situao devemos
utilizar a equao 3, que leva em considerao o tamanho do lote:

100 x 0,5 x 0,5 (1,645)2


n=
0,5 x 0,5 (1,645)2 + (100 - 1) 0,032

n = 89

O tamanho da amostra passa a ser ento 89 peas, o que real,


ou possvel, tendo em vista que o tamanho do lote de 100 peas.
Caso j existisse uma informao sobre o percentual de peas
defeituosas e fosse desejvel apenas confirmar a informao,
o tamanho amostral seria menor. Por exemplo, considere que
normalmente cerca de 5% das peas so defeituosas. Para
confirmar tal informao, seriam necessrias 60 peas na amostra.

100 x 0,05 x 0,95 (1,645)2


n=
0,05 x 0,95 (1,645)2 + (100 - 1) 0,032

n = 60

131
unidade 6
ESTATSTICA E PROBABILIDADES

Clculo de tamanho de
amostra baseado em
intervalos de confiana
para uma mdia
No incio dessa unidade falamos que o clculo do tamanho amostral
depende de vrios fatores, sendo o principal deles o objetivo do
estudo. Nesta seo voc aprender a calcular o tamanho amostral
para um estudo que tem o interesse de estimar uma mdia
populacional. Os parmetros controlados continuam sendo o nvel
de confiana e a margem de erro mxima desejados para o estudo.
Vejamos um exemplo:

Exemplo 9

Uma empresa fabricante de baterias automotivas desenvolveu


um novo produto e deseja estimar a sua vida mdia. De estudos
anteriores, sabe-se que a vida mdia das baterias produzidas
por esse fabricante segue uma distribuio normal, com desvio-
padro de seis meses. A equipe de engenharia do produto ressalta
a importncia da correta estimao da vida mdia da bateria, pois
a partir desta ser determinado o tempo de garantia. Por essa
razo, decidiu-se que o nvel de confiana do estudo ser de 99%
e a margem de erro mxima aceitvel para a estimativa de trs
meses. Utilizando a equao abaixo, a equipe poder determinar o
tamanho amostral necessrio para atender s exigncias do estudo.

Equao 4: Tamanho de amostra exigido para estimativa de uma


mdia populacional

z/2 .
n=
E

132
unidade 6
ESTATSTICA E PROBABILIDADES

Onde:

n: o tamanho da amostra

z/2: escore z que separa uma rea de /2 na cauda direita da


distribuio normal padro

: o desvio-padro populacional

E:  a margem de erro mxima aceitvel para a estimativa.

Utilizando a equao 4, a equipe determinou que para estimar a


vida mdia da nova bateria desenvolvida, com 99% de confiana na
estimativa e margem de erro mxima de trs meses, ser necessria
uma amostra de 27 baterias.

n=
{ 2,5753 x 6 } 2 Devemos sempre
arredondar o
resultado para cima.
n = 26,5 27

Ao calcular tamanho de amostra para estimativa de uma mdia


populacional, continua valendo aquela regra de arredondamento
apresentada no tpico anterior, ou seja, devemos sempre arredondar
o resultado para cima.

Voc deve ter observado no exemplo 9 que j dispnhamos de


uma estimativa a priori do desvio-padro populacional (), ou seja,
a equipe utilizou o desvio-padro das outras baterias. Em muitas
situaes prticas, o desvio-padro populacional no conhecido e
nesses casos pode-se utilizar uma das seguintes alternativas:

1. Utilizao da regra emprica da amplitude para estimao


Amplitude
do desvio-padro: . Para aplicao dessa
alternativa, necessrio coletar uma amostra piloto
de aproximadamente 87 observaes. Para maior

133
unidade 6
ESTATSTICA E PROBABILIDADES

esclarecimento sobre essa regra, consulte Triolla (2013),


seo 3-3.

2. Comece o processo de coleta sem o conhecimento de


e, como base nos primeiros resultados, obtenha o desvio-
padro amostral s. Use essa estimativa em lugar de .

3. Utilize o valor de estimado por outros estudos realizados


anteriormente.

Clculo de tamanho de amostra


baseado em intervalos de confiana
para uma mdia populao finita

Nos tpicos anteriores apresentamos uma frmula alternativa para


o clculo do tamanho amostral para estimativa de uma proporo
populacional, no caso de populaes finitas. Da mesma forma,
para calcular o tamanho amostral para estimativa de uma mdia
populacional, no caso de populaes finitas, existe tambm um
fator de correo. A equao abaixo apresenta o mtodo correto
para essas situaes:

Equao 5: Tamanho de amostra


exigido para estimativa de uma mdia populacional
populao finita

N(z /2 )2
n=
(N - 1)E 2 + (Z/2 )2

Exemplo 10

Suponha que o exrcito brasileiro deseje encomendar uma remessa


de uniformes para os novos recrutas. Para melhor adequao dos
tamanhos dos uniformes, o sargento decidiu obter uma estimativa
da altura mdia deles. Dos 100 novos recrutas, o sargento deseja

134
unidade 6
ESTATSTICA E PROBABILIDADES

obter a estimativa a partir de uma amostra com 95% de confiana


e margem de erro mxima de cinco centmetros. Sabendo que nos
anos anteriores o desvio-padro da altura dos recrutas era de 30
centmetros, o sargento utilizou a equao 4 para determinar o
tamanho da amostra necessria, encontrando o valor 139 (maior
que o total de novos recrutas):

n=
[ 1,965 x 30 ]2

n = 139

Sem entender o que havia feito de errado, o sargento decidiu


O planejamento
conversar com um soldado que tinha conhecimento de estatstica de experimentos,
para auxili-lo. O soldado informou ento que, neste caso, o tambm conhecido
sargento deveria utilizar a equao 5, que leva em considerao o como DOE (Design
of Experiments),
tamanho populacional. Utilizando o mtodo adequado, o sargento
um conjunto de
decidiu, portanto, que para estimar a altura mdia dos 100 novos tcnicas estatsticas
recrutas, com 95% de confiana e margem de erro mxima da que visa garantir
uma coleta de
estimativa de cinco cm, era necessria uma amostra de 59 recrutas:
dados eficiente
para uma anlise
n=
100 x 302 x (1,96)2 de dados que
(100 - 1) x 52 + (30 x 1,96)2 seja informativa e
confivel.
n = 58,3 59

Planejamento de
experimentos
O planejamento de experimentos, tambm conhecido como
DOE (Design of Experiments), um conjunto de tcnicas
estatsticas que visa garantir uma coleta de dados eficiente
para uma anlise de dados que seja informativa e confivel.
Esse conjunto de tcnicas tem vasta utilizao em diversas

135
unidade 6
ESTATSTICA E PROBABILIDADES

reas do conhecimento, desde cincias ligadas sade at as


engenharias. Em engenharia, especialmente, o DOE utilizado
principalmente em Pesquisa e Desenvolvimento, ou na rea de
qualidade e desenvolvimento do produto.

O propsito dos experimentos planejados, estatisticamente,


tornar a anlise de dados to informativa quanto possvel.
Experimentos que tenham sido mal planejados fornecem pouca
ou nenhuma informao til, mesmo com sofisticadas tcnicas
de anlise de dados, e podem levar, inclusive, concluses
completamente equivocadas.

Em engenharia, o DOE utilizado em conjunto com outras tcnicas O objetivo do DOE


estatsticas, como as cartas de controle de processos, por identificar quais
so os fatores
exemplo, ou combinado ao ciclo PDCA. Nesses casos o objetivo
que atuam sobre
, normalmente, estudar os efeitos de possveis fatores sobre o o processo, quais
resultado de um processo, expresso como uma caracterstica desses fatores
da qualidade do produto (ou processo). O planejamento de
so controlveis
e, dentre os
experimentos pode ser definido assim: controlveis, qual
a relao que tm
Um experimento um procedimento no qual alteraes propositais com o resultado
so feitas nas variveis de entrada de um processo ou sistema, do processo ou
de modo que se possa avaliar as possveis alteraes sofridas a caracterstica
pela varivel resposta como tambm as razes destas alteraes de qualidade de
(WERKEMA & AGUIAR, 1996). interesse.

Todo processo ou sistema impactado pelos insumos e por um


conjunto de fatores. O objetivo do DOE identificar quais so os
fatores que atuam sobre o processo, quais desses fatores so
controlveis e, dentre os controlveis, qual a relao que tm
com o resultado do processo ou a caracterstica de qualidade
de interesse. A figura abaixo ilustra essa situao, podem estar
aturando sobre o sistema os insumos, os equipamentos, as
informaes do processo, as condies ambientais, as pessoas,
os mtodos e os procedimentos:

136
unidade 6
ESTATSTICA E PROBABILIDADES

FIGURA 33 - Modelo geral de um processo ou sistema


Fatores de rudo
(no controlveis)

Y
SISTEMA Varaveis resposta
Entradas (Caractersticas de
(PRODUTO/PROCESSO
Qualidade)

Fatores controlveis
(especificados pelo pesquisador)

Fonte: WERKEMA & AGUIAR, p.15, 2006. Adaptado.

Considere uma situao em que se deseja estudar a resistncia


compresso de um concreto. O engenheiro civil identificou que
existem quatro tipos de tcnicas de mistura desse concreto e ele
acredita que a resistncia compresso resultante varia conforme
a tcnica de mistura utilizada. O objetivo do engenheiro determinar
qual a tcnica produzir o concreto com maior resistncia.

Com esse objetivo, decidiu produzir uma srie de corpos de prova,


utilizando cada uma das quatro tcnicas e medindo a resistncia
compresso desses concretos. A resistncia mdia seria utilizada
para determinar qual seria a melhor tcnica de mistura.

Analisando o experimento com mais cautela, o engenheiro


detectou vrias questes que deveriam ser respondidas antes do
incio da coleta de dados: existem apenas essas quatro tcnicas
de mistura ou existem outras? Por que foram escolhidas estas
quatro tcnicas? Existem outros fatores que possam afetar a
resistncia compresso do concreto? Quantos corpos de prova
devem ser produzidos com cada tcnica? De que modo os corpos
de prova devem ser alocados s diferentes tcnicas de mistura?
Qual mtodo de anlise de dados deve ser utilizado? Qual
resistncia compresso dever ser considerada significativa do
ponto de vista prtico?

137
unidade 6
ESTATSTICA E PROBABILIDADES

Em todo experimento, a forma de coleta dos dados fundamental


para interpretao dos resultados e, consequentemente, para
confiabilidade do estudo. Suponha que nesse estudo sobre a
resistncia compresso do concreto tenham sido utilizados quatro
sacos de cimento, provenientes de quatro fornecedores distintos,
sendo alocados da seguinte maneira:

-- Tcnica de mistura 1 cimento do fornecedor A

-- Tcnica de mistura 2 cimento do fornecedor B

-- Tcnica de mistura 3 cimento do fornecedor C

-- Tcnica de mistura 4 cimento do fornecedor D

Voc concorda com esse procedimento? Ao adot-lo, o engenheiro


assumiu que as caractersticas do cimento dos diferentes
fornecedores so idnticas, ou que qualquer diferena entre os
As rplicas so
cimentos no exerceria influncia sobre a resistncia compresso
repeties do
dos corpos de prova. Entretanto, no podemos tomar essa conduta, experimento
pois bem provvel que existam caractersticas especficas de cada feitas sob as
mesmas condies
fornecedor que poderiam impactar na resistncia compresso
experimentais.
dos corpos de prova.

Da maneira como o estudo foi conduzido pelo engenheiro, quando


forem obtidas as resistncias compresso mdias de cada
tcnica ele no ser capaz de dizer quanto da diferena observada
resultado da tcnica de mistura utilizada e quanto resultado das
diferenas inerentes aos quatro tipos de cimento utilizados. Nesse
caso, dizemos que o efeito da tcnica de mistura foi confundido com
o efeito do tipo de cimento. Vamos apresentar agora trs princpios
bsicos do planejamento de experimentos que devem ser sempre
utilizados. Estes princpios so: rplica, aleatorizao e blocagem.

As rplicas so repeties do experimento feitas sob as mesmas


condies experimentais. No exemplo que estamos considerando,
uma rplica do experimento completo consiste em medir a
resistncia compresso de um corpo de prova produzido pela

138
unidade 6
ESTATSTICA E PROBABILIDADES

tcnica de mistura 1, outro pela tcnica 2, outro pela tcnica 3


e outro pela tcnica 4. Se trs corpos de prova foram produzidos
para cada tcnica, dizemos que foram produzidas trs rplicas do
experimento (veja que teremos 3 x 4 = 12 corpos de prova, mas
apenas trs rplicas).

muito importante que as rplicas sejam produzidas sob as


mesmas condies experimentais. Isso significa que todos os
demais fatores que possam exercer impacto sobre a caracterstica
resultante de interesse devem ser mantidos constantes.

O segundo princpio bsico do DOE a aleatorizao. De acordo


com esse princpio, so definidos de maneira aleatria tanto a
ordem de realizao dos ensaios individuais do experimento,
quanto a alocao de cada corpo de prova s respectivas condies
experimentais. Esse princpio garante que o efeito dos fatores no
controlveis sejam distribudos igualmente ao longo de todos os Chamamos de
ensaios, evitando assim que haja confuso do efeito desses fatores
blocos os conjuntos
homogneos
com o efeito dos fatores de interesse. de unidades
experimentais.
No exemplo citado, suponha que os corpos de prova sero
produzidos por operadores distintos e, como se sabe, a habilidade
dos operadores pode influenciar a qualidade do concreto produzido.
Logo, se todas as amostras produzidas atravs da tcnica de mistura
1 forem feitas pelo operador menos experiente, poderemos estar
continuamente colocando a tcnica de mistura 1 em desvantagem,
em relao s outras tcnicas de mistura. A distribuio aleatria
da ordem de produo de cada corpo de prova para cada operador
atenuaria esse problema.

O terceiro e ltimo princpio bsico o princpio da blocagem.


Chamamos de blocos os conjuntos homogneos de unidades
experimentais. No exemplo considerado, os corpos de prova so
produzidos com cimento de fornecedores distintos. Logo so
bastante heterogneos em relao a outros fatores alm da tcnica
de mistura.

139
unidade 6
ESTATSTICA E PROBABILIDADES

Para resolver esse problema, podemos realizar o experimento


da seguinte maneira: Cada pacote de cimento ser utilizado para
produzir um corpo de prova para cada tcnica de mistura. Nesse
caso, cada bloco um pacote de cimento (fornecedor) que ser
utilizado para produzir quatro corpos de prova. A figura 34 ilustra
como ficaria o experimento. Cada retngulo vertical (azul claro)
considerado um bloco enquanto cada retngulo horizontal (azul
escuro) um corpo de prova produzido por uma das quatro tcnicas
de mistura. Logo, para o cimento proveniente do fornecedor A, por
exemplo, sero produzidos quatro corpos de prova, um para cada
tcnica de mistura. Este procedimento mais adequado que aquele
proposto pelo engenheiro no incio da seo, em que cada pacote
de cimento seria utilizado para produo de quatro corpos de prova,
utilizando uma nica tcnica de mistura.

FIGURA 34 - Blocagem dos cimentos para cada tipo de tcnica de mistura do concreto

FORNECEDOR A FORNECEDOR B FORNECEDOR C FORNECEDOR D

Tc. 1 Tc. 1 Tc. 1 Tc. 1

Tc. 2 Tc. 2 Tc. 2 Tc. 2

Tc. 3 Tc. 3 Tc. 3 Tc. 3

Tc. 4 Tc. 4 Tc. 4 Tc. 4

Fonte: Elaborado pelo autor

Planejamento de
experimentos -
terminologia bsica
Agora que voc j aprendeu quais so os princpios bsicos do DOE,
vamos aprender alguns termos comuns e muito teis para o bom
planejamento do experimento. Sero apresentados seis termos
bsicos, a saber: Unidade Experimental, Fatores, Nveis de um
Fator, Tratamento, Ensaio e Varivel Resposta (ou desfecho). Para

140
unidade 6
ESTATSTICA E PROBABILIDADES

melhor entendimento, vamos utilizar o exemplo sobre resistncia


compresso do concreto, do tpico anterior, e definir cada termo.

A Unidade Experimental a unidade bsica para a qual ser feita a


medida da resposta. No nosso exemplo, cada unidade experimental
corresponde a um corpo de prova do concreto utilizado no estudo.

Os Fatores so os tipos distintos de condies que so manipuladas as


unidades experimentais. Ou seja, so as variveis controlveis que podem
exercer influncia sobre a varivel resposta. E desejamos conhecer essa
influncia. No exemplo citado temos um nico fator: tcnica de mistura.

Os Nveis de um fator so os diferentes modos de presena de


um fator no estudo considerado. No exemplo citado, os nveis do
fator tcnica de mistura so os diferentes tipos de tcnica: Tcnica
1, Tcnica 2, Tcnica 3 e Tcnica 4. Podemos dizer, portanto, que
Os Nveis de
nosso fator tem quatro nveis.
um fator so os
diferentes modos
Chamamos de Tratamento as combinaes especficas dos nveis de presena de um
fator no estudo
de diferentes fatores. Quanto temos apenas um fator, como no
considerado.
nosso exemplo, os tratamentos so os prprios nveis dos fatores,
Tratamento 1 = Tcnica 1, Tratamento 2 = Tcnica 2, Tratamento 3
= Tcnica 3 e Tratamento 4 = Tcnica 4.

Em alguns estudos podemos desejar estudar dois ou mais fatores com


diferentes nveis. Nesses casos, os tratamentos seriam a combinao
de cada nvel do fator 1 com cada um dos diferentes nveis do fator 2.
Suponha que um engenheiro deseja estudar o efeito de dois mtodos
de pintura de para-choques de automveis (imerso e asperso) e de
trs tipos de tinta (A, B e C) sobre a fora de adeso da tinta.

Aqui, o fator 1 seria o mtodo de pintura, que tem dois nveis


(Imerso e Asperso) e o fator 2 seria o tipo de tinta, que tem trs
nveis (A, B e C). Para esse estudo, teramos 2x3=6 tratamentos, a
saber: T1 = Imerso + Tinta A, Imerso + Tinta B, Imerso + Tinta C,
Asperso + Tinta A, Asperso + Tinta B e por fim, Asperso + Tinta

141
unidade 6
ESTATSTICA E PROBABILIDADES

C. Observe que a unidade experimental seria cada um dos para-


choques sobre os quais aplicaramos os distintos tratamentos.

Definimos como Ensaio cada realizao do experimento em uma


determinada condio de interesse (tratamento), ou seja, ao aplicar
um tratamento a uma unidade experimental, realizamos um ensaio.
No nosso exemplo sobre a resistncia compresso do concreto,
cada ensaio consiste em produzir um corpo de prova utilizando
determinada tcnica de mistura do concreto.

No exemplo sobre os mtodos de pintura de para-choques


automotivos, um ensaio seria aplicar um tratamento em uma
unidade experimental (para-choque), por exemplo, pintar um para-
choque por Imerso usando tinta A.

Por fim, o termo Varivel Resposta, voc j conheceu nas unidades


anteriores, nada mais que o resultado de interesse registrado aps
a realizao de um ensaio. No exemplo sobre as tcnicas de mistura
do concreto, a varivel resposta a resistncia compresso do corpo
de prova produzido com cada uma das tcnicas de mistura. J no
exemplo sobre os mtodos de pintura de para-choques automotivos,
a varivel resposta fora de adeso da tinta sobre o para-choque,
medida aps a aplicao da tinta com cada mtodo de aplicao e tipo
de tinta.

Considere que voc tenha uma mquina de secar roupas que trabalha

com diferentes nveis de temperatura e deseja determinar o efeito do nvel

de temperatura sobre o tempo de secagem das roupas.

a. Defina para essa situao cada um dos seis termos bsicos.

b. O que seria uma rplica nesse estudo?

c. Descreva um vis de amostragem que poderia ser resolvido pela

aleatorizao.

142
unidade 6
ESTATSTICA E PROBABILIDADES

d. Descreva um vis de amostragem que poderia ser resolvido pela

blocagem.

SOLUO:

a. Unidade Experimental: Cada trouxa de roupa molhada que ser

introduzida para secagem.

Fator: O fator, nesse caso, a temperatura de operao da mquina

de lavar.

Nveis do fator: Os nveis do fator so as diferentes faixas de

temperatura da secadora, podendo ser Baixo, Mdio e Alto, por

exemplo.

Tratamento: Como estamos trabalhando com um nico fator, os

nveis do fator so o prprio tratamento, logo, T1=baixo, T2=mdio

e T3 = Alto.

Ensaio: Um ensaio seria secar uma trouxa de roupa utilizando

temperatura baixa, por exemplo. Outro ensaio seria secar outra

trouxa de roupa utilizando temperatura alta.

Varivel resposta: A varivel resposta desse estudo o tempo

para secagem das roupas, que pode ser medido em minutos, por

exemplo.

b. Para este estudo, uma rplica seria secar umas trs trouxas de

roupa, sendo uma para cada nvel de temperatura da secadora, ou

seja, um ensaio para cada um dos tratamentos existentes.

c. A temperatura ambiente poderia ser um fator, de maneira que, caso

realizssemos todos os ensaios com tratamento 1 (temperatura

baixa) no perodo manh (normalmente mais frio) e todos os

ensaios com tratamento 3 (temperatura alta) no perodo da tarde

(normalmente mais quente), por exemplo, no final no saberamos

dizer quanto da diferena no tempo de secagem devido aos

diferentes nveis de temperatura da mquina, e quanto devido

variao da temperatura ambiente. Aleatorizando a ordem de

realizao dos ensaios atenuaramos esse problema.

143
unidade 6
ESTATSTICA E PROBABILIDADES

d. Diferentes tipos de roupa poderiam ser um problema, uma vez

que roupas com malhas mais grossas levam um tempo maior

para secar do que outras. Devem-se agrupar as roupas por

caractersticas semelhantes de fabricao, como leveza do pano,

tamanho das peas. A quantidade das mesmas tambm deve

ser controlada para que cada ensaio seja feito de forma mais

homognea possvel. Por exemplo, se tiver disponvel trs peas de

moletom, deve-se alocar uma a cada trouxa de roupas, ou se tiver

seis peas jeans, deve-se alocar duas para cada trouxa de roupas.

Reviso
Nesta unidade voc aprendeu que, para calcular o tamanho
amostral, diversos fatores devem ser levados em considerao.
Em especial voc aprendeu a calcular o tamanho amostral em
quatro situaes: quando o objetivo do estudo a estimativa de
uma proporo populacional, sendo o tamanho populacional finito
ou infinito. E quando o objetivo do estudo a estimativa de uma
mdia populacional, novamente, sendo o tamanho populacional
finito ou infinito. O quadro abaixo resume essas situaes:

QUADRO 4 - Equaes para clculo de tamanho amostral segundo objetivos do estudo

Estimar uma proporo populacional Estimar uma mdia populacional

Populao Infinita: Equao 1 Populao Infinita: Equao 3



E2

Populao Finita: Equao 2 Populao Finita: Equao 4



(Z/ )2 + (N - 1) E2
pq 2

Fonte: Elaborado pelo autor.

144
unidade 6
ESTATSTICA E PROBABILIDADES

Voc aprendeu tambm que em qualquer rea do conhecimento a


coleta de dados deve ser sempre precedida pelo planejamento do
experimento. Essa prtica assegura a confiabilidade dos resultados
e simplifica os mtodos de anlise. Por outro lado, a no observncia
dessa prtica inviabiliza a utilizao dos resultados a despeito de
qualquer tcnica estatstica, por mais sofisticada que seja.

Neste sentido, os princpios bsicos que voc aprendeu foram:


rplica, aleatorizao e blocagem. E tambm os seis termos bsicos
utilizados em qualquer planejamento de experimentos, a saber:
Unidade Experimental, Fatores, Nveis de um fator, Tratamento,
Ensaio e Varivel Resposta.

Se voc tem interesse em aprender mais sobre o clculo do tamanho de

amostra para estimao de mdias ou propores, levando em considerao

o nvel de confiana e margem de erro da estimativa, leia o captulo 8 do livro:

MONTGMOMERY, Douglas C. George C. Runger. Estatstica aplicada e

probabilidade para engenheiros. trad e rev tc Vernica Calado - Rio de

Janeiro: LTC, 2009.

Para este assunto voc pode ler tambm o captulo 7 do livro:

TRIOLLA, Mario F. Introduo Estatstica: Atualizao da tecnologia. trad

e rev tc Ana Maria Lima de Farias, Vera Regina Lima de Farias e Flores.

Rio de Janeiro: LTC, 2013.

Se voc tem interesse em aprofundar sobre Planejamento de Experimentos,

leia o captulo 13 do livro:

MONTGMOMERY, Douglas C. George C. Runger. Estatstica aplicada e

probabilidade para engenheiros. trad e rev tc Vernica Calado. Rio de

Janeiro: LTC, 2009.

145
unidade 6
ESTATSTICA E PROBABILIDADES

Ou voc pode ler o captulo 1 do livro:

WERKEMA, Maria Cristina Catarino; AGUIAR, Silvio. Planejamento e anlise

de experimentos: Como Identificar as principais variveis influentes em um

processo. Belo Horizonte: Fundao Cristiano Ottoni, Escola de Engenharia

da UFMG, 1996.

146
unidade 6
Testes de
Hipteses
Introduo

O teste de hipteses uma tcnica estatstica utilizada para avaliar


alguma afirmao feita sobre uma populao de interesse atravs
de dados amostrais. Por exemplo: um engenheiro pode estar
interessado em avaliar a hiptese de que o tempo de durao de
um fusvel seja de 1.000 horas, contra a hiptese de que tal valor
seja diferente de 1.000 horas. Essa seria uma afirmao sobre uma
mdia, uma vez que a varivel de interesse tempo de durao
quantitativa. Nesse caso, o objetivo testar se a hipottica mdia
de 1.000 horas verdadeira.

No exemplo em questo, seria impraticvel observar o tempo de A construo


e o significado
durao de todos os fusveis fabricados, ou seja, da populao de uma hiptese
de interesse. De forma que necessria a utilizao de dados estatstica
amostrais. O engenheiro poderia selecionar alguns fusveis, calcular Testes para uma
o valor da mdia e comparar com o valor proposto de 1.000 horas. amostra
Testes para
Voc ir aprender que, alm de avaliar afirmaes sobre mdias,
duas ou mais
amostras
as hipteses estatsticas tambm podem ser testadas para outros
Reviso
parmetros de interesse, como propores (em caso de variveis
categricas), desvio-padro, medianas, etc.
ESTATSTICA E PROBABILIDADES

A construo e
o significado de
uma hiptese
estatstica
Uma hiptese estatstica pode ser construda a partir de alguma teoria
sobre determinado assunto, ou atravs de alguma afirmao sobre
certo parmetro da populao em anlise. No caso do engenheiro
interessado em testar se o tempo mdio de durao de um fusvel
1.000 horas, a hiptese no se deu atravs de uma teoria, mas
possivelmente em funo da experincia dele com o assunto.

Um teste estatstico tem como objetivo o fornecimento de


evidncias para subsidiar a deciso de rejeitar ou no rejeitar uma
hiptese sobre algum parmetro de uma populao atravs de Damos o nome de
hiptese alternativa
dados obtidos por uma amostra.
afirmao contrria
da hiptese nula.
A afirmao sobre a mdia populacional tida como a hiptese
nula. Damos o nome de hiptese alternativa afirmao contrria
da hiptese nula.

Hiptese nula: Refere-se a uma afirmao do que queremos provar sobre

algum parmetro. Geralmente representada por H0.

Hiptese alternativa: Refere-se a uma afirmao contrria ao que

queremos provar. Geralmente representada por H1 ou Ha.

Exemplo 11

Um fabricante afirma que o tempo mdio de secagem da tinta de


sua marca de 30 minutos. Uma pessoa decide testar se essa

149
unidade 7
ESTATSTICA E PROBABILIDADES

afirmao verdadeira. Para isso, marca o tempo de secagem de


40 paredes e depois calcula a mdia. Quais seriam as hipteses
nula e alternativa?

SOLUO:

A hiptese nula o tempo de secagem, igual a 30 minutos.

A hiptese alternativa o contrrio (ou o complemento): o tempo de


secagem diferente de 30 minutos. As hipteses so representadas
da seguinte forma:

H0: = 30 minutos

H1: 30 minutos

Nvel de
Alm da definio acerca das hipteses, o nvel de significncia significncia:
tambm deve ser escolhido pelo analista.
Consiste na
probabilidade de
rejeitar a hiptese
nula, dado que ela
verdadeira.

Nvel de significncia: Consiste na probabilidade de rejeitar a hiptese

nula, dado que ela verdadeira. Geralmente representado pela letra grega

alfa (). O nvel de significncia tambm conhecido como erro tipo I.

Qual seria o significado da expresso ... rejeitar a hiptese nula,


dado que ela verdadeira? Assim como no exemplo do tempo de
durao do fusvel, em que o analista resolve testar se a afirmao
de que o fusvel sobrevive por 1.000 horas, a operacionalizao
do teste ocorre a partir de dados amostrais. Nesse caso, pode ser
obtida uma amostra muito ou pouco parecida com a populao.
Tanto no primeiro como no segundo caso existem probabilidades
associadas. Existem chances de coletar uma amostra que d
evidncias de que a hiptese seja rejeitada, mesmo quando, na
verdade, a hiptese seja verdadeira. O analista sempre corre o risco

150
unidade 7
ESTATSTICA E PROBABILIDADES

de tomar uma deciso equivocada no que se refere rejeio ou no


da hiptese nula, cabendo a ele escolher quanto risco aceita correr.
Esse risco conhecido como nvel de significncia e geralmente
estipulado em 10%, 5% ou 1%. Dessa forma, ao efetuar um teste de
hipteses com 5% de significncia, podemos afirmar que exista 5%
de probabilidade de rejeitar a hiptese nula, quando na verdade ela
verdadeira, ou seja, 5% de chance de cometer o erro tipo I.

Os testes de hiptese com afirmaes sobre mdias ou propores


podem ser feitos principalmente com uma ou duas amostras. No
primeiro caso testada uma afirmao sobre o valor que a varivel
assume. No segundo caso so comparados os valores de mdia
ou proporo entre dois grupos. Alm disso, podemos fazer testes
unilaterais ou bilaterais. O prximo tpico aborda o teste bilateral
Se o tamanho da
com uma amostra.
amostra for pequeno
(menor do que 30)
e o desvio-padro
for desconhecido,
Testes para a distribuio da
estatstica de teste
uma amostra apresenta formato
mais prximo da
distribuio t de
A distribuio da estatstica de teste tende para o formato de uma Student.
distribuio normal quando o tamanho da amostra relativamente
grande (geralmente maior ou igual a 30). Se o tamanho da amostra
for pequeno (menor do que 30) e o desvio-padro for desconhecido,
a distribuio da estatstica de teste apresenta formato mais
prximo da distribuio t de Student. Essa informao importante
porque definir at que valor da estatstica de teste a hiptese deve
ser rejeitada.

Testes de grandes amostras para uma mdia populacional

O exemplo a seguir consiste numa situao em que feita uma


afirmao acerca do valor de uma mdia (parmetro mais testado
quando trabalhamos com variveis quantitativas).

151
unidade 7
ESTATSTICA E PROBABILIDADES

Exemplo 12

Uma indstria realiza o empacotamento do produto caf em


gros. Um dos objetivos que a embalagem contenha 500
gramas de caf. natural que em situaes como essa exista
alguma variao no peso do produto empacotado. Dessa forma,
podem ter pacotes com 498 gramas, com 502 gramas, com 501
gramas, com 499 gramas, ou qualquer outro valor prximo do
especificado. No entanto, a indstria geralmente trabalha para
que exista certa margem de aceitao tanto para cima quanto
para baixo, devido aos seguintes fatores:

pacotes com volume muito alto podem provocar aumento


exagerado de custos;

pacotes com peso muito abaixo dos 500 gramas


podem provocar sanes indstria junto aos rgos
de fiscalizao.

Para certificar de que o peso esteja dentro da margem aceitvel,


pode ser invivel verificar todos os produtos embalados (ou
seja, toda a populao de interesse). Nesse contexto, torna-
se interessante utilizar amostras para testar se o processo
encontra-se dentro de padres aceitveis, ou seja, para testar
se o processo encontra-se sobre controle.

Suponha que um profissional especializado em controle


estatstico de processos resolva fazer esse teste. Nesse
caso, o objetivo testar a hiptese de que o processo
esteja sob controle, ou seja, que o peso mdio do caf aps
empacotamento seja de 500 gramas. Para a operacionalizao
do teste, 36 pacotes foram inspecionados (pesados). Sabendo
que a mdia obtida atravs dessa amostra foi de 502 gramas,
e que o desvio-padro foi de 3 gramas, podemos afirmar que o
processo est sob controle?

Para operacionalizar esse teste, devemos seguir as seguintes etapas:

152
unidade 7
ESTATSTICA E PROBABILIDADES

1 e
 tapa: Estabelea as hipteses de interesse

No caso em estudo, o parmetro2 a ser testado a mdia. Temos o


interesse em verificar se ela igual a 500 gramas. Ento devemos
estabelecer as hipteses nula e alternativa. Dessa forma, as
hipteses so:

H0: = 500 gramas

H1: 500 gramas

Note que o teste refere-se mdia populacional e no amostral.


A mdia amostral ser utilizada como base para tomar a deciso
sobre rejeio ou no rejeio da hiptese nula. Os parmetros mais
frequentemente
2 etapa: Obteno da estatstica de teste investigados
atravs dos testes
de hipteses
O valor mdio obtido pela amostra foi: = 502 gramas. Ser que so: a mdia, o
esse valor foi obtido em funo da variabilidade amostral3 , ou desvio-padro, no
caso de variveis
seja, o valor obtido de 502 gramas prximo do valor proposto
quantitativas e
de = 500 gramas? Para respondermos a essa questo devemos a proporo, no
verificar qual a probabilidade de obter o valor 502 gramas, caso de variveis
levando em considerao a distribuio das mdias amostrais, categricas.)
ou seja, a possibilidade de obteno de resultados diferentes
de amostra para amostra. Para isso, utilizamos a distribuio
normal padronizada quando o valor de conhecido ou quando
o tamanho da amostra razoavelmente grande (geralmente
igual ou acima de 30). Quando a amostra pequena (geralmente
menor do que 30) e o desvio-padro desconhecido, utilizamos

2-U
 m parmetro refere-se determinada medida que caracterize a populao de
interesse. Os parmetros mais frequentemente investigados atravs dos testes
de hipteses so: a mdia, o desvio-padro, no caso de variveis quantitativas e a
proporo, no caso de variveis categricas.)
3-A
 variabilidade amostral ocorre porque existem chances de tomarmos tanto
amostras parecidas com a populao de interesse quanto amostras pouco
semelhantes populao. Qualquer processo de amostragem sujeita-se a essa
situao. Cabe ao pesquisador levar esse fato em considerao ao construir um
teste de hipteses

153
unidade 7
ESTATSTICA E PROBABILIDADES

a distribuio t para avaliar a probabilidade em questo. Como


no presente exemplo temos uma amostra de tamanho igual a
36, podemos trabalhar com a distribuio normal padronizada.
Nomeamos o valor obtido da estatstica de teste, que calculada
de acordo com a frmula abaixo:

-
Z=
x

Essa frmula permite que a mdia amostral obtida passe de


qualquer escala (em gramas, no presente exemplo) para nmero
de desvio-padro. Isso possibilita traar comparaes com os
valores de probabilidade da distribuio normal padronizada (em
que a unidade de medida a quantidade de desvio-padro). Sem
esse procedimento, essa comparao seria pouco vivel. A frmula
composta dos seguintes itens:

Z: Escore da distribuio normal padronizada

: Mdia obtida atravs da amostra

: Valor da mdia populacional a ser testada

x: Valor do desvio-padro da distribuio das mdias amostrais.


x = n

Caso no se conhea o desvio-padro populacional (situao


muito comum), podemos utilizar o desvio-padro obtido atravs
da amostra:

s
s = n
x

Dessa forma, a estatstica de teste passa a ser:

-
Z = s/n

154
unidade 7
ESTATSTICA E PROBABILIDADES

Com os dados do problema, temos ento:

502 - 500
Z= = 4,0
3/36

O nmero obtido significa que 502 gramas encontram-se a 4,0


desvios-padro de distncia da mdia populacional de 500 gramas.
Mas esse valor perto ou longe da mdia populacional?

Quando Z = 0, pode-se afirmar que a mdia amostral


exatamente igual ao valor hipottico da mdia populacional.

Quando Z = 1, a probabilidade do valor da mdia


amostral ter sido obtido devido flutuao amostral de
aproximadamente 34%, pois 68% dos dados encontram-se
a at um desvio-padro de distncia da mdia, conforme
a figura 35.

FIGURA 35 - rea da distribuio normal padronizada


de acordo com o nmero de desvios-padro.

Fonte: TRIOLA, 2013, p. 88.

Quando Z = 2, a probabilidade do valor da mdia


amostral ter sido obtido devido flutuao amostral de

155
unidade 7
ESTATSTICA E PROBABILIDADES

aproximadamente 5%, pois 95% dos dados encontram-se a


at um desvio-padro de distncia da mdia4.

Quando Z = 3, a probabilidade do valor da mdia


amostral ter sido obtido devido flutuao amostral de
aproximadamente 0,2%, pois 99,8% dos dados encontram-
se a at um desvio-padro de distncia da mdia.

Utilizando o mesmo raciocnio, com o valor de Z = 4,0, depreende-


se que a probabilidade do valor da mdia amostral ter sido obtida
devido flutuao amostral seja bem menor que 0,2%. Dessa forma,
o valor de Z = 4 significa que os 502 gramas obtidos pela amostra
apresentam uma grande distncia dos 500 gramas propostos na
hiptese nula (a distncia de 2 gramas corresponde a 4 desvios-
padro). O fato dos valores serem tidos como distantes implica na
rejeio da hiptese nula. Para definir quais valores do escore Z
so considerados altos, utiliza-se o desenho da distribuio normal
padronizada, conforme o 3 passo.

Os valores acima podem ser obtidos atravs de um software


estatstico, ou pela tabela Z.

3 etapa: Obteno da regio de rejeio

Para tomar a deciso de rejeitar ou no a hiptese nula, podemos


utilizar o diagrama da figura 36:

4-O
 bserve pela Figura 35 que 34% + 13,5% = 47,5%. Ao multiplicarmos esse valor
por dois, obtemos os 95%.

156
unidade 7
ESTATSTICA E PROBABILIDADES

FIGURA 36 - Regies de rejeio da hiptese nula

Fonte: Elaborado pelo autor.

A figura 36 representa a distribuio normal padronizada. A rea em


vermelho refere-se regio de rejeio da hiptese nula. Valores
menores que - 1,96 desvios-padro ou maiores que + 1,96 desvios-
padro so considerados demasiadamente afastados quando
consideramos uma significncia de 5% para o teste bilateral (ou
seja, podemos considerar que tais valores sejam pontos de corte).
Dessa forma, cada uma das reas em vermelho representa 2,5%
dos dados. A rea total abaixo dos dados (soma da rea verde com
a rea vermelha) representa 100% dos dados.

Quando o valor da estatstica de teste encontra-se na regio em


vermelho, consideramos pouco provvel que a mdia amostral (ou
outra estatstica) tenha sido resultado das flutuaes amostrais. Os
valores crticos (- 1,96 e 1,96) foram obtidos pelo percentil 97,5 da
tabela da distribuio normal padronizada. Podem ser calculados
tambm atravs de softwares estatsticos. A figura 37 indica de
onde os dados foram obtidos.

Devemos procurar na tabela o valor do nvel de significncia dividido


por 2, ou seja 2, pois o teste bilateral, o que implica em duas
regies de rejeio (as caudas direita e esquerda da distribuio,
conforme a figura 37). Observe que a combinao da linha com a
coluna gera o valor do escore Z = 1,96. O nmero 1,96 foi obtido

157
unidade 7
ESTATSTICA E PROBABILIDADES

atravs da combinao da coluna e linha formados pelo valor 0,0250


referente rea da cauda direita (ou esquerda) da distribuio
normal padronizada.
FIGURA 37 - Distribuio normal padro

Fonte: BARBETTA, 2010, p. 377

158
unidade 7
ESTATSTICA E PROBABILIDADES

4 etapa: Concluso

Com base nos valores obtidos pela estatstica de teste e pela


regio de rejeio, tomamos uma deciso em relao hiptese
nula. No caso em questo, a deciso rejeit-la, pois o valor 4
desvios-padro (relativo aos 2 gramas de distncia entre a mdia
amostral e a mdia populacional proposta na hiptese nula) pode
ser considerado muito longe da mdia, uma vez que se encontra na
parte vermelha do diagrama. A estatstica de teste no valor de 4,00
maior do que o valor crtico de + 1,96 (nmero obtido na tabela da
Figura 37, que serve de referncia para rejeio ou no rejeio da
hiptese nula).

Exemplo 13

Um processo foi delineado para fabricar bancadas de tamanho


igual a 120 centmetros. Para verificar se o processo encontra-se
sob controle, um especialista coletou uma amostra de 64 peas.
Foi obtida uma mdia amostral = 120,2 centmetros, com desvio-
padro s = 1,6 centmetros. Teste a hiptese de que o processo
encontra-se sob controle, ou seja, que a mdia populacional seja
igual a 120 centmetros. Use significncia de 10%.

1 e
 tapa: Estabelea as hipteses de interesse

H0 : = 120 centmetros

H1 : 120 centmetros

2 etapa: Obteno da estatstica de teste

-
Z=
s/n

159
unidade 7
ESTATSTICA E PROBABILIDADES

Com os dados do problema, temos ento:

120,2 - 120,0
Z= = 1,0
1,6/64

3 etapa: Obteno da regio de rejeio

FIGURA 38 - Regies de rejeio da hiptese nula.

Fonte: Elaborado pelo autor.

O valor crtico de 1,645 positivo (ou negativo) foi obtido pela


combinao da linha e coluna relativas rea igual a 0,050 (0,100
dividido por 2)5 da tabela da distribuio normal padro da figura 38.

5-O
 valor 0,10 refere-se aos 10% escolhidos como nvel de significncia pelo
pesquisador. Tal valor consiste na probabilidade de rejeitar a hiptese nula, dado
que ela verdadeira, ou seja, probabilidade de tomar uma deciso equivocada em
relao hiptese.

160
unidade 7
ESTATSTICA E PROBABILIDADES

FIGURA 39 - Distribuio normal padro

Fonte: BARBETTA, 2010, p. 377

161
unidade 7
ESTATSTICA E PROBABILIDADES

4 etapa: Concluso

Como o valor de Z = 1,00 obtido pela estatstica de teste no supera


a valor crtico de 1,645, ou seja, no pertence regio crtica, no
rejeitamos a hiptese nula. No podemos descartar a hiptese de
que a mdia seja 120 centmetros. Portanto, h indcios de que o
processo encontra-se sob controle.

Testes de hipteses para amostras


pequenas
Nos exemplos 12 e 13 as amostras tm tamanho maior que 30.
Quando a amostra for pequena (menor do que 30) e o desvio-
padro for desconhecido (situao mais frequente), devemos
utilizar a Distribuio t de Student para realizar o teste.

O exemplo 14 consiste num problema de teste de mdia em que a


amostra pequena e o desvio-padro () desconhecido.

Exemplo 14

Um engenheiro acredita que um processo esteja sob controle


produzindo esferas com 10 milmetros de dimetro. Foi coletada uma
amostra com 16 esferas cujo o valor obtido para a mdia foi X = 10,2
milmetros e desvio-padro s = 0,20 milmetros. Teste a hiptese de
que a mdia seja igual a 10 milmetros. Use significncia de 5%.

1 e
 tapa: Estabelea as hipteses de interesse

H0: = 10 milmetros

H1: 10 milmetros

2 etapa: Obteno da estatstica de teste

Nesse caso, devemos utilizar o escore t no lugar do Z:

162
unidade 7
ESTATSTICA E PROBABILIDADES

Com os dados do problema, temos ento:

- = 10,2 - 10,0
t=
s/n 0,2/16 = 4,0

3 etapa: Obteno da regio de rejeio

Nesse caso, devemos trabalhar com a distribuio t:

FIGURA 40 - Distribuio t de Student

Fonte: Elaborado pelo autor.

Para saber o valor crtico, devemos consultar a tabela t. Como a


amostra conta com 16 elementos, temos 15 graus de liberdade.
Como o nvel de significncia igual a 5%, devemos procurar o
escore t na coluna do 0,05 (rea em duas caudas, pois o teste
bilateral)

163
unidade 7
ESTATSTICA E PROBABILIDADES

FIGURA 41 - Tabela da Distribuio t

Fonte: TRIOLA, 2013, p. 614.

4 etapa: Concluso

Como o valor 4,0 obtido pela estatstica de teste supera a valor


crtico 2,13 obtido pela distribuio t, rejeitamos a hiptese de que a
mdia seja de 10 milmetros. Portanto, o processo encontra-se fora
de controle.

164
unidade 7
ESTATSTICA E PROBABILIDADES

Teste para uma proporo


Quando trabalhamos com variveis quantitativas, o principal
parmetro de interesse costuma ser a mdia. Alm da mdia, outros
parmetros tambm podem ser testados, como, por exemplo, o
desvio-padro. No caso de variveis categricas, geralmente a
medida de interesse a ser testada uma proporo.

No teste de hipteses, o valor do erro padro da proporo


geralmente est baseado no uso do valor hipottico:

(1 -)
Sp =
n

A frmula para o clculo de Z para testar uma hiptese voltada para


Quando trabalhamos
o valor da proporo da populao :
com variveis
quantitativas, o
Z=
p- principal parmetro
Sp de interesse
costuma ser a
mdia.
O exemplo 15 consiste num teste de proporo.

Exemplo 15

Um engenheiro acredita que 30% dos trabalhadores de uma


determinada firma ficam estressados quando fazem horas extras
durante a madrugada. Foi coletada uma amostra com 49 trabalhadores,
dos quais 12 afirmaram se estressar nessa situao. Teste a hiptese
de que a proporo seja de 30%. Use significncia de 5%.

1 e
 tapa: Estabelea as hipteses de interesse

H0: = 0,30

H1: 0,30

165
unidade 7
ESTATSTICA E PROBABILIDADES

Observao 1: Enquanto a mdia representada pela letra , a


proporo representada pela letra grega (pi).

Observao 2: Para representarmos os 30% propostos na hiptese


nula, utilizamos a escala decimal. Dessa forma, o valor utilizado nos
clculos 0,30 (ou seja, 30 dividido por 100).

2 etapa: Obteno da estatstica de teste

Antes de obtermos o escore padronizado Z, devemos calcular o


desvio-padro da proporo populacional, dado pela frmula a seguir:

Sp =
(1 -)
n
=
0,30 (1 - 0,30)
49
=
0,21
49
= 0,004286 = 0,0655

O escore padronizado ento :


p- 0,2653 - 0,3000 - 0,0347
Z= = = = -0,53
sp 0,0655 0,0655

3 etapa: Obteno da regio de rejeio

Como o teste bilateral e com 5% de significncia, obtemos atravs


da tabela Z o valor crtico igual a - 1,96.

FIGURA 42 - Distribuio normal padronizada

Fonte: Elaborado pelo autor.

166
unidade 7
ESTATSTICA E PROBABILIDADES

4 etapa: Concluso

O valor - 0,53, obtido pela estatstica de teste, encontra-se fora da


regio de rejeio, sendo prximo de zero e longe do valor crtico de
-1,96. Dessa forma, no rejeitamos a hiptese nula. Portanto, no
h indcios de que a proporo de trabalhadores estressados na
empresa estudada seja diferente de 30%.

No prximo tpico voc ver situaes em que o pesquisador


tem como interesse comparar os valores dos parmetros de
duas amostras.

Testes para duas ou


mais amostras Temos um teste
de hiptese para a
Nos tpicos anteriores aprendemos a delinear testes de hipteses comparao de duas
bilaterais em que uma afirmao numrica feita sobre uma mdia mdias ou de duas
propores.
ou uma proporo para uma amostra. Em algumas situaes o
pesquisador tem interesse em comparar tais valores em dois grupos.
Nesse caso, podemos afirmar que temos um teste de hiptese para
a comparao de duas mdias ou de duas propores.

Teste para a comparao de duas


mdias em amostras independentes
Em vrias situaes devemos decidir se uma diferena observada
entre as mdias de dois grupos pode ser atribuda ao acaso ou se
h indcios de que os valores obtidos de fato provm de populaes
com mdias diferentes. Quando desejamos comparar as mdias
obtidas por duas amostras independentes, utilizamos a seguinte
estatstica de teste:

167
unidade 7
ESTATSTICA E PROBABILIDADES

1 - 2
Z=
n1 n2

O numerador apresenta as mdias das duas amostras, enquanto o


denominador consiste na raiz da soma dos desvios-padro divididos
pelos respectivos tamanhos de amostras. No exemplo 16 feito um
teste em que so comparadas as mdias de duas amostras.

Exemplo 16

Um engenheiro resolveu comparar o tempo de secagem de duas


marcas diferentes de tintas para determinado tipo de parede. Para
a marca A foram verificados os tempos de secagem de 50 paredes.
O tempo mdio obtido foi A = 80 minutos, com desvio-padro
s1 = 6 minutos. Para a marca B, foram verificadas 40 paredes, com
tempo mdio B = 88 minutos e desvio-padro s2 = 10 minutos.
Teste a hiptese de que no existe diferena entre as mdias. Use
significncia 1%.

1 Etapa: Estabelea as hipteses de interesse

H0: A = B

H1: A B

2 Etapa: Obteno da estatstica de teste

Aplicando a frmula, temos:


1 - 2 = 80 - 88 = -8 -8 -8 = -8

Z= = = = -4,46
s21 s22
+
62 102
+
36 100
+ 0,72 + 2,5
3,22 1,7944
n1 n2 50 40 50 40

3 Etapa: Obteno da regio de rejeio.

168
unidade 7
ESTATSTICA E PROBABILIDADES

FIGURA 43 - Regies de rejeio da hiptese nula.

Fonte: Elaborado pelo autor.

O valor crtico de 2,33 positivo (ou negativo) foi obtido pela


combinao da linha e coluna relativas rea igual a 0,005 (0,010
dividido por 2) da tabela da distribuio normal padro.

4 Etapa: Concluso

Como o valor de Z = - 4,46 bem inferior ao valor crtico - 2,33,


obtido pela tabela da distribuio normal padronizada, rejeitamos a
hiptese nula. No h indcios de que o tempo mdio de secagem
das tintas seja igual.

Teste para a comparao de duas


propores
Quando se deseja testar a hiptese de que as propores em duas
populaes so iguais, o procedimento anlogo ao teste para a
comparao de mdias. A frmula a seguinte:

2
p 1 - p


Z=
p (1 - p) + p (1 - p)
n1 n2

169
unidade 7
ESTATSTICA E PROBABILIDADES

Onde p = x1 e p2 = x2 (propores amostrais)


n1 n2

x +x
p = n 1 + n 2 (proporo amostral combinada)
1 2

Exemplo 17

Um especialista acredita que a proporo de trabalhadores com


estresse ocupacional no turno da manh seja estatisticamente
diferente do turno da tarde. Uma amostra de 100 trabalhadores
foi estudada, sendo 50 pela manh e 50 a tarde. No turno da
manh contou-se 10 trabalhadores nessa situao. No turno da
tarde contou-se 15. Teste a hiptese de que as propores sejam
diferentes nos respectivos turnos. Nvel de significncia: 5%.

1 Etapa: Estabelea as hipteses de interesse

H0 : p1 = p2

H1 : p1 p2

2 Etapa: Obteno da estatstica de teste

Aplicando a frmula, temos:

170
unidade 7
ESTATSTICA E PROBABILIDADES

3 Etapa: Obteno da regio de rejeio.

FIGURA 44 - Regies de rejeio da hiptese nula.

Fonte: Elaborado pelo autor.

O valor crtico de 1,96 positivo (ou negativo) foi obtido pela


combinao da linha e coluna relativas rea igual a 0,025 (0,050
dividido por 2) da tabela da distribuio normal padro.

4 Etapa: Concluso

O Z calculado de - 1,15 encontra-se fora da regio crtica. No


rejeitamos a hiptese nula. Portanto, no h diferena na proporo
de trabalhadores com estresse entre os turnos da manh e tarde.

Os testes de hiptese so extremamente teis na engenharia, principalmente

no delineamento de experimentos. Em vrias situaes busca-se a

otimizao de processos. Espera-se que os insumos sejam combinados

da melhor maneira possvel, de forma a obter produtos de qualidade ao

menor custo possvel. Nesse contexto, diversos fatores podem determinar o

sucesso de um processo de produo de produtos ou servios.

Num processo produtivo em que determinada mercadoria embalada

de forma manual por um trabalhador, diversos fatores (ou seja, diversas

171
unidade 7
ESTATSTICA E PROBABILIDADES

variveis) exercem influncia sobre o desempenho desse trabalhador,

como, por exemplo, a iluminao, a temperatura, o nmero de horas

trabalhadas, e talvez at a altura de uma bancada. Dessa forma, a execuo

de um experimento com diversas combinaes de valores que as variveis

possam assumir pode ser til para a otimizao do processo. Por exemplo:

o desempenho dos trabalhadores melhor quando a temperatura de um

galpo de 22 graus celsius, de 23 ou de 24? Como um experimento desse

tipo depende da utilizao de amostras, torna-se fundamental o uso de

testes de hipteses para obteno de concluses acerca do processo.

Reviso
Nessa unidade aprendemos os fundamentos dos testes de
hipteses. O principal objetivo deles contrapor uma hiptese de
interesse, conhecida como hiptese nula, a uma hiptese contrria,
conhecida como hiptese alternativa, em relao a um parmetro
de interesse (geralmente a mdia, no caso de variveis quantitativas
e a proporo, no caso de variveis categricas).

As hipteses podem ser unilaterais ou bilaterais. No primeiro caso, a


hiptese nula de igualdade contrape-se hiptese alternativa, em
que o sinal de menor ou maior. No caso dos testes bilaterais, na
hiptese alternativa temos o sinal de diferente. Todos os exemplos
dessa unidade focaram em testes bilaterais.

Para definir o tipo de teste a ser utilizado, levamos em considerao


o tamanho da amostra e o conhecimento ou no do desvio-padro
populacional. Quando desconhecemos o desvio-padro e a amostra
tem tamanho inferior a 30, utilizamos o teste t. No caso de conhecer
o desvio-padro populacional ou a amostra igual ou superior a 30,
utilizamos o teste Z. O nome do teste ocorre em funo da distribuio
da estatstica de teste, que construda atravs do conjunto de
possveis amostras, o que conhecido como distribuio amostral.

172
unidade 7
ESTATSTICA E PROBABILIDADES

Os testes podem ser utilizados para verificar uma afirmao


sobre uma amostra, sobre duas amostras ou sobre mais de duas
amostras. Os dois primeiros casos foram abordados nessa unidade.

A grande utilidade do teste de hipteses para o engenheiro ocorre


no delineamento de experimentos e no controle estatstico
de processos.

Para estudar mais sobre testes de hipteses sob perspectiva aplicada,

consulte as seguintes obras:

LEVINE, David; BERENSON, Mark; STEPHAN, David. Estatstica: teoria e

aplicaes - usando o Microsoft Excel em portugus. 6 ed. LTC, 2011, 812 p.

MOORE, David. A estatstica bsica e sua prtica. Rio de Janeiro: LTC, 2014.

TRIOLA, Mrio. Introduo Estatstica: Atualizao da Tecnologia. 11 ed.

LTC, 2013. VitalBook file.

Para uma fundamentao matemtica mais aprofundada sobre o assunto,

consulte a seguinte obra:

MONTGOMERY, Douglas; RUNGER, George Estatstica aplicada e

probabilidade para engenheiros. 3 ed. Rio de Janeiro: LTC, 2009.

173
unidade 7
Anlise de
correlao
e regresso
Introduo

Ao analisar um conjunto de dados, podemos ter interesse no


relacionamento entre duas variveis quantitativas. Dessa forma,
poderamos traar o seguinte questionamento: um aumento no valor
da varivel X se relaciona a um aumento na varivel Y? Qual seria a
magnitude dessa relao? As tcnicas de anlise de correlao e
anlise de regresso podem ser utilizadas para estudos desse tipo.

A relao entre variveis quantitativas pode ser modelada


atravs de anlise de correlao e regresso. Com a evoluo da Anlise de
correlao
informtica nos ltimos 20 anos, essas tcnicas tm sido cada vez
Regresso
mais utilizadas no ambiente empresarial.
linear simples
Regresso
Nesta unidade, voc aprender a desenvolver clculos para linear mltipla
correlao e regresso tanto passo a passo como atravs do
Reviso
software Microsoft Excel.
ESTATSTICA E PROBABILIDADES

Anlise de
correlao
Quando temos interesse em investigar o quanto duas variveis
quantitativas esto associadas, podemos utilizar uma medida
conhecida como coeficiente de correlao.

O coeficiente de correlao mede o grau de intensidade do relacionamento

linear entre duas variveis quantitativas.

Diagrama de disperso
O coeficiente de
Antes de calcular a correlao entre duas variveis, interessante correlao mede o
representar os dados num diagrama de disperso.
grau de intensidade
do relacionamento
linear entre
duas variveis
quantitativas.
Diagrama de disperso: Consiste na representao grfica de duas

variveis quantitativas no plano cartesiano.

A figura 45 se refere a uma pesquisa com anncios de vendas de 58


imveis. As variveis so: REA DO IMVEL (em metros quadrados)
e VALOR DO IMVEL (em R$ mil).

176
unidade 8
ESTATSTICA E PROBABILIDADES

FIGURA 45 - rea do imvel x valor do Imvel

800

700

600
Valor do imvel (R$ mil)

500

400

300

200

100

-
0 50 100 150 200 250 300
rea (em metros quadrados)

Fonte: Elaborado pelo autor

Atravs do grfico de disperso possvel visualizar graficamente


alguns aspectos relativos ao comportamento conjunto das
variveis, como: direo, forma e fora da relao.

No que se refere direo, a figura 45 apresenta indcios de que


as variveis (REA e VALOR) estejam positivamente relacionadas,
ou seja, parece que a direo ascendente. H situaes em que
as variveis apresentam associao negativa6 como por exemplo
o PREO e a QUANTIDADE DEMANDADA (para a maioria das
mercadorias, quanto maior o preo, menor a quantidade demandada).

Em relao forma, na figura 45 podemos observar que a relao


entre as variveis parece ser linear. Observe a reta que resume a

6-A
 ssociao negativa: Duas variveis apresentam associao negativa quando o
crescimento de uma se associa diminuio da outra, ou o contrrio, a queda em
uma se associa ao acrscimo da outra.

177
unidade 8
ESTATSTICA E PROBABILIDADES

associao. Existem situaes em que duas variveis se encontram


associadas, porm de forma no linear, como na figura 46.

FIGURA 46 - Relao no linear entre as variveis X e Y

80
70
60
50
40
Y

30
20
10
0
0 5 10 15 20
X

Fonte: Elaborado pelo autor

Outro aspecto de grande importncia ao observar o diagrama


de disperso a fora da relao. Na figura 45, o VALOR DO
IMVEL se relaciona REA, mas a intensidade da relao no
parece to extrema.

A figura 47 mostra um diagrama de disperso onde as variveis


apresentam ausncia de relao.

178
unidade 8
ESTATSTICA E PROBABILIDADES

FIGURA 47 - Ausncia de relao entre as variveis X e Y

15
14
14
13
13
Y

12
12
11
11
10
0 5 10 15 20
X
Fonte: Elaborado pelo autor

O grau de intensidade da relao linear entre duas variveis


quantitativas dado pelo coeficiente de correlao de Pearson.

Coeficiente de correlao de Pearson


O coeficiente de correlao linear de Pearson consiste na medida
do grau de intensidade da relao linear entre duas variveis
quantitativas, podendo assumir valores entre -1 e 1. Podemos
afirmar que duas variveis esto positivamente correlacionadas
se elas caminham no mesmo sentido, ou seja, quando uma delas
aumenta de valor, o valor da outra tambm aumenta. Nesse caso,
quanto mais prxima de 1, maior a intensidade da associao entre
as variveis. Quando as variveis caminham em sentidos opostos,
dizemos que elas esto negativamente correlacionadas. Quanto
mais prxima de -1, maior a intensidade da associao, porm a
relao inversa.

importante destacar que o fato de duas variveis estarem


associadas no significa, necessariamente, que exista uma
relao de causa e efeito. Por exemplo: geralmente crianas mais

179
unidade 8
ESTATSTICA E PROBABILIDADES

novas apresentam menor peso, entretanto isso no significa que


o envelhecimento causa aumento de peso. mais provvel que a
criana aumente o peso pelo fato de aumentar a altura.

A anlise de correlao tem objetivo exploratrio servindo como


elemento auxiliar na anlise da relao entre variveis. Dessa forma,
em muitas ocasies o estudo da correlao utilizado como um
recurso a mais na anlise dos dados.

O coeficiente de correlao de Pearson dado pela frmula:

( x -x ) ( y - y )
Cor ( X, Y ) = r =
sxsy ( n - 1)

O numerador da frmula se refere ao somatrio do produto dos


desvios da varivel X e da varivel Y em relao s suas respectivas
mdias. No denominador, encontra-se o produto dos desvios
padro de cada uma das duas variveis multiplicado pelo tamanho
da amostra menos uma unidade.

Exemplo18 (adaptado de HINES et al, 2006)

Um engenheiro qumico est estudando o efeito da temperatura


de operao do processo sobre o resultado da produo. O estudo
resultou nos seguintes dados:

X - Temperatura ( Celsius) 100 110 120 130 140 150 160 170 180 190
Y - Resultado (porcentagem) 45 51 54 61 66 70 74 78 85 89

Calcule o coeficiente de correlao entre as variveis.

Soluo:

Ao realizar uma anlise de correlao, interessante construir o


diagrama de disperso para ter uma ideia sobre a associao entre
as variveis:

180
unidade 8
ESTATSTICA E PROBABILIDADES

FIGURA 48 - Resultado do processo (em %) em funo da temperatura (em C)

100
90
80
Y - Resultado (%)

70
60
50
40
30
20
10
0
0 50 100 150 200
X - Temperatura ( C)

Fonte: HINES et al (2006), pag.369

A figura 48 apresenta indcios de que as variveis esto fortemente


associadas. Para confirmar essa suspeita, podemos calcular o
coeficiente de correlao, conforme a tabela 15:

TABELA 15 - Dados para o clculo do coeficiente


de correlao entre temperatura (X) e resultado (Y)
X Y ( ) ( ) ( )( )
100 45 100 - 145 = -45 45 - 67,3 = -22,3 (-45) (-22,3) = 1003,5
110 51 110 - 145 = -35 51 - 67,3 = -16,3 (-35) (-16,3) = 570,5
120 54 120 - 145 = -25 54 - 67,3 = -13,3 (-25) (-13,3) = 332,5
130 61 130 - 145 = -15 61 - 67,3 = -06,3 (-15) (-6,3) = 94,5
140 66 140 - 145 = -05 66 - 67,3 = -01,3 (-5) (-1,3) = 6,5
150 70 150 - 145 = +05 70 - 67,3 = +02,7 (5) (2,7) = 13,5
160 74 160 - 145 = +15 74 - 67,3 = +06,7 (15) (6,7) = 100,5
170 78 170 - 145 = +25 78 - 67,3 = +10,7 (25) (10,7) = 267,5
180 85 180 - 145 = +35 85 - 67,3 = +17,7 (35) (17,7) = 619,5
190 89 190 - 145 = +45 89 - 67,3 = +21,7 (45) (21,7) = 976,5

Mdia (X) = 145 Mdia (Y) = 67,3 ( )( ) = 3985
Desv. Pad (X) = 30,3 Desv. Pad (Y) = 14,7 = 1

Fonte: Elaborado pelo autor

3985 3985
Cor ( X, Y ) = r = = = + 0,99
( 30,3) (14,7) (10 -1) 4008,7

181
unidade 8
ESTATSTICA E PROBABILIDADES

O valor + 0,99 obtido pelo coeficiente de correlao confirma que as


variveis esto fortemente associadas, conforme indcio dado pelo
diagrama de disperso (figura 48).

O exemplo 19 se refere a uma situao em que as variveis


apresentam correlao negativa.

Exemplo 19

O quadro abaixo representa o PREO (em R$) e a QUANTIDADE


DEMANDADA de uma determinada mercadoria.

Preo (X) 10 11 12 13 14 15 16 17 18 19
Quantidade (Y) 200 171 168 165 170 147 120 130 105 124

Soluo:

Antes de calcular o coeficiente de correlao, interessante


construir o diagrama de disperso para ter uma ideia da direo e
da forma da associao entre as variveis.
FIGURA 49 - Quantidade x preo

220

200

180
Y - Quantidade

160

140

120

100
8 10 12 14 16 18 20
X - Preo
Fonte: Elaborado pelo autor

182
unidade 8
ESTATSTICA E PROBABILIDADES

Para o clculo do coeficiente de correlao, temos:

TABELA 16 - Dados para o clculo do coeficiente de correlao entre preo (X) e quantidade (Y)

Preo (X) Quantidade (Y) ( ) ( ) ( )( )


10 200 -4,5 50 -225
11 171 -3,5 21 -73,5
12 168 -2,5 18 -45
13 165 -1,5 15 -22,5
14 170 -0,5 20 -10
15 147 0,5 -3 -1,5
16 120 1,5 -30 -45
17 130 2,5 -20 -50
18 105 3,5 -45 -157,5
19 124 4,5 -26 -117

Mdia (X) = 14,5 Mdia (Y) = 150 ( )(
) = -747
Desv. Pad (X) = 3,0 Desv. Pad (Y) = 29,6 =1

Fonte: Elaborado pelo autor

-747 -747
Cor ( X, Y ) = r = = = - 0,93
( 3,0) (29,6) (10 -1) 799,2

Portanto, as variveis apresentam forte correlao negativa,


conforme indcio do diagrama de disperso.

Observaes importantes sobre o coeficiente de correlao


de Pearson:

O valor da correlao independe da unidade de medida


dos dados. Por exemplo, se tivermos interesse em medir a
correlao entre ALTURA e PESO de um grupo de pessoas,
tanto faz a ALTURA entrar nos clculos em centmetros ou
em metros;

A correlao no se aplica a mais de duas variveis;

A correlao no faz distino sobre qual varivel se projeta


em cada eixo do plano cartesiano. Dessa forma, Cor (X,Y) =
Cor (Y,X);

As variveis devem ser quantitativas. O coeficiente de correlao


linear de Pearson no se aplica a variveis categricas;

A correlao mede o grau de associao linear. Dessa forma,


se duas variveis quantitativas se relacionam de forma
quadrtica ou exponencial, o coeficiente de correlao

183
unidade 8
ESTATSTICA E PROBABILIDADES

linear no indicado, uma vez que matematicamente tem a


capacidade de captar relaes lineares.

Uso da tecnologia para o clculo do


coeficiente de correlao
O clculo do coeficiente de correlao no Excel dado pela funo:

= CORREL (matriz1;matriz2)

Onde os parmetros (matriz1 e matriz2) se referem aos dados das


duas variveis. Observe a figura 50.

FIGURA 50 - Coeficiente de correlao no Excel

Fonte: Elaborado pelo autor

184
unidade 8
ESTATSTICA E PROBABILIDADES

Regresso
linear simples
A regresso linear simples tem como objetivo estimar uma equao
que relacione matematicamente duas variveis, sendo que uma
delas explicada pela outra. A varivel explicada geralmente
denominada varivel resposta ou varivel dependente. A varivel
explicativa denominada varivel explanatria ou varivel
independente.

A anlise de regresso mltipla tem por objetivo estimar uma


equao que relacione matematicamente uma varivel resposta a
duas ou mais variveis explicativas.

A figura 51 reapresenta os dados relativos figura 45 onde a varivel


resposta VALOR se correlaciona REA DO IMVEL.

FIGURA 51 - Valor do imvel x rea do imvel

Fonte: Elaborado pelo autor

185
unidade 8
ESTATSTICA E PROBABILIDADES

Observe que os pontos do diagrama no caem exatamente sobre


a reta de regresso, mas a reta capaz de resumir o padro
geral de comportamento dos dados. Uma das tcnicas mais
utilizadas para obteno dessa reta conhecida como mtodo
dos mnimos quadrados.

Mtodo dos mnimos quadrados: uma tcnica estatstica utilizada para

resumir um conjunto de variveis quantitativas numa equao. Ela se

baseia na minimizao da distncia quadrtica de cada ponto em relao

reta.

A equao que representa o modelo de regresso linear simples

Yi = 0 + 1 X i + i Mtodo dos
mnimos
quadrados: uma
tcnica estatstica
Onde:
utilizada para
resumir um conjunto
Yi = valor da varivel dependente na i-sima tentativa, ou observao; de variveis
quantitativas numa
equao.
0 = primeiro parmetro da equao de regresso, o qual indica o
intercepto no eixo Y, ou seja, o valor de Y quando X = 0;

1= segundo parmetro da equao de regresso, chamado


coeficiente angular, que indica a inclinao da reta de regresso;

i = o valor do erro, que significa a diferena entre o valor verdadeiro


e o valor previsto pela equao de regresso ( a letra grega
psilon). Aps a estimao da equao de regresso, o erro
passa a ser denominado resduo.

Os parmetros 0 e 1 no modelo de regresso linear so estimados


pelos valores 0 e 1 que se baseiam nos dados amostrais. O
chapu sobre as letras indica que foi feita uma estimativa dos

186
unidade 8
ESTATSTICA E PROBABILIDADES

parmetros do modelo com base em dados obtidos atravs de


uma amostra.

Dessa forma, a equao de regresso linear baseada nos dados


da amostra que usada para estimar um simples valor da varivel
dependente, onde o chapu sobre o Y indica que ele um valor
estimado, :

^ ^ ^
Y = 0+ 1X

A anlise de regresso se distingue da correlao por supor uma


relao de causalidade entre as variveis resposta e explanatria.
A anlise geralmente se baseia numa referncia terica, que
justifique uma relao matemtica de causalidade.

A anlise de
A estimativa dos parmetros 0 e 1 do modelo se d a partir das regresso se
seguintes frmulas: distingue da
correlao por supor
uma relao de
^ XY - nXY causalidade entre as
1 =
X2 - nX2
variveis resposta e
explanatria.

^
o = Y - ^ 1X

Exemplo 20

Um professor acredita que a NOTA na prova de estatstica esteja


relacionada ao nmero de HORAS DE ESTUDO dos alunos. Para
tentar convencer os estudantes dessa relao, o professor resolve
fazer a pesquisa levantando dados de sete estudantes, conforme o
quadro abaixo.

187
unidade 8
ESTATSTICA E PROBABILIDADES

QUADRO 5 -Dados para a estimao da reta de regresso


que relaciona nota na prova de estatstica (Y) e horas de estudo (X)

Horas de Nota na
Estudante
estudo (X) prova (Y)
1 20 72
2 15 62
3 35 87
4 26 77
5 30 90
6 24 83
7 18 68
Fonte: Elaborado pelo autor

[a] Determine a equao da reta de regresso para os dados


da tabela.

[b] Use a equao de regresso para estimar a nota de um estudante


que tenha dedicado 20 horas de estudo para a prova.

Soluo:

[a] P
 odemos incluir mais duas colunas na tabela para facilitar a
operacionalizao dos clculos:

QUADRO 6 - Clculos para a estimao da reta de regresso


que relaciona nota na prova de estatstica (Y) e horas de estudo (X)

Horas de Nota na 2
Estudante X X.Y
estudo (X) prova (Y)
1 20 72 400 1440
2 15 62 225 930
3 35 87 1225 3045
4 26 77 676 2002
5 30 90 900 2700
6 24 83 576 1992
7 18 68 324 1224
2
MDIA (X) = 24 MDIA(Y) = 77 X = 4.326 XY = 13.333
Fonte: Elaborado pelo autor

Na penltima coluna foram obtidos os valores da varivel X ao


quadrado. Na ltima coluna os valores de X foram multiplicados
pelos valores de Y para cada estudante. Em seguida, foram obtidas

188
unidade 8
ESTATSTICA E PROBABILIDADES

as mdias de cada varivel e, finalmente, o somatrio das duas


ltimas colunas. Colocando os dados obtidos nas frmulas, temos:

A equao estimada foi:

^
Y = 44,6 + 1,35 . X

[b] Para calcular o valor estimado da nota (Y) com base no nmero
de horas estudadas (X), basta inserir o valor de X na equao.
Considerando X = 20, temos:

^
Y = 44,6 + 1,35 . 20 = 44,6 + 27 = 71,6

Portanto, estima-se que um estudante que tenha dedicado 20 horas


de estudo obtenha aproximadamente 72 pontos na prova. Observe
abaixo o diagrama da figura 52:

FIGURA 52 - Previso da NOTA (Y) com base no nmero de HORAS DE ESTUDO (X)

Fonte: Elaborado pelo autor

189
unidade 8
ESTATSTICA E PROBABILIDADES

Interpretao do resultado da regresso

Alm de permitir a previso de uma varivel resposta em funo de


uma varivel explanatria, a anlise de regresso tambm mede a
variao de Y quando variamos X. A partir da equao obtida pelos
dados do exemplo 20, podemos afirmar que o aumento de uma
unidade na varivel X (nmero de horas estudadas) aumenta, em
mdia, 1,35 unidades na varivel Y (pontos na prova de estatstica).

Uso da tecnologia para a estimao da regresso

Com a evoluo da informtica, a tcnica de regresso mltipla


passou a ser cada vez mais utilizada pelas organizaes e pelos
cientistas, pois os clculos se tornaram menos tediosos. No
exemplo 21, os dados do exemplo 20 foram rodados no Excel. Com a evoluo
da informtica, a
tcnica de regresso
Exemplo 21
mltipla passou a
ser cada vez mais
Estime a equao de regresso com os dados do exemplo 19 utilizada pelas
organizaes e pelos
utilizando o Excel.
cientistas, pois os
clculos se tornaram
Soluo: menos tediosos.

DADOS > ANLISE DE DADOS > REGRESSO > OK

FIGURA 53 - Comandos utilizados no Excel para anlise de regresso

Fonte: Elaborado pelo autor

190
unidade 8
ESTATSTICA E PROBABILIDADES

Nos intervalos de entrada e sada, insira o endereo das variveis


explanatria (X horas de estudo) e resposta (Y nota na prova),
respectivamente. Em seguida, aperte OK.

FIGURA 54 - Comandos utilizados no Excel para anlise de regresso

Fonte: Elaborado pelo autor

Aps rodar a regresso, o Excel apresenta trs quadros. O primeiro


mostra, dentre outras estatsticas, o valor do R-quadrado. No
exemplo em questo, o valor observado igual a 0,843. Isso significa
que o modelo explica aproximadamente 84,3% da variabilidade em
Y a partir da variao em X.

TABELA 17 - Estatsticas para anlise de regresso

Estatstica de regresso
R mltiplo 0,918
R-Quadrado 0,843
R-quadrado ajustado 0,811
Erro padro 4,470
Observaes 7
Fonte: Elaborado pelo autor

A tabela 18 diz respeito ao teste de significncia do modelo,


conhecido como teste F, que produziu uma estatstica igual a 26,8,
que implica num valor p prximo de zero. Dessa forma, rejeitamos a
hiptese de que o modelo no se ajusta bem aos dados. Portanto, o
modelo estatisticamente significativo.

191
unidade 8
ESTATSTICA E PROBABILIDADES

TABELA 18 - Resultados do teste de adequao do modelo de regresso simples (teste F)

ANOVA
gl SQ MQ F Valor p
Regresso 1 536,085 536,085 26,8271 0,00353
Resduo 5 99,915 19,983
Total 6 636
Fonte: Elaborado pelo autor

A outra sada se refere a valores p dos testes dos coeficientes 0 e 1.

As hipteses para o intercepto so:

H0: 0 = 0
H1: 0 0

As hipteses para a varivel explanatria so:

H0: 1 = 0
H1: 1 0

Os valores p iguais a zero para o intercepto e para a varivel X1


implicam na rejeio da hiptese de que os valores sejam no
significativos. Portanto os coeficientes ( 0 e 1 ) so significativos
com base no teste t para cada um separadamente.

TABELA 19 - Coeficientes da regresso e estatsticas de interesse

Coeficientes Erro padro Stat t valor-P


Interseo 44,59 6,48 6,88 0,00
Varivel X 1 1,35 0,26 5,18 0,00
Fonte: Elaborado pelo autor

A equao estimada :

^
Y = 44,6 +1,35 . X1

192
unidade 8
ESTATSTICA E PROBABILIDADES

Dessa forma, o modelo se mostra til tanto para analisar o impacto


que a varivel explanatria exerce sobre a varivel resposta, quanto
para previso.

A interpretao do coeficiente da varivel X1 : o aumento de uma


unidade na varivel X (ou seja, a cada hora a mais de estudo)
consiste no aumento de 1,35 unidades na varivel Y (1,35 pontos na
prova de estatstica)

Para um estudante que tenha dedicado 30 horas ao estudo, o valor


previsto pela equao 85:

^
Y = 44,6 + 1,35 x 30 = 44,6 + 40,5 = 85

Na regresso
linear simples, uma
Regresso varivel resposta
pode ser explicada
linear mltipla por uma varivel
explanatria.

Na regresso linear simples, uma varivel resposta pode ser


explicada por uma varivel explanatria. Na figura 51, o valor do
imvel pode ser previsto com base no seu tamanho (em metros
quadrados). O valor obtido para o R2 foi de 0,45. Isso significa que
a varivel explanatria X explica 45% da variao na varivel Y. No
exemplo em questo, outras variveis tambm podem ser utilizadas
para explicar melhor a variao de Y (preo do imvel), como por
exemplo a idade do imvel, o preo do condomnio, o nmero de
banheiros, etc.

Dessa forma, na regresso mltipla, uma varivel resposta se


relaciona a duas ou mais variveis explanatrias. O objetivo tambm
predizer os valores de Y com base nas variveis explanatrias.

Na maioria das vezes, uma varivel resposta se relaciona a


mais de uma varivel explanatria. Nessa situao, tambm

193
unidade 8
ESTATSTICA E PROBABILIDADES

podemos utilizar o mtodo dos mnimos quadrados para obter


uma equao que relacione as variveis. Nesse caso, temos uma
regresso mltipla:

Yi = 0 + 1 X 1 + 2 X 2 + + k X k + i

Onde:

Yi = varivel resposta (varivel dependente);

0 = intercepto (valor assumido por Y quando todas as demais


variveis assumem valor igual a zero);

1, 2 ,..., k = coeficientes angulares;

k = nmero de variveis explanatrias (variveis independentes). A estimao


da equao de
regresso linear
A estimao da equao de regresso linear mltipla tambm se mltipla tambm
d atravs do mtodo dos mnimos quadrados. O objetivo obter se d atravs
do mtodo
o hiperplano que melhor se ajuste ao conjunto de dados atravs da
dos mnimos
minimizao dos desvios quadrticos. quadrados.

Com a evoluo da informtica, a tcnica de regresso mltipla


passou a ser cada vez mais utilizada pelas organizaes e pelos
cientistas, pois os clculos se tornaram menos tediosos. No
exemplo 22, o preo do imvel estimado com base em duas
variveis: REA DO IMVEL e NMERO DE QUARTOS.

Exemplo 22

Estime a equao de regresso relacionando o VALOR DO IMVEL


s variveis: REA do apartamento e NMERO DE QUARTOS.

194
unidade 8
ESTATSTICA E PROBABILIDADES

195
unidade 8
ESTATSTICA E PROBABILIDADES

Chart Title
800.000,00
700.000,00 y = 1868,2x + 239876
600.000,00 R = 0,55094
Axis Title

500.000,00
400.000,00
Series1
300.000,00
200.000,00 Linear (Series1)
100.000,00
-
0 50 100 150 200 250 300
Axis Title

196
unidade 8
ESTATSTICA E PROBABILIDADES

Soluo

DADOS > ANLISE DE DADOS > REGRESSO > OK

Nos intervalos de entrada e sada, insira o endereo das variveis


explanatria e dependente, respectivamente, assim como foi feito
para a regresso simples. Em seguida, aperte OK.

Aps rodar a regresso mltipla, o Excel produz tabelas. Segue


a primeira:

TABELA 20: Estatsticas da regresso mltipla

Fonte: Elaborado pelo autor

Nesse caso, a principal estatstica a ser analisada o


R-quadrado. A tabela 20 apresenta valor igual a 0,78. Isso
significa que o modelo explica aproximadamente 78% da
variabilidade em Y a partir das duas variveis explanatrias.

A tabela 21 diz respeito ao teste de significncia conjunta do


modelo. Para essa situao utilizamos o teste F, que produziu
uma estatstica igual a 42,5, que implica num valor p igual a
zero. Portanto, rejeitamos a hiptese de que o modelo no se
ajusta bem aos dados.

197
unidade 8
ESTATSTICA E PROBABILIDADES

TABELA 21: Resultados do teste de adequao do modelo de regresso mltipla (teste F)


ANOVA
gl SQ MQ F Valor p
Regresso 2 557.278.841.710 278.639.420.855 42,5 0,000
Resduo 55 360.283.037.601 6.550.600.684
Total 57 917.561.879.310
Fonte: Elaborado pelo autor

A sada da ltima coluna se refere aos valores p do teste dos


coeficientes da regresso. A hiptese nula de que cada coeficiente
igual a zero, individualmente, versus a hiptese alternativa de que
seja diferente de zero, respectivamente.

TABELA 22 - Coeficientes de regresso e estatsticas de interesse

Coeficientes Erro padro Stat t valor-P


Interseo 86.873 60.689 1,43 0,16
Varivel X 1 1.335 285 4,68 0,00
Varivel X 2 67.719 24.091 2,81 0,01
Fonte: Elaborado pelo autor

A equao estimada :

^
Y = 86.873 + 1.335X1 + 67.719X2

Na ltima coluna temos os valores p, que mostram que as variveis


so significativas e o intercepto no, conforme os testes t para
cada coeficiente separadamente. O intercepto no caso no tem
significado prtico nesse exemplo.

198
unidade 8
ESTATSTICA E PROBABILIDADES

Dessa forma, o modelo se mostra til tanto para analisar o


impacto que cada uma das variveis explanatrias exerce sobre
a varivel resposta, mantendo constantes as outras variveis,
quanto para previso.

A interpretao do coeficiente da varivel X1 : a cada uma unidade


de aumento na REA (ou seja a cada metro quadrado a mais) a
varivel Y (VALOR) aumenta em R$ 1.335,00, se mantida constante
a varivel X2 (NMERO DE QUARTOS).

A interpretao do coeficiente da varivel X2 : a cada uma unidade


de aumento na varivel X2 (NMERO DE QUARTOS), a varivel Y
(VALOR) aumenta em mdia R$ 67.719, se mantida constante a
varivel X1 (REA).

Para um apartamento que tenha 80 metros quadrados e trs


quartos, o valor previsto pela equao :

Y^ = 86.873 + 1.335 80 + 67.719 3 =

^
Y = 86.873 + 106.800 + 203.157 = R$ 396.830

Os exemplos de anlise de regresso utilizados nesta unidade contm

uma varivel explicativa, no caso da regresso simples, ou duas variveis

explicativas, no caso da regresso mltipla. Tais situaes ilustram a

utilizao dos modelos de regresso para situaes mais simples. Na

verdade, esses modelos podem ser utilizados com um nmero bem maior

de variveis explicativas.

Por exemplo, para prever o preo de revenda de um automvel, o analista de

dados pode utilizar diversas variveis, como: idade, nmero de quilmetros

rodados, presena de vidros eltricos, presena de ar condicionado,

consumo de combustvel na estrada, consumo de combustvel na cidade,

estado de conservao dos pneus, estado de conservao da pintura, etc.

199
unidade 8
ESTATSTICA E PROBABILIDADES

Nesse sentido, os modelos de regresso se mostram muito teis para a

realizao de previses. Outro exemplo: imagine o gestor de uma empresa

de varejo de alimentos que tem que tomar a deciso sobre a quantidade

de itens em estoque. Nesse caso, ele no pode estocar muito, pois os

produtos podem perder validade, alm do custo do espao utilizado para

guardar as mercadorias. Ao mesmo tempo, estocar uma quantidade

insatisfatria pode implicar na falta de produtos para a venda. Nesse

caso, de grande valia a utilizao de modelos de previso para estimar a

quantidade de mercadorias que sero comercializadas num certo espao

de tempo.

Um terceiro exemplo do uso de modelos de regresso se refere deciso

dos bancos sobre conceder ou no um emprstimo para determinado

candidato. Para isso, o banco geralmente levanta diversas variveis para

estimar a probabilidade de o cliente ser ou no um bom pagador.

Nos trs exemplos acima, o analista deve combinar a utilizao da teoria

com um pouco de experincia no assunto para a escolha das variveis

capazes de explicar melhor o fenmeno.

Reviso
A presente unidade tratou do tema relao entre duas ou mais
variveis quantitativas. Foi demonstrado que, para o estudo de
duas variveis quantitativas simultaneamente, faz-se interessante
o uso de diagramas de disperso com o objetivo de inspecionar
visualmente se elas apresentam associao. Devemos observar,
principalmente, a forma, a intensidade e a direo da relao entre as
variveis. Alm disso, tambm importante o clculo do coeficiente
de correlao, que fornece um valor entre 0 e 1, podendo ser negativo
no caso de relacionamento linear inverso entre as variveis.

Outra tcnica bastante interessante para o estudo da relao entre


duas variveis a regresso simples, muito til para fazer previses.
Alm da regresso simples, a regresso mltipla tambm bastante

200
unidade 8
ESTATSTICA E PROBABILIDADES

utilizada, pois na maioria das situaes as variveis previstas so


associadas a diversas variveis explanatrias, tanto quantitativas
quanto categricas.

Para que o modelo de regresso seja til, o analista depende do


conhecimento da teoria acerca do assunto e de alguma experincia
prtica capaz de auxiliar na escolha das melhores variveis
candidatas e explicativas.

A utilizao dos modelos de regresso na engenharia muito


importante, uma vez que vrios experimentos so delineados na
otimizao de processos de produo.

Para estudar mais sobre os modelos de regresso, consulte as

seguintes obras:

DOANE, David, SEWARD, Lori. Estatstica Aplicada Administrao e

Economia. ArtMed, 2010. VitalBook file.

FREUND, John, SIMON, Gary. Estatstica Aplicada: Economia,

Administrao e Contabilidade. 9 Ed. Porto Alegre: Bookman, 2007.

LEVINE, David; BERENSON, Mark; STEPHAN, David. Estatstica: teoria e

aplicaes - usando o Microsoft Excel em portugus. 6 ed.Rio de Janeiro:

LTC, 2011, 812 p.

MONTGOMERY, Douglas, RUNGER, George. Estatstica aplicada e

probabilidade para engenheiros. 3.ed. Rio de Janeiro: LTC, 2009.

MOORE, David. A estatstica bsica e sua prtica. Rio de Janeiro: LTC, 2014.

TRIOLA, Mrio. Introduo Estatstica. 10 ed. Rio de Janeiro: LTC. 2008. 722p.

201
unidade 8
ESTATSTICA E PROBABILIDADES

Referncias
BARBETTA, Pedro Alberto, REIS, Marcelo Menezes, BORNIA, Antnio
Cezar. Estatstica: Para Cursos de Engenharia e Informtica. 3 ed. Atlas,
2010. VitalBook file.

BAILAR III, John.C.; MOSTELLER, Frederick. Medical uses of statistics. 2.


ed. Boston: NEJM Books, 1992.

CARVALHO, Danilo Heraldo; COUTO, Brulio Roberto Gonalves Marinho.


Levantamentos por amostragem ou pesquisas de survey. Relatrio
tcnico DCET, N 3/2003. 107p

DAVID M. et al. Estatstica: teoria e aplicaes usando Microsoft Excel


em portugus. 3 ed. Rio de Janeiro: LTC, 2000

DOANE, David, SEWARD, Lori. Estatstica Aplicada Administrao e


Economia. ArtMed, 2010. VitalBook file.

DOWNING, Douglas. Estatstica Aplicada. Trad. Alfedro Alves de Farias:


2ed So Paulo: Saraiva, 2003

FIELD, Andy. Descobrindo a Estatstica Usando o SPSS. 2 ed. Porto


Alegre: ARTMED, 2009. 688p

FORMULRIO GOOGLE DOCS. Disponvel em: <https://docs.google.com/


forms>. Acesso em: 15 abr. 2015

FREUND, John. Estatstica Aplicada Economia. 11 ed. Bookman, 2006.


VitalBook file.

GAZZARRRINI, Rafael. Lotus 1-2-3: o software que ajudou a mudar o


mundo. 18 fev. 2013. In: Site TecMundo. Disponvel em: <http://www.
tecmundo.com.br/tecnologia/36697-lotus-1-2-3-o-software-que-ajudou-
a-mudar-o-mundo.htm>. Acesso em: 15 abr. 2015

202
ESTATSTICA E PROBABILIDADES

GRIFFITHS, Dawn. Use a cabea! Estatstica. Rio de Janeiro:


Altabooks, 2009.

HINES, William, MONTGOMERY, Douglas, GOLDSMAN, Dave, BORROR,


Connie. Probabilidade e Estatstica na Engenharia. 4 ed. Rio de Janeiro:
LTC, 2006. VitalBook file.

KAZMIER, Leonard. Estatstica Aplicada Administrao e Economia.


Bookman, 2007.

LEVINE, David M. et al. Estatstica - teoria e aplicaes: usando Microsoft Excel


em portugus. 6 ed. Rio de Janeiro: LTC, 2012. 804 p

MAGALHES, Marcos Nascimento; LIMA, Antnio Carlos Pedroso.


Noes de Probabilidade e Estatstica. 6. ed. So Paulo: Editora da
Universidade de So Paulo, 2007.

MALHOTRA, Naresh K.. Pesquisa de marketing: uma orientao aplicada.


trad. Lene Belon Ribeiro, Monica Stefani. rev. tc. Janana de Moura
Engracia Giraldi. Porto Alegre: Bookman, 2012.

McCLAVE, James T.; BENSON, George; SINCICH, Terry. Estatstica para


administrao e economia. trad. Fabrcio Pereira Soares e Fernando
Sampaio Filho; rev. tc. Galo Carlos Lopez Noriega. So Paulo: Pearson
Prentice Hall, 2009.

MONTGMOMERY, Douglas C; RUNGER, George C. Estatstica aplicada e


probabilidade para engenheiros. trad. e rev. tc. Vernica Calado. Rio de
Janeiro: LTC, 2009.

MOORE, David. A estatstica bsica e sua prtica. Rio de Janeiro. LTC, 2014.

NETO, Antnio Peli. Intervalos de confiana, Intervalos de Predio e


Campo de Arbtrio nas Avaliaes de Imveis Urbanos. Associao
Brasileira dos Engenheiros Civis - Departamento da Bahia. Bahia, 2010.
Disponvel em: <http://goo.gl/6uFFSt>. Acesso em 16 jun. 2015.

203
ESTATSTICA E PROBABILIDADES

REIDEL, Adilson et al. Utilizao de efluente de frigorfico, tratado com


macrfita aqutica, no cultivo de tilpia do Nilo. R. Bras. Eng. Agrc. Ambiental,
Campina Grande, v.9, (Suplemento), p.181-185, 2005. Disponvel em: <http://
goo.gl/TQP0re>. Acesso em: 21 jan. 2015

SILVA, Nilza Nunes. Amostragem probabilstica. 2 ed. So Paulo: Editora


da Universidade de So Paulo, 2001. 120p

SHARP, Norean, DE VEAUX, Richard, VELLEMAN. Paul. Estatstica Aplicada


- Administrao, Economia e Negcios. Porto Alegre: Bookman, 2011.

SOARES, Jos Francisco; SIQUEIRA, Armanda Lcia. Introduo


Estatstica Mdica. Belo Horizonte: UFMG, 2002. 300p

STEVENSON, William. Estatstica Aplicada Administrao. ed 2001.


So Paulo: Harbra, 1981.

TRIOLA, Mario Farias. Introduo Estatstica: traduo de Vera Regina Lima


de Farias e Flores, reviso tcnica Ana Maria Lima de Farias. 10 ed. Rio de
Janeiro: LTC, 2008

TRIOLA, Mario F. Introduo Estatstica: Atualizao da Tecnologia, 11


ed. LTC, 03/2013. VitalBook file.

WERKEMA, Maria Cristina Catarino; AGUIAR, Silvio. Planejamento


e anlise de experimentos: Como Identificar as principais variveis
influentes em um processo. Belo Horizonte: Fundao Cristiano Ottoni,
Escola de Engenharia da UFMG, 1996.

WALPOLE, Ronald. Probabilidade e estatstica para engenharia e


cincias. So Paulo: Pears, 2008

204
www.animaeducacao.com.br