You are on page 1of 529

Ir

ESTATISTICA
APLICADA
Elizabeth Reis
Paulo MeIo
Rosa Andrade
Teresa Calapez

I2 J
AG EM DE S. JO A 0

o LU

z
HC COMPRA

I ?JOI3dflS V1OD
E expressamente proibido reproduzir, no todo ou em parte, sob qualquer meio
ou forma, NOMEADAMENTE FOTOCOPIA, esta obra. As transgressOes serão
passiveis das penalidades previstas na legislaçao em vigor.

FICHA TECNICA:
TItulo: EstatIstica Aplicada
Autores: Elizabeth Reis, Paulo Melo, Rosa Andrade, Teresa Calapez
© EdiçOes Sliabo, Lda.
!mpressao e acabamentos: Rolo & Filhos, Lda.
Lisboa 1996
DepOsito legal: 96244/95
ISBN: 972-618-132-1

EDIçOEs SILABO, LDA.


R. Passos Manuel, 99, 52 Esq.
1150 Lisboa
Telfs: 3161281 /3145880 / 3161282
Fax: 3145880
r
In dice
PREFACIO • 13

Cap Itulo / - /ntrodução

1.DUAS RAZOES PARA SE ESTUDAR ESTATISTICA ........17


2. A NECESSIDADE DA ESTATISTICA NAS CIENCIAS
ECONc5MICAS E DE GESTAO ...................17
3. METODO ESTATISTICO DE RESOLUçAO DE UM PROBLEM . . 19
4. ESTAT1STICA DESCRITIVA E INFERENCIA ESTATISTICA . . . . 20
5. ESCALAS DE MEDIDA DOS DADOS ESTATISTICOS .......22
5.1. Escala nominal ..........................23
5.2. Escala ordinal ..........................24
5.3. Escala por intervalos .......................24
5.4. Escala de rácios .........................25
6. ALGUMAS CONSIDERAQOES FINAlS ...............25
7. UTILIZAQAO DO COMPUTADOR ..................26

Cap Itulo II - To or/a das probabiidades

1.RESUMO HISTORICO ........................29

2. CONCEITOS DA TEORIA DAS PROBABILIDADES ........32


2.1. ExperiOncia aleatOria .......................32
2.2. Espaço de resultados ......................33
2.3. Acontecimentos .........................35
3. ALGEBRA DOS ACONTECIMENTOS ................ 39
3.1. União de acontecimentos .................... 39
3.2. Intersecção de acontecimentos ................. 40
3.3. Diferença de acontecimentos .................. 42
3.4. Propriedades das operaçöes .................. 44
4. CONCEITOS DE PROBABILIDADE . 45
4.1. Conceito ciássico do probabilidade (a priori) .......... 46
4.2. Concoito froquoncista do probabilidado (a poster/on) ..... 48
4.3. Concoito subjoctivo ou personalista do probabihdade .....49
5. AXIOMAS DA TEORJA DAS FROBABILIDADES ..........51

6. PROBABILIDADES CONDICIONADAS ...............62


6.1. Axiomática e tooromas da tooria das probabilidados
na probabilidado condicionada .................65
7. PROBABILIDADE DE INTERSEC9A0 DE ACONTECIMENTOS.
ACONTECIMENTOS INDEPENDENTES ..............68
7.1. Probabilidado de intorsecçäo do acontocimontos ........68
7.2. Acontecimontos indopendenfes .................70
7.3. Acontocimentos indopendentos versus acontecimontos
incompatIveis ou mutuamonto oxciusivos ............76
8. TEOREMA DA PROBABILIDADE TOTAL E FORMULA DE BAYES
78
8.1. Teoroma da probabilidade total .................79
8.2. FOrmula do Bayes ........................80
EXERCICIOS PROPOSTOS ......................83

Capftuio III - Var/ave/s aleatarias


1.DEFINIçA0 ..............................89
1.1. Enquadramonto o oxemplos ...................89
1.2. Cálculo do probabilidados atravOs do variávois aloatOrias . . . 94
1.3. Variáveis aloatOrias unidimonsionais o bidimonsionais .....96
2. FUN9OE8 DE PROBABILIDADE E DE DISTRIBUIcAO
DE VARIAVEIS ALEATORIAS UNIDIMENSIONAIS .........99
2.1. Variavejs aloatOrias discrotas ..................99
2.1.1. Funçào de probabilidade ..................99
2.1.2. Função do distribuiçao ....................104
2.2. Variavois aleatOrjas contInuas ..................107
3. FUNçOES DE PROBABILIDADE E DE DISTRIBUIQAO
DE VARIAVEIS ALEATORIAS BIDIMENSIONAIS ..........115
3.1. Variávois aleatOrias discretas ..................115
3.1.1. Função do probabilidado conjunta .............115
3.1.2. Função do distribuição conjunta . 117
3.1.3. Função do probabilidade marginal ............. 119
3.1.4. lndependencia de variáveis aleatorias ........... 120
3.2. Variaveis aleatOrias contInuas .................. 121
3.2.1. Definição ........................... 121
3.2.2. Cálculo do probabilidades .................. 123
3.2.3. Funçöes do densidade do probabiUdade marginais . 125
3.2.4. IndepondOncia ........................ 126

4. FARAMETROS DE VARIAVEIS ALEATORIAS: VALOR ESPERADO


E VARIANCIA ............................. 127
4.1. Media ou valor esperado .................... 127
4.1.1. Definição ........................... 127
4.1.2. Propriedades do valor esperado .............. 129
4.1.3. Valor esperado do função do variávol aleatOria ....... 131
4.1.4. Valor esperado monetário (V.E.M.) ............. 133
4.2. Variância e desvio-padrão .................... 137
4.2.1. Fropriodades da variância .................. 139
4.3. Covariância e coeficiente do correlaçäo linear ......... 140
5. MOMENTOS ............................. 145
5.1. Função goradora do momentos ................. 147

6. DESIGUALDADES DE MARKOV E CHEBISHEV .......... 148


EXERCICIOS PROPOSTOS ...................... 154

Cap[tub IV - D!stribuiçöes teáricas mais importantes

1. DISTRIBuIçOES DISCRETAS .................... 161


1.1. A distribuiçäo uniforme ...................... 161
1.2. Prova do Bernoulli ........................ 166
1.3. A distribuição do Bernoulli .................... 169
1.4. A distribuiçao binomial ...................... 171
1.4.1. Afunção do probabilidade da binomial ........... 172
1.4.2. Aspecto gráfico da função do probabilidade da binomial . . 177
1.4.3. Parâmetros da distribuição binomial ............ 181
1.4.4. A aditividade nas distribuiçoes binomiais .......... 184
1.4.5. Outras aplicaçOes da distribuiçao binomial ......... 185
1.5. A distribuição multinomial .................... 189
1.5.1. Parametros mais importantes da multinomial ........ 191
1.6. A distribuiçao binomial negativa . 195
1.6.1. Relaçao entre a binomial e a binomial negativa ...... 196
1.6.2. Parâmetros mais importantes da binomial negativa . . 197
1.7. A distribuiçao geométrica ou de Pascal 198
.
1.7.1. Parâmetros mais importantes da distribuição geométrica . 199
1.8. A distribuiçào hipergeometrica .................. 200
1.8.1. Parâmetros mais importantes da distribuiçao
hipergeomOtrica ....................... 203
1.8.2. Generalização da distribuiçao hipergeometrica ....... 204
1.9. A distribuiçao de Poisson .................... 206
1.9.1.0 processo de Poisson ................... 206
1.9.2. Parâmetros mais importantes da distribuiçao de Poisson . 209
1.9.3. A aditividade nas distribuiçoes de Poisson ......... 212
1.9.4. Aproximaçao da distribuiçao binomial a Poisson ...... 214
2. DISTRIBuIcOES CONTINUAS ................... 219
2.1. A distribuiçao uniforme ...................... 219
2.2. A distribuiçao normal ....................... 222
2.2.1. CaracterIsticas da distribuiçao normal ........... 223
2.2.2. Cálculo de probabilidades na distribuiçao normal . . . . 225
2.2.3. A aditividade da distribuiçao normal ............. 232
2.2.4. A distribuiçao normal como uma aproximaçäo
da distribuição binomial ................... 234
2.2.5. A distribuiçao normal como aproximação
da distribuiçao de Poisson .................. 235

EXERCICIOS PROPOSTOS ......................238

Capftulo V - 0 processo de amostragem

1.INTRODUçA0 ............................245
2. ALGUNS CONCEITOS IMPORTANTES NA TEORIA
DA AMOSTRAGEM ..........................247
3. QUESTOES PREVIAS A0 PROCESSO DE AMOSTRAGEM . . . 250
4. AS FASES DO PROCESSO DE AMOSTRAGEM ..........
251
4.1. A identificaçao da população alvo I população inquirida . . 252
4.2. Os métodos de selecçao da amostra .............. 254
4.2.1. Métodos de amostragem aleatOria ............. 255
4.2.1.1.Amostragem aleatOria simples ............. 256
4.2.1.2. Amostragem casual sistematica . 259
4.2.1.3. Amostragem estratificada ................ 260
4.2.1.4. Amostragem por clusters ................ 263
4.2.1.5. Amostragem multi-etapas ................ 264
4.2.1.6. Amostragem multi-fásica .................. 265
4.2.2. Métodos de amostragem dirigida .............. 267
4.2.2.1. Amostragem por conveniência ............. 267
4.2.2.2. Amostragem intencional ................. 268
4.2.2.3. Amostragem snowball .................. 269
4.2.2.4. Amostragem sequencial ................. 269
4.2.2.5. Amostragem por quotas ................. 270

EXERCICIOS PROPOSTOS ......................273

Cap(tub VI— Distr!buiçães Amos trais

1.INTRODUQAO ............................277
1.1. Amostra aleatOria ........................278
1.2. Parametros e estatisticas ....................281
1.3. Lei dos grandes nümeros ....................283
1.4. Teorema do limite central ....................285
2. DISTRIBUIQOES AMOSTRAIS TEORICAS ............. 287
2.1. Distribuição normal ........................ 287
2.2. Outras distribuiçOes ....................... 290
2.2.1. Distribuição do Qui-quadrado ................ 290
2.2.1.1. Principais caracteristicas da distribuição do . ..... 291
2.2.1.2. Alguns teoremas ..................... 291
2.2.2. Distribuição t de Student .................. 292
2.2.2.1. Principals caracteristicas
da distribuiçäo t de Student ............... 293
2.2.2.2. Alguns teoremas ..................... 293
2.2.3. Distribuição Fde Snedecor ................. 294
2.2.3.1. Principals caracterIsticas da distribuição F ....... 295
2.2.3.2. Alguns teoremas ..................... 295
3. DISTRIBUI9OES AMOSTRAIS DAS ESTATISTICAS
MAIS IMPORTANTES ........................297
3.1. Populaçoes Bernoulli .......................297
3.1.1. Distribuição de uma proporção amostral ..........299
3.1.2. Distribuição da diferença entre duas proporçöes amostrais . 301
3.2. Popufaçoes normals
. 302
3.2.1. Distribujcao da media amostra! (X) quando a variancja a
6 Conhecida 2
.........................302
3.2.2. Distribuiçao da variancia amostral (.-S 2) ...........
303
3.2.3. Distribuicao da media amostra: (X) quando a variancja a
2
nao 6 conhecida .......................304
3.2.4. Distribuicao do quociente
de variancias amostrais (S,2 A9 j) .............
3.2.5. Distribuicao da diferença 305
-
entre mOd las amostrais (X1 - X2) .............
306
........................
EXERCICIOS PROPOSTos
308

Capftulo VII - Estimaçao de parAmetros

1.INTRODUcAO
313
2. ESTIMAcAO PONTUAL...... .......................
...................
2.1. Estimadores 0 estjmj., .................... 314
2.2. Propriecjades dos esfimadores ................. 314
2.3. MOtodos de estimação pontuaf ................. 315
327
2.3.1. 0 mOtodo da maxima verosimilhanca ............327
3. ESTIMAQAO FOR INTERVALOS ..................
335
EXERCICIOS PROPOSTOS ......................
347

Cap[tWo VIII - Ensaio de Hip áteses

l.A NECESSIDADE DOS ENSAIDS DE HIPOTESES ........


355
2. HIPOTESES E ERROS .......................
357
3.
COMQ FAZER UM ENSAJO DE HIPOTESES ............359
4.
ERROS NOS ENSAIOS DE HIPOTESES ..............367
4.1. Análjse do erros .........................
4.l.l.Oerrot/poi ......................... 369
4.l.2.Oerrot/poll 370
.........................373
4.1.3. Minimizacao dos erros ....................377
4.2. Funçao potOncia do ensajo ...................383
5. ESCOLHA DA ESTATISTICA ADEQUADA AO ENSAIO . 389
5.1. Introduçao ............................ 389
5.2. Ensalos do hipOteses corn uma arnostra ............ 390
5.2.1. Ensaio para a media ji do universo .............. 390
5.2.1.1. A população é normal e a variäncia
do universo e conhecida ................. 390
5.2.1.2. A popu!açäo é normal e a variäncia
do universo O desconhocida ............... 390
5.2.1.3. A populaçäo O desconhecida .............. 394
5.2.2. Ensaio para a proporção .................. 395
5.2.3. Ensaio para a variância ................... 396
5.3. Ensaios do hipOtoses com duas amostras ........... 398
5.3.1. Ensaio para a diferença do mOdias ............. 398
5.3.1.1. Populaçoes norrnais e variâncias conhecidas ..... 399
5.3.1.2. Qualquer população, variâncias desconhecidas,
mas amostras grandes ................. 399
5.3.1.3. Arnostras pequenas, populaçoes normals
e variâncias desconhecidas mas iguais ......... 402
5.3.1.4. Arnostras empareihadas ................. 404
5.3.2. Ensaio para a diferença de proporçOes ........... 408
5.3.3. Ensaio para comparação do duas variâncias ........ 411
5.4. Ensaio do hipOteses para rnais de duas amostras ....... 415
5.4.1. Ensaio para a diforonça do k medias -
— analise do variância simples ............... 416
5.4.2. Testes do comparação mültipla ............... 422
5.4.3. Ensalos para a diferença do kvariancias ......... 429

EXERCICIOS PROPOSTOS ......................432

Cap [tWo IX - Testes não-paramétricos

1. INTRODUQAO ............................441

2. TESTES DEAJUSTAMENT0 ....................445


2.1. Teste do ajustamento do qui-quadrado .............447
2.2. Teste do Kolrnogorov-Smirnov ..................456

3. TABELAS DE CONTINGENCIA ...................462


3.1. Teste do Qui-quadrado do IndependOncia ...........462
3.2. Modidas do Associação .....................469
4. TESTES A IGUALDADE DE DUAS OU MATS DISTRIBUICOES. . 472
4.1. Testes a igualdade de distribuiçöes
em duas amostras independentes ................ 474
4.1.1. Teste de Mann-Whitney ................... 474
4.1.2. Teste de Kolmogorov-Smirnov para duas amostras . . . . 483
4.2. Teste a igualdade de distribuiçoes em mais de duas
amostras independentes -o teste de Kruskall-Wallis ..... 487

5. COMPARAçOES ENTRE DUAS AMOSTRAS EMPARELHADAS . 495


5.1. Teste de McNemar ou de mudança de opiniao ......... 496.
5.2. Teste do Sinai .......................... 501
5.3. Tests de Wiiooxon ........................ 504

EXERCICIOS PROPOSTOS ...................... 510

Apên dice - Tabelas de distribuiçao


Distribuiçäo binomial ......................... 515
Distribuiçao de Poisson ....................... 520
Distribuição normal padrão ...................... 527
Distribuiçao do qul-quadrado ..................... 528
Distribuição de t de Student ..................... 529
Distribuição Fde Snedcor ...................... 530
Valores crIticos da distribuição do studentized
range para comparaçöes mültip!as ............... 532
Quantis da estatIstica de Kolmogorov-Smirnov para uma amostra . . 536
Quantis da estatistica de Mann-Whitney ............... 537
Quantis da estatIstica de Koimogorov-Smirnov
para duàs amostras de igual dimensão ............. 541
Quantis da estatIstica de Koimogorov-Smirnov
para amostras de dimensoes diferentes ............ 542
Quantis da estatistica de Kruskai-Wallis para pequenas amostras . 544
BIBLIOGRAFIA ............................. 545
Este livro de EstatIstica Aplicada destina-se a profissionais licenciados ou
não e a estudantes universitários que, na vida prática ou no processo de
aprendizagern, tern necessidade de saber EstatIstica e de a aplicar aos pro-
blernas mais variados do dia-a-dia. Como objectivos finais, este livro pretende
tornar compreensIveiS a linguagem e notação estatIsticas, bern como exern-
plificar as suas potenciais utilizaçOes, sem descurar os pressupostos
subjacentes e o rigor teOrico necessário.
Deverá referir-se que a escolha do tItulo não foi pacffica. De entre os vários
alternativos - Probabilidades e Estatistica, lnferência EstatIstica, etc. - a
preferência por Estatistica Aplicada justifica-se pela abordagem diferenciada
de outras obras já publicadas sobre lnferência Estatfstica, e que resumidamen-
te pode ser assim descrita: mais do que <<ensinar>>, pretende-se corn este livro,
a) despertar e estimular 0 interesse dos leitores pelo método estatIstico de
resolução dos problemas; b) utilizando urna linguagem simples e adessIvel,
apresentar os conceitos e mOtodos de análise estatistica de modo mais intuitivo
e informal; c) acompanhar a apetëncia teórica corn exemplos apropriados a
cada situação.
o livro encontra-se dividido ern nove capItulos. No capItulo I (Introduçao)
são explicitadas várias razOes para que urn profissional, técnico, estudarite ou
mero cidadão adquira urn nIvel mInimo de conhecimentos em EstatIstica.
A Teoria das Probabilidades é objecto de estudo do capitulo II. Nele são
apresentados os diferentes conceitos de probabilidade e a sua axiomática,
dando especial relevo aos teorernas da probabilidade total e de Bayes.
Os terceiro e quarto capitulos, tal como o segundo, são essencials para a
compreensão dos seguintes, relativos a lnferencia EstatIstica. 0 capitulo Ill
respeita as Variáveis AleatOrias, sua definição, caracterIsticas e propriedades.
No quarto capItulo estudam-se em pormenor as distribuiçöes de algumas
variáveis aleatOrias de importãncia major nas areas de aplicação das ciOncias
sOcio-económicas como sejam as distribuiçoes de Bernoulli, binomial, Poisson,
binomial negativa, hipergeornétrica, multinomial, uniforme e normal.
o capItulo V e dedicado ao estudo dos processos de arnostragem, incluindo
os diferentes métodos de recolha de urna amostra, enquanto que no capftulo
VI se apresentarn as distribuiçöes amostrais mais importantes.
Os trës Oltirnos capItulos são dedicados a lnferencia EstatIstica propriamen-
to dita. No capitulo VII apreseritam-so métodos do estimação de parâmotros,
corn Onfase especial para o método do maxima verosimilhança. Inclui-se ainda
a estirnação por intervalos. Os capItulos VIII e IX destinam-se a apresentaçãô,
respectivamente, dos ensaios de hipOteses pararnétricos e não-pararnétricos.
Corn excepção do prirneiro, todos os restantes capItulos são finalizados
corn urn conjunto do exercIcios não resolvidos, acompanhados geralmente das
respectivas soluçoes.
No ApOndice estão incluldas as Tabelas (das distribuiçbes) necessárias a
compreensão do texto e a resolução dos exemplos e dos exercicios propostos.

Este livro é o resultado do alguns anos do experiOncia docente dos seus


autores na equipa do Estatistica do ISCTE e da tentativa do responder as
necessidades sentidas por rnuitos - alunos e docentes de variadas licencia-
turas, docentes do ensino secundário, profissionais e técnicos do diferentes
areas cientIficas (gestão, econornia, sociologia, psicologia, medicina, enferrna-
gem, engenharia, inforrnática, etc.) - quo, no decorrer destes anos, e na falta
do urna obra quo os ajudasse a encontrar as soluçoes estatisticas apropriadas
aos seus problernas, procuraram ajuda junto dos autores.

Sern dUvida que a responsabilidade desta obra é assurnida pelos seus


autores, mas a sua concretização so so tornou possIvel corn a ajuda, apoio e
disponibilidade do rnuitos. Por isso, não deixarido do agradecer a todos os quo,
directa ou iridirectamente, contribuIrarn para a sua realização, gostarlamos do,
nominalmente, dar urna palavra especial do agradecimonto aos seguintes
docentes do Estatistica do ISCTE: Ana Cristina Ferreira, Ana Paula Marques,
Antonio Robalo, Fatima Ferrão, Graça Trindade, Helena Carvalho, Helena
Pestana, João Figueira, J.C. Castro Pinto, J.J. Dias Curto, Margarida Peres-
trelo e Paula Vicente.

Finalmente, uma palavra de apreço a todos os alunos, quer das licenciatu-


ras do ISCTE, quer dos mestrados do INDEG/ISCTE, cujas sugestöes, düvidas
e problernas certamonte contribufram para enriquecer este livro.

Os autores
n
=
1. Duas razOes para so estudar estatIstica

Existem duas boas razöes para so saber Estatfstica. Primeira, qualquer


cidadão está diariamente exposta a urn enorme conjunto de informaçoes
resultantes de estudos sociolOgicos e do mercado ou econOmicos, de sonda-
gens palIticas ou mesmo de pesquisa cientIfica. Muitos destes resultados
baseiam-se em inquOritos par amastragem. Alguns deles utilizam, para a efeito,
uma amostra representativa de dirnensaa adequada e recalhida par um pro-
cessa aleatOria. Outros nãa. Para estes, a validade dos resultados nãa
ultrapassa a arnostra que as ariginau. A afirmaçaa de que e fácil mentir cam
EstatIstica e quaso urn lugar camurn. Qualquor manual que se preze apresenta
nas primeiras páginas a farnosa citaçãa atribuida a Benjamin Disraeli: "There
is three kinds of lies: lies, damned lies and statistics)). E o pior é que, do coda
forma, esta citaçäo é verdadeira: O Mcii distorcer e manipular resultados e
canclusöes e enganar alguem não-(in)farmado. Mas saber Estatistica permite
que so avaliom as métados de recolha, as prOprias resultados, se detectem e
rejeitem falsas conclusoes.
So, para muitas, a nocessidade do saber Estatistica advém do facto do
serern cidadäos do mundo, para alguns essa nocessidade é acrescida par uma
actividado prafissianal que requer a utilizaçãa do métadas estatisticas de
recolha, análise e interpretaçao de dados. F osta é a sogunda razâo para so
estudar EstatIstica. A utilização da EstatIstica nas ciOncias sociais, pailticas,
econOmicas, biolOgicas, fisicas, médicas, de engenharia, etc, é por dernais
canhecida: as métados de arnostragem o do inferOncia estatIstica tornaram-se
urn dos principals instrumentos do rnétoda cientifico. Para tados as quo traba-
Iham nestas areas, é vital urn canhocirnenta básica dos conceitas,
passibilidados e limitaçoes desses mOtadas.

2. A necessidade da estatIstica nas ciências


econámicas e de gestão

Nas areas econOrnicas e de gestãa do empresas, a EstatIstica pade ser


utilizada cam três objectivas: (1) descrever e campreender roiaçöos ontre
diforentes caracterIsticas de uma populaçaa, (2) lamar decisöos mais carrectas
e (3) fazor face a mudança.

7
A quantidade de informaçào recoihida, procossada e finalmente apresenta-
da a urn comum mortal cresce tao rapidarnente quo urn procosso de selecção
o identificaçâo das relaçöes mais irnportantes so torna imprescindIvel. E aqul
que a EstatIstica poderá dar o seu prirneiro contributo, quer atravOs de métodos
merarnente descritivos, quer utilizando métodos mais sofisticados do genera-
!ização dos resultados do uma arnostra a toda a popuiação.
Urna vez identificadas as relaçoes, estas poderão constituir uma ajuda
prociosa a tornada de decisOes correctas em situaçöes de incerteza. Veja-se
o seguinte exernplo.
AtravOs do métodos estatIsticos adequados, detorminada instituição bancá-
na idenfificou as caracterIsticas sócio-econOrnicas daquoles que considera
serern bons clientes. Esta identificação pormite-Ihe, no futuro, rejeitar pedidos
do crédito por patio do potenciais clientos, cujas caracterIsticas mais se afas-
tarn das anteriores.
Pianoar significa determinar antecipadamente as acçöes a ernpreender no
futuro. Para fazer face a rnudança, é nocessário que as decisoes e o planiea-
monto se apoiern nurna análise cuidada da situação presonte e riuma previsão
realista do quo acontecerá no futuro.
Os mOtodos estatisticos de previsão nao permitorn adivinhar corn uma
precisão absoluta os acontecimontos futuros, rnas perrnitem modir as variaçOos
actuais e estabolecer os conários futuros mais provávois, dirninuindo, de algurn
rnodo, a incerteza inorente a osses acontecirnontos futuros.
Na gestão das empresas, a tomada do docisão é crucial e faz parte do
dia-a-dia de qualquer gestor. As consequOncias dossas docisoes são derna-
siado irnportantos para quo possarn basoar-so apenas na intuição ou feeling
rnornentânoos.
Os gostores são rosponsáveis polas decisoes rnesrno quando ostas se
baseiarn ern inforrnaçoes incornpletas ou incertas. E precisarnente porque a
inforrnação disponfvol estã associado urn elevado grau do incerteza que a
Estati'sfica se tornou tao irnportanto no processo de tornada de decisOos: a
Estatistica perrnito a extracção do conclusbes válidas a partir de informação
incompleta.
O arnbionte de forrnação do uma decisão varia do urn extrerno em que
muita, pouca, ou nenhuma inforrnação ostã disponIvel, ao oxtrerno oposto orn
que o decisor detOm toda ou quase toda a informação sobre a situação. Este
Ultimo extrerno significa que o decisor conhoce a situação do todos os elemen-
tos da popu!ação. A inforrnação disponIvel a partir dos rocensearnentos do INE,
roalizados de 10 em 10 anos, 6 urn exomplo. Mas a situação mais cornum
para Os gestores é aque!a em que quase nenhuma inforrnação so encontra
disponIvel. Veja-se 0 exemplo do Iançarnento de urn novo produto utihzanclo
tecnologia de ponta praticamente desconhecida dos consurnidores. Como iräo
estes reagir ao !ançarnento do novo produto? A
partida, pouca ou nenhuma
inforrnaçâo existe para que o gestor possa responder a esta pergunta.
A EstatIstica fornece aos gestores instrumentos para que possarn responder
a estas questOes e tomar decisoes corn alguma confiança, mesrno quando a
quantidade de inforrnaçäo disponIvel O pequena e as situaçOes futuras são de
elevada incerteza.

3. Método estatIstico de resoluçao


de urn problema
Para que se obtenharn resultados vá!idos, o investigador deve seguir todos
os passos que definem o metodo estatIstico de resolução do problornas:
1. Identificar correctamente o problema ern anátise. Mesmo em estudos
exp!oratarios cujo objectivo 6 identificar possIveis relaçöes entro as caracterIs-
ticas dos indivIduos sem quo, a partida, se defina urn rnodelo regulador dessas
relaçöes, 6 necessário identificar o problema para o qual se pretendem encon-
trar respostas.

2. Recolhera informaçao necessária, relevante para 0 problema em estudo,


em tempo ütil e tao completa quanto possIvel. Esta informação podera consistir
em dados primários, recoihidos através do urn questionário, ou dados secun-
dários, recoihidos e publicados através do outra fonte de inforrnaçao.
3. ClassY/car e organizar os dados, por exemplo, através da codificação e
criação do uma base de dados em suporte informatico. Urna vez ultrapassada
esta fase, é ja possIvel reduzir a quantidade de informaçao, fazendo desapa-
recer os porrnenores menos irnportantes através do medidas do estatIstica
descritjva (medidas de tendêncja central, dispersão, concentração, etc ), qua-
dros e grãficos.

4. Análise dos dados e apresentação dos resultados: identificar relaçoes,


testar hipOteses, definir modelos corn a ajuda de métodos estatIsticos apro-
priados.
ESTA TISTICA APLICADA

5. Tomar a decisäo mais adequada, ponderando as possíveis opçöes face


aos objectivos inicialmente propostos. A qualidade da inforrnação recoihida e
as capacidades do investigador determinam, em grande parte, a adequabitida-
de das opçöes propostas.

4. EstatIstica descritiva e inferéncia estatIstica

Embora a ctassificação e organização dos dados a quo se faz referenda


no terceiro passo seja ainda urn capItu!o importante da EstatIstica - a Esta-
tIstica Descritiva - urn segundo capItulo torna-se muito mais importante,
quando Os dados recoihidos respeitarn apenas a urn subconjunto da popuiação
ern estudo e não a toda a populaçao - a !nferência Estatfstica. SO quando a
grupo sobre o qual so pretende obter informação é de dimensão reduzida, so
torna viável rocoiher essa inforrnaçao para todos os elementos desse grupo.
0 recensearnento de uma poputaçao envoive custos e tempos dernasiado
elevados para serern suportados por organizaçOes não vocacionadas para o
efeito. For essa razäo, so tornaram populares e se generalizaram a todos as
dornfnios cientificos as técnicas de arnostragern.
Contrariarnente a urn recenseamento, onde so recoihe inforrnação sobre as
caracterIsticas de toda uma populaçao, uma amostra fornece inforrnação sobre
um subconjunto dessà populaçao.
Os rnétodos de Inferencia Estatistica permitem (1) estirnar as caractorIsticas
desconhecidas do urna população (por exernplo, a proporçäo de consumidores
que preferem uma dada rnarca de detergentes) e (2) testar se determinadas
hipOteses sobre essas caracterIsticas desconhecidas são plausIveis (por
exempto, so a afirmação de urn vendedor de que as resultados de lavagern
da marca quo vende são superiores aos de outras rnarcas concorrentes).
Nos exernplos anteriores, as caracterIsficas das populaçöes (proporçao de
consurnidores o resuttados medios da aplicação do produto) são os parámc-
tros. Quando respeitarn a uma amostra, ostes indicadores estatIsticos passam
a charnar-se estatIsticas.
Os rnétodos de Inferência Estatistica envolvern a cálcu!o do estatIsticas, a
partir das quais se infere sobre os parâmetros da populaçao, isto e, perrnitem,
com determinado grau de probabilidade, generalizar a população cortas con-
clusoes, por cornparação com as resuitados amostrais.
Exemplos do parâmetros são a media do uma população (l.t), a variâncja
(a2) ou o desvio-padrão (ci). Como exemplos do estatIsticas: a media (X), a
variãncia (S) ou o desvio-padrao (s) amostrais.
A distinção ontre parâmetro o estatistica torna-se extremarnonto importanto
na Inferéncia EstatIstica. Muitas vezes protendo-se ostimar 0 valor do urn
parãmotro ou fazer urn teste de hipáteses sabre a seu valor. No entanto, a
cálculo dos parâmetros é, goraimonto, irnpossIvel ou irnpraticävej, dovido aos
requisitos de tempo e dinheiro a que obriga. Nestes casos, a escoiha do uma
amostra aloatOria permito quo so obtenha uma estimativa para o parâmotro. A
base da InferOncia EstatIstica consiste, assim, na possibifldado do so tomarem
decisöos sobre as parämetros do uma população, sem que seja nocessário
procoder a urn recensearnento do toda a população.

Urn industrial de máquinas de lavar quer determinar qual o nürnero medlo de


lavagens de determinado tipo do máquina (lavar e secar), ate quo necessitem de
reparação. 0 paràrnetro quo pretende conhecer é a nOmero medio de lavagens
das máquinas ate serern reparadas. 0 técnico da sua fábrica selecciona aleato-
riarnente algurnas máquinas da sua produçao mensal, e verifica as lavagens
efectuadas ate ocorrer uma avaria, calculando, em seguida, para as rnáquinas da
amostra, o nUmero médio do lavagens, isto e, a media amostral.

LI..

A figura seguinte domonstra a processo seguido.

Amostra aieatOria

Populaçao
Amostra

Estatfstjcas (conhecidas)
Parâr-netros (desconfiecidos)

Inferencia Estatistica
ES TA TIS TI CA APLICADA

o processo do gonoralizar a população Os resultados recolhidos na amostra


ë foito num ambionto do incortoza. A nao sor quo o valor dos parâmotros soja
calculado a partir do todos os olornontos da população, nunca so saberá corn
certeza so as ostirnativas ou inferOncias feitas são verdadeiras ou não. Num
esforço para modir o grau do confianga ou de certeza associado aos rosultados
do procosso do inferencia, a EstatIstica utiliza a teoria das probabilidados. Por
ossa razão so dedica urn capItulo desto livro ao ostudo das probabilidados.

5. Escalas de medida dos dados estatIsticos

Os oxomplos do dados quo diariarnonte se podom rocolhor são dos mais


variados. Vojamos alguns: a temporatura maxima na cidado do Lisboa; - a
cotação do escudo e das rostantes moodas do Sistoma Monetário Europou;
as taxas do inflação dos paisos da União Europoia; as oxportaçöes de material
oloctrOnico dos paisos da Asia Oriental; a distribuiçao otãria da população do
concelho de Lisboa; a distribuição por sexos dossa mosma população; as
profissöos da população da Marinha Grande; a distribuição dos omigrantos
portuguosos por paisos do acolhimonto; as proforencias da população portu-
guesa no quo respoita as suas viagons do férias; as preforOncias dos
portuguesos orn rolação aos quatro canals do telovisão nacional; as quotas do
mercado das diforontos rnarcas do automOveis utiutarios.
Estes oxernplos do dados ostatisticos diforenciam-so, não so por se rofori-
rem a caractorIsticas do diferontos populaçöos, rnas tambern por ostarern
dofinidos em diforontos oscalas de medida o, portanto, por nocossitarom do
diforontos métodos ostatIsticos para os doscrevorom o analisarom. São quatro
os tipos do oscalas do medida: nominal, ordinal, por intorvalos o por rácios.
Nem sompro é ovidonte a distinção ontro ostas oscalas, sobrotudo ontro as
duas Ultirnas. Aclassificação quo so doscrovorá em soguida é a adoptada polos
autoros dosto livro, ombora se reconhoça não oxistir unanimidado noste dornI-
nio.
5. 1. Escala nominal

Os dados definidos nurna escala nominal são dados qualitativos por exce-
léncia. For exemplo, suponha-se que se pretendia conhecer a caracterIstica
pro flssão da populaão constitulda pelos pais dos alunos universitärios. 0
estudo desta caracter(stica permitiria descrever 0 conjunto do profissOes desta
populacão, através do uma hstagem que incluiria:
- trabalhador qualificado
- medico
- advogado
- militar
- professor
- bancário
- etc, etc, etc.

Suponha-se ainda que, para efeitos do processamento dos dados, SO GO-


dificava cada urn dos valores desta caracteristica, dando o valor 1 ao
trabaihador qualificado, 2 ao medico, 3 ao adVogado, 4 ao militar, e assirn por
diante. Estes nürneros são utilizados apenas corno cOdigos e não corno valores
quantitativos, urna vez que, por exemplo, ao valor 4, não está associada urna
rnaior quantidade do que aos valores 1, 2 e 3.
Os cOdigos numéricos são utilizados para diferenciar as categorias desta
caracterIstica, não fazendo qualquer sentido calcular indicadores quantitativos
(corno a media ou desvio-padrao) a partir destes nUrneros.
-)Outros exernplos de caracterIsticas definidas em escalas norninais são a
religiao, a raga, a localização geográfica, o local de nascirnento, o sexo, os
sectores de actividade econOmica.
Urn caso particular deste tipo de escala do medida ocorre quando a carac-
terIstica ern estudo tern apenas duas categorias: são as chamadas
caracteristicas binárjas ou dicotOrnicas. São exemplos doste tipo de caracte-
rIsticas o soxo (que pode set- masculino ou ferninino), e a rosposta a seguinte
pergunta: <<Reside em Lisboa?" (podendo ser Sim ou Näo).

23
ESTATISTICA APLICADA

52. Es ca/a ordinal

Quando numa caracteristica nominal a ordem das categorias obedece a


uma sequOncia corn significado, está-se ern presença do uma caracterIstica
definida numa escala ordinal. Os cOdigos nurnOricos que identificam as cate-
gorias já não são dados de forma arbitraria mas sirn de tal modo que as
categorias as quais foram dados o primeiro e Ultimo cOdigos são as quo mais
distam e rnais se diferenciam entre si.
As escalas ordinais tornarn-se extremamente Uteis para medir opiniöes
subjectivas sobre as qualidades de certos atributos, cuja mediçâo objectiva é
impossivél. For exemplo, poder-se-á perguntar a um consumidor qual a sua
opinião sobre o sabor de determinado produto alimentar, de acordo com a
seguinte escala:
1 - detesta
2— gosta pouco
3— indiferente
4— gosta
5— adora.

As respostas a esta questão podem ser resumidas numa escala ordinal,


corn cinco categorias, vulgarrnente conhecida por escala de Likert.
Outro exemplo consistiria em solicitar aos consurnidores quo ordenassem
por ordem decrescente de preferencia, de 1 ate 8, oito marcas de sabonetes.
Urn outro modo de obtenção do uma escala ordinal consiste em dividir uma
escala continua em rnUltiplos intervalos. For exemplo, os indivIduos de uma
população podem ser classificados em trés grandes grupos, resultantes da
divisão de um intervalo contInuo de idades: jovens (ate 18 anos), adultos (do
18 a 65 anos) e idosos (rnais de 65 anos).

5.3. Escala por intervalos

Para alOm das propriedades da escala ordinal, a escala por intervalos tern
ainda a propriedade de a distãncias iguais corresponderem quantidades iguais.
As escalas por intervalos podem ser continuas ou discretas. São contInuas se
podem tornar um nUmero infinito não nurnerável de valores e são discretas se
o nUmero de valores que tornam e finito ou, sendo infinito, é numerável. For
exemplo, a temperatura do ar em graus Fahrenheit está definida numa escala
continua, enquanto que o nUmero de automOveis que atravessa a ponte 25 de
Abril, em cada hora, é uma caracteristica definida numa escala por intervalos
discretos.

5.4. Escala de rácios

Esta escala tem as mesmas propriedades de uma escala por intervalos


continua, e adicionalmente apresenta a caracterIstica de possuir um zero
absoluto como valor minimo. Exemplos de dados definidos nesta escala são
a altura, o peso, o tempo, o volume, etc. Corn dados deste tipo, alteraçOes nas
unidades de medida não afectam os rácios entre dois valores. For exemplo, o
rácio entre o peso de duas embalagens de acücar e sempre o rnesmo,
qualquer que seja a unidade de medida (quilos, gramas, libras, etc).
Feio contrário, a temperatura do ar não define uma escala de rácios:
em bo ra
10° C= 50° F e 30° C= 86° F,

10°c 50° F
30° C 86° F

6. Algumas consideraçöes finals


A diferença entre uma escala por intervalos e uma escala de rácios nem
sempre é evidente o que leva alguns autores a agregarem estes dois tipos
numa so categoria. Os dados definidos nestas duas escalas são considerados
corno métricos dado que são quantitativos por natureza.
Os dados norninais e ordinais são dados qualitativos e, portanto, não-mé-
tricos. Agrande maioria dos 6t 'dos estatistidos requer a utilização de dados
metricos. Os dados nomjnaisso os rnais limitados em termos de tOcnicas
estatisticas disponiveis para a sua análise. Aos dados ordinais podem aplicar-
se todas as tëcnicas definidas para dados nominais e, adicionalmente, as
tëcnicas especificarnente concebidas para este tipo do dados. Na realidade,
constitui urna perda de inforrnação tratar dados ordinais corno norninais, polo
quo muitos autores propOern ate que estes dados sejarn tratados corn tOcnicas
definidas para dados em escalas por intervalos.
Os métodos de !nferencia EstatIstica podern ser classificados em dois
grandes tipos: métodos paramétricos 0 näo paramétricos. De urn rnodo geral
os primeiros requerern quo Os dados estejarn definidos numa escala por
intervalos ou do rácios, o que não acontece corn os sogundos. .Os dados
ordinais, apesar de serem qualitativos, por obedecerorn a uma relaçâo do
ordem, são, corno so disse, muitas vezes anausados corn rnétodos pararnétri-
cos.
Este livro proocupar-se-ã, sobretudo, corn a apresentação do métodos
pararnétricos do anãlise do dados, embora urn dos capitulos seja especialrnen-
to dedicado aos métodos não-pararnétricos.

7. Utilização do computador
As inovaçöes do hardware e software, e a sua acessibilidade ern termos
do preço, vierarn criar novas oportunidades do aplicação dos rnétodos estatIs-
ticos a grandes bases do dados.
Esta acessibilidade, e o desenvolvirnento do software estatistico apropriado,
vierarn pormitir a aplicação genoralizada do rnuitos rnétodos estatIsticos que,
por serern complexos quando rnanualrnente aplicados, se tornavarn domora-
dos e aborrocidos.
Para alérn do software não espocIfico, cornô sejarn as folhas do cálculo
(Lotus e Excol),que porrnitern, polo rnonos, urna arialise prelirninar da inforrna-
cáo, desenvolverarn-so rnuitos prograrnas espocIficos para a análise
estatIstica. Do entre as rnültiplas hipOteses existentos no rnercado, devern
referir-se, pela sua popularidado o abrangencia, o SPSS, o SAS e o MINITAB.
Mas rnuitos outros so encontrarn disponIvois a préços relativarnente acessI-
veis, para quern possuir urn rnicrocornputador, corn urn mInirno do 640 K do
RAM e 20 Mgb do disco, corno sejarn o SYSTAT, CSS o STATGRAFHS. Para
grandes sistornas, os prograrnas SFSS, BMDF, SAS e GENSTAT continuarn a
sor os rnais utiljzados. Para alern destos, rnuito outro software tern sido do-
sonvolvido para aplicaçöes pontuals, sobrotudo do rnétodos do estatIstica
rnultivariada.
!iJ*ii1IPfff.i*3
Nao é possivol fazor a histOria da Estatistica sern falar em probabilidades.
Estas tiverarn a sua origom no estudo dos jogos do azar, ja conhocidos dos
EgIpcios 3500 anos A.C. Mas so no século xvi so assisto a primeira tentativa
do desenvolver urna tooria das probabilidades.
Cardano foi urn dos prirnoiros a tentar doscrever urn rnétodo do cálculo
das probabilidades born como as suas leis básicas. Cardano pode ser consi-
derado como urn verdadeiro ciontista da Epoca Renascontista: escrevou sobre
todas as areas de ostudo da época incluindo a rnaternática, a teologia, a
cosmologia 0 a medicina. Corn o sou livro intitulado The book on games of
change, Cardano não so oxplica as leis da probabilidade corno anaflsa os jogos
do azar e onsina a jogar e a dotoctar os "batoteiros". A sua experiëncia como
jogador inveterado ajuda-o a analisar corroctarnento os jogos do dados o a
comproonder, tambOrn do modo correcto, o cálculo do probabilidades para os
casos simétricos ou igualmento prováveis. Nostes casos, a probabilidade de
urn acontecirnento é o quociente ontre o nUrnero de rosultados que pormitorn
a realização desso acontecirnonto e o nümoro total do rosultados possIvois.
For oxernplo, a probabilidade do que saia urna face par no lançarnonto do urn
dado 6 urna voz quo ha sois rosultados possIveis (1, 2, 3, 4, 5, 6) o trés
doles são nürneros pares (2, 4, 6). Urna irnportanto lei probabilIstica doscoborta
por Cardano foi a lei do produto do acontocirnentos indopondontos. A proba-
bilidade do sair "Face>> quando so lança urna mooda 6 ½. A probabilidade do
sair "Face 2)) quando so lança urn dado 6 1/6. A probabilidade do ostos doEs
acontocimontos ocorrorom quando so lança urna mooda o urn dado é o produto
das duas: (1/2) (1/6) = 1/12
Cinco décadas mais tardo, Galileu rospondou aos jogadoros sobro urna
quostà.o quo, aparontomonto os proocupava: quando so Iançam trés dados, 0
total de 10 pontos ocorre mais vezos quo urn total do 9, o quo lhos parocia
contradjtorio urna vez quo é igual o nümoro de combinaçöes (6) quo sornam
9 (621, 531, 522, 441, 432, 333) o 10 pontos (631, 622, 541, 532, 442, 433).
Mas Galilou rnostrou quo sO é possIvol quo os rosultados tenham diforonto
probabilidade so a ordorn for tarnbérn tornada em consideração e, nesso caso,

29
APLICADA

o nUrnero de resultados corn soma igual a 9 é de 25, e corn soma igual a 10,
de 27, resultarido ern probabilidades de 25/216 e 27/216, respectivamente. 0
que rnuitos autores se admirarn é que Os jogadores se tenharn apercebido
desta diferença tao dirninuta!
0 estudo sisternático das leis das probabilidades teve urn contributo impor-
tante corn Pascal e Fermat e a correspondencia trocada entre arnbos. Tudo
corneçou quando Chevalier de Méré, conhecido escritor e ardente jogador da
corte de Luis xcv, consultou Fermat sobre problernas de divisão de apostas e
interrupçOes antes de se completar urn jogo.
Blaise Pascal (1623 - 1662) era urna criança prodIgio que aos dezasseis
anos ja tinha escrito urn livro e aos dezoito inventado urna rnáquina calcula-
dora. Pierre de Fermat (1601 —1665) era urn jurista de Toulouse que nos
tempos livres se dedicava ao estudo da rnaternática, tendo já sido considerado
corno o rnaior rnaternático puro de todos os tempos.
Se de Cardano se pode afirrnar que rnarcou o firn da prO-histOria da Teoria
das Probabilidades, Fermat e Pascal derarn o passo decisivo no desenvolvi-
rnento desta teoria e na fundarnentação teOrica da Inferéncia EstatIstica. No
final do século xvii, Leibniz publicou duas obras, urna sobre problernas corn-
binatOrios, e outra sobre a aplicação das probabilidades as questbes
financeiras. Foi sob o seu conselho que Jacques Bernoulli estudou o assunto
de tal rnodo que o cálculo das probabilidades adquire finalmente o estatuto de
cléncia. 0 teorerna de Bernoulli apresenta pela prirneira vez a correspondOncia
entre frequéncias e probabilidades, dando origern a urn novo conceito de
probabilidade. 0 conceito de probabilidade inversa é definido por Thomas
Bayes ainda no século xviii. A irnportância dos resultados de Bayes so vem a
ser reconhecida quase dois séculos depois, quando se forma, dentro da Esta-
tIstica, urna nova corrente: a escola Bayesiana.
Durante o século XIX o desenvolvirnento do cálculo das probabilidades
deveu-se ao contributo de trés astrOnornos: Laplace, Gauss e Quetelet.
Muitos dos desenvolvimentos posteriores, norneadamente da escola russa
(Chebyshev, Markov e Lyapunov), baseiarn-se na análise e desenvolvirnento
da obra de Laplace. Gauss explanou urna teoria sobre a análise de observação
aplicável a qualquer rarno da ciéncia, contribuindo, assirn, para alargar 0
carnpo de aplicação do cálculo das probabilidades. Quetelet iniciou a sua
aplicação aos fenórnenos sociais. A ele se deve a introduçäo do conceito de
hornern rnédio e a charnada de atenção para a consistOncia dos fenórnenos
sociais.
TEORIA DAS PROBAB/LIDADES

A distinçäo entre Estatistica & Probabilidades parece ja ser impassive!


Desde a final do seculo Xix que muitos contribuirarn para o desenvolvimento
da EstatIstica corn valiosas antecipaçoes que sO rnais tarde puderarn ser
plenamente cornpreendidas. De entre estes talvez se possarn destacar Karl
Pearson, William Gosset que escrevou sob o pseudOnirno de Student" &
Ronald Fisher, polo vigoroso impulso dado a Estatistica. Pearson, quo so
dedicou ao ostudo da correlação, cuja descoborta e atribuida a Galton, foi urn
entusiasta do evolucianismo de Darwin, desenvolveu extraordinariamonte os
metodos do tratarnento do dados, para alern de so interessar pelo calculo das
probabilidades Em 1894, depois do analisar urn elevado nurnero de resultadas
das roletas num casino, chegou a conclusão do quo estas estavarn viciadas e
quo não serviam coma laboratorio para analiso das probabilidades, ern suma,
a razäo do ser dos casinos não era, de modo nenhurn, cientifica Mas estas
experiOncias no inicia da sua carreira não doixaram do ser uteis na aplicaçäo
que fez da teoria das probabilidades a evoiução biologica e a importantes
descobertas ostatisticas coma a teste do qut-quadrado, utilizada para tostar se
urna dada distribuiçâo de frequencia segue doterminada distnbuição probabi-
listica Gosset, ou seja, "Student", trabalhava para urna empresa produtora
de cervejas - a Guiness - e comoçou uma nova fase nos estudos estatisticos
corn os motodos do tratarnento de pequenas amostras Fisher deu, talvoz, a
mais importante contribuição a Estatistica Matematica e a sua divulgaçaa 0
livro quo publicou em 1925, Statiscal Methods for Research Workers, permitiu
aos investigadores a familiarizaçao nocessaria corn as metodos ostatisticos e
a sua aplicaçâo a problemas práticos.
Muitos outros nomes podoriam ser referidos nesto percurso de quase quatro
sOculos. Todas contribufram para que, quando Fisher publicou a seu livro, ha
muito se tivesso doixado do definir EstatIstica corno "a estudo dos assuntos
de Estado" e de a associar a teoria das probabilidades. Corn a século xx, a
EstatIstica tornau-se urn instrurnenta do analise podoroso aplicado em todas
as areas do saber o a quo a desenvolvirnento inforrnatico veio dar nova fôlego.
Se ihe perguntassern o significado da seguinte frase - "Se Iançar urna
moeda ao ar, a probabihdade de sair "Face>' é ½" - a sua resposta talvez
fosse: "SO ha dots resultados possIveis corn iguais hipOteses de ocorrerem".
Mas suponha que Ihe perguntavarn tarnbérn: "Qual a probabilidade de urn
carro avariar ao atravessar a ponte 25 de Abril?". Tarnbérn aqui existern
apenas dois resultados possIveis: ao atravessar a ponte ou o carro avaria ou
não avaria. Mas ja será irnpossivel responder que essa probabikdade e 1/2. A
sirnetria ou equiprobabihidade existente na prirneira experiOncia (lançarnento
de uma rnoeda ao ar) ja não se verifica na segunda. Esta é a situação mais
cornurn, a de experiOncias cujos resultados são influenciados pelo acaso e aos
quais estão associadas diferentes probabilidades.

2.1. Experiência a!eatória

São objecto de estudo na teoria das probabilidades os fenómenos aleató-


rios, ou seja, acontecimentos influenciados pelo acaso. Na base desta teoria
está o conceito de experiOncia aleatOria, isto é, o processo de observação ou
de acção cujos resultados, ernbora podendo ser descritos no seu conjunto, não
são determinãveis a priori, antes de realizada a experiência.

Urna experiência aleatOria tern como caracterIsticas:

- A possibilidade de repetição da experiOncia ern condiçoes uniforrnes;

- Não se poder dizer a partida qual o resultado (fenOrneno aleatOrio) da


experiëncia a realizar, rnas poder descrever-se o conjunto de todos Os
resultados possIveis;

- A existéncia de regularidade quando a experiência é repetida rnuitas


vezes.
TEORIA DAS PROBASIL/DADES

E corn base nesta Ultirna caracterIstica que so desenvolve toda uma teoria
o urn conjunto de rnodelosprobabilisticos tendentes a explicar os fenOrnenos
a!eatOrios e a dar uma indicaçao da major ou menor probabilidade da sua
ocorréncia. A experlOncia aleatOria contrapoe-se a experiência não aleatoria ou
determinIstica, aquola cuJo resultado pode ser conhecido antes da sua reaH-
zação. For exemplo, o valor da velocidade do propagaçäo do som (340 m/s)
O conhecido mesmo antes de realizada a experiencia, o mesrno acontecendo
corn a rnedição da temperatura de entrada em ebuliçao da água, cujo resultado
(100° C) 4 conhecido a priori. Já a rnesrno não sucede quando langamos ao
ar urn dado ou ext ralmos uma carta dum baraiho, quando medimos a duraçao
de vida de uma lârnpada ou observarnos o resultado do exame do urn estu-
dante escoihido ao acaso. Embora se possa dizer, no caso do exame, que a
estudante ira obter uma classificaçao entre 0 e 20 valores, não podemos
afirmar qual a classificaçao exacta que a estudante obterá, so por exemplo 10,
14 ou 18 valores. Essa classificaçao so será conhecida depois de reaUzado o
exame. 0 rnesrno acontece corn a duraçao do vida do uma lâmpada; talvez
se possa afirmar que ela durará entre 0 o 100 horas, rnas o valor exacto da
sua duração näo 0 conhecido senão depois de a lâmpada se ter fundido.
Quando lançarnos ao ar urn dado e observamos a nürnero inscrito na face
voltada para cirna, podornos descrevor o conjunto de todos Os resultados quo
poderão ocorror (1, 2, 3, 4, 5 e 6), rnas ja 0 irnpossIvel, antes do efoctuarrnos
o Iançarnonto, afirmar qual a face quo Ira sair. Depois do efectuado a lança-
rnento, certarnente quo alguma face terá ocorrido, por exemplo a face 3.
Dizernos entâo qua "3" 4 o resultado desta experiencia aleatOria.

2.2. Espaço de resultados


Numa determinada experlOncia aleatOria, o conjunto de todos as resultados
possiveis designa-se por espaço de resultados, e representa-so pela letra
grega a

No exemplo do lançarnento do dado, Q = {i, 2, 3, 4, 5, 6 }.


A major parte das vezes não so descrevem em detaihe as condicOes e as
circunstancias quo caracterizarn uma experiência ateatoria. E esta de resto a
dificuldade de fundo do cálculo das probabilidades: descrição das condiçbes
unhformes em quo urn acontocirnonto aleatOrio
so verifica ou flão.
ESTI4TISTJCA APLICADA

Se o nümoro do olementos do ospago de resultados for finito ou infinito


numorávol trata-se de urn ospaço de resultados discreto; havondo urn nUmoro
infinito nao nurnorávol do olornontos dispöe-se do urn ospaço do resultados
continuo. Urn ospaço do resultados pode ser ainda quantitativo ou qualitativo,
conforme a naturoza dos elernentos quo o compöem. A indicação dos olornon-
tos do ospaço de resultados pode fazor-se, quor pela enurnoração do todos
os olornentos quo o compOorn (quando são em nürnero finito, evidontornonto)
- definição por extonsão - quor pola descrição abreviada dessos elernentos
- definição por cornpreonsão.

Uma loja abre as 9 horas e encerra as 19. Urn cliente, tornado ao acaso, entra
na loja no momento X sal no momento Y (tanto X como Y são expressos em
horas com origem nas 9). Pretends observar-se os momentos de entrada e salda
do cliente.
Como a chegada e salda de urn cliente se processa ao acaso, logicamente
que poderá ocorrer em qualquer momento no tempo, entre as 9 e as 19 horas,
peIO que X e Y são variáveis contInuas corn X c Y. Portanto, 0 espaço de
resultados c2 é infinito não nurnerável, podendo descrever-se da forma seguinte:

= ((X, Y):9 <Xc Y< 191

(definiçao de Q por compreensao).

Considere-se a experléncia aleatoria que consiste no Iançamento de urn dado


e observaçao do nUrnero inscrito na face voltada para cirna.
0 espaço de resultados é
92 = (1,2,3,4,5,6}

(definicão de 0 por extensao).


TEORIA DAS PROBAB/LIDADES

2.3. A con tecimentos

Retorne-se 0 oxomplo da oxporiência aleatória quo consisto no Iancarnento


do urn dado e cujo espaço do resultados e cz = {1, 2, 3, 4, 5, 6 }
Sondo o ospaço do resultados urn conjunto, 6 possIvol formar subconjuntos
dos seus olornontos, corno, por exemplo:

A = {2}
B = { 1,3,5}
C = { 3,61

cujo significado 6, respectivarnonto;

A: salda do face 2
B: saIda do face Impar
C: saIda do face divisIvel por 3.

A, B e C, sondo subconjuntos de U, são sirnultanearnonto conjuritos de


resultados possiveis da experlOncia aleatOria. Dosignarn-so por acontecimentoa
Urn acontocirnento é, pois, urn conjunto do resultados possIvois do uma
oxperiOncia aleatoria ou, de rnodo oquivalonto, qualquer subconjunto do espa-
90 do resultados 6 urn acontecirnento definido em U (ovontualrnente o prOprio
U ou o conjunto vazio 0).
Urn acontecimento A rolativo a urn detorrninado ospaço do resultados U o
associado a uma oxperiência aloatorja 6 sirnplosrnente urn conjunto de resul-
tados possIveis. Diz-se que A so roalizou, se o resultado da exporiêncja
a!oatOria, co, 6 urn olornonto de A, isto 6, so co c A.

Não so dovera confundir acontecirnonto corn resultado. Enquanto quo o


prirneiro significa algo quo a exporiOncia aleatoria podo produzir, mas não so
realiza necossariarnonte urn resultado indica algo quo a oxporiência aloatOria
produziu. Ou soja, o conceito de resultado so torn sentido dopois do roalizada
a oxperiencia enquanto que o conceito de acontocirnenfo torn pleno sontido
mesrno antes da oxporléncia aleatOria so roalizar.
Urn acontecirnento A, diz-so acontecjmento elementar so
a sua realizaçao
dopondor da ocorréncia de sornonto urn resultado ospecIfico da exporiencia
aloatc5ria
ES TA TIS TI CA APLICADA

Por oposiçäo poder-se-á definir urn acoritecimento complexo ou composto


aquele cuja realização impuca a ocorrëncia do urn resultado da experiência
aleatOria, qualquer urn de entre Os vários possIveis para aquele acontecimento.

Admita-se a seguinte experiência aleatória: contagem do nUrnero de peças


produzidas por uma máquina ate ao aparecirnento de uma peça defeituosa.
A experléncia consiste, portanto, em contar as peças produzidas pela rnáqui-
na, interrompendo-se essa contagem no mornento em que surgir uma defeituosa.
Como se poderá verificar, qualquer nümero inteiro pode ser urn resultado da
experiência:

- pode ser 0, so a prirneira peça retirada for defeituosa;


- pode ser 1, se a prirneira peça for boa e a segunda defeituosa;
- pode ser 2, se as duas primeiras forem boas e a terceira defeituosa;
- e assirn por diante. Ern geral, poderá ser n se as prirneiras n peças forem
boas e a n + 1 defeituosa.

o espaço de resultados associado a esta esperiência aleatOria é o conjunto


dos nümeros inteiros

El = {O, 1, 2, 3, 4..... n, ... }

Serão acontecimentos, por exemplo, os seguintes subconjuntos de El:

A = {6}
B = { 2,4,6,..., 2n,...}

at
A: Contarn-se se/s peças ate sair uma defeituosa.

B: Conta-se urn nürnero par de peças ate sair uma defeituosa.

Para que A se realize terá que ocorrer um, e sOmente urn, dos possIveis
resultados da experiéncia aleatOria (6); diz-se então que A é urn acontecirnento
elernentar. Polo contrário, para que B se realize, basta que ocorra urn, rnas
qualquer urn, de entre os vários resultados possfveis, e que são todos os que
correspondern a contagens pares (2, 4, 6, 8 ...). Trata-se, portanto, de urn acon-
tecimento cornptexo.

0
TEORIA DAS PROSABJLIDADES

Torna-so ainda mais nItida a diforença entre acontecimento 0 resultado


quando so trata de acontecirnentos cornplexos: onquanto quo o prirnoiro prevê
a possibilidado do ocorrëncia do vários resultados, dopois do realizacja a
exporiëncia aloatOria apenas Ocorrerá urn desses resultados possIvois.
Na Tooria das Frobabihdados, urn acontecimento não é, nern urn conceito
reforente ao passado, nom urn concoito corn ocorréncia assegurada no futuro.
E apenas uma oventualidado (acontecimento olernentar) ou urn conjunto de
ovontualidades (acontecimento cornplexo) cuja 000rr6ncia dopende do acaso.
E a probabilidado de ocorrência do cada acontecimento quo perrnite classifi-
ca-los ern acontecimentos CCrtOS, possIveis e impossIveis,

Considere-se a experiência aleatória quo consiste em medir o tempo neces-


sário para que urn aluno corn o 12 ano obtenha uma licenciatura em gestao de
empresas. Admitindo-se que nenhum destes alunos poderá levar mais do 20 anos
para tal e considerando que em algurnas instituiçöes universitárias a duraçâo
minima da licenciatura ó de quatro anos, o espaço de resultados desta experiOn-
cia aleatOria será:

Q = [4, 201

Sejam os seguintesacontecimentos
A: o tempo necessário para obtençao da licenciatura e de 5 anos
B: o tempo necessário 6 igual ou superior a 4 anos mas não superior a 20
anos.
C: o tempo necossãrio 6 do 2 anos.

Poder-se-á dizer que A é um acontecimento possIvel, B é urn acontecimento


certo e C O um acontecimento impossivel.
B e urn acontecimento certo porque ocorre sempre, sendo o conjunto que o
define
B = [4, 20]

exactarnente coincidente com o prOprio espaço de resultados. Já o acontecimento


C não ocorre, qualquer que seja o resultado da experiência aleatOria e, corno não
existe qualquer resultado que tome viávei a sua realizaçao, o conjunto que define
C é o vazio:
C=ø
ESTATISTICA APLIGADA

B e C, numa situação intermedia


o acontecimentO A situa-se, relativarnonte a é apeflas possivel, podendo
quanto ao grau do possibilidade do so realizar. A
ocorrer ou não depois de realizada a experienCia aieatOtia.
Considere-Se urn novO acontecirnento
0: o tempo necessário para obtencâo da licenciatura é superior a 4 a inferior

a 6 anOs
ou
D = ] 4, 6 [.
so realizar, V tambérn so realiza, urna vez quo A é
Verifica-Se que quando A
urn subcofljunto do D. irnplica
6 urn subaCOfltCCim0nt0 de D, A c 0, pois a realizacãO do A
Então, A
a realizacãO de D.
mx

Algebra dos acontecimentos


0
Dofiniu-se acontecimento corno urn conjunto do resultados possiveis do
uma exporiênCia aleatOria. Esta definição sugere quo so podera utihzar todos
os instrumentos da teoria dos conjuntos para representar as acontecimentos
e as operaçöes quo so definern sabre estes. Por exemplo, a diagrama do Venn
revela-se do extrema utilidade na representação do acontecimentos: a conjunto
universal é identificado como a espaço do resultados fl da experléncia aba-
tória e cada acontecimento A por urna região interior a Q

Do modo identico, a diagrama do Venn pode ser utilizado para representar,


do forma simplificada e sugestiva, as operaçöes quo so definom sobre acon-
tecimentos: união ou soma IOgica, intersecçäo ou produto lOgico e diferença.

3 1. União do acontecimentos

39
ESTATISTICA APLICADA

A união de acontecimentos implica, pois, a idela de disjunção, de alterna-


tiva, traduzida por ou; para que so realize 0 acontecimento união basta quo
ocorra polo menos urn dos acontecimentos: ou A, ou B ou ambos.
Diagrarnaticamente, a uniäo de A corn B pode representar-se da seguinte
forma:

II
A operaçäo união de acontecimentos pode ser generalizada a mais de dois
acontecimentos.
Dada urna sucessão infinita de acontecimentos Al, A2, ..., A,-, ..., define-

se a sua uniao ij A corno sendo o acontecimento que 000rrerá se e

sornente se ocorrer pelo menos urn dos acontecimentos A.

3.2. Intersecçao do acontecimentos

Contrariarnente a uniáo, a intersecçao implica a ideia de conjunçao, sirnul-


taneidade ou sequência, a ideia de e: o acontecimento A n B so se realiza
TE0R149A5 PROBABILIDADES

quando se realizarem acontecirnentos A e B. Diagramaticarnente, a inter-


Os

seccâo de A e B pode ser representada da seguinte forma:

TambOm esta operação pode ser generalizada a urn conjunto, finito ou


infinito, de acontecirnentos.

Ha certos acontecirnentos que nao podem ocorrer simultanearnente, logo


a sua intersecção O o acontecirnento impossIvel, isto é, corresporide a urn
conjunto vazio. Acontecimentos nestas condiçOes, em que a 000rr6ncia de urn
exclui a ocorrOncia dos restantes, dizern-se mutuamente exciusivos ou incom-
patIveis.

No diagrarna de Venn anterior representarn-se trés acontecimentos rnutua-


mente exciusivos.
ESTATISTICA APLICADA

Seja a experiência aleatOria que consiste no Iançamento de urn dado e os


dois acontecimentos a ela associados:
A:saIdade face par; A = {2,4,6}
B:saIdade face !mpar; B={1,3,5}

A e B são mutuamente exciusivos ou incompativeis, urna vez que não podem


ocorrer simuitaneamente: se ocorre A, isto é, sai face par, não pode ocorrer B e
vice-versa.

3.3. Diferença de acontecimentos

Diagramaticamente

r;i
TEORIA DAS PROBABILIDADES

Seja a experléncia aleatOria que consisfe em medir o consumo médio per


capita de cerveja em Portugal (em litros) e A e B Os
seguintes acontecimentos:
A: 0consumo mOdio per capita é Superior ou igual a 30 litros mas inferior a
50 litros.

B: o consumo medio per capita é igual ou superior a 40 litros mas inferior a


75 iltros.

A- Bé 0
acontecimento <o consumo médio per capita é igual ou superior a
30 iltros mas inferior a 40 iltros" dado que
A = [30, 50
B = [40, 75
A - B = [30,40[.
ES TA lIST! CA APLICADA

3.4. Propriedades das opera çäes

Em seguida apresentam-se as propriedades mais importantes das opera-


çOes de uniao e intersecção do acontecimentos.

PROPRIEDADES UNIAO INTER5ECçAQ

1.Comutativa AUB=BUA AflB=BflA

2.Associativa Au(BUC)=(AuB)UC Afl(BflC)=(AB)C

3.D/stribut/va
Au(BnC)= Afl(BUC)=
=(AUB)n(AUC) =(AflB)u(AnC)

4. /dempotênc/a AuA=A AA=A

5. Lei do complemento A AA=ø


A=Q

6. Leis de De Morgan AuB=AnB AnB=AUB

7.Elernentoneutro AQ=A
AUØ=A

8. Elemento absorvente Au £2 = £2 A 0 =0
rJaM4iDz.frailajjjimrafl.

Quais as hipOteses do que o rio Douro venha a ter urn caudal abaixo do
normal no prOxirno Vorão? Qual a probabilidade do quo a procura de automO-
veis movidos a energia oléctrica venha a aumontar no prOxirno ano? Qual a
proba-bilidade do que Os trabalhadoros do Motropolitano do Lisboa ontrem em
grove na prOxima sexta-foira? As respostas a ostas perguntas são dadas em
termos da probabilidade ou verosimuhança de quo cada urn destos aconteci-
mentos ocorra, sondo esta idontificada corno urna rnedida da certeza da
ocorrOncia do cada acontocimento.

Nas areas económica o do gestão, os diforentos concoitos do probabilidade


são largamento utilizados. Por exomplo, quando o prirnoiro-ministro afirrna quo
a inflação no corrento ano não ultrapassara 6% ou quando urn industrial prove
quo as matérias-prirnas importadas para a sua produção não sofrerao urn
aumonto do proços no curio prazo. As probabilidados fornocern aos gostoros
o 000nornistas as bases para a tornada do docisao, quando oxisto incortoza
sobro a ovoluçao futura e sobro os ofeitos práticos das suas docisoos, isto é,
quando a partir do passado não é
possIvol prover doterrninistjcarnonto o futuro,
dovido a i
nflubncia do acaso, sondo no ontanto possIvof prover as linhas do
ovoluçao futura o as possibilidados do ostas so concrotizarem.

Do acordo corn a definiçao o o rnétodo do cálculo, podom dofinir-so trés


concoifos do probabilidade: cléss/ca, emp fr/ca ou
frequenc/sta o subjectiva. As
probabilidados quo so basolam nas caractoristicas intrInsocas dos acontoci-
montos são dofinidas Segundo o concoito c!ássjco. Aquolas quo so basoiarn
numa quantidade razoávoj do ovidéncia objoctiva são ompiricas ou froquon-
cistas, onquanto quo as probabilidades dofinidas corn base em cronças ou
Opirflöos individuals so donominam subjoctivas.
ES TA TISTICA APLICADA

4.1. Concefto c!ássico de probabilidade (a priori)

Se a uma experiência aleatOria se podern associar N resultados possIveis,


mutuamente exciusivos e igualmente prováveis, e se 17,4 desses resultados
- - 11,4
tiverem a atributo A, entao a probabilidade de A e a fracçao

nA
P[A] =

onde:
11,4 - nümero de resultados favoráveis a A
N - nUmero de resultados possIveis

Repare-se que, para o conceito clássico de probabilidade, as resultados


possfveis são todos igualmente prováveis, isto é, tOrn todos igual probabilidade
de se realizarem. E este o conceito subjacente aos chamados jogos de azar,
cuja prOvia apresentação sisternática foi feita par Cardano. Este define coma
probabilidade de urn acantecimenta o rácia entre a nUrnera de resultados que
fazem cam que a acantecimenta se realize e a nUmero total de resultados. Par
exemplo, a probabilidade de sair urn nürnera par quando se lança urn dada é
de % parque existern seis resultados passIveis e trOs deles são nümeros
pares.
Galileu, rneia século mais tarde, utilizau a rnesrno conceito de probabilidade
para responder a uma dUvida dos jagadores que notaram, no lançamenta de
trOs dadas, saIrem rnais vezes faces que sarnarn um total de 10 pontos do
que 9. pontos. Tal carna Cardana, Galileu sabia que era necessária ter em
cansideraçãa a ordem dos resultados para que se possarn associar probabi-
lidades diferentes aas resultados. Assim, de 6 x 6 x 6 = 216 resultados
possiveis, 25 somam 9 pantos e 27 somam um total de 10 pontos, de onde
resultam, respectivarnente, probabilidades de 25/216 e 27/216. Este ültimo
exempla ilustra bern a necessidade de recorrer a análise cornbinatória corno
rnOtada auxiliar para a contagem do nürnero de casas favoráveis e do nUmero
de casas possIveis.
TEQAJA DAS PROBABIL/DADES

Na experiência aieatoria que COnsiste no lancarnento de urn dado e observa-


cáo do nUrnero inscrito na face voltada para dma, seja A o acontecimerito: saIda
da face 3. 0 espaço de resultados O definido pelos seguintes elernentos
£2 = { 1, 2, 3, 4, 5, 6 }. A probabilidade de se reahzar a acontecirnento
A é:

corn:
nA - nümero do resultados favoráveis ao acontecimento A
N - nOmero do resultados possIveis.

Consideremos a experiência aleatOria que consiste no Iançamento de urna


moeda equilibrada ao ar. Seja A 0 acontecirnento: saIda de face.
0 espaço de
resultados será constituido por £2 = { F, C}. A probabilidade de A será:

P[AJ= -- -i—

Urn investigador mostra a urn individuo 12 cores e pede-Ihe quo escreva 4


que sejarn suas favorites.

a) Quantos resultados possiveis existern?

c2 =
( 12
142 = 495

b) Se uma das cores do lote das 12 for azul, quantos resultados possiveis iräo
conter essa cor?

= 3) (11-3)131 -165

POis 0 azul 6 sempre escothido e portanto sO 3 cores das restantes 11


podern ser escoihidas.
ESTI4TISTICA APLICADA

c) Qual a probabilidade de escoiher a cor azul como uma das suas preferidas?

(ii
3)_ 165
(12 - 495 - 3

4.2. Con ceito frequenc!sta


de probabilidade (a posterior!)

Se em N roalizaçöes do uma exporiência, o acontocimento A so verificou


n vezes, diz-se quo a froquência relativa do A nas N realizaçöes e
n

sondo fA a trequência relativa do acontecimento A.

Noutras N realizaçôos da mesma exporiOncia, desde quo N soja suficion-


temente elevado, a frequOncia relativa corn quo se realiza o acontecimonto A
é ern geral diforonte mas prOxirna da anterior. A modida quo o nUmoro do
provas aumonta, verifica-se uma regularidade das froquências rolativas, do tal
modo quo a irrogularidade dos rosuitados individuals se opoo uma coda regu-
laridade estatIstica ao tim do uma longa série do provas, isto 6, fA = / iv tendo
a estabilizar. E osta caracteristica das oxperiências aloatOrias quo pormite
definir o concoito froquoncista de probabilidade.
Ao nUmoro para quo tonde a frequOncia relativa, quando se aumonta o
fA

nümero de provas, chama-se probabilidade do acontocimento A:

P[A] = jim 1A
00

Isto oquivale a acoitar quo numa sucessáo numerosa do oxporiências 6


praticamonto certo quo a froquência relativa do A soja aproximadamonte igual
a P [A]. Esta rogra ostá na base da definição frequoncista de probabilidade.

M.
TEORIA DAS PROBASILIDADES

o valor da froquOncia rolativa 0uma ind:cação do valor da probabilidade na


exporlOncia aloatoria considorada, quando so repote ossa exporlOncia urn
nürnoro suficientomento grando do vozes.

A exporiência aleatória quo consiste na obsorvaçao do soxo de urn recém-


-nascido pode considerar-se 0 exemplo tIpico para aplicacao do conceito frequen-
cista de probabilidade. Porque esta experiéncja já se realizou inürneras vezes e
existern registos do seu resultado, sabo-se quo a probabilidade do sexo do
recém-nascido ser masculino é do aproximadamento 0,52 e de ser feminino e do
cerca do 0,48.
A utilizaçao do concoito clássico de probabilidade teria conduzido ao valor do
0,5 para cada urna das reforidas probabilidades, o quo constituiria urn erro. Este
seria proveniente do facto do so considorarern oquiprovavejs os elernentos do
espaço de resultados Q = { Masculino, Forninino }, quando ostes a não são.

4.3. Conceito subjectivo ou persona jista


de probabilidade

Utilizarido esto concoito, a probabilidade de urn acontecimonto é dada polo


grau do crodibiudado ou do confiança quo cada pessoa dá a rea!izaçao do urn
acontecirnento Basoja-se na inforrnaçao quantitativa (ox: froquencia do ocor-
réncia do urn acontecirnento) o/ou qualitativa (ox: informaçâo sobre experiencia
passada em situaçöos sornolhantes) quo o docisor possui sobro o acontoci-
rnento orn causa. Diferentos decisores podorn atribuir diferontos probabilidados
ao rnosrno acontocirnento docorrontos da experiencja, atitudos, valores, etc,
quo possuorn.

Esta noçao do probabilidade pode ser aplicada a oxporiOncias quo, ornbora


de resultado sujoito ao acaso, não so podorn efectuar várias vozos nas rnos-
rnas condiçoos, casos em quo os concoitos froquoncista o clássico nao so
podem aplicar.
ESTATIST/C.4

Se o Primoiro Ministro afirmasse "a inflação para o próxirno ano sorá de 3%


corn urna probabilidade do 0,9' estaria aaplicar o conceito subjectivo ou perso-
nalista do probabilidade. Urna outra figura polItica, da Oposiçao, diria certamente
quo tat meta soda difIcil do atingir, o sendo instada a quantificar o quo para eta
era "dificit>' podetia mesmo afirmar: "Tal nivet do inflaçao so será atingido corn
urna probabilidade do 0,25". TambOrn osta figura polItica estará, desto rnodo, a
apticar o conceito porsonatista do probabilidade.

Kfj
Da necessidade de sistematizaçâo dos conceitos empregues na Teoria das
Frobabilidades e da construção de urn corpo teórico coerente surgem os trés
axiornas em que so baselarn todos Os desenvoivimentos posteriores deste
campo das matemáticas. Assirn, consideramos que P (.) é urna funçao quo
associa a todo o acontecimento A definido em £2 urn nUmero compreendido no
intervaio [0, 1] e que satisfaz os seguintes axiomas:
APLICADA

Corn base nos axiomas referidos O possIv& demonstrar diversos teorernas,


entre Os quais se destacarn os seguintes:

Considerese urn acontecirnento A qualquer associado a urn espaço de


resultados n, e o seu cornplernentar A. Atendendo a prOpria definição de
acoritecirnento cornplementar, é evidente que A e A curnprern as seguirites
condiçbes:

- não podern ocorrer simultaneamente, isto é, A e A são rnutuarnente


exciusivos, logo a sua intersecção 6 o acontecirnento irnpossIvel;

- quando so realiza a experiência aleatOria, ocorrerá sernpre urn dos


acontecirnentos A ou A, l ogo, a sua união 6 o acontecirnento certo
Q, isto 6,

AUA=cL

Então, aplicando probabilidades

P[A U A] = P[Q]

e, pelos axiornas 2) e 3) anteriores,

P[A] + P[A] = 1

EM
P[A] = 1 - P[A] c.q.d.
Seja a exporléncia aleatOria quo consisto na extracçäo do uma carta do urn
baraiho do 52 cartas. 0 acontocirnento A: sa[cja de urn
re/ tern probabilidade
P[A] =

dado quo oxistom 4 rois nas 52 cartas. Logo, a probabificjade do acontecirnento


cornplornontar do A, A: não sal rei, é

PIAJ=1 - - -= -fQ
52 52

quo so poderia facilmento Cornprovar urna vez quo, nurn baraiho do 52 cartas,
existom 48 quo não são reis.

Atenderido as propriodades do elemento neutro na uniao do acontecimen


tos, e
agora possivej determinar a probabilidade do 000rr6ncia do
acontecimonto impossfvel. Assim

o, aphoando probabilidades,

P[c2 u øJ =
mas, porque os dois acontecimentos são mutuamento exciusivos,
P{Q} + P[øJ = P[Q]

53
ESTATISTIGA APLIGADA

ou seja,
P[ø] = P{C2J - P[]

P[ø] = 0 c.q.d.

o acontecimento irnpossivel tern probabilidade nula mas a recIproca não ë


verdadeira. A raridade durn acontecimento pode levar a quo a sua probabui-
dade seja zero sern quo, no entanto, este seja impossfvel. E o caso em quo,
no Iançamento durna moeda ao ar, esta fica ern p6 sern cair para nenhum dos
lados.

Sejarn dois acontecimentos A e B quaisquer. Atendendo as propriedades


das operaçbes sobre acontecimentos, faciirnente so dernonstra o seguinte

B=Bn(AUA)

B= (B fl A) U (B A)

Os acontecimentos (B () A) e (B fl A) são mutuarnente exciusivos e

(B n A) 6 o acontecimento quo se realiza quando se realiza B mas não se


realiza A, logo

III
AnB

(a- BnA=B-A
TEORIA DAS PROBABILIDADES

Polo axioma 3, teremos então

P[B] = P[B n A] + P[B A]

ou

P[B] = P[B A] + 98 - A]

logo
P[B - A] = P[B] - P[B '--i A] c.q.d.

Na produçao de artigos do vestuário de uma empresa, 10% dos artigos


produzidos tern defeitos de material (tecido), 5% tern defeitos de acabarnento e
2% defeitos de ambos os tipos. Qual a probabilidade de uma peça de vestuário
retirada ao acaso ter apenas defeitos de tecido?
Considerando os acontecimentos
A: o art/go tern dde/to do matEr/a prima (tecido)
B: o art/go tern do!c/to do acabam onto

e o acontecimento

A - B: o artigo tern apenas dole/to do maté na prima

a sua probabilidade será

P[A - B] = P[A] - P[A B].

De acordo corn os dados disponIveis

P[A] = 0,10

PEA B] = 0,02
então
PEA - B] = 0,10 - 0,02 = 0,08

isto é, a probabilidade de uma peça de vestuário ter apenas defeitos de tecido é


do 0,08.

0
ES TA TISTICA APLICADA -

AUB=(AUB)nn=

= (A U B) fl (A U A) =

= A U (B A) =

= A U (B - A)

Aplicando probabilidades

P[AU B] = P[A u (B - A)]

Mas, porque A e (B - A) são mutuamente exciusivos,

P[A Li B] = P[A] + P[B - A]

e utilizando o teorema anterior sobre a probabilidade da diferença de dois


acontecimentos

P[A u B] = P[A] + P[B] - P[B n A] c.qxi.


TEORIA DAS PROBABIL/DADES

Seja a experléncia aleatOria que consiste em retirar urna carta de urn baraiho
de 52 cartas e considerern-se os acontecimentos:
A: sal ml
B: sal paus

cujas probabilidades são, respectivamente, 4/52 e 13/52.

A probabilidade do acontecimento uniao


A u B: saircioupaus

o P[A u B] =52uma vez que existern 16 resultados favoráveis (13 de

saIrem paus mais 3 de sairem reis que não são de paus) em 52 resultados
possiveis. Esta probabilidade 0 diferente de

17
P[A} + P[B] = -
52
pois ao somarmos P[A] corn P[B], conta-se duas vezes a probabilidade do
acontecimento "sal rei de paus,, (acontecimento A -- B) cornurn aos aconteci-
mentos A e B. E necessário, portanto, deduzir a probabilidade deste Ultimo
acontecimento:
P[A B] = P[A] + P[B] - P[A B] =

413 1
- 52 52 - 52 -

16
52

Em determinada cidade, 30% da população de leitores de jomais diários


cornpra o jornal "Diario", 40% o jornal <<PQbIico e 10% compra os dois jornais.
Se desta população escoihermos urn leitor ao acaso, qual a probabilidade de ele
comprar palo menos urn destes jomais, isto 6, de ler o "Diádo", ou o cPüb!ico>> ou
ambos?
Considerando os acontecimentos:
A: o leitor corn pra o aDiárlo.0
B: o leitor cornpra o ('Pubilco"

57
ESTATIS TI CA APLICADA

e sabendo que

P[A] = 0,30

P[A n B] = 0,10

o que se pretende conhecer é PEA u B]

P[A U B] = PEA] + P[B] - P[A B] =

= 0,30 + 0,40 - 0,10 =


= 0,60

isto é, 60% dos leitores compra pelo menos urn destes jornais.

L
TEQR/A DAS PROBAS/LIDADES

Paran =3

P[Ai k) A2 13 As] =

3 2 3
=P[Aj] - Y, I P[A/nAJ]+(1)4P[A1nA2nA3]
1=1 1=1 j=i+1

= P[Ai] + P[A2} + P[A3] - P[k -- A2J -

- P[A1 nA3]_P[A2nAS}+P[A1nA2nA3 I

Para n=4

P[Aj U A2 u A3 U A41 =

4 3 4
=P[A1]-
1=1 i=1j=f+1
2 3
P [A/nAJnAK]_P[A1nA2nA3nA4]
1=1 j=!-i-1 k=j+1

= P[A1} + P[A2] + P[A3] + P[A41 -

- P [Al nA2I_P [Al nAS]_P[A1nA4I

- P[A2 nA3]_P[A2nA4]p[kn]+

+P[A2flA3 flA4J - P[A1flA2 flA3flA4}


ES TA TISTICA APLICADA

A mesma populaçao do leitores do exemplo anterior fol inquirida sobre as suas


preferências relativamente a três revistas mensais A, B e C. Os resultados obtidos
foram Os seguintes:

Re vista Leitores (%)

A 9,8
8 22,9
C 12,1
AeB 5,1
AeC 3,7
BeC 6,0
AeBeC 2,4

Qual a probabilidade de, urn leitor escolhido ao acaso, ser leitor de


a) Somente A e C?
b) Polo menos urna revista?

As respostas a estas duas questoes sao irnediatas so se atender ao teorema


3 e a generalizaçao do teorema 4:

a) A probabilidade pedida é

PEA C B] = P[A C] - P[A n C B] =


= 0,037 - 0,024 =
= 0,013

b) A probabilidade pedida é

P[AUBuC] = P[A] + P[B] + P[C] - P[A B] -

- P[A ç C] - P[B C] + P[A B C] =

= 0,098 + 0,229 + 0,121 - 0,051 - 0,037 - 0,06 + 0,024 =

= 0,324.
TEORIA 0,45 PROBABILIDADES

Este problema poderia também ser resolvido corn o auxIlio de urn diagrarna
de Venn.

61
0,042

B
,

61
A partir do momento em que se conhece a probabilidade de o acontecimen-
to B (do espaço do resultados £2) ocorrer, O possIvel calcular a probabilidade de
qualquer outro acoritecimento A se realizar condicionado polo acontecimento B.

Urn jogador da loteria cornpra trés bilhetes para a extracção do Natal corn os
nUmeros 01011, 15555 e 22444, realizando-se 0 sorteio entre urn total do 40000
nUrneros, de 00000 a 39999. 0 acontecirnento:

A: o jogador obtém o primeiro prémio

comporta três resultados favoráveis

A = {01011, 15555, 22444}

nurn total do 40000 resultados possIveis

= {00000, 00001 ......, 399991.


TEORIA DAS PROBABILIDADES

Aplicando 0 concoito c!ássico do probabilidade facilmente se obtem a proba-


bilidade do o jogador obter 0 primeiro prOmio:

3
40000

Admita-se agora quo, no dia da extracçâo, o jogador soubo acidentalmonte


que o nUmero premiado em primeiro !ugar era um nQmero par, embora não tivesso
ainda conhecimento do nUmero premiado. Qual será agora a probabilidade do
jogador obter o primeiro prémio considorando a informaçao adicional de que,
entretanto, tomou conhecimento? Isto é, qual a probabilidade do o jogador obter
O primeiro prémlo dado quo o nUmero premiado é par?

0 nümero de resultados favorávois O agora apenas de 1, uma vez que o


jogador apenas possui um bilhete com nUrnero par, enquanto quo os resultados
possivois passaram a ser de 20000 (a total de nUmeros pares nos 40000):

P[AIB]
= 20000
sendo
B: a primeiro prérnia saiu a urn nOrnero par.

A probabilidade anterior não ropresenta a probabilidade absoluta ou total do


A so roahzar (igual a 3/40 000 como se viu anteriormento), mas a probabilidade
de A condicionada pela ocorréncia de B, ou probabilidade de A dado B.
0 facto do ser dado B opera uma reduçao no espaço do resultados, que passa
de Q, constituldo por 40 000 resultados possIveis, para a próprio B, formado por
apenas 20 000 resultados. A probabilidade de A ontão será

P[AIB]
= 20000

Dividindo ambos as termos da fracçao por 40000 obtém-se


1
P[A!BJ = 40000
20000
40000
ficando

I) no denominador o nUmera de resultados favoréveis a B


sabre o nOmero total
de resultados poss(veis, isto é, a probabilidade do B;

no numorador o quocionto entro a nUmero do resultados favoraveis a


ocorréncia do A o B em simultâneo (A B) o 0 nUmero total do resulta-

dos possiveis, ou seja, P[A n B].


ES TA T1S TI CA APLICADA

Concluindo, a probabilidade do A dado B é igual a

1
P[A fl B]
- 40000 - 1
P[AIB]=
P[B] - 20000 - 20000
40000

Suponha-se agora a situação invorsa. No dia da extracção o jogador 4 infor-


mado de quo Ihe salu o primeiro prémio. Qual a probabilidade de quo o nQmero
premiado seja par?
0 quo so pretende conhecer 6 P [B I A]. Aplicando a definição de probabili-
dade condicionada:

P[B A]
P[BIA] =
P [Al

ou, porque a intersecção do acontecimentos 6 comutativa,

1
P[A '' B]
= 40000 1
P[BIA] =
P[A] 3 3•
40000

Considore-se quo a partir duma amostra efectuada sobre vários recém-nasci-


dos se obteve o seguinto quadro do probabilidade conjunta:

B1 B2

Al 034 0,17
A2 034 0,15

onde:

A1 - urn recérn-nascido esco/hido ao acaso é do sexo mascu//no;


A2 - urn recérn-nascido escoihido ao acaso é do sexo ferninino;
- urn recOrn-nascith,ao acaso tern o//os castanhos;
B2 - urn recOm-nascido esco/hido ao acaso não tern olhos castanhos
TEQRIA OAS PROBABILIDADES

A partir deste quadro podem-se definir:

- probabilidades conjuntas como, por exemplo, a probabilidade do recérn-


nascido ser do sexo masculino e näo for olhos castanhos:

P[A1 n 82] = 0,17

- probabilidades marginais (referentes a urn Unico acontecimento) corno, por


exemplo, a probabilidade do urn recem-nascido ser do sexo masculino
independentemento da cor dos olhos:

P[A1 ] = P[A1 fl Bj + P[A1 fl B2 = 0,34 + 0,17 = 0,51

- probabilidades condicionadas, por exernpio, do urn recern-nascido näo ter


olhos castanhos dado quo O do sexo masculino:

P[82 ( A1]
P[821A1] 0,17
P[A1] - 0,51 = 0,3(3)

P[82 I A1] é a probabilidade do 8


tendo em conta que o acontecimento
Al so realiza, ou seja, A1 passa a ser o acontecimento certo, corn proba-
bilidade 1 (P [A1 I A1] = 1) e 82 sO pode ocorrer quando ocorre
simultanearnente A1. Logo a probabilidade do A1 passa a ser redi-
82
mensjonada tendo em conta a probabilidade unitária do acontecimento
A1 no novo espaço do rosultados Q' = A1.

6.1. Axioniatjca e teoremas da teoria


das probabilidades
na probabilidade con dicionada

o conceito de probabilidade condicionada satisfaz todos os axiornas da


teoria das probabilidades introduzidos anteriormonte Assim, sendo B
urn acon-
tecimento tal que P[B] > 0:
1) P[A I B] > 0

DemonstracãO.

P[A n B]
P[A I B] par definiçào
= P[B]

mas P[A n B] ~: 0 pelo Axioma 1

e P[B] > 0 por hipótese

logo P[A I B] ~! 0 c.q.d.

2) PP 181 = 1

DcmonstracãO:

P[UB]
P[QIB]=
P[B]

- P[B]
-1
P[B]

porque Q é a elemento neutro da intersec9ã9de acontecimentos.

3) Se A1 e A2 são mutuamente exclusios (isto é, A1


n A2 = 0), então:

P[(Ai U A)I B] = P[Ai 18] + P[A2 18]


TEORIA DAS PROBAWLIDADES

Demonstragao:

P[(Aj UA2)IB]=
P[(A1 U A) nB -
98] -

P[(A1 fl B) U (A2
fl -
P[B] -

pela propriedade distributiva

= P [Ai nBJ+P[142n8j
P[B]

porque (A1 fl B) e (A2 ( B) são


mutuamente exciusivos, por A1 e A2 0
serem, donde

P ,'-- 8] P[A2 B]
P[(A1 UA2)lB]=_Th_-__+
P[B]

= PlAl 18] + P[A2 TB].

Ao obedecer a axiomatica da Teoria das ProbabilicJades, 0 conceito de


probabilidade condicionada satisfaz também todos os seus teoremas.
0

7.1. Probabilldade da intersecção de acontecimentos

A probabilidade de intersecção do dois acontecimentos, A e B, decorre da


probabilidade condicionada. De acordo corn o ponto anterior, da definiçäo do
probabilidade condicionada resulta quo

P[A B]
P[AIB]=
P[B]
[I

P[A B]
P[BIAJ=
P[A]

Assirn, das duas igualdades anteriores retira-se que


TEQAIA DAS PROSASILIDADES

Retomando 0 exemplo do jogador que compra três blihetes de Ioterja a sortear


na extracção do Natal, a probabilidade da intersecçao de B corn A, ou de o
jogador receber o prirneiro prOrnio e de este ser urn nürnero par (1/40000), tanto
pode obter-se tornando B coma condicionante

PIA n B] = P[A IB] P[B] =

- 1 20000
- 20000 40000 =
•1
- 40000

como inversarnente, tomando A corno condicionante

P[A '- B] = P[BIA] P[A} =

1 3
- 3 40000 =
1
- 40000

A probabilidade de intersecção de dois acontecimentos pode ser facilmente


generalizada a mais de dois acontecimentos se atendermos a associatividade
da intersecçao.

Generalizaçao a très acontecimentos:

P[A n B n C] = P[(A n B) fl C] =

= P[CI(A fl B)] P[A B] =

= P[CI(A B)] P[BIA] P[A].

69
ES TA TIS TI CA APLICAQA

Generalização a quatro acontecimentos:

P[AnBflCD}= P[(A n B - C) flD]=

= P[DI (An Bn C)] P[An Bn C] =

= P[Dl(AB n C)}.P[Ci(AB)J. P[BIAJ. P[A].

7.2. Acontecimentos independentes

Relacionado corn o cortceito de probabilidade condicionada está o conceito


de acontecimentos independentes.

co
TEORII4 DAS°ROBABILIDAOES

Do modo oquivalente, podemos dizer quo A e B são independenfes so e


sO se a seguinte condição for verificada;

P[AnB]P[A]P[B]

isto 0, so a probabflidade da sua intorsecção for igual ao produto das probabi-


Hdades do cada urn doles.

Para dois acontecirnentos independentes, podern enunciar-se os seguintes


teorernas:

Demonstre-se o primeiro:

A=A n Q [An(Bu@)j_(AflB)u(Afln)
logo

P[A}=P[(AnB)u(Afl)}_P[AflB] + p[An J

porque (A B) e (A '- B) são mutuamente exciusivos

P{AJ = P[A] * P[B] + P[A


,- B] porque A o Bsão independontes
ES TA TIE TI CA APLIGI4DA

me
P[A n B} = P[A] - P[A}. P[B] =

= P[A] (1 - P[B]) =

= P[A] * P[BJ porqueP[B] = 1 - P[8]

Então, dado que se demoristrou que

P[A n B] = P[A] * P[B]

conclui-se que, nestas condiçOes, A e B são acontecimentos independentes,


c.q.d.

De modo idêntico se poderiam demonstrar os dots ültimos teoremas.

Os acontecimeritos Al, A2, ..., An dir-se-ão independentes dois a dots se


verificarem apenas a primeira condição. Convém também referir que a óltima
condiçao e necessária mas nâo suficiente para que Al, A2, ..., sejam
independentes.
TEORIA DAS PROBABILIDADES

Suponha-se ) formado por 4 acontecimentos elernentares de iguaf probabiu-


dade:

{oii 2, (03, (04) corn P[o1} 1/4,


= =
/ = 1, 2, 3, 4.

Considerem-se os acontecimentos

A = {oii, w2} B = (o)i, (03) C = (Wj, (04)

Pretende-se verificar se Os acontecimentos A, B e C são independentes.

P{A B] = P[w1J - I
4

P [An C]=P[wj]--1-
4

P[B fl C] = P[w1] -

P[A]xP[S]-i_ •1
2 >< = 4

P[A]xP[C]-i_i_=i..

P[B]XP[C]=+xI_I

As condicoes anteriores garantern que os acontecimentos são independentes


dois a dois. Contudo,

PLA B C] = P[w1]
= + ~ P[A] P[B] . P[C] - I
8
Assirn, Os acontecimentos não são independentes entre si, embora o sejam
dois a dois.

73
ESTATISTIC.4 APLICADA

Seja a experiência aleatOiia que consiste no !ançamento de dois dados regu-


fares a distinguiveis, cujo espaço de resultados é o conjunto

(2, 1), (2, 2), (2, 3), (2,4), (2, 5), (2, 6),
(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6),
(4, 1), (4,2), (4,3), (4,4), (4,5), (4,6),
(5, 1), (5, 2), (5,3), (5, 4), (5, 5), (5, 6),
(6, 1), (6,2), (6, 3), (6,4), (6, 5), (6, 6), }

e Os acontecirnentos

A - a soma dos pontos dos 2 dados é par


B - a soma dos pontos dos 2 dados 6 mO/tip/a do 3
C - a soma dos pontos dos 2 dados é major qua 9

Corn probabilidades

P[AnBnC]=*

Como se pode verificar PEA -' B -' C] = P[A] P[B] P[C]. No en-
tanto, apenas os acontecirnentos A e B são iridependentes, sendo A e C, e B e
C dependentes entre si, pois

P[A B] = P[A]

P[A Cl # P[A]

P[B n Cl # P[B]

14
TEORI49AS °BABIL/DADEs

Em experlOncias aleatOrias Iigadas a jogos de azar é, em geral, fadl verificar


a existéncia ou não de independencia dos acontecimentos. Noutros casos,
porOm, sO depois do exame rigoroso de todas as condiçOes se poderá concluir
acerca da independencia dos acontecimentos.

Uma caixa contOm 100 peças sendo 10 defeituosas. Considere-se a expe-


riência aleatOria que consiste em extrair sucessivamente duas pegas da caixa.
Pretende saber-se a probabilidade do acontecimento:

A: a primeira peça é não-dcfeituosa e a segunda 6 defeituosa.

Para calcular esta probabilidade é necessário atender as duas situaçOes


possiveis: aquela em quo a extracção da segunda se efectua sem que a primeira
seja reposta na caixa (extracçao sem reposicao) e quando a extracção da segun-
da peça so se efectua depois da primeira ter sido reposta na caixa (extracçao
com reposiçao).

-Extracçao sem reposigão.

Sejam os acontecimentos: Di: a primeira peça 6 deleituosa


02: a segunda peça 6 deleituosa
então

Por se tratar de uma extracção sem reposiçao, os dois acontecimentos são


dependentes, Logo

P[A] = P[D1 n Dfl =

= P[D2 I DI P[D j ] =

10 90
- 99 100 =
900
9900

-Extraoçao com reposiçao.

Agora os acontecimentos elementares D1 e 02 são independentes pois a


primeira peça extraida e reposta e a probabilidade de D2 nao se altera pelo facto
de D1 ter ocorrido. ApOs a primeira extracção, a caixa volta a ter 100 peças, das
ES TA TIS TI CA APLICADA

quais 10 são defeituosas, isto ó

P[D2 I D,= PfD2 J - --


- 100
Então
P[A] = P[b1 nD21 =

= P[b1 j P[D2 }=

90 10
- 100 100 =
900
- 10000

73. Acontecjmentos independentes versus


acontecimentos incompatIveis
ou mutuamente exciusivos

Sejam A e B dois acontecimentos tais que

P[A] > 0 e P[B] > 0,

- no caso dos acontecimentos serem incompatIveis (mutuamente exciusi-


vos) tern-se, por definiçao, (A B) = 0 e, consequenternente,

P [A '-' B] = 0. Os acontecimentos não podern ser independentes

pois, para tal, e por definiçao de independOncia, seria


P[A B] = P[A] P[BJ > 0, pois arnbos os acontecimentos tern
probabilidades não nulas.

- no caso dos acontecimentos serem independentes não podem ser mu-


tuamente exclusivos, pois se são independentes então,
P [A B] = P [A] . P [8] 6 major que zero; para serem simultanea-
TEORIA DAS PROSABILIDADES

mente mutuamente exciusivos esta probabilidacle teria de ser nula, facto


impossIvel a náo ser que algurn dos acontecimentos tivesse prob-
abiUdade nula, o que nâo O o caso.

Assim em geral, dois acontecimentos não podern ser simultanearnente


independentes e mutuamente exciusivos. Existe, no entanto, urn caso particu-
lar ern que tal pode ocorrer: é 0 caso ern que urn dos acontecimentos ó
impossIvel, porque este é sernpre independente e mutuamente exclusivo de
todo e qualquer outro acontecirnento possivel.
o conceito de probabilidade condicionada revela-se muito importante e do
larga utilização quando se conhecem probabilidades condicionadas nas quais
Os acontecimentos condicionados definem uma partição em Q.

f0
TEORIA DAS PROBABIL/QADES

8.1. Teorema da probabiidade total

Demonstração

=Bn (Al UA2U... U An) =

n
=Bfl u A1 =
1= -I

=L) (BA).
/=1

Dado que Os Ai são mutuamente exciusivos, então Os acontecimentos


(B Ar), 1=1,2,..., n, tambOm o são; logo

n n
P[B] =P U (B n A1 ) = P[B fl Ai =
1=1 1=1

p
= P[Afl x P[BJA1 ]. c.q.d.
/=1

79
ES TA TIST/CA APLICADA

Diagramaticamente corn n = 5

P[B ] vem igual a soma das probabiiidades dos acontecimentos sombrea-


dos no diagrama, isto é, dos acontecirnentos (4' fl B), corn 1=1,2,3,4,5.

8.2. FOrmula de Bayes

Demonstração

P[Aj fl B]

= P[A1] x P[BIA1]
n
, P[AJ x P[BIA]
i= 1
TEORIADAS PROBABILIDADES

por definiçâo do probabilidado de intersecção do dois acontecimentos (no


numerador) e polo teorema da probabjilciade total (no denominador).

Uma fábrica de cachimbos utiliza 3 máquinas de acabarnento corn volume


diário de produçâo, respectivamente, de 500, 1000 e 2000 unidades. De acordo
corn a experléncia anterior sabe-se que a percentagern de cachimbos defeituosos
originados por cada máquina é, respectivarnente, de 0,005, 0,008 e 0,01.

Sabendo que urn cachimbo foi encontrado defeituoso pretende apurar-se qual
a rnáquina que, corn major probabilidade, Ihe terá dado origern e qual a que tern
menor probabilidade de o ter gerado.

Para resolver o problema devernos em primeiro lugar definir todos os aconte-


cimentos.

Al - Urn cachimbo esco/hido ao acaso da produçao diana [of produzido pc/a


rnAquina 1
A2 - Urn cachimbo esco/hido ao acaso da produçao diáda fof produzido pc/a
rnáquina 2
/43 - Urn cachimbo csco/hido ao acaso da produçao diana 101 produzido pc/a
rnáquina 3

B - Urn cachimbo csco/hido cc acaso da produçäo diana é defcituoso

Pretendernos calcular as P [A1 I B] (I = 1, 2, 3) e ordená-Ias por ordern de-


crescente.

A1, A2, A3 definem uma partição ern Q visto que


3
Apenas as rnáquinas 1, 2 e 3 produzern cachimbos, isto é, uA1 =
i=1

ii) Urn cachimbo que é produzido numa máquina nào é produzido noutra,
A 1 A1=ø, 17±J 1,1= 1,2,3.

O Qualquer uma das máquinas produz cachimbos, P[A1] > 0, / = 1,2,3.

As informaçoes fornecidas no enunciado vâo permitir utilizar a fOrrnula de


Bayes, para o catculo das probabilidades pretendidas.
ESTATISTICA APLICADA

Sabe-se pelo enunciado quo a probabilidade de cada cachimbo ter sido


produzido por cada urna das rnáquinas é:

- 500 -
P[A1J
— 3500 - 7

- 1000 -
P[A21
- 3500 - 7

- 2000 -
P[A33
- 3500 - 7

Conhecern-se tambérn as probabilidades do urn cachimbo ser defeituoso,


dado que foi produzido nurna determinada rnáquina:

P[BIA1 ] = 0,005

P[81A2 ] = 0,008

P[81A3 ] = 0,010

Construindo urn quadro:

.4i P[A,J P[BiAi] P[A,].P[BIAi ] P[A1IB}

Al 1/7 0,005 0,0007 0,08

A2 217 0,008 0,0023 0,26

A3 4 0,010 0,0057 0,66

1 P[B]=0,0087 1

Note-se que P[B] foi calculado recorrendo ao teorerna da probabilidade total.

Do quadro anterior retira-se quo a probabilidade do urn cachimbo ter sido


produzido pela rnáquina 3, sabendo quo é defeituoso, é do 0,66; a rnesrna
probabilidade para a rnáquina 2 é do 0,26 e para a rnáquina 1 de 0,08.

Corn base nestes resuttados, a ordern do inspecçao das rnáquinas dovera ser:

ern 19 lugar a rnáquina 3,

em 29 lugar a rnáquina 2,

em 39 lugar a máquina 1.

LI

MA
Calcu!e P[A B I A]

R: 0,5

2. Considere Os seguintes acontecimentos definidos em ft A1, A2 e B em que

P[A1 I B] = e P[A2 I B]
=f
Comente as seguintes afirmaçoes:

a) "A1 e A2 são acontecimentos mutuarnente exciusivos".

b) <CAl e B são acontecimentos mutuarnente exciusivos'>.

R: a) Nada se pode concluir corn a infonnaçao disponIvel;


b) Al e B não podern ser mutuamente exciusivos, logo a afirmaçao é falsa.

3. Trés caçadores atiram a um pato de forma independente sendo de ½, 1/3 e


1/4
respectivamente a probabilldade de acertar no alvo.
Qual a probabilidade de que:
a) o pato seja atingido?

b) o pato seja atingido por pelo menos 2 caçadores?

R:a)+; b) -fr.

4. Dos trés fornecedores de certo produto para urna loja (em panes de 30%,
50% e 20% respectivamente), todos fornecern produtos corn deficléncias, sendo
a percentagern de produtos defeituosos sobre o total fornecido P01 cada urn deles
de 7%, 5% e 4% respectivamente.

a) Tendo comprado um produto nessa loja e verificado que apresentava defi-


ciéncias, qua! o seu fornecedor mais provável?
b,) Qual a probabi!idade de um determinado produto escoihido ao acaso ter
vindo do 12 fornecedor e apresentar deficiencias?

R: a) 0 22 fornecedor; b 0,021.
APLICADA

5. As familias da cidade A escoihem uma das trés alternativas para fazer férias:
praia, campo ou ficar em case.
Durante a ü!tirna decada, verificou-se quo escolhiam aquelas alternativas
respectivarnonto 50%, 30% e 20% das familias da referida cidade.
A probabilidade de descansar durante as fOrias ostá ligada a altemativa esco-
Ihida: 0,4; 0,6 e 0,5 conforme so tenha ido para a praia, para o campo ou ficado
em casa.
a) Qual probabilidade do uma farniHa da cidade A descansar durante as
férias?
b) Sabendo quo determinada farnflia descansou durante as fOrias, qual a
alternativa mais provável do ter sido escoihida por esta familia?

R: a) 0,48; b) a altemativa mais provavel é a praia.

6. Considere duas caixas A e B.


A caixa A tern duas bolas verdes e uma branca e a Stem duas bolas verdes
o duas brancas. Uma destas caixas é seloccionada ao acaso. Dues bolas foram
rotiradas também aloatoriamonte o verificou-se quo a primeira era branca e a
segunda tambOm, tendo-se reposto a prirneira bola depois do so verificar a sua
cor.
Calcule a probabilidade do ter sido seleccionada a caixa A.

R: 4
13

7. Urn estudanto efectuou urn tosto do resposta mUltipla. Para as questöes


colocadas no testo, o estudante ou conhece a resposta e nesse caso dá a
resposta corrocta ou nâo conhece a resposta e nosse caso tenta adivinhar na
esperança de acertar na resposta certa.
Considere ainda quo existam 5 alternatives de resposta que são igualrnente
p1 ausiveis.
Coloque-se no lugar do professor.
Sabendo quo o ostudanto acortou na resposta correcta, qual a probabilidade
do quo o estudante conhocosso do facto a resposta certa?

R: p
1

8. 0 rnercado do serviço te!emovel está dividido entre duas empresas, CELUM


e CELDOIS, corn quotas, respectivamente, do 60% 040%. 0 organisrno regulador
encornondou um estudo do opinião do rnercado do qual conclui quo:
- 70% dos utilizadores do serviço telemOvel estão satisfeitos,
- dos cliontes do CELUM, 80% ostão satisfeitos.
TEORIA DASPROBAB/LIDADES

a) Qual a porcentagorn do clientos do CELDOIS que estão satisfoitos?


b) Qual a divisao do morcado, dontro dos clientos satisfeitos?
c) Qual a probabilidade do encontrar urn clionte que tenha contrato corn a
CELUM e so sinta insatisfeito?

R: a) 55%; b) 68,57% e 31,43%; c) 0,12

9. A ornprosa Omega produz bons do equiparnonto. A sua produçâo dostina-so


a dois rnercados oxtomos: Estados Unidos da ArnOñca (25%) o Franca (15%). A
restante produçäo é vendida intornarnonto.
Estudos efectuados pormitirarn concluir quo 20% dos bons produzidos para
Franca sofrorn do poquonas anornalias, onquanto quo 30% dos bons corn ano-
malias so destinarn ao morcado forte amoricano. Sabo-so ainda quo a
percontagom do bons corn anornalias dostinada ao morcado intorno é motade da
quo so destina ao morcado norto arnoricano.
a) A omprosa confrontada corn osta situaçao dofondo quo no rnáxirno sO 4%
da sua produçâo apresonta anomakas. Comonto osta afirrnaçâo.
b) So so constatar quo detorrninado born aprosonta anornalias, qual a proba-
bilidado do sor consurniclo intornarnonto?
R: a) incorrocta (e do 5,45%); b) 0,15

10. Nurna sa!a do rouniOos temos 4 gostoros cada urn doles idontificado corn o
norno co!ocado nurn dIstico sobro a mesa. A hora do alrnoço a ornprogada da
!irnpoza abriu inadvortidarnonto urna janola fazondo voar os dIsticos, quo so
rnisturararn corn rnais outros solo quo so oncontravarn noutra mesa corn nornos
diforontos.
a) Qual a probabilidado do a ernprogada acortar nos nornos dos quatro gos-
toros quando vo!tar a colocar os dIsticos orn dma da mesa?
b) Sabondo quo a ernprogada acortou nos quatro nomos, qual a probabuidado
do os colocar nos lugaros cortos?
Fl: a) 24/5040; b) 1/24

11. Sojarn os acontocirnontos A1, A2 o A3 corn probabilidados do ocorréncia di-


ferontos do zero. Sabo-se quo:
(I) P[A1 ] = 0,12, P[A2] = 0,10 o P{A2 -- A31 = 0,05

(II) A1 é rnutuarnonto oxclusivo quor corn A2 quor corn A3


(ill) Dois dos acontecirnontos roforidos são indopendontos.
Calculo: P{A1 u A2 u A3].
Fl: 0,67.
ESTATISTICA APLICADA

12. Considore A1, A2, A3, acontecimontos quo constituem urna partição do os-
paço dos rosultados.
Sendo as probabilidades de A1, A2 e A3 respoctivarnonto iguais a 0,5; 0,3 e
0,2 e sendo B urn outro acontocirnonto pertenconte ao mesrno espaço de rosul-
tados, diga just ificando se e possIvel tor:

P[A1 18] = 0,6 P[A2l8] = 0,2 e P{A31 B] = 0,5.

R:Não; P[A1IB] ~ 1.

13. De urn grupo do peças, 3 são dofeituosas e 7 são boas. So escolher 3 ao


acaso, qual a probabilidade do olas serorn todas boas?

Fl: 0,29167.

14. Mum toste do resposta rnültipla corn 4 altomativas, sobro 20 questOes, qual
a probabilidade do urn ostudanto obtor nota superior ou igual a 7 valores, se
responder ao acaso o as porguntas forern igua!rnento pontuadas corn 1 valor?
Fl: 0,21 43.
!14ks4Vi*iM7jj
S
Li. Enquadramento e exemplos
Se bern que muitas experiêricias aleatórias tenharn resultados quantitativos,
sin O, dOern origern a urn espaço de resultados Q cujos elementos são
conjuntos de nümeros reais, outras ha em que tal não acontece. Vejamos trOs
exernplos da primeira situação.

Seja a experléncia a!eatOria que consiste na observaçao do tempo que decorre


entre a chegada do duas chamadas telefOnicas consecutivas a uma determinada
central telefOnica. Então, £1 virá:
92 = {t: t > 0)

Seja a experiência aleatOria que consiste na observaçao do volume do vondas


diário do três pontos do venda de urna empresa. Entao, Q sera

U = {(v, v2, v3) : v1 ~: 0, I = 1, 2, 3)

Seja a experléncia aleatOria que consiste na observaçao do Ultimo digito do


Indice da Bolsa de Valores de Lisboa. Entäo, U virá

U = {0, 1, 2.....9}

0
E, agora, trés exemplos da seguncja situaçao.

Seja a experlencia aleatoria que consiste no controlo de qualidade de compo-


nentes electronicos: num lote grande de componenfes escolhem-se trés ao acaso
0 analisam-s • Entao, se designarmos por
D - o componente é defejtjjos
N - o componente não 6 defeituoso,

N) ; (N, N, D); (N, 0, N); (0, N, N); (


0); (D, D, N); (0, D, D)}.

Seja a expenencia aleatoria que consiste no registo da percepçao que urn


cliente, escojhjcjo ao acaso, tern acerca da qualidade do serviço pOs-venda da
ernpresa Sx Lda. Então, por exemplo, virá

= { Boa, Media,

Seja a expedencja aleatoria que consiste na escoiha casual de uma das quatro
ernpresas que controlavam 0
mercado de serviços de telecornunicacoes em
Portugal:
= { Telecom Portugal, CPRM,

Em qualquer das situaçöes podemos estar interessacjo (e é essa, alias, a


questao qua nos preocupa nesta abordagem) em determinar as probabijidades
da 000rréncia de um acontecimento ou conjunto de acontecimentos, definidos
no âmbjto de uma dada experlOncia aleatoria. Ora, esse objectivo e a oonse-
quente aplicaçao de mëtodos estatIsticos passam, normalmente pela
quant/flcaçaa
dos resultados dessas experiencias. Isto é: o cálculo de pro-
babilidades 6 muito mais expedito quanclo, a cada acontecimento ou conjunto
VAR/A VE/SALEA TORIAS

do acontecirnentos da experlOncia aleatOria Corresponde urn nUrnero (real).


E Justamente no estabelecirnento de uma tal correspondência quo reside o
come da questão. Assirn, podemos defjnjr 0 COflcejto do
var/ayel a/eatoria do
modo que so segue.

Uma var/aye! a/eatoria (unidirnensionaQ, geralmente designada por


XQ, e uma função que a cada acontecimento w do espaço de resultados,
faz corresponder urn valor real, x = X(w).
E assirn uma função de dorninio 2 e conjunto do chegada
/R 1 .
Classificarn-se ainda as variávejs aleatOrjas em discretas e contInuas:
X (.) será discreta so o seu contradominjo for urn conjunto finito ou
infinito nurnerável e será continua so o seu contradorninjo for urn conjunto
infinito não nurnerávef 2

Diagramaticamente:

92
IR

(0 1

x=X(co1 )

onde co, e 2 e x designa o valor que a variávI aleatoria X(.) assume.


Veja-se a aplicaçao deste conceito aos exemplos dados atrás. Para abreviar,
omite-se aqui a descriçao da experiencia aleatOria subjacente. Fassar-se-a,
tarnbérn, a usat- as expressoes V.A. Xou Xpara abreviar a referencia
a variável
aleatoria X(.) 3.

Para o caso de varjävejs aleatOrjas unidimensionaja. Pare asvaridveis fllultjdjmensjonajs verponto


1.3.

2 Fala-se ainda de variávejs aleatOrjas mistas quando resulfam de uma combinaçao de várias
variãvejS aleatorjas umas discretas e outras Conhinuas.
Está subjacente a cada valor assumjdo par Xum aconteciniento (ou conjunto de acontecimentos)
probabilizavel. Mesmo quando a V.A. for apresentada sem referenda a uma determinada expe.
riencia aleatOria, nAo deve esquecer-se a sua genese>
Q = {t: t > O}
X - tempo entre duas chamadas tale fonicas qua chegam a uma mesma central
telefónica.

X(12) = {x1:x j > O}

/
LI

12 = 01, v2, v3):vj ~! 0, /= 1,2,3}

X - soma das vendas dián'as dos trés pontos de venda de uma empresa.

X(Q)= x1 :x1 = vi
1=1

ou

Y— méximo das vendas dfárias...

Y(Q) = {yj:y1 = max {v1,v2,v3}}

ou

Z - amplitude das vendas diárias...

Z(Q) = {Zj = max {v1, v2, v3} - mm {v1, v2, v3})

LI

12 = {O,1,2,..9}

X - valor do dig/to observado.

X(Q) ={x1:x1 = 0,1,2.....9}

U
Exemplo 4 (continua cão)

= {(N, N,N),(N, N, D), (N, D,N),(D, N, N),(N,D, 0),


(0, N, 0), (D, D, N), (D, D, D)}

X - nUmoro do peças defoituosas em cada amostra aleatoria do trés peças.

X(Q) = {O, 1, 2, 3) pois

g=V,Y)

{co1} (xj :xj = X(co1) = 0,1,2,3)

(N,N,N) $0
(N, N,
(N,0,N) $1
(0, N, N)
(N, D, D)-
(D,N,D) $2
(D, 0,
(D,D,D) $3

1-1

Exemplo 5 (continua cáo)

- (Boa, Media, Ma ) X - Classiflcação da empresa

Corisiderando
1 - Ma
2 - Media
3 - Boa

X(Q) = (1,2,3}

fl

93
Q = {T.P., CPRM, TLP, 1)
X - volume do vendas, em 1993, de cada uma das empresas (em 10 9escudos)

X(Q) = {20, 60, 1001 sendo X(T.P.) = 100


X(CPRM) = 60
X(TLP) = 60
X(T) = 20
Y— nOmero do empregados, em 1993, do cada uma das empresas (em 103
unidades)
Y(c2) = (2, 3, 4, 6), sendo Y(T.R) = 6
Y(CPRM) = 3
Y(TLP) = 4
Y(T) = 2

1.2. Cdicuio do probabi/idados atravOs


do vai-iáveis aleatOrias

Como foi visto no ponto anterior, a cada acontecirnento de Q O possIvel


fazer corresponder urn nUrnero real x - 6 o princIpio subjacente a génese do
uma variávelaleatrjrja. -
Então, o objectivo que se pretende agora atingir é calcular probabilidades,
não corn base nos próprios acontecimentos, mas sirn nas suas irnagens -
valores assumidos pela variável aleatOria. Ou seja, pretende-se saber corno
<<transferir" a probabilidade de ocorréncia de urn determinado acontecirnento
A, P[A], para a probabilidade de X(A) assumir o correspondente valor
X, P[X=x].

No exernplo 4 deste capItulo, anatisavarn-se lotes de 3 cornponentes elec-


trOnicos, verificando se estes erarn defeituosos (D) ou não defeituosos (N).
Construirido a variáve! aleatOria X - nümero do componentes defeituosos,
em 3, e definindo o acontecirnento A corno

A = {(N, N, D), (D, N, N), (D, N, N)},


VAR/A VEISALEA TOn/AS

O obvio que P[X = 1] = P[A].

Então, coma P[A] será P{X = 1} = -


= f,
No exemplo 6, onde se escolhia aleatOriamente 1 das 4 empresas de
telecomunicaçöes, e considerando a variável aleatoria Y— volume de vendas,
em 1993, ter-se-6

P [X = 60 } = P [escolher uma empresa cujo volume de vendas em 1993


seja igual a 60 milhoes de cantos.]

= P(escalher CFRM ou escolher TLP)

1 1 2
= -4-+-- = -

De urn moda geral, pademas afirmar que a prababilidade de uma variável


aleatOria Xassumir urn valor cancreto x igual a probabilidade de realizaçao
do acontecimento A cuja imagern dada par X (.) é x. Temos assim a seguinte
definição:

P[X= x] = P[A]

onde A = E 12 X(o) = x}

Diagrarnaticamente

onde

P(X = xi) = P(wj v (0j)

P(X = '(2) = P(cok)


1.3. Variãveis aleatOrias unidimensionajs
e bidimensionais

Ate aqui tern-se vindo a falar, implicitamente, em variáveis aleatOrias unidi-


mensionais, já que a correspondencia se faz de 112 para IR, isto O, x c IR.
Mas se se estiver interessado em conhecer duas ou mais caracteristicas de
uma população sirnultanearnente, a correspondOncia será entre 112 e IR' (onde
n é o nümero de caracteristicas que se deseja conhecer sirnultaneamente).
Surge assim a seguinte definição:

Considere-se o seguinte exemplo:


Seja o universo o conjunto de alunos, candidatos ao curso de Gestâo, e
que tiveram de efectuar provas especificas de Matemática e de Economia.
A experiOncia aleatOria consiste em tomar ao acaso um destes indivIduos
(e anotar as notas obtidas nas referidas disciplinas).
E possIvel então fazer corresponder a cada indivIduo urn par de valores
(x, y) onde
x— nota da prova especifica de Matemática
y - nota da prova especifica do Economia
com 0 :~ x, y !~ 100.

Define-se assim a variável aleatOria


W = (X, Y) nota da prova especIfica de Matemática e nota da prova especifica
-

do Economia, corn W(cI) = {(x, y): x, y = 0, 1, 2, ..., 100}.


W é uma variável aleatOria bidimensional: não interessa conhecer, para
cada aluno, uma das notas, mas sim as duas, simultaneamente.

.
M
VAR/A VEISALEA TORIAS

Em resumo definem-se duas variáveis aleatOrias unidimensionais


X - nota da prova especifica do Matemática
Y— nota da prova especIfica de Economia
sobre a mesmo espaço de resuitados consideradas simuitaneamente
W=(XI Y).

Veja-se outra exemplo de variávei aleatOria bidimerisional:

Considere-se a experiência aleatOria que consiste no Iançamento de duas


moedas e no registo do resultado que so observa: F (face) ou C (coroa), da
primeira e da segunda moedas, e cujo espaço do resultados O

= {(F,C),(C,F),(F,F),(c,c)}
Definindo
X - nOmero de faces na primeira moeda
V - nUmero de faces na segunda moeda,

facilmente se conclui que x = 0,1 e y = 0,1.

Passando agora ao campo bidirnensiona!, podernos definir a variável aleatOria


(bidimensionat) Z = (X, V) como

Z - nümero de faces na primeira moeda e nümero de faces na segunda


moeda.
Então,
Z() = {(1, 0), (01 1), (1, 1), (0,0))

e pode revelar-se a correspondencia intima entre cada elernento de 2 e urn


vector de 1R 2

Q 'z=(x,Y)

Z 1R 2

(F, C) .- (1,0)
(C, F) (0,1)
(F, F) ,. (1,1)
(Cl C) (0,0)

97
ES TA TISTICA APLICADA

Em termos gerais, e diagramaticamente, tern-se a correspondencia entre


cada elemento do espaço dos resultados e urn par de nUmeros reais.

12
Y

(X, Y)

Li

A aplicaçäo do cálcuio de probabilidades é análoga a descrita para as


variáveis aleatOrias unidirnensionais:

o estudo das variáveis aleatOrias multi-dimensionais será retomado mais


adiante. 0 ponto seguinte debrucar-se-a novarnente sobre o caso unidimen-
sional.
Fun çöes de probabilidade
e de distribuição
de variáveis aleatórias
unidimensionais

2.1. Variáveis aleatOrias discretas


2.1.1. Fun ção de probabilidade

Já foi visto qua a cada elemento x E IR (de uma varidvel aleatOria X) e


possivet associar uma dada probabilidade. introduz-se agora urn conceito
através do exemplo que se segue: o concefto de funçao de probabilidade.

Exemplo 8

Seja a experléncia aleatória que, corn a objectivo de controlar a qualidade dos


iogurtes que saem duma linha de produçao, consiste em analisar 4 retirados
aleatoriamente. Se se designar par B - iogude esta em born estado e por E -
iogurte está estragado, a árvore seguinte descreve os resultados possiveis:
ES TA TISTICA APLICADA

12 28 39 49 Sequencia

B '- B, B, B, B
B
E s B,B,B,E
B
—*- B, B, E, B
Eczzc
E QB,E,E

B "B,E,B,B

: E
__B,E,B,E

'
/B<E<
B B,E,E,B
E B,E,E,E

B s E,B,B,B

\ E
B <

E
B
E
E -'-

- E,B,B,E

E,B,E,B

E,B,E,E

<< E B
B

B i
) E,E,B,B

E, E, B, E

E,E,E,B
E sE,gE,E

donde se retira que o espaço de resultados desta experiência aleatória e


Q={(B, B, B, B),(B, B, B, E).....(E, E, E, E)}.

Definindo a variável aleatOria X corno

X - nOmero do iogurtes estragados, numa amostra do 4,


tern-se que X pode assumir o valor 0, 1, 2, 3 ou 4

e 4 possIvet entâo calcular a probabilidade de que X assurna cada urn destes


valores. Por exernplo:

P[X= OJ = P[(B, B, B, B)] =


16

P[X=1]=P[(B, B,B,B) ou (B, B, E, B) ou (B, E, B, B)

ou (E, B, B, B)] —
— 16
VAR/A VEtS ALEATóRIAS

Defina-se agora uma funçao de x, de IR em IR, da forma

f(x) = P[X= x]

do daminlo IRe conjunto do chegada [0, 11 c IR, que se designa por função de
probabilidade de K Para o exemplo acima, será

X x=O x=1 x=2 I x=3 x=4

16 16 16 16 16

A sua representação grafica será

A função introduzida no exemplo anterior designa-se por função de proba-


bihdade, e pode ser definida para qualquer variável aleatOria discreta X:

Funçäo de probabilidade 1(x) de variavel discreta X

Se X 6 uma variavel aleatoria discreta, que assume valores distintos


x1, x2, , x,, , então a função representada par f(x) e definida par

IP[X=x] se x=x
1 = 1, ?
se x x
ESTATISTICA APLICADA

E, assim, uma funçäo que associa a cada valor x1 da V.A. a probabilidade


que the corresponde (e que é a probabilidade do acontecimento X 1 (xi),
imagem inversa de Xj em Q) e o valor zero a todos os outros valores de
X.
Como 1(x) corresponde a uma probabilidade, facitmente se verifica que ela
assume sempre valores não negativos e que a soma de todos Os valores que
eta pode assumir, correspondente a probabilidade de acontecimentos que
esgotam o espaço de resuttados, é igual a unidade.
Alias, todas as funçOes de IR em IR que verificam estas propriedades
podem ser consideradas como funçào de probabilidade de alguma V.A., abs-
traindo da referenda a experiência ateatOria:

Considere a seguinte expeiléncia ateatória:

- Observaçao do nümero de tetefonernas recebidos no ponto de atendimento


de uma empresa de telemarketing ate aparecer urn cornprador seguro do
produto.

0 espaço do resuitados será 0 = (1, 2, ...,


VARIAVEISALEATORIAS

Defina-se agora a variáve! aleatOria


X - nOmero do to/c fonernas recebidos no ponto de atendirnento do uma
empresa do telemarketing ate aparecer urn comprador seguro do produto
x = 1, 2.....

Este e urn conjunto infinito nurnerável, sendo portanto Xurna V.A. discreta. E
possive!, entâo, calcular a probabilidade desta variável assumir urn determinado
valor X = x

P [X = x] = P [tar do observar x telefonemas ate aparecer


urn cornprador seguro]

Esta-se perante urna sequOncia do tipo

NNN ... N ... s


x te!efonernas
onde,
N - to/c fonema do não cornprador
S - te/efonerna do cornprador

Pressupondo qua p é a probabilidade do chegar urn telefonerna do comprador


seguro (S) e, obviarnente, 1 - p a probabilidade de o telefonerna ser de nao
cornprador (N), pode-se escrever:

p)Xl
P[X = x] = (1 - p

Seja, por hipótese, p = 0,2, isto O, estirna-se em 20% a proporção de telefo-


nemas de compradores seguros. Então:

P[x = 11 = p = 0,2

P[X= 2 = (1 - p) p = 0,16

P[X= 3 = (1 - p)2 p = 0,128

P[X= 20] = (1 - p)19 .fl.kIJ'fijtJfl;I

103
Graficamente esta situação será:

P ()

0,2

0,1
\

1 2 3 20 x

2.1.2. Fun çäo do distribuição

Corn a funçáo de probabihciade pode-se calcular, para cada porito x, a


probabilidade da sua ocorréricia.
No entanto muitas vezes importa conhecer, de forma expedita, a probabili-
dade de X assurnir urn conjunto de valores. For exemplo, se interessasse
conhecer a probabilidade de qua houvesse no máximo urn logurte estragado
em cada arnostra recoihida (exernplo 8), calcular-se-ja
P[X= 0 v X= 1] = P[X= 0] + P[X= 1] =

=f(0)+f(1)= Y, 1(x).
x= 0

Ou, no exernplo 9, como o dimensionarnento da capacidade de atendjrnento


depende do nUmero de chamadas que é necessário receber ate fazer urn
negOcio, pode ser necessário calcular a probabilidade de que esse valor seja,
pelo rnenos, igual a 3. Então,

2
P[X~:3}= 1 —P[X<3]= 1-1 1(x)= Y ,
1(x)
x=1 x=3

Estes exernplos ilustram a génese de urna função que, de forma bern


definida, "acurnuIe> probabilidades, isto é, valores de f(x) e a que se charna
funçao de distribuiçao de uma variável aleatOria.
ALEATORIAS

Tern-se então a seguinte definição:

Define-se função de distribuição, F(.), de uma variavel aleatOria corno

F(x) = P[Xf~ x]

Esta funç5o1 tern dornInio em IR, conjunto de chegada em [0, 1] e


verifica as seguintes propriedades:

a)0~F(x) 1, k/xe IR

b) F(x2 F(x1), V x1, x2 corn x2 > xi

isto é, FC) é uma função monótona não decrescente

C) tim F(x)=0 e tim F(x)=1


X-8—oo

d) P[x1 c X x2} = F(x2 ) - F(x1), V x1, x2 corn x2 >

Esta definiçào O válida tambérn para uma variávet aleatOria continua.

Veja-se, com auxIlio do exemplo 8, como se pode construir e representar


graficamerite uma função de distribuição de uma V.A. discreta.
Sendo X - nUmero de iogurtes estragados numa amostra de 4

x= 0, 1, 2, 3, 4

a sua função de distribuição toma os seguintes valores:

F(0) = P[X :~ 0 = P[X = 0 = f(0) =

F(1) = P[X :~ 11 = P{X = 0 + P[X = 11 = f(0) + f(1) =

1 4 5
- 16 + 16 - 16

1 Mais correctamente, F) e uma funçao tie conjunto, que faz corresponder a cada intervalo
-cc, x[ a probabilidade da sua ocorréncia.
F(3) = P[X:!~ 3] = 1(0) + f(1) + 1(2) + 1(3) =

1 4 6 4 15
16 16 16 16 16
\

F(4) = P[X :5 4] = f(0) + 1(1) + 1(2) + f(3) + 1(4) =

1 4 6 4
16
e, para x> 4,

F(x) = P[X :~ x} = F(4) = 1.

Note que, por exemplo,

F(3)=P[X 3]=F(2)+f(3) 11_±- 15


16 16 16

1
F(4)=P[X 4}=F(3)+f(4)_ _+_L1
16 16

F(3,5) = P[X:~ 3,5} = f(0) + 1(1) + 1(2) + f(3) = F(3)

Entao virá,

x<O

I 16 x <1
15
1 <x<2
F(x ) =Th
11
2 x< 3
16
15
3 4
16
1 x>4
VARIAVEISALEATORIAS

o gráfico tIpico de urna funçao de distribuiçao de uma variável a!eatOria


discreta é <<em escada".

5/16

1/16

E agora imediata a resposta a questão colocada no infcio deste ponto. A


probabilidade de haver no máximo urn iogurte estragado é dada por

F(1) == 0,3125.
16

2.2. Varidveis a!eatôrias contInuas


Para abordar o caso das variáveis aleatOrias contmnuas, e conveniente
introduzir alguns exemplos:

X - consume anual do en erg/a oléctrica para fins domesticos, numa detormi-


nada rogi&o (em 109 KW).

Y - tempo do espera, cm minutes, numa para gem de autocarro, ate aparocer


urn autocarro.

I
ES TA TIS TI CA APLICADA

Z— duração, em horas, de certo tipo de Iampadas.

Ti
Sendo X urna var/ayel aleatória contInua, toma valores nurn conjunto con-
tInuo. A aplicação do conceito de funçào de probabilidade a urna infinidade
não nurnerável de valores leva a que P[X = x] = 0, para qualquer x, isto O
a probabilidade pontual O sempre nula, o que nào implica que o acontecimento
seja impossIvel - quer tao so traduzir que é nula a probabilidade de "acertar
exactamente no valor X = x (os valores de X são "tantos
... urn nümero
-

infinito não numerável - que a <cdivisão da unidade" probabilidade do


-

universo -por todos eles leva ao resultado indicado).


Note-se, no entanto, que não são nulas as probabilidades definidas sobre
interialos.
Para as calcutar, recorre-se ao conceito de função de distribuição introdu-
zido em 2.1.2.
Note-se que a função de distribuição de urna variãvet aleatOria continua é
uma função absolutamente coritmnua. Tal caracteristica permite verificar facil-
rnente o facto da probabilidade pontual ser nula. Como

P[X=x]:~P[X:~x]P[XczxS] V6>O
vi rá
P[X = x] !~ F(x) - F(x - 6).

Sendo F(x) continua,

P[X=x}=Iirn[F(x) — F(x - 5)]=0.


8-0

Considere-se agora intervalo [x, x + Ax]. Pelas propriedades de F(x),


0

e tornando em consideração o facto de P [X = x] = 0,

P[x :~ X :~ x + Ax] = F(x + Ax) - F(x).

A variação media da probabilidade no intervalo referido e então


P[x!~X!~x+Ax] - F(x + Ax) —F(x)
(x+ AX) —x - Ax
VAR/A VSS ALEATORIAS

A variaçäo instantánea será o limite desta razão quando Ax —> 0, ou seja a


derivada de F) no ponto x:

P[x:~X:~x+LixJ F(x + Ax) _F(x)F,


Urn - = Ir m
.

AX -4 0 (x+ AX) —x ax-0 Ax

Se F(x) representa a probabilidade acumulada, F' (x) - dF(x)


- dx
representa a taxa a que essa probabilidade está a aumentar.

Esta derivada designa-se por fun çâo densidade de probabilfdade1 de X,


1(x).

Se X é urna variávet aleatOria continua, então existe urna funçao,


f(x), designada por funçäo densidade de probabitidade de XtaI que

F(x) = P[X!~ x] f(x)dx

Qualquer função real de variável real que verifique as seguintes pro-


priedades e funçäo densidade de probabUidade de uma dada variávei
aleatOria.

1. 1(x) ~! 0

2. f 1(x) dx = 1

Do exposto, deduz-se que, dado qualquer intervalo {x1, x2 }, a probabilidade


de X estar nesse intervalo é dada por
x2
P [xi cX~ x2}=F(x2)_F(x1)=J f(x)dx
x1

1 Par vezes, utiliza-se a abreviatura I.d.p.


ESTA TIS TI CA APLICADA

Considere-se o exemplo 10. 0 consumo rnédio anual de energia eléctrica


para fins domésticos tern sido, nos Ultirnos anos, de 20 x 109 KW. Pelo rnenos
de urn ponto de vista teOrico, pode adrnitir-se que esse consurno pode ser, no
rnInirno, nulo e, no rnáximo, tendera para 'infinito'>. Então, é fácil aceitar-se
que a figura seguinte ilustre a função densidade de probabilidade de X.

0 20 X

Esta função cumpre as propriedades referidas:


- é sempre nâo negativa;

-J f(x) dx = 1, o que significa que a probabilidade do valor do con-

sumo se situar entre - e é igual a 1, i.e., O certo que ocorre


tal situação.

Também se representa, a sombreado, a tItubo ilustrativo, a probabilidade de


se registar urn consumo anual entre 10 e 20 x 109 KW:

f (x)

0 10 20 x

ou seja

P[10 s X < 20] = J f(x) dx


10
VAR/A VEtS ALEA TOn/AS

o desenho seguinte ilustra o gráfico tIpico do uma funçao distribuição


F(x) e da sua relaçao corn a respectiva função densidade do probabijdacje
f(x).

F (4

Algumas situaçOes tIpicas do calculo do probabilidades relativas a variáveis


aleatOrias contInuas são agora indicadas. A sua dernoristraçao requer apenas
conhecimentos elementares de cálculo integral, ficando a cargo do leitor.
a
1. P[X c a] = P[X :~ a] = F(a) f(x) dx
= J

2. P[X> a] = 1 - P[X :~ a] = 1 - F(a) =

- ja
= 1 f(x) dx

ou

f(x) dx
=
3. P[a c X c b} = P[a :~ X < b] = P[a < X :~ b] =

= P[a :~ X !~ b] = F(b) - F(a) f dx


=

b a
= J f(x) dx - J f(x) dx

o "plafond" atribuido a urn certo tipo de cartão de credito pressupOe que


respectivo titular apresente urn saldo rnOdio da sua conta bancária de 1000
contos. Verifica-se, porérn, que o saldo efectivo, que é urna variável aleatOria,
varia entre 800 e 1500. Esta variável a!eatOria (X) tern a seguinte f.d.p.

1 ' 800 :5 x :~ 1500


f(x) 700
-
= { 0 , outros valores

A representação grafica desta função é a seguinte

1/700 F- - - - --

Deduza-se agora a funçào de distribuiçao F(x).


Como
= jX
F(x) = P[X !~ x] f(u)du,

virá:

—parax800 F(x)=JOdu=0
VARIAVEISALEATORIAS

para 800 :5 x 5 1500 F(x) f(u) du =


-

= 5

+ jX
= J800 f(x) dx 1(u) du =
- 800

=': 700
du= 700 (x-800)

- para x > 1500 F(x) = 5 f(u) du =

800 1500 x
1
=5 Odx+ 5 dx+J 0 du
800 700 1500

- 800) = 1
= 700 (1500

isto e,
10 x c 800
Ii
F(x) - 800) 800 :~ x !~ 1500
= 700 (x
(. 1 x > 1500

e graficamente

800 1500 X

El
Considere-se a variáve! Y- tempo de espera, em minutos, numa para gem de
autocarro, ate aparecer um autocarro.

A f.d.p. desta variavel aleatória depende de urn parâmetro ? e é dada por

. e xyy~! o
f(y) =
y<0

A funçâo de distribuiçao de V será

F(y) = 5 f(u) du = 5 0 du + X e du =

= U + [e]

= 1
- 0-kv para y [O,+oo]

isto é:

F(y) = 1
-
C Y ~! U
y<O

Entao, por exempto, a probabilidade de ter de esperar entre 6 a 12 minutes


pelo prOximo autocarro é dada por

P{6 Y!~ 12] = F(12) F(6) = (1 61) =


-
-
e 121) e-

= e- 62, - e— 12?,

11
Fun çöes de probabilidade
e de distribuiçäo
de variãveis a!eatórias
bidimensionais

3.1. Variáveis aleatOrias discretas

3.1.1. Fun cáo de probabilidade conjunta

As noçöes de função de probabilidade e de funçäo de distribuição introdu-


zidas no ponto anterior podem ser estendidas as variáveis aleatórias multi-
-dimensionais, definindo-se então funçäo de probabilidade conjunta e funçao
de distribuiçao conjunta. Zr-se-a abordar em particular o caso bidimensional,
sendo geralmente Obvia a sua extensão ao caso multi-dimensional.

Chama-se função de probabilidade conjunta da V.A. (X, Y) a função


f(x, y) que associa a cada elemento de 1R 2 umaprobabilidade

f(x, y) = P[X= x, Y= y]

A funçäo de probabilidade conjunta verifica as seguintes condiçoes:

1. 0 :~ f(x, y) ~ 1 V (x, y) e /R 2

a j1f(xyft=1 1
1=1 j=1

1 Se algurna das variävejs assurnir urn nUmero irifinito nurnerävej de valores, ter-se-6 de garantir a
convergencja de série para 1.
o exemplo que se iritroduz de seguida, e que será acompanhado ao longo
deste ponto, ajudará a compreerider esta definição.

Num deternilnado bairro de Lisboa, vodficou-se quo 50% das farnflias vivem
num T2, 30% num T3 e 20% num T4 Constatou-so, ainda, que 60% dessas
famIllas tern, pelo menos, 4 elemontos e as restantes tern menos do 4. Definarnos
a variável aleatoria X do seguinte modo:

X = 2, para uma farnIlia quo vive num T2,


X = 3, para uma farnulia quo vive num T3,
X = 4, para uma farnilia que vive num T4,

e a variavel aleatoria Y doste outro modo

Y = 1, para uma farnilia corn menos do 4 elernontos,


Y = 2, para uma farnilia corn polo menos 4 elemontos.

E facil verificar quo a função do probabilidado do X

0,5 para x=2


f(x)=P[X=x]= 0,3 para x=3
0,2 para x=4

o quo ado Ye

10,4 para y=1


0,6 para,.y=2

Intorossa, porém, trabaihar corn a variávol aloatOiia bidimensional (X, Y) quo


doscreve a ocorréncia simultânea do tipo do habitação o do nUrnero do elornontos
da farnIlia. Os pares do valoros quo (X, Y) pode assurnir são todos os pares
ordonados possIvois do construir corn os valores de X os do Y. Por oxomplo,

- (2, 1) correspondo a uma farnIlia quo habita num T2 e tern menos de 4


elernentos,

- (4, 2) corresponde a uma farnIlia que habita num T4 e torn pelo menos 4
elornontos.
ALEATORIAS

E possIvel, entâo, calcular probabilidades de ocorréncia simuftanea de


X = x e Y = y.

P[X=2,Y=1] ou P[X=4,Y=2].

Suponha-se 0 seguinte quadro de probabilidades conjuntas:

X=2 X=3 X=4

Y =1 0,25 0,05 0,10

Y =2 0,15 0,30 0,15

A leitura deste quadro é, por exernplo:

f(2, 1) = 0,25 - é do 0,25 a probabiidade do uma famIlia habitar num T2 e


tor menos de 4 elomentos.
f(3,2) = 0,30 - 30% dos families vivem num T3 e tern polo menos 4 ole-
mentos.

3.1.2. Fun çäo de distribuição conjunta

Se, para o exemplo que tern sido seguido, interessasse conhecer a proba-
bflidade de uma famflja ter menos do 4 elernentos e habitar num T2 ou num
T3 ou, ainda, de uma famIlia habitar num T3 ou num T4 seja qual for o nümero
do elementos quo a compöem, ou uma qua!quer outra probabilidade some-
Ihante, dover-se-ia somar, ou seja, acurnular probabilidades.
ES TA TIS TI CA APLICADA

Está aqul subjacente a noção de função de distribuição conjunta.


VARIAVEIS ALEATORIJ4S

Exemplo 15 (continua cão)

Perarite a definiçâo introduzida, ë fácil deduzir a função de distribuição


F (x, y)

F(x, y)

Xc2 2~Xc3 3:~Xc4 X~:4

Yci 0 0 0 0

1 !~ Y< 2 0 0,25 0,30 0,40

Y> 2 0 0,40 0,75 1,00

Pode verificar-se que F(x, y), tal como está definida neste quadro, cumpre
as condiçOes indicadas.
As questOes colocadas no infcio deste ponto tern agora resposta irnediata:

P[X = 2 ou X = 3, Y = 11 = P[X 5 3, Y !~ 11 = F(3, 1) = 0,30

e
P[X=3 ou X=4,Y=1 ou Y=2]=

= P[X :5 4, Y 5 2 - P[X 5 2, Y < 2 =

= F(4,2) - F(2,2) = 1 - 0,40 = 0,60.

3.1.3. Fun çäo de probabilidade marginal

Prosseguindo corn o estudo das teituras possiveis de fazer a partir de uma


funçao de probabilidade conjunta f(x, y), defina-se agora a função c/c proba-
bilidade marginal de X (ou de Y) que se obtém fazendo o cotapso da variáve!
Y (ou X), isto e, não impondo restriçöes sobre a outra variável.
Esta função e ütii se, por exemplo, interessar saber a probabilidade de uma
familia habitar num T3 (X = 3), seja qual for o nümero de elementos dessa
familia (Y = 1 ou Y = 2).
ES TA TISTICA APLICALJA

As funçoes de probabilidade marginal de uma V.A. bidimerisional são fun-


çöes de probabilidade de variáveis aleatOrias unidimensionais.
Para a exemplo 15 será, como se pode verificar:

X x=2 x=3 x=4

fx(X) 0,40 0,35 0,25

Y y=1 y=2

fy(y) 0,40 0,60

3.1.4. Independência de variãveis aleatárias

o comportamento conjunto das variáveis X Y pode fornecer uma indica-


ção importante sabre a independOncia entre elas.
VAR/AVE/S ALEATOR/,4S

Dada urna V.A. bidimensional (X, Y), diz-se quo as V.A. unidirnensio-
nais que a integrarn, X e Y, são independentes, so a sua função do
probabilidade conjunta, f(x, y), for igual ao produto das furiçöes do
probabilidade marginais correspondentes, isto é:
X e Ysão independentes so

f(x, y) = fx(X) fy(y) V (x, y)

Urna consequência imediata desta definição e que basta quo a igualdade


não so verifique para urn par do valores (x, y) para quo X e Y não sejam
independentes.

Vejamos so as variáveis aleatOrias X e Y do exernpto 15 são indepen-


dentes.
Para tal, e por exemplo,

f(2,1) = 0,25 # fx(2) . fy(1) = 0,40 >< 0,40 = 0,16,

pelo quo se pode, desde jà, concluir que X Y não são independentes.

3.2. Variáveis aleatórias contInuas


3.2.1. Defin!ção

Assim como acontece no caso unidirnensional em que a função densidade


do probabilidade é a derivada da função do distribuição, no caso do urna
variável aleatória continua bidirnensional a função densidade do probabilidade
conjunta resulta da diferenciação da função do distribuição conjunta em ordom
as variáveis quo a compOorn:
- a2 F(x, y)
I y)
- ax ay
ESTATISTICA APLICADA

A f.d.p. conjunta goza das seguintes propriedades:

Considere-se que a funçao de densidade de probabilidade conjunta do preço,


p, de urn certo bern (em 103 escudos) a das correspondentes quantidades yen-
didas, v (em iO3 unidades), é dada por

- [5pe1W para 0,20 <p < 0,40,v>0


f(p, v)
- 0 para outros valores

1 Adaptado de Mathematical Statistics, J. FREUND.


VAR/A VE/S

Verifica-se que esta funçâo goza das propriedades referidas:

1.5p.eP">-0, já que p>0 e e_'>o, Vp,v

2. f f f(p, v)dpdv = 5pedpdv =


_oo

= : (~ — SPe_PvdvJdP =
0,4

Jo2 [_50_Pv]+°° dp =

= J5
dp = 5 (0,4 - 0,2) = 1
0,2

Li

322. C41culo de probablildades

A necessidade de caicular probabilidades referentes a (X, Y), num dado


intervalo de valores que a variávei assume, é satisfeita (tal como no caso das
variáveis aleatOrias unidimensiorials) atravOs da funçao de distribuiçao.
A funçào de distribuiçao conjunta de (X, Y) será

P[X!~ x, Y!~ y] j 1Y f(uv)udv = F(x, y).


00 -00

o conjunto de valores sobre Os quais estamos a caicular probabihdades


pode ser representada, no piano (X, Y), da forma seguinte:

F
ESTATISTICA APLICADA

Se se pretende catcular

P[x1 !~X!~x2,y1 !~ Y:5y2},

o dornInio de integração será representado graficarnente par

J'2

Y2

e portanto

P[xi!5 X!~x2,yi!~Y~y2 ]=

'2 Y2
= 5 f(u,v)dudv=
J
X1 Yi
= F(x2, 312) - F(x2, yl) - F(xi, Y2) + F(xi, yU

corno se pode verificar corn o auxItio do gráfico anterior.

A funçáo de distribuiçao conjunta F(x, y) goza tarnbern das propriedades


referidas ern 3.1.2.
S.

Voltando ao exemplo 16, se se quiser saber a probabilidade de ter vendas


superiores a 2000 unidades corn urn preço entre 200 e 300 escudos, far-se-a

0,3 0+ 00

P[0,2 cz p < 0,3; v> 2] = J

0,2 2
j 5pe'dvdp =

=. 5 °'3 5e 2Pdp = _[e_06 - e °'4} =


0,2 2

= 0,30377.

1
VAR/AVE/s ALEATóRIAS

3.2.3.
Fun cOes de densidade de probahil/dade marginais

Do forma análoga ao caso discreto, pode-se definir, para uma variávej


aleatOria bivariada (X, Y)
continua, duas funçoes densidade do probabilidade
marginais.

Dada uma variável aleatOria bidimensjonaj (X, Y)


continua, define-se
a funçao densidade do probabilidade marginal de X,
fx(x), e a f.d.p.
marginal do Y, fy(y), respectivamenfe, como

fx(x) = f(x, y) dy

fv(Y) =5 f(x, y)dx

Então, f,jx) dä o valor da f.d.p. f(x,


y) no ponto X = x, seja qual for
o valor quo Yassuma. De modo idêntico so interpreta fy(y).

Retomando o exemplo 16, as f.d.p. marginais serão:

fp(p) f(p, v) dv = 5pe_PVdv = 5,


=': para 0,2 < p < 0,4;

+00
0,4
fv(v) = 5 00
f(p, v) dp
= 50,2 Spe_PVdp =
e -PV(
0,4
= [-5
- fl]
) 0,2 =

=_ ±[ e o2 V104 para v> 0.


v
- 'J],

25
ES TA TISTICA

3.2.4. In

I £0
Parâmetros de variáveis
aleatóriaS
Valor esperado e variância

Pode caracterizar-Se uma variável aleatOria atravOs de algumas medidas


que, de forma sintética, dão informação relevante sobre o seu comportamentO.
As medidas (ou parametros) usualmente utilizados são o valor esperado (ou
media) e a variãncia. Para a análise da relação entre duas variáveis aleatOrias
são de destacar a covariãncia e o coeficiente de correlaçäo linear.

4.1. MEdia ou valor esperado


4.1.1. Definiçäo

SejaX uma variável aleatária. 0 valor esperado de X (ou media de


X), E[ X] (também representado por 11x ou simplesmente ii) define-se
por
E[X} = x1 f(x1)

se X é uma V.A. discreta, e

E[ X] = J xf(x)dx

se X 6 uma V.A. continua.


A definiçäo dada para E[X} consubstancia a noção intuitiva de que, assu-
mindo X urn conjunto de valores, a "rnédia> correspondente se obtém
somando (ou integrando) todos esses valores, ponderados pela respectiva
probabilidade pontual (ou densidade de probabilidade no ponto). Como taT, o
valor obtido pode não pertencer ao conjunto de valores efectivamente assumi-
dos por X (no caso de uma variávet aleatória discreta).

Urna empresa de aluguer de aviOes para executivos estima que a procure


diana tern urn cornportarnento aleatorio, que pode ser descnito pela vaniávet X
"nUmero do aviOes procuraclos por dia", corn a seguinte funçao de probabitidade:

X x=0 x=1 x=2 x=3

f(x) 0,25 0,35 0,30 0,10

So so pretendesse saber quantos aviOes são procurados por dia, ern rnédia,
usando o conceito do valor-esperado, calcutar-se-ia:

E(X) = x1f(x1) = 0 + 1 x 0,35 + 2 x 0,30 + 3 x 0,10 =

= 1,25 aviöes.

o nUrnero rnédio de aviöes procurados por dia é 1.25, o que, tat corno
assinalado acirna, não é urn valor efectivamente assurnido por X.

AN

De acordo corn a especificaçao técnica do pneu RODA VI VA, a sua duraçao (ern
rnithares de quilometras) O urna variavet aleatória (K) corn f.d.p. dada par

X
1
-- 5-
f(x)={600 para x~!0
0 , para xco
VAR/A VE!SALEATO (0iAC

Neste caso, espera-se que, em media, o pneU RODA VIVA dure


+00 X +00
X
1 60 dx = [—xe]0 - [60 ej 0
E(x) = •e

= 60 mil Km.
L

4.1.2. Pro priedades do valor esperado

O valor esperado verifica as seguintes propriedades

Sendo Xe Y duas variaveis aleatorias, e k uma constante real,

I) E[k] = k
ii) E[kX] = kE[X]
Ill) E[X± Y] = E[X] ± E[Y]
iv) E[X Y] = E[X} E[ Y], se Xe Yforem independentes1

Para ilustrar a propriedade ill), suponha que, no caso do exemplo 17, a mesma
empresa tern também aviöes de aluguer para transporfe do correlo rápido, cuja
procura tern urn comportamento aleatório descrito por uma outra variavel V e é
independente da procura de aviOes para executivos, X:

Y y=O y=l y= 2

f(y) 0,2 0,5 0,3


J
E imediato verificar que E[Y] = 0 + 0,5 + 0,6 = 1,1 aviöes.

1 Se X e V nao torem indeperidentes, virá


E [ X V ] = E[X] E[Y] + coy (X, Y) (Cf. ponto 4.3.).
Es TA TISTICA APLICADA

Então, defiriindo Z = X + Y como a variável aleatória que representa 0


nUrnero total de aviOes desta empresa que podem ser procurados, sejam de
con-eio ou do passageiros, virá

z=0 z=l z=2 z=3 z=4 z=5

f(z) 0,05 0,195 0,31 0,275 0,14 0,03

De facto

x y xy z
0 0+0 0
0 1 0+1 1
2 0+2 2

o i+o 1
1 1 1+1 2
2 1+2 3

0 2+0 2
2 1 - 2+1 3
2 2+2 4

o 3+0 3
3 1 3+1 4
2 3+2 5

Seri:

P[X+ Y= 01 = P{Z= 01 = P[X= 0 A Y= 0]

P[Z= 4 ]=P[X= 2 AY= 2 ]+P[X3AYi]


5
E(z) = z.f(z) = 2,35,
z=0

obviamente igual a 1,25 + 1,1 = E(X) + E(Y).


VARIAVEIS ALEATÔR!AS

4.1.3. Valor esperado de fun cáo de variável aleatária

Se X uma variável aleatória e g(x) é uma função de contradorninlo


IR, então:
-
se X for uma variável aleatOria discreta corn função de probabili-
dade f(x), virá
E[g(X)] = g(x1) . f(x1)

—se Xfor uma variável continua corn f.d.p. f(x), virá

E[g(x)] g(x) f(x) dx


=

Evideritemerite que, se g(x) = x, então E[g(X) I = E(X).

As propriedades do valor esperado são ainda vãlidas para g (X). Serido X


uma V.A., g(x) uma furição real e k uma constante real, tern-se

U Seg(x) = k então E[g(x)} = k

ii)
E[k . g(x)] = k. E[g(x)}

E[k1 g1 (x) ± k2 92(x)]


iii) = '<1 . E[g1 (x)] ± '<2 E[g2(x)

iv) Se X e Y são variáveis aleatOrias independentes, então

E[gi(x) g2 (y) = E[gi(x)] . E[g2(y)]

v) Se gi (x) !~ g2 (x), V x, então E[gi (x)] !~ E[g2(x) I

Defina-se C (x) - custo diana do opera çäo e manutencão do x aviöes do


aluguerpara executivos (em
10 u.m.) da seguinte forma:

X x=O x=1 x=2 x=3

C(x) 50 100 175 230


j
Então, sabendo que, em media, são alugados E(x) = 1,25 aviOes, é agora
imediato calcular 0 custo rnódio diário de operaçâo e manutenção que esta
empresa deve enfrentar corn este tipo de aviOes.
o valor E[C(x)] obtérn-se ponderando os vários valores que C(x) pode
assumir (ver quadro) pela respectiva probabilidade de ocorréncia. Ora, e este é
o ponto fulcral do raciocinio, esta probabilidade é a rnesma do correspondente
valor de X, isto é:

RE

P[X = 0] = 0,25, então P{C(x) = 501 = 025

P[X= 3] = 0,10, então P[C(x) = 2301 = 0,10

donde

C(x) X f(x) C(x).f(x)


50 0 0,25 12,5
100 1 035 35
175 2 0,30 52,5
230 3 0,10 23

e assim
E[C(X)] = C(x1) . f(x1) = 12,5 + 35 + 52,5 + 23 =

= 123 (10 U.M.

Li

Suponhamos que o departamento de Marketing da empresa que comercializa


Os pneus RODA VI VA propôs 0 seguinte programa de incentivos
a venda:
- Se a pneu durar rnenos de 40.000 Km, substituir par urn pneu novo (no
valor de 20.000$);
- Se durar entre 40 e 80 mil quilOrnetros, restituir metade daquele valor;
- Se ficar inutilizada so acima de 80.000 Km, não restituir nada.

Desta forma, espera-se que a empresa gaste, por cada pneu vendido durante
esta campanha,, 12.230$. Para deduzir este valor, defina-se g (x) - gasto promo-
canal, em 103,escudos (fun ção da duraçaa).
VEIS ALEATORL4S

Entao virá

o x<0
20 O:5xc40
10 40 x<80
o x 80

donde
+00

E[g(x)] = J g(x)f(x)dX =

40 X 80
20--e 60 dx+5 io_—e 60 d
40 60
0

60 e I] =
=
20[e -
1]– -

= 12,230 contos.

Note-se que a f.d.p, de g(x) é a mesma de X, f(x) (de modo analogo ao


exemplo anterior), pois o gasto é função da duração.
U

4.1.4. Valor esperado monetérlo (V.E.M.)

Urn dos campos de aplicação mais interessantes do conceito de valor


esperado e a anátise dos problemas em que está em jogo escoiher, de entre
várias alternativas, a que maxirniza (minimiza) uma determinada grandeza,
estabelecida como critOrio de decisäo positiva, como o tucro, ou negativa
-

como a perda, o gasto, etc.

Retomando a exemplo 18, que foi utilizado no ponto anterior, ilustra-se a


critério do V.E.M. Valor Esperado Monetário.
-

Os incentivos do programa definido peto departarnento de Marketing (desi-

gnemo-Io par "Programa A>') eram então, em io 3 escudos:


20, para 0 :5 x < 40
10, para 40 !~ x c 80
0, para x < 0 ou x ~! 80

1
Mas este programa vai ser agora objecto de comparação corn urn outro
alternativo- cPrograrna>> -,cujos valores chave são:

20, para 0 x < 50


15, para 50 x < 75
5, para 75 x < 90
0, para x< 0 ou x~! 90

Deverá ser tomada urna decisão sobre a escoiha do programa; para tal,
admite-se que, de momento, interessa minirnizar Os gastos acirna previstos.
Ha, assim, alternativas em jogo, entendendo-se por alternativa uma sequên-
cia do decisöes em que alguns elernentos estão sob controlo do decisor (i.e.,
em que ele tern de optar, segundo os critérios optimizantes) enquanto que
outros são de natureza aleatória ou estocástica (nao sendo assim possIvel, ao
agente decisor, determinar o que de facto acontecer.á).
Diagramaticamente, podern listar-se essas atternativas atravOs do que se
designa por árvore do decisão.
0 !~ xc 40
A

ProgramaA 40:5xc80

xcO ou x~:40

0!gx.cSO
A
50 5x< 75
A

onde:

C designa "nO de decisão'>, donde emanam as decisöes que estão sob o


controlo do agente decisor,

o designa "nO de acontecirnento", ao qua] estão associados acontecimentos


aleatOrios, cujas probabilidades devem somar a unidade,

A designa firn de sequência (atternativa).


VARIAVEISALEAT6RI AS

Ha, agora, que avaliar as diferentes sequências, começando da direita para


a esquerda no diagrama acima.

Para tal:
a) escrever, nos respectivos ramos da árvore, as probabilidades associa-
das a cada acontecirnento.
b) escrever, o resultado final (em termos de valor) de cada sequOncia na
posiçào A

Por exemplo, pode verificar que ë:

P[0:9xc40]=0,49
R=20

ProgramaA P[405xc80]=0,25
A R2 =10

P[X<0 ou x~!80]0,26
R3 0

cuja leitura indica, por exemplo, que o gasto de 20 x 103 U.M. ocorre corn
uma probabilidade de 0,49 e o de 10 x 103 u.rn. com urna probabilidade de
0,25.

Do mesmo modo se constrOi a inforrnaçäo relativa ao Programa B:

P[O!~xc5O]=0,57
A R=20
P[50 x<75] = 0,15
A R5 =15
P[75 X<901 = 0,06
A R6 =5
P[xcO vx -e90]=0,22
A R7 = 0

o passo seguinte é cavaliar cada no de acontecimentos, calculando


valor esperado monetário associado: cada valor associado a urn A é ponderado
pela probabilidade correspondente, que está inscrita no rarno adjacente; e a
soma destas operaçOes e colocada no circulo do nO de acontecimentos.
Assim,

E[gastocomoprograrnaA] = 20 x 0,49 + 10 x 0,25 + 0 x 0,26 =

= 12,3 (10 u.m.)


Es TArisTI CA APLICADA

E[gasto corn o prograrna B]=20x0,57+ 15x0,15+5x0,06+OxO,22=

= 13,95 (103u.m.)

a qua, diagramaticarnente 0:

Continuando, da direita para a esquerda, encontra-se urna indicação El,


nO de decisão: 0 nele qua inscreve-se o rnelhor valor de entre Os vários ran
qua dele partern. Quer isto dizer que, no exemplo, face a urn Programa A c
gasto esperado Ode 12,3 e a urn Programa Bcujo gasto esperado é de 13,
0 decisor (no nIvel El) vai optar palo A.

Então:
- cortam-se as rarnos nâo escothidos, para assinalar que aquele carninho
não foi seleccionado;
-, inscreve-se a rnelhor valor no C.

Viria, então, finalmente:

Programa A

E 12.3
rogramaB
VARIA VEISALEATÔRIAS

A gestão, se tiver em conta apenas a V.E.M., vat decidir escolher o Progra-


ma A, pots ë este quo optimiza o seu critério do decisao (gastos minirnos).
0 criteria do V.E.M. pode ser aplicado em várias iteraçöes, isto é, corn
sequOncias mats complexas do nós do acontecimentos e de nos do decisão,
mas a rnetodologia mantOm-se, recomendando-se apenas 0 respeito da se-
quència dos passos aträs indicados e iniciando o processo sempre da direita
para a esquerda.

4.2. Variância e desvio-padrao

Vejamos, agora, um outro parämetro importante para caracterizar uma


variável aleatória: a variância.

Seja X uma variavel aleatoria A variäncia de X, representada por

VAR (X)= = 02
e definida por
VAR (X) = E[(X 1x)2]

e consequentemente pode ser calcutada coma

VAR (X) = I,(x, - Itx )2 f(x)


/

se X uma variavel aleatoria discreta, ou

VAR (X) = (x - x)2 f(x) dx

so Xe uma variavel aieatoria continua

A definiçao apresentada evidencia que a variância é a media dos quadrados


dos desvios dos diversos valores de Xem relaçao a sua media. E, assirn, uma
medida do dispersao em relaçao a media, e e sempre positiva. Quanta mats
frequentes forem as valores pouco afastados da media, menor dispersao (em
relaçao a media) apresentará a variável aleatOria. -

37
ESTATISTICA APLICADA

o seu interesse deriva de vir expresso rias mesmas urildades de medida


que a variável aleatOria K

Pode calcular-se, para o exemplo 17, a variância da procura de aviöes para


executivos:

VAR (X) = Z(xi - Lx)2 ((xi) =

= (0— 1,25)2 0,25 + (1 - 1,25)2 0,35 + (2— 1,25)2 0,30+


+(31,25)2 0.10 =

= 0,8875 avi6es2
[;]

cYx = + 'J VAR (X) = 0,94 aviöes

Do mesmo modo, para a variável a!eatOria do exemplo 18, viria

VAR (X) = L(x - Rx)2 f(x) dx =

1
- 60)2 _L 60
dx = 3600 (103 Km)2
= 1(x 60

cix=+'IVAR(X) =60(lO3Km)
ALEATOR/AS

4.2.1. Propriedacles da Variãncia

Sendo 1< uma constante real, e X Y variáveis aleatOrias,

1) VAR (k) = 0

2) VAR (k X) = 2 VAR (X)

3) VAR (X±Y)= VAR (X)+ VAR (Y)±2cov(X Y)

Caso X Y sejam independentes,

VAR (X ± Y) = VAR (X) + VAR (Y) (cf. ponto 4.3.)

4)eVAR (X) = E[(X - = E[X2 - 2RxX +

E(X 2 )2E[R x X}+$

= E(X2) -

VAR (X) = E[X 2 ] - E 2 [XI

5) Se X e uma variável aleatOria tal quo E(X) = j.t e


= X R
VAR (X) = a2, a V.A. W tern parâmetros E(W) = o

e VAR (W) = 1.

A expressão apresentada em 4) constitui uma fOrmula expedita de cálculo


de variãncja. Para a utilizar, basta recordar que

E(X 2 ) = x12 . f(x1 ), so X uma variável aleatOria discreta

E(X2) =J x2 . f(x) dx, se X uma variável aleatOria continua.

139
43. Covariância e coeficiente de correlaçao linear

Para estudar as relaçoes entre duas variáveis aleatOrias X e Y pode-se


analisar a covariância e 0 coeficiente de correlação linear.

A covariância é pois uma medida da distribuição conjunta dos valores de


X e Y, em termos dos desvios em relaçao as respectivas medias. A
Coy (X, Y) descreve, assim, a relaço linear ou ligaçáo entre duas variäveis
e a sua mUtua dependOncia.
Pode também deduzir-se uma fOrmula mais expedita para o cálculo da
covariância.

Cov[X, Yj = E[XY] - E[XJE[Y]

De facto:
Cov(X, Y)E[(X_Lx )(Yi y )] z

= E[XY — txY — LyX+ iLxgy] =

= E[XY] - txE(Y) - LyE(X) + LxRy =

= E[XY] - E[X] E[Y].


VAR/A VEISALEA WRIAS

Note-se que

E[X Y] = y Y, XIYJ f(x, yj), se (X, Y) for variavel aleatOria discreta


ii

E[XY] = 5 f xyf(x, y)dx dy, se (X, Y) for variável aleatOria


continua.

Teorema

Se X Yforem independentes, então Coy (X, Y) = 0.

Se X Y são independentes, então

E[X. Y]=E[X].E[Y]

Assim, como

Cov(X, Y) = E[X Y] - E(X) . E(Y)

tern-se
Coy (X, Y) = 0 c.q.d.

Calcule-se a covariância entre a procura de aviOes para executivos, X, e a


procura de aviöes para transporte de correio rápido, Y.
Sabe-se que f(x, y) é dada por

x=0 x=1 x=2 x=3

Y=O 0,05 0,07 0,06 0,02


y= 1 0,125 0,175 0,15 0,05
y=2 0,075 0,105 0,09 0,03
Entao, dado que

Cov(X, Y) = E[X. Y] - E[X] . E[Y]


sendo
E[XY] = xy,f(x1 ,y1 ) = 1,375
ii
e
E[X] = 1,25

E(Y) = 1,1
vi rá
Cov(X, Y) = 1,375— 1,25. 1,1 = 0
o que seria de esperar, já que X V eram independentes.

0 recIproco deste teorema pode nao ser verdadeiro:

O facto de Coy (X, Y) = 0 não implica que haja independencia, pois pode
haver uma Iigaçâo não linear entre as variáveis.
A covariância está expressa nas unidades de X e nas de Y, simultanea-
mente, o que introduz aigumas dificuldades quando se pretendem fazer
comparaçOes. Para ultrapassar esta situação, pode calcular-se o coo ficiente
do correlaçäo linear.
V,4R!A VEtS ALEATORIAS

Quando

pxy = - 1, ha correlacão linear negativa perfeita entre X e Y

py = 1, a correlacäo linear é positiva e perfeita

pxy = 0, não ha correlacão linear1 entre X e Y.

Quando - 1 < pxy < 0 diz-se que existe correlação linear negativa menos
> 0, diz-se
forte do que quando pxy = - 1. De igual forma, quando 1 > pxy
que a correlação linear positiva é menos forte do que quando p,4 = 1.

Analise-se a correlação entre as variáveis X (apartamentos) e Y (nUmero de


membros da famflia):

Cov(X, Y) = E(X. Y) - E(X) . E(Y)


= 4,65 - 2,7 x 1,6= 0,33

pois

E{X. Y] = >Jxt. y1f(x1, Yf) =


ii
= 2 x 1 x 0,25 + 3 x 1 x 0,05+... +4 x 2 x 0,15 = 4,65.

E[XI = x1f (xi ) = 2,7

E[Y] = , yjf(yJ) = 1,6

virá então:
Coy (X, Y) - 0,33
= 0,863
xy - 0,78x0,49

1 Tat como referido para Coy (X, Y), este resultado pods signhficarque exists independéncia entre
Xe Y, ou ainda que, existindo dependéncia, o padrão desta 6 não linear.
pois

Gx+']VAR(X) = +''0,61 =0,78

= +dVAR(Y) = +/0,24 = 0,49.

Ha, pois, indicação de urna correlaçâo linear positiva entre X e Y que pode
ser interpretada do seguinte modo: ha urna variação no mesmo sentido do nUmero
de assoalhadas dos apartamentos e do nUmero de membros das familias que
nelas habitam (ou seja, quanto major é a tam Ala, mais assoalhadas tern a habi-
tação).
Momen tos

Os parãrnetros estudados no ponto anterior - valor esperado, variância,


covariãncia - são casos particutares de urn conceito mais geral: a conceito
de momento.

-Se X for uma var/ayel aleatória discreta,

a) os momentos ordinários de ordem K serão.,

= E[X'] = xflf(xi)

b) as momentos centrados de ordem K serão

I-Lk = E[(X — k1 = (xj— kf(x.)

-Se X for uma variável contInua,

a) as momentos ordinários de ordem K serão

= E[Xk] = Jxk1(x)dx
b) os momentos centrados de ordem K serão

k= E[(X — k1 J(x R) k f(X)dX

Vejam-se alguns casos particulares de momentos ordinários e centrados.

1) K= 0
o momento ordinário de ordem 0 e
=E[X ° ]=E[1]=1

e a momenta centrado de ordem 0 é


= E[(X - = E[1] = 1.

2) K = 1
0 momenta ordinário de ordem 1 ë o valor esperado de X

R = E[X 1 ] = E[X] = Rx

e o momenta centrado xie ordem 1 e


= E[(X - = E[X - = E(X) - = 0.

3) K= 2
o momento ordinário de 22 ordem 6
= E[X]
e o momento centrado de 2 ordem é a variância de X
= E[(X — j)2 ] = VAR (X)

Ass/m, os momentos eng/obarn quer medidas do Ioca/ização, quer medidas


do dispersão.

Pode demonstrar-se que as momentos centrados se podem obter através


dos ordinários e vice-versa.
- VARIAVEISALEAT6RI.4$

5.1. Fun ção geradora do momentos

Qualquer momento pode ser obtido a partir de uma funçào: a função


geradora de mementos.

A funçao geradora do momentos de uma variável aleatOria x é a


função de variável real t, quo se obtérn calculando o valor esperado do
8tX
e que so designa por m(t).
SO está definida se tal valor esperado existir, para todo o t, nalgum
intervalo real } — h, h [, corn h > 0, ou seja:

m(t) = m(t) = E[ e tx], —h < t< h

Caso Xseja variável aleatOria discreta

m(t) = Ee 'xi f (xi )

Caso X seja variável aleatOria continua

m(t) =

A função geradora do momentos, corno o nomeindica, permite gerar mo-


mentos (ordinários) do qualquor ordem, para uma variavel aleatOria X,
mostrando-se quo

dk[mU)] -
lim
dt -
Para finalizar este capItulo sobre variáveis aleatOrias introduzern-se alguns
resultados particularmente üteis quando se pretendem calcular probabilidades
de variáveis aleatOrias corn funçâo (densidade) de probabilidade desconheci-
da. Destes resultados destacarn-se as desigualdades de Markov e Chebishev.

Para a demonstração do teorema anterior vai-se supor que Xe urnavariável


aleatoria continual . 0 dorninio de integração pode ser partido em dois sub-
conjuntos, A e B: o dos vatores d X cuja irnagem por h (.) é inferior a
C, (A), e o dos restantes valores de X, (B). Assim, teremos:
A = (x:h(x) < C} e B = {x:h(x) ~: C}

Então, sendo f(x) a função densidade de probabilidade de X,

E[h(x)} =J h(x)f(x)dx=

= 5h(x)f(x)dx+ Jh(x)f(x)dx

1 Pode dernonstrar-se para 0 caso de Xser jima variävel aleatoria discreta, corn f(x) como sua
função de probabilidade.

FE1
VAR/A VEtS ALEA TOR/AS

Coma h(x) ~! 0, por hipátese, então

S h(x)f(x)dx~! 0
A

e portanto,
E[h(x) Jh(x)f(x)dx

Mas, pela definiçãa de B, V x e B, h(x) ~! C,

E[h(x)] ~! JCf(x)dx= CJf(x)dx= C P[h(x) ~! C].


B B

Logo,
E [h (x)
P[h(x) ~ C] -<
C

Deste teorema padem deduzir-se as seguintes corolárias:

Corolário 1 - Desigualdade de Markov

Caso Xseja urna V.A. não negativa, fazenda h(x) = X, tern-se que

P[X~!C]:~ E(X)vc>o

Corolário 2

Sejah(x)=IXV e C=K R, ondeR>0 e K>Oentão:

qixlR]
P[IXI ~! K] <

149
EST.4TIST!CA APLICADA

- )2,
Fazendo h(x) = (x E(X) = t e VAR (X) =

temos que
R )2] =
E[h(x)] = E[(X -

Aplicando o teorema,

< E[h(x)]
P[h(x) 2: C] V C > 0
- C

e fazendo C = K a2 , vem
(32
P[(X-)2>-K2u2]~ K 20

Como
(X-R)2 >-K 2 a2 IX -tI~!Ka

pois K > 0 e a > 0, a desigualdade desejada é equivalente a

P[IX-RI~!Ka]!~
K2

o que demonstra a desigualdade (I).

Para obter (ii), basta notar que

P[IX - L ~! Ku] + P[IX - t < Ku] = 1


VA F? IA VEIS ALEATóF?IAS

<Ka] 1 P[IX — H ~! KG]


P[IX— H = -

e, finalmente,

P[IX — R I <KG]> 1 - 12
c.q.d.

Se se atentar rìas expressöes (I) e (ii), verifica-se que a primeira dá o lirnite


rnáximo da P [I X p. I ~! Ka] e a segunda a lirnite minima da
-

P[IX— p.1] <KG].


Estas desigualdades dão urna ideia da importância" de a coma medida
de dispersão (veja o significado de I X - p. I).

Se se fizer, por exemplo, K = 2, virá,

- 2ax C X < p. + 2ax] > {


o que significa que, para uma qualquer variável aleatOria X, corn variância

finita, pelo rnenos da massa de X cal no iritervalo de dais desvios-padrão

para a esquerda e para a direita da media.

A distribuicãa dos salários mensais dos operárias de uma empresa tern media
110 (10 escudos) e desvio-padrâO 8 (10 escudos). Quantos, dos 500 aperários,
tern salário igual ou superior a 120 contas mensais?
Se designarmos por X salário rnensal de urn operário (em 10 3 escudos)
-

se ía
p.=llO e Gx=8

Aplicando a desigualdade de Markov, teremos


E(x) ou P[XZ~ 120 0,917.
P[X~ 120] ~ 120
ES TA TISTICA APLICADA

No maxima, 91,7% dos operários (i.e. 418 operários) terão salario igual ou
superior a 120 contos.
Se so admitir a hipOtese de que a distiibuição dos salários é simétrica, e
conhecendo o desvio-padrâo da distribuiçao do X, pode-se precisar meihor a
estimativa da P [X ~ 120], através da desigualdade de Chebishev.
Será
P[X2: 1201 = P[X—jj ~! 120— 110] =

= P[X— ji ~! 101

P[X— 10]
= + P[IX — l ~ 10

90 100 110 120 130 x

Entào, como
1
P[lX_I~:10]=PLlX_l>J.8Ic
S
J- (10'\
N
-

istoé, K= 19
8

virá P[X ~: 120] !~ 0,64, isto é, no máximo 320 operários tern salario igual ou
superior a 120 contos mensais.

o estudo estatistico do nUmero de doentes que chegam por hora ao banco


de urgéncia de urn hospital revela que, em media, chegam 9, e que 0 desvio-pa-
drao 6 igual a 3.
Quantas macas devera haver, no minimo, para que seja no minimo do 0,95
a probabilidade de urn doente chegado ao hospital ter maca?
(Suponha quo a distribuiçao do nümero de doentes que chegam ao hospital é
simétrica).
ALEATORIAS

Seja X -
o nUmero S doentes quo chegam por hors so banco:
e c=3.

Quer-se P[X c MI ~: 0,95 P[X - < M - L} ~ 0,95

Sabe-se que, de acordo corn a admitida suposiçâo,

P[X— cM— ] = lx_ Ft' cM— FtI


+P[

Logo, para que P[X - Ft < M -


~ 0,95, é necessário ter

tl cM 0,95 P{IX — I cM — 0,475

Assirn, utilizando as desigualdades de Chebichev, temos que

P[IX —91 cM —9] ~! 1 = 0,475


- 1

1 = 0,475 k = 1,905 => k = +1,38.


-

Portanto,
M - 9 = Ku = 1,38 x 3 = 4,14

e consequentemente,
M = 9 + 4,14 = 13,14.

Como M representa o nürnero de macas (e deve ser urn valor inteiro) para
que a desigualdade seja verificada, é necessário que M seja pelo menos 14 (o
prirneiro inteiro a seguir a 13,14).
1. A procura diana de urna detenminada peça Xe urna vaniável aleatoria corn a
seguinte distribuiçao de probabilidade:

f(x)=K if x=1,2,3,4

a) Determine K.
b) Qua[ a procura media diana?
c) Suponha que cada peça e vendida por 5 u.m. 0 fabnicante produz diada-
mente 3 peças. Qualquer peça que não tenha sido vendida ao fim do dia,
deve ser inutilizada provocando urn prejuizo de 3 u.m..
Quanto espena o fabnicante ganhar ern cada dia?

b)E[x]=2,11; c)E[L(x)]=7 u.m.

2. Seja x uma variável aleatOria continua corn função de densidade de probabi-


lidade f(x) = . corn x ~: 0.

Calcule o valor esperadb de x.

R: E[x] =

3. Determinada agenda responsabilizada pela organizaçào de urn espectaculo


ao ar livre debate-se corn a tomada de centa decisão para a qual reuniu as
seguintes inforrnaçOes:
- Asreceitas do espectáculo serâo de 20.000 u.m. no caso de o tempo estar
aceitável e apenas de 2.000 u.m. se estiver a chover.
- Pelo custo de 5.000 u.m. a agenda podera garantir junto de urna cornpa-
nhia seguradora urna idernnização no valor de 20.000 u.m.
a) Qual o valor de p que tonna indiferentes as altemativas ern questão?
(construa a árvore de decisão e utilize o cnitério do valor espenado mone-
tário)

b) Be acordo corn o rnesrno ciitério, indique qual a melhor decisao a tomar


no caso de p ser igual a 0,3?

R: a) p = 0,25; b) Fazer o seguro pois o valor esperado da receita é de


15.600 u.m. contra 14.600 u.m. se não fizer seguro.
VAR!A VEtS ALEATORIAS

4. Sejam X Y duas variáveis aleatOrias tais qua:

E[XJ=4 E[Y]= 100 COV(X, Y)=1O

VAR [X] = 4 VAR ['r'] = 100.

Seja ainda W uma variável aleatOria tal qua: W = 4X + Y.

Calcule E [W] a VAR [W]

R:E[W]=108 e VAR [W]=244.

5. Sendo X Y duas variáveis aleatórias quaisquer, demonstre qua:


COV(X — Y, X+ Y)= VAR{X] — VAR [Y]

6. Considere a função de densidade conjunta dada p01:

4xy 0<x<1—K
f(x,y)= 0cy<1
0 outros valores

Determine o valor de K.

7. Seja a seguinte funçao de distribuiçao da variável aleatOria bidirnensional


(X1, X2):
0—Xl) e "2) 0
F(x1 , x2) = (1
-
(1 -
x1, x2 >

a) Determine P [X :~ 2; X2 !~ 3]

b)Detemiine P[1 c X <2; 1 cc X2 <3] -

c) Determine a funçào de densidade de probabilidade conjunta f(x1, x2 ).

H: a)0,822; b)0,074; c)f(xi , x2) = ei + x2) corn x1, x2 > o.

8. Seja a vañável aleatOria continua (X1, X2, X3) cuja funçâo de densidade
conjunta é dada por:

0<x1<1
(XI + X2) . CX3
0 cc X2 cc 1
f(x1, X2, X3)
)43 > 0
0 outros valores
ES TA TIS TI CA APLICADA

a) Determine f(x1, x3) e 1(x2)

b) Determine F(x2).

R: a) f(x1, x3) = e7 X3 + o c x1 < i, x3 > o


2
(
XI )
f(x2)=j-+x2 0<x2<1

b)

0 x2:~0
1
F(x2)= - -x2(1+x2) 0cx2<l

I x2>1

9. Seja a função de densidade de probabilidade conjunta seguinte

2
--(x1+2x2) 0cx1c1 0<x2cl
F(x2) =
o outros valores

a) Determine f(x1 I x)

b)CalculeP[Xi 5 x2 =-j_]
+
c) Determine Coy (x1, x2) e o coeficiente de correlaçao linear Px, y•

2x1 + 4x2
Ft a) f(xj I x) = para 0 c x1 c 1
1+4x2
5 1
b)-- -; c)Cov(x1, x2)=— ,=-O,08.
12 162 ;px y

10. Considere a seguinte funçao de densidade de probabilidade conjunta:

f(x,y)=TKXY+Y Ocxcl;Ocycl
L0 outros valores

a) Determine K.
b) Verifique se as variáveis são independentes.

c)CalculeP[Xc -j--
">+].
Fl: a) K = 2; b) X Y são independentes; c) -

32
VAR/A VEIS ALEA TOP/AS

11. Explique, cuidadosarnente, qual a diferença entre variáveis aleatOrias inde-


pendentes e variáveis nao correlacionadas linearmente.

12. A duração, em horas, do certo componente do urn apareiho tern uma distri-
buição desconhecida. Sabe-se no entanto quo a rnOdia 0 de 2.000 horas e que
o desvio-padrao é de 250 horas.
Certo tOcnico da empresa afirma que a probabilidade do urn cornponente durar
entre 1.500 e 2.500 horas 0 do 0,5.

Comente justificadamente a afirrnaçao do tOcnico.

R: A afirmaçäo 0 falsa pois P [1500 c X c 250016 major ou igual a 0,75.

13. 0 tempo de espera, em minutos no aeroporto de Lisboa ate ao ernbarque 0


uma variável ateatOria com distribuição simétrica corn valor esperado 60 rninutos
o variância 100 minutos2 .
Comente a afirrnaçâo dada polo funcionário: "So 10% dos passageiros espe-
ram mais de 90 rninutos polo ernbarque'>.

Fl: A afirrnação 0 falsa, pois P[X > 90] 0 no rnáximo, do aproximadamente


0,055.
Capftulo IV

Distribuiçäes teóricas
mais importantes
Distrib uiçäes discretas
No ambito da Estatistica Descritiva, fala-se muitas vezes em distribuiçöes
de frequências ou distribuicöeS empIricas de variáveis discretas e contIrivas.
As distribuiçOes teOricas que se iráo abordar represeritam, afinal, as modelos
matemáticos (expressão genOrica) daquelas distribuiçöes empiricas.
A incidência num conjunto lirnitado de distribuiçOes (as mais importantes)
resulta do facto de tais modelos probabilisticos se ajustarem bern a explicação
do comportamento de urna vasta garna de fenOmenos aleatOrios que frequen-
ternente ocorrern no nosso quotidiano.
No presente capItulo, consideram-se em primeiro lugar as distribuiçöes
teOricas de variáveis aleatOrias discretas e posteriormente as de variáveis
aleatOrias contInuas.

Li. A distribuição uniforme

Nalgumas situaçöes assume-se que as valores que uma variável aleatOria


discreta X pode assumir ocorrem corn igual probabilidade. Diz-se entào que X
tern distribuiçâo uniforme.

Considere-se a experiência aieatOtia que consiste no tançamento de urn dado


perfeito.
Seja a variavet aleatória X— nümero inscrito na face voltada para dma.
A variávet aleatôria X tern distribuição uniforme pois,

P[X=x]=f(x)= k outros valores


0

Ou seja, X pode assurnir os valores inteiros x = 1, 2, 3, 4, 5 e 6 corn igual


probabilidade.
I

L!a
APLICADA

A variável aleatOria X assume urn conjunto finito de valores, estando

associado a cada urn uma probabilidade constante K =

o parâmetro caracterizador desta distribuição O N, urn valor inteiro positivo


qualquer e que, em geral, corresponde ao valor rnais elevado assumido pela
variável X.
Quando aqui se diz que N é o parâmetro caracterizador da distribuiçào
uniforrne quer-se apenas referir qua o N é urn valor qua pertence a uma
expressâo analitica e que toma valores definidos a priori.
Para cada valor de N, obtém-se uma distribuiçao uriiforme individual izada,
pertencente a farnIha da distribuição uniforrne.
o termo parâmetro é portanto aqui usado num sentido diferente daquele
qua ate aqui foi utilizado.

Quando anteriormente se apresentararn as distribuiçOes de variáveis alea-


tOrias falou-se frequentemente ern parârnetros corno a media ou valor
esperado, a variância e outros rnocnentos de uma variavel aleatória, que
perrnitern conhecer melhor as caracteristicas de deterrninada distribuição -
tais parãrnetros como qua resurniam as caracterIsticas de uma distribuição.

162
wsi-niaulcoEs TEOFUCAS MAIS IMPORTANTES,

Demonstração:

Para a media ou valor esperado:


N N

E[X}=Ix =E xi.f(x,): E Xi.j7


x=1 x1= 1

N 2

N+1
= 2

tendo em consideracäo que o üttimo somatOrio indicado é o dos termos de


uma progressão aritmética de razào 1.

Para a variância:

Var [X] = = E [X21 - ( E [X])2

N
X,2 . 1 (N+t
Var[X]= 2 =
x,- 1

N 2
1 (N+1)2 -
=-j;j.>Jxi—
4 -
xi=1

1 N(N+1)(2N+1) - (N+l)2 -
6 4 -

= 2 (N + 1) (2N + 1) - 3 (N + 1)2 =
12

N 2 -1
= 12
ESTATISTICA APLICADA

já que
V 2_ N(N+1)(2N+1)
6

c.q.d.

A função de distribuição F(x) duma uniforme facilmente se obtém recor-


rendo ao conceito de funçao de distribuiçäo ariteriormente estudado:

0 x<1
Xj X<Xj+1, x/=1,2,...N-1-
1 x N

Apresentam-se a seguir os gráficos da função de probabilidade f(x) e da


função de distribuiçao F(x)

1(x)

1/N .

0•
1 2 3 .............................N x

F(x)

1 ................
N-i
N

2/N ..........._______

1/N .........
Uma empresa produtora de energia eléctrica pretende constfliir no próximo

ano uma nova central termica.


ch-li que é igualmer%te provavel
Ao planear a sua estratégia de proc1ucãO con
OU 130000 kilowatts.
que a procura seja de 100000, 110000, 120000
A distuibuicâO de probabilidade da procura de energia eléctrica em kilowatts,

X, pode ser descrita da seguinte forma:

= 100000; 110000; 120000; 130000


1 0,25 X
PX= xl = f(x) = outros valores

Trata-se duma distribUicao uniforme em que N = 4; a represefltacão grafica


é a seguinte
da funcãO de probabilidade f(x)

1/4= 0,25 : "

:0000 :30000

Uma empresa importadora de cafés estudou o lancameflto S um novo tote


de café de quatidade superior, e está disposta a comercializalo em 5 composi-
se as preferencias dos consumidores se revelarem
çöes diferentes, A, B, C, D e E,
diferenciadas.
A recoiha de urna arnostra ateatoria de 1.000 consurnidores potencials a quern
foram oferecidas 5 cháveflas de café - sern identificar a cornposicãO - fomeceu
as seguintes resuitados:

Corn pos!cão NOrnero do


preferida

A 200
B 200
C 200
D 200
E 200

Considera que esta distribUicãO empirica tern algo a ver corn a distribuicãO
uniforme?
De facto, as resultados apresentados evidenciam que as preferéncias dos
consurnidores são diferenciadas - cada quinta pane dos potenciais consurnido-
res prefere urna composicaO diferente.
composicâO pro fonda por urn certo
Considerando a variável aleatónia X -
poder-se-la dizer que Xtern a seguinte distribuicão de probabilidade
consurnidor,

x= 1, 2, 3, 4, 5

A, B, C, 0 e
onde x = 1, 2, 3, 4, 5 corresponde respectivarnente as cornpOsicoes
E.

12. Prova de Bernoulli

As distribuicoeS que a seguir serão estudadas assentam no conceito de


provaS do Bernoulli.
Mas o quo 6 uma prova do Bernoulli?
ESTATISTICA APLICADA

Existern muitas situaçöes reais, quer no âmbito das clOncias sociais, quer
na area de gestão empresarial, que respeitarn, embora muitas vezes de forma
aproxirnada, as hipOteses subjacentes a urn processo de Bernoulli.
Urna sequOncia de provas de Bernoulli O urn exemplo dos chamados pro-
cessos aleatórios ou processos estocásticos.

Imagine que detetminada empresa pretende efectuar uma campanha publici-


tária na televisao. Para tal, tenciona patrocinar certo programa. No entanto, a dita
campanha so é vantajosa para a empresa se esse programa tiver urna audiência
de pelo menos 40% dos telespectadores.
Para se decidir, a empresa pode levar a cabo urna experiência aleatoria, que
consistirá em inquirir urn certo nümero de tetespectadores, perguntando-Ihes se
viram ou nâo aquele programa.
Ern que condiçOes se estará perante um processo de Bernoulli?

(1)
Poderá eventuatmente haver major nUmero de resultados mas estes são passiveis de se
resumirem a apenas dois
DI5TRIBu/coES TEóR/cAS MA/S IMPORTANTES

As hipóteses subjacentes a urn processo de Bernoulli estão satisfeitas neste


exernplo so so admitir que:
• Ern cada entrevista (prova) a realizar, 0 entrevistado so poderá dar uma das
duas respostas possiveis: vi o programa ou não vi o programa.
o As probabilidades associadas aqueles resultados são respectivarnente p e
(1 p) e rnantêm-Se fixas de entrevista para entrevista.
-

• Tarnbérn e plausIvel quo as entrevistas sejarn independentes... isto é, os


entrevistados não estão c<cornbinados"

1.3. A distribuição de Bernoulli

Considere-se uma prova de Bernoulli e uma variável aleatória X que so


assume dois vatores: o valor 0 quando o resultado da prova é insucesso e o
valor 1 quando o resultado da prova é sucesso. Ao sucesso está associado a
probabilidade p e ao insucesso a probabilidade (1 p) = q, fixas.
-

Diz-se que a variável aleatOria discreta X tern distribuição de Bernoulli


se a sua funçãode probabi!idade é dada por:

I X
(1 x=0,1
o outros valores

Esta distribuição tern urn so parârnetro p que satisfaz a condição:


U :~- p 15 1.

1
Recorrendo ao conceito de funçao de distribuição F(x), facilmente se
deduz que a função de distribuição duma Bernoulli é dada por:

0
P[X:5x]=F(x)= i—p
1

Demonstraçäo:

por deuiniçao

p -x -
(1 - p)1

= 0 (1 - p) + 1

Var[X] = E [X 2 ] - (E[X])2 = por definiçao

= [12(p)} - (p)2 =

= p - p 2=

= p(1 - p) = p

co
____DISTR/BLi!cOES TE6R1C,4SMAJS IMPORTANTES

Nestas condiçOes, a variável aleatória X corn distribuiçao de Bernoulli pode


definir-se em termos genéricos como:
X - nOmero do sucessos numa prova do Bernoulli.

Alguns exemplos de variáveis aleatórias corn distribuiçao de Bernoulli:


X1 - nQmoro do clientos, em 1, interessados no desconto do pronto pagamen-
to.
X2 - nümero do donas do casa, em 1, quo usam o detorgonte A.
X3 - nOmoro do crianças, cm 1, que são canhotas.

1-1

1.4. A distribuição binomial


A distribuiçao binominal assenta tambérn no conceito de provas do Bernoulli
e é sem dUvida urna das distribuiçoes de probabilidade durna variável aleatOria
discreta mais largarnente utilizada corno rnodelo teOrico adequado a urna
grande variedade de situaçöes observáveis na prática. Esta distribuição de-
sempenha, ainda, urn papel irnportante na teoria da-amostragem.
Em termos genéricos, esta distribuição é urn esquerna probabilistico que se
adapta a situaçöes em que se pretende analisar urn conjunto finito (ou amostra)
de indivfduos/objectos que possuem determinado atributo corn probabilidade p ou
que nao o possuem corn urna probabilidade (1 - p) = q.

Considere-se urna sucessáo de 5 provas de Bernoulli, isto é, urna sucessão


de 5 experiências aleatOrias independentes, em cada urna das quais pode
ocorrer ou nao determinado acontecimento A.
- 0 acontecimento A, denorninado sucesso, ocorre corn probabilidade p e
A, o insucesso, corn probabilidade (1 - p) = q.

171
ES TA TISTICA APLICADA

0 espaço de resultados associado àquelas 5 provas de Bernoulli e dado por:

fl={(AAAAA),(AAAAA),(AAAA,4),(14AA,4A) (AAAAA),
(AAAAA)JAAAAA),(AAAAA)... (AAAAA)}

em que # 12 = 2 pois 0 nUmero de provas é 5 e 36 ha 2 resultados pOssIveis:


AeA.

Seja o acontecimento A - 0 recém-nascido é do sexo feminino e suponha


que se pretende, par exemplo, saber

- Qual a probabilidade de, em 5 recOm-nascidos,


Todos serem do sexo feminino?
Apenas três serem do sexo feminino?
Nenhum ser do sexo feminino?

E a distribuição binomial que permitirá responder a estas questOes.

1.4.1. A fun ção de probabilidade ía binomial

A distribuiçâo binomial aparece associada a seguinte questáo genérica:


pretende-se saber qual a probabilidade de, em n provas de Bernoulli, serem
obtidos x sucessos (a realização de certo acontecimento A) e portanto
(n - x) insucessos (a não realização de A).
Suponha a seguinte sequência de n provas de Bernoulli:

n provas

x (n — x)
sucessos insucessos

Note-se que ha 2' sequOncias diferentes possiveis, mas a todas elas


corresponde a mesma probabilidade:
pX(j - p)fl -
No entanto, existern
()
n maneiras diferentes de se obterern x SUCCSSOS (e

portarito (n - x) insucessoS).
tern-se
Definindo X - nUmero de sucessoS em n provas de Bernoulli,

= [n]x(l - fl
p) - X
P[X= x] = f (x)

corn x = 0, 1, 2,..., n e 0 !~ P 1.

Deduz-se assirn a função de probabilidade duma variãvel aleatOria X corn


distribuicão binomial.

o parâmetro n corresponde ao nUrnero de provas de Bernoulli a efectuar,


a probabilidade
sendo n qualquer inteiro positivo. 0 pararnetro p corresponde
associada ao sucesso, corn 0 !~ p !~ 1

173
A respectiva fun ção de distribuição, F(x), é dada por:

0 xcO

P[X:~x]=F(x)= (n)pxi(l_p)nXi 0~x~n


x=O

1 x>n

Os parâmetros n e p são suficientes para a especificação duma distribui-


cáo binomial, isto é, a valores diferentes do n e p correspondem diferentes
distribuiçOes desta famIlia.

Seja o acontecimento A o recOm-nascido ô do sexo feminine.


-

A este acontecimento está associada urna probabilidade p.


Pretende-se saber qual a probabilidade de, em 5 recém-nascidos, apenas urn
ser do sexo feminino.
Seja X - nOn'iero de recém-nascidos, em 5, que são do sexo fern/n/no.
Então, a probabilidade pretendida é

= (5 )P,(1
P[X = 1] = f (1) -
p)5 -

0 termo
5'
(5)

indica o nümero de sequências diferentes em que pode ocorrer urn sucesso (e


portanto quatro insucessos) e que são:

{AAAAA} {AAAAA} (AAAAA)

{AAAAA) {AAAAA}
rJ/srnIBuIQoEs TEOR!CAS MA/S IMPORTANTES

Urn técnico dos serviços do Prevenção e seguranca rodoviária afirma que 1


em 10 acidentes rodoviários é devido a cansaço.
Determine a probabilidade de que em 5 acidentes haja 0, 1, 2, 3,40 5 devidos
a cansaço.
Seja X - nümero de acidentes, em 5, devidos a cansaço
X n b (x; n = 5; p = 0,1)

(0, 1)° (0,9) = 0,5905


P{X= 0 =
ro)
P[X= 1] = (0, 1) (0,9) = 0,3280

P(X= 21 = (0, 1)2 (0,9) = 0,0729


(2
5)

(09)2 = 0,0081
P[X= 3] = (0,1)
r3)

P[X= 4 1 = (0,1) (0,9) = 0,0004


r4)

(5
P[X = 51 = (0,1) (0,9)0 = 0,00001.

Como se ilustra no exemplo anterior, a utilização da fOrmula da binomial


origina cãlculos trabalhosos e monOtonos. Felizmente estão disponiveis tabe-
las onde consta a função de probabilidade da binomial (ver tabela em
apOndice), que simplificam esta tarefa.
ESTATISTICA APLICADA

Apreserita-se, em seguicla, um exemplo de utilizaçao cia tabela da distribuiçao


binomial.

A tabela disponivel em apéndice permite obter, para cada n (n !~ 20) e para


cada p (para valores de p entre 0,05 e 0,5, em mUltiplos de 0,05), as proba-
bilidades associadas a x sucessos.
Corn n = 10 e = 0,2 vem por exemplo:

p = 0,2

x
n = 10 0 0,1074
1 0,2684
2 03020
3 0,2013
4 00881
5 0,0264
6 0,0055
7 0,0008
8 0,0001
9 0,0000
10 0,0000

Se se pretende saber a probabilidade de obter exactamente 3 sucessos em


10 provas de Bernoulli (com p = 0,2) virá:

P[X= 31 = 1(3) = 0,2013.


Se pretendermos a probabilidade de obter pelo menos 3 sucessos:
P[X ~: 3] = 1 - P [X c 3] = 1 - P [X :~ 21 =

= 1 - (P[X= 0 + P[X= 11 + P[X= 2]) =

= 1 - (0,1074 + 0,2684 + 0,3020) = 0,3222.

H
- DISTRIBuIçOES TEORICAS MAIS IMPOF1TANTES

1.4.2 Aspecto gráfico da fun ção de probabilldade da binomial

A cada urna das distribuicOes da famIha binomial representadas na figura


seguirite corresponde urn valor de p e portanto de (1 - p) = q diferentes. 0
nürnero de provas de Bernoulli é de n = 5 para qualquer das distribuiçães
apresentadas.

f (x) f (x)

f(x)
f(x)t

012345 X

f (x)
Uma análise da figura anterior ovidencia algumas caracteristicas relovantes
na forma gráfica da distribuição binomial.
1. Quando p = 0,5, a distribuiçao binomial é simétrica, e isto é vàlido para
qualquor valor do n.
2. Para valoros do p c 0,5 (veja-se o caso do p = 0,1 e q = 0,9 ou
p = 0,3 e q = 0,7), a distribuiçao é assimétrica positiva ou enviesada
A osquerda.
3. Para valores do p > 0,5, a distribuição binomial e assimétrica negativa
ou enviosada a direita (voja-se o caso do p = 0,7 o q = 0,3 ou
p=0,9oq= 0,1).

4. Quanto mais afastado ostivor p do 0,5 mais enviosada é a distribuição.

Uma propriedado importante da distribuiçao binomial, referida, é quo, quan-


do p = 0,5, a distribuiçào O simétrica.
Urn outro aspecto relevante é quo a proximidade a uma distribuiçao simé-
trica também pode ocorror mesmo quando p é diferento do 0,5 - quanto
rnaior for ii mais prOxirna da simetria ostará a distribuição.
E esta caractorIstica que so pretonde ilustrar nas figuras soguintos ondo so
aprosentam as funçOes de probabilidado do trés distribuiçoos binomiais do
parãrnotros p = 0,4 o n = 5, 10 e 30 rospoctivamento.
DISTRIBUIQOES TEORIAS MAIS IMPORT.41'frES

f (x)

0 5 10 15 20 25 30 x

Urn fabricante de tira-nódoas garante que determinado produto tira nOdoas em


80% dos casos. Para vetificar tat garantia, uma associação de defesa de consu-
midores decidlu recoiher uma arnostra de 10 etementos, aceitando essa garantia
se o nümero de casos em que o referido produto fol eficaz for de peto menos 7.
Quat a probabilidade de a garantia do fabricante ser rejeitada, supondo que a
eficacia é de 80%?

Seja X - nümero do vezes, em 10, quo certo tira-nodoas remove a nodoa...


X n b (x; n = 10; p = 0,8)

Pretende-se a probabilidade de rejeitar a garantia do fabricante, isto é:


P[X c 7] = P[X !~ 6].

No entanto, a distribuição binomial nao se encontra tabelada para p > 0,5.


Pretende-se a probabilidade de obter no máximo 6 SUCCSSOS o que equivale a
obter no minimo 4 insucessos...

Pode-se então redefinir o sucesso e crier uma nova vadável X':

X' - nUmero de vezes, em 10, quo certo tira-nódoas não remove a nódoa.

X' n b (x'; n = 10; p = 0,2)

onde x' = n - x
A relação entre x x' é a seguinte:

0 10
1 9
2 8
X!~6 XI ~: 4
3 7
4 6
5 5
6 4
7 3
8 2
9 1
10 0

Pretende-se
P[X:~ 61 = P[X' > 41 =

= 0,0881 + 0,0264 + 0,0055 + 0,0008 + 0,0001 + 0,0000 + 0,0000 =


= 0,1209
que corresponde a probabilidade de a garantia do fabricante ser rejeitada.
a
No exemplo anterior, utilizou-se uma propriedade importante da distribuiçâo
binomial que pode ser descrita pela identidade:

b(x; n; p) = b(n-x; n; l— p)

Alias, este facto aparece patente nas figuras anteriores: comparem-se as


distribuiçöes de probabilidade para as casos em que p = 0,1 corn q = 0,9
ep = 0,9 corn q = 0,1 (a rnesmo ocorre quando p = 0,3 cam q = 0,7
ep = 0,7 cam q = 0,3).
OISTRIBUIcOES TEORICAS MAIS IMPORTANTES

1.4.3. Parãmetros da distribuiçao binomial


A media ou valor esperado, E [XJ, a variáncia de X, Var [X], e ainda outros
momentos quo everitualmente nos possam interessar na distribuição binomial,
podem ser obtidos através da função geradora de momentos, (f.g.m.), Mx(t).
Mx (t) = E[e x ] ( por definiçao)

A função geradora de momentos da distribuiçao binomial obtém-se da


seguirite forma:

Mx (t) = E[ e tx] 8tx f(x)


xO
onde f(x) é a função de probabilidade da binomial.

n
Mx (t) = eX (nx(1 - p) flX =
xJ
x=Q

n
(eL p)X (1 - p )flX =
=x o []
(on (p. e Y (1 - p)fl + (1n ) (p et)l (1 - p)fl_l
+... +
=
+ ... + [fl] (P e (1 - p)° =

e t ) (1 - p)fll + •.. + (
p.e Y =

= [(p. 0t) + (1 - p)] fl =

= (p. e t + q)

o penUltimo passo da demonstraçao justifica-se pela consideração dos


sucessivos termos do desenvolvimento do binOmio de Newton. Alias, julga-se
quo a nome da distribuiçao binomial advém do facto de Os valores duma

I
binomial b (x; n; p) para x = 0, 1, 2, .. n serem sucessivos termos do de-
senvolvimento binomial de

[p + (1 - p )]fl p
(1 - p )flX
[fl]

x=O

Demonstraçäo:

Sabe-se que:

E[X] = Mx' (t) I


t
= , isto é, a media ou valor esperado duma variável
aleatOria X corresponde ao chamado primeiro momenta ordinario e e a valor
da primeira derivada da função geradora de momentos no ponto t = 0.

Coma
M (t) = (p . e t
+ q)" é a f.g.m. da binomial, então a sua derivada é

M(t) = n
. pe t (p . et +

e a valor esperado
=fl•p(pq)fll=flp
E[X]=Mk(t) I
t= 0

Considerando agora a caso da variância,

Var[X] = E [X 2 ] - (E[X])2

Sabe-se que E [X 2 ] = Mk' (t) I


=0
isto é, 0 segundo momento ordi-
nário correspoñde ao valor da segunda derivada da f.g.m. no ponto t = 0.
DJSTRIBU,cOEs TEORICAS PANS IMPORTANTES

Como

M(t) = n(n-1)(p. e t)2 (p . et + + n.p. et(p . et+q)fl_l

Mc(t) I t=0 = M'(0) = n(n - 1)p 2 + n p.

Logo

Var[X] = E[X 2 ] - E 2 [X] =

= n(n - 1)p 2 + np - (np)2 =

2
= n p - np 2 + np - n 2 p 2 =

=np(1 —p)=n.p.q.

Em coriclusão

E[X] = n . p
Var[X]=n.p.q=n.p.(1—p). c.q.d.

Corn base em sondagens efectuadas, estima-se que, do total da população


duma regiäo, 60% considera que a integração europeia vai ter reflexos positivos,
25% que terá reflexos negativos e as restantes nao tern opiniao definida.
1.Calcule a probabilidade de, ern 15 pessoas dessa região, 5 considerarern
que a integração vai ter reflexos positivos.
2. Se forem inquiridas 100 pessoas, quantas se espera considerarem que a
integração vai ter reflexos positivos.

1. Seja X— nUmero do pessoas, em 15, que consideram que a integração vai ter
reflexos positivos
X n b (x; n = 15;p = 0,6)

Pretende-se conhecer P [X = 5]. Como para p = 0,6 a binomial não vem


tabelada a soluçao será encontrada atravOs da transforrnaçao de X.

X' - nümero do pessoas, em 15, que consideram quo a integração vai ter
reflexos negativos ou quo nao tern opiniao definida.
ESTATISTICA APLICADA

X' '- b(x'; n = 15; p = 04)


P[X= 51 = P[X' = 10 = 0,0245

2. Pretende-se E[X]. Será E[X] = n . p = 100 x 0,6 = 60 isto é, em media,


60 das 100 pessoas inquiricias consideram que a integração vai ter reflexos
positivos.

1.4.4. A aditividade nas distr!buiçäes binom!ais

As distribuiçöes binomials possuem a propriedade de serem aditivas, o que


significa que a soma de duas ou mais variáveis aleatOrias independentes corn
distribuição binomial de parâmetro p é ainda uma variável aleatOria corn
distribuição binomial e com o mesmo parãmetro p.

A aplicação deste teorema conduz a urn resultado importante na teoria da


amostragem quando se analisam o nUmero de sucessos numa amostra de
tamanho n.
Sejam n variáveis aleatórias Xi (I = 1, 2,. . ., n) independentes (os ele-
mentos da amostra de tamanbo n) corn distribuição de Bernoulli, isto e,
Xi n (x1; 1; p) (1= 1,2,..._n)
DISTRIBu!cOES TE6F1ICAS MAtS JMPORTANTET

Então
n
Sn = Xi+ X2 + ... + Xn = Xi b (Sn; n; p).
i= 1
n
Conclui-se assim que a variávet X1, que corresponde ao nUmoro do
1= 1

sucossos numa amostra de tamanho n, tern distribuiçáo binomial de parãme-


tros n e p.

1.4.5 Outras aplicaçöes da distribuição binomial

A distribuição binomial é frequentemente utilizada em problemas de amos-


tragem relacionados corn o controlo de quatidade. Nestas aplicaçöes, é usual
referir-se a distribuição da amostra em vez de se falar em nUmero de provas
de Bernoulli.

Suponha que urn industrial afirma que, em cada tote do 500 peças quo fabrica,
25 tern dofoito. Então a proporcão do peças defoituosas em cada tote seth:
25/500.
0 valor p = 25/500 corrosponde a proporcão de peças defeituosas na popu-
lação, quo neste caso O urn tote de 500 peças.
Suponha agora quo um rotathista Ihe compra iO poças - ou soja uma
amostra do dirnonsâo n= 10 rotirada durn tote do 500 poças.
A probabitidado de a primeira peça que so retira das 500 ser defeituosa O de
25/500, isto é, 0,05.
No tote ficarão apenas 499 poças; no entanto, so a prirneira peça retirada tivor
sido defoituosa, a probabilidade de a sogunda ser defeituosa (dado quo a prirnoira
o fol) será dada por 24/499 quo é diferente do 25/500
I

Assim, no exempto anterior, as hipóteses de independéncia e de p ser


constante de prova para prova (condicöes subjacentes a urn procosso de
Bernoulli) não se verificam.
ESTATISTICA APLICADA

Deverá então concluir-se que a distribuiçao binomial não serve para mode-
tizar esta situação?
A resposta é negativa, embora corn certas restriçbes. A distribuiçào binomial
da neste caso uma resposta satisfatOria porque a dimensão da amostra (n = 10)
O pequena quando comparada corn a dimensao da populaçào (N = 500). Como
regra, pode dizer-se que a distribuiçao binomial pode ser usada em problemas
de amostragem deste tipo (mesrno quando Os requisitos acima referidos não
são respeitados), desde que a dimertsao da amostra seja inferior ou igual a
5% da dimensao da populaçao, isto O, n :~ 0,05 N.

Urn armazenista controla a quatidade dos produtos que compra em lotes,


inspeccionando em cada lote 10 peças e classificando-as em defeituosas ou
perfeitas.
0 armazenista tem por regra o seguinte: rejeita o lote e devolve-o ao fabricante
se encontra mais de duas peças defeituosas na amostra que retira de cada tote.
1.Suponha que 5% das peças dum tote são defeituosas. Qua] a probabilidade
de o armazenista aceitar aquete lote?
2. Se nurn tote 25% das peças forem defeituosas, qual a probabilidade de o
armazenista aceitar o lote?
1. Seja X1 - nOrnero do peças, dum Iota do 10, qua são defeituosas

X1 ( b (xj; 10; 0,05)

P [aceitar o lote] = P[X1 :~ 2] ='- 05987 + 0,3151 + 0,0746 =

2. Seja X2 -
nümero do paces, num Iota do 10, qua são defeituosas

X2 b (x2; 10; 0,2

P [aceitar o tote] = P[X2 !~ 21 = 0,0563 + 0,1877 + 0,2816


= 0,5256.

o exemplo anterior pretende itustrar urn procedimento largamente utilizado


na area do controlo de quatidade. Este procedimento, que designarernos por
ace/ta çãü por amostra gem, 6 urn exernpto de urna regra de decisao estatIstica.
Di5Tfl/su/cOEs TEOR/CAS MA/s JMPORTI4NTES

A este procedimento aparecem associados dots valores:


n - dimensão da amostra
a - a valor de acoitação quo é o nUmero max/mo de peças defeituosas
permit/do na amostra.

Como em 'codas as regras do decisao baseadas em amostras, a sua


apticação envolve r/scos:
- o risco do "consurnidor" (ou "comprador" do lote) quo é a probabilidade
de este aceitar urn tote de baixa quatidade;
- o risco do <<produtor>> que é a probabilidade de urn "consumidor" rejeitar
urn tote de elevada qualidade.

Voltando ao Exemplo 13, suponha que corn p = 0,05 se considera que o lote
é de elevada quatidade. Corn n = 10 e a= 2 vern:

Risco produtor = P [rejeitar urn lote de elevada qualidade] =

= 1 - P [aceitar urn lote do elevada quatidade) =

= 1 - 0,9884 = 0,0116.

Poderá então dizer-se quo cerca do 1% dos totes de elevada qualidade são
rejeitados polo <<consurnidor" ou <<cornprador".

Urna empresa considera quo urn lote é de elevada qualidade se tiver apenas
1% de peças defeituosas.
A empresa tern urn sisterna de aceitagão por amostragem corn n = 20 e
pretende-se que a probabilidade do aceitar urn lote daquela qualidade seja do
0,999.
Qual devera ser o nUrnero rnáxirno de peças defeituosas quo a empresa
admite na sua amostra?
Seja X - nOmero do peças, em 20, quo são defeituosas
X -- b (x; 20; 0,01).

187
ES TA TIS TI CA APLICADA

Pretende-se quo:

P[aceitar tote] = P[X !~a] = 0,999

(20"
[oJ 0,010 >< Q9920 = 0,8179
P[X = 0]
=

20 0,011
P[X = 1] x 019919 = 0,1652
= (i
J

20
P[X = 21 2J 0,0 x 0,9918 = 0,0159.
=

Note-se quo P [X !~ 2] = 0,999, logo a - nUmero máximo cia peças defei-


tuosas admitidas é 2.-

Urn industrial garante que no rnáximo 5% dos seus produtos são defeituosos.
Urn cliente decidiu inspeccionar uma amostra de 20 unidades, aceitando a garan-
tia dada peto industrial se, entre as 20 unidades inspeccionadas, no rnáximo uma
for defeituosa.
Qual a probabilidade de aceitar a garantia do industrial, ainda que a verdadeira
proporção de defeituosas seja de 15%?
Seja X - nümera de peças defeituosas, em 20

X n b (x; 20; 0,15).

Regra do decisão: rejeitar a garantia do industrial so houver mais do uma


peça defeituosa em 20.

P[aceitara garantia] = P[X < 11 =

= P[X= 01 + P[X= 1] =

= 0,0388 + 0,1368 =

= 0,1756.

LI
DISTA/Bu/coEs TEORIcAS MA/S IMPORTANTES

1.5. A distribuiçao multinomial

A distribuiçao multinomial representa uma generalizaçáo da distribuição


binomial para a situação em que existem mais de dois resultados possIveis
em cada experiOncia aleatOria.
As hipOteses subjacentes a distribuição multinomial são perfeitamente aná-
logas as da binomial:
Considerem-se n provas (experiOncias aleatOrias) em que:
1.Em cada experiência aleatOria, existem k resultados possIveis,
A1 (I = 1, k) mutuamente exclusivos.
..., ,

= {Al, A2,...,Ak}

2. As probabilidades associadas a cada um dos A1 (I = 1, 2, k) são .. .,

designadas por P1(I = 1,2,...,k) e permanecem constantes de prova


para prova, sendo

3. As n experiOncias aleatOrias são independentes.

Sob estas hipOteses, seja


Xi - nUmero de vezes, em n, em que ocorre Al(I = 1, 2, ..., k).
A probabilidade de que ocorram xi elementos de Al, x2 de A2, ..., xk de
Ak, nas n provas, e dada por:
n! Pi1Xi .pj2 ... pk Xk
P[Xi=x1,X2=x2, ...,Xk=xk]=
Xi.X2. ... Xk.

sendox,~:Ocomx1+x2+ +Xk=fl e P1+P2+... +Pkl

Note-se que apenas (k 1) variáveis são independentes; a k-ésima variá-


-

vel e definida a custa das restantes, isto é:

k-i

Xk = n -
x1.
1=1
ESTATISTIC,4

Da mesma forma:
k-i

Pk =1 -E
/=1

isto é, Xk e Pk são dependentes.

Note-se, por analogia, que na distribuição binomial a probabihdade de


ocorrerem x sucessos em n provas é dado por:

i P
f(x; n; p) = (1 - p ) flX
x! (n - x)!

A distribuição binomial pode assim ser encarada como urn caso particular
da distribuição rnultinomial - se nesta Ultima se tomar k = 2.

190
D/STR!BUfcOES TEORICAS MAIS IMPORTANTES

1.5.1. Para-metros mais importantes da multinomial

A partir da função geradora de momentos da distribuição multinornial


prova-se que:

E[X1]=np1 (i=1,2,..k)

Var[X1] = np1 (1 - P1) (i = 1, 2,.. k)

Cov[X,, )] = —np1p1 (I # I)

o nome de multinomial tern origem no facto de as probabilidades dadas


pelafuncão de probabilidade conjunta f(xi, x2, xk) serem obtidas atravOs
do desenvolvimento do multinOmio:
(P1 +P2+...+Pk)

Uma caixa contém n bolas das quais n1 são brancas, n2 pretas e n3 vermeihas.
Extraiem-se n bolas corn reposicão.
Qual a probabilidade de, entre as n bolas extraldas, haver n1 brancas, n2
pretas e n3 vermeihas?
Seja:
X1 - nümero do bolas brancas, em n, quo silo extraIdas da caixa.
X2 - nümero do bolas pretas, em n, quo são oxtraIdas da caixa.

X3 - nümero do bolas verme/has, em n, quo são o'xtraidas da caixa.

1 corn,=1,2,3.
p,=

Pretende-se:
n r~
n! (ni' (n2' t1
(3]
P[x1 = n1, X2 = fl2, X3 = n3]
= fl1!fl2!fl31 j j
Note-se que:
n3 = n - n1 -

n3 ni
P3 = 1
= --
; - -
Li
ESTATISTICA APLICADA

o responsável de uma empresa discográfica estima que 90% dos sous clien-
tes preferem comprar discos de mtsica ligeira (60% estrangeira e 30%
portuguesa) e os restantes preferem comprar müsica c!ássica.
Em 10 clientes, qual a probabilidade de haver urn interessado em rnüsica
clássica e pelo menos sete em rnüsica ligeira estrangeira?

Seja:
X1 - nUmero de clientes, cm 10, interessados em müsica ligeira estrangeira.
X2 - nümero de clientes, em 10, interessados em mOsica ligeira nacionaL
X3 - nUmero de clientes, em 10, interessados em müsica clássica.

P[X1 ~! 7, X3 = 11 =

= P[X1 = 7, X2 = 2, X3 = 1] + P[X1 = 8, X2 = 1, X3 = 1] +

+ P[X1 = 9, X2 = 0, X3 = 11 =
10! 2 .0,11 lOf 8 .0,31 . 0,11 +
= 7! 2! ii 0,6 .0,3 + 8! 1!1! 0,6

10! 9.0,30.0,11 =
+ 9! 0! 1! 0,6

A probabilidade de que certo tipo de bateria dure menos de 100 horas 6 0,5,
sendo 0,4 a probabilidade de que dure entre 100 a 120 horas.

Qual a probabilidade de que, em 5 baterias deste tipo, haja urna que dure
menos de 100 horas e duas que durem rnais de 120 horas?
2. Deduza a funçao de probabilidade conjunta das trés variávejs.
1. Seja:
X1 - nUmero de bate flas, em 5, quo duram menos do 100 horas.
X2 - nümero do baterias, em 5, qua duram mais do 120 horas.
X3 - nümero do batorias, em 5, quo duram entre 100 e 120 horas.
(Xi, X2, X3) fl M(5; 0,5; 0,1; 0,4).

Pretende-se:
5!
P[Xi = 1, X2 = 2, X3 = 21 = 1! 2! 2! (0,5)1 (0,1)2 (0.4)2 =

0,024

2. A distribuição do probabilidade conjunta das trés variáveis é uma distribui-


ção de probabilidade bidimensional, urna vez que o valor de X3 e
inteiramente determinado por:
X3 = 5 - x1 - x2,
sendo p3 = 1 - 0,9 = 0,1.

No quadro seguinte apresentam-se as probabilidades da distribuição multino-


mial neste caso. Note-se que
x3 =5-x1 -x2 e p3=1-0,5-0,4.

N 0
0

0,00001
1

0,00025
2

000250
3

0,01250
4

0,03125
5

0,03125 0,07780

1 0,00020 0,00400 0,03000 0,10000 0,12500 0 0,25920

2 0,00160 0,02400 0,12000 0,20000 0 0 0,34560

3 0,00640 0,06400 0,16000 0 0 0 023040

4 0,01280 0,06400 0 0 0 0 0,07680

5 0,01024 0 0 0 0 0 0,01020

P[X1 =x1] 0,03125 0,15625 0,31250 0,31250 0,15625 0,03125 1,00000

P[X1 = x1] = f (x1) e P[X2 = x2] = f (x2) são as distribuiçôes marginais,


neste caso distribuiçöes binomials corn os seguintes parãmetros:
X1 n b (x1 ; 5; 0,5)
X2 b(x2; 5; 0,4).

0
o responsavel de crédito duma instituiçao financeira, ao analisar os relatOrios
dos vários departamentos regionais, verificou quo dos 12 novos clientes em
Aveiro, 2 não tinham satisfeito os sews compromissos e 4 tinham pedido a
renegociação das condiçOes de crédito.
Pela experlOncia, sabe que, relativamente aos novos clientes, a näo satisfaçâo
dos compromissos e o pedido de renegociaçâo das condiçoes de crédito ocorrem
respectivamente em 1% e 5% dos casos.
Acha que 0 responsavel de crédito da instituiçao tern razöes para estranhar
a infomiaçâo do departamento regional de Aveiro? Justifique.
Seja
X1 - nümero de novos clientes, em 12, que não tinham satis fe/to os seus
compromissos.
X2 - nOmero de novos clientes, em 12, quo pediram a renegociação das
con diçoes de crédito.
X3 - nümero do novos clientes, em 12, que estão em "outras condiçOes.

(X1, X2, X3) ,- M (12; 0,01; 0,05; 0,94)

P[X1 = 2, X2 = 4, X3= 6 2 (0,05)4 (094)6


= 2!4!6! (0,01)

De facto a informaçao do departamento de Aveiro e algo estranha; o resultado


obtido é muito pouco provável.

Apresentam-se em seguida duas distribuiçoes discretas que se baseiam


numa sucessão de provas de Bernoulli: a distribuição binomial negativa e a
distribuiçao geomêtrica.
Estas duas distribuiçbes são frequentemente designadas por distribuiçôes
discretas do tempo de espera ate se obterem k sucessos em n provas de
Bernoulli.
A designaçao "distribuiçOes discretas do tempo de espera serve para frisar
o facto de aqui "0 tempo de espera" ser tratado como variável discrefa,
contrariamente ao tratamento mais familiar, como variável continua.
DISTR!BU126ESTEORICA$ MAtS IMPORTANTES

16. A distribuição binomial negativa

Considere-se uma sucessão de provas de Bernoulli. Seja a variávei alea-


tOria X - nQmero de provas a realizac ate se obterern k sucessos.
Imagine-se que se realizam xprovas em que ocorrem ksucessos e portanto
(x - k) insucessos; a x-ésima prova - a ültima - é sempre urn sucesso: 0
k-ésimo sucesso pretendido, isto é, designando o sucesso per A e o insucesso
por A,
(x - 1) provas

AAAAAA... AA I A

(k - 1) sucessos

0 esquema pretende ilustrar a seguinte:


Nas prirneiras (x- 1) provas ocorrem (k- 1) sucessos; na x-ésima prova
ocorre sempre o Ultimo sucesso pretendido: a k-ésirno.
o esquema ilustra apenas urns das maneiras de ocorrerern (k- 1) sucessos
em (x- 1) provas.
o nUrnero de maneiras diferentes de ocorrerern (k - 1) sucessos em
(x - 1) provas é dado pelo termo:
(x- 1)1
--1
1J - (k - 1)! (x - k)L

As probabilidades associadas ao sucesso e ao insucesso são, respectivamente,


P[A]=p e P CA - ]=1-p=q.

Diz-se que a variável aleatOria X- nUmero de provas a realizaraté se


obtereml k sucessos tern distribuição binomial negativa e escreve-se:

X n bn (x; k; p)

se a sua função de probabilidade for dada por:

1
plp)k x= k, k+l,...
P[X=x]=tf(x;k;p)= )
0 outros valores

onde k é urn inteiro positivo fixado a partida e que corresponde ac nürnero


de sucessos pretendidos e p'e o parãmetro caracterizador desta distribuição.
ESTATISTICA APLIa4DA

Deduza a funçao do probabilidade do nUmero de vezes que e necessãrio


lançar urn dado equilibrado ate que apareça a sena pela segunda vez.
A funçao de probabilidade pretendida 6 dada por:

P[X= x] = k= 2;
p = fJ= 1J1+J2
(W5
Corn x=2, 3,...,

Por exernplo, a probabilidade de em dois Iançamentos ocorrerem duas senas


6 dada por:
2
P{X= 21 = [1) = 1

1.6.1. Aeiaçao entre a binomial e a binomial negativa

Na distribuiçao binomial, a variável aleatória X corresponde ao nUmero de


sucessos em n provas de Bernoulli e o nUmero do provas de Bernoulli é
fixado
a partida.
Na distribuição binomial negativa ë o nümero de sucessos pretendidos, k,
que é fixado a partida e o nümero de provas a realizar constitui a variável
aleatOria.

Por outro [ado, existe uma relaçao (identidade) entre estas distribuiçoes:

bn (x; k; p) = Xb(x = k; n; p)
Esta ideritidade facilita o cálculo de probabilidades na binomial negativa.
Por exemplo,

bn (10; 5; 0,25) = b(5; 10; 0,25)

9
[) (0,25) (0,75) = . 0,0584

0,0292 = 0,0292.

Note-se que o valor 0,0584 ë o valor tabelado da binomial de parâmetros


n = 10 e p = 0,5 para x = 5.
Determinou-se estatisticamente que, em cada cinco licenciados a procura do
primeiro emprego, so um tern experléncia ern tnicrocomputadores na Optica do
utilizador.
Urna ernpresa pOs anüncios nos jornais, a que responderam elevado nUmero
de licenciados.
Deduza a funçao de probabilidade para o nUrnero de candidatos a entrevistar
ate se encontrarem cinco corn aquela caracterfstica.
Seja X— nümero de candidatos a entrevistar ate se encontrarem cinco candi-
dates que tenham experiencia em microcomputadores

X bn(x; k = 5; p =

x-5
- Ix -
5Jj 4 J (-19-) (1-)
x = 5, 6,...

197
17. A distribuição geométrica ou de Pascal

Considere uma sucessäo do provas de Bernoulli e uma variável aleatOria


X - nOrnoro do provas a realizar, ate se obter urn sucesso.
Conforme se ilustra no esquema seguinte, realizam-se x provas em quo o
Unico sucesso pretendido sO ocorre na ültima prova. Nas restantes (x - 1) provas
sO ocorrem insucessos e por este facto não faz sentido falar em nUrnero de
maneiras diferentes do ocorrerern (x - 1) insucessos em (x - 1) provas...

(x - 1) provas

AAA...AIA

x provas

A probabilidade associada ao sucesso ë P [ A] = p e a do insucesso é


P[A] = 1 - p = q

A distribuição geométrica pode ser encarada como urn caso particular da


distribuição binomial negativa, quando k = 1.
De facto, a função do probabilidade da distribuiçäo geornétrica pode ser
obtida atravOs da função de probabilidade da binomial negativa corn k = 1:
X bn(x; k = 1; p) = p (1 - p ) X_ 1
x = 1, 2,...

Uma outra caracteristica da distribuiçao geornétrica (que pode demonstrar-


-so) é que esta distribuiçâo não tern rnernória - isto é, qualquer quo seja o
tempo de espera Ia decorrido, o tempo do espera adicional por urn sucesso
não so altera.
DISTRIBUIcOES TEORICAS MAIS IMP0RTANTES

Suponha que é de 0,6 a probabilidade de determinado ensaio dar reacção


<positiva".
Qual a probabilidade de que sejam necessários 6 ensaios (corn reacção
"negativa") antes que ocorra a primeira reacçäo c<positiva?

Seja X - nüniero de ensaios a rea/izar ate que ocorra a primeira reacção


cpositiva".

f(x; 0,6) = 0,6 (0,4 -1 x= 1,2,...

Pretende-se: P [X = 6] = (0,6) (0,4) =


= 0,006144.

1-1

1.7.1. Parâmetros mais importantes da d!stribu!ção geométrica


A função geradora do momentos desta ditribuição é
= C
mx (t)
1 - e (1 - p)
ES TA TISTICA APLICADA

Urn cientista inocula vários ratos, urn por dia, corn o germe de urna doença
cujos sintomas se revelarn num perIado rnáxirno de 24 horas.
0 cientista terrnina a sua investigação quando urn rato contrair a doença.

Se a probabihdade de urn rato contrair a doença for de 1---, qual aprobabi-


lidadedesernecessarlo inocular8 ratos?
Seja X - nürnern do ratos a inocularate quo urn doles contraia a doença...
97 =
0
Pretende-se: P [X = 8] = + [} ,0465.

1.8. A distribuição hipergeométrica

Suponha que, de urn tote de 20 peças das quais duas são defeituosas, se
extrai urna amostra de 5 peças sern reposição.
Qua] a probabilidade de, nas 5 peças extraIdas, nenhuma ser defeituosa?
Se se definir a variável aleatOria X— nUmero do peças defeituosas extra Idas
scm reposigâo duma amostra de 5 peças, a probabitidade pretendida será
dada por:
(2 p18"
10115
P[X = 0] = ki ) 0,5521i
(20

o denominador corresponde ao nUmero de casos possIveis, isto O,


[v],
ao nümero de maneiras diferentes de extrair 5 peças dum total de 20 peças
que constituem 0 tote.

o termo corresponde ao nümero de maneiras diferentes de seteccionar

0 peças defeituosas num total de duas defeituosas e o termo ao nUmero


DISTR,Bu,coEs TEOPJcASM,4;s IMPORTANTES

de maneiras diferentes de seleccionar 5 peças nao defeituosas dum total do


18 peças também não defeituosas.
Pela regra da multiplicação, 0 nUmero de casos favoráveis será:
(02) . (18), que corresponde ao riUmero de maneiras diferentes de seleccionar

5 peças não defeituosas dum lote de 20 das quais 2 são defeituosas e 18 o


não são.
Como as <extracçOes" são feitas scm reposição (o quo alias sucede ge-
ralmente nos problemas de amostragem), as 5 sucessivas <extracçöes" não
são provas de Bernoulli.
A probabilidade de ocorrer uma peça defeituosa não é constante do "ox-
tracção>> para <extracçao' e dal quo as sucessivas "extracçöes" não possam
ser consideradas independentes.
Alias, o problema anterior pode ser resolvido em termos de probabilidades
condicionadas:
18 17 JQ j 14
P[X= 0] - 0,5526
- 20 19 18 17

onde, por exemplo, o termo corresponde a probabilidade de não ser


19
extraIda uma peça defeituosa na segunda extracção dado que na primeira
extracção a peça extralda também nao foi defeituosa.

- q= 1

respectivamente ao numero total de objec-


n a população e a dimensão da amostra
liza r)

201
7CA APLICADA

A distribuiçao hiporgeometrica é muitas vezos denominada binomial sem


reposigão.
Do facto, no esquoma probabilIstico da binomial, admito-se quo a probabi-
lidade do o sucesso so mantém constante de <<extracçäo>' para <<oxtracçâo>'
— condição inoronto a urn procosso do Bernoulli.
So p = = 0,1 do oxomplo so mantivesse constante do "extracção"
para 'oxtracção" é porque havia reposição o a probabilidado do nas 5 peças
oxtraldas nenhuma sor defeituosa seria dada pot-:

(5 2"° i8 5
P[X=0J= LQJL_J [o-J =

18 18 18 18 18 -
20 20 20 20 20 -
= 0,59049.

Note-se quo esto rosultado é aponas ligeiramente diforente do que so


obtove corn a aplicaçao da distribuiçao hipergeomOtrica (0,5526).
Quando Me grande comparado com n, a diforença ontro "extracçoos corn
e sem reposição é insignificanto e tanto mais insignificante quanto major for
M.
Pode demonstrar-so quo, corn n o p fixos, so tern:

(M q
lim
rx p) nx) i (xn) x (1 _ p)fl
M00[ (M 'H- p
n)

isto é, quando M -> 00, a distribuiçao hiporgeometrica tendo para a distribuição


binomial.
Como se disso anteriorrnonto, quando n :!~ 0,05 M, a distribuição binomial
oferoco uma boa aproximação da distribuiçâo hiporgeornétrica. Oaf quo, nostes
casos e par facilidades do cálculo, so aplique a distribuiçao binomial.
OISTR/su,cOES TEORICAS MAtS IMPORTANTES

1.8.1. Para-metros mais importantes


da distribuiçao hipergeometrica

Note-se que a media desta distribuiçao O igual a media da binomial, en-


quanto que a variância da primeira é inferior a da segunda, visto que
M — n <1
M-1
M— n
Quando M -* oo -+ 1 e a variância da hipergeomOtrica conver-

ge para a da binomial.

Suponha que, de 120 candidatos a urn emprego numa empresa de telecomu-


nicaçôes, sO 80 tern as qualificaçoes pretendidas.
Pretende-se a probabilidade de que apenas 2 tenhlm as qualificaçoes pre-
tendidas num grupo de 5 seleccionados para uma entrevista pHoto.
Seja X - nOrnero de seleccionados, em 5, corn as quallficaçoes pretendidas
(sem reposicao).

X n h(x; M= 120;n=5;
p = -g
3- ).

Pretende-se:

(80 40'\

P[X=2]=
2 )13J
- 0,138.
(12o
5
J
ESTATISTICA APLICADA

Neste caso, nao faz sentido seleccionar 5 candidatos corn reposiçâo. No


entanto a aplicação da distribuiçao binomial conduziria a urn resultado muito
semeihante:

b[x = 2; n = 5;
p = fJ=
[JI'1 [+J =
,1646.
0
a

Viu-se que a distribuiçao muttinornial representava uma generalizaçáo da


distribuiçâo binomial na situação em que existiam mais de dois resultados
possiveis em cada experiOncia aleatOria.
A distribuiçao hipergeometrica tambOm pode ser generatizada (embora o
nome de distribuiçào hipergeomOtrica permaneça o mesmo).

1.8.2. General!zaçao da distr!bu!ção hipergeomEtrica

Suponha uma populaçäo corn M elementos dos quais Xi são do tipo 1,


X2 do tipo 2, ..., XK do tipo K.
E retirada uma arnostra de n elementos sem reposiçäo: a probabifldade de
se obterem x1elementos do tipo 1, x2 do tipo 2, ..., XK do tipo Ké dada pela
distribuiçao hipergeométrica:

Xi )
(
(xi ') X2) (Xk"
I
2
(x1,x2,..xk;M;n)

rn
ondex,= 0, 1, 2,...,n

K K
x1=n e Y Xj=M
,

1=1 /=1

Esta distribuição 6 designada por hipergeomOtrica generalizada.


rEoRicAs MA/S IMPOATA!,JJE$

Quando M —+ , o esquema da hipergeometrica generalizada tende para


a distribuiçao multinomial.
Isto é, a distribuição multinomial pode oferecer, em certas circunstâncias
(idénticas as referidas na relação hipergeométrica/binomial) uma boa aproxi-
mação para a distribuição hipergeométrica generalizada.

Como resultado da crise do Golfo, a produçao de petróteo de urn dos paises


da OPEP apresentou quebras da ordem dos 30%, o que não Ihe permitiu satis-
fazer integralmente os cornpromissos anteriormente assurnidos: 0 abastecimento
de três navios tanques japoneses, dois arnericanos e cinco europeus.
Sabendo que 70% da sua produçào Ihe permitiam abastecer apenas seis dos
navios tanques, decidiu seleccionar aleatoriamente os navios tanques a abaste-
cer.
Qual a probabilidade de serem seleccionados trés navios tanques europeus,
dois japoneses e apenas urn americano?
Pretende-se:
('\
3 (2
fl2jl
P[X1 = 3, X2 = 2, X3 = 1; M = 10; r3)
(io

60
= 0,286.
=

205
ESTATISTICA APLICADA

1.9. A distribuição de Poisson

A distribuição de Poisson, cujo nome so deve ao fIsico frances Simon


Poisson (1781 —1840), permite descrever uma grande variedade de situaçöes
corn aplicaçOes em muitas areas do conhecimento.
Por outro ]ado, corno será visto, a distribuição de Poisson e muitas vezes
utilizada como distribuiçao lirnite ou aproxirnada da distribuição binomial.

Exomplos do situaçöos quo so ado quam a uma distribuiçao do Poisson


I. NUmero de chamadas telefOnicas que chegam, em certo perIodo de
tempo, a uma central telefOnica...
2. NUmero de doentes que chegam a determinado hospital central, por
unidade de tempo...
3. NUmero do avarias que ocorrem numa máquina, num certo intervalo
de tempo...
4. NUmero de microorganismos em determinada quadrIcula
5. NUmero de partIculas defeituosas num certo volume de liquido...
6. Nümero de deficiéndias num dade comprimento dum fio produzido
por uma máquina tOxtil

Todos os exemplos mencionados, embora bastante diferenciados, tOm uma


caractorIstica comum: podem ser descritos através do uma variável aleatOria
discreta quo toma valores inteiros não negativos: 0, 1, 2, ..., n.
Mas esta caracteristica não é a ünica exigIveL. Existem outras caractorIs-
ticas que devem estar presentes para que determinado fenOmeno possa ser
descrito através da distribuiçao de Poisson - são as chamadas caracterIsticas
inerentes ao vulgarmente designado Procosso do Poisson.

1,9.1. 0 Processo de Poisson

Suponha que so observa a ocorrência do certo acontecimento num deter-


minado intervalo do tempo1:

1 Ou num determinado volume, thea, comprimento, regiáo, isto é, num espaço continuo.
DR/CASMAI5 !MPORTAWFES

Se se verificarem as seguintes condiçães:

1) 0 nümero de ocorrências em intervalos não sobrepostos são variáveis


aleatOrias independentes.

2) A probabilidade de urn certo nUrnero de ocorrOncias se verificar é a


mesma para intervalos da mesma dimensáo; isto é, aquela probabilidade
depende apenas da amplitude do intervalo e não da posição em que se
situa esse intervalo. Tudo se passa como se o nUmero de ocorrOncias
tivesse sernpre a mesma densidade media.

3) A probabilidade de se verificarem duas ou mais ocorrências num perIodo


muito pequeno é negligenciável, quando comparada com a probabilidade
de se verificar apenas uma ocorréncia.

Se estas condiçOes (hipOteses) se verificarem para determinado fenómeno,


então pode-se dizer que tat fenOmeno se adequa a uma distribuição de Poisson
e poderá ser descrito através Øesta distribuição.

Uma empresa textil produz certo tipo de fio corn a seguinte taxa media de
defeitos por intervalo de cornprimento: dois defeitos por cada cern metros de fio.
Poder-se-á afirmar que a variavel aleatOria X - nümern do defeitos quo
ocorrem em cada 100 metros do fib produzido, se adequa a uma distribuição de
Poisson?

A variável ateatária Xtoma de facto valores inteiros não negativos:


0, 1, 2, ..., n...
Será que as caracteristicas inerentes ao Processo do Poisson são satisfeitas?
Considere-se que cada centena de metros é dividida em n sub-intervalos
iguais, de comprimento tao pequeno quanto possivel, de tat forma que:

1) A probabilidade de que exactamente um defeito ocorra num daqueles sub-


intervalos O muita pequena e é constante para cada urn dos sub-intervalos.
Esta hipótese é plausIvel.

2) A probabilidade de que dois ou mais defeitos ocorrarn num daqueles sub-


intervalos é tao pequena que é possivel atribuir uma probabilidade zero a
tais acontecimentos. Significa esta hipótese que ao longo dos metros de fio
produzido a frequência de defeitos não 6 mais elevada em certos <cperio-
dos* que floutros 00
seja, existe uma certa "regulafl,, na Ocorrencia
daqueles defeitos. Esta hipOtese e tarnb6m plausivel, desde qua se admita
que as máquinas que produzem aquele fio nao apresentam avarias signi-
ficativas...
3)0
nümero de defeitos que ocorrern em cada urn daqueles sub-intewajos
nao depey-
ide da "localizacao> desse sub-intelvalo e 6 independente do
nUrnero de defeitos que ocorram noutro sub-intervalo näo sobreposto Esta
hipOtese 6 tambern plausfvel no caso do exemplo em questao, muito em-
bora em muitos fenomenos aleatorios possa ser violada

A hipOtese de uma <creparticao>> aleatOria do rlümero de ocorrencias de certo


fenOmeno nem sempre é plaus(vej.

Podem existir certos fenOmenos do agregacao e contágio, susceptIvejs do


gerar uma major densidade de ocorrencias em cellos perfodos, areas, volu-
mes, etc.

Pense-se por exemplo nos seguintes fenornenos•


i)
NUmero do chegadas do doentes a urn hospital central
por hora,
quando ocorreu uma grande catâstrofe.
ii)
Nürnero do carros quo param numa bomba do gasoline entre as 23 e
24 horas, apOs os jornajs vospertinos informarern do urn aumento do
preços nos combustIvejs

Nostes dois casos, a distribuicao de Poisson näo 6 adoquada - viola a


hipOtose da independencia reforida em 3. Existem as chamadas distribuicoes
"agregativas> ou '<contagiosas que pod&rn ser utilizadas nostes casos.
D/STR/Bu/QOEs TEORICAS MA/S IMPORTANTES

1.9.2. Para-metros mais importantes


da distribuição de Poisson

So a variávei aleatória X tern distribuiçao do Poisson, corn parâmetro


> 0, então prova-se quo:

E[X] = 2, Var[X] = A.

ou seja: A. corresponde ao nümero mOdlo de ocorrOricias par intervalo de tempo


o na distribuição de Poisson a media e a variãncia são iguais.

Teorema

Sendo X ( p (A.) então

E[X] = A. e Var[X] = X.

Demonstração:
00

Af.g.m. da Poisson e M (t) = E[etfl = tx 1(x) =


x= 0

Logo

M (t) =

209
T/CA APLICADA

Sabe-se que E[X] = M I (t)


J=o
=
t= 0

= 0t 6x9t
e
it =

Ft
Por outro lado, E[X2J = M (t)
I t= 0

= +

Corn Var[X] = E[X2] - (E[X])2

tern-se que:
Var{XJ =x + - =

c.q.d.

o nümero de camlOes TIR que, por hora, atravessam a ponte 25 de Abill


segue uma distribuiçao de Poisson corn vatiância igual a 8.
i)
Qual a probabilidade de que, numa hora, exactamente 4 camjOes TIR
atravessem a ponte.
II)
Qua[ a probabilidade de que, numa hora, pelo rnenos 6 camiOes TIR atra-
vessem a ponte.

Seja X -
nOmern de carniöes TIR que, par hora, atravessam a ponte 25 c/c
A bill

Xflp(x;?8)poi5 Var[X]E[xJ8

2
oIsrnIBuIçoEs TEOR!CAS MA/S IMPORTANTES

A função de probabilidade é a seguinte:

8"
x=0, 1, 2,..

8"
I) Pretende-se: P [X = 4] = 0,0573
=4

ii)Pretende-se: P [ X ~: 6 = 1 - P{X !~ 5 =

=1 - {P[X=O]+P[X=1]+P[X=2]+P[X3]+P[X4]+P[X5]}

= 1 - (0,0003 + 0,0027 + 0,0107 + 0,0286 + 0,0573 + 0,0916)

= 1 - 0,1912 = 0,8088.

Como se ilustra no exemplo anterior, a utitizaçâo da fárrnula da função de


probabilidade da Poisson origina cãlculos algo morosos, cuja tarefa é simplifi-
cada pela utilizaçâo das tabelas disponIveis (ver tabela em apOndice).
A tab&a referida permite obter, para cada valor de ?. entre 0,1 e 20 (em
mUltiplos de 0,1), as probabilidades associadas a cada x.

Por exemplo, para % = 2, tern-se:

x f(x)

0 0,1353
1 0,2707
2 0,2707
3 0,1804
4 0,0902
5 0,0361
6 0,0120
7 0,0034
8 0,0009
9 0,0002
10 0,0000

0 gráfico representa a função de probabilidade f(x; ?. = 2).


ESTATISTICA APLICADA

Note-se que, neste caso, a distribthçäo é bimodal; x = 1 e x = 2 corres-


pondem aos valores da variável que ocorrem corn malor probabiJjdade

P [ X = 11 = P [ X = 2 = 0,2707.

1.9.3. A aditividade nas distribuiçOes de Poisson

As distribuiçöes de Poisson são aditivas, o que significa que a soma de


duas ou mais variáveis independentes corn distribuição de Poisson (de parâ-
metro %) é ainda urna variável aleatOria corn distribuição de Poisson.

A aplicaçao deste teorerna conduz aresultados importantes nas aplicaçoes,


como se vera.
For outro [ado, o teorema anterior permite concluir que, se o nümero de
ocorréncias de determinado atributo por intervalo de tempo ti O urn processo
de Poisson corn parârnetro Xi, então o nUrnero de ocorrOncias no inte,'valo de
tempo 12 = K ti segue distribuição de Poisson corn parâmetro
%2 = K Xi.

o nQmero diário de doentes corn cornplicaçoes cardiovasculares que chegam a


determinada unidade de cuidados intensivos segue uma lei de Poisson de media 4.
DIsTRisulcoEs TEORIcAS MAIS IMPORTANTES

A unidade de cuidados intensivos pode atender 6 doentes por dia. Caso o


nUmero de doentes exceda aquele valor, os doentes São transferidos para outra
unidade.

a) Qual a probabilidade de, em certo dia, não ser necessário transferir doentes
para outra unidade?

b) Qua[ o nUmero mais provavel de doentes a chegarem por dia aquela


unidade?

c) Qua] a probabilidade de, em certo dia, chegarem aquela unidade 5 doentes,


sabendo que no dia anterior chegaram apenas dois doentes?

d) Qua] a probabilidade de que, em 5 dias, cheguem aquela unidade pelo


menos 15 doentes?
a) De quanto deverão ser aumentadas as instalaçôes da unidade de cuidados
intensivos por forma a assegurar o atendimento dos doentes em 97% dos
dias?

Seja X - nOmero do doentes corn cornplicaçöes cardiovasculares qua, por dia,


chegam a determinacla unidade de cuidados intensivos.

X fl p (x; X = 4).

a) Pretende-se:

P[X:56]=P[X=0]+P[X=1]+ ... +P[X6]

= 0,0183 + 0,0733 + ... + 0,1042 =

b) 0 nümero mais provável de doentes a chegarem por dia aquela unidade é


de 3 ou 4 doentes (distribuicão bimodal).

c) Pretende-se: P [ X = 5 = 0,153 pois o nUmero de doentes que, em certo


dia, chegam aquela unidade é independente do nUmero de doentes que al
chegaram no dia anterior veja-se as condiçOes do Processo de Poisson.
-

d) Seja X' - r,ürnero do doentes corn corn plicaçöes cardiovasculares quo ern
5 dias chegam aquela unidade...
X' n p (x'; X = 20) isto e, se, por dia, o nUmero mOdio de doentes é X = 4,

em 5 dias será de X = 20, pela aditividade da Poisson.

P[X' ~t 15] = 1 - P [ X !~ 141 = 1 - 0,1048 = 0,8952.


e) Seja K- capacidade minima insta/ar (total) por forma a assegurar o aten-
dimento pretendido.
Pretende-se que P [ X s~ K] ~: 0, 97.

A consulta das tabelas (% = 4) permite concluir que K = 8, pois


P [ X :5 8 = 0,9787.

Como as instalaçäes actuais atendem 6 doentes por dia, as novas instalaçOes


deverao ser alargadas para mats 2 doentes.

a
1.9.4. Aproximaçao da distribuição
binomial a Poisson

Demonstraçao:

Fazendo ? = n p ou seja p = --, constante por hipOtese, a distribuiçao


binomial escreve-se:
- n-x =

b(x; n; p)
n)
(x )x %)

n
= ( (

- n! X_(1 i)n(
- (n-x)!x! nx nJ -

= fl(n-i)...(n-x+i) .2L(1 XIX


nx x! n)
-
n =

n-i .Ps2f± 1 X(1 t( xvx


n . n n x!
-- DISTRIBUIcOES TEORIcAS MAlE IMPORTANTES
-- -

Quando n —* cc vern:
XX
tim b (x; n; p) = e -x ______

= xt

pois
e_x
urn 11 j
fl cc

hm
x! x.
n -4 -

e todos os restantes termos tendem para a unidade.

Isto O:
tim b (x; n; p) = p(x; X = np). c.q.d.
n - 00

o teorerna anterior mostra que, se X for urna variavet aleatOria corn distri-
buição binomial, pode obter-se uma aproxirnacão das probabilidades binomiais
através da distribuiçäo de Poisson, desde que n seja grande e p pequeno.
A aproximacão será tanto melhor quanto maior for n e rnenor for p. No
entanto a aproxirnaçào O Ia satisfatória desde que n ~! 20 e p :!-: 0,05.
Em terrnos práticos e dado que a distribuição binomial sO aparece tabetada
para valores de n 20, utilizar-se-á a aproximaçào a Poisson quando
n 20 desde que p 0,05.
>

No quadro seguinte apresentam-se a titulo de exernplo, as probabilidades


de X para algurnas binorniais em que n p = 1 e a sua confrontação corn
.

os valores das probabilidades de X na Poisson corn % = n .


p = 1.

De facto, a rnedida que n cresce e p decresce, os valores das prob-


abilidades de X aproximam-se daquetes mesmos valores para a distribuiçào
de Poisson.

2
ES TA TIS TI CA APLICADA

DIsTRIBuIcOEs BINOMIAIS POISSON

N=10 N=20 N=50 N=100


P=/iO p 1/20 p=1/5o p=1/ioo

0 0,3487 0,3585 0,3642 0,3660 0,3679


1 0,3874 0,3774 0,3716 0,3697 0,3679
2 0,1937 0,1887 0,1858 0,1849 0,1839
3 0,0574 0,0596 0,0607 0,0610 0,0613
4 0,0112 0,0133 0,0145 0,0149 0,0153
5 0,0015 0,0022 0,0027 0,0029 0,0031
6 0,0001 0,0003 0,0004 0,0005 0,0005
7 0,0000 0,0000 0,0001 0,0001 0,0001
8 0,0000 0,0000 0,0000 0,0000 0,0000

Uma companhia de seguros possul 10.000 apólices no ramo vida referente a


acidentes de trabaiho. Sabe-se que, por ano, a probabilidade de detemiinado
indivIduo morrer de acidente de trabaiho é de 0,0001.
Qua] a probabilidade de a companhia ter de pagar par ano a pelo menos 4
dos seus segurados?

Seja X- nUmero do apolioes, em 10.000, que são papas anus/monte pela


seguradora.

X n b (x; n = 10000; p = 0,0001)

Como n = 10000 n e p = 0,0001 existem condiçaes para fazer a aproxima-


çao a distribuição de Poisson.
X p (x; X = np

Pretende-se: P [ X ~: 4] = 1 - P [ X :~3] =

=
=1-z i.e
x= 0

= 1 - 0,981 = 0,019.

2
DISTHIBUIQOES TEORICAS MA/S IMPORTANTES

Uma empresa de aluguer de autornOVeis dispöe de 5 veiculos riurna das suas


filials localizadas no norte do pals.
Sabe-se pela analise passada, que a procura sernanal de automóveiS numa
filial segue uma distribuicãO de Poisson de media igual a 4.
Qua[ a probabilidade de que, em certa semana, urn dos autornOVeis näo
a)
seja alugado?
Qua] o valor esperado do nümero de clientes que, em certa semana, nao
b)
podern ser atendidos, par ]á estarem alugados todos os automóveis?

a) Admita que a f rota era acrescida de urn vefculo. Calcule a probabilidade


de, em certo rnês (considere 1 rnês igual a 4 semanas), a procura ser
suficiente para que este veiculo adicional seja alugado pelo rnenos 1 vez.

Seja X - nümero do automôVeiS quo, par semana, são procurados


X --' p(x; X = 4)

a) P [ X = 41 = 0,1954
nümero do clientes que em certa semana não podem ser aten-
b) Seja X' -
didos...

As variáveis X e X' estào relacionadas da seguinte forma:

x X

0
6 1
7 2
8
9 4
10 5
ii 6
12 7
13 8
14 9
E

Pretende-se:

E[X'} = (0.0,7852) + (I .0,102) + ... + ...


+ (9.0,0001) +

= 0,41.

c) Seja Y— rzümero de semanas, em 4, em que a velculo adicional e alugado.

Y n b(y; N = 4; p =

A probabilidade associada ao sucesso, p = P[X = 6 em que


X nümero de autamoveis que par semana são alugados.
-

P = P [ X = 6] = 0,1042 = 0,10

Pretende-se:

P{ Y ~! I = 1 - P[Y = 0] = 1 - 0,6561 = 0,3439.


Distrib uicOeS con tin uas

2.1. A distribuicäO uniforme

Se Os valores de certa variável aleatOria podem ocorrer dentro dum intervalo


e so quaisqUer dois sub-intervalos de igual amplitude tém a
tirnitado [a, b],
mesma probabiIidade entãO estamos perante uma variável aleatOria corn dis-
tribuicãO uniforme ou rectangular.

Diz-se quo a variavel aleatOria continua X tern distribuicão uniforme


U (a, b) se a sua função de
no intervála [a, b] e escreVe-Se: X n
densidade de probabilidade for dada por:
1 a < x< b
f(x) = f(x a; b —a
0 outros vatores
que
Os pararnetrOs caracterizadores desta distribuicão são a e b,
satisfazern a condicão:
c a C b c +oo

Facilmente se deduz que a função do distribuicão F(x) e


dada por:

1 0 x!~a
x—a a<xcb
~ 1b—a
F(x) =P[X: X
I. 1 x~!b

Na figura seguinte representam-se graficamente a f.d.p. da distribuicào


uniforme e a respectiVa funçào de distribuicãO.
ba

a b

a b x


Demonstraçao:

De facto, E[XJJbxf(x)dxfbx bd
a a -a

1 [ x21" b2 - a 2
= b — a Lia 2(b—a)

a+b
2
E[X2] - (E[X])2
QuantoavaIiâflCia Var[X] =
=b
E[ X21 x2 dx =
a

-
b 1 a 3 Ja

- 3(b—a)

2
b—a3 (b+a'\
Van X] = 3(b—a) -
=

(b_a)(b2+ab+a) (+a)2
3(b—a) 4
=

-- + ab + a2 - (+ a)2 =
3 4

- b2 - 2ab + a 2 =
- 12

c.q.d
- 12

A furição geradora de momentos M (t) é dada por:


b
MX(t)=E[Ctx lS etX . _ 1 dx=
a b a

IL
(b — a)t a

e at
- (b—a)t
ESTATISTICA APLICADA

0 verdadeiro conteüdo de pacotes do leite de certa marca é urna vaiiável


aleatória corn distribuiçao unhforrne entre 0,85 litros e 1,05 litros.
a) Indique a f.d.p. correspondente.

b) Qua] a probabilidade de urn pacote de leite ter urn volume inferior a 1 litro?

Seja X - vordadoiro volume (em iltros) do cotta mama


do pacotes do bite.

a)f(x)=f 5 0,85cx<1,05
0 outros valores

b) Pretende-se: PR < 1} = j I dx =
0,85 0,204

A probabilidade pretendida é proporcional a amplitude do respectivo intervalo:

1-0,85 0,15 3
0,20 - 0,20 =

2.2. A distribuiçao normal

A distribuiçáo normal ó sem dUvida uma das distribuiçoes mais utilizadas


na estatIstica. São inumerhs as variáveis aleatOrias que descrevem fenóme-
nos, processos fIsicos ou caracterIsticas humanas (peso, altura, etc.) e que
seguem distribuiçao normal.
Noutros casos, as variäveis aleatOrias não seguem distribuiçao normal mas
aproximam-se muito desta distribuiçao.
Por outro lado, a distribuiçao normal desempenha, como será visto, um
papel crucial na inferencia estatIstica (em particular, O utilizada em muitas
aplicaçoes da amostragem).
DIsTRIBu/cOES TEOR/CAS MA/S IMPORTANTES

- Os parâmetros ji e a representarn respectivamente a media ou valor espe-


rado e o desvio-padrão daquela distribuiçào.

2.2.1. CaracterIsticas da distribuiçäo normal

A função densidade de probabilidade de uma variável aleatOria corn distri-


buição normal tern a forma de sino, é simétrica em relação ao eixo x = p. e
tern pontos de inflexào em x = p. ± a.
A função densidade de probabilidade genérica da distribuição normal repre-
senta uma farnIlia de distribuiçöes em que cada membro especifico dessa
farnIlia e representado par deterrninados valores dos parâmetros p. e a. Ou
seja, qualquer distribuiçäo normal e definida par duas medidas: a media lt que
localiza o centro da distribuição e a desvio-padráo a que mede a variabilidade
de X ern torno da rnédia.
ES TA TIS TICA APLICADA

Na figura seguinte representarn-Se graficarnente três distribuiçöes normals


que tOrn a mesma media i, mas diferentes desvios-padrão oi (I = 1, 2, 3)
em que 01 > a2 > a3.

It x

Em seguida representam-se trés distribuiçöes normais corn rnOdias diferen-


tes .Lj (i = 1, 2, 3) corn Rl > 112 > 93 e o mesmo desvio-padrão c.

N 112 Ili X

o exempto seguinte representa trés distribuiçöes norrnais corn médias pi


diferentes (pg < 112 c p) e desvios-padrão m tambérn diferentes (si > ( 2 > (53).

C3

I2 91
2.2.2. CáIcLJlo de probabilidades na distribuiçäo normal

Dado que ji e a podem tomar uma infinidade näo numerável de valores


(-00 < p. < + e a > 0) então existe também uma infinidade não nume-
ravel de diferentes distribuicöeS normals.
Daf que, para o CáICUIO de probabilidades, qualquer distribuicão normal 6
ou normal estandartizada.
transformada na chamada normal-padrão,
Esta transformacãO, que consiste numa rnudanca de origem (subtraccão
por p.) e mudança de escala (divisào por (7) é chamada estandartizacão.
Isto 6, se a variável aleatória Xtem distribuiçâo normal de parámetros lt e
= ' 6 a chamada normal estandartizada ou reduzida ou
a, então Z

ainda normal-padräo.

Sabendo que, se X fl n (p., (y), se tern:

E[X] =
= (52
Var[X]

facilmente se deduzem Os parametros danormal-padràO Z:

E[Z]=

= -;- (E[X] - =

0.

Var[Z]= var[X__ a2 Var[X—p.}=


L

1
= -- (Var[X] + Var[p.]) =
a

1
=(y2 + 0) = 1.
02
A

Note-se que ji e a são parâmetros que, embora possam ser desconhe-


cidos, são constantes.
Conclul-se então que:
Z= X a__ fl n(0, 1).

A função de densidade de probabilidade da normal-padrão z é dada por:


z2
(z) = e 2
- < z < +

A respectiva função de distribuiçao, 't (z), permite calcular probabilidades


em determinados intervalos:
b (z) = P[Z:~ z].

A consulta da tabela (em apéndice) permite concluir, a tItulo de exemplo,


que:
P[Z!~ 0] = it' (0) = 0,5

-3 -2 -1 0 1 2 3 z

-a -2 -1 0 1 2 3

P[Z:~1,15] = 't' (1,15) = 0,8749


S
Dado que ç (z) é simetrica, tern-se que:
4 (-z) = 1 - (z)

como se ilustra na figura seguinte.

Nas figuras seguintes ilustram-se as seguirites factos:

[ -a- R X—
- a < X < + a] = a a a

= 9—i < Z < I = 0,68.


PA

- 2a c X < A + 2aJ =
P[-2 cZ < 21 = 0,95.

- <X < + 3a] = P[-3 < Z <


31 = 0,99.

Utilizando a tabela da normal-padrao determine:

a) P[0< Z< 1,32] =

= CJ (1,3) - cji (0) =

= 0,9066 - 0,5000 =

= 0,4066.

L.
b) P[-0,75 .c Zc 01 =

= 4) (0) - 4) (-0,75) =

= 0,50 —[1 —4) (0,75)] =

= 0,50 - 0,2266 = 0,2734.

Note-se que, como a distribuicäO é sirnétrica,


4:i (-0,75) = 1 - (D (0,75).

c) P [ Z > —0,871 =
=1 P[Z !~ —0,871
- =

= 1 —[1 —4) (0,87) 1 =

= (D (0,87) = 0,8078.

d) P[-1,96 c Zc 1,961 =
= 4) (1,96) 4) (-1,96)
- =

= 0,9750 - [1 - 4) (1,96)1 =

= 0,9750 - 1 + 0,9750 =

= 0,9500.

LI

o tempo em horas que urn grupo de operátios leva a executar determinada


tarefa tern distribuicão normal corn media 1000 horas e desvio-padrao 200 horas.
Qual a probabilidade de 95 operários terminarem a tarefa em menos de 1200
horas e mais de 800 horas?
FSTATISTICA APLICADA

Seja X - tempo (med/do em /ioras) quo dote rminado grupo do operádos leva
a executar determjnada tarefa

X nn (t = 1000; a = 200)

400 600 800 1000 1200 1400 1600

-3 -2 -1 0 1 2 3

P[800 < Xc 1200J = [800 —1000 1200-10001


200 200

= P[-1 c Z < 11 = (1) - [1 - (1)] =


= 0,8413 - 1 + 0,8413 = 0,6826.

Uma máquina do bebidas estâ regulada do modo a servir uma media do 150
ml por copo. Se a quantidade servida por copo seguir uma distribuiçao normal
corn desvio-padrao de 20 ml, determine:

a) Qual a percentagem do copos que conterâo mais do que 175 ml;


b) Quantos transbordarao nas proxrmas 1000 bebidas, se forem usados copes
de 170 ml;
c) Abaixo do quo valor serão consideradas as 25% bebidas mais curtas.

Seja X - quantidade (em ml) que uma máquina de bebidas sonic por copo.

X n n (150; 20)

a) Pretend e-se: P [ X > 175} = 175 - 150 1


20
J=

= P [ Z > 1,251 = I - cji (1,25) =

= 1 - 0,8944 = 0,1056.
FU GAS MA!

Cerca de 10,6% dos copos conterão mais de 175 mt.

170 - 1501
b)P[X>170]=P [X>
20 j=

= P [ Z > 1] = 1 - (1) =

= 0,1587.

Logo 158,7 = 159 copos transbordarao nas 1000 bebidas servidas


(0,1587 x 1000 = 158,7).

c)P[Xc a] = 0,25
I
- 1501
20
[Z

x' 150 x

a - 150 = —0,675
20

a = 150 + (-0,675 x 20) =

= 136,5.
z' 0 z

Entao as 25% bebidas mais curtas terão no máximo 136,5 ml.


H
ESTATISTICA APLICADA

2.2.3. A aditividade da d!sti-ibuição normal

Como resultado do teorema anterior, pocie-se concluir;


serviço de expedicão e entrega de certa unidade fabril verificou que
o
volume das encomendas (em m) entregues aos clientes erarn essencialmente
de 2 tipos:
a) Tipo A: com distribuicâO normal, com media t = 5 e (52 = 100.

b) Tipo B: com distribuicãO normal, corn rnOdia ji = 15 e cr = 25.

A e 100
o volume de entregas semanais é de 200 encomendas do tipo
responsavel do serviço de expedicão e entrega nego-
encornendas do tipo B. 0
ciou com urna empresa transportadora a transporte maxima de 3000
semanais.

Comente tal decisão.

Seja:
volume da i-ésima encomenda do tipo A entregue ao cliente (em m
XAJ -
3).
volume da j-ésima encomenda do tipo B entregue ao cliente (em m
XBJ -
(1 = 200)
XAi n n (5; 10)

X81 n (15; 5) (j = 1, 2,..., 100).

Pelo teorema da aditividade da normal (e pressupondo que as variáveis são


independentes) virá:
200
Xj -
n(200 x 5; 'U200 X100 )
/=1
100
Xajfl n(100 x 15; TTOo x 25
j=l /
ESTATISTICA APLICADA

200 100
X = , XAI + IXsj n(2500; 4i0052500)
1=1 j=l

Então,

P[X :~3000] =p Z !~ - 2500


= P[Z!~ 3,(3)J =
150
1 J

A decisao tomada pelo responsavel foi acertada: a probabilidade de o volume


de encomendas a entregar por sernana ser superior ao contratado corn a empresa
transportadora é muito pequeno 0,0004 I -

1-1

2.24. A distribuição normal como uma aproximaçao


da distribuiçäo binomial

Em que situaçöes se pode utilizar a distribuiçao normal como distribuiçao


aproximada duma variável aleatoria cuja verdadeira distribuiçao ë uma bino-
mial?

Quando foi apresentada a distribuiçao binomial constatou-se que, quando


p 0,5, a distribuiçao era simOtrica, qualquer que fosse o valor de n (nümero
=

de provas de Bernoulli).
Acontecia também que, mesmo que p nao fosse 0,5 e desde que n fosse
grande, a distribuiçao binomial seria quase simétrica.
Assim, quanto mais prOximo p estiver de 0,5 e quanto maior o valor de n,
mais prOxima (aproximada) estará a distribuiçao binomial duma distribuiçao
normal, ou seja, melhor será a aproximaçäo.

Dal que a aproximaçao da binomial a normal


seja feita nas seguintes
condiçöes:
2.2.5. A distribuição normal como aproximação
da distribuiçäo do Poisson

A distribuicão normal é utilizada como distribuicão aproximada da distribul-


ção de Poisson sempre que A. > 20, embora a aproximacàO sela tanto melhor
quanto major for X.

Importa ainda salientar o seguinte aspecto: quando se utiliza a distribuição


normal como aproximacão a uma variável aleatOria discreta, como são os
casos das duas aproximacöes atrás referidas, e necessário fazer a chamada
correcçäo de cant/mi/dade.
A correcção de continuidade consiste em considerar, para o cálculo duma
probabilidade, uma pequena vizinhança a esquerda do extremo inferior do
intervalo e a direita do extremo superior do intervalo.
Ver-se-a em capIfulos posteriores quo a distribuiçâo normal é utilizada coma
descricao aproxirnada do muitas outras distribuiçoes quando
n a dimensao duma arnostra n cresce, sendo

Esta fendéncia para a normal/dade, so assirn so the pode chama, desem-


penha urn papel muito importante na inferéncia estatIstica

Urn processo do fabrico produz parafusos, dos quais 2% são defeituosos So


retirarrnos urna arnostra do 2000 parafusos para inspecçao, qual a probabiudado
de que polo menos 15 parafusos e não mais do 25 sejam defeituosos?

Soja X -
nUmero de paraftisos, cm 2000 que são defeituosos
X ç' b (x; n
= 2000; p = 0,0
Pretende-se P[15 ~5 X :5 25] =

Como n -* w e p -> 0 , tornos quo:

X n (Ii = 2000 x 0,02; a


= X 0702x 098)
X n n (40; 6,26).

Corn a correccao do continuidade vem:

P[14,5 :-< X:~ 25,51 = j14,5 —40 25,5 40


I[ 6,26- C -

26 j =

= P[-4,o7 :5>:5 —2,3] =

= 0,0107 - (1 - 0,9998) = 0,0102.


quo 6 a probabilidade protoridida.

o
nürnero do avarias quo urna rnaquina torn par dia 6 urna variável aleatoria
corn distribuiçao do Poisson de media 0,2.

Calcule a probabijidade do a reforida rnáquina for durante urn ano (365 dias)
oxactarnente 75 avaijas.
D,sTnlBuIcoEs TEORICAS MAIS IMPORTANTES

Seja X — nUrnero do avaflas quo uma ma quina tern POT dia


X -'
p (x, X = 0,2).

Seja Y — nürnero do avarias quo urna ma quina tern por ano


Y np (y; X = 0,2 x 365 = 73) (aditividade da Poisson).

Pretende-se: P [ Y = 75] = ?

Como X e grande (X = 73) faz-se aproximacão a distribuição normal:


X n(i=73;a=Th).

Com correcçao do con tinuidade vem:


[ 74,5 73
P[745cY<7551=P [
73
~

= 1 (0,29) — t (0,18) =

= 96141 - 0,5714 = 0,0427.

LI

23/
!aT4ir.i.-zit.Jr*1(.1-i

1. Urn vendedor anda do porta em porta a vender gravatas. Durante uma rnanhä
ale consegue falar corn 16 pessoas. Em cada casa, onde Ihe abrern a porta, a
probabilidade de vender uma gravata é 0,1. Qua[ a probabilidade do ele vender
pelo menos uma gravata numa manha?
R: 0,8147.

2. De urn grupo de 10 peças, 3 delas são defeituosas. Se escolher 3 ao acaso,


qua[ a probabilidade de nenhurna delas ser defeituosa?

R. 7
24

3. Rotome-se o exernplo 10, em quo um fabricante do tira-nódoas garante que


determinado produto tira nódoas de chocolate em 80% dos casos.
Para verificar tall garantia, uma associaçao do consumidores decidiu efectuar
urn estudo sobre uma arnostra de 100 elementos, aceitando essa garantia se o
nümero de casos ern que o referido produto foi eficaz for de polo menos 75.

Qual a probabilidade de a garantia ser rejeitada supondo que a eficácia O de


facto 80%?

A: 0,1056.

4. Sendo X a V duas variáveis aleatOrias independentes com distribuição do


Poisson de parârnetros X1 e X2 respeclivamente, rnostre qua a distribuiçao con-
2,1
dicionada de X dado X + V = ii, O uma binomial de parârnetros p =
xl + 212
A: P[X = x I X + V = n] = P[X = x I V = n - x] =

\ I n-x

+x2J 1 +A2]
- L1 -

5. A central telefónica de certa empresa recebe em media 360 chamadas por


hora, mas a sua capacidade de atendimerito é do 10 ligaçOes por minuto.
a) ApOs ter sido recebida uma charnada, qual a probabilidade de ter do so
esperar rnäis 6 segundos ate receber nova chamada?
b) Esta empresa dispOe de 100 centrals instaladas nas várias dependéncias
que funcionam todas sujeitas as mesmas condiçöes. Qual a probabilidade
de, em dade minuto, haver mais de 10 e menos de 20 centrals que não
conseguern atender todas as chamadas que recebem?

R: a) 0,5488; b) 0,0044.

6. Uma rnáquina de bebidas está regulada de modo a servir uma media de 150
ml por copo. Se a quantidade servida por copo seguir uma distribuição normal
com desvio-padrâO de 20 ml.
a) Qual a percentagem de copos que conterão mais de 175 ml?
b) So forem usados copos de 170 ml cada, quantos transbordarão nas prOxi-
mas 1000 bebidas?
c) Abaixo de que valor serão consideradas as 25% bebidas mais curtas?
R: a) cerca de 10,6%; b) cerca de 159; c) As 25% bebidas mais curtas
terào no máximo 136,5 ml.

7. Determinado produto é empacotado automaticamente. Suponha que o peso


do pacote e normalmente distribuldo com media 450 gramas e desvio-padrâo de
30 gramas. -
a) Qual a probabilidade de um pacote escolhido ao acaso ter peso superior a
500 gramas?
b) Em dez pacotes escolhidos ao acaso:
bi) Qual a probabilidade de haver pelo menos 5 pacotes com peso superior
a 500 gramas?
b2) Qual a probabilidade de haver 3 pacotes com peso superior a 500 gramas
e 3 pacotes corn peso inferior a 400 grarna?

B: a) 0,0475;

bl)0,0001; b2,) 31 3! 4! (0,0475) (0,0475) (0,905) = 0,00004.

8. 0 nUmero de pessoas que semanalmente apresenta um pedido de emprego


no centro de emprego de determinada area, apresenta uma distribuiçäo de Pois-
son com media 9.
Cerca de 80% dos pessoas pretendem trabaihar no sector dos serviços.
a) Qual a probabilidade de em determinada semana, não aparecerem mais
de quatro pedidos naquele centro de emprego?
b) Qual a probabilidade de no ano passado, aquele centro de emprego ter
recebido pelo menos 500 pedidos de emprego?
ES TA TIS TI CA APLICADA

c) Tendo seleccionado 12 dos pedidos recepcionados, qual a probabilidade de


não se encontrarem mais de 7 dirigidos a sectores que não o dos serviços?
R: a) 0,0549; b) 0,0721; c) 0,9994

9. Nurna via de acesso a Lisboa, se a probabilidade de urn painel ser visto per
urn autornobilista for de 0,6, quantos painéis, no mInirno, deverao ser colocados
nessa via para ser superior a 0,9 a probabilidade de certo autornobilista ver pelo
menos 1 dos paineis?

Ft 3 paineis

10. A uma prova de adrnissao a uma escola universitaria, apresentararn-se 3500


candidatos. As pontuaçOes obtidas por aqueles seguern uma distribuiçao aproxi-
madamente norrnal corn rnédia 55 pontos e variância 25 pontos 2.
a) Urna vez qua a referida escota, apenas adrnite 700 candidatos, indique a
nota do ültirno candidate admitido.
b) Quantos candidatos obtiverarn pontuaçâo superior a 65 pontos?
c) Indique as pontuaçOes extrernas do grupo media constituido per 50% dos
candidatos.

R: a) 59,2; b) = 80.

11. A duraçao de vida (ern horas) de dois dispositivos electrónicos Dl a D2


tern distribuiçäo normal corn rnédias 43 e 45 e desvios-padrao 6 e 3 respectiva-
mente. Se o dispositivo tiver que ser usado par urn periodo de 48 horas qual dos
dais deve ser preferido?
R: 0 segundo.

12. 0 serviço de mailing de uma empresa está encarregado de rnanter e de-


senvolver uma extensa lista de rnoradas de clientes. 0 serviço afirrna que a
probabilidade de qualquer dado da sua lista se encontrar desactuaizado, dando
assirn origem a extravio é de 0,05.
a) Calcule a risco de mais de 3 cartas se extraviarern, ou menos de 10
chegarern aos clientes, case sejarn expedidas 15 cartas.
b) Se forern expedidas 100 cartas, qual a probabilidade de no máxirno 10 se
extraviarern?
c) Qual a probabilidade do responsável do serviço tar de investigar 5 registos
da lista para encontrar 3 desactualizados?

R: a) 0; b) 0,9941; c 0,0007
tipo A, mais
Urn certo barco pode transportar dois tipos de contentores 0
13.
pequeno e o tipo B, major.
Depois de cheioS, estes dais tipos de contentores tern peso que podemos
considerar Normalmente distribuido. Urn contentOr do prirneiro tipo pesa em media
15 toneladas, corn urn desvio-padrào de 3 toneladas, enquanto que para um
toneladas, respectivamente.
contentor do segundo tipo esses valores são 20 e 4
Por razdes tecnicaS, aconseiha-se que o total da carga nao exceda as 1750

toneladas.
Suponha que foram carregados nesse barco 60 contentores do tipo A e 40
a)
Qual a probabilidade da carga total do barco exceder o limite
do tipo B.
aconselbado?
B, quantos contentores do tipo
b) Tendo que carregar 40 contentores do tipo
devem ser carregados, se não se pretender correr urn risco superior a
A
5% de ultrapaSsar o limite de carga aconselhado?

R:a)0,072t b)59

0 Sr. Ramos decidiu jogar semanalrnente no totoloto corn duas apostas


14.
simples (70$00) ate obter o 1 prémio. Considere a variavel aleatória
do semarias em quo o Sr. Ramos perde, ate obter a 1 prémlo.
X - n2
A probabilidade de o Sr. Ramos obter a 1 prérnio em cada sernana é p.
Verifique que está perante uma sequencia de provas de Bernoulli.
a)
b) Deduza a função de probabilidade da v.a. X.

trabalham 5000 artistas.


15. Nas companhias de teatro de uma cidade A
0 seu salário supoe-se seguir uma distribuicão normal. Sabendo que rnetade
deles ganham menos de 200 u.m. e que 5% ultrapassam 250 u.m., calcule:

a) 0 melhor salário no grupo dos 2000 artistas pior pagos.


b) 0 pior salário no grupo dos 1000 artistas rnelhor pagos.
A probabilidade de em 10 artistas seleccionados ao acaso, encontrar 5 que
c)
ganharn mais de 250 u.m.
trabalham 2000 artistas e que o seu
d) Sabendo que nurna outra cidade (B)
salário segue tambérn distribuição normal corn media 150 u.m. e desvio-
u.m., calcule a probabilidade de urn artista escolhido ao acaso
padrão de 40
auferir um salário superior ao de urn outro que trabalha na cidade A?

1
0 processo
de amostra gem
In trodução

A amostragem e em particular Os processos de amostragem aplicam-se em


variadIssimas areas do conhecimento e constituem, muitas vezes, a ünica
forma de obter informaçoes sobre uma determinada realidade que importa
conhecer.
A teoria da amostragem é assim um dos instrumentos que possibilita esse
conhecimento cientifico da realidade (sempre complexa), onde outros proces-
sos ou métodos alternativos, por razôes diversas, nào se mostram adequados
ou ate mesmo possIveis.
Ainda que as pessoas não vejam esta temática, em particular Os principios
da teoria da amostragem, como algo banalizado, a verdade é que eles supor-
tam (ou deviam suportar) muitas das mensagens que no seu quotidiano Ihes
são transmitidas nas mais variadas situaçöes. Se não vejamos:

Neste ültimo més fol-me pedido para co/aborar em dois inquéritos de rua e
ate num palo tale fone".

(CA telenovela a os programas desportivos con tinuam a ter as maiores audiên-


cias em todo a pals".

"Os va/ores Amizade e Liberdade alteraram-s'è substancia/mente na Oltima


década?'.

"0 1/der do partido A tem visto nos ü/timos meses aumentar a seu prestIgio
em detrimento dos Ilderes dos partidos B a C".

"A opiniao dos consumidores sobre a nosso produto é bastante desfavoravel,


dadas as razöes da sua preferencia quanta as diferentes caracterlsticas dos que
existem no mercado'.

"Nunca tinha pensado qua as razães principals do divorcio fossem as que


esse artigo refere".
ESTATISTICA APLICADA

Iota entregue pelo nosso fornecedor não sat/s faz a qualidade a quo se
<cQ

comprorneteu, pelo quo não deverá ser ace/to'>.


CCQ5nossos concorrentos tern corno pantos fortes a cumprirnento dos prazos
de entrega e as cond/çoes de pagarnento".
<CO [nd/ce de preços no consum/dor tern baixado substancialrnonte nos ült/rnos
anos".

"De acordo corn o /nteresse man ifestado pe/os utentes, a Ca ms vai proceder
a reestruturaçäo de algurnas carroiras em várias zonas da c/dade'>.
<<0 baixo cI/rna social existente na ornpresa podera ser bastanto dirn/nuldo por
uma corn un/ca ção ma/s cuidada, em particular no que respeita aos qua dros
superioros e /ntemiOdios".

<<Quando a estenose aórt/ca so rnan/fosta POT angina do pe/to, a rnéd/a do


sobrev/da não ultrapassa as 5 anos".

Uma boa parte das mensagens atrás descritas aparecem como conclusöes
sobre determinada realidade em que se aplicou a lnferência Indutiva - isto é
- a partir dos resultaclos de experièncias ou inquéritos que fornecem dados
estatIsticos sobre determinada investigação, formulam-se conclusöes que ut-
trapassam 0 ambito das experiências ou inquéritos efectuados. Ou seja, faz-se
a extensão do particular para o geral.
Mas, entâo, poe-se a questão: serão vátidas as conclusOes a que se chega?
A Estatistica Iridutiva fornece as técnicas que permitem realizar as inferOn-
cias indutivas e controlar e ate medir o grau de iricerteza que aquelas
conclusOes possam conter.
• Popu/açao ou universo
Conjunto de urildades corn caracterIstjcas cornuns.
o conjunto dos utentes da Carris, das farnitias moradoras ern certos bak-ros,
dos àlunos do ISCTE, das peças produzidas par uma rnáquina em deterrninado
perIodo, dos resultados obtidos no Iançamento de urn dado, são exemplos de
poputaçöes ou universos.
Refira-se que as exemptos atrás mencionados referem-se a popu/açães
reals, corn excepção para a conjunto de resultados obtidos corn a tançamento
de urn dada ern que tat universo ou populaçao se diz hipotética.
A unidade básica de uma poputaçao denornina-se elemento da população.

• Amostra
Sub-conjunto do universo ou população.
A obtenção de inforrnaçao sobre parte de urna população denornina-se
amostra gem.
Ern geral, a investigador está interessado em certa(s) caracteristica(s) es-
pecIfica(s) da populaçao em estudo. Define-se entãa uma certa variävel Xque
representara a caracteristica qua se pretende avaliar.
A variávet X padera designar a nUmero de filhos, a rendimenta disponivel
ou o atributo de ser traba!hador par conta de outrOm (X= 1) ou trabaihador par
conta prOpria (X= 0) das famIlias moradoras em certo bairro (poputaçao).
APLICADA

A caracterIstica X poderá ser uma variávet discreta ou continua, mas,


desde que 0 elemento tenha sido escoihido ao acaso da populaçäo, e uma
variavel aleatória corn uma certa distribuiçäo de probabilidade.
Embora a variável aleatOria X designe urna caracteristica de uma popula-
ção, O frequente utilizar no ârnbito da teoria da amostragern a designaçao X
para a prOpria população.
No estudo das variáveis ateatOrias e distribuiçöes, parte-se sernpre do
determinado modelo probabitfstico e a partir dole calcularn-se probabitidades
do certos resultados e observaçOes.
Na InferOncia EstatIstica, o processo O, como alguns autores afirrnam, a
inverso - isto O, parte-se de certos resultados ou observaçoes fornecidas para
uma amostra e procura-se chegar a urn modelo probabilIstico.

Suponha-se que a populaçao em estudo é constitulda por 10 mil famflias


residentes em determinada regiao.
Aquelas famflias utilizam diferentes marcas de Oleo alimentar que so encon-
tram a disposiçào no mercado.
A caracteristica em estudo O o atributo utilizar o 6/co A (X= 1) ou nao utilizar
odIeoA(X= 0).
Seja p a proporçao das famflias quo utilizam o óleo A.
Escoihem-se ao acaso 100 famflias e pretende-se determinar a probabilidade
do, no conjunto das 100 famflias, encpntrar 30 que utilizem o óteo A (a as
restantes 70 utilizarem um outro Oleo)._
Convém aqui distinguir duas situaçöes:

• Situação I
A proporçào das familias que utilizam o óleo A é conhecida, isto 6, o p é
conhecido, supondo-se igual a 0,4.
Entäo, para determinar aqueta probabilidade, bastatia aplicar o modelo proba-
bilIstico adequado.
Trata-se de uma distribuiçao hipergeomOtrica (ou binomial sem reposição),
desde que as 100 famflias tenham sido seleccionadas sem reposição - a que
ailS é a situaçao que realisticamente tem mais sentido - já quo se pressupOe
qua uma mesma familia não pode ser seleccionada mais quo uma vez.
PROCESSO DE AMOSTRAGEM

Se por exemplo P=0,4, isto 6, se das 10000 famIlias, 4000 utihzarn o Oleo A,
entäo a probabilidade pedida será dada por1 :

(4010 (6000)
30 )70
(i0000
100

• Situação 2
A proporção das famItias que utilizam o Oleo A 6 desconhecida, isto 6, p 6
desconhecido.
Esta é a situaçao que, na prática, sucede na maioria das vezes e oobjectivo
6 diferente do da situaçao anterior.
Ao serem seleccionadas as 100 famflias, o objectivo consiste em tirar conctu-
sOes sobre a verdadeira percentagem das farnIlias que utilizam 0 óleo A, no total
das 10000 famIllas. Ou seja, a partir dos resultados de uma amostra, pretende-se
concluir para o universo ou populaçao que neste caso 6 constitufdo pelas 10000
familias residentes em determinada região.
E Obvio que as conclusoes a que se chega conterao, em major ou menor grau,
uma certa dose de incertèza - que, no entanto, respeitadas certas condiçOes,
pode ser medida e controlada.
Nào se pode dizer que tais conclusOes são verdadeiras ou falsas, a não ser
que fossem inquiridas as 10000 familias e depois se verificasse qual a proporçâo
das que utilizam o Oleo A.
Na situação 2 está-se no ârnbito da inferéncia indutiva onde se pretende -
utilizando toda a informaçao disponIvel a partir da arnostra (do particular) -
concluir para o universo ou populaçao em estudo (o geral).
Ora, a obsetvaçao de toda a populaçao (as 10000 farnflias) teria urn preço
demasiado elevado para se obter uma resposta sm qualquer grau de incerteza.
Quando a populaçao 6 conceptualmente infinita, a sua enumeraçào torna-se
ate impossIvel.
Noutros casos, o processo de amostragem 6 destrutivo - a numeração
completa do Universo 6 possfvel, mas teria custos demasiado elevados 2.

M
1
Aquela probabilidade podera ser dada de forma aproximada pci 01 4 0 O,6 ° dado

que p se mantOm quase fixo de prove para prove (de tiragem em tiragem), o que correspondera.
a aplicaçao da distribuição binomial. Poder-se-la ainda fazer a aproximação a distribuiçao normal
já que n e suficiente grande e p tem um valor intermédio.
2
A generalidade dos testes de controlo de quatidade dos produtos ou materials quanto a
resisténcia, durabilidade, etc., são exemplos disto.
i Quest6es pre'vias
30
ao processo de amostragem

Uma definição clara dos objectivos do estudo a efectuar é fundamental e


deve ser feita numa fase anterior ao inIcio daquilo a que chamamos o processo
de amostragem.
Definidos as objectivos, nomeadamerite as caracteristicas da População
que se pretende estudar, ha que efectuar um levantamento e sistematização
da informação dispon(vel que no çaso se torna relevante.

A formulaçào e resposta àquelas questöes prévias é por demais importante


jà que pode sugerir um quadro geral de alternativas cuja escoiha acaba par
condicionar alguma ou algumas fases de qualquer processo de amostragem.

Exemplifiq ue-se:

I) Se a informação disponivel sobre as variáveis (ou caracterIsticas) em


estudo for bastante escassa, as alternativas que se poem na escoiha da
População, do método de amostragem e na dimensão da amostra serão
em mais reduzido nUmero.
II) Se a informaçao estatIstica obtjØa permitir concluir da existéncia de uma
grande variabilidade na(s) caracteristica(s) em estudo, dever-se-á utilizar
uma amostra de maior dimensao.
As fases do processo
mim
de amostragem

Depois de se identificar Os dados que deverão ser recoihidos e o instru-


mento (questionario estruturado, por exemplo) a utilizar para essa recolha, o
passo seguinte consiste em definir urn processo de arnostragern adequado ao
tipo de dados e ao instrumento de anáhse.
No processo de recoiha de dados é necessarid desenvolver um processo
sisternático que assegure a fiabihdade e comparabilidade desses dados. Mais
especificamente, é necessário que se estabeleça a partida urn piano de arnos-
tragem de acordo corn a popuiaçao alvo, corn a definição da populaçao a
inquirir e corn urn processo adequado de administraçao do inquérito.
0 pIano de amostragern deverá começar por deterrninar qual o nivel de
extensão geográfica em que o processo de arnostragem devera ser conduzido
(mundial, nacional, regional, urbano, rural, grupo de individuos, etc.).
A construção da amostra propriarnente dita envoive várias etapas igualrnen-
te irnportantes e que são:

1. A identificação da popuiação alvo/popuiaçao inquirida.


2. 0 mOtodo de seiecçao da amostra.
3. A dirnensao da amostra.

Neste capItulo serão apenas analisadas as duas prirneiras etapas. A deter-


rninação da dimensAo da amostra, por requerer conceitos ainda não
introduzidos, será abordada em capItulo posterior.
APLICADA

4.1. A iden tificação da populaçao


alvo Ipopulação inquirida

A identificaçäo da populaçäo de uma forma clara e objectiva e imprescin-


dIve!, embora possa parecer demasiado obvia em muitas circunstâncias.
Designa-se por populaçäo alvo a totalidade dos elementos sobre os quais
se deseja obter determinado tipo de informaçöes.

Suponha que o proprietário de urn editicio onde ira funcionar urn centro
comercial pretende avaliar qual o impacte nos utilizadores do centro da existéncia
do uma livraria.
Quai a popu!açao alvo?
Na verdade a popu!ação alvo é constituida por todos os potenciais utilizadores
do centro.
No entanto, neste caso particular, esta definição não é operaciona!, ja que a
informaçao disponivel náo permite distinguir os potenciais utilizadores dos poten-
ciais não utilizadores do centro (numa fase anterior a conclusáo do edlficio).
Assim, várias alternativas na escoiha da chamada popuiação inquirida (aquela
que será objecto de análise) se poderão pôr:
a) Todos os residentes na cidade onde se situa o centro.
b) Apenas aqueles de uma area circundante de raio inferior a 3 Km.
c) Os moradores do bairrolfreguesia" onde se situa o centro.
A esco!ha da alternativa - ou seja, qua! a populaçao inquirida - torna-se
uma questão chave pois é a partir dela que se retiraré a arnostra.
N

Urn estudo sobre as intençöes de voto terá como população alvo todos
aqueles quo estão ern idade e em condiçoes de votar. No entanto, a populaçao
inquirida poderá incluir apenas aqueles que votararn nas Ultimas e!eiçOes.
M
Num estudo efectuado sobre o grau de satisfaçao dos chentes utilizadores de
embalagens de cartâo canelado relativamente aos vários fornecedores existentes
no mercado, é possivel, pelo menos de uma forma aproximada, conhecer a
populaçao alvo através das EstatIsticas Industrials do INE (repartida ate pelos
vários sectores de actividade), podendo haver assim coincidéncla entre a popu-
Iaçao alvo e a populaçao inquirida naquele estudo.

Refira-se ainda quo nos casos em quo não ha coincidOnclas entre a popu-
Iaçao alvo e a população inquirida, as inferéncias indutivas dizem respeito a
populaçao inquirida e quo se torna abusivo inferir para a populaçâo alvo.

Resurnindo, a populaçâo alvo 6 constituIcja por todos os elementos sobre


as quais so deseja obter urn determinado conjunto do informaçOes. No entanto,
em muitas situaçOes, não 6 operacional inquirir uma amostra retirada da
populaçao alvo, havendo necessidade de definir qual é a populaçáo a inquirir,
nâo Coincidente corn a população alvo, e a partir da qual so retirará a amostra.

Em seguida, os respondentos
serão seleccionados do entre a população a
inquirir, do acordo corn a un/dade do análise.
Par exemplo, num inquérito sobre
o consumo das famflias em produtos alimentares, a unidade do análise ë a
familia e o respondente poderá ser o elemento feminino do casal. Por ültimo,
o necessá.rjo definir qual a processo de amostragem
e o tamanho da amostra
rnais adequados.

Estes passos estão apresentados na figura seguinte.


ES TA TISTICA APLICADA

Desenvoivirnento de urn piano arnostrai

Popu!açâo alvo

Populaçâo
a inquirir

Processo amostral Metodo do recoiha


Dimensao da amostra I I do dados

Amostra final

4.2. Os mOtodos de se!ecção da amostra


Qua] o método que se dave adoptar quando se pretende seleccionar uma
amostra?
Existem dois grandes grupos de métodos para seleccionar amostras: Os
métodos probabilIsticos, também chamados de amostragem casual e os me-
todos näo probabilIsticos ou de amostra gem dfrigida.
Será sobretudo analisado o primeip daqueles grupos, pois a arnostragem
casual tern diversas vantagens sobre a amostragern dirigida, perrnitindo ao
investigador:
I) Dernonstrar a representatividade da amostra.

II) Medir explicitamente (em termos probabilisticos) o gräu de incerteza corn


qua se extrapola para a popuiação/universo, isto é, o erro cometido por
se usar urna amostra em vez da população.

ill) Identificar explicitarnente os potenciais enviesarnentos.

Refira-se ainda que a precisão e 0 custo inerente ao processo de amostra-


gem são factored determinantes na escoiha do tipo de rnétodo a utilizar.
- 0 PROCESSO DEAMOSTRAQEM

4.2.1. Métodos de amostragem aleatária

Dovido as suas bases teOricas, apoiadas na teoria das probabilidades, a


arnostragem aleatOria tern sido adoptada pela pesquisa em muitas areas
ciontIficas. 0 grau do confiança associado aos rosultados obtidos, quando se
utiliza urn processo de arnostragern aloatOrio, pode ser rnodido o controlado.
Do rnosmo rnodo, pode ser evitado qualquor enviesarnonto provocado por uma
oscoiha dirigida dos respondentes, uma voz que o processo de solocçào e
casual e mocânico a partir do uma listagorn de todos os indivIduos. Estes
factores podorn ser considorados como as vantagens desto tipo de arnostragom.
No ontanto, doverão ser tambérn roforidas as dificuldados em recoiher uma
amostra aleatOria. E a principal dificuldado consiste na obtonção do uma
listagern complota da populaçao a inquirir. Estas listagens são, na maioria dos
casos, difIceis do consoguir, de custo elovado, dornoradas na sua obtenção o
nom sernpre de fiabilidado aceitávol.
0 segundo tipo do dificuldades relaciona-so corn as não-rospostas. Dopois
do dofinidos os rospondentes, não podorão haver substituiçOes, polo quo as
não-respostas constituern uma irnportante fonte do onviosarnento e torá de ser
foito tudo para que a sua taxa seja rninirnizada. Todas as novas tontativas (por
entrovista possoal, telefone ou corroio) para obter rospostas bern sucedidas
irnplica aurnento do custos e dernora na obtenção dos resultados.
A arnostragorn aleatória é, sern düvida, o processo mais caro, rnas os custos
tendorn a tornar-se pouco importantes face a fiabilidade dos rosultados obtidos.
Do uma forma gonérica podomos dizer quo nos rnOtodos do amostragorn
casual a probabilidado do seleccionar dotorrninado elemonto da população O
conhocida a priori e quo tais métodos conduorn as charnadas arnostras
aloatOrias.
lrnportara caracterizar as rnétodos de arnostragorn casual rnais froquento-
rnento utilizados:
1. arnostragern aloatOria simples
2. amostragorn sistornática
3. arnostragem estratificada
4. arnostragorn por clusters
5. arnostragorn multi-otapas
6. arnostragern multi-fásica.

255
ES TA TIS TI CA APLICADA

4.2.1.1. Amostragem aleatOria simples

Caracteriza-se por:

I) Cada elemento da população ter a mesma probabilidade de ser selec-


cionado;
/0 Cada amostra de dimensáo titer a mesma probabilidade de ser escoihida.
Ha duas formas de obter uma amostra daquele tipo:
1 - a da lotaria;
2 - a dos nümeros aleatórios.

Para ilustrar o charnado método da lotaria, suponharnos que Ana, Bernardo,


Carlos e Dora constituem a população de urn atelier. Os quatro pretendem ter
férias no més de Agosto, rnas apenas dois deles podern ir nesse perlodo.
Decide-se então colocar numa caixa quatro papéis corn as letras A, B, C e D
e retirar (sern reposicao) urna amostra de dois daqueles papOis.
Existern diferentes arnostras de dimensão dois que podem ser seleccionadas,
mas cada amostra (Se) tern a rnesrna probabilidade de ser escoihida, isto é:

P[Si]
[4 9=+
=
ou seja, ha seis amostras diferentes de dots elementos que são:
Si - Ana, Bernardo
- Ana, Carlos
S - Ana, Dora
S4 - Bernardo, Carlos
S5 - Bernardo, Dora
S6 - Carlos, Dora

Por outro lado, cada elemento da populaçao tern idéntica probabilidade de ser
seleccionado, ou seja:
P[A] = P[B] = P[ C] = P[D] = * =

Neste procedirnento, constrói-se assirn urna miniatura do universo ou popula-


ção e a partir dela são seteccionados aleatoriarnente os elernentos que
constituirão a amostra.
0 PROCESSQOEAMQSTfl4QEM

Este método é no entanto extremamente moroso, dadas as dificuldades de


construçao de uma miniatura do universo, o que fez corn que tivesse caldo em
desuso.

Numa fabrica de automOveis trabalharn 200 operários em 10 linhas de mon-


tagem. Em cada uma dessas linhas trabalham 20 operários.
Pretende-se obter uma resposta aleatória de 15 operários que semanalmente
serão sujeitos a urn teste de álcool, recorrendo a tabela de nUmeros aleatórios
da página seguinte.
Como obter aquela amostra?
Inicie-se a leitura a partir, per exemplo, do terceiro grupo do colunas e obter-
se-ão os seguintes dIgitos com 3 algarismos (ja que o nUmero total de operários,
N=200):

'660' que so rejeita, '083', ... '009', '140'


'148', ... '154', ... '200' ... '165', '058',
'191' ... 172' ... 100' ... '019' ... '111, 116', '011' que farão parte da amos-
t ra.

Assim escolher-se-á 0 9, 112 e 192 da 1 linha de montagem, 0 32 e o 202 da


58 linha de montagem, o 11 2 e 16 da 6LI linha de montagem e assim sucessiva-
m ente.

As tabelas de nümeros aleatórios são geradas por forma a garantir a


natureza aleatOria dos nümeros que as compöem.
Existem djferentes formas de obter nUmeros aleatOrios, embora seja mais
simples recorrer as tabelas ja existentes.
A grande dificuldade que os métodos de amostragem casual simples apre-
sentam é a morosidade, sobretudo quando as amostras são de grande
dimensao, a não ser que o processo do obtenção dos elementos que consti-
tuirão a amostra seja totalmente computorizada e so dispuser de uma listagem
dos elementos que constituem a populaçâo.

257
ESTATISTICA APLICADA

EXTRATO DE UMATABELA
DE NCJMEROS ALEATORIOS

82 41 73 89 96 97 66 04 74 43 43 05 36 22 20
24 23 56 87 73 39 08 37 78 17 20 53 79 08 88
79 72 36 90 09 87 50 19 93 38 78 21 42 29 97
60 84 59 43 38 89 00 96 80 10 04 50 44 58 80
09 51 98 94 42 16 14 09 96 64 94 59 13 75 59

40 89 95 75 54 95 14 80 18 86 90 85 67 97 72
94 24 54 83 33 06 35 44 14 42 86 90 47 74 40
91 38 05 96 66 69 97 22 79 92 18 88 68 48 83
36 84 99 14 42 24 15 40 53 36 08 45 61 62 25
98 05 72 25 53 41 24 32 40 01 90 89 65 63 31

19 07 80 38 82 86 54 68 21 29 97 47 07 48 86
09 61 83 84 48 83 28 99 67 79 11 90 81 00 02
40 95 11 40 02 02 28 12 57 72 25 36 03 70 08
76 37 59 52 20 09 35 75 53 11 19 66 22 97 72
52 06 48 62 21 50 20 05 50 11 60 93 92 38 85

11 65 73 40 06 07 87 56 20 01 17 59 72 23 33
07 87 96 03 31 06 16 57 59 93 66 78 38 22 22
25 26 18 78 84 18 05 80 19 95 99 03 89 77 74
17 76 94 60 06 35 19 10 27 78 14 34 96 56 69
62 75 37 44 40 25 65 32 85 52 62 04 67 66 66
0 PROCESSO DEAMOSTRAGEM

4.2.1.2. Amostragem casual sistemática

Este método é tambérn charnado quasi-aleatorio por não dar a todas as


amostras que se podern retirar de uma mesma população a mesrná probabili-
dade de ocorrência. Para aplicação deste método 6 necessário calcular o rácio

K = A (arredondando o resultado por defeito). Em seguida, escolhe-se alèa-

toriamente urn numero, no intervalo [1, K], que servira como ponto de partida
e primeiro elemento da amostra. Adicionando ao primeiro valor obtido o racto
K, obtém-se o segundo elemento e a adição sucessiva do mesmo rácio permite
encontrar os restantes elementos da amostra. Como se verifica, apenas o
primeiro elemento O escoihido aleatoriaménte énquànto que os restantes são
deterrninados de modo sistemático pelb rácio.
Por exernplo, se K = 2, então a dimensão da amostra sera constituida por
metade (50%) da dirnensâo da População Se K = 20, então a amostra sera
apenas 5% da População
Chama-se amostra sistemática a uma amostra obtida atraves deste proce-
dirnento.
Em geral, o primeiro elemento a fazer parte da amostra 6 seleccionado
aleatOriamente por urn processo que se escolhe a partida.

Suponha-se que uma empresa industrial pretende fazer urn inquOrito por
arnostragem aos seus 1000 clientes.
A partir da lista dos seus 1000 clientes, a empresa podera retirar uma amostra
cujo primeiro elemento é escolhido aleatoriarnente e os seguirites de forma siste-
matica No caso de a dimensâo da amostra pretendida ser n= 100, entäo Ksena
igual a 10, isto e, apos a escoiha aleatoria do primeiro cliente, os restantes clientes
seriam retirados da lista de 10 ern 10 a partirdaquele.
Ernbora este procedimento possa ser visto como uma aproxirnaçâo mais
prática da amostragern casual simples, pode no entanto revelar-se inadequado
no caso em que existam determinadas 'regularidades'> na lista dos elementos da
populaçao, que prejudicarao a representatividade da amostra. Isto O, este método
o de mais Mcii execuçäo perrnitindo mais informação por unidade de custo
dispendida, desde que se sivaguarde a aleatoriedade da forma como a lista está
ordenada, requisito que a,prnostragem casual sistemética exige.

259
ESTATISTICA APLICADA

No caso do exemplo anterior, poder-se-ia verificar a poster/on que as 100


clientes afinal incidiam apenas nurna area geográfica muito restrita ou num
conjunto de sectores econOmicos muito timitado e corn pouca expressão no
negOcio da empresa.
A situação limite O o caso em que de urna lista de utilizadores de urn voo
aOreo fretado para urna viagern oferecida a casais (em que o nome do homern
aparece invariavelmente em V lugar e o da respectiva muiher a seguir) se
retira urna amostra casual sistemática. Este rnétodo de selecçào conduziria a
urna arnostra formada sO por muiheres Cu SO por homens no caso em que o
Kfosse par.
As empresas que executarn estudos de mercado utilizarn frequentemente
o método denarninado Random Route, que mais não é do que urn processo
de arnostragem casual sistemática, ja que partern de um ponto de partida
escolhido aleatOriarnente, seguindo depois urn itinerário obtido corn intervalos
sisternáticos (inquéritos de riorta ern porta por exemplo). Urn autro exemplo
são os inquéritos por telefone sabre os nIveis de audiOncia de certos progra-
mas televisivos.

4.2.1.3. Amos tragem estratificada

Urna arnostra estratificada obtém-se separando os elernentos da poputaçáo


ern grupos mutuamente exclusivos denominados estratos1 e a partir destes a
selecção de urna amostra aleatOria simples dentro de cada estrato.
For rnutuarnente exclusivos pretnde-se dizer que nenhum elernento da
poputação pode estar simultaneamente presente em dois ou mais estratos.
Este rnétodo permite, no caso de se conhecerern algumas caracterfsticas
do universo au poputação, obter resultadas mais eficientes2 corn urna arnostra
de menor dimensão e igual representatividade.

1 Grupos homog46eos relativamerite a caracteristica ou caracteristicas a estudar.


2 Menor custo, menor tempo e menor possibilidade de erro.
OPROCESSO DEAMOSTRAGEM

Essa eficiencia será ainda mais importante se a variável a ser estratificada


se encontrar correlacionada corn várias outras variáveis como por exemplo
idade, sexo, rendimento, status, area geográfica, etc., o que perrnitirá estrati-
ficar sirnultanearnente segundo várias variáveis, desde que se assegure urna
adequada representatividade dos estratos existentes na população.

Quando se utiliza urn processo aleatOrio simples, o erro aleatOrio cornetido


resulta de dois erros diferentes: o erro dentro de cada estrato e o erro entre
os diferentes estratos. Esta Ultirna cornponente é nula quando a amostra é
estratificada, urna vez que se recoihern as opiniOes dos diferentes estratos da
populaçao. A arnostragem estratificada é ainda mais efectiva quando a dife-
rença entre os vários estratos é mais acentuada, isto é, quando a dispersão
dentro da população O elevada.

Existem dois rnodos de obtenção do arnostras estratificadas. No primeiro,


cada estrato está representado na amostra proporcionalmente a sua importân-
cia (ou tarnanho) na população total. No entanto, nos diferentes estratos,
dirnensoes rnaiores poderão nao estar associadas a urna rnaior dispersao ou
variabilidade. Por essa razão, urn rnodo de conseguir urna major repre-
sentatividade da arnostra será representar os estratos na arnostra tendo em
conta a dispersão dentro de cada estrato da população. Este segundo modo
de obtenção de urna arnostra estratificada so pode ser aplicado nos casos em
que se conhece a variabilidade dentro de cada estrato da população ou, no
mInirno, quando existom estirnativas dessa variabilidade retiradas de inquéritos
feitos a populaçoes sernelhantes.

Imagine quo so quer construir urna amostra do ompresas consumidoras do


embalagens do cartão canolado em Portugal.
A populaçao em estudo é constitulda pela totalidado das omprosas portugue-
sas quo utilizam aquolo tipo do ombalagem o cujo nümoro, em tomios
aproximados, so podo obter a partir das EstatIsticas lndustriais (principais produ-
tos consumidos par cada urn dos subsectores da CAE).
As variávois de estratificação são: principals soctores do actividado e areas
goográficas mais importantes.
Tendo em atenção a importància do consumo relativo de cada um dos sub-
soctoros da CAE e o nUmoro do empresas existentes em cada um daquelos
subsectoros, obtiveram-se:os dados necessários para o preonchimento da Ultima
ESTATISTICA APLICADA

coturia do quadra seguinte. Posteriormente e de acordo corn a Iocalizacão das


empresas dos vários subsectores, foram preenchidas as restantes colunas.
Obteve-se assim a quadra do universo estratificado seguinte:

Areas OUTROS
NORTE CENTRO SUL

TOTAL
(Braga (Coimbra, (Lisboa,
(Restantes
Principals e Aveiro SetObal
distritos)
sectores Porto) e Leiria) e Santarem

Alimentaçao 180 160 310 200 850

Bebidas 150 70 230 50 500

0. bens de consumo 1 260 550 700 190 2700

B. Int/c. equip. 1 070 610 600 170 2450

TOTAL 2660 1390 1840 610 6500

Supondo igual variabilidadp em todos as estratos poder-se-ia utilizar a afixa-


çãø proporcional para constituir a amostra; no quadra abaixo exemplifica-se a
caso de a dimensào da amostra ser de n = 650 (10% da populacao).

NORTE CENTRO SUL OUTROS TOTAL

Aiimentacão 18 16 31 20 85

Bebidas 15 7 23 5 50

0. bens de consumo 126 55 70 19 270

B. mt/b equip. 107 61 60 17 245

TOTAL 266 139 184 61 650

17
OPFIOCESSO DE AMOSTRAGEM

4.2.1.4. Amostragem POT clusters

Este tipo de amostragem torna-se particularmente ütil quando a populaçäo


se encontra dividida num reduzido nUmero de grupos ou clusters, caracteriza-
dos por terem uma dispersáo idéntica a
populaçào total, isto e, os grupos
deveráo, tanto quanto possIvel, ser <<microcosmos' da populaçâo a estudar.
Primeiro, seleccionarn-se aleatoriamente alguns dos grupos. Em seguida, in-
cluern-se na amostra todos os indivIduos pertencentes aos grupos
seleccionados. Trata-se afinal de urn processo de amostragem casual simples
em que cada unidade ë um cluster.

Clusters

Selecção ateatórta
dos grupos Be D 161
Amostra =

Suponha que se pretende conhecer as atitudes dos trabaihadores da area


industrial do Barreiro sobre as suas condiçoes de trabaiho. E mais operacional
compifar uma lista de fábricas daquela area do que uma outra onde constem os
trabaihadores nominalmente (e ate provavelmente impossivel de elaborar).
Neste caso, cada fábrica constitui urn cluster dq trabaihadores. Apenas uma
parte destes clusters (fábricas) participarão na amostra.
Finalmente serão inquiridos todos os trabaihadores que fazem parte dos
clusters (fábricas) considerados na amostra.
Assinale-se que, neste tipo de amostragern, alguns clusters serão ignorados.
Se estes forem semeihantes aos incluldos na amostra estará assegurado urn
elevado nivel de precisào.

Este tipo de amostragern é extremamente utilizado quando se torna impra-


ticável ou ate impossIvel construir uma lista de todos os elementos que
constituem determinada população sendo, no entanto, muito mais Mcii listar
grupos desses mesmos eiementos.
ESTATISTIGA ,4PLICADA

4.2.1.5. Amostragem multi-etapas

o primeiro passo deste tipo de amostra e idOntico ao anterior. A população


encontra-se dividida em vários grupos e seleccioriam-se aleatoriamerite alguns
desses grupos. No passo seguinte, tambOm os elementos de cada grupo são
aleatoriamente escoihidos. Este processo pode multiplicar-se por mais de duas
etapas se os grupos estiverem divididos em sub-grupos.

Nurn estudo de mercados internacionais foram s&eccionados dois paises para


se identificarem as tácticas de posicionamento a seguir para as pastas dentifricas.
Em cada um dos palses escoihiclos foram seleccionados cinco centros urbanos
e, dentro destes, catorze estabelecirnentos comerciais. Em todas as etapas (pal-
ses, centros urbanos, estabelecimentos comerciais) as escoihas resultararn de
urn processo aleatOrio.

Amostra gem multi-etapas

Selecçao aleatOria Paises

2 PaIses

5 Centros urbanos I I I
1234

14 Estabetecimentos
comerciais
aaa a aaa

Imagine que se pretendia conhecer a aceitação de urn novo produto de


higiene pelas potenciais consurnidoras (muiheres adultas) na area da grande
Lisboa.
0 PROCESSO DEAMOSTRAGEM

Obviamente que, embora nao sendo impossIvel constniir uma Jista onde
constassem todas as mulheres adultas residentes naquela area, isso seria não
so extremamente dispendioso como a morosidade na sua obtençào a tomaria
rapidamente desactualizada.
Neste caso, poder-se-á utilizar uma variante do método de amostragem casual
por clusters - a amostragem por areas em etapas mUitiplas:
19 A area da Grande Lisboa seria dividida em conceihos (clusters) e proce-
der-se-ia a selecção aleatOria de algurn destes conceihos.
22 A partir dos coricethos escolhidos anteriormente proceder-se-la a selecçao
aleatOria de algumas freguesias (clusters).
32 De igual modo, cada freguesia seleccionada seria dividida em quarteirOes
(clusters) procedendo-se a selecçao aleatOria de alguns destes.
49 Ponderando cada quarteirao pelo nümero de fogos existentes, seleccionar-
-se-ia uma amostra sisternática dos fogos que fariam parte da amostra.
52 Finalmente seriam inquiridas as muiheres adultas moradoras nestes fogos.
Caso exista em determinado fogo mais do que uma mulher adulta, esco-
lher-se-ia aleatoriamente uma delas (amostra casual simples).
Sublinhe-se que a probabilidade de seleccionar urn deterrninado cluster (con-
celho, freguesia, quarteirâo) é sempre proporcional a sua populaçâo.

Como desvantagem deste método adiante-se o facto de que os possIveis


erros de amostragem se poderern multiplicar, dado que ao longo deste proces-
so se vâo utilizando várias sub-amostras corn a possibilidade de erros de
amostragem ern cada uma delas.
A preocupaçâo corn a dimensão e precisào da amostra é aqul uma cons-
tante a nIvel de cada uma das etapas deste método.

4.2.1.6. Am ostragem multi-fásica


Näo deverao ser confundidos estes dois processos de amostragem: multi-
-etapas e multi-fásicas. No prirneiro processo as unidades amostrais variarn
de uma etapa para outra. No exemplo referido no ponto anterior, as unidades
amostrais erarn, sucessivarnente, os palses, Os centros urbanos e os estabe-
lecimentos cornerciais, enqUanto na amostragern multi-fásica define-se sempre
a rnesrna unidade amostçal para todas as fases de extracção da amostra.
ES TA TISTICA APLICALJA

Na primeira fase, recoihem-se dados sobre determinadas caracterIsticas


dos respondentes - por exemplo, o seu comportamento e frequência quanto
ao consurno de determinado produto, variáveis demográficas, tarnanho das
empresas, a sua disponibilidade para responder novamente a urn inquérito.
Esta informação pode ser usada para a definiçãd de uma Ustagern dos possí-
veis respondentes a segunda fase do inquérito. E então retirada desta listagern
urna segunda arnostra que responderá a urn questionário corn urn nIvel de
profundidade mais elevado.

Para avaliar o potencial do rnercado intemacional de micro-computadores,


poderá ser aconselhavel realizar primeiro urn inquérito pelo telefone a nivel inter-
nacional que permita deterrninar, para diferentes sectores de actividade e
tamanhos das empresas, Os grandes compradores destes produtos. Em seguida,
proceder-se-la a listagem dessas empresas cOrn base nos resultados do inquérito.
Desta listagem seria retirada uma amostra para a qua[ se estudaria, em maior
profundidade, o seu cornportamento consurnidor, as suas caracteristicas-chave
em termos de escoiha do vendedor, quem na ernpresa O responsável pela com-
pra, quais os principals utilizadores do produto, etc. Dependendo do orçamento
de pesquisa, dentro de cada èmpresa poderiam ser entrevistados todos os parti-
cipantes-chave na decisao de compra, utilizadores e responsáveis pela compra,
ou apenas alguns detes;

Antes de se tecerern algurnas consideraçöes sobre os rnetodos de amos-


tragern dirigida (não probab(Iisticos),.Jrnportara esciarecer que os diferentes
tipos de rnétodos de amostragern aleatória que acabámos de abordar náo são
mutuarnente exciusivos, podendo ser utilizados conjuntarnente em fases dife-
rentes do processo de amostragern.
Por outro [ado, fique bern claro que uma arnostra obtida por urn metodo
de arnostragem do tipo aleatOrio não garante por si so uma resposta correcta
(a verdadeira, a que se obteria se se utilizasse o universo).
No entanto, garante, isso sirn, a capacidade de rnedir a probabilidade de
obter a resposta errada.
Existem outros processos de extrair arnostras, sendo muitos deles combina-
çOes das técnicas anteriorrnente descritas corn outras técnicas de amostragem
não aleatOria oudirigida, que se apresentarao em seguida corn rnaior detaihe.
0 PROCESSO DEAMOSTRAGEM

4.2.2. Métodos de amostragem dirigida


Aqul a selecção de cada elemento que fara parte da amostra O baseada
em major ou menor grau em juízos de valor Sabre a população alvo.
Pretende-se que a amostra represente certas caracteristjcas que se canhe-
cern sabre a papulação, nâo sendo no entanta possivel conhecer a
probabilidade de determinado elemento do universo ser seleccianado para
canstjtuir a amostra.
Fazern parte deste grupo um grande nUmera de métodas tais como: a
amastragem par conveniência, 0 mOtada jntencjanal, a arnostragem snowball,
sequencial e ainda 0 mOtada de amastragem par quotas.
Uma amostra obtida atravOs de um destes processos, e se nãa se pretende
generalizar as resultadas abtidas a toda a população, pode ser adequada nas
segujntes condiçöes:
1) 0 estudo constjtuj apenas uma prirneira experiOncia ou a primeira fase
de urn estudo mais alargado.
ii) Existe uma major preocupaçãa em aperfeiçoar urn questionário do que
em recoiher resultadas fidedignas.
ill) E impossIvel utilizar qualquer tipo de amastragem aleatOria (casual).

4.2.2.1. Amos tra gem por conveniência

Este tipo de amostra baseia-se na premissa de que certa tipo de respon-


dentes apresentam uma major dispanibilidade au se encontram mais
acessIveis para responder ao inquérito. Dadas as dificuldades e Os custos
elevados da realização de urn processo de arnostragem aleatório, em muitas
situaçöes a amostragem par conveniência torna-se particularmente atractiva e,
embora não se possa falar de representatividade, frequenternente e possivel
evitar urn enviesamento sistemática. Este tipo de arnostragem pode tambOrn
ser utilizado na fase de pré-teste a urn questionário.
Neste método, selecciona-se a amostra em função da disponibilidade e
acessibilidade dos elementos que constituem a população alvo.
Urna das aplicaçOes deste método é o caso de inquOritas sobre a aceitação
de determinado produto que se encontra nos locals de venda, aproveitando
assirn a presença dos consurnidores actuais ou potenciais, que são seleccia-
nados desde que se mostrern disponiveis para responder.
ES TATIS TI CA APLICADA

4.2.2.2. Amostragem intencional

Neste procedimento, a escoiha dos elementos a constituirem a amostra


basela-se na opiniäo de uma ou mais pessoas que são fortemente conhece-
doras das caracterIsticas especificas da população em estudo que se pretende
an ails a r.
Se, por exemplo, a popuiação forem os vendedores ambuiantes, torna-se
impossIvel obter uma lista daqueles e a ajuda para a selecção dos elementos
da amostra poderia vir da Poilcia de Segurança Püblica ou das Associaçöes
de Comerciantes...
No caso da população em estudo serem os homossexuais, OU Os consu-
midores de drogas pesadas, a amostra, em ambos os casos, teria de consistir
em voluntários dispostos a assumir as situaçöes respectivas e a ajuda poderia
vir de conhecedores dos habituais frequentadores de certo tipo de bares e de
certos locals, ou de responsáveis de determinadas instituiçöes de prevenção
e combate a droga, por exemplo.

Em paises menos desenvolvidos urn inquérito que se pretenda realizar para


recoiha de inforrnação sobre o comportamento dos consumidores poderá ser
aplicado no rnercado, a uma amostra de consumidores que o frequentarn nos
vários dias da semana. Mas pode aivda ser adoptado um outro processo de
recoiha de inforrnação, escoihendo para respondentes aqueles que se pensa
conhecerern rneihor a situação, isto 6, os habitos de consumo da popuiação.
Poderão ser os mais idosos, os chefes ou Os dirigentes religiosos, auténticos
<'peritos" cujo conhecirnento advérn de uma longa vivència dentro da comunidade.
a

Urn outro exemplo diz respeito a força de vendas das ernpresas que, ern
certos arnbientes e situaçOes, pode constituir uma importante fonte de informação
peto seu conhebimento das necessidades e interesses dos consumidores. Deverá
ter-se cuidadØ especial ao utilizar-se estirnativas quantitativas derivadas desta
fonte, sobretudo quando se referirem ao potencial de vendas da empresa, onde
existe urn risco do maior enviesamento devido a opiniOes subjectivas.

1-1
0 PROCESSO DE AMOSTRAGEM

4.2.2.3. Amostragem snowball

Este processo de amostragem é particularmente aconseihado quando se


pretende estimar caracterIsticas relativamente raras na população total. E uma
forma de abordagem intencional que se utiliza frequentemente em estudos
cujas populaçöes são pequenas e muito especificas.
Este tipo de método utiliza-se em certos estudos em que a partida O o
prOprio inquirido que sugere outros eventuais inquiridos (snowball) bem inse-
ridos na temática que se pretende estudar.
0 mOtodo consiste em escolher inicialmente Os inquiridos de modo aleatOrio
e, numa segunda fase, escolher respondentes adicionais a partir da informação
obtida dos primeiros.
Na major parte dos casos, a população alvo é muito restrita e encontra-se
muito dispersa por uma série de organismos diferenciados (ministérios, em-
presas, laboratOrios, centros de investigação universitários, etc).

Num estudo a nfvel europeu sobre o software utilizado pelos técnicos de


estudo de mercado, foram consultados as tëcnicos das empresas portuguesas a
quem foj pedida a identificaçao de outras empresas nos palses da U.E. A amostra
ira sendo aumentada a medida que os inquiridos vão sugerindo novos nomes.

4.2.2.4. Amostragem sequencial

Outro tipo de amostragem dirigida que pode ser considerado como relati-
vamente semelhante ao método multi-fásico é a amostragem sequencial.
Neste processo de amostragem, a realização da fase seguinte so é decidida
depois de anal isados os resultados da fase anterior. Com o desenvolvimento
das respostas computorizadas aos inquOritos, este processo tenderá a tornar-
se cada vez mais popular. Os respondentes vao sendo entrevistados um a
seguir ao outro, e os dados analisados simultaneamente ou em certos momen-
tos pré-definidos, tomando-se, em seguida, a decisão de continuar ou não com
as entrevistas.

269
4.2.2.5. Amos tragem POT quotas

Este método não probabilIstico pode ser representado como algo equiva-
lente a amostragem aleatória estratificada.
Na arnostragem par quotas, estabelece-se uma quota para cada estrato
que seja proporcional a sua representação na população e assegura-se que
urn nUmero rnInimo de elementos faça parte da amostra, para cada estrato
especificado.
Pretende-se assim obter uma amostra que seja serneihante a população
em certas caracterIsticas prO-especificadas, ditas caracterIsticas ou variáveis
de <controIo".

Seja P a dirnensão da população a inquirir e Pi a nUmero de indivIduos


dessa poputação no estrato 1. Se a dimensão da amostra for S, então

S x será a nümero de indivIduos na amostra pertencentes ao estrato 1.

Par exernplo, se nurna população de 10000 indivIduos, 2500 pertericern ao


grupo etário dos 25 aos 35anos, nurna amostra de 400 individuos retirados
desta popuiação, 100 deverao ter idades dentro daquela faixa.
Em resume, na amostragem par quotas, as proporçöes dos vários sub-gru-
pos na amostra reflectem a sua distribuiçào dentro da população. A cada
entrevistador são dadas as caracteristicas que as entrevistados deverao satisfa-
zer. As entrevistas terminarão quando se obtiverem as quotas pré-estabelecidas
para cada sub-grupo.
Existern dais modos de definição'?Jas quotas: iridependentes e iriterrelacio-
nadas. Corn quotas independentes sirnplifica-se o trabaiho dos entrevistadores
uma vez que necessitam de obter respostas que satisfaçam cada umadas
quotas separadamente.

Suponha-se que se pretende estudar as caracterIsticas dos automOveis con-


sideradas mais importantes pelos consumidores. Neste caso, poder-se-ia formular
a hipótese de'tais caracteristicas poderem ser diferenciadas em funçao de certas
0 PROCESSO DEAMOSTRAGEM

vaiiáveis da populacão ditas de controlo" e que nesta situacãO particular seriarn


as seguintes
Idade: 2 categorias (menos de 40 anos e mais de 40 anos)
Sexo: 2 categorias (1/4 mulheres e 3/4 homens)
Educaçào: 4 categorias
Rendimento/StatUS 5 categorias

Seriam assim, 2 x 2 x 4 x 5 = 80 estratos diferentes determinando-se de se-


guida os valores (quotas) para cada urn deles.
U

Como alguns problemas e desvantagens deste mOtodo saliente-se que:

- ainda que uma arnostra por quotas e a população sejarn coincidentes


nas medidas para as quais conhecemos as caracteristicas de ambas,
podem diferir substancialmente noutras caracteristicas para as quals
temos apenas o valor da amostra;
- dal que as variáveis de "controlo" devam ser bern seleccionadas e a
auséncia de uma delas, importante no estudo em causa, poderá condu-
zir a incorrecçäes graves. Por outro lado, o próprio preenchimento de
todos os estratos (cOlulas) nem sempre se torna do fácil execuçào.

A amostragem por quotas foi largamente utihzada nos E.U.A. durante as


decadas de 30 e 40 para recoiha de informaçào a nivel nacional, mas foi sendo
posta de parte corn o desenvolvirnento de métodos de amostragem aleatOria.
Actualmente, O altarnente criticada pelos estatisticos devido a sua fraqueza
teOrica e, sirnultanearnente, defendida pelos tOcnicos de pesquisa de mercados
e de estudos de opiniao pelo seu reduzido custo, facilidade de adrninistração
e ainda por ultrapassar certo tipo do problernas tais como a falta de uma
listagem cornpleta e actualizada da população a inquirir e a necessidade de
informação urgente para tomada de decisão.
As principais vantagens podem ser assim resumidas: rapidez, economia e
simplicidade adrninistrativa.
ESTATISTICA APLIGADA

A grande desvantagem deste processo de amostragem é o enviesarnento


introduzido pelo entrevistador na selecção dos respondentes a qua é de muito
WI loll medição e controlo. Conscientemente ou näo, o entrevistador tern ten-
dência para:
- escolher determinado tipo de inquiridos e evitar outros par deformação
ou sirnpatia pessoal;
- tentar rentabilizar ao maxima a seu trabaiho, fazendo as entrevistas
seguidas a mesma hora do dia e no mesmo local, quando deveriarn ser
mais espaçados no tempo e na localização.
Algumas destas desvantagens podem ser minimizadas atravOs de formação
adequada dos entrevistadores e controlo de todo o processo de recolha de
informaçäo.

272
1. Defiria os conceitos do popuiação e amostra.

2. Quais as etapas a seguir na construçâo de uma amostra?

3. Uma empresa de estudos do mercado pretende reallzar urn inquérito sobre as


preferéncias de consumo dos portugueses relativarnente as fraldas descartáveis
parabObO. Qual a popuiacão alvo e a populaçäo a inquirir?

4. Quais as vantagens e desvantagens dos métodos probabilisticos de selecção


de uma amostra?

5. Quais as vantagens e desvantagens dos métodos dirigidos de selecção de


uma amostra?

6. Que técnicas se poderão utilizar para recoiha de uma amostra aleatOria sim-
ples?

7. Quais as diferenças entre urn processo arnostral estratificado e urn por quotas?

8. Porque razão se designa a amostragern causal sisternática como quasi-aiea-


tória?

9. Ern que situaçôes é aconselhavel utilizar urn processo snowball do recoiha do


uma amostra?
Capitulo t

Dis trib uiçöes amOstral


Intro dução

Quando se pretende estudar determinada população, interessa faze-Jo ana-


lisando certas caracteristicas (ou variáveis) dessa população.
Essas variáveis podem ser discretas ou continuas e o seu "comportarnen-
to" pode ser definido segundo uma função de probabilidade (se a variável e
discreta) ou funçáo de densidade de probabilidade (se a variável é continua).
Como se referiu anteriormente, embora uma variável Xdesigne uma carac-
teristica duma população, é frequente utilizar, no ârnbito da teoria da
amostragem, a designaçao X para a prOpria populaçao.
Para que 0 comportamento de X seja conhecido, basta conhecer a sua
distribuiçao e o valor dos parãmetros caracterizadores dessa distribuiçao. Por
exemplo, tratando-se de uma populaçäo Bernoulli, terá de ser conhecido o
valor de p; tratando-se de uma populaçao normal ha necessidade de conhecer
Os valores de p. e cy.

Como se sabe, nurna populaçao Bernoulli, p representa a probabilidade de


urn elernento da populaçâo possuir o atributo em estudo; nurna população
normal, p. e representarn, respectivamente, a rnédia e o desvio-padräo da
caracteristica em estudo.
Acontece, porOrn, que os parãmetros de uma população sO serão conheci-
dos se for possivel estudar todos os elementos que a ela pertencem, facto so
possivel em populaçöes finitas e, regra geral, pouco numerosas. Os custos
resultantes do estudo de toda uma populaçào são, por vezes, tao elevados,
que a melhor alternativa consiste em retirar uma amostra dessa população e
estimar esses parâmetros a partir dos valores amostrais, inferindo assim da
arnostra para a populaçao. Mas nem todas as amostras perrnitem que, a partir
dos seus resultados, se faça uma generalização a toda a população. Os
métodos de inferêncja estatistica, apresentados nos capItulos seguintes, pres-
supöem que a arnostra 6 casual ou aleatOria.
ES TA TISTI GA APLIGADA

1.1. Amostra aleatOria

Considere-se uma populaçào da qua] interessa estudar a caracteristica X,


cuja função de probabilidade ou f.d.p. é dada por f(x).
Se for retirada dessa populaçào uma arnostra (Al) de dirnensão n, obtérn-se
(x 1, 4, ..., xh), onde o k-ésimo elernento X, (k = 1, 2, n) é urn valor do
conjunto de valores que X pode assurnir.
Se for retirada uma outra arnostra (A2), de igual dirnertsão, obtérn-se
(X
J, xL ..., x). Podern, assim, retirar-se sucessivas amostras da rnesrna
dirnensão

arnostra Ai: (x 1, x,...,xh)

arnostra A2: (4,

amostra Ar: (x c, x,...,xc,)

Pode ser definida uma arnostra 'tipo"


(X1 , X2, ..., X)

que, por gerar as várias amostras (A1 , A2, ..., Ar , ...), pode ser entendida
corno uma variável aleatória n-dimensional corn função de probabilidade ou
f.d.p. conjunta f(x1 , x2 , ..., xe ). Facilrnente se constata que as variáveis
aleatOrias X1, X2, ..., X assurnem os rnesrnos valores de X, uma vez que
são elernentos de uma arnostra, todos eles retirados de uma mesrna popula-
cáo, segundo, portanto, a rnesrna função de probabilidade ou f.d.p. da
população:
f(x1 ) = f(x2 ) = ... f(Xn) = f(x).

Acrescente-se ainda que, porque (Xi, X2, ..., Xn) é uma arnostra reco-
Ihida segundo urn processo casual ou aleatOrio, os seus elementos ou variáveis
aleatOrias Xi, X2, ..., Xn são independentes entre Si.
DISTRIBUIçOES AMOSTRAIS

Seja uma amostra aleatOria de dimensao ii = 3, (X., X2 , X3), retirada duma


população Bernoulli.
Que amostras diferentes podem ser recoihidas da populaçâo?
Deduza a funçao de probabilidade conjunta daquela amostra.
Qual a mais provável no caso de se ter p = 0,1?

(X1, X2, X3) Amos tra aleatoria

Amostras concretas:
(0, 0, 0) amostra em que nâo ocorre qualque'r sucesso.

(0, 1, 0)
(0, 0, 1) amostras em que ocorreapenas urn sucesso
(1, 0, 0)

(0, 1, 1)
(1, 1, 0) amostras em que ocorremdois sucessos
(1, 0, 1)

(1, 1, 1) amostra em que ocorrern apenas sucessos

279
ES TA TI'S TI CA APLICADA

Distribuiçao S probabilidade conjunta da amostra aIeat6ria(X1, X2, Xg):

f(x1,x2,x3) = pXI(1 - p)lX1 - p)' - X2 pX - p )1 X3

f(xi) f(x2 ) f(x3 )

= pXi+X2+Xs (1 - p)3-(Xl+X2+A3)

Assim, a probabilidade de ocorrer uma amostra (X1, X2, X3) corn p = 0,1 ó
dada per:
f(x1 ,x2,xaIp = 0,1) = O,J X1+X2+X3 093 -(x1+x2+x3)

Concretizando:

f(0, 0,0 1 p = 0,1) = 0,10 . 0,93 = 0,729

f(0, l,OIp = 0,1)


f(0, 0,1 1 = 0,1) = o,i 0,92 = 0,081
1(1, 0,0

f(0, 1,1 1 = 0,1)


f(1, 0,1 1 = 0,1)= 0,12 3,91 = 0,009
f(1, 1,0 p = 0,1)

f(1, 1,1 1 = 0,1) = 0, 13 . 0,9 = 0,0009

Conclul-se que a amostra mais projáveI é aquela em que ocorrem trés


insucessos (X1, X2, X3) = (0,0,0) o que alias faz sentido pals é extrernamente
baixa a probabilidade de ocorréncia dum sucesso (a verdadeira proporçâo de
sucessos na populaçao O p = 0,1).
rJIsTRtau;cOEs AMOSTRAIS

1.2. Para-metros e estatIsticas

Urn parâmetro é uma caracteristica duma populaçào, isto é, urn valor


caracterizador da população que, embora possa ser desconhecido, e No.
Uma estatIstica é uma caracterIstica da amostra, isto é, urn valor que carac-
teriza deterrninada amostra e que é variável de amostra para amostra (ou seja, O
uma variável aleatOria). Se, para cada uma das arnostras Al, A2, ..., Ar, ... re-
feridas no ponto anterior, se calcular, por exemplo, a respectiva media,
i 2
obter-se-ia
Poder-se-ia entào dizer que a media (amostral) X uma variável aleatOria
amostral, que assume uma valor concreto () para cada amostra concreta.
Designa-se por estimativa o valor que uma estatIstica assume para uma
dada amostra concreta.
Assim, a media p. e o desvio-padráo c duma população normal ou a media
p e o desvio-padrão Jp (1 p) duma populaçâo Bernoulli são parãmetros.

A media duma amostra (chamada também media amostral) recolhida de


determinada populaçáo é uma estatistica e designa-se por X.
0 desvio-padrão duma amostra é tarnbém uma estatIstica e designa-se por s.

Suponha que se pretende estudar a reacção despertada por urn novo produto
a lançar no mercado. Estamos interessados em conhecer a idade media e a
proporção de interessados no novo produto.
Urna resposta exacta aquelas questOes so seria obtida se perguntássemos a
totalidade da Populacão em estudo...
Poderemos estimar aqueles parâmetros através de uma amostra? A resposta
é afirmativa.
E qua, a partir duma amostra, podemos obter as estatisticas: idade media
(idade amostral) e proporção de interessados no novo produto na amostra.
0
APLICADA

Alguns exemptos de estatIsticas:

- I Xi é a chamada media amostral

= 1=1
- = S2 é a chamada variância amostral

F2 = 1= 1
- = é a chamada variância amostral corrigida
n –i

—T4=X?

x1 +xn
2

- Th = + max (X1,X2 .....X)}.

Como facilmente se pode verificar, cada amostra ateatOria retirada durna


população X ira dar origern a estatIsticas corn valores diferentes.
DaI que as estatIsticas sejarn variaveis aleatOrias e portanto tenham uma
certa distribuiçao de probabilidade.
Chamam-se distribuiçöes amostrais as distribuiçöes de probabilidade das
estatIsticas.
Como obter então a distribuiçào amostral de uma estatistica?
Ha duas alternativas: uma teórica que so baseia na distribuiçâo conjunta
da arnostra e outra empIrica que consiste ern retirar sucessivas amostras,
calcular o valor concreto da estatIstica que se pretende e obter a respectiva
distribuiçao de frequências.
DISTRIBL/JcOEs AMOSTRAIS

Antes da apresentacãO das principals distribuicbeS amostrais das estatIsti-


cas mais importarites é necessáriO introduzir urn parentesis e falar de duas leis
rnuito importantes na inferéncia estatistica: a lei dos grandes nümeros e a
teorema do limite central, dois conceitos retacionados entre si e absolutamente
fundamentals compreensão dos métodos de inferência.

1.3. Lei dos grandes nUmeros

A Lei dos grandes nUmeros desenvolve-se a partir da desigualdade de


ChebisheV que convém aqui recordar:

Se Xfor uma variável aleatória corn p. = E[X], Var[X] = a 2 e c um


qualquer valor real positivo (e > 0), entào

Var X}
P[IX—p.i~!s]:~ 2
C

isto e, X difere de p. em mais de C corn uma probabitidade nunca superior a

Var [X]/e2 .

Para a caso particular em que £ = Ka a desigualdade prova que

1
P[IX — p.l~!Ka
I~ K2
ou seja, a probabilidade de que a variavet atetOria X se desvie da media mais

do que K desvios-padrào é sernpre inferior ou igual a 1

E possivel agora definir, com base nesta desigualdade, a Lei dos grandes
n Ci me ros
Demonstração:

Uma vez que Xi, X2, ..., Xn são elementos de uma amostra aleatOria
retirados de uma mesma população, são independentes e tern todos a mesma
distribuição, logo

Var[S] = n Var(X) = n 2
e

varrl= Var(S) = nc2 _


Lnj n2

Sabe-se ainda que

E--1= nE[X] =•
LJ
Pela desigualdade de Chebishev, para qualquer e > 0,

TI - - TI E2
[
DISTR/BUIcOESAMQSTRA,s

Fixando a e fazerido n tender para oo, obtém-se a limite dessa proba-


bilidade
Sn
urn P ILL
fl_4eo I

ou, complementarmente

lim
n
pH-
—,00 LI "
c.q.d.

Coma poderá verificar, -- é a media amostral, razão porque esta lei e

tambérn conhecida por <del das médias". 0 seu significado é facilmente corn-
preendido: a medida que n aumenta, a probabilidade de a media amostral se
afastar da media da populaçao em mais do que urn valor a previamente fixado,
tende para 0; ou ainda, atenderido ao complemeritar deste acontecimento, a
medida que n aumerita, a probabilidade de as desvios entre a media amostral
e a media populaciorial se tornarem mais pequenos que um valor qualquer
a> Otende para 1.

1.4. Teorema do limite central

Seja X1, X2, , X,-, uma amostra aleatoria de dimensão n, com


E{X1 ] 2
= t eVar[X,] = (i=1,2,..
e seja Sn = X1 + X2 + + X,-, Entäo para valores grandes de n, a
vanavel aleatoria
Sn -

converge em distribuiçáo para a normal padrâo ou normal estandartizada,


isto é, para n grande tern-se
Se — np. 0
n(0,1)
ESTATISTICA APLICADA

A demonstração deste teorema, por requerer técnicas matemáticas avan-


çadas, não é aqul apreseritada1 . A sua aplicação é deveras importante, como
se vera nos pontos seguintes deste capItulo. Dividindo por n o numerador e o
denominador da variável Yn, obtérn-se

Sn

n
:xi
Sn /=1 -
mas
n n
= x.

Logo pelo teorerna do kmite central, conclul-se que, se X for uma variável
aleatória corn media p. a variância finita W, então a media amostral * para
amostras grandes, terá urna distribuiçäo aproxirnadamente normal corn rnOdia

p. e variancia -, ou ainda

X
n(O,1).
a
C

Apresenta-se, ern seguida, e rnai detalhadarnenM' a distribuiçäo arnostral


de algumas estatIsticas muito importantes no capItulo da Inferéncia EstatIstica.
Para tal, é necessário que primeiro se definam algurnas distribuiçoes arnostrais
teOricas.

1 Para Os que pretendam seguir essa demonstraçao aconseiha-se a consulta de MOOD, GRAYBJLL e
BOES (1974), pág. 235.
Distribuiçöes
amostrais teôricas

21. Distribuição normal

No ambito do estudo da distribuição normal foi referido o teorema da


aditividade da normal. Viu-se então que, dadas n variáveis aleatOrias inde-
pendentes corn distribuiçào normal de parämetros jt e u,
n
X1 n n(np; a')71)
1=1

ou seja,
n

(i n(O,1).
a'171

Dividindo numerador e denominador por n vem:

X -R
n(O,1)
a

isto e

Como uma amostra aleatOria de dimensão n O uma variável aleatória n-dimen-


sional, em que todas as variáveis X1(I = 1, 2, 3, ... n) tOrn a mesma distribuição
do Universo e são independentes, Os resultados anteriores podem aplicar-se.
- Y, xi
Conclui-se assim que a media amostral X =(isto é a media duma
amostra aleatOria) retirada duma população normal, tem distribuição normal,

287
APLICADA

cujo desvio-padrao é funçao nào sO do desvio-padrào da população (o) como


também da dimensão da arnostra (n). 0 valor esperado ou médio de X
coincide corn a rnédia do Universo (j.t).
Facilmente se demonstra o que se acabou de dizer. De facto, se tivermos uma
amostra aleatOria de elernentos Xi, retirados de uma população normal, isto e,

Xi fl n(jt,(7).

então, a media amostral, X, tem tambérn distribuiçâo normal uma vez que
depende dos valores X1, corn os seguintes parámetros:

E[tXXJ] = =

= + X2 + ... + Xn ] =
n

n +E(Xn)j

= [ut+t+... +]=

1
n.i1=
n
=

VAR[ -i- ZXI]= - VAR[ J Xi] =

VAR [Xi + X2 + ... + Xn]

2 [ VAR (XI )+ VAR (X2)+ + VAR (Xn)]


n1

1
=
n
01$ TRIBUIcOES AMOSTRAIS

ME

n n ~t'-7n
)-

E se X, 0 Universo ou populaçao, não tiver distribuição normal ou for


desconhecida a sua distribuiçao?
Suponha que Xtem urna distribuição diferente da distribuiçâo normal, corn
urna certa media js e variância a2, isto e, x f(.t, a).

Importa aqui distinguir duas situaçOes:

1. Se X tiver distribuição diferente da normal e se se tomar uma pequena


amostra1 entào ter-se-á de determinar a distribuiçao assumida por X,
que será como é óbvio, função da distribuição do universo, isto e,

n (C..).
2. Se X tiver distribuição diferente da normal e se se tornar urna grande
amostra então a distribuiçao de X será próxima da distribuição normal
(fala-se em distribuição aproxirnada) e tanto rnais próxirna quanto major
for a dimensão da amostra, isto e

Este resultado provém da aplicaçáo do teorema de Limite central ja apre-


sentado no ponto anterior.

1 Geralmente, fala-se em pequenas amostras quando n <— 30 e em grandes amostras quando


n>30, onde n designa a dimensão da amostra.
ES TA Tis TI CA APLICADA

2.2. Outras distribuiçöes

Além da distribuiçao normal que acabou de ser apresentada como distri-


buição amostral, existem outras distribuiçaes teOricas de uso bastante
generalizado sobretudo na area da inferència estatIstica e que são:
- Distribuição do Qui-quadrado -
— Distribuição t de Student
- Distribuiçao Fde Snedecor

2.2.1. Distribuição do Qul-quadrado


DISTFRJBU/cOEs AMOSTRAIS

2.2.1.1. Principals caracterIsticas da distribuiçac, do

1.E uma função positiva e não simétrica.


2. Sex ,- %n) então demonstra-se que

E[X] = n
VAR[X] = 2n.

3. 0 seu aspecto gráfico depende do n (parametro caracterizador da distri-


buição). Na figura abaixo, ilustram-se algumas distribuiçOes do qui-qua-
drado.
f (x)

(1 x

4. E uma distribuição aditiva, isto é: se as variáveis a!eatOrias


X, (I = 1, 2, ..., n), são independentes e Xi então

Xjnx( 2 ) onde m=Zni.

2.2.1.2. A/guns teoremas

1.0 quadrado de uma variável aleatOria normal standartizada tem distribui-


ção do qui-quadrado com 1 grau de liberdade,X1)•

x
Z2=[ flX
- J
sendo Z n n (0, 1).

291
ES TA TIST(CA APLICADA

2. 0 sornatOrio do quadrado de n variáveis aleatOrias corn distribuiçao


normal padrao tern distribuiçao do X2 corn n graus de liberdade, ou seja:
2
(x1-
flXn)•
a
1=1 ]

3. A distribuiçâo do X) tende para a distribuiçâo normal, a rnedida que ii


aumenta. Ou seja, quando n - oc, tern-se:

fl(flj:j)
X(n) fl
NE
0
n(0,1).

por aplicaçâo do teorerna do Lirnite central.

Urna melhor aproximação resulta ainda quando se utiliza:

- V2n n
O n (0,1) para valores de n >30.

2.2.2. Distribuiçäo t de Student


DISTR1BU/96Es AMOSTRAIS

222.1. Principals caracterIsticas


da distribuiçao t de Student

1. E simétrica em relação ao eixo x = 0.

2. Se X () t(n) então demonstra-se que:

E[X] = 0
n
VAR [X sen>2
n-2

3. 0 seu aspecto gráfico depende do parãmetro ii (nUmeros de graus de


liberdade) coma se ye na figura; assinale-se ainda a semelhança entre
a distribuiçâo t de Student para. n = 10 e a normal standartizada.

2.2.2.2. Aiguns teoremas

1. Se as variáveis aleatOrias X Y forem independentes e se


X fl n(0, 1) e Y Xn)' entào
x
flt(n)

NT
Ou seja: o quociente entre uma normal reduzida e a raiz quadrada de
uma qui-quadrado dividida pelo respectivo nümero de graus de liberdade
é uma variável aleatOria cam distribuiçao t de Student cam os mesmos
n graus de liberdade.
ESTATIST/CA AflLICADA

2. A distribuiçao t de Student tende para a distribuiçáo normal, a medida


que n aumenta. Ou seja, sex n t(jfl , quando n -, oc, então

X
0 1V:-Tn7
~
'1
2 )
ou
x

ou simplesmente X n (0, 1). Este resultado acivOm da aplicação do


teorema do Limite central.

2.23. Distribuição F de Snedecor


oIsrRIBulcOEs AMOSTRAIS

2.2.3.1. Principals caracterIsticas da distribuição F

1. E uma distribtJicãO positiva e nãO simOtrica.


2. Se X F(m, n) entào demonstra-se que:

n 2 sen>2

2n2(m+n-2)
VAR(X1= sen>4
m(n - 2)2 (n - 4)

3. 0 seu aspecto gráfico depende dos parâmetros m e n. A sua repre-


seritacão gráfica é a seguinte:

f (x)

ft x

2.232 Alguns teoremas

1. Se a variável aleatOria X -' F(m fl) entào

2. Se as variáveis aleatOrias X Y forern independentes e se

Xnxm) e Y flXn) então


X
M
y flF(m,n).
n
Ou seja: o quociente de duas variáveis aleatOrias independentes corn
X2 divididas pelos respectivos graus de liberdade tern
distribuição de

295
APLICADA

distribuiçâo F, cujos graus de liberdade são, par ordem, Os graus de


liberdade da X2 que está em nurnerador e as da x2 em denominador.

3. 0 quadrado de uma variável aleatOria cam distribuição t de Student corn


n graus de liberdade tern uma distribuição F corn 1 e n graus de liber-
dade. Ou seja, se T () t( n ) então

j F(1, n).
Distribuicöes
amostrais das estatIsticas
mais importantes

Apresentar-se-ãO em seguida, de uma forma sistemática, as distribuiçôes


amostrais utilizadas e frequentemente definidas a partir de amostras de popu-
laçöes Bernoulli e de populaçäes normals.

3.1. Populaçäes Bernoulli

Suponha-se que é possivel especificar a priori que se está perante uma


população Bernoulli, isto O, uma população composta por elementos de dois
tipos - Os que possuem e os que não possuem determinado atributo1. As
populaçöes Bernoulli são caracterizadas p&a seguirite função de prob-
abilidade:
f(x)=pX(1 _p)lX x=O,1 0!~p51

em que x = 1 corresponde aos elementos da'população que possuem deter-


minado atributo e x = 0 aos elementos que nao possuem esteatributo.
0 parâmetro p = P[X = 1] representa a probabilidade de obter urn ele-
mento possuindo o atributo em questão. Ou seja, p representa a verdadeira
proporção de elementos (no universo) com aquele atributo. Ora, em geral, o
parãrnetro p é desconhecido; dal que nos problemas de amostragem interes-
sem particularmente as seguintes estatIsticas:

1 Existem, alias, métodos para testar se O de aceitar ou nào que determinada arnostra foi recolbida
de certa populaçäo corn distribuição conhecida, corno se vera posteriorrnente.

297
ES TA TIS TI CA APLICAVA

n
1) )2Xi=xi+x2+...+xn=sn
/=1

que e o nUmero de elernentos que, numa amostra de dimensao n,


possuem determinado atributo.

2)

que é a proporção de elernentos na amostra, que tern aquele atributo.

Importa então conhecer as distribuiçöes arnostrais destas duas estatIsticas.


Comecernos por 1):

Sn = X1 + X2 + ... + X,, é a soma de n variáveis aleatOrias inde-


pendentes corn distribuiçao Bernoulli. Facilmente se deduz a distribuiçao
amostral de I xi:

n
E Y, Xi = E[Xi + X2 + ... + X,j j =
1=1

=E[X1]+E[X2]+ ... +E[xfl]


=p+p+... +p

n vezes
=np.
DISTR/B(JfcOEs AMOSTRAIS

n
VAR Y , Xj= VAR [Xi + X2 + + Xn ]=
1=1

VAR [XI ]+ VAR [X2]+... + VAR [Xn}

=p.q+p.q+... +p.q

ii vezes

= n p q = n PC - P)

n
Aestatfstical Xi ë afinal 0 nUmero do sucessos na amostra de tamanho
1=1

ii, ou seja, trata-se uma distribuiçao binomial, do parâmetros n e p:


n
Xi = S,, b(n; p).
1=1

Quando a dimensão da arnostra for grande (n > 30) tern-se que:

1 Xj —np
n(0,1)
-'Jnpq

A análise da estatIstica 2) é feita no ponto seguinte.

3. i. 1. Distribuição de uma proporção amostral

- Y,X,
A outra estatIstica X =não é rnais do que a proporção de sucessos,

nurna amostra de dirnensão n.

A sua distribuição pode deduzir-se da seguinte forma:

299
ESTATISTICA APLICADA

[ Xl + X2 + ... + Xn

= -i!;- E[Xi + X2 + + Xn] =

+Xn]
VAR [X}= VAR ["12

= -1j- VAR [Xi +X2+... +Xn1

1
n . p. q=
=n

= p.g
n

Quando a dirnensao da amostra, n, é grande tern-se que

ou seja,

fl n(Q,1).

pq
DISTRIBUIQOES ,4MOSTRAIS

3.1.2. Distribuição da diferença entre


duas proporçöes amostrais

Considerern-Se duas populaçöes Bernoulli corn parâmetros P1 e P2 que


representarn as verdadeiras proporçöes de elementos corn deterrninado atri-
buto na populacãO 1 e na população 2, respectivarnente. Ern muitas situaçöes
práticas é usual pretender cornparar as duas proporçöes.

For exemplo:

1. ProporcãO de consurnidores interessados nurn novo produto nurna zona


rural e a proporçào dos mesrnos numa zona urbana.

2. ProporçãO de respostas favoráveis a urna carnpanha publicitária feita em


dois sernanários diferentes.

Fretende-Se assim concluir algo sobre (pi - p2) que se desconhece. A


estatIstica utilizada nestas circunstâncias é a diferença entre as proporçães
observadas ou seja:
(X1 - X2)
ern que:

112

X2 = >Jx21 S

onde n1 e n2 correspondern as dimensöes das arnostras 1 e 2 que se supöem


independentes. Quando as duas amostras forem grandes(n1, n2 > 30) vern:

- 0 qi
1 fl P1, VTnj )

n fl I P2 , VT22 )
ES TA TIS TI CA APLICADA

e como

E[X1 - '(21 = Pi - P2
p, q, P2 q2
VAR [X1 —X2 ]= +
nl
ye m

como distribuição amostral daquela estatistica. Ou, de forma equivalente,

(X1 - '(2) - ( Pi - P2)


fl n(O,1)
+ P2 q2
N fli

3.2. Populaçöes normals


Considerem-se agora amostras casuals (X1 , X2 , ..., X) obtidas a partir
de populaçOes Normais. Serao estudadas sucintamente as distribuiçöes amos-
trais das estatisticas mais importantes.

32.1. Distribuição da media amostral (X)


quando a variância o é conhecida

Já se demonstrou anteriormente que, so a população X tiver distribuiçao


normal, entáo:

k P; -Vn=
(
DISTRIBUIcOES AMOSTF?AIS

ou

Mais ainda, se a distribuição da população nâo for normal, mas se se tratar


duma amostra grande, entâo, pelo teorema do limite central

R; r
-
1
( n)

3.2.2. Distribuiçäo da variância amostral (s 2 )

Se (Xi, X2.....Xn) for uma amostra aleatOria de dimensão n, tat que


X1 fl n (p., o'), então
X1 —p.
'5
fl n(O,1)
e, pelos teoremas da distribuiçao do qui-quadrado,

-
(XI
02 flXi)

logo

(X1 —p.)2
fl

Quando p. e desconhecido e é necessário utilizar o seu estimador X,


perde-se um grau de liberdade, ou seja
(Xi —X)2
2 X- i)
1=1
EST4TISTICA APLICADA

mas
(Xi
4, - n (Xi X)2 -
La fl G2 -
02-*
i=1 i=1

n (XX)2
a2 La -
/=1

nS 2

Entáo
nS2,
2
Ci Xcn—i

ou

(n -1)S'2 2
Ci Xn - i

se for utilizado urn estimador não-enviezado para a variância, a variância


amostral corrigida S' 2

3.2.3. Distribuiçäo da media amostral (X)


quando a variância não é conhecida

Se (X1, X2, X) for uma amostra aleatOria de dimensão n, como ja se


demonstrou anteriormente

x-
nn (0, 1)

e
(n - 1) '2
2
0-2 Ci Xn—i.

Fmd
DISTRIBU!cOEs AMOSTRAIS

Se se aceitar a independência das distribuiçOes da media arnostral e da


variância corrigida da arnostra, utilizando urn teorema da distribuiçao t de
Student, dernonstra-Se que o seguinte quociente tern urna distribuiçäo t de
Student corn (n - 1) graus de liberdade:

(n-1)S' 2 1
NI n-1

ou, depois de feitas as necessárias sirnptificaçöes,

fl t(n_l)
'hi

3.24. Distribuição do quociente


de variâncias amostrais (S /51).

Sejarn duas arnostras independentes (cie tarnanho n-i e n2) retiradas da


mesma poputação normal ou de duas populaçöes normals corn a rnesrna
variäncia o2 . Como ja se rnostrou, as seguintes estatfsticas tern ambas distri-
buiçào do qui-quadrado:

-1)S'j
flXi -1)
a2

(n2 - 1)S'
ESTATISTICA APLICADA

Por urn teorerna da distribuiçao F de Snedecor, o quociente entre duas


distribuiçöes do qui-quadrado, depois de divididas pelos respectivos graus de
liberdade, tern a seguinte distribuição:

(n1 - 1)
n1-1,n2-1)
('2 - 1)Sj
02

(n2 - 1)

U
SE

3.2.5. Distribuição da diferença_ -

entre médias amostrais (X1 - X2)

Considerem-se trés situaçöes ou casos diferentes.

CASO 1:

Hipoteses: Sejam duas poputaçöes normais em quo a e o22 são conhe-


cidas; sejam duas amostras independentes de tamanho n1 e n2 :~ 30
respectivarnente retiradas daquelas populaçöes. Dernonstra-se quo:

Este resultado provOm da aplicação do teorema da aditividade da normal.


O1STRIBU!cOEs AMOSTRAIS

No caso de populacbes corn distribuição desconhecida, mas serido as


amostras grandes (fli, '12 > 30), aquela distribuição e aproxirnadarnerite nor-
mal reduzida.

CASQ2:

Hipoteses: Sejam duas populaçöes norrnais em que e c são desco-


nhecidaS. Considerem-se duas amostras (de tarnanho iii e '12 :~ 30) e
admita-se a hipOtese de igualdade de variâncias: 6 = a. Demonstra-se que:

(Xi - X2) - (i - L2)

JI '12

/
4(ni+n_2)

(ni - + ('12 — 1)s


fll+fl2-2

CASO 3:

Hipóteses: Sejam duas populaçoes normais ou não ern que se desconhe-


cern oi e d. Considerern-se duas amostras de tarnanhos ni e '12 rnaiores
que 30. Demonstra-se que:

(Xi - - (i L2)
noi)

(ii 112

307
ExercIcios propos tos
1. Diga a que entende por parametro, estatistica e estimativa. Dé alguns exem-
pbs de parâmetros e estatIsticas.

2. Defina a conceito de distribuiçao amostral.

3. A caracteristica X de uma popubação é considerada coma seguindo uma


distribuição normal, de parãmetros desconhecidos
a) Para uma amostra de dimensao ii = 5, foi proposto para estimadar da
media da popubaçao a seguinte variavel aleatOria:
ji = (X1 + 2X2 + 3X3 + 4X4 + 5X5)/15
Qual a distribuição (e respectivos parâmetros) de ji? Justifique Os passos que
realizar.
b) Considere que tinha escoihido duas amostras de iguab dimensâo (ci = 5)
abtendo
I=l2 e 12=9
= 1,2 s' 2 = 0,9
Como explica a diferença entre V, e x2?

R: a) ji fl
15

4. Considere uma populaçao BemQulIi X da qua[ se retira uma amostra aleatOria


de dimensão 5. Afunção probabilidade e f(x) = pX(1 - p)lX, x = 0, 1
a) Deduza a distribuiçao conjunta da amostra e explique qua[ a seu significado.
b) Admitindo que p - proporção de sucessos na populacào - e 0,6, calcule
a probabilidade de obtemios a seguinte amostra
(x1, x2, x3, X4, x5) = (1, 0, 1, 0, 1)
c) Obtenha a distribuição amostral da proporção de sucessos numa amostra
de dimensao 5.

X
R: a) f(x) = p1 (1 - p)'1; b) 0,03456
5. Sejarn Xi e X2 as médias de duas amostras da mesma dimensão retiradas
de uma populacao normal de parâmetroS Me T.
tarnanho das amostias de modo a quo:
Determine 0
P[IXi - X2l 15 0101
>

xi, X2, Xs ........ X9 corn distribuicão binomial em que,


6. Considere as variaveiS
Xi b(x; n1 = 1; p = 0,5) para / = 1, 2, 3.......9

e as variáveiS
1,2
Yjfl n(2; 1)parai =
Estas vatiáveiS são todas independentes.
5
T = X1
a) Deduza a distribuicão amostral de
1= 1

T.
b) Calcule o valor esperado e a variância de
9 2
R= X -
c) Deduza a distribuicão arnostral de
1=1 j=1

B: a) T b(t; 15; 0,5) ; b) E[T] = 7,5 VAR[ T] = 3,75

c)R n(18,5; 3,25

7. Considere a seguinte estatIstica, definida corn base numa amostra de tama-


nho 10:
5X1+5X10
T—
10
a) Qual a distribuicãO e parâmetroS de T, so considerarrnos quo aquela amos-
tra foi retirada de uma População Normal?
porque razão prefere X a
b Para estimar a media de Populacão, i,

B: a) T n( T"if'
j ; b)Xé mais eficiente que T.

8. Seja (X1, X2, X3) uma amostra casual de uma Populacão de Bernoulli corn
- Ix , corn x = 0,1.
função do probabilidade dada por: f(x; p) = P . 0 p)

a) Que amostras diferentes podem ser recoihidas da População?


b) Qual a amostra mais provável de ocorrer no caso de p = 0,1?
ES TA TIS TI CA APLICADA

R: a) 8 amostras:

= (0,0,0); x = (0,1,0); x = (0, 0, 1); x = (1,0,0);

= (0, 1, 1); X 6 = ( 1, 1, 0); x = (1, 0, 1) e = (1, 1, 1);

b) é a amostra = (0, 0, 0) pois


P[Xj = 0, X2 = 0, X3 = 01 = 0,729
Capftulo VII

EstimacäO de parâmetros
introducáo

No preserite capIttilo, ir-se-á entrar na area de aplicação da inferéncia


estatIstiCa1 . Em certas situaçãeS, sabe-se qual o modelo a aplicar ao fenómeno
em estudo (a distribtJicão da população) e o objectivo é estimar os parâmetros
dessa pop(Jlacão2 . Noutras situaçöes, nem sequer se sabe qua[ e a distribuição
da populacãO e aqui importa antes de mais testar uma distribuição que se
adeque ao fenOmeno em causa, e estimar Os respectivos parãmetros. A infe-
réncia estatIstica inclui assim trés grandes tipos de aplicação:

1. Estimação pontual
2. Estimação por iritervalos
3. Ensaio de hipOteses
Neste capItulo serão abordados Os dois primeiros tipos de aplicação sendo
o terceiro objecto de estudo do capItulo seguinte.

1 Fazer inferéncia estatistica ê basicarnente partir de inforrnacão amostral para obter resultados
2 estatisticarnente crediveis relativos a populacão.
Cu testar urna hipótese feita sobre urn ou värios parârnetros.

13
Estimação pontua

o objectivo da estimaçao por pontos é usar toda a informaçâo disponIvel


a partir da arnostra, para produzir urn valor que é o rnelhor valor que se pode
adiantar para urn certo parâmetro do Universo.
Suponha-se uma certa populaçäo ou Universo X, corn determinada distri-
buiçAo f(x; 0) que se conhece, mas onde o parârnetro caracterizador da
distribuição, 0, se desconhece. Pretende-se propor urn valor para 0 que per-
tença, corno é Obvio, ao espaço de resultados do parârnetro, ou seja ao
conjunto de valores que o parárnetro pode assurnir.
Existem dois procedirnentos possIveis:
1) Propor urn estimador para 0 que pareça urn <'born" estimador graças as
propriedades de que ele goza.
2) Construir urn estimador e, no processo de construçâo, assegurar que ele
goza das propriedades desejáveis nurn "born" estimador. Este segundo
procedirnento será abordado no ponto seguinte - Métodos de estimaçào
pontual.

Mas afinal, o que é urn estimador? A resposta a esta questão ja foi dada
no capItulo anterior, mas será agpra relembrada.

2.1. Estimadores e estimativas

De entre as estatIsticas já vistas, ha algurnas especiais que se designam


por estimadores. Estimador 6 uma estatIstic& e, portanto, uma variável alea-
tOria função da amostra e que fornece urn valor concreto para o parârnetro do
Universo.

1 Qualquer estimador 6 uma estatistica, mas nem tadas as estatisticas são estimadores.
DE

DesigflaSe genericamente por: 6 = ô (xi, x2 , ..., Xe ).


Urn estimador é assirn uma ((fOrmula", função de variáveiS observáveis a
partir da amostra, que nào pode envolver valores desconhecidOs. Para urn
mesmO pararnetrO B (desconheCido) é possIvel propor estimadores alternati-
A.
e designa-Se genericarnente por e, a urn valor
vos. Chama-Se estimativa,
concreto assurnido pelo estimador . Cada estimador ê é uma variável aleatOria
que fornece infinitas estirnativas, uma por cada concretiZacãO da arnostra

aleatOria.

ExemplO 1
(media do Universo) duma populacäo normal,
Para estimar a parametro i
poder-se-ia utilizar, entre outros estimadores, a estimador = X, isto e, a media
terá uma certa distribuição amostral
amostral. Como ô é uma variável aleatória, ô
e podem catcular-Se as suas caracteristicas numéricas tais coma:

Var[] = E[] - (E[8])2 = -

Erro amostral = - B

Enviesamento = env() = E[BI - 0.


U

2.2. Pro priedades dos estimadores

Como se referlu, para estirnar urn certo parârnetro do Universo, podern-se


utilizar estimadores alternativos. Por exernplo, para a rnédia do Universo (ii)
M0
pode propor-se, entre outros, a media X, a rnediana M0 ou a rnoda
amostrais.

Quo critério usar para escolher o estimador?


Ern termos teóricos considerar-se-á que o estimador e é preferIvel ao
pertencente ao espaço de resul-
estimador ê, se para qualquer intervalo [a, b I
tados do parâmetro se tiver: A
P[a < 6 < b] > P[a <0< b].
o estimador 0 será Optimo, se tal se verificar para qualquer estimE
atternativo 0. Em termos prãticos, a setecção de um estimador entre ou
possIveis será feita corn base nurn conjunto de propriedades considera
desejáveis para urn <(born)' estimador. Estas propriedades subdividem-se
2 grandes grupos:

V - Propriedades que se referern a estirnadores obtidos a partir de


nas amostras, embora válidas para grandes amostras.

IV - Propriedades que se referern a estirnadores obtidos a partir de grand(


amostras que são propriedades assirnptOticas (so válidas para grand(
amostras).
I) - Propriedades dos estirnadores ern pequenas amostras
1. Não enviesarnento
2. Eficiência
3. Suficiencia

1. Näo enviesamento.

Ernbora esta propriedade seja bastante desejavel nurn estimador, sO por si


nao permite qualificar urn estimador de <cborn* estimador. As figuras seguintes
pretendem ilustrar o que se acaba,gie afirrnar: 0 e 0 são ambos não enviesa-
dos, no entanto as variâncias dos estirnadores são bastante diferentes

0 0
,2 SãO exemplos do
A media amostral (X) e a variancia amostral corrigida S
já que se demonstra que:
e stirnad0s não enviesados

E121 =

E[s'2] = a2.
52 jà que
A variancia amostral um exemplo de urn estimador enviesado

= la2 # 2.
E[52} n

2. EfiCiencia

diz-se eficiente se dentro da classe dos não enviesa-


Um estimador ê
dos ou centrados tiver varianCia minima.

Esta propriedade está relacionada cam a dispersãa da distribuicãO de


prababilidade de um estimador.
Dados dais estimadores e B ambos nãa enviesados, U
serã mais eficiente

que 0 se:
Var(s) !~ Var(0).
eficienCia relativa, em
Repare-Se que aqui se está a falar em termos de
de uma maneira
termoS práticoS mais fãcil de estudar. A eficléncia absoluta e,
geral, dificil de se abter.

1
De entre os estirnadares para a media duma populacãO normal dernonStra-se
que X urn estimador eficiente pois:

I) E[X1 = I'
onde designa qualquer outra estirnador näo enviesada
H) Var Lxi Var[ I
para R.
I

1 A partir da chamada desigualdade de FrechetCramera0*


ESTATISTICA APLICADA

3. SuficiOncia.

Isto é, a palavra suficiente tern aqui o mesmo sentido que o utilizado quando
se definiu estatIstica suficiente.
Esta é urna noção simplista, ja que para a indagaçao concreta da eficiencia
de urn estirnador existem critérios — o de Fisher-Neyman e o da factorizaçào
— que nào são, no entanto, objecto de estudo neste livro1 .

Os estimadores M0 e M9 são estimadores suficientes para a media duma


população normal (p).

U
II) - Propriedades dos estimadores em grandes amostras

o segundo grupo de propriedades, as chamadas propriedades assimptOti-


cas, define-se quando a dimensão da arnostra ë grande (n —+ cc):
1. Nao enviesamento assimptOtico
2. ConsistOncia
3. Eficiência assimptOtica

1. Não enviesamento assimptótico

1 Para aprofundar este assunto vela-se, porexemplo, MURTEIRA, BENTO, Probabili/dades e StatIst/ca,
Vol/I, Mc Graw-Hill, 24 Ediçäo, Lisboa, 1990.
ES TI MAcA0 DE PARAMETROS

Conctui-Se que urn estimador näo enviesado e tarnbém assimptoticamente


0 recIproco se não verifique:
naG enviesado embora
Não enviesamento não enviesamento assirnptOtico.

ExempIO 4

o estimador s 2 (variancia arnostral) para a variância do Universo é urn esti-


mador nao enviesado assimptoticamente para a2 pois,
• n—i2 02
tim E[s 2 ] = km =

n•-4n n

No entanto, corno já foi referido, S 2 O urn estimador enviesado para a2.


a

2. Consistência

Urn estimador On diz-se consistente simples ou ern probabilidade se

urn P[l 6n —81 ~ s= 1 Vs>O


fl -* 00

Esta propriedade é no entanto de diffcit operasionatizacâo.


E possivel definir uma noção de consistëncia rnais restrita que, ao verifi-
car-se para urn certo estimador, irnptique que esta seja tarnbérn consistente
em probabilidade. E a charnada consisténcia em media quadrática.

Um estimador On diz-se consistente em media quadrática se


())2 }
urn EQM() = Urn [VAR() + (env =

fl —*oo fl.- oo

onde EQM designa <erro quadrático rnédio".


ES TA TIS Ti CA APLICADA

Urn estimador pode não ser consistente em media quadrática, sendo no


entanto consistente ern probabilidade:

Consisténcia em media quadrática consistência em probabilidade

Note–se que se 6 for urn estimador nâo enviesado para o entáo:

urn EQM(6)= tim [VAR (6)+O]= urn [VAR(0)}


fl — oo fl — oo fl -400

Ia que neste caso 0 enviesamento é nub.

A media amostral (X) é urn estimador consistente para a media do Universo


(j.t) pois;

urn EQM(X) = [tim VAR (X) + (env (X))2 ] =


fl -3cc fl — oo

= tim VAR(X)+O= pois E[X] - = 0


n—+-

= urn —=0.
fl —too

3. Euiciência assimptótica

Observe-se que, se urn estimador e o mais eficiente, então ebe e tarnbém


o mais eficiente assimptoticamente, isto é:

0 6 eficiente 6 6 eficiente assimptoticarnente.


ESTIMAqAO

ExemplO 6

Seja a estatIstica
n -i

E
1=1
n
definida corn base numa arnostra aleatOria de dirnensäo n, recoihida de urna
populacao normal.

a) Verifique se T constitui urn estirnador nâo enviesado ou centrado para a


media da populacão.

b) Será Turn estimador consistente para aquele parârnetro da populaçao?

Populaçao: X n ii (ji; a)
Arnostra: (X1, X2, ..., X)

a) TO estirnador não enviesado para R se e so se: E[T] =


rn-i 1
E[T]=E' V Xi+XI=[(n_1)M+R]=
I Ai n

Logo, TO estirnador não enviesado para i.

b) Se urn EQM (T) = 0 então TO estirnador consistente ern rnOdia qua-


n -,-
dratica.
EQM(T) = VAR (T) + [env (T)] 2 .

Como TO estirnador não enviesado para R então env (T) = 0 e vern:

IirnEQM(T) = urn VAR(T)


fl -400

n-i

: x1 +x
= urn VAR =
n
n—i
= Jim VAR z + xn j
fl — oo /7 =
j=1

= urn
fl —)oo /7

= tim
fl —Icc fl

• fl 2
= Jim =
fl —Icc
----
fl

Logo TO
urn estirnador consistenfe em media quadrdtica para ji.

Uma variável aleatória X representa o nUmero de avarias de um dispositivo


electrónico durante uma certa uriidade de tempo.

A variável X obedece a uma tel de Poisson de parâmetro X desconhecido


Para aquele parametro foram indicados dois estimadores e A.
Compare os estimadores propostos quanto ao nâo enviesamento eficiencia e
suficiencia.

£ Xi+X2++x
n

Populacao: X n p (x; X)

Amostra: (X1, x2,..., X,,)

,) Ndo enviesarnento:

A [n
• ' i 1
1
X11=-;;-.
=—
nX=x
11- . I
PARAMETROS

x1 +xn
2

Logo, quer quer X são estimadores centrados ou nao enviesados para A.

ii) Eficléncia: analise-se a eficiencia relativa daqueles estimadores:

VAR[$]=VAR _T VAR [Z xi j=

=(A+A+... +A)==.
n2

x1 +x
VAR[A] = VAR[ VAR [X1 + X} =
2 I =

= (A + A)
-iF = 4.
A
VAR (X) n 2
VAR(A) - I -
2

Conclui-se que: se n = 2, os estimadores e \são igualmente eficientes; se


n > 2 então 4 mais eficiente que X pois

VAR[ 5
- <1
VAR [ A I

iii) Suficiencia: so4 suficiente pois coritOm toda a informaçao disponIvel na


amostra, eriquanto que X apenas funçao do primeiro edo Ultimo (n-Osimo)
elemento da amostra.

323
ESTATI$TICA APLICADA

Considere uma amostra aleatória de dimensao ,i, retirada duma populaçäo X


corn urna certa distribuiçao de media js e variância c.

a) Mostre que a variância amostrat corrigida, s' 2 O estimador não enviesado


para a variância da populaçào, c2 .

b) Considerando a propriedade do nao enviesamento, que podera afirmar


quanto ao estimador s 2 (variancia amostra9?

a)
(1

Z
1=1 =
E[s' 2 ] = E
n—i

peta igualdade (*) a seguir indicada

E (Xi _)2 _nE(X_R)2 ]=


= n11
[a1

- 1 -
— — [n VAR(X1) - n VAR(X)] =

(2
= 1n02 —nI— =
nlL

2
=1 (n -CF =

(*) Z (X - = (XI - 2 - -
EST/MAcAODEPARAM -ROS

De facto,

n
= X + 2 (Xi —X)(X— t) +(X— R) 2 }=
/=1

= (Xj— X)2 + 2(X— ) (Xi —X) + n(X — 2 =

(KX)2 +n(X)2

pois (XI —X)=O,


1= 1

donde se conclui quo:

b)
rn 1

HE (KX)2

E[s2] = EL11 I= n-1 E[s' 2 ] =


TI n

=
n—i 2
Cy
n

pois S2 = n - 1
n
ESTATISTICA APLICADA

Logo s 2 é estirnador enviesado para a2. No entanto, s 2 é urn estirnador nao


enviesado assirnptoticarnente para a2 pois:

lirnE[s2 ]= urn n—i


t7—*oo fl—oo

pois Urn n
fl—*oo

[I

Considere urna populaçao corn distribuiçao de Bernoulli, de parârnetro


P: 0 :9 p !9 1.

Considere o estirnador
A X1+X2+... +X,,
p= (1
obtido a partir duma arnostra do dirnensao ii retirada daquela populaçâo.

Estude o estirnador p quanto ao nao enviesarnento e quanto a consistência


ern rnédia quadratica.

População:Xn b(x; 1; p)

Arnostra: (X1, X2, ..., X)

+X1
E[—E[ n
2+•.•

=+PP +PJ=1.n.p=p.
n vezes

Logop é estirnador näo enviesado para p.

Cornop é nâo enviesado vern:

urn EQM(,) = Urn VAR() =


fl.-oo fl —a

+ X2 + + X =
= lirn VAR XI
fl-9oo n
ES TIMAcÁo DE PARAMETROS

= Urn 2 (p q + p q + ... + p q) =

= urn 1
fl -400 fl

pq 0.
= urn =
fl -400

Logop é consistente em media quadrática.


I

2.3. Métodos de estimação pontual

Estudararn-so antes alguns critérios através dos quais se podo julgar esti-
madores do ponto do vista da sua "qualidade' - isto O, critérios quo pormitem
verificar so determinado estirnador proposto para urn parâmetro dosconhecido
goza das propriodados dosejávois num cborn,, ostimador.
Existem contudo procedimeritos gorais que porrnitern construir estimadores
corn as propriedades desejadas - são procodirnontos quo so denorninarn por
mOtodos do ostimação. Urn destes, provavelrnente o mais irnportanto, e o
método da máxirna verosirnilhança. Antes de ser foita a sua aprosontação
refiram-se a titulo de exemplo o rnétodo dos mornentos (cujos estimadores so
obtOm por substituição dos rnomentos da arnostra nas oxpressöes quo repro-
sontam Os rnomentos do Universo) e o método dos rnmnimos quadrados, cujos
estimadores serão estudados no ãrnbito da aná!ise do rogressão e oorrelação
U nearos.

2.3.1. 0 método da maxima verosimilhança

Suponha o soguinte problerna do ostirnação:

Urna pastelaria fabrica bombons oom trës paladares diferentes: do amen-


doa, do noz o do ginja. Aquoles bornbons são vendidos em caixas de dois
tipos (Tipo Io Tipo II) cuja composição é a quo segue:
ES TA TISTICA APLICADA

Tipo I
- 40% de bombons de ginja
- 30% de bombons de noz
- 30% de bombons de amêndoa.

Tipo II
- 30% de bombons de ginja
- 30% de bombons de noz
- 40% de bombons de amêndoa.

Foi encontrada uma caixa que não está identificada, isto é, desconhece-se
de que tipo se trata.
Retiraram-se dessa caixa, ao acaso e corn reposição, 6 bombons.
Seja X - nUmero de bombons do ginja naquela amostra do dimensão 6.

A variavel X assirn definida tern distribuiçao binomial ern que ha duas


alternativas para o valor de p (p = 0,4 se se tratar duma caixa do tipo I ou
p = 0,3 se Se tratar durna caixa do tipo II).

Os resultados possIveis naquela amostra com n = 6 são os que constarn


no quadro seguinte, como pode ser visto por consulta a tabela da binomial.

D!stribuição P [X= x]
de
x=0 x=1 x=2 x=3 x=4 x=5 x=6

0,3 b (x; 6; 0,3) 0,1176 0,3025 0,3241 0,1852 0,0595 0,0102 0,0007

0,4 b (x; 6; 0,4) 0,0467 0,1866 0,3110 0,2765 0,1382 0,0369 0,0041

Utilizando o mOtodo da máxirna verosirnilhança, de que tipo Ihe parecerá


ser a caixa?
Note-se que, uma vez obtida a amostra concreta, aquela distribuição virá
apenas função de p. Haverá neste caso que escolher apenas entre p = 0,3 e
p = 0,4. Se se pretender escolher p pelo critério da rnáxima verosimilhança,
isto é, se S9 escolher o p que gera a amostra observada corn a major
probabilidade, dever-se-á adoptar o seguinte procedirnento:
ESTIMAcAQ og PARAMETROS

- Se o nümero de bombons de ginja obtidos na amostra p


de 6 for inferior
A
ou igual a 2, isto é, se X :~ 2, então a estimativa = 0,3 será

preferivel a 0,4, já que aquele valor torna aquela amostra concreta mais
provável (mais veros(mil).

- Se o nümero de bombons de ginja obtidos


A
na amostra de 6 for superior

a 2, isto é, X > 2, então a estirnativa pm


*y = 0,4 será preferivel a 0,3.

Como se sabe, a distribuição de probabilidade da amostra f (xi, x2, xi,; p) ...,

fornece as probabilidades corn que ocorrem as diversas arnostras possiveis.


Corihecida uma amostra concreta, a distribuição de probabilidade conjunta
fica apenas função do parârnetro p. Diferentes valores de p originarn diferentes
valores para a probabilidade de ocorrOncia de uma determinada amostra. 0
estimador da rnáxima verosimllhanca será o valor de p que torna aquela
amostra concreta mais verosimil, isto é, mais prováveL
Em terrnos gerais, seja uma população Xcom uma função de probabilidade
ou função de densidade de probabilidade (conforme X seja discreta ou conti-
nua, respectivarnente) designada por:
f(x, 0)

onde 0 O o parârnetro de que depende a distribuição de probabilidade de X.


Pretende-se obter o estirnador da maxima verosimilhança para 0 que será
designado por °MV

Seja (Xi, X2, ..., Xi,) uma amostra aleatOria recolhida daquela população X.

Designa-se por função de verosimi/hança L'(Xi, X2 ... Xn; 0) a função da


amostra e de 0 tal que:
L(x1 ,x2 ,..xi,;0) = f(x1, x2, ..., xi,; 0) =

= f(x1; 0) (x2; 0) ... f(x ; 0) =

= fl f(xj/; 0).
/=1

A função L (.) representará a P [Xi = Xi ..... Xn = xi,] se X for discreta e


a função de densidade conjunta de (xi, X2, ..., Xi,) se X for continua e será
sempre função do parâmetro 8.
Urna vez obtida a amostra, ficarâo a ser conhecicjos as valores (xl, X2,
Xii) e poderá pör-se a seguinte questäo:

Qual a valor de 9 que torna aquela amostra concreta mais provável?

Se=(x1,x2,...,Xfl)eo valor dec ® que rnadrnizaL(x1x2x.


então 0 é 0 estimador da maxima verosirnilhança para 0. Para obter aq
estimador bastara então:
Max L(xi x2,...,x; 0)
{$}

s.a.Oe 0
0 que e equivalente a maximizar o logaritmo da funçao anterior se 0
intervado de variação dos Xj não depender de 9:

Max M(0) = lnL(xj,x2,...,x; 0)


{O}

s.a. 0 c 0
Esta transformaçao, em geral, torna a problema de maximizaçao mais
simples.

Este método de construçâo de estimadores é generalizavel para urna po-


pulação corn mais de que um parâmetro como ë a caso da populaçâo normal.
No entanto, é condiçao necessaria
para a aplicaçao deste método, que se
conheça a distribuiçao da população ou Universo.
Por Ultimo, refira-se que as estimadores da maxima verosirnilhança gozam,
em geral, das propriedades desejaveis num born estimador: são as mais
eficientes, consistentes e, se não são centrados, são pelo menos não envie-
sados assimptoticamente

Deduza a estimador da maxima verosirnilhança para o parâmetro de urn


Universo corn distribuiçao geornétrica, isto é, cuja funçao de prababilidade é dada
par:
f(x,e)=e(1_o)x_1 X=123

Seja (X1, X2,..., X) uma amostra de dirnensao


n.
A sua funcãO de verosimilharca será:
n
0) = L(x; 0) = fl f(xj; 0) =
1=1

-1 0(1 - Q)x2 -1 ... 9(1 - 9) Xn -1


= 9(1 - Q)xl

f(x1) f(x2) f(x)

>xrfl
= on ( I -
L(r,e)

FazendO a transfoflhlacãO logarItmica de L (.), obtem-se:


17

M(x; 9) = kiLO'; 9) = n . In + x1— nj In (1 —9).


1= 1

que maximizam a funçao anterior. Para


Pretende-se encontrar Os valores de 9
tal é necessáriO que sejam satisfeitas duas condiçöes: serem pontos onde a
primeira derivada da funçào em ordem a 9 se anula (condicao de primeira ordem)
e onde a segunda derivada é negativa (condicão de segunda ordem).

Condiçao de primeira ordem:


17

L xi — n
dM(x; 9) -- 1=1 = 0 .
dO - 9 1-9

(a
n(1 —9)— O x1 - nj= 0
Hi
a
:
A fl
n
xi
1=1
ESTATIST/CA APLICADA

Condição de segunda ordem:

d2M(x;e)
<
d o2
GUMV

Il

- n
d2 M(x; 9) - n 1=1
(1_O)2
<a
d02 -

'7
Como x1 ~! n porque x1 2: 1, Vi
1=1

- d2M(x;9) A n
entao ~ 0, V 9, e em particular no ponto
do 9 MV = =
X

17

Seja (X1, X2,..., X), uma amostra aleatoria de uma populaçao corn funçao
de densidade dada por:

f(x; 9) = 9(1 + x> 0, 9 > 0.

Pretende-se estimar 0 pelo método da maxima verosimilhança.

Seja (X1, X2, ..., X) uma amostra de dimensao ii:

A funçao de verosimilhança será:


'7
L(x1,x2• ..., x,,; 9)
= fi f(xj ; 0) =

i= 1

'7

= II 10 (1 + x1)1 +

1=1
— (1 + 0 )
(fl
n
on
L(x; 0)
= on
fl (1 + = II (1 + x1)
1=1 y=1 I
Logoritirnizafldo L (x; 0) obtérn-se:
n

M(; 8) = L(; 0) = ninO —(1 + 0) In II (1 + x) =


1=1

n
= ninO -0 + 8) in (1 +x1).
1=1

dM(x; 8) =
Condicão de piime3ra ordem: 0.
dO
1)

dM(x; 0) =0 In (1 +x1)=0 ='


dO 1=4

=L lri(1 + x1) a:
1=1

A n
4 0MV
in (1 + x1)
1=1

As condiçoes de segunda ordem estão verificadas pois:

d 2 M (x; 8) = - < 0, V 0 e em particular no ponto 9MV calculado.


dO2
LI

Pretende-se agora exemplificar 0 caso de urna funçäo de verosimilbanca não


regular, o que acontece geralmente quando a variaçäo de x depende do parâme-
tro.
Seja uma populacão corn a seguinte função de densidade de probabilidade:

f(x; 8) 0 c x c 8, 0 > 0.
= 2f-,
ESTATISTICA APL!CADA

Pretende-Se construir a estimador de maxima verosimilhanca para. 0.


Dada uma amostra aleatória de dimensãO n, (X1, X2, ... X), a furiçào do
verosimlihanca será:
n
2x1
L(x; 0) = fl —i-- 0 c
x1 c 0
1=1

r Xi
2 O.
=fl
Coma a amostra está fixa, esta funçào é decrescente corn 0. No entanto, todos
tern de veriticar a condicâo de serem inferiores a 0. Assim, a valor mais
as x1
pequerio que 0 pode assumir corresponde ao major valor observado dos
A
e MV = Max xi
x1(i = 1, ..., ci), ou seja,
i=•l ....
a
2
Estimacão POT intervalos

Na estirnacãO por intervalos, em vez de se indicar urn valor concreto para


certo parametro da população, e, constrOi-se urn intervalo qua, corn certo grau
de certeza, previamente estiputado,.o contenha. Quando se utiUza urn estima-
dor, surge sempre a questão da sua precisào. Na prática, costurna estimar-se
o erro-padrãO isto é, s. No entanto, ha uma outra forma de se ter urna ideia
clara do grau de precisãO durn estimador, construindo urn intervalo de confian-
ça. Os intervalos de confiança permitem assirn medir a precisão de urn
estimador. Saliente-se, no entanto, qua os intervalos de confiança sO podern
ser construidos se a distribuiçäo do estimador for conhecida.

Suponha urna populaçào normal corn media it e variäncia a2. Sabe-se que

a rnédia amostral (X) tern distribuição normal de parämetros p. e —rn ou

X—p. nn(0,1).

= (X tern urna distribuição que é independente de p., sendo


Assim z

possivel deterrninar-se a probabilidade de a variável aleatOria Z se situar nurn


certo intervalo.
Em particular sabe-se que:
P[-1,96 < Z< 1,96] = 0,95.
Então,

P —1,96< X p. <1,96 =0,95

P[ - 1,96c p. < X + 1,96 = 0,95.


ES TA TISTICA APLICADA

-1.96 0 1.96 z

Conclui-se assim que a probabilidade do intervalo

1,96 X+ 1,96

conter ji
(o verdadeiro parâmetro do Urliverso) é de 0,95. Trata-se de urn
intervalo aleatOrio, pois os seus limites, inferior e superior, são variáveis alea-
tOrias - dependern de X que é, como se sabe, uma variável aleatOria.
Significa que se se recolhessern 100 amostras aleatOrias e se para cada uma
delas fosse calculado o intervalo acima referido, seriam 95 as intervalos que
conteriam a verdadeira media j.t.
No entanto, para cada amostra aleatOria, as lirnites do intervalo variam. A
partir do rnomento em que se substitui a variável aleatoria X pelo seu valor
concreto numa certa amostra, obtérn-se urn intervalo concreto e aqul ja nao
se pode afirmar que 95% das vezes a rnédia ji cairá nesse intervalo! So estão
envolvidas constantes, Ia que i é uma constante. Obtida uma outra amostra
aleatOria, X será concretarnente diferente e os lirnites do intervalo serão
também diferentes.

Porque utillzar urn intervalo simétrico?

Ha urn nQrnero infinito de intervalos possiveis corn a rnesrna probabilidade


da normal-padrão. Par exemplo, P[.-2,1 c Z c 1,85] = 0,95. No entanto,
este intervalo não é centrado e a sua amplitude é de 3,95. A amplitude do
intervalo anteriormente considerado era rnenor ... Prova-se que, como a função
densidade de probabilidade durna normal-padrão e simétrica em relação a
z = 0, a amplitude do intervalo é minima para valores de Zque sejam sirné-
tricos. Ora, um intervalo de confiança corn rnenor amplitude 6 mais preciso...
porque utilizar urn nIvel de confiança (%) igual a 95% e não outro

qua Iquer?

Näo ha razão nenhuma em especial a nao ser o facto de serem mais


inteivalos de confiança a 90%, 95% e 99%. Pode-se utilizar
vulgares Os
qualquer outro nIvel de confianca. Repare-se que, quanto major for o nIvel de
nfjança estipulado, malor amplitude terá o intervalo, portanto, menor preci-
são. Poder-se-á assim concluir que, para urn intervalo de confiança, é
neCeSsario
1. Encontrar um estimador pontual.
2. EstabeleCer urn nivel de confiança X.
3. Conhecer a dimensãO da amostra.
Conhecer a distribuiçãO amostral da estatIstica utilizada para estimar o
4.
parametro.

Mas como escoiher a estatIstica adequada para a estirnação por inter-


valos?

metodo da var/ayel fulcral e que se pode


o metodo utilizado é o chamado
resumir da seguinte forma: a estatIstica a escoiher para estirnar o parâmetro
deve ser tal que:
contenha o parãmetro a estirnar na sua expressãO;
0
II) a sua distribuição não dependa do parãmetro a estirnar, nem de quals-
quer outros valores que se desconhecam.

No quadro que se segue indicam-se as variáveis fuicrais apropriadas para


cada caso.

FA
ES TA TISTICA APLICADA

Quadro

Parémetros Tipo Dimensão


Conhece-se Var/aye! 0/stribuição
a de da
G. fulcral amostra!
eat/mar populaçao amostra

Normal Qualquer Sim fl n(O,1)

Normal n:530 Nào i-li

Normal
n>30 Não fln(O,1)
ou qualquer SAg

x- i1 0
Is Qualquer n>30 Sim fln(O, 1)

(i - X2
(al e a2 )
91 -92 Normals Quaisquer n(O,1)
Sim
Th

(i – 2) – @I 2)
((Fie a2 ) n tn1+n22
n1 ~30
91 -92 Normals Não Ph (p/n>30
A n2~31J
A n.j(ni -1)si+(n2 -1)sl aprox.
n1 + n2 - 2 normal)

( i X2)(p-1 R2)
Normal n1>30 (a 1ec2)
P-i - P2 js- fln(O,1)
ou qualquer A Não -
+ —

(n - i)?2
Normal Qualquer — ________
flXn- I)
(32

x-p
_________________ 0
p Bernoulli n>30 p(l -p) fl n(O, 1)

n

(i -)- (Pi – /'2)


n1>30 ___

Pi – p2 Bernoulli -
qj p2q2 n(O,l)
A
P1 n2

el
j
12 2
Normals Qualquer - --

338
ESTJMAcAODEPARAMETRQS

ExemplO 13

(X -
A estatistica / contérn na sua expressão gi, o parâmetro a estirnar, e

a sua distribuição, n (0, 1), näo depende de nenhum valor que se ignore. Logo,
aquela estatIstica pode ser utilizada como variávet fulcral na construçâo de urn
intervalo de confiança para V.

A construçäo do urn intervalo do confiança para estirnar urn parâmetro pode


ser organizada do acordo corn a seguinte rnetodologia:

1. Definiçao da populaçäo, da sua distribuição e do parâmetro a ostimar:

Seja, por exernplo, uma população X cuja distribuiçao so considera normal


corn media desconhecida e desvio-padrão s = 4000.

Pretende-se estimar t através do urn intervalo de confiança.

-
2. Escolha da var/a vol fulcra I: X
a

já que X estirnador de .

3. Dcterminação da distribuiçao amostral da varith vol fulcral:

n n(0,1).

4. Escolha do nIvel do conf/ança: X = 0,95, por exemplo.

5. Construçào do intervalo aleatorio:

P[_za/2 < C Za/ = 0,95


a
-
NFn

339
ES TAT/ST/CA APLIGADA

a c 1=0,95.
___
— 196
, <<X+l,96
R
p

0.L5 N 'i> &2=O,025

Z=1,96 Z

6. Determinaçäo dos limites do intervalo a/eatOrio: neste caso seria

C r
=1x_ 1,96 X+ 1,96

7. Determ/nação dos limites do inteivalo de con fiança concretos, a partir


dos va/ores da amostra: para fazer inferênoia para 4, tern de se recoiher uma
amostra e calcular as estatIsticas adequadas. Neste caso, recolheu-se urna
amostra de dimensão n = 100 e calculou-se 5 = 200000.

4000
[I0,95] = ] 200000_196x 200000+1,96x 4000
00
[=

= 1199216; 20078.& [.

Uma máquina de bebidas está regulada de modo a servir uma quantidade de


liquido que é uma variável aleatOria corn distribuiçao aproximadamente normal.
Sabendo que numa amostra de 25 bebidas se obtiverarn as seguintes resultadas:
25
x1=6520m1
/=1

25
(4_ = 384rn12.
il
EST! MA cÁO OS PARAM5TROS

Pretende-Se
Construir urn intervalo de confiança a 95% para a verdadeira quantidade
a)
media de liquido das bebidas servidas.
Determinar quantas bebidas deveriarn ser incluldas na amostra, se se
b)
pretendesSe aurnentar a preciso do intervalo para 2 ml.

a) Vai-se determiflar urn intervalo de confiança para ji, corn grau de confiança
de 95%.

- PopulacãO X— quantidade de lIquido (em ml) que certa maquina de bebidas


save.

Valores observados na amostra:


25
x1=6520rn1
1=1

25
- = 384 m12
(x1

A variavel fuicral a utilizar seré:

r t(n-1)
5,
C
0 valor de a e a amostra e pequena. Note-se que 5'
pois não se conhece
(desvio-padrão arnostral corrigido) representa 0 melhor estirnador para c.

Construçäo do intervalo aleatOrio, por consulta da tabela da distribuiçâo t de


Student:

- -2,064 t= 2,064 24
MIST/CA APLIGADA

P[—t < c t] = 0,95

P[_2064 < X < 2,0641 = 0,95


5'

- 2,064 + 2,064 = 0,95

pelo que o intervalo aleatório se pode escrever coma

____
40,95 IV =]k_ 2,064 X+ 2,064
SF
I

A partir dos dadas da amostra podemos calcular


25

xf
- 1=1
x 2-5 =250m1

a
25
(x1 -
- i-I - 384
- n—i - 24

= 16 M12

5' = +' fli= 4m1. -

0 intervalo de confiança virá:

4 r
[ 10,951 = J250 —2,064 250 + 2,064

= 1248,3488; 251,6512[.

A amplitude deste intervalo é 251,6512 - 248,3488 = 3,3024 ml.


EST/MA AO DE PARAMETROS

b) Pretende-se agora saber qua! o valor do n quo faz corn que:


amplitude intervalo = 2 ml

amplitude = 2 x t 1 -x 2.

Ao pretender reduzir a amplitude do intervalo O necessário aumentar n, o que


permite utilizar a normal padrão (n > 30):

5,
amplitude = 2 x 1,96 x = 2.
C

Admitindo-se que uma alteraçào da dimensäo da amostra näo implica altera-


çöes no valor do desvio-padrão amostral, então

1,96 x 4 =1
'171
1 1
= 1,96 x 4

= 7,84

n = 62.

Exemplo 15

A administraçao do Metropolitano defronta uma situaçao de irregularidade na


hora de passagem dos comboios pelas diversas estaçôes. Essa irregularidade
(em segundos) pode ser descrita por uma variavel aleatOria normal cuja media
se estima em 5 segundos mas cuja variáncia se desconhece. Corn n = 22 e
s 12 = 9, pretende-se saber entre que valores se situa a vadãncia, corn nivel de
confiança do 0,99.

Pretende-se construir urn intervalo de confiança para a variância, c2, da


populaçäo.
População: X n n (p.;

onde X representa a irregularidade da hora de passagem dos comboios do


Metropolitano.
17

ESTATISTICA APLICADA

A variável fuicral a utilizar é:

(n - 1)W2
02
nx
Ter-se-á então:

'21

P[a << b] =

P[a < (n - 1) S' 2 1


C b] =

P [ (n - 1)3/2
<(52
C
(n - 1)3/ 2
l=7
1
b a J

e, consequenternente,
'I-

[/0,99 (n - 1)8/2 (n - 1)s


1:
41,405
= I 8,034 [
o o intervalo de confiança aleatOrio pretendido.
o intervalo de confiança concreto para a arnostra recoihida, será corn
n = 22 e = 91
]2
[10,99 * = 14,56; 23,531

0
ESTIMAçAO DE PARAMETROS

ExemPlo 16

Foi feito urn estudo para determinar se a auséncia as aulas durante o sernestre
de InverrlO é superior nurn centro urbano do norte ou do sul. Foram seleccioriados
dois grupos de alunos ateatoriamente: urn grupo na cidade do Faro e outro na
cidade da Braga.
Do 300 estudantes de Faro, 64 faltaram pelo menos urn dia e de 400 de Braga,
51 faltararn urn ou mais dias.
Para tal, pretende-se determinar 0 intervalo de confiança a 99% para a dife-
renca entre as proporçOes de estudantes quo faltararn nas duas cidades.

Populacâo A: Estudantes da cidade do Faro


PA : proporção do estudantes do Faro quo faltararn polo menos urn dia as
au/as.

Populaçäo B: Estudantes da cidade do Braga


Po proporçäo de estudantes de Braga quo fa/tararn polo menos urn dia as
au/as.

Como nA = 300 e n5 = 400 (amostras grandes), a variável fulcral a utilizar é:

(XA-XB)-
(PA -PB)
n(0, 1).
PA(1 - PA) ~ PBO -PB)

Construçao do intervalo aleatOrio:

(XA-XB)- (PA -PB)


cZl=0,99
PA (1 - PA) PS (1 -PB)
nA
+
j

-2,576 2,576 z

345
P[(XA - X8) - 2,576 PA (1 - PA) + P8(1 - PS )
nA <PAPB<

PA (1 - PA) + Ps(1 - PB)


< (X XB) + 2,576 0,99
nA J=

Note-se que Os limites deste iritervalo contêrn os parâmetros


PA e PB, havendo,
no entanto, dificuldades de cálculo para isolar PA e PB•

Urn dos procedimentos possiveis neste caso é o de substituir PA e PB pelos


seus estimadores XA e x8 respectivamente.

Vira entâo:

- XB) - 2,576
XA(1 - XA) + XB(1 —X8)
[I0s9IpA - PI = (XA

XA(1 - XA) + XB(l -XB)


(XA - X8) + 2,576

- 64
Como XA = 300 = 0,2133 e - 51 -
XB = 400 = 0,1275, obtern-se o intervalo
de confiança concreto seguinte:

['0,99 J;A- PB = ] 0,0858 - 2,576 x 0,0289; 0,0858 + 2,576 x 0,0289

= 10,01125; 0,16035 [.

a
ExercIcios propos tos
uma arnostra aleatOria retirada de urna populacão corn
1. Seja Y1, Y2. .....Y
C
a
media 3 e variânci 2
Seja urn estirnador para [3 dado por:

iYi
ft i=1
I-,

1=1

a) Mostre que fl é urn estirnador nâo enviesado para 3.


b) Mostre que fl é consistente. Note que

t(t — 1) etambérn = t(t+ 1)(2t+ 1)


1=

2. Dada urna poputacão Bernoulli considers as seguintes estatisticas:


ii n-2
Xj+Xn JXj+2Xn

T1= i=1 n+2


n+1
a) Verifique se T1 constitui urn estimador centrado para p.
b) Compare T1 e T2 quanto a eticiencia.
c) Será T2 urn estirnador consistente para p? Porquê.

R: a) Sim; c) Sim

3. Encontre o estirnador da maxima verosirnilhanca para o parârnetro 8 de urna


Populaçao corn a seguinte distribuiçào:

+ 1) x o Ocxcl
f('c 8) outros valores
={

A N
R:OMV=— •1 +
In x1
1=1
APLICADA

4. A temperatura que se faz sentir em dado pals do Norte da Europa é uma


variavel aleatória normal de media 1° C. Desconhece-se a variância. Corn base
na amostra. aleatOria (X1, X2, X3, X4) foram definidos os seguintes estimadores
para aquele parâmetro:
T1 =K(XI —X2 +X3 —X4)2

T2 =i=1-

a) Calcule o valor que a constante K deve tomar para que T1 seja nao
enviesado.
b) Compare T1 e T2 quanto a eficiencia.
c) Calcule P[(X4 - 1)2 > 5

5. Cada urn dos 50 investigadores de urn grupo de investigaçäo obteve separa-


darnente e de forma independente um intervalo de confiança a 95% para a media
R da resposta (considerada normal) dum organisrno sujeito a presença de deter-
minada substância quirnica. Diga, justificando, se considera verdadeiras ou falsas
as seguintes afirrnaçOes:
a) Alguns intervalos de confiança podem nâo conter i.
b) A probabilidade de t pertencer ao I.C. e de 0,95.
c) A precisão de urn intervalo de confiança dirninui quando se aumenta o nivel
de confiança rnantendo-se a dimensão da amostra fixa.

6. 0 nümero de pessoas que a partir das 18 horas chega a um supermercado


segue uma distribuição de Poisson, isto é, a sua funçâo de probabilidades O:

f(x)= x=1,2,...

Seja (X1, X2, ..., X) uma amostra aleatória de dirnensão n.


a) Encontre o estirnador de maxima verosimilhança para X.
b Ern 10 dias diferentes escolhidos ao acaso e para o rnesrno perlodo,
procedeu-se a contagern do nürnero de pessoas que visitavarn o supermer-
cado, tendo-se obtido os seguintes valores:
(30, 50, 40, 60, 10, 20, 50, 10, 30, 10)

Qual é, neste caso, a estirnativa de maxima verosimilhança?


PARAMETROS

7. Corn base numa arnostra aleatOria de tamanho n, deduza 0 estimador de


maxima verosirnilhanca para o parárnetro B durna populacäo corn a seguinte f.d.p.:

_fox°1 0cx<1,8>0
f(x) outros valores de x
-

A fl
R: B MV = -
E in xi
B. Corn respeito as prOximas eleiçoes autárquicas foi efectuada uma sondagem
sobre as intençOes de voto dos eleitores lisboetas, recolhendo-se 500 respostas.
Nestas, 200 estabeleciarn a intençäo de votar no actual Presidente da Cárnara,
150 pronunciavarn-se favoráveis ao candidato do PSD e as restantes tern prefe-
réncia por outros candidatos ou nâo expressarn a sua preferéncia. 0 estudo
destina-se a avaliar as hipOteses de êxito do actual Presidente da Câmara.
a) Qual a populacâo ern causa? Justifique a escolha especificando quais os
parârnetros de distribuiçào.
b) Indique, justificando, qual o melhor estimador para a proporçäo de eleitores
lisboetas que nâo votam no actual Presidente. Corn base na arnostra
recoihida indique uma estirnativa para essa proporçào.
c) Construa urn intervalo a 90% para a proporcão de eleitores quo preferem
votar no candidato do PSD. Interprete o resultado.

9. Urn fabricante produz peças de peso especificado em 200 grs. Querendo


estirnar 0 verdadeiro peso rnédio nurn grande lote a fornecer ao seu rnaior cliente,
seleccionou 35 peças ao acaso, que depois do pesadas forneceram as seguintes
valores:
2.
xi = 7140 grs (x - = 560 grs

a) Apresente uma estimativa para o peso mOdlo das peças do lote. Justifique
a escolha do estimador.
b) Construa urn intervalo corn um grau de confiança de 95% para o peso
rnédio das peças do lote.

R: a) 204 grs; b) 1202,58; 205,42 [.

10. Se numa operacão STOP na Estrada Nacional EN1, em 600 carros, 114
tinham o sistema electrico corn deficiências graves, construa urn Intervalo de
Confiança para a verdadeira percentagern de carros corn deficiências graves no
sistema elOctrico viajando nessa estrada (faca os pressupostos que julgar neces-
sarios).

R: = ] 0,1586; 0,2214 [.
ESTATIST/CA APL/CADA

11. Na estimaçao da media de uma Populaçao Normal por meio de urn Intervalo
de Confiança a 90%, qual deve ser a dimensâo minima da amostra para que a

amplitude daquele intervalo seja inferior a --, sendo cy conhecido?


R: n = 877.

12. A administraçao do Metropolitan defronta uma situaçäo de irregularidade na


hora de passagem dos cornboios pelas diversas estaçOes. Essa irregularidade
(em segundos) pode ser descrita por uma variávei aleatária normal cuja media
se estima em 5 segundos mas cuja variância se desconhece.
Corn ii = 22 e = 9 entre que valores estima que se situe a variância,
corn nivel de confiança de 0,99?

R: I,99 = J 4,565; 23,5371.

11 No exame de EstatIstica efectuado na 28 Opoca do ano lectivo 94/95, foram


avaliados 31 alunos. Considerando estes alunos corno uma amostra repre-
sentativa da populaçao dos alunos matriculados na cadeira de Estatistica e tendo
em conta que, para essa amostra, se obtiveram Os seguintes resultados:
31 31
XxI=299 (x1—)2 =12o.

Determine urn intervalo de confiança a 90% para a variância dos resultados


ern EstatIstica dos alunos rnatriculados na cadeira. Interprete o resultado.

14. Uma estaçao de radio quer estirnar o tempo rnOdio que uma farnIlia dedica,
por dia, a ouvir essa radio.
Foi recolhida uma amostra aleatoria de 81 farnulias, tendo sido calculados uma
media diana de audiçao de 2,4 horas e urn desvio-padrao de 0,7 horas.
Naquela cidade, quanto tempo dedica, em media, por dia uma famIlia a ouvir
aquela radio?

Responda, fornecendo uma estirnativa pontual e urn intervalo de confiança a


90%. Interprete o significado dos valores encontrados.
Ft 2,4 horas; entre 2,27 h e 2,53 h.
ESTIMA(AODEPARAMETRQS

15. Nurn estudo de mercado, sobre a hipótese de utilizaçao pelas donas de casa
do Distrito de Lisboa, duma nova margarina em campanha de lancamento inqui-
rirarn-5e 600 donas de casa, das quais 100 ainda não tinham experimentado o
produto 200 dizem ter gostado e ft mudar para a nova margarina, 100 dizem ter
gostado, rnas nâo 0 suficiente para mudar e 200 dizem não ter gostado.
a) Construa urn intervalo de contiança a 95% para a percentagern de donas
de casa que vão rnudar o seu consumo para a nova margarina. Comente
o resultado a que chegar.
b) 0 que faria se, corn o mesmo nIvel de confiança, pretendesse reduzir a
amplitude do intervalo?
Capftulo VIII

Ensalo de hipóteses
A necessidade dos ensalos
de hipOteses
Neste capitulo de inferéncia estatIstica, serão apresentados métodos que
possibilitarn validar ou não determinadas afirmaçöes sobre os parâmetros de
uma populacão.
Em várias areas de economia e gestäo é necessário, muitas vezes, decidir
entre opçäes alternativas. A decisão, qualquer que ela seja, comporta urn risco,
o risco de errar. Mas este pode ser controlado e minimizado.
0 contributo dos métodos estatIsticos resta sempre, porém, na area do
auxI!io a decisão, isto é, não deve ser o ünico elemento para a tomada de
decisão. 0 gestor pode (deve) socorrer-se destes métodos, mas conhecendo
as respectivas potencialidades e limites.
Considere-se os seguintes exemplos onde os metodos analisados neste
capItuto podem ser Uteis na tornada de decisöes. Sugere-se que, depois de
famitiarizado corn as ensaios de hipOteses, volte a este parágrafo e procure
tratar estatisticarnente as situaçöes propostas:

1.0 Ministério da Saüde afirrna que, corn os rneios agora postos a dispo-
siçào dos hospitais civis, o nUrnero rnédio de dias de internarnento é, no
máximo, oito.
Quern o afirrnou baseou-se em estudos recentes corn urn conjunto de
225 doentes onde se observou que a nUmero rnédio de dias de interna-
mento tinha sido de nove. Quer comentar?

2. 0 peso das embalagens de 1 Kg de café em grão da marca GAMA tern


vindo a ser contestado por urna associaçâo de consumidores que af Irma
que, embora, em media, essas embalagens pesem 1000 grarnas, a
variabilidade do peso ultrapassa Os lirnites considerados razoáveis1.
Existem, assim, consurnidores rnuito prejudicados. Que procedimento
adoptar para decidir sobre o diferendo entre a ernpresa produtora e a
associaçäo de consumic!ores?

(1) Desvio de 1% no peso.


ESTATISTICA APLICADA

3. Corn o intuito do decidir sobre a compra do tempo de aritena num


programa de televisão de grande audiOncia, certa empresa decidiu reco-
Iher uma amostra do cem pessoas. No inquérito realizado, 75 pessoas
declararam ver o programa assiduarnente, 10 de vez em quando e as
restantes declararam nunca o ver.
Suponha que a empresa sO comprará o referido tempo do antena se for
credivel a hipótese do qua a percentagem de pessoas que ye assidua-
mente o programa for de, pelo rnenos, 80%. Qua] a decisão a tornar?
4. Pretendern comparar-se dois processos do fabrico do mesmo produto.
Adopta-se a seguinte regra de decisao: -uma amostra de 100 unidades
para cada processo, eliminar-se-á aquele quo conduza a uma proporcão
observada de produtos defeituosos superior a do outro, em polo rnenos
2%>>.
Hipóteses e erros

Urn exemplo derivado de uma situação a todos familiar perrnitirá introduzir


alguns conceitos fundamentals1.
Considere-se 0 julgamento de uma pessoa acusada de ter cornetido urn
delito. 0 processo consiste ern apreciar Os elernentos fornecidos pela acusa-
cáo e pela defesa e decidir ern funçáo deles e da lei. Mas, ern princfpio, a pessoa
a inocente; é a acusação que tem de apresentar provas em contráo. Se nao
houver evidência nesse sentido, a pessoa continua a ser considerada näo culpada.
Designe-se a hipOtese em questão (o rOu está inocente) corno hipótese nula
(H0)2. Quer isto dizer que existe uma hipOtese posta em contraposição a esta
(o réu náo está inocente, está culpado), designada por hipOtese alternativa
(H1 ou Ha ).
Se as provas apresentadas pela acusaçáo forem incornpatIveis corn a
manutençáo da hipOtese nula, a decisão é rejeitar H0 e, portanto, aceitar H1 ,
isto é, o réu é culpado. Se tal não acontecer, o juiz absolve o réu, isto é,
considera que não pode rejeitar H03 .
Mas atençào! Associado a qualquer uma destas duas decisöes, existe urn
risco: o de estar a tornar uma decisão errada. De facto, conforme for a
verdadeira situação (ou estado da natureza), isto e, conforme o réu for c/a facto
culpado/inocente, assim a decisão de o absolve r/cdndenar terá sido errada.

(1) Este exemplo clássico vem descrito, por ex., em MOOD, GRAYBILL & BOES , Introduction to the
theory of statistics, Mcarau-H111, 1979, 20 Ed.
(2) Note que o ternio nula está a indicar que näo ha nenhunia diferença entre o que é explicitado na
hipOtese e a situação verdadeira.
(3) Repare que isto não significa aceitar que o rOu seja realmente inocente. Significa tao so que nao
pode rejeitar a hipOtese de que ele o seja. Por isso, e preferIvel dizer <não rejeitar HO', a dizer
"aceitar HO,,.
Atente-se no seguinte quadro, onde se sumarizarn as várias situaçOes:

S/TI/A AO HEAL
DEC/SAO
BASEADA NAS PROVAS H0 E VERDADEIRA H0 E FALSA
(0 réu e de facto inocente) (a rOu é de facto culpado)

Decisão incorrecta:
considerar inocente
NAO REJEITAR H0
Decisao correcta urn reu que é de facto
(réu é inocente)
culpado
Erro tipo II

Dedsão incorrecta:
considerar culpado
REJEITAR H0
urn reu que e de facto Decisão correcta
(réu é culpado)
inocente
Erro tipo I

Sem dUvida que encontrou duas expressöes novas: erro tipo I e erro tipo
II. São exactamente os dois tipos de erro quo podern ser cometidos:
Erro tipo I - ocorre quando se decide rejeitar H0, sendo H0 verdadeira
(rejeitar urna hipOtese verdadeira);
Erro tipo II - ocorre quando se decide não rejeitar H0, sendo H0 falsa (não
rejeitar uma hipOtese quando tal deveria ser feito, ja que é
fat sa).

Concluindo o exemplo do juIgariento, pode então verificar-se que qualquer


decisão tomada pode ser acertada Cu errada.
Mas não é por isto quo os tribunals devern ser abolidos! 0 quo dove haver
é a preocupação do recother a informaçao mais pertinente e correcta de modo
a minirnizar o risco, isto é, a probabilidade de errar.
No domInio estatistico, as hipóteses formuladas são confrontadas corn a
evidência proveniente de dados recoihidos em amostras aleatOrias. 0 processo
do decisão, consciente dos erros quo podem ser cometidos, permite ava!iá-los
e, de certo rnodo, minimizá-Ios.
E esse processo do decisão não é mais do quo uma regra de procedimento
que, face aosvãrios valores possiveis de obter para uma estimativa calculada
a partir de uma amostra ateatOria, indica so a hipOtese nula dove ser rejeitada
ou não rejeitada.
Como fazer urn ensalo
de hipóteses

A realizacãO de urn born ensaio de htpOteses parte de urna correcta formu-


Iação das hipOteses, a qual se obtOrn pela anãlise do problema proposto, a
major parte das vezes através de elernentos fläO estatIsticos. De facto, é na
natureza da questão que se deve encontrar o modo de formular as hipOteses.
A recoiha dos dados da arnostra aleatOria e determinante: são os erros de
amostragern que jmpedern que a arnostra represente correctamente a popula-
cáo. Mas a forrnulação das hipOteses deve ser anterior a recoiha da amostra,
para que o procedimento não seja enviesado..
E a informação da arnostra que vaj ser confrontada corn os critérios entre-
tanto estabelecidos para decidir da rejeição ou não da hipOtese nula.
Urn born ensajo Ievará a urna boa decisão, ao mesmo tempo que perrnitirá
avaliar Os riscos envolvjdos.
Para ilustrar a rnetodologia, utjlizar-se-á o exemplo que se segue.

Exemplo 1

A empresa NOVOPAC, na apresentação da sua nova máquina para empaco-


tamento automático de bolachas, divulgou que garañtia o empacotarnento de urna
media de 60 pacotes por minuto, corn urn desvio-padräo de 3 pacotes. 0 nUrnero
de pacotes embalados por minuto segue uma distribuição aproxjrnadarnente nor-
mal.
A fAbrjca de bolachas BEMBOM pôs a rnáquina a experléncia nas suas
instalaçOes e, registando o nUrnero de pacotes embalados ern 25 periodos de urn
minuto, constatou urna media de 58 pacotes embalados.
0 cornprador potencial diz que a máquina não garante atingir a media prome-
tida de 60 pacotes por minuto. Por seu lado, o vendedor garante que a diferença
encontrada se deve apenas ao acaso e que de modo nenhurn poe em causa a
rnédia publicitada.
I
ES TA TIS TI CA

De facto, quando o resultado da amostra está relativamente perto do valor


posto como hipOtese para a populaçào (neste caso: que a media e igual a 60),
torna-se mais fácil não rejeitar a hipOtese de partida (e é nesse raciocInio que
se baseia o vendedor para a sua defesa). A medida que a media amostral se
afasta da media presumivel para a populaçäo, baixa a credibilidade da hipOtese
em jogo. Se, por exempto, a media amostrat fosse 40 pacotes por minuto, era
muito mais claro que se deveria rejeitar a hipOtese de a media ser 60.
o problema ë que a nova máquina a comprar pela empresa BEMBOM é
cara e o comprador receia cometer um erro se não rejeitar a máquina. Por
isso, ha todo o interesse em verificar se a diferença encontrada (de 58 para
60) é mesmo devido ao acaso, isto é, se nâo ha evidéncia estatIstica para
rejeitar a hipOtese de que a media seja 60.
o ensaio de hipOteses que será feito, e que ao mesmo tempo permitirá ir
apresentando a sequOncia metodolOgica proposta para este tipo de problema,
permitirá identificar as situaçOes de erro, e controlá-Ias, mesmo que os riscos
não sejam etiminados.

12 PASSO - Formula çäo das hipóteses.

A hipOtese em jogo 6 de que "não ha diferença entre a media de


empacotamento da máquina cotocada na empresa BEMBOM e a media divul-
gada pela NOVOPAC', isto é,
H0 : = 60
onde .t indica a media da população: nümero de pacotes embatados por minuto
pela máquina colocada a experiéncia.
A metodotogia procurará vatidar H0. Se a evidência da amostra fornecer
uma informaçäo (media amostrat) sign ificativamente diferente de 60, entäo
rejeita-se H0. Se tat não acontecer, considera-se que näo ha diferença e näo
se pode rejeitar H0. Note-se que H0 consubstancia a posiçäo do vendedor.
A hipótese alternativa, Ha, consistirá em afirmar aquito que se quer aceitar,
no caso de se rejeitar H0 :
<há diferença entre ...'>, o que levaria a formular Ha, como,
Ha : ji # 60
ou, e esta é a opção correcta, pois incorpora a situação real em que a problema
foi configurado, reflectindo a posiçao do comprador,
Ha : V < 60
ENSAIO DE H!POTESES

Repare-Se que a situaçãO de status quo, de näo diferença, surge na hipO-


tese nula. Ver-se-á que é urn procedimento standard a colocar em H0 a
-

sjtuacáo de igualdade —, que permite identificar claramente quals os valores


da estatistica que levam a rejeitar ou nan a hipOtese nula. Permite ainda
calcular a probabilidade do erro tipo I, isto é, "medir" o risco de se cometerem
erros tipo I que se está disposto a aceitar.
0 ensaio virá, pois,

H0 : p. = 60

Ha : p. <60

Se, no teste, nao for possIvel provar que p. = 60, e, portanto, H0 for
rejeitada, entäo a verdadeira media poderá ser 58, 57, 54, etc.
Nesse caso, a media arnostral de 58 será a melhor estimativa possIvel,
condicionada ao erro que se poderá ter cometido (tipo I).
Recorde-se que, se H0 nâo for rejeitada, isso näo quer dizer que H0 seja
verdadeira. 0 máximo que se pode afirmar e que é provaveirnente verdadeira,
embora haja também a consciência de que se poderá ter cometido um erro
(tipo II).

22 PASSO - Fixação do nIvel de signif/câ nc/a

0 ensaio ern causa O, recorde-se,


H0 : p. = 60

Ha : p. < 60

Este teste designa-se por teste unilateral, pois aquestäo é pasta em termos
de direcção de alteração face ao valor da hipótese nula (enericamente: ha
Ha, figuram desigualdades do tipo <, >; na H0 , pode estar =, ~! ou
Apresentar-se-ão adiante as testes bilaterais, em que a acento é pasta na
alteração face a um valor colocado na hipOtese nula (genericamente:
H0 : 0 = K, contra Ha : 0 # K).
As hipOteses que restringem a parâmetro a um valor (do tipo p. = 60),
designarn-se hipóteses simples; hipOteses compostas surgern quando a parâ-
rnetro pode assurnir vários valores (do tipo p. < 60).
ESTATISTICA APLICADA

Voltando ao teste. Para se êstabelecer uma regra de decisão, é necessário


estabelecer previamente o nIvel de signiflcáncia do taste. Mas b. que significa
esta expressao?

Diàgramaticarnente:
A distribuição da media amostral é, no présente problema, normal com valor
esperado igual ao da populaçào. Então, é possivel representar o problema
como

=60 X

Rejeitar 1-1 Não rejeitar !1

Sabe-se que, se a media amostral for inferior a 60, a decisâo encaminha-se


no sentido de rejeitar H0 quanto maior for essa diferença, isto e, quanto mais
significativa for a diferença entre o valor posto como hipotese para a media da
população a o valor obtido na amostra (a media amostral), tanto mais o decisor
e levado a pensar qua a população que gerou aquela amostra nao e a que
figura em H0 e, consequentemente, decide rejeitar H0.
0 ponto de separação (ponto crItico, XC ) entre uma diferença significativ
a uma diferença não sign it/ca tiva depende do risco de corneter urn erro tipo I
qua o decisor está disposto a corPr, isto e, do risco de decidir rejeitar H0 ,
quando H0 é verdadaira. Fixar esse risco em, por exemplo, 5%, significa qua
e da 0,05 a probabilidade admitida para que a decisão de rejeitar H0 tenha
sido errada, ou saja, de qua a amostra - que dau origern a urn valor a
esquerda (no exemplo) do ponto crItico - não tenha sido gerada por uma
população do tipo da definida am H0, quando realmenta o fol (H0 verdadeira).
Para a esquerda do ponto critico, a diferença entre o valor da media
amostral e o valor da media da população (60) e significativamente grande
para permitir concluir que a população qua gerou a amostra não tam media
igual a 60.

362
ENSAIO

No entantO pode-se estar a errar, a amostra pode provir de facto da


populacãO da hipOteSe nula, mas o valor para a probabilidade de erro tipo I
que se está a admitir é 0,05.
Urn teste nestas condiçöes diz-se corn urn nIvel de significâricia de 5%,
correntemente designado pela letra a.
Constata-Se que a coincide corn a probabilidade de erro tipo I, quando este

e calculado para o valor de igualdade da hipótese nula.


Verifica-Se no diagrarna anterior que,

P1 erro tipo I] = P [ rejeitar H0 I H0 é verdadeira

= P [ X :~ I = 60

f() dx = 0, 05.
=

32 PASSO -
Escolha da estatIstica a usar e estabelecirnento
da regra de dec/são

E fundamental ter urna regra que permita considerar que, de facto, a


máquina a experiência não curnpre os parârnetros que o vendedor afirma ou
então que, de facto, nada permite dizer que a rnáquina não esteja perfeitarnen-
te em ordern.
Essa regra consiste ern definir a acção a tornar face ao resultado da
arnostra. E, pois, no espaço amostral que se ira trabalhar, definindo duas
regiOes complementares:
- Região crItica ou de rejeiçào (RC)
- Regiào de näo rejeição ou de aceitação (RA).

Para tal, considere-se a distribuição amostral da estatistica a usar, na


condiçao da hipOtese nula ser verdadeira (recorde-se que H0 é verdadeira ate
prova em contrário).
Neste caso, a estatIstica a usar e X (estimador de i, parâmetro sobre o
qual se está a fazer inferéncia) e a sua distribuiçào amostral é

n[
*}
ES TA TISTI CA APLICADA

No problema anterior, e fixando o nIvel de significância em 5%, corno a


distribuiçao amostral de X para o valor de H0 , = 60, é

representarn-se as regiöes de decisão como se segue:

Com ikc = p7x - 1,6456 cj = 59,01

RC = {X: X :~ k} = }-, x] = I — cc, 59,01]

e
RA = {X: X> } = IXC, +oo[ = ]59,01, +oc[

De facto, verifica-se:

P[X < X'C] = 0,05

donde

P( XC - 60
0,6 J=005

corn

fl n(0; 1).
DE

0,05, por consuita da tabela da normal estan-


Ora, P [ Z C 1,645]
- =

dardizada e, por isso,

- 60 1,645 0,6 = 59,01


- —1,645 = 60 -

0,6
virá, pois, em funçào do valor da media amostral:
A regra do decisãO

1) Se !~ 59,01 pacotes, rejeitar


H0 ( a maquina não cumpre a especifica-

ção).

> 59,01 pacotes, não rejeitar


H0 (a máquina, presurnivelmente
2) Se
cumpre corn a especificacão).

Urn método equivalente consiste em exprimir a regra de decisão em funçào


X —Ro
davariavel Z n(0;1).

1) Se Z :~ —1,645, rejeitar H0

2) Se Z> —1,645, não rejeitar H0

-1,645 0

HA 31

42 PASSO - Tomada do decisão

Este é ü rnomento de recolher o valor fornecido peia arnostra e confrontá-lo


corn a regra de decisão: obteve-se 5- = 58 e, face a
regra enunciada,
59,01."QUer isto dizer que ha evidOncia estatistica que
€ RC, pois, 58 <
ES TA TIS TI CA APLICADA

permite rejeitar H0: a diferença entre o valor encontrado para a media amostral
(58) e p (60) é suficientemente grande para, face ao nivel de significância
pr6-estabelecido1 , concluir que a população de onde proveio a arnostra (isto
é, os pacotes embalados por minuto na máquina a experiencia), não é a
mesma na qual se baseia a publicidade do vendedor, isto e, i-is nao e verda-
deira.
o comprador poderá reavaliar a questào, sabendo, corn este ensaio, que
a mãquina não garante uma media de 60 pacotes por minuto. Sabe que é de
apenas 0,05 a probabilidade de estar a tomar urna decisâo errada.
A decisáo corn base no critério em termos da variável Z l eva obviarnente
A rnesma conclusão:
0 valor da amostra = 58 equivate a

58 —60
3,33
0,6
que, cornparando corn o valor crItico - 1,645, permite concluir que
- 3,33 € RC: a decisão é rejeitar H0.

(1)
E tambem determinants a magnitude do desvio-padrão. Ensaie outros valores para a veja como
pods concluir a contrario.
r

ErroS nos ensaios


de hipóteses

Ate agora, viu-se como urn ensaio de hipóteses dá a possibilidade de tornar


uma decisãO àcerca de urn problema, para o qual se dispöe da necessária
informacào.
Já fol introduzida, corn a questão do nivel de significãncia (a), a ideia de
que, associada a decisão, está a possibilidade de errar.
Veja-se agora, mais em detaihe, Os riscos de tornar decisOes incorrectas,
pois é irnportante saber que se podern cometer, corno medi-los e como podem
ser minimizados.

Urna pizzaria recebe diariamente encornendas por telefone, que se tern corn-
portado segundo uma lei normal. A empresa está dimensionada para uma procura
media diana que nao ultrapasse as 200 pizzas, admitindo urn desvio-padrao de
15.
Uma campanha promocional realizada nos Ultimos 9 dias Ievou a uma procura
media de 210 pizzas. 0 problerna consiste em avaliar a necessidade de reforçar
a capacidade media do venda, estudando so houve de facto uma alteraçào
significativa na procura diana de pizzas.

Proceder-se-á ao ensaio de hipóteses, seguindo a metodologia proposta ante-


niormente.
Defina-se a variavel X— procura diana S pizzas, que se sabe ter 0 seguinte
cornportarnento estatIstico:
X n nQi; iY

Entao:
12 PASSO - Estabelecimento das hipóteses

H0: R 200
Ha : ji > 200.
Neste teste ( de hipOtese nula composta contra hipótese alternativa compos-
ta), está em causa se a procura media diana de pizzas continua inferior ou igual
a 200 unidades.

22 PASSO - Fixação do nIvel de significancia

Considere a = 0,05.

3 PASSO - Esco/ha da estatistica a ussr e estabelecimento da regra de


decisäo

EstatIstica:
Xi
n(0,1).
Cy

Corn o nivel de significáncia de 0,05 e, de acordo corn a formulação das


hipOteses, rejeitando H0 para valores superiores a 200, pode-se estabelecer a
seguinte região cnitica unilateral (direita):

0 1,645 z= X- .t
a / 'Th

RC = [1,645; +oo[

RA = ]— oo; 1,645[

ou, em termos da vaniável X n (p = 200, (T - = 5 )'

- 200
1,645 =

donde

Rc = 200 + 1,645 5 = 208,225.


ENSAIO DE I-IIPóTESES

200 208,225

RC = [208,225;+co{
RA = 1-°°; 208,225[.

Se o valor de X da amostra pertencer a BA, não se rejeita H0; se pertencer


a RC rejeita-se H0.

42 PI4SSO - Tomada de dec/são


Como o valor recoihido na amostra para a procura media diana de pizzas é
210-200 = 2 e estes
x = 210 ou, na escala da vanavel estandandizada, z
=5
valores pertencem a regiâo cnitica, decide-se rejeitar H0, isto e rejeitar a hipotese
de que a procura media diana continue a ser inferior a 200.

o ensaio indica que a campanha de promoçâo induziu a uma alteraçäo na


procura de pizzas, pelo que ha que estudar o reforço da capacidade de venda.
M

4.1. Análise de erros

A pizzania do exemplo anterior estava dirnensionada para urna procura


media maxima de 200 pizzas por dia, corn urn desvio-padrão de 15. A campa-
nha promocional levou a urna procura media de 210. 0 teste efectuado conduz
a rejeição de H0, pelo que se pode concluir que a procura media aumentou.
Neste caso concreto, pode-se estar a corneter urn erro - o erro tipo I.
Caso a decisão tivesse sido no sentido de nào rejeitar H0 , poderia ocorrer
o erro tipo H.
ESTATISTICA APLICADA

Esta situação genérica pode ser resumida no quadro seguinte

SITUAQAO REAL
I
DEGISAO H0EVERDADEIRA
H0 E FALSA
BASEADA NA AMOSTF?A (a procura media
(a procura media aumentou)
nao aumentou)

NAO REJEITAR H0 Decisâo correcta. Decisão incorrecta: nao rejeitar


(o teste evidencia quo não ha Probabilidade e no minirno a manutenção do nivel
diferença significativa no nivel 1 - a.. da procura, quando de facto
da procura). ole aumentou.
Erm tipo II. Probabilidade 6 P.

REJEITAR H0 Decisão incorrecta: rejeitar Decisão correcta


(0 teste evidencia a manutenção do nivel Probabilidade 6 1 —3.
que ha diferença significativa da procura, quando do facto
no nivel da procura). ole não aumentou.
Erro tipo I.
Probabilidade 6 no máximo (x.

4.11. 0 erro tipo I

Analise-se o erro tipo I aquele que ocorre quando se rejeita indevida-


-

mente H0 sob dais aspectos particulares:


-

a)-Probabilidade do erro tipo I e nIvel de significancia (a)

Sabe-se que:
P [ erro tipo I] = P [ rejeitar H0 I 1-10 é verdadeira].

No exemplo anterior:
P[erro tipo I] = P[X > 208,2251R !~ 200].

Calcule-se a probabilidade do erro tipo I para diversos valores compatIveis


corn H0, isto é, para as valores de s que fazem H0 verdadeira:

• = 200

P [ X > 208,225l 200] 4X - 200 208,225 - 200


]
= =

= P[Z> 1,645] = 0,05


que 6 exactarnente o valor de a.
= 199

1
208225 - 199 I
---
208,225lk = 199] = P[Z>
p[X> 5

= P[Z > 1,8451 = 0,03255.

• = 195

P{ Z> 2,6451 = 0,00405.


p[X> 208,225 IL = 1951 =
cx.
Facilmente se verificaria, então, que P [ erro tipo I]

Graficarneilte, pode-se ilustrar Os váriOs valores para a probabilidade de


para o exemplo anterior:
cometer urn erro tipo I,

Valor critico = 208,225

0,05 = a
Nd

200

0,03255
Nl

199

0,00405

195

_J, Re9iãC critica cu de rejeiçãO


de H0
RegiãO de aceitacâO
de H.
ES TA T1STICA APLICADA

b) Custos do erro tipo I

A fixação do nivel de significancia ((x) e, por conseguinte, do valor máximo


que se admite para o erro tipo I pode ser analisada em termos dos custos
incorridos ao poder tomar a decisão errada associada a este tipo de erro.
No exemplo da pizzaria, está-se disposto a aceitar que, mesmo que real-
mente a procura media não tenha aumentado, se possa concluir o contrário
corn uma probabilidade de 0,05. Isto significa que é possIvel, por exemplo,
investir numa nova máquina para satisfazer o aurnento da procura, quando
realmente ela não se justificaria, ja que a verdade e que a procura não
aurnentoU.
Mas ha a possibilidade de se ser rnais exigente no critOrio de decisão e de
se procurar reduzir a probabilidade de cometer um erro deste género. Para tal,
o decisor pode fixar o nIvel de significäncia a um nIvel mais baixo, reduzindo
assirn a probabilidade do erro tipo I.
A alteração de a pode levar a tomar outras decisöes, corn a rnesma
evidência da realidade, corn a mesma amostra.
Tipicamente, os valores usados para a são 0,10, 0,05, 0,01 e rnesmo
inferiores. Utilizando, por exemplo, o valor de a= 0,01 no caso da pizzaria,
a situação O a seguinte:
a = 0,01
= X —p. :
Valor crftico para Z z0 = 2,326
G

RC = [2,326; + 00 [ e RA = ] — oc; 2,326[

Valor do teste z = 2

Decisão: z E RA , pelo que não se rejeita H0

911
Valor crItico para X: 5 = 200 + 2,326 . 5 211,63

RC = [211,63; +co[ e RA = ]— oo; 211,63[

Valor do teste: = 210


Decisão: 3? e RA , pelo que não se rejeita H0.
Pode ainda determinar-Se qual a probabilidade de erro tipo 1 a partir da qual
a deCiS0 se altera, corn a amostra recolhida
= 210, ao que corresponde z = 2

p(Z> 2) = 0,0228.

Entâo, para. a < 0,0228, a decisão passa de arejeitar H0'>, para <mao

rejeitar H0".

Graficamente, a situacàO em anáFse O a seguinte:


mostra x = 210

,Ve RC

e RC, rnas+5e R,4


corn 8>0

YE RA

4.1.2. 0 erro tipo II

p, e
Considere-se agora o erro tipo 14 cuja probabilidade se representa por
que, tal como ilustrado no quadro anterior, se obtem fazendo

p = P [ nao rejeitar H0 I H0 6 falsa]


ES TA TISTICA APLICADA

a) C41culo da probabilidade do erro tipo /1

E Obvio que, no caso da pizzaria que foi apresentado, corn urn a = 0,05,
come a decisào foi ('rejeitar H0'>, nunca se incorreria nurn erro tipo II. Este so
ocorre quando se decide "nao rejeitar H0". Para usar ainda o caso em estudo,
considere-se um valor diferente para a, por exemplo, a = 0,01, que leva a
decisâo de "nâo rejeitar H0".

a = 0,01

= 211,63 e RC = [211,63; +oo[

= 210 pelo que i e RA, decidindo-se "não rejeitar H0", isto é, näo
rejeitar que i !~ 200.

- p,=200 x=210 X=211,63

Então, tendo decidido não rejeitar I-ta, poder-se-a estar a corneter urn erro
(erro tipo II), na eventualidade de H0 ser falsa.

Para cada valor de it a que corresponde a verdadeira media (ji > 200)
pode determinar-se o respectivo vaibr da probabilidade do erro tipo II, 3.

Suponha-se que se aceitou que a procura media não aurnentou, quando


realmente ela passou para 220. A probabilidade de erro tipo he a probabilidade
de não se ter detectado este novo valor para a procura media diana de pizzas,
isto 6, de nao ter rejeitado H0 (manutençâo da procura) quando na realidade
tal deveria ter sido feito.
HIPOTESES

o valor de (3 será calculado da seguinte forma:

I = 220

13(P-a = 220) = P[não rejeitar HO I P-a = 220 =

= P[X -c 211,63 1 I-La = 220] =

[P-a 211,63-220 -
5 -
=H7 -H <

= P[Z c —1,674] = 0,0471.

Identicamente, se obteriam outros valores para (3(P-a):

P-a = 205

= 205) = P[X< 211,63 1 P-a = 205 =

211,63 - 205 ] =
= 5
P[z <

= P[Z < 1,326] = 0,90756.

'P-a = 210,

(3[P-a = 210] = P [ X < 211,63 1 P-a = 210] =

= P[Z < 0,326] = 0,62778.

P-a = 215

P(P-a = 215) = P[X < 211,63 'P-a = 215 =

= P[Z c —0,674] = 0,250216.


Pode-se ilustrar graficamente as situaçbes anteriores

V
HIPóTESES

medida que o verdadeiro valor de i. se afasta de


o valor de p diminui a
PO = 200 comO se ilustra na figura anterior.

Na realidade, a medida que }1a se afasta de Jo, torna-se mais difIcfl errar,
ou seja, O menos provãvel que não se detecte o novo valor da procura media.
Se a verdadeira media for 205, é mais fácil confundir uma arnostra retirada
dessa populacâo corn uma arnostra retirada da população corn lto = 200 (e,
por isso, dizer que eta é do grupo da H0 , isto é, não rejeitar H0), do que se a
verdadeira media for 220.

b) Custos do erro tipo 1/

uma decisão errada pode custar caro ao decisorl 0 facto de não ter
rejeitado indevidarnente a rnanutenção da procura media diana em nIveis que
não ultrapassarn as 200 pizzas, e, portanto, não ter detectado que a campanha
profllocional gerou uma procura superior, não aumentando a capacidade de
vendas, pode fazer corn que haja clientes que se sintarn insatisfeitos e optern
por ir a outra pizzania.

4.1.3. Min!mização dos erros

Quando se constrOi urn teste, e desejavel que, tanto a corno 3, sejarn os


menores possIveis, pois isso significa diminuir as probabihidades de errar. Mas,
para uma dada dirnensão da arnostra, não é possivel diminuir sirnultanearnente
os dois valores:
- para urn dado a, o valor de [3 (para urn certo valor de Ha ) e deterrninado
pela RA correspondente; se a diminuir, dirninui a RC e, como tal, au-
rnenta o valor de [3;
- se o decisor quiser reduzir o risco do erro tipo II ([3), terá de diminuir a
RA, aurnentando o nIvel de significancia e, portanto, a probabihidade do
erro tipo I.

Actuar sirnultaneamente sobre Os dois erros, dirninuindo a sua probabili-


dade, pode sen feito aurnentando a dimensão da arnostra, isto é, recolhendo
mais inforrnaçäo, o que tern, normairnente, custos associados. Assirn, deverá
ser feito o balanço entre estes custos adicionais e as probabihidades de erro.
ES TA TISTIGA APLJCADA

De facto, o aumerito da dirnensão da amostra provoca uma dimiriuiçao na


variância da distribuiçao do estirnador, corn correspondentes efeitos nas pro-
babilidades dos erros.

Durante vários anos, uma determinada tarefa no processo de fabrico de urn


produto foi executada pelo Sr. Silva, que a levava a efeito num tempo rnëdio de
35 minutos.
o Sr. Silva abandonou a empresa, e foi substituido por urn novo operário,
jovem Alberto que, apesar de nao ter nenhuma experléncia, frequentou urn curso
de formaçao profissional que o pode tomar mais eficiente.
Admita-seque o tempo de execuçao da tarefa pelo nova operario segue uma
distribuição aproximadamente normal, com desvio-padrao de 4 minutos.
a) Se, nas Ultimas 25 observaçoes, 0 Alberto demorou, em media, 34 minutos,
como classificaria a performance do jovem operário?

Designe-se por X o tempo de execução da tarefa pelo Alberto, em minutos.


Sabe-se que X fl nQi; = 4).

Como nâo se sabe se o Alberto vai demorar, em media, rnais ou menos que
as 35 minutos padrão (do Sr. Silva), devem-se formular as hipóteses da seguinte
forma:

H0: g = 35
Ha : ji * 35.

0 que está em jogo é saber se o Alberto tern a mesrna performance do Sr.


Silva (H0) ou nâo (Ha ); e, neste caso, pode ser pior ou meihor.

Admita-se um nivel de significancia para o teste de a = 0,05.


A estatistica a usar de acordo corn a população X e
X —zo
n (0, 1).

Para se estabelecer a regiao crItica, note-se que a rejeição de H0 se faz para


valores diferentes de 35; está-se assim perante uma região critica bilateral.

Nestes casos, o nfvel de significancia, a, é igualmente dividido pelas duas


abas da distribuiçao do teste, coma se ilustra na figura seguinte.
ENSAIO DE HIPOTESES

-1960 0 1,960 z- x--


- G/lfl

- 0,05
P [ Z > 1,9601 = P [ Z < —1,960] - 2

Então:

PC = ] — oo; —1,960] U [1,960; +oo[

HA = 1-1,960; + 1,960 11.

Em termos da variavel X, viria, para a distribuição da hipótese nuta,

= 35 - 1,96 - = 33,432

= 35 + 1,96 -- = 36,568

= 33,432 35 2c2 = 36,568 Y

onde
RC = ]—oo; 33,432] u [36,568; +c[

e
RA = 133,432; 36,568 [.

Comparando a informação da amostra corn as regiöes critica e de aceitaçâo,


existem condiçöes para tomar uma decisão:

=34,peIoqUeXE RA
ou
34 - 35 1,25, peloque z E PA.
Z= = —
APLICADA

Dec/são;

Näo se rejeita H0, isto é, aceita-se a hipOtese de que o jovemAIberto tern a


rnesrna performance que 0 Sr. Silva, demorando em media, 35 minutos a executar
a tarefa, tat corno 0 vetho trabalhador. 0 valor 34 obtido nas 25 observaçOes nao
é suficienternente inferior a 35 para possibititar a rejeiçao de H0.

b) Ao decidir não rejeitar H0 , existe a consciència de se poder estar a corneter


urn erro. Qual a respectiva probabitidade, se for verdade que o Alberto
dernora sO 34 minutos em media? E se, pelo contrário, for verdade que ele
demora mais, que dernora 39 minutos?

Trata-se de calcular P [Anao rejeitar H0 I H0 O fatsa] isto 0, catcutar a proba-


bi-tidade do erro t/po II, J3,para as mOdias atternativas 34 e 39.

[3 (Isa = 34) = P[nao rejeitar H0! 11a = 34 =

= P[33,432 c k< 36'5681Ia = 34] =


= P[—O,71 cz Z c 3,211 =

= 0,9993 - (1 - 0,7611) = 0,7604


e

13(P.a = 39) = P[nao rejeitar H0 I Ra = 39] =

= P[33,432 c X < 36,56811.ta = 39] =

= P[-6,96 < Zc —3,04] =

= (1 - 0,9988) - (1 - 1) = 0,0012.

E evidente que, se a sua verdadeira performance media for de 39 minutos, 0


pouco provávet que o Alberto "gere" urna amostra corn media 34 minutos; essa
probabitidade 0 de 0,0012 que é, entäo, a probabilidade de não rejeitar indevida-
rnente .t = 35 como sendo a sua performance media.
Já no caso de o Alberto ter urna performance media de 34 minutos, o risco
de nào o detectar e, pelo contrário, decidir que ele tern urn tempo rnedio de
execuçâo de 35 minuto, 6 major, 6 da ordem de 0,76.
ENSA!O DE

GrafiCamente as duas situaçOes podem ser representadas da seguinte forma:

c) Para correr menos riscos na valorizaçãO do Alberto, o seu chefe resolveu


registar os tempos de execução em 100 observacöeS. Verificou que o
tempo médio continuava a ser de 34 minutos. Será que os riscos diminul-
ram?
Corn esta dimensão da amostra, O necessário rever as regiOes crIticas e de
aceitação, expressas em termos da variavel X. 0 problema virá:
4
= 35 - 196 = 34,216
10

= 35 + 1,96 - = 35,784
10

RA = 134,216, 35,784[.

o valor da amostra x = 34 pertence agora a regiao de rejeição, pelo que a


decisao ë rejeitar H0, isto O, rejeitar que o tempo médio seja de 35 minutos,
devendo ser diferente, provavelmente menor.

0 risco de estar a errar é dado por

P [ rejeitar H0 11-10 é verdadeira] =

= P [ X < 34,216 ou X> 35,784I g = 35] =

= P[Xc 34,216l' = 35] + P [ X > 35,784l g = 35 =

34,216 - 35 1 35,784 - 35
=[zc
/io 1 /io 1=

= P[Zc-1,96] + P[Z> 1,96] = 0,05.

No caso de H0 simples, O Obvio que a P [erro tipo I] é o nIvel de significância


a considerado.
Considere uma amostra de dimensao intermOdia, n = 49, que nao leva a uma
alteraçao de decisâo.
De facto, comn = 49
ENSAIO DE t-IIP6TESES

4
= 35 - 1,96 . = 33,88

4
= 35 + 1,96 = 36,12

RA = ] 33,88; 36,12 [.
RA, pelo que a decisão corttinuaria a ser, tat corno
e 0 valor x = 34 pertence a
na primeira análise, a de nao rejeitar a hipOtese de que o jovern Alberto tern a
rnesrna performance do Sr. Silva.
Comparem-Se agora Os vatores de [3QIa = 34) 0 3 (Fta = 39) 1

Facitmente se calcula que, para n = 49,

= P[33,88 < 3?< 36,121ji = 34 =

= P[0,21 c Z< 3,711

1 - (1 - 0,5832) = 0,5832

e
[3 (39) = P[33,88 C < 36,121 R = 39 =

= 9-8,96 C Z C —5,04]

= 0.
o que evidencia urna diminuiçãO dos riscos incorridos pelo chefe do Sr. Alberto
ao atribuir-Ihe a mesma valorizacão quo o Sr. Silva.
a

4.2. Fun çäo potência do ensalo

Retome-se a exemplo 2 - a ensalo para a procura media diana de pizzas,


corn urn nIvet de significância de 1%. Esse ensalo tinha conduzido a não
rejeiçào de H0 : :~ 200.
Calculou-se o valor do [3 para quatro casos, tendo-se obtido os seguintes
resultados:

1 Recorde-se que, corn vi = 25, I() = 0,7604 e P (39) = 0,0012.


ES TA TISTICA APL(CADA

Verdade Ira
media (ji) 0 U.')
205 0,90756
210 0,62778
215 0,25022
220 0,04710

Pode agora fazer-se urn gráfico correspondente as difererites situaçöes e


cornpletar a curva que se obtérn

Verdadeira media corn a campanha promocionai

Pode ver-se que


urn i (Ja) = 0,99
PR 4 200

sendo 0,99 = 1 - a.

Ao caicular-se a probabilidade do complementar de f3


P [rejeitar H0 I H0 falsa]
obtém-se a probabilidade de tomar uma decisão correcta e assim e possivel
medir a capacidade do teste (ensaio) para decidir acertadamente.
ENSAJO

No exemplo em causa, viria

Verdadeira
P 40 0')
media (g)

205 0,90756 0,09244


210 0,62778 0,37222
215 0,25022 0,74978
220 0,04710 0,95290

Inversarnente ao observado para j3, quanto mais perto do valor de Lo estiver

0 valorde P-a em estudo corno verdadeira media, menos potente é o teste, menos
capacidade tern para distinguir Os verdadeiros valores dos falsos. Quanto mais
afastados estiverem Os valores, mais capaz e o teste de tomar decisOes correctas.

Graficamente, obtérn-se a seguinte representação onde se ilustram, em


particular, para = 210, Os valores da potência do ensaio (it) e da probabili-
dade de erro tipo II().

It 0')
- 1
-C
C
oc

0,8

co 0,7

0,6

0,5

E52
.0
0,4

2ti 0,3
'- Ct
-. 0,2

0,1

0
200 205 210 215 220 11

Verdadeira media corn a campanha promocional

it (210) = 1 - J3 (210) = 1 - 0,62778 = 0,37222

Também se pode verificar que lim It (P -a) = 0,01 sendo 0,01 = a.


- 200
A inclusão do valor de a justifica uma definiçao de funçao potOncia com(
a probabilidade de rejeitar H0 para todos os valores possIveis do parâmetro
ser testado. Corresponde a uma decisão correcta, no caso de H0 ser falsa E
a uma incorrecta quando H0 é verdadeira. Será entäo:

Pretende-se agora, para 0 exemplo do ensaio relativo a máquina de empaco-


tamento (corn a = 0,05),
H0 : R = 60
Ha : R c 60

definir a funçâo poténcia adequada.'

Rode verificar-se que, por exemplo,

Verdadeira
nediaQx)

59,5 0,7939 0,2061


59 0,4933 0,5067
58 0,0462 0,9538
57 0,0004 0,9996
ENSAIO DE HIPOTESES

logo, a representaçäo grafica da funçäo poténcia virá:

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0
57 58 59 60 Il

Exemplo 5

Recorde-se a exempla 3, relativo ao tempo media de execuçäo de determi


nada tarefa par dais trabalhadores, na fabticaçao de urn produto, sendo as
hipóteses a testar:
H0: g = 35
Ha : is35 coma=0,05.

Pretende-se, agora, definir a respectiva funçao poténcia:

Verdadeira
media (ii)

33 0,0618 0,9382
34 0,5832 0,4168
36 0,5832 0,4168
37 0,0618 0,9382
39 =0 =1
0,8
0,7
0,6
0.5
0,4

0,2

32 33 34 36 35 37 38 39

Da cornparação dos dois ültimos exemplos, coristata-se que o tipo de


hipótese alternativa (>, c ou #) condiciona a forma da função potOncia.
o gráfico seguinte evidencia que, para valores de p. > p.0 , a RCUD (região
critica unilateral direita) conduz a urn teste mais potente. Para valores de
p. < Pm a RCUE (região crItica unilateral esquerda) tern idOnticas vantagens.

Tal confirrna o interesseern usar estas regiöes crIticas quando Ra > p.o e
< go, respectivarnente1. Quando não existe evidOncia acerca do valor
alternativo de p., usando portanto Ra # p.s, dave utilizar-se urna ROB região
critica bilateral, ja que esta distribui igua!rnente a potOncia do ensaio para
valores de p. > Ro e de p. cc p.0 2

(1) Estes resultados são demonstrados no Lema de Neymari-Pearson.


(2) a nota anterior.

RI:!:
Escoiha da estatIstica
deqL1ada ao ensaio

5.1 In trodução

Nos pontos anteriores foi apresentada a metodologia sugerida para resolver


qualquer probtema de ensaiO de hipOteses sobre parârnetrOs de uma popula-
cáo. Os exemplos trabaihadas, se bern que não esgotem as alternativas,
contêrn o essencial e validarn a metodologia apresentada.
Propöe-se, agora, a apresentacáO das situaçöes mais habituais e a aptica-
ção da metodologia referida. Conforme a tipo de população, o conhecirnento
da respective variância e a dimensão da amostra, assirn sera utilizada a
estatistica adequada e a correspondente distribuição arnostral. A tabeta apre-
sentada no firn deste capitulo condensa as etementos chave desta anátise.
Começa-se corn ensalos relativos a uma arnostra: pretende-se comparar a
estimativa nela obtida para a estatistica corn 0 valor do pararnetro indicado na
hipOtese nula.
Num segundo momenta, tratar-se-ãO os ensalas retativos a duas amostras.
ESTAT1STICA APLICADA

5.2. Ensalos de hipóteses corn urna arnostra

5.2.1. Ensalos para a media p. do Universo

5.2.1.1. A população 6 normal e a variância


do universo 6 conhecida

Em certas situaçöes, a população é normal (ou aproximadamente normal)


e conhece-se a sua variância, a2 0 parâmetro de interesse é a media l.L da
população, em relação a qual foi formulado o ensaio.
Fol esta a situação encontrada nos exemplos ate agora apresentados.
Dispensa-se a apresentação de outro caso e recorda-se apenas a estatistica
a usar e a respectiva distribuição amostral:

valida para pequenas amostras (n :~ 30) ou grandes amostras.

5.2.1.2. A população 6 normal e a variãnc!a


do universo 6 desconhecida

Na situação anterior, era conhecida a variância do universo a2 , o que

permitia calcular o desvio-padrão da distribuição do estimador X: (7 =

Mas, normalmente, a2 e desconhecida.


Existe, porém, a possibilidade de estimar a, através da informação da
amostra:

A
= =
E ( x1 - x)2
(pequenas amostras)
n—i
_NSAIO DE HIPóTESES

A ..I (X1 —X)2


a = s' = s = N n
(grandes arnostras)

e, sabendO que = estimar 0 desvio-padrâo da estatIstica X.

a) Amostra pequona (n !~ 30)

Nesta situação, a estatIstica a usar (X) tern a seguinte distribuição amostral

X — R0
(Th tn i

Exemplo 6

o peso das latas de conserva da marca PEIXEFRIO segue urna distribuiçâo


normal, devendo ter, de acordo corn as normas, urn peso media de 100 grarnas.
o controle interno da qualidade retirou da produçäo, aleatoriarnente, 9 latas e
registou as seguintes resultados (X peso da lata I, ern grarnas):
-

9 9 -

Y. x,=820 e (x1—x)2 =87,12.


1=1 1=1

I
Será possivel que esta arnostra tenha provindo de urna populaçâo corn media
100? Use a nIvel de significância de 0,05.

Sabe-se que:
• X - peso de uma lata, em gramas

• X n nQ.t, (7)

Pretende-se ensaiar a hipOtese de a peso rnédio das latas ser de 100 grarnas;
em aitemativa, não existe nenhurna direcção privilegiada de variação do peso.
Sera, então:

H0: .,
= 100

Ha : F' # 100

3& 7
ESTATISTICA APLICADA

0 teste a usar será:

x — l-to
T=
s'/'fti
dado que se desconhece o e a amostra é pequena (n = 9).
Sendo o teste bilateral (Ha : i # 100) e corn urn nIvel de significância
a = 0,05, a consulta da tabela da distribuição t3 fomece a seguinte regra de
decisao:
RA = ]-2,306; +2,306[
RC = ]— c.o; —2,306] u [2,306; +oo[.
Para calcular o valor do teste, corn a amostra recoihida, é necessário deter-
rninar
- 820 87,12
=91,111 e s'= =3,3.

Virá, pois,
= 91,111 - 100 = —8,081.
3,3/,I-

Como o valor do teste pertencé a Regiâo Critica, a decisäo O rejeitar H0 , isto


é, rejeitar a media de 100 gramas para a população que gerou esta amostra. Se
esta é de facto representativa, entào a empresa produtora das latas PEIXEFRIO
deve proceder a uma correcção, já que as latas estão a pesar rnenos do que o devido.
a

b) Amostra grande (n > 30)

Se a população é normal, a variância é desconhecida, mas a amostra e


grande, entâo pode ser usada a distribuição amostral limite da t-Student utili-
zada na situação anterior.

ry n(0, 1)

o estimador para a desvio-padräo de X, com amostra grande, é


=

rJP
HIPOTESES

Exemplo 7

Considere o caso anterior (latas de conserva PEIXEFAIO), mas corn a particu-


laridade de que recolheu urna arnostra de 36 latas, tendo obtido os seguintes
resultados:
36 36

Exi=3420 e (x1 –k)2 = 649


i=1 i=1

A sua decisäo sot re alteraçOes?

Trata-se então de ensaiar, para a media (li) da distribuiçäo do peso das latas
produzidas por aquela fabrica, que se sabe ser
X n nQi, (7),

as seguintes hipOteses
H0 : = 100

Ha : It # 100.
Nas condiçOes de urna grande arnostra (corn população normal e a desco-
nhecido), o teste a usar será -
X – Ro
(0, 1).
s/'Th nn
Sendo o teste bilateral e corn a = 0,05, a consulta da tabela da normal
standardizada pemlite-nos detinir a regra de decisão:

RA = j-1,96; +l,96[
RC = ]— co; –1,961 u [1,96; +oo[.

A arnostra fomece a seguinte informação


5= 20=95 e
s='I 36 =4,246.

Vira, entâo;
95-100 –-7065
4,246 /-F3-
6 -

valor que pertence a Regiao CrItica, pelo que a conclusão a retirar se mantérn:
rejeita-se que as latas estejarn a ser produzidas corn urn peso rnédio de 100
gramas, para aquele nivel de significância.
J4PLICADA

52.1.3. A popu!ação 6 descOnhecida

Quando se desconhece a distribuição da população, conhecido ou náo a


seu desvio-padräo, so corn uma arnostra grande é possIvel construir urn teste
corn distribuição amostral conhecida. De facto, a, recurso ao Teorema do Lirnite
Central permite deduzir a distribuição arnostral do estirnador a usar

0
T = n (0, 1) corn a desconhecido

XRo
T n(0, 1) corn a conhecido.
=

A exploraçao de uma nascente de água minero-medicinal tern revelado uma


quebra acentuada no debito por rninuto da referida nascente. E proposto urn novo
rnétodo, cuja implernentaçâo obrigará a urn avultado investirnento, rnas que ga-
rantirá os desejados 800 litros par rninuto, no mInimo.
0 concessionário actual, de acordo corn os proponentes do novo método,
recolhe informaçOes junto de uma outra exploraçao, ern tudo analoga a sua, e
onde o nova rnétodo já está em funcionarnento. Ern 100 periodos do urn rninuto,
aleatoriarnente determinados, verificou-se urn débito media de 796 litros, apre-
sentando as valores registados urn desvio-padrão do 20 litros.
Qual a decisao que acanselharia a concessionário a tornar, corn 0,05 de nivel
de significancia?

A variavel em questão, que se pode designar pór X débito par minuto da


-

nascente, em litres não tern distribuiçâo canhecida, e nàa se conhece tambOrn a


desvio-padrao.
Quer-se, parérn, efectuar urn ensaio para a respectiva rnédia i.t; de acorda
corn a apresentacão da questão, será:
H0 : ji ~! 800
Ha : s c 800.

Nas candiçOes em causa, so a recalha de uma grande arnastra (e a recurso


ao Teorerna do Lirnite Central) passibilita que se encontre uma soluçaa: o teste
a usar serâ
T _X
-
fl n(01 1).
SeridO o ensaio unilateral esquordo e corn a = 0,05, consultando a tabela da
normal reduzida, será
RC = ] — oo; —1,645]

RA = ]-1,645; +oo{.

A partir da arnostra, obtOm-se x = 796 e S = 20 pelo quo o valor do

teste virá
796 - 800
=-2,0
= 20/

valor portencente a Região CrItica.

A decisão a tomar - rejeitar H0 - significa, então, que se aconselharia o


conceSsiOnário a não investir no novo rnétodo, corn base na observação que
realizou.
S

5.2.2. Ensaio para a proporção

Quando a população tern distribuição de Bernoulli, a inferência àcerca do


seu parâmetro p (probabilidade de ocorrer urn sucesso numa prova de Ber-
noulli) pode ser realizada atravOs durn ensalo de hipOteses. A arnostra
adequada fornece informação àcerca da proporção nela observada e deseja-se
cornpará-la corn a verdadeira proporção da população.

Para grandes arnostras (n > 30), a distribuição arnostral de X, estirna-


dor de p, será
X Po
T= Po) fl n(0, 1)
Po(l
n

Exemplo 9
Urna ernpresa de lavagem-a-seco manteve 28% do mercado nos Ultimos trOs
anos. Este ano, uma amostra de 49 cidades revelou que esta empresa so detinha
uma percentagern do 25,4% nas vendas do sector. Será que este resultado 6
ES TA T[STIGA APLICADA

significativamente rnais baixo que o anterior, para urn nivel de significância de


0,01?

A caracteristica ern estudo — urn utilizador, escolhido ao acaso, recorrer aos


seMços da empresa de lavagern a seco - tern distribuiçao de Bernoulli, de
parârnetro p a estirnar.
As hipóteses em causa são
H0: p = 0,28
Ha : p c 0,28.

Sendo o teste unilateral esquerdo, e dado a = 0,01, o ponto critico a


Z0,01 = - 2,326.

Então
RC = ]- o0 -2,3261
RA = 1-2,326; +co{.

0 valor do teste, para a hipOtese nula, será

0,254 - 0,28
= -0,405
-
= _0,28(1 -0,28)
49
valor que, pertencendo a Região de Aceitaçao, permite não rejeitar H0 e, corno
tal, afirmar que o resultado obtido näo é sign ificativamente mais baixo que o share
anterior. Como explicar a diferença? Pelos erros arnostrais.

5.2.3. Ensalo para a variânc!a

Urn outro parârnetro que pode interessar estimar numa populaçäo normal
é a variância, c2 . Neste caso, e recordando a distribuição amostral de s'2 ,

estimador não enviezado de o2 , o teste vai ser realizado através da estatIstica

(n- 1)s'2 2
f 2Cn -1
ENSAIO DE HIPOTESES

ExemPlo 10

Uma rnaquirla está constru Ida de forma a assegurar que a medida-padrão das
pecas que produz tenha uma media igual a 4. Mas deseja-se também que a
vadabilidade dessa medida não ultrapasse uma unidade do medida (controlo pelo
desViO-PadraO).
No Ultimo controlo de qualidade, as 16 peças analisadas segundo a medida-
-padrão revelaram uma media de 4, mas uma variabitidade de 1,05 unidades de
medida.
Seri a diferença na variabilidade significativa? A quo nivel do signiflcáncia?

Trata-se de urn ensaio para a variância. Admita-se quo a distribuição da


medida-padrãO das peças é aproximadamente normal, o que nao e dificil de
aceitar.
Representando por X— medida padrão das peças, então:
xn n(1i; )

As hipóteses em estudo são:


C7 2
H0: <1

Ha : c 2 > 1.

0 teste a usar será:


(n - 1) s2
T = 2
Go

Corn n = 16 e adrnitindo um a = 0,05, virá:

25

sendoentão RC = [25; +oo[ e RA = [0,25[.


ES TA TISTICA APLICADA

0 valor do teste é

= (16 - 1) . (1,05)2
= 16,5375
1
que pertence a RA, pelo que näo se rejeita H0 , isto O, näo ha diferença significativa
entre a variabilidade observada na amostra e a desejada pelas normas de quail-
dade.
0 nivel de significancia a partir do qual se podera considerar que a variabiiii-
dade é significativamente superior a 1 obter-se-á fazendo
X5; 1-a' <- 16,5375.

Consultando a tabeia da distribuiçäo de Qui-Quadrado, constata-se que a*


estaria entre 0,5 e 0,25, valores muito elevados para admitir em condiçöes
normals (recorde-se que marca o limite superior da probabilidade do erro tipo I).

53. Ensalos de hipóteses corn duas amostras

Ate agora, trataram-se apenas problemas quo envolviam dados relativos a


uma (mica amostra aleatOria. Outro tipo do questão refere-se a situaçôes em
que interessa saber se as estimativas obtidas em duas amostras aieatOrias
diferem significativamente, isto é, se os parâmetros das populaçöes de onde
as amostras foram extraIdas diferem.

5.3.1. Ensaio para a diferença de media;

Considere-se, em todas as situaçöes a seguir estudadas, duas amostras


ateatOrias retiradas das populaçoes X1 e X2,

(X11 , X12 , ..., X11)


e
(X21, X22 , ..., X22 )

corn dimensão n1 e n2 respectivamente e independentes.

As suas médias amostrais são, por ordem, X1 e X2.


DE

o ensalo de hipOteses que se pretende formular é relativo a diferença entre


as duas médias das populaçoes: -

0 estimador de 11i - R2 sera X1 - X2, cuja distribuição amostral foi ja


estudada.

5.3.1.1. Popu!açäes normals e variâncias conhecidas

Se as duas populaçöes são normals e as variâncias e


4 c4 forern
conhecidas, então a distribuição arnostral de X1 - X2 a utilizar é dada
par:
(X1 - X2) - (i -
n(O, 1)

Repare-se que este resultado é válido para amostras grandes ou pequenas.

5.3.1.2. Qualquer população, variâncias desconhecidas,


mas amostras grandes

Quando se pretende aplicar a metodologia a populaçoes corn qualquer tipo


de distribuição, so com grandes amostras é que é poss(vel encontrar - pelo
Teorema do Limite Central - a distribuição do estimador que é:

(X1 - X2 ) (I-L1 -R2)O 0


flo 1)

0 desconhecimento de e c resolve-se utilizando as suas estirnativas,


assimptoticamente ceritradas, s e s

399
ESTATISTICA APLICADA

Uma empresa de pesquisa de mercados está a estudar se ha diferença entre


os salários dos trabaihadares indiferenciados nurna certa indUstria em duas re-
giöes do pals (A e B). Os resultados obtidos foram:

Região Amostra Media sa!arial Desvio-padrao

A nA 10° XAZlOOO SA=26,7


B n5=200 X=980 S830,4

Se se pretender limitar a 0,01 o risco de rejeitar incorrectamente a hipotese


de que as médias das populaçOes em causa são iguais, que conclusao se poderá
extrair destes dados?

Designem-se par:

XA - salán'o de urn trabaihador indiferenciado na região A (para a indQstria


em causa)
X - saládo de urn trabaihador inciiferenciado na região B (para a indOstria
em causa)

Estas são as caracteristicas em estudo das populaçOes em causa; as suas


distribuiçães são desconhecidas, bern como as variâncias.
Pretende-se ensalar a hipotese de que as respectivas medias sejam iguais, o
que se pode traduzir pela nulidade da sua diferença:
H0: PA - I'S = 0.

A hipótese alternativa, não havendo qenhuma razão Clara para indicar a


predominância de uma das regiOes, sera
Ha: PA - I's # 0.

Nas condiçoes do problema, o nivel de significancia deste teste bilateral é 0,01


sendo o teste a usar
(XA— k5) - (' A -
n n(O,1)
+ __i_
nA nB
ENSAJO CE H!PóTESES

polo quo, graficameflte, se pode representar a situacão do seguinte modo:

K0

RA I-K)
RC

S4 = 712,89 = 100

+ = 3,428
= 924,16 nB = 200

Será

RC = ]_ co; —8,83] Li [83; +co[

inn
em termos da variavel XA - XC.

Comparando a valor da amostra

XA - XB = 1000 - 980 = 20

com RC e IRA, conclul-se que pertence a Região Critica, pelo que so deve rejeitar
H0, isto é, as mOdias amostrais dos salários diferem significativameilte entre as
A
regibes A e B e, par isso, as medias das populaçOes diferem entre as regiöes
e B.
I
5.3.1.3 Amostras pequenas, pop ula çäes normals
e variâncias desconhecidas mas iguals

Quando as arnostras são pequenas e as variâncias desconhecidas, se as


populaçöes forern normais é necessário encontrar urna estatfstica adequada
ao ensalo de l.L, -

o estirnador será X1 - X2 cuio valor esperadoé j.1 - R2 e cujo desvio-

- V IA2
't/ai a2
A2
-padraoe s_ - = '4 +

Admitindo a hipOtese de que são duas arnostras independentes de duas


populaçoes corn distribuição normal e cujas variãncias são iguals
(a = a 22 = a2), é possIvel estirnar esta variância cornurn fazendo uma me-
dia ponderada das duas variâncias arnostrais (utilizando n1 - 1 e n2 - 1 corn
ponderaçao).

Assirn será:

Quando n1 + n2 - 2 > 30, a distribuição pode ser considerada aproxi-


madarnente normal estandartizada.

Para estudar dois tipos do gasolina, foram recoihidos duas amostras aleatOrias
do 15 carros do mesmo modelo. Todos os carros da amostra 1 foram abastecidos
corn gasolina A e todos as carros da arnostra 2 foram abastecidos corn gasolina
B. A distancia media par litro percorrida par cada carro 6 a seguinte:
HIPOTESES

(3ASQLINA A GASOLINA B

Carro Media Km//jEw Carro MOd/a Km/I/tm

1 20 1 18
2 18 2 20
3 20 3 22
4 21 4 21
5 19 5 20
6 17 6 18
7 20 7 19
8 21 8 17
9 16 9 19
10 22 10 20
11 18 11 21
12 19 12 18
13 20 13 19
14 19 14 22
15 17 15 18

Corn urn nive! de significância de 0,01, poder-se-á concluir que ha uma


diferença significativa entre as duas rnOdias amostrais?

Trata-se de urn teste para a igualdade das mOdias de duas populaçoes, sendo:
X1 - nürnero de quilórnetros/iitro percorridos corn gaso/ina A
X2 - nQmero de quiometros//itro percorridos corn gaso/ina B

E[X1]=p e E[X2]=R2.

Estando perante amostras pequenas e nada sabendo sobre as distribuiçoes


das populaçöes, é necessário admitir que elas seguem urna distribuição normal,
cujas variâncias, desconhecidas, se adrnitern iguais (poderia, antes, testar-se a
igualdade das variáncias, corn o teste apresentado no ponto 5.3.3. e depois agir
em conformidade com 0 resultado).

Nesta situação, o teste a usar é o apresentado neste ponto e, para o aplicar,


e necessário conhecer1 x2 s' e
= 17,933
= 19,467

= 4,38

SI = 2,41

As hipOteses a testar são


H0: - i2 = 0
Ha: - R2 ;' 0.
isto é, as médias das duas populaçOes são iguais (i.ti - = 0) ou säo diferentes.

Trata-se de urn teste bilateral em que a vadável tern uma distribuição t28 sendo
0 rilvel de significância a = 0,01.

-2,763 0 2,763 T

RC HA RC

Tern-se assirn RC = ] — co; —2,763] U [2,763; +oo[

eRA = ]-2,763; 2,763[.

0 valor do teste O

(17,933 - 19,46 - 0
= —21 28
.\J14 438 14 241
28
que pertence a Regiao de Aceitaçâo definida.

A decisao a tornar corn este ensalo é que nao ha diferença significativa entre
as duas médias arnostrais e por isso não se rejeita que a nürnero rnedio de
quilómetros percorridos com um litro de gasohna A seja igual ao nürnero media
de quilómetros percorridos corn urn litro de gasolina B.

5.3.1.4. Amostras empareihadas

Nos testes corn duas amastras ate agora apresentados, considerou-se


sempre que as arnostras eram independentes - os valores observados numa
amostra eram independentes dos valores observados na outra.
Muitas vezes, esta condição não se verifica: as duas amostras podem ser
formadas por pares de observaçôes feitas sabre os mesmos elementos. Neste
caso a hipótese a testar será a de igualdade de médias entre as dois pares
de observaçoes, sendo incorrecto aplicar o teste t anterior para averiguar da

404
ENSAIQ DEHIPOTESES

existOncia de diferença significativa eritre X1 e X2 (médias amostrais corres-


pondentes ao primeiro e segundo pares de observaçao, respectivamente) pois
as amostras flãO são independentes.

As hipOteses a testar são:


H0 : Ill =

Ha : i # P2

P01 se tratatem de amostras não independentes, deverão ser calculadas


as diferencas de valores d = X1 - X2. Se a hipOtese nula for verdadeira, os
valores de d pertencem a uma popuiação de media zero e as hipOteses
anteriores podem ser transformadas nas seguintes:

H0 : =0

Ha : 11d # 0

- __
A media amostral serä d = e a variãncia amostral
n
(d1 - d)2
= obtendo-se , finalmente, a estatistica do teste
n—i

tn1
T= S'd/fl

Exemplo 13

Urn departamento de pesquisa de urna empresa produtora de medicarnentos


reahzou urna experiência pare verificar se urn detemiinado produto aurnenta 0
tempo de reacção dos utilizadores a diversos estimulos. De facto, se o rnedica-
mento tiver esse efeito, deve ser inctuida essa observação na literatura que
acompanha o produto.
Para tat, seleccionou aleatoriarnente 12 individuos e registou o tempo de
reacção de cada urn a urn estirnulo, antes e depois de tornar o rnedicamento. Os
resultados foram Os seguintes:

4Ub
ES TA TISTICA APLICADA

Tempo do reacção Tempo do reacção


!ndivIduo oem medicamento corn rnedicamento
(em segundos) (em segundos)

1 0,75 0,84
2 082 0,78
3 1,04 1,15
4 0,77 0,81
5 0,92 0,95
6 1,11 1,08
7 0,69 0,82
8 0,84 0,96
9 0,91 0,95
10 0,98 0,83
11 0,83 0,91
12 1 0,75 0,81

Designem-se por X1 e X2 as caracterIsticas de todos os individuos

X1 - tempo de reacção do uma pessoa antes de medicada


X2 - tempo de reacção do uma pessoa depois de medicada

Admitindo a normalidade da distribuição destas variáveis, podem designar-se


por
I-ti - tempo mOd/a do reacção dos doentes antes do med/cados
I-2 - tempo mOdio do reacçOo dos doentes depois do medicados.

As hipOteses a serem testadas são:


H0: 92 - j.ti = 0

Ha: 92 - I:ti > 0


onde H. evidencia que I2 > jw1, isto é, o tempo médio de reacção aumenta corn
a rnedicação, para o mesmo individuo.
Seria incorrecto aplicar o teste t anterior para averiguar da existéncia da
diferença significativa entre X1 e X2 (médias amostrais correspondentes a X1 e X2,
respectivamente), pois as amostras nao são independentes: o tempo de reacção
de um indivIduo depois de medicado não é independente do tempo de reacção
antes de medicado.

Calculando as diferenças de valores of = X2 - X1 para cada indivIduo, isola-


-se o efeito da medicaçao nesse indivIduo:
r

Tempo do reaccãO Diferenca


reacçãO
depois do tempos
antes
X2 d=X2-X1

084 0,09
5
2 0,78 - 0,04
1,15 0,11
4
0,81 0,04
7
0,95 0,03
2
1,08 -0,03
1
0,82 0,13
9
0,96 0,12
84
ffflo,04 0,95 0,04
9 0,91
0,83 -0,15
10 0,98
0,91 0,08
11 0,83
0,81 0,06
12 0,75 1

d, que representam a diferenca do


Então, se H0 for verdadeira, Os valores de
tempo de reacçãO, constituem uma populacão de media zero. 0 que se pretende
apuradas na amostra podem pertencer a essa popu-
testar é se as diferencas d,
lação, isto é,

Ho:E(d)0 Ho:td=O
ou
Ha : E(d)>O Ha1d>°

Sendo o teste unilateral direito e corn a = 0,05 (por hipotese), as regiOes de

decisão serâo:

RA RC

RA = ]_oo;1,796[

RC = [-1,796;+°°I
ES TA TiS TI CA APLICADA

Os valores da amostra são:

I di =
0,48 = 0,04
n 12
-
,2 0,0714
= = 0,00649
n- i 11
obtendo-se
0,04 - 0
t = 0,08057/Hi = 1,72.
que pertence a Regiäo de Aceitação. A decisao será nao rejeitar H0, nao podendo
assim concluir-se que a medicação faz aumentar o tempo de reacção aos estI-
mulos considerados.

5.3.2. Ensalo para a diferença de proporçOes

Quando se está perante duas amostras independerites, aleatoriamerite


extraIdas de duas popu!açOes corn distribuiçao Bernoulli, usa-se a diferença
entre as rnédias arnostrais (proporção de sucessos nas amostras) para testar
a diferença entre as verdadeiras proporçOes das populaçoes.
A rnetodologia é em tudo análoga a que se apresentou para os testes para
a diferença entre rnëdias, corn amostras independentes.
Sabe-se que, para amostras grandes, adistribuiçao amostral de X1 - X2,
que e o estimador de Pi - P2 (como habitualrnente, Pi designa 0 parâmetro
de uma distribuiçao de Bernoulli e P2 0 da outra), e
X1-X2) -(p1-p2)0
T=
p, q, + P2 q2
TI1

Se bern que seja conhecido o valor da diferença (P1 - P2) sob H0 , não se
conhece, porOrn, o desvio-padrao de (X1 - X2), que é a expressão que figura
no denominador.
ENSAIQOEHIPOTESES

Como habitualmente, o teste e feito para


H0: Pi - P2 = 0

o que significa que Pi = P2 = p. Esta proporção é desconhecida, mas pode


ser estimada utilizando uma media ponderada das proporçöes observadas nas
amostras. Virá, então,

- n1k1+n2k2
n1 + n2

onde X1 e X2 sao, respectivamente, a proporção de sucessos observados nas


arnostras 1 e 2.
Substituindo na expressão anterior, virá

(X1 - X2) - (P1 - P2)0


T= fl n(O, 1)
(1 1'\
X(1 —Xv) + fl I

Exemplo 14

Foi efectuado urn estudo em duas ernpresas do mesmo rarno de actividade


- empresa A e empresa B -, sobre a preferéncia dos trabalhadores por dois
tipos de aurnentos salarlais: urn pacote de benefIcios extra ou urn deterrninado
aurnento no saiario base.
Dos 150 trabalhadores da empresa A, 75 preferirarn urn aurnento no salário
base; dos 200 trabalhadores da empresa B, 103 preferiram tarnbem esse aumento.
A questão que se coloca é saber se ha diferença de uma empresa para a
outra na proporção de trabalhadores que preferem o acréscimo no salário base
(e não nos beneficios extra). Pretende-se reduzir a 1% a probabilidade de rejeitar
indevidarnente a hipOtese de que essas proporçOes sejarn iguais.

Designe-se por

P1 - proporcão do trabalhadores quo, na empresa A, preferem o acréscimo


no sa/ário base
P2 - idem, para a empresa B
- media de amostra da empresa A
X2 - media de amostra da empresa B.
ESTATISTICA APLICADA

As hipótese em teste são:


H0: P1 - P2 = 0
Ha : Pi - P2 0.

A estatistica a usar e

- (Xi —X2)—(p1 —p2)0


fl n(0,1)
,jPiqi + P22
nl n2

pelo que, corn a = 0,01,

-0,139 0 0,139

0 desvio-padrao pode ser estirnado corno referido:

- = "10,51 2OJ = 0,054


x1 -x2 +

sendo

75 103
150 150 +
200 200 - 75 +
103 = 0,050857 = 0,51.
150+200 - 350

Os pontos criticos na distiibuiçao de (X1 - X2) são os seguintes:

0 ± 2,576 . 0,054 = ± 0,139.


~AI
QAIO DE HIPOTESES

As regiOes de decisào serão:

RC = ]_oo; —2,576] u [2,576; +oo[

RA = 1-2,576; + 2,576 [, em termos da variável Z

Cu

RC = ]—oo; —0,1391 u [0,139; +co[

RA = ] 0,139;
- + 0,139 [, em termos da variável (Xi - X2).

Para tomar a decisão, compara-se a infotmação da arnostra corn aquelas


regiôes, obtendo-se:
(75
i so -
200
103J
= = —0,278, (em termos da varlável Z)
0,054

e
75 103
- = - = —0,015, (em termos da variavel X1 -

150 200
valores que pertencem a Região do Aceitação.
A decisão e nao rejeitar H0, isto O, nao rejeitar que nâo ha diferença entre a
proporçäo de trabaihadores que preferern o aumento sob a forma de acréscimo
no salário base, na empresa A e na empresa B. A diferença observada (0,015 a
favor da empresa B) nao é significativarnente diferente de zero.
U

5.3.3. Ensaio pan a comparação do duas variâncias

E possivel construir urn ensalo para comparar variâncias de duas popula-


çöes normals das quals foram extraIdas duas amostras independentes.

A estatistica a utilizar é
2
S1 2
(3 n n1 -1, n2-1)
[)0
ESTATISTICA APLICADA

Urn caso particular O a ensaio para a igualdade de variâncias, que corres-


ponde a tornar

simplificando-se o teste para:


H0:
:1 = 1,

T=
2
S2

Foram usados dais tipos de adubas - adubo A e adubo B - em dois campos


experimentais, em tudo equivalentes. A produçao foi analisada, recolhendo-se 31
plantas sujeitas ao adubo A e 21 sujeitas ao adubo B. Os resultados foram os
seguintes em termos de uma variável identificada camo <cROB,,:

Adubo A Adubo B

ROB médio XA=12,9 x8=14,7

Desvio-padrao
da ROB SA = 2,1 sé= 1,8

Amostra n A= 31 n8=21

Será de admitir uma variância na variavèl "ROB" significativamente diferente


quando se usa a adubo A ou 0 adubo B? Considere cc = 0,01.

As hipóteses em jogo, admitindo que a variável "ROB" se distribui normal-


mente e que as amostras são independentes , serão

Ho:c=c$ ou

02 cy4
HacY GB ou 02
DE

A estatIstica a usar será:

0,355 312

RC RA RC

,2 (2
SA
2 flA1, n-1)
S GA

Corn a = 0,01, serido o teste bilateral, virá

RC = [0; 0,355] u [3,12; +oo[

RA = ]0,355; 3,12[

0 valor do teste O

4,41
1 = 1,361
= 3,24
que, pertencendo a Regiào de Aceitaçâo, permite decidir não rejeitar H0, isto e,
não se pode rejeitar a hipótese de que a variância de <<ROB'> seja igual, quando
se aplica o adubo A ou o adubo B.
a
ESTATISTICA APLICADA

i V;I

Parâmetros Tipo Dim ensão


Conhece-se Distribuiçäo
a de da Testo
a? amostral
tester populaçao amostra

- go
normal qualquer aim n (0, 1)

- 110
normal n<30 náo
SAFn
n tn i

normal
11 n>30 não nn(0,i)
ou qualquer

X- 110
qualquer n>30 aim fln(0, 1)
a/sm--

(x1 -3x2 (111 -112)0


(a1 e a2)
III -112 normais quaisquer (4 flfl (0 1)
aim -

flu fl2

(X1 X2) - 4L1 112)0

(a1ea2) fli fl tnu+,_2


2
1
fl1~30 -

Ii 2 normais nao flu fl2 (p/n>30


A n2530
A el =e2 aprox.
(fli )
normal)
fl1 + 2 -2

( -X - (111 112)0
normal n1>30 (aiea2)
Ru - 112 n(O, 1)
ou qualquer A n2>30 nao flu

(n- 1)S'2
a2 normal qualquer -
02 fl Xn - I)

X -Po
P Bernoulli fl>30 o (1 - P0) flfl(O, 1)
- -q_
fi

(u - x2) (PI P2)0


Flu>30 - -

Pu - P2 Bernoulli
A 1)2>30
- p1q1 aq2 n(0,i)
flu

7
2
normals qualquer - —i-
S . L 1 fl - I, n2 - 1)
HIPOTESES

54. Ensaios de hipóteses para mais


de duas amostras

Para todos Os ensaios de hipOteses anteriormente apreseritados, as hipó-


teses testadas requeriam a recoiha de uma ou, no máximo, duas amostras
aleatOrias independetltes ou näo. Mas será poss(vel utilizar as mesmos testes
quando 0 nUmerO de amostras (ou de grupos em estudo) for superior a dois?
Veja-se o exempto seguinte.

Exemplo 16

Urn hipermercado pretende saber qual dos seguintes locals de exposicào


rnaxirniza as vendas de cassetes video:
a) logo a seguir a entrada;
b) junto dos televisores e videogravadores;
c) Junto dos discos cornpactos (CD);
d) Junto das caixas registadoras.

Durante quatro meses consecutivos colocou os expositores de cassetes video


em cada urn dos quatro locals referidos e pediu ao gerente que registasse as
vendas diarias do produto. Pretende-se saber se existe uma diferença significativa
entre o nUrnero rnedio de cassetes vendidas por dia ern cada local de exposicão
ou se, pelo contrário, as vendas medias diárias são idénticas, qualquer que seja
o local de exposicão do produto.
a

Será possivet, neste caso, utitizar a teste t para a diferença entre duas
médias ou, mais especificamente, aplicar 6 testes diferentes cada par de
amostras? Para responder a esta questäo basta relembrar o significado do
nivet de significância de 0,05, isto é, admitia-se cometer, no máximo, uma
probabilidade de 0,05 de rejeitar a hipótese nula quando ela e verdadeira. Ou
dito de outra forma, a probabilidade de tomar uma decisão correcta, isto e, de
não rejeitar H3 quando eta O verdadeira seria, no mInimo, de 0,95.
Admitindo-se, por simplificacão, que as seis testes individuais eram inde-
pendentes, a probabilidade conjunta de se tornar uma decisão correcta seria

0,95 x 0,95 x 0,95 x 0,95 x 0,95 x 0,95 = 0,735


ES TA TISTICA APLICADA

e a probabilidade de erro tipo I de 0,265, valor inaceitável porque exagerada-


mente elevado. 0 próprio pressuposto de independencia é de difi'cil aceitação
a, caso não se verifique, resulta no problema acrescido de impossibilidade de
controlar este tipo de erro.
A resposta a questào anterior so pode ser encontrada mediante a aplicaçao
de urn novo ensaio de hipOteses, conhecido por análise de variância (ANOVA)
e que na sua forma mais simples (onewayANoVA) constitul urna generalizaçao
a mais de dois grupos do taste t para a igualdade de duas medias.

5.4.1. Ensalo para a d!ferença de k mOdias -


— análise do variância simples

De urn modo geral utiliza-se a análise de variância simples para testar se


determinado factor independente (no exemplo anterior, o local de exposiçäo
das cassetes de vfdeo), quando aplicado de modo diferente a várias popula-
çöes, tern urn efeito significativo sobre determinada variável dependente (as
vendas), ou seja, se faz corn que as medias populacionais da variável depen-
dente sejam diferentes para diferentes niveis do factor independente. Estes
nIveis são rnuitas vezes apelidados de nIveis de tratarnento, terrninologia den-
vada das aplicaçöes originals da ANOVA as areas da medicina a agricultura.

Considerern-se k amostras independentes de populaçao X1 , X2, ..., Xk


(ou de k grupos populacionais):
arnostra 1: (X11 , X21 , ..., X 11 ) -

amostra 2: (X12 , X22 , ..., X 2 2)

arnostra k: (Xl k, X2k, ..., Xfl k k)

sendo )4 o valor observado para o indivIduo 1(1 = 1, 2, ... rip pertencente


A amostrajQ = 1, 2, ..., k) e n1, n2, nk a dimensão de cada urna das
amostras, respectivamente. Adrnita-se ainda que as populaçöes de onde se
retirararn estas amostras seguem distribuiçOes normals corn variânciasdesco-
nhecidas rnas iguals, isto é
Xj fl n(p1, a) (j= 1, 2, ... k).
ENSAJO

As hipótoseS a tostar são


Ho:p.i=... =Pk

Ha : 1r # p1 para algum par (r, j) corn r~ J

ou seja, pretendo-se testar a hipOtese nula do igualdado do médias dos k


grupos populacionais contra a alternativa da existència do polo menos dois
grupos cujas médias sejam significativamente diferentos ontro si. Para rojeitar
a hipOtese nula basta, portanto, quo apenas duas médias a sojam.
Do reforir quo embora o método so apelide "analiso do variância" as
hipOteses a tostar respeitam as médias dos k grupos o não as variãncias. Estas
Ultimas são utilizadas mas para definir a estatistica do teste. De facto, para se
encontrar esta estatIstica é necessário começar por decompor a variãncia total,
ou mais correctamente, a variação total ou soma total do quadrados, numa
soma do duas parcelas: a variação explicada polo factor independente o a
variacão devida a erro, isto é, a proporção da variação total não explicada polo
factor independonto. Como rosultado deste processo, a soma total dos qua-
drados dos dosvios dos valores obsorvados em torno da media global,
k Tlj

SST =E (X,7—X)2
j=1 1=1

pode ser decomposta em duas partes aditivas e indopendontes: a soma do


quadrados devida aos erros, ou soma de quadrados dentro dos grupos,
k n,

SSW = Y , E(Xu — )2
j=1 1=1

o a soma do quadrados devida ao factor indopondonte ou soma de quadrados


entre Os grupos,

SSB=E n(KX)2

isto e,
SST= SSW+ SSB
APLICADA

k flj k "j k

:
j=1
y(XX)2 =E(KK)2 +ft(K - X)2
/=1 j=1 /=1 j=1

sendo k - nümero de grupos


nj - dimensão da amostraj Q = 1, 2, , k)
Xq - obseivaçäo para o indivIduo I do grupo 1
Xj - media amostral do grupo I
X - media global de todas as observaçöes

De modo semeihante, Os graus de liberdade associados a soma de qua-


drados total (n - 1) podem ser decompostos em duas parcelas: graus da
liberdade para a soma de quadrados dentro dos grupos, (n— k), e para a soma
de quadrados entre os grupos, (k— 1),
(n - 1) = (n - k) + (k - 1),
k

sendo n = nj , a dimensão total da arnostra.


j=1

Basicarnente, a anthlise de variâricia simples compara


quadrados entre os grupos (urn indicador das diferenças e
corn a soma de quadrados dentro dos grupos (urn indicador
dade ou heterogeneidade existente dentro dos grupos),
divididas petos respectivos graus de liIprdade a que se denorr
rnédias de auadrados (MSS'). As hioOteses são testadas

SSB/(k-1) - MS&
- SSW/(n - k) - MSSL

qua, sob a hipótese nula, segue uma dis


(k - 1, n - k) graus de liberdade, desd
pressupostos:
- Os conjuntos de observaçöes para

- As popuIaçes de onde se retiram as k am


çöes normals com iguais variãncias, isto é,
HIPOTESES

Para determirladO nivel de significância a, a hipOtese nula de igualdade de


grupos serã rejeitada para valores da estatistica do teste
medias entre as K
iguais ou superiores ao quantil de probabilidade (1 - a) da distribuição
isto é, neste ensaiO de hipóteseS a regiãO crItica é sempre
F(k-1, n—k)'
unilateral direita. De facto, sO faz sentido rejeitar a hipOtese de igualdade das
mOdias populacioflais para valores elevados da estatistiCa de teste, valores
k grupos (e devido ao factor
esses que ocorrern quando a variaçào entre Os
indePendente) for relativamente elevada quando comparada corn a variação
dentro dos grupos (ou devida a erros).

regiâo de aceitaçâO região critica

E usual apresentarem-se as resultados da aplicação da análise de variância


simples sob a forma do quadro seguinte:

Somas Somas medias


Fontes Graus
do uadrados do uadrados
de varia ao de liberdade

Entre as grupos (k - 1) SSB MSSS— SSB/(K 1) T

SSW MSSB= SSB'(K—i)


Dentro dos grupos (n— k)

Exemplo 17
De urn estudo do mercado, cujo objectivo principal era detectar as diferencas
(Expresso, Independente e
de comportamento dos leitores de tres semanários
retiraram-se as seguintes resultados relativos ao tempo de leitura
Semanário),
(em minutos) de cada leitor:
SEMANAR!O

OBSERvAçOEs Expresso Independente Semanário

1 100 80 62
2 110 70 65
3 85 65 68
4 60 75 75
5 95 69 80
6 96 91 70
7 78
8 120

Pretende-se saber se, nas popuiaçOes de onde se retiraram estas amostras


(leitores do Expresso, do Independente e do Semanario), os tempos medios de
leitura de jornal são idénticos ou nao. Admita-se que nas trés populaçOes os
tempos de leitura seguem uma distribuição normal corn igual dispersão.
As hipáteses a testar são:
H0: P-i = 92 = 113
Ha : Py p1 paraalgum par (r, j) cam r# I.

Para aplicaçao da analise de variância simples é necessário proceder a alguns


cálculos preliminares.
8
)4i
=74 =93

/=1 = 450
X2

6
Y, X13
= 420 = 70
X 1=16

3 ii]

j=1
1614 = 80,7
k1 20
ENSAIO OS HIPOTESES

SSB = nj(Xj -

= [8 x (93 - 80,7)2 1 + [ 6 x (75 - 80,7)2] + f x (70 - 80 , 2 ]

= 2092,2

3 ni

ssw= I I jX11—Xj)2
j=l i=1

93)2 +
= (100 - 93)2 + (110 - 93)2 + (85 -

•..+(75_70)2 + (8070)2 +(70_70)

= 3118.

E agora possivel construir o quadro das fontes do variaçäo e calcular o valor


da estatistica de teste.

Gratis Somas Somas medias


[1tes T
de liberdado do quadrados do quadrados
do var/a cão

2 2092,2 1046,1 5,7036


Entre Os grupos

Dentro dos grupos 17 3118,0 183,4

TOTAL 19 5210,2

é igual a
Para urn nivel de significäncia de 0,05, o valor da distribuiçáo F217
é de rejeitar a hipOtese nula de igualdade de
3,59. Logo, sendo 5,7036 > 3,59,
rnedias entre os trés grupos, ou seja, pelo menos dois grupos de leitores dos
jornais tern mOdias de tempos de leitura diferentes. Pelos valores médios amos-
trais quase se poderia concluir qua as diferenças significativas seriam entre os
(75 e 70
que lêm 0 jornal Expresso (93 minutos) e os leitores dos outros jornais
rninutos). Mas a resposta final a esta questão so poderá ser dada corn a aplicacào
de urn outro tipo de ensalo qua permita a cornparacão rnUltipla entre cada par de
rnedias.
I
ESTATISTICA APLICACA

5.42 Testes de comparaçäo máltipla

o processo mais simples para responder a questão anterior - Quais as


médias sign ificativamente diferentes entre si? - consiste em utilizar 0 teste t
de Student para a igualdade de cada par de mOdias.
H0 : =

Ha : j# j.tj.

Para alérn do inconveniente gerado pelo elevado nUmero de testes a


realizar (), acresce a dificuldade adicional de não se conhecer com exactidão
o nfvel de significância sirnultaneo devido a não independencia entre os vários
testes. Estas são as principals razOes para a definição de ensaios de hipOteses
simultâneos que permitem investigar onde se encontrarn as diferenças possi-
veis entre k médias populacionais, controlando sirnultaneamente o nivel de
significancia.
Muitos testes de comparação mUltipla foram ja desenvolvidos, destacando-
-se como mais conhecidos os seguintes:
- teste de cornparação mUltipla de Dunn;
- teste LSD (least significant difference) de Fisher;
- teste HSD (honestly significant difference) de Tukey;
- teste de Scheffé;
- teste de Newman-Keuls;
- teste de Duncan.

Estes testes diferem no modo corno analisam as diferenças de médias e


ainda no mOtodo de controlo do nIvel de significancia. Os mais utilizados são
o teste HSD de Tukey e o teste de Scheffe. As preferencias pelo Oltimo
justificam-se por várias razöes: a sua maior simplicidade de cálculo, o facto de
permitir a utilização de amostras corn diferentes dimensöes e ainda por ser urn
mOtodo robusto no respeitante aos pressupostos de normalidade e igualdade
de variancias das populaçOes. Um teste estatistico diz-se robusto quando a
sua validade não é alterada pela violação dos pressupostos que Ihe estão
subjacentes. No entanto, quando os grupos amostrais tOrn idêntica dimensão,
o método HSD de Tukey é mais preciso pois gera intervalos de confiança corn
rnenor amplitude. Por sua vez o mOtodo de Scheffé tende a ser mais conser-
vativo, ou seja, nas mesmas condiçöes, tern urna rnaior probabilidade de não
rejeitar a hipOtese nula quando ela é verdadeira.

422
ENSAIO DE HIPOTESES

Sejam n1, n2, nk as dirnensöes das amostras retiradas de K popula-


çbeS normals corn iguals variáncias, corn

n1 e seja S2 a variância arnostral total, calculada a paffir das


=
variancias amostrais

S2 (nj - 1) s.
= hk

A estatistica do teste HSD de Tukey e a seguinte:


gS
- 1
a /2

sendo g o valor do quantil de probabilidade (1 -


a) para a distribuição

da <Studentized Range>) (vertabela) com (k, n - k) graus de liberdade


e a a media harmOnica das dirnensöes das amostras
2
1
ni ni

Quando as amostrastérn igual dirnensão (n1 = n2 = = nk), situa-

çäo ern que e aconseihada a aplicação do teste de Tukey, o valor de a é


igual a dirnensào de cada amostra (nj).
Se a diferença, em valor absoluto, entre cada par de medias for
superior a W, a hipOtese nula de igualdade das duas rnédias populacionais
deverá ser rejeitada, isto é, cada hipatese nula

H0 : l.Li =

é rejeitada quando
IX1 - jl ~! W

ou ainda
g.S
1X1—X1~
J a/2
o teste de Scheffe utiliza uma transformaçao da distribuiçao Fde Snedecor
para medir a nIvel de significância das comparaçôes mültiplas.

statIstica do teste de Scheffé

nq (k 1)F(1_a ki

ni
(

Seja o exemplo anterior acerca do tempo de leitura dos jomais semanários.


Sabendo já que existem diferenças significafivas entre as trés grupos de leitores,
pretende-se agora testar quais as grupos significativamente diferentes entre Si.
Por se tratar de amostras de diferentes dimensOes, a método a utilizar será o de
Scheffé que implica o cálculo prévio das variâncias amostrais e da variância total.

= (X11
- 93) = 351,14

(X,2 - 75)2 = 88,40


=

(Xi,, - 70)2 = 43,60


=
ENSAIO DE HIPOTESES

43,60)1 = 183,41.
= x 315,14) + (5 x 88,40) + (5 x

Para a = 0,05, Fo,gs; 2; 17) = 3,59

H0 : Ill =
Ha : ' i k2

Ii - x21 = 18

(k– 1) . F(k1n k ) .S 2 [+]


nj n2
=

(i
=2 x 3159 x 183,41 x +
J

= 19,598 > 18,


logo, é de näo rejeitar a hipótese de iguais tempos médios de leitura para os

leitores do Expresso e do Independente.

H0: gi = 93
Ha : l.Li J13

li –x3 1 = 23

i'\
2(1 +191598 c 23, logo rejeita-se H0.
(k–i). F(1.k-1,n-k)• S n3 )

H0 p.2 =
Ha : 112 # jla

1 3C2 - x31 = 5

21 1 1
I —+-- l=20,951 >5,
(k–i). FØ.,k-1,n-k)• S 2 n3,)

logo não se rejeita H0

Apesar de na analise de variância simples se ter rejeitado a hipOtese de


igualdade de médias dos três grupos de leitores, so existeni diferencas significa-
e os do
tivas nos tempos médios de leitura entre os leitores do Expresso
Semanário.
N
ircrsrTIflA API ICAnA

o quadro seguinte apresenta Os preços reafs durante quatro anos consecuti-


vos de trés marcas do produto ABI:

Marca 1992 1993 1994 1995

A 1 1 1 2

B 2 3 2 2
I 2 3 3 3

a) Poder-se-a afirmar que, ao longo do periodo considerado, as trés marcas


apresentaram preços medios id6nticos9 Se a resposta for negativa, entre
que marcas se venficaram preços medios diferentes9 (Utilize (X = 0,05)

b) E relativamente ao preço medto do produto ABI por anos, poder-se-a


considerar terem existido alteraçOes significativas de preço ao longo dos
anos?

Antes de responder as questOes antenores, proceder-se-do a alguns calculos


preliminares Sejam

X marca do produto

x = 1 se a marca = A
x = 2 se a marca = B
x= 3 se a marca = C

e Y: ano de venda do produto

y= lse ano = 1992 -


y = 2 se ano = 1993
y = 3 se ano = 1994
y = 4 s ano = 1995

Assim, para X

xi 1k1 s

x=1 3ij=125 s=0,25 nl=4


x=2 x2=2,25 s=O,25 n2=4
k=3 x3=275 s=O,25 n3=4
)TES.
Eij:

= 0,25

= 0,5

e para Y

vi s Ill

s=0,33 n1=3
y=1 7i=1,67
y=2 Y22'33 s=1,33
n3=3
y= 3 j=1,00
n4=3
y= 4 y4= 2,33 s=0,33
- Lr

= 1,12
sy=1,059

a) lr-se-á testar primeiro as hipóteses

I-L 1

Ha Rj corn i~j

Admitindo-se estar em presenca do trés populaçöes normais corn igual vari


cia, o teste escoihido é o da anáUse do variância simples, cujos resultados
sumarizarn no quadro seguinte.

Fontos Graus Somas Somas médias


de var/a çäo de libordade do quadrados do qua dra dos
V -

Entre Os grupos 2 SSB=4,6667 MSSS=2,3333 T=9,3333

Dentro dos grupos 9 SSW=2,25 MSSW=0,25

TOTAL 11 SST= 6,9167

Para a = 0,05, F(0,95;2; 9) = 4,26 c 9,3333, logo é do rejeitar a hipOtese nt 2


do iguais médias de preps para as trés rnarcas em causa. Resta agora sat
quais as marcas corn preços médios diferentes. Por se tratar de arnostras cd
iguais dirnensöes, o toste oscoihido é o HSD de Tukey cujo critério do decis

diz para rejeitar H0: = so I X1 - XI ~ 1/ sendo g o quantil

probabilidade 1 —a para a distribuição da Studentized Range corn (IC, n — I<


graus do liberdade e a a media harmOnica das dirnensöes das duas amostr

4;
ES TA TISTIGA APLICADA

Por se tratarem de amostras corn igual dimerisão e variância a tornará sernpre o


mesmo valor, a mesmo acontecendo ao valor do teste W:

2
4.
1

Para a = 0,05, 9 = 3,95

3,95 ,< 0,50


logo W = 0,9875
= 2

e as decisöes a tomar são:

- rejeitar H0 : g, = 112 uma vez que I - I = 1,0 > 0,9875

- rejeitar HO: = pois I - x31 = 1,5>0,9875

- não rejeitar H0: 112 = Jia, pals I - I = 0,5 C 0,9875

isto é o preço media da rnarca A 4 significativamente diferente (inferior) dos preços


mOdios das marcas B e L

b) Pretends-se agora saber se existe diferenças significativas entre as preços


medios dos quatro anos consecutivos. Mais concretarnente, as hipoteses
a testar são

b1) b2) b3)

H0: 111 = 112 H0: 112 = H0: Ps = 114

Ha: s1 92 Ha 112 JL3 H1: Ms 114

e o teste a utilizar
= g.S
a '2

corn a = 3 e g = 4,53 para a = 0,05.

b1) W = (4,53 x 0,91)/1,73 = 2,367

I yj - Y2 1 = 0,67 c 2,367 logo H0: = 112 flO deve ser rejeitada.


ENSA!O DE HIPóTESES

b2) w = (4,53 x 1,079)/1,73 = 2,823


I - I = 0,33 <2,823 logo H0 : g2 = .L3 não deve também ser rejeitada.

b3) w = (4,53 x 0,815)/1,73 = 2,133

IJ'3 - 3/41 = 0,33 < 2,133 isto O, também H0 : 93 = 14 não deverá ser re-

jeitada.

Não existern diferenças médias signiticativas entre os preços médios de cada


par de anos consecLitivos. A conclusao da nâo existéncia de diferenças significa-
tivas entre os preços médios dos diferentes anos teria sido mais rápida se
previamente tivesse sido aplicada a anétise de variância simples. Corn efeito, o
valor do teste (0,4074) teria permitido concluir de irnediato sobre a igualdade de
médias de preços para os quatro anos considerados.
U

5.4.3. Ensaios para a diferença de k variãncias

Quaiquer dos testes anteriormente apresentados para mais de dois grupos


tern corno pressupostos que as k arnostras são retiradas de populaçöes nor-
malmente distribuidos corn iguais variâncias. A nao ser que se conheçarn as
populaçöes ern estudo, tambérn os pressupostos deverão ser testados. 0
pressuposto da normalidade, por se tratar de urn teste não-pararnétrico, serã
abordado no capitulo seguinte, sendo a seguir apresentado urn ensaio para a
igualdade de variãncia entre k grupos populacioriais:

HO : i=ci=... =c

H1 : Gj corn J.

Seja s a variância de urna arnostra de dirnensão n1, aleatoriarnente


retirada da j-ésirna população (j = 1, 2, ..., k). A variäncia total será dado
por
k
(nj - 1) s
- j=1
2
- n—k
ES TA #5 TI CA APLIcADA

o teste de Bartlett permite investigar o nIvel de significaricia das


diferenças entre as variáncias das k populaçöes, atravOs da seguinte
estatistica

B = 2,30259 {(n -
k) In S2 - ( nj - 1) In SY}

sendoC= 1
+ 3(k+ 1) { (nj— 1) - n— k}

Quando as grupos populacionais seguem uma distribuição normal e


para nj 6, B tem uma distribuição aproximadarnente de X 2 corn
(k- 1) graus de liberdade. A hipOtese nula serã rejeitada se o valor de B
for superior ou igual ao quantil de probabilidade (1 - (x) da distribuição

Xk-1)•

Foram retiradas quatro amostras independentes da dimensoes n1 = 31,


= 15, n3 = 20, n4 = 42 de popuiação normais, a partir das quais se obtive-
ram os seguintes resultados:

= 5,47, s = 4,64, s3 11,47, sä = 11,29.

Poder-se-a concluir que as populaçOes de onde se retirararn estas arnostras


tern igual variância?
Pretende-se testar as seguintes hipOteses:

H0 : GGC=G

H1 : cr 12 # corn

e para aplicaçao do teste de Bartlett O necessário calcular previamente a vañância


total S 2 .

43U
ENSA/O DE HIPóTESES

+ (19 x 11,47) (14 x 11,29)


64)104
= J39 x 5,47) +(14 x 4,
S2

= 909,8 = 8,75.
104

1 iij + =1,02.
c=l+ Jl + +
41 104
3(4 + 1) 14 19
I(-ao

2,30259 . {104 x 2,16892 - 218,19994) = 16,63.


B = 1,02

Como n, > 6, então B nX (3)•


Para a = 0,05, o valor da distribuicao de

qul-quadrado corn 3 graus de liberdade é 7,81 c 16,63, logo a decisão a tomar


Os quatro
é a de rejeicão de H0, ou seja, de não igualdade de variâncias entre
grupos populacionais.
a
Exercicios propostos
1. Urna empresa farmacêutica está disposta a lançar no mercado urn medica-
rnento, se 90% dos pacientes tratados corn esse novo medicarnento ficarern
curados. Caso verifique que apenas 70% dos pacientes ficarn curados, entäo não
lança o novo medicarnento. Para tomar urna decisâo, a empresa procedeu ao
tratamento corn o novo medicamento de 50 doentes, tendo-se registado que 45
deles ficararn curados.
a) Qua] devera ser a decisao tomada pela farrnacêutica?
b) Suponha que a empresa farrnacèutica decidiu utilizer a seguinte regra de
decisao: Se pelo menos 40 dos 50 doentes tratados ficarern curados, então
lança o rnedicarnento no mercado; Caso contrário nâo o lança.
Quais as probabilidades de erro associada àquela regra de decisâo?

R: a) Langer 0 rnedicamento; b) (x = 0,0091; 0 = 0,0618

2. 0 Ministerlo da SaUde afirma que, corn os rneios agora postos a disposição


dos Hospitais Civis, 0 nUmero rnédio de dias de internamento é no rnâxirno 15.
Estes declaraçoes foram postas em causa por alguns gestores hospitalares
que decidirarn proceder em conjunto a recolha de urna arnostra de 225 doentes
onde se observou que o nürnero rnédio de dias de internarnento foi de 18.
Corn base nestes dados, e supondo que a variável ern estudo segue urna
distribuição Normal corn desvio-padrao IS dias:
a) Terao os gestores hospitalares razão? Justifique convenientemente a sua
resposta, utilizando o teste adequado, a 1% de significancia.
Na decisão que tornou, qual a probabitidade de estar a corneter urn erro?
b) Corn que probabilidade é dada razäo aos gestores hospitalares, se o
verdadeiro nUmero rnédio de dias de internarnento for 17?
c) Como variaria aquela probabilidade se a hipótese alternative fosse superior
ao valor especificado na alinea b)? E se o tarnanho da arnostra aurnentas-
se?

R: a) Não tern; 0,01. b) 0,6293; c) Dirninufa; Dirninula

3. No exarne de estatfstica efectuado na 2 época do ano lectivo 94/95, foram


avaliados 31 alunos. Considerando estes alunos corno urna arnostra repre-
sentativa da popu!açäo dos alunos matriculados na cadeira de Estatfstica e tendo
em conta que, para essa amostra, se obtiverarn Os seguintes resultados:
PdOA Ifl ft utnArire,re.

31 31
Xi 299 EV —X2=120
1=1 1=1
a) Corn base num ensaio do hipOteses, corn cx = 0,05, cornente a afirmacao:
'<a media dos resultados não difere significativamente de 10".
b) Se a rnédia dos resultados de todos Os alunos rnatriculados na cadeira for
na realidade de 11, qual a probabilidade de estar a tomar uma decjsao
incorrecta?
c) Se aqueta media for de 9,5 a probabilidade calculada anteriormente virá
rnenor ou major? Justifique corn o auxOio durn esquerna gráfico.

A: a) Verdadeira; b) 0,7153; c) Major

4. Urna estação de radio quer estimar o tempo rnédio que uma farniia dedica,
por dia, a ouvir essa radio.
Foi recothida uma arnostra ateatOria de 81 farnIlias, tendo sido calculados uma
media diana de audição de 2,4 horas e urn desvio-padrao de 0,7 horas.
Suponha que a administraçao da radio tinha colocado, corno objective, uma
media de audléncia diana de pelo rnenos 2,5 horas. Para urn nIvet de significancia
de 0,05, diga se se pode validar, corn a arnostra recolhida, o objectivo da admi-
nistraçao?

A: Sim.

5. Urna ernpresa produz e comercializa urn conjunto de prqdutos de grande


consurno. Face aos dados previsionais sobre a conjuntura do sector, urn técnico
de planearnento prevé que a rnédia diana de vendas, para o presente ano, seja
pelo menos de 2000 u.rn., e que a sua vaniabilidade não se altere, continuando
a registar-se uma vaniância de 1225 u.rn.2. Tal ocorrência imphcaria urn novo
contrato corn a empresa transportadora, que coloca os produtos nos locais de
venda, decorrente do acréscirno da procura. Ficou decidido que apOs os prime iros
60 dias se procederia a recotha e análise do volume de vendas desses dois
meses, corn vista a accionar ou nâo os rnecanisrnos necessánios a negociaçao
de urn novo contrato corn a ernpresa transportadora.
a) Sabendo que o volume total de vendas no peniodo de tempo refenido foi de
119400 u.m., efectue urn ensaio de hipóteses, corn nivet de significância de
0,01, que perrnita tornar uma decisão sobre a eventual necessidade de
negociação de urn novo contrato corn a ernpresa transportadora.
b) Adrnitindo que a verdadeira media diana é de 1980 u.rn., qual a probabili-
dade de nao rejeitar a hipOtese do técnico de planearnento?

433
dPI ICAnA

c) Admitindo qua tudo o resto se mantérn constante, o qua sucederia ao valor


da probabilidade que encontrou na alinea anterior, se tivesse encontrado
uma amostra relativa a trés mesas (90 dias)?
Não efectue calculos e acompanhe a explicação corn urn diagrama elucidativo.

H: a) Dave-se renegociar; b) 0,0179; c) Dirninui.

6. A despesa diana ern alirnentaçäo, de urn agregado familiar pertencente a certa


classe de rendirnentos, segue uma distnibuiçao Normal corn desvio-padrão igual
a 25 u.m. Acredita-se qua a despesa semanal rnédia de urn agregado familiar da
classe acirna refenida 6 d 1500 u.rn., sendo de 1490 a hipótese altemativa. Tendo
sido fixado um nIvel de significância de 5%, a corn base numa amostra de
tarnanho n, obteve-se urn erro de tipo II de 0,1 (arredondado por excesso).
Determine 0 tarnanho da amostra.

H: n = 54.

7. Determinada companhia de seguros tornará a decisäo de aurnentar o seu


nümero de angariadores se julgar a conjuntura corno favoravel.
Para esse firn a companhia pretendeu quantificar a proporçäo de prérnios não
pagos ou pagos em atraso nos ültimos 6 mesas, tendo encontrado 7% nessas
condiçoes ern 1000 seleccionados ao acaso.
a) Se a companhia considerar a conjuntura corno favorável se a referida
percentagern for no máxirno de 5%, diga qual a decisào a tornar (aurnentar
ou näo o nUmero de angariadores) para a = 0,05.
b) Calcule a valor da funçao poténcia para o valor alternativo p = 0,08.

R: a) Não aumentar; b) 0,9350.

8. Corn a intuito de decidir sobre a cornpra de tempo de antena num programa


de TV de grande audiéncia, certa empresa decidiu necolher uma amostra de 100
pessoas.
a) No inquénito efectuado, 75 pessoas declararam ver o programa assidua-
mente, 10 de vez em quando a as restantes declarararn nunca o var.
Suponha que a empresa so cornprará a nefenido tempo de antena se for
cred(vel a hipOtese de qua a percentagern de pessoas que ye assiduamente
o programa é de, palo menos, 80%.
al) Qua[ a decisão tomar (a = 0,05)?
a2) Cam a decisão qua tomou qual o tipo de erro qua pode estar a corneter?
Qual a sua probabilidade se na realidade 75% das pessoas veérn assi-
duarnente a programa de TV?
DE

b) Corn base nas hipóteses formuladas na ailnea anterior, determine para que
valores do nIvel de significancia esta amostra Ievara a tornada de decisão
contrária.

FR: al) Compra; a2) Erro tipo Ii; 0,6406; b) a ~! 0, 1056.

9. Urn fabticante de fitas magnOticas para cornputadores sabe que a resisténcia


A ruptura destas fitas rnagnéticas é urna v.a. norrnalrnente distribuida corn media
300 Kg e desvio-padrao 20 Kg.
Para ajuizar se urna nova tOcnicalprocesso de fabrico produz fitas ern media
rnais fracas que as do processo antigo, é usado o seguinte teste estatistico corn
urn nIvel de significancia de 5% e urn tarnanho de arnostra N = 100:
H0: 12o = 300 Kg

HA: ga = 295 Kg

e em que:
Se X :5 X. rejeita-se H0
Se k > k não se rejeita H0

a) Calcule k.
b) Use este teste, para corn base nurna arnostra de tamanho 100, onde se
obteve urna rnOdia igual a 290 Kg, tornar a respectiva decisao.
R: a) 296,71 Kg; b) Rejeitar H0.

10. Nurna arnostra de 100 cidadaos de certo aglornerado populacional, 38 reve-


laram tencionar votar no candidato presidencial A nas próxirnas eleiçoes.
a) Ensaie a hipOtese de a percentagern dos que tencionarn votar nesse can-
didato ser de 40% contra a alternativa de ser inferior, utilizando urn nivel
de significancia de 0,01.
b) Qual a probabilidade de ter tornado urna decisão errada, se de facto essa
percentagern for de 30%?

FR: a) Nào rejeitar p = 0,4; b) 0,6217.

11. Nurn estudo sobre as saidas profissionais dos recérn-licenciados portugue-


ses pretendia-se testar se existiam diferenças significativas entre os salários
rnédios (em contos) dos licenciados ern gestâo, econornia e engenharia. Para tal
foram inquiridos 12 gestores, 10 econornistas e 15 engenheiros sobre os seus
salários brutos, tendo-se construido o seguinte quadro:
ESTATISTICA APLICADA

Fontes Somas Bra us Somas mOd/as


F
do var/a ção do quadrados do I/b erdade do qua dra dos

Entre Os grupos 584

Dentro dos grupos 972

TOTAL

Foram ainda calculadas as variancias amostrais dos salarios de cada grupos


de licenciados:

Licenciatura S2

Gestäo 410

Economia 325

Engenharia 380

a) Complete o quadro anterior e responda a questào levantada pelo estudo.


(utilize a = 0,05).
b) 0 quo se podera afirmar acerca do pressuposto da igualdade de variâncias
dos salários dos três grupos delicenciados?

R: a) Rejeitar H0; b) Nào rejeitar H0.

12. Um empresa produtora de automóveis ligeiros pretende saber se existem


diferenças nos tempos médios de vida de quatro marcas de pneus (A, B, C, e D),
de modo a escolher 0 melhor fornecedor em termos de durabilidade. Para tal
escolheu alguns pneus de caracteristicas idénticas das 4 marcas e testou-os em
automOveis comparáveis. Os resultados foram os seguintes (em milhares de Km):

Marca dos pious

A B C 0

31 24 30 24,5

25 26 30,5 27

28 27 29,5 26

30 25 28 23

32 30 31 21

27,5 32 22

28
ENSAIO DE HIPOTESES

a) Utilize urn nivel de signifioância de 0,05 para testar se existem diferenças


significativas nos tempos médios de vida de quatro marcas de pneus.

b) Quais as rnarcas significativamente diferentes entre si?

c) 0 que conclui acerca do pressuposto da igualdade de variâncias entre os


grupos.

R: a) Rejeitar H0; b) Grupos 1 e 3 diferem do grupo 4;


c) Verifica-se o pressuposto.
[tub I)
Ir

Testes
nao-parametricos
In troduçäo

Ate agora, as ferramentas estatisticas apresentadas (testes de hipóteses,


intervalos de confiarica) permitem extrapolar para uma população considera-
çöes acerca de parâmetros importantes (medias, desvios-padrão ...), descie
que sejam verificadas as condiçöes de aplicabilidade dos métodos. Veja-se o
seguinte exemplo.

Exemplo 1
Num estudo sobre a população portuguesa tomou-se nota da altura e da idade
dos indivIduos inquiridos. Sabendo que a altura media de urn indivIduo adulto era,
ha 20 anos, de 1,6 m pretende-se saber se a estatura media dos portugueses
aurnentou ou nâo.
Para responder a esta questão, como foi apresentado no capitulo anterior, e
necessário realizar urn teste de hipOteses.
Sendo X - altura de urn português adulto, em metros, l L a sua rnédia e
considerando a amostra aleatOria (X1, X2, ..., Xe ), teriamos

Ho P- = 1,6m
Ha: # 1,6m.

Mas, para poder realizar o ensaio pretendido, algurnas condiçöes teriam de


ser verificadas.
0 tipo da variável näo constitui problema, já que altura é uma grandeza
intrinsecamente continual. No entanto, se a amostra for de pequena dirnensão,
e necessário que esta possa ser considerada como proveniente do uma popula-
ção corn distribuição Normal, ou seja, Xterá de ter distribuiçáo Normal.
Duas questôes se colocam para já:
Como verificar a normalidade de X?
o que fazer, se não for possIvel aurnentar o tamanho da amostra e a popu-
Iaçâo nâo for Normal?
U

1 A não serque, no inquérito realizado, esta fosse apresentada em forma de intervalos. Nesse caso
a variãvel em questão teria de ser considerada como qualitativa ordinal.

441
ESTATISTICA APLICADA

Urna coisa é certa: se as condiçoes de aplicabilidade de urn certo teste nao


forern verificadas, a validade das conclusöes de tal forma retiradas é pasta em

causa.
Par outro lada, muitas das variáveis estudadas no âmbito das ClOncias
Socials e de Gestão não são quantitativaS.

Urna cadeia de hipermercados pensa abrir uma nova loja nos arredores de
Coimbra. Para analisar a viabilidade deste projecto realizou urn estudo de mer-
cado. Entre autras coisas pretende saber quais as grupas sócio-económicoS rnais
insatisfeitos cam a actual oferta de superficies desse tipo na zona.
No inquérita constniIdo incluiu-se urn conjunto de questOes que permitern
caractetizar a grupo sacio-ecOnómicO do respondente (coma par exemplo: ter ou
nãa casa prOpria e ern que zona, nümero de automOveis possuldos, escalão de
rendirnenta ern que se insere, profissão, ...) para alem de perguntas que permitem
aferir da satisfação global dos serviços disponiveis e da patencial vontade para
frequentar grandes superficies.

Estaria disposta a frequentar um nova espaco cornercial?

A situação na zona, no que se refere a existéncia de hiperrnercados, é:

Indique a sua idade

Assinale a quadricula que mais se adequa ao seu rendimento familiar mensal

11 <70 cantos
9 70 - 120 contos
9 120-180 cantos
9 180-300 cantos
9 > 300 cantos

442
A primeira questão indicada dana origem a uma variável qualitativa nominal
A segunda dada origem a uma variável qualitativa ordinal - aparentada cot
as variáveis em escala de Liked referidas no capitulo 1.
A idade, tal como está recoihida, seria uma variável quantitativa, mas, pc
outro lado, o rendimento familiar mensal, dado que foi previamente diviclido et
intervalos, teria do ser considerada como uma variavel qualitativa ordinal.

Que fazer então?


Reduzir o estudo estatIstico ao âmbito meramente descritivo? Aplicar a
técnicas estudadas antes, mesmo que violando pressupostos fundamentais?
Não! A solução consiste em utilizar outras técnicas de análise, que s
convencionaram designar por métodos nâo-paramétricos.
0 conceito de "método não-paramétnico)' é, ainda hoje, sujeito a discussac
pelos teOnicos da EstatIstica. Intuitivamente, e como o nome sugere, sera(
métodos onde as entidades em estudo náo sao Os parâmetros de uma popu
Iação.

Seguir-se-á a definiçâo indicada por Conover2 :

utilizado com dados na escala ordin


jtilizado com dados na escala de mt
içào da variavel aleatOnia que produ;
ada.
a menos de urn nUmero infinito de ç

1
Como fol visto em capitulos anteriores seria ate uma variável de Bernoulli, tomando 0 valor de 1
se o indivfduo estivesse disposto a frequentar novas superficies comerciais e 0 no case contrário.
2
CowovEn W.J. (1980), Practical Nonparametric Statistics, 2nd ed., J. Wiley, New York. Pag. 92.
ESTATISTICA APLICADA

No capitulo que aqul se inicia abordar-se-á, em primeiro lugar, as chamados


testes de ajustamento (ou da bondade do ajustamento). Corn estes pretende-
se saber se deterrninada amostra pode ou não ser proveniente de uma
população corn distribuição teOrica pré-fixada". Analisar-se-äo, de seguida,
as tabelas de contingOncia. Genericamente, uma tabela de contingência resulta
de uma classificação, segundo dois1 items diferentes, de um mesmo grupo de
iridivIduos2. Pretende-se, no fundo, estudar a relaçào entre os dois items, isto
O as duas variáveis, em jogo. Finalmente, a Ultimo ponto deste capItulo abor-
dará o problema da igualdade de duas (ou mais) distribuiçOes. Neste ponto
encontrarn-se as chamadas alternativas nao-paramétricas ao teste para a
diferença de mOdias e a análise de variância simples paramOtrica.

1 Ou mais do quo dois, resultando então uma "multi-tabela".


2 quo nao significa pessoas, mas sim elementos da populacão em estudo —vd. Cap. 1.

ME
Testes de ajustamento

No exemplo 1 deste capitulo fol levantada uma questão: Como verificar a


Normalidade de uma certa variável aleatOria X?
A resposta a esta questão, e a outras do mesmo tipo, é obtida procedendo
a urn teste de ajustarnentO, chamado por vezes de teste da bondade do
ajustarnento
Em traços gerais, o probierna é o seguinte:

Dada uma amostra aleatOria (X1, X2, ..., Xe ), retirada de uma popU
lação X, e uma certa função (densidade) de probabilidade teOrica t0 (x),
pretende-se saber se a amostra pode ser considerada corno proveniente
de uma população corn tal distribuição, isto O,

H0: A função (densidade) de probabilidade de X e f0 (x)

Ha: A função (densidade) de probabilidade de X não é t0 (x)

ou, charnando f(x) a função (densidade) de probabilidade de X,

H0: f(x) = f0 (x)


Ha: f(x) # f0 (x)

Exemplo 3

No exemplo 3 do capitulo 2 supös-se que se recolheu uma amostra de 1000


individuos, os quais foram inquiridos acerca das suas preferëncias em relaçâo a
diferentes misturas de cafés (5 composiçöes diferentes: A, B, C, 0, E). Supôs -se
ainda que cada composicão diferente tinha sido escothida por exactamente 200
consumidores. Se tal inquOrito tivesse sido de facto real izado, era <imuito pouco
natural,, que se tivessem obtido tais resultados. Vamos supor que Os resultados
obtidos eram:
ESTATISTICA APLICADA

Nümero
Marca
c/a consurnidores

A 190
B 210
C 180
U 205
E 215

TOTAL 1.000

Será que ainda e de assumir que, na populacao em estudo, as composiçOes


são igualmente preferidas? (ou seja, será que as diferenças obtidas são estatis-
ticamente significativas?)

Suponha-se então que

X - marca preferida per urn consumidor

x = 1, 2, 3, 4, 5, onde
x=1 consumidor prefere composicão A

x=5 consumidor prefere composição E.

Se Xtiver distribuição uniforme discreta em 5 pontos, então a sua função de


probabilidade será

para x=1, 2, 3,4 e 5.

As hipóteses a testar serão:

H0: f(x) para x = I, 2, 3, 4 e


= -k-i

Ha: f(x)~ para algum x= 1, 2, 3, 4, e 5


4-,
ou, de urn modo mais sintético
H0: X n U(S)

Ha: X cS U(S).

LII
TEsTEs - ETRC

Existem vários testes bondade do ajustamento. Urn dos mais conhocidos


e mais antigos é a teste do ajustamento do X2 devido a Pearson, no início do
seculo. Kolmogorov, em 1933, apresentou um outro teste que também será
abordado aqui, e que ficou conhecido pelo seu nome: Teste do ajustamento
do Kolmogorov-Smirnov1 , abreviadarnente K— S.

2.1.Teste de ajustamento do Qui-Quadracjo

Sendo (X1 , X2, ..., X) uma amostra aleatOria de uma coda população X,
considere-se quo f(x) é a f.(d.)p. vordadeira, mas dosconhecida, de X. Supo-
nha-se ainda quo f0 (x) é a f.(d.)p. de uma variável aleatOria corn distribuiçao
conhecida e completarnente especificada.
Coma na generalidade dos testes do ajustamento, as hipóteses a testar
são:
H0 : Af.(d.)p. de 6 f0 (x)
Ha : X não tern essa distribuiçao.

A ideia básica do teste do Qui-Quadrado é a soguinte: construarn-so c


classes A1 , A2, .., A, do valoros assumidos por X, do forma a quo ostas
classes constituam uma padição dosses valoros. Tome-so a amostra
(X1 , X2, ..., X) o calculom-se as froquencias absolutas obsorvadas o, do
cada classo A1. Assim,
oi = nürnero do olomontos da amostra quo portoncorn a A1 (frequências
obsorvadas).
Considoro-se a distribuição toOrica dofinida em H0 o calculo-so a proba-
bilidade p7 de cada classo A1.
pi = P [ Ai I H0 ].

1 Kolmogorov estudou o caso do ajustamento de uma amostra a uma dada população especificada,
enquanto que Smirnov estudou problemas envolvendo duas amostras: poderao duas amostras
ser provenientes de populaçöes corn a rnesma distribuiçao? Em muitas obras o primeiro teste é
designado por Kolmogorov-Smirnov para uma amostra, enquanto que o segundo é-o p01 Kolmo-
gorov-Smirnov para duas amostras. Noutras obras, 0 primeiro taste ë designado apenas por Tests
de Kolmogorov, sendo o segundo por Teste de Smirnov.

447
ES TA TIS TI CA APLICADA

Assim, o rtümero de individuos da amostra que "deveriam" estar em A1

seria e1 = np1, onde n é a dirnensão da amostra e


ej = nümero de elernentos da amostra pertencentes a A, quando H0 e
verdadeira (frequências esperadas).
Se a hipOtese nula for de facto verdadeira, a diferença entre cada valor
observado e o respectivo valor esperado, intuitivarnente, "não deve ser muito
grande'. Mas corno medir estas diferenças? 0 que é ser "grande>> ou ser
"pequeno?
Interessa que:
- as diferenças sejam consideradas de igual forma, quer sejarn positivas,
quer negativas;
- as diferenças sejarn ponderadas. De facto, não O o mesmo ter urna
diferença de 10 entre urn valor observado e urn esperado que vaiha, por
exemplo 15 ou urn valor esperado que valha, por exernplo 150;
- a distribuiçáo da estatistica de teste utilizada seja conhecida, pelo rnenos
assimptoticamente.

rson apresentou a seguinte

verdadeira a hipOtese nula


10 corn (c - 1) graus de Ii rdaue.

Sabe-se que, se alguns dos e1 forern rnuito pequenos, a aproxirnaçáo ao


2
nao é rniiito apropriada. No entanto, ainda hoje persistem düvidas entre os
estatisticos quanto ao que devernos considerar "alguns e "rnuito pequenos'.

Tomarernos corno regra prática a assurnida por muitos packages estatIsticos:


2
Para que seja poss(vel aplicar a aproxirnação ao X devem-se ter:
i) Menos de 20% das classes corn e1 inferior a 5,
i) Não mais de uma classe corn e1 inferior a 1.
TESTES NAO-PARAMETRICOS

Caso esta regra näo esteja a ser respeitada poderernos proceder a agre-
gacäo de algumas classes contiguas.
Valores <<pequenos da estatIstica de teste iräo indicar "grande" adesao
dos valores observados aos valores esperados, confirmando a hipOtesese nula
especificada. Valores "grandes" da estatistica de teste indicam "desajusta-
inento" dos dados a distribuição especificada na hipótese nula e,
consequenternente, levarn a rejeição desta.
Sendo X(c— 1); a' o quantil de probabilidade (1 - (x) de urn X corn (C— 1)
graus de liberdade, tern-se a seguinte regra do decisào:

Rejeita-se H0 a urn nIvel de significância cx caso o valor da estatistica de


teste seja superior a X(c -1);a' isto é, rejeita-se 1-10 se T > X(c -1);a . Caso
contrário, não se rejeita H0.

Exemplo 4

Retome-se o exemplo apresentado no ponto anterior. Suponha-se que se


recolheu uma amostra de 1000 individuos, os quais foram inquiridos acerca das
suas preferëncias em relação a diferentes misturas de cafés (5 composiçäes
diferentes: A, B, C, D, E) tendo-se obtido os seguintes resultados:

NUmoro
Marco
do consumidores

A 190
B 210
C 180
D 205
E 215

TOTAL 1000

Sendo X— marca proferida por urn consumidor,


x = 1, 2, 3, 4, 5, onde
x=1 consumidor prefere composicão A

x=5 consumidor prefere composiçâo E.

1 Teoricamente, e so se atender a definição dada para classe, as classes agregadas näo tern quo
ser obrigatoriarnente contiguas. No entanto, este é 0 processo geralmente seguido.
As hipOteses a testar serão:

H0 :XU(5)

Ha X(1U(5)

Definarn-se as classes A1 = { i}, / = 1, 2, 3, 4, 5. Estas classes c


uma partiçào dos valores assurnidos por X. Tern-se

p = P[A1 I H] = f0(1) -i = PEA2 I H0] =


-
_1
P3 = P{A3 I H] = f0(3)
- P4 = I Ho] = to (4

p = P[A5 I H0] = f0(5) -


-
i

e portanto,

Mama oi p7 n p7 = e1 Qi - (o, - e )2/el


A 190 1/5 200 —10 0,5
B 210 1/5 200 10 0,5
C 180 1/5 200 —20 2
D 205 1/5 200 5 0,125
E 215 1/5 200 15 1,125

Total 1000 1 1000 4,25

(0, —c,)2
T= X5-1)
ei

0 valor calculado para o taste e T = 4,25 0 ponto critico, ao ni


significância a = 0,05 de urna V.A.corn distnbuiçao do Qui-Quadrado
graus de hberdade e 9,49 (vd tabelas) Assirn,

T = 4,25 c 9,49 = X(4), 005

e nao se rejeita a hipótese nula, a este nivel de significância.

Nao existe evidencia estatistica qua não permita considerar a amostrE


proveniente de urna populaçao uniforrne discreta ern 5 pontos, ou seja, in
no contexto, os consurnidores nao preferern urna mistura de café em detr
de outras: todas são igualmente preferidas.
TESTES NAO-PARAMETRICOS

Uma das hipOteses postas acima é a de que fo (x) está completamente


especificada. Isto implica que se conheçam os parâmetros que a caracterizam.
For exemplo, no caso da distribuiçào normal, e necessário conhecer a verda-
deira media e o verdadeiro desvio-padrão. Mas isto não acontece em muitos
casOS.
Note-se que, de facto, não é o mesmo testar

H0 : X N(5; 1)

Ha : X' N(5;1)
e
H0 : X tern distribuição normal
Ha : X näo tem essa distribuição.

Enquanto que, no primeiro caso, a rejeição da hipátese nula não implica


que X nào tenha distribuição normal (pode ter, mas corn outros parámetros,
diferentes dos especificados), no segundo, a rejeição da hipOtese nula implica
que a distribiiição de X não pertence a familia normal.
Podemos ainda utilizar o teste do Qui-quadrado neste Ultimo caso, mas a
distribuição assimptática da estatIstica de teste sofrerá um ajustamento no
nUmero de graus de liberdade.

Assim, tem-se:

Se f0 (x) estiver completamente especificada, exceptuarido um nUme-


ro finito, K, de parametros desconhecidos, tem-se que
(o1 - e1) ° 2
T X(c -k-1)
ci
=
onde as frequëncias esperadas são estimadas recorrendo a estimativas
desses parãmetros.
A procura diana de urn certo produto F foi, ern 60 dias escolhidos ao acaso,
a seguinte:

I N2 unidades
prncuradas 0 1 2 3 4 5 6 7 8 9

N2 dias 2 4 8 1314 9 5 3 1 1

Seri de admitir que tal procura segue urna distribuiçao de Poisson?

Seja X - procura diana de urn certo produto F

Tern-se:

H0: X tern distribuiçao Poisson


Ha: X não tern essa distribuiçao.

A funçao de probabilidade de urna V.A. corn distribuição de Poisson O:

3 -
x
x=O,1,2,...
X!

Mas o % nào esté especificado na hipOtese nula!

Definindo A1 = { i} para i = 0, ..., 9


9
e A10 = { 10, 11, 12,...} = IN0 - A1,
1=0

as probabilidades p7 = P[A1 I H0] nao podern ser calculadas exactarnente;


terão de ser estirnadas. Dado que urn born estirnador para A O A. = X, estirnar-
-se-ão os p7 substituindo A. por A. na função de probabilidade indicada.

AXI
Neste exernplo, assurnir-se-á A. == 3,8 e portanto tern-se

ROBALO, A., Estatistica - ExencIcios Volume 14 Cap. III, ex. 52, Ed. Silabo, 1989.

452
TESTES NAO-PAR,4METR/CQs

NO unidades NO do dias * (a) *


A ej=npj
procuradas 01

0 2 0,0224 1,344
1 4 0,0850 5,100
2 8 0,1615 9,690
3 13 0,2046 12,276
4 14 0,1944 11,664
5 9 0,1477 8,862
6 5 0,0936 5,616
7 3 0,0508 3,048
8 1 0,0241 1,446
9 1 0,0102 0,612
10 ou mais 0 00057 0,342

(a) Ver tabela da Poisson corn parametro 3,8.

Como se pode constatar, a regra definida não é aqui verificada: cinco das
classes tern frequència esperada inferior a 5, o que representa mais de 20% do
total das classes, e duas tern frequéncia esperada inferior a 1. Pode-se agrupar
as quatro ültimas classes, redifinindo A7 como englobando todos os casos de
procura igual ou superior a 7. Será entâo:

NO unidados NO do dias . 2
P1 (a) 01= fl P1 (op- o) /o
procuradas

0 2 0,0224 1,344 0,666 0,3300


1 4 0,0850 5,100 -1,100 0,2373
2 8 0,1615 9,690 -1,690 0,2947
3 13 0,2046 12,276 0,724 0,0427
4 14 0,1944 11,664 2,336 0,4678
5 9 0,1477 8,862 0,138 0,0021
6 5 0,0936 5,616 -0,616 0,0676
7 ou mais 5 0,0908 5,448 - 0,448 0,0368

Totals 60 1,0000 60 0 1,4790

Tern-se assirn:
- nUmero de classes, c = 8
- nürnero de parâmetros estirnados, k = 1

Tfl X -1- = X(6

- valor do teste, t = 1,4790.

453
Como 12,592 (vertabela), nâo se rejeita a hipOtese nula a este nIvel
x6. 0.05 =
de significancia. Podemos assim assumir que a procura do produto Fsegue uma
distribuiçâo de Poisson.

U ,

Ate ac, momento, Os exemplos dados dizem respeito a ajustamentos a


distribuiçöes discretas. Caso a distribuição em estudo seja continua, o proces-
so é idêrttico, embora seja necessário, a priori, classificar os dados em classes.

Uma máquina corta peças de 100 cm de comprimento. Cré-se que Os erros


cometidos por esta máquina sigam distribuição normal. Para testar esta hipótese
efectuou-se a mediçâo de 595 peças que fomeceram os seguintes resultados:

N2 do erros
Erros (cm)

—6; —3 10
—3; —1 95
—1; 0 200
0; 1 190
1; 3 90
3; 9 10

Para testar o ajustamento a distribuição normal é necessário estimar a media


e o desvio-padrao, o que será feito como usual. ObtOm-se

ii' = 0 cm
e
Ex?Fi - 2 =
s2 = 2,353 cr77 2 =>$ = 1,53393 cm.
n

Adaptado de ROBALO, A., Estatistica -Exercicios Volume II, Cap. Ill, ex. 51, Ed. Silabo, 1989.

MIA
TESTES NAO-PARAMETRIc05

N2 de erros Eremos
Erros (cm)
(Qe) standartizados
p;: e1 = np (op- e)2 /e

—6; —3 10 < 1,96 0,0250 14,875 15977


—3; —1 95 - 1,96; —0,65 0,2328 138,516 13,6709
- 1; 0 200 - 0,65; 0 0,2422 144,109 21,6707
0; 1 190 0 0,65 0,2422 144,109 14,6138
1; 3 90 0,65 1,96 0,2328 138,516 16,9930
3; 9 10 1,96 0,0250 14,875 15977

Teoricarnente, sendo X uma V.A. corn distribuição normal, pode assumir qual-
quer valor real. Assim, a primeira classe tern de incluir todos os valores de X
inferiores a - 3, embora so se tivessem observado valores entre —6 e - 3.
Era possivel constituir urna outra prirneira classe, incluindo apenas os valores
de X inferiores a —6, corn frequência observada 0. Note-se que, neste caso, a
frequència esperada seria tarnbem aproxirnadarnente 0, visto que, considerando
a media e a desvio-padräo estirnados e consultando a tabela da normal-padrao,

P[X < —6] = P[Z c 3,91 = 0

levando a agregação de tal classe corn a seguinte. 0 mesmo se passa ern relaçâo
ao outro extremo.
Tern-se assirn c = 6, k = 2 e portanto

T X-2-1) = X3).

Como X3; 005 = 7,815 (ver tabela) e o valor calculado para o teste é de
70,1498, rejeita-se a hipOtese nula, a este nIvel de significância. Adistribuiçäo dos
erros cornetidos pela rnáquina ao cortar peças de 100 cm nâo tern distribuiçâo
normal.
U

Devido a informação perdida quando se procede a agregação em classes,


não O muito aconselhável a utilização deste teste para proceder ao ajustamento
de distribuiçOes continuas. Neste caso está mais indicado o teste do Kolmo-
gorov-Smirnov de ajustamento, que será abordado no ponto seguinte.
ES TA TISTICA APLICADA

2.2. Teste de ajustamento


de Kolmogoro v-Smh-nov
o teste de ajustamento do Qui-Quadrado, abordado no ponto anterior, está
especialmente concebido para dados nominais. Quando Os dados são ordinais,
a informaçao relativa a ordem ë perdida. 0 volume da informaçáo perdida e
ainda malor quando Os dados são de natureza continua, dado que é necessãrio
proceder a classificação dos dados. 0 taste de Kolmogorov para uma amostra
(designado abreviadamente por K— S de ajustamento) permite tomar em con-
sideração a ordem inerente aos dados, o que é por si sO uma vantagam.
Embora não baja unanimidade neste aspecto, vários autores afirmam que o
teste K— Sde ajustamento é provavelmente mais potente que o Qui-Quadrado,
em muitas das situaçöes em que ambos são aplicáveis.
Para qua possamos apresantar este teste 6 necessário definir, em primeiro
lugar, o que se entende por função distribuição empIrica1 .

1 A natureza dos dados tern de ser no rninimo ordinal.


TESTES NAO-PARAMETRJCQS

A função de distribuição da amostra será

X!~ X

1 11
Fn (X) = XP. n :~ x Xj1 : p = 1, ..., n - 1.

1 X ~ X,y n

Note-se que, enquanto S,, (x) O uma funçäo de x, F,, (x) (que deverá ser
tomada para urn qualquer x c IR fixo) é uma variável aleatória função da
amostra aleatOria, logo, uma estatistica.

Exemplo 7

Uma máquina embala pacotes de 500 gr de esparguete, e está cahbrada para


não cometer erros de embalagem superiores a 10 gr em mais de 95% dos casos.
Retirou-se uma amostra aleatória de 10 pacotes de esparguete embalados
por esta máquina, por forma a verificar o processo de embalagem. Obteve-se a
seguinte amostra:
(507; 490; 497; 510; 501,5; 499; 502,5; 507; 510; 510,5).

A amostra ordenada será:


(489,5; 490; 497; 498,5; 499; 501,5; 502,5; 507; 510; 510,5).

A funçäo distribuição empirica será

x S(x)

xc 489,5 0

489,5 5xc 490 0,1

490 5xc 497 0,2

497 5 x < 498,5 0,3

4985 5x< 499 0,4

499 5x< 501,5 0,5

501,5 x< 502,5 036

502,5 x< 507 0,7

507 5xc 510 0,8

510 xc 5105 0,9

x~ 5105 1
ESTATISTICA AR
TESTES NA 0-PA RAMETRICOS

Em termos práticos, sendo S, (x) definida corno anteriorrnente,


(Xi: n X Xpj: n) a amostra observada depois do ordenada 0 definindo
, , ...,
Sn (X0. n) = 0
tom-se que

c/n = max [IF(Xi:n) - 5 n('7i:n) IF(xj:n) - Sn(Xj :r,)IJ.


1 =1 .....n

Conhecendo a distribuição de Dn e possfvel então avaliar dn e decidir so


este é suficientemente pequeno para que não se rejeite a hipótese nula a urn
dado nivel do significancia a.
A tabela disponIvel para este teste sO é exacta caso a distribuição ern teste
seja continual . Se tal não acontecer, 0 teste torna-se conservativo, isto é, tende
a não rejeitar a hipOtese nula. Os valores apresentados nesta tabela, e nas
condiçoes referidas, são exactos para n !~ 40 e aproximados para valores
superiores a 40.

Exemplo 8

Suponha-se que a máquina referida no exemplo anterior foi calibrada, na sua


revisão periOdica, de forma a que o peso dos pacotes de esparguete fosse
Normalmente distribuldo, corn media 500 gr e desvio-padrâo 5,1 gr (verifique que
a condição irnposta no enunciado anteriormente apresentado é respeitada). Pe-
rante a amostra obtida, será que podemos afirmar que estas normas estão a ser
respeitadas?

Seja X - peso real de urn pacote de 500 gr de esparguete emba/ado pela


referida rnáquina. Tern-se:

H0: X n N(500; 5,1)

Ha: X p N(500; 5,1).

Como

c110 = max (I F(xj: io) - S10 (x1.. 1: io) I; I F(xj: 10) - S10 (Xi: 10) 1)
1=1 .....10

1 Existem métodos que permitem calcular o nivel de signiticãncia critico quando a distribuição em
teste e discreta. Para mais inforrnaçoes veja-se por exemplo CONOVER, Practical Nonpararnetric
Statistics, 2nd ed., J. Wiley, New York, 1980, pägs. 350-353.
APLICADA

tern-se

Xk F(Xk) S(xk) F(xk)-S(xk_1) F(xk) - Sn (xk)


489,5 -2,06 0,0197 0,1 0,0197 -0,0803
490,0 -1,96 0,0250 0,2 -0,075 -0,175
497,0 -0,58 0,2810 0,3 0,081 -0,019
498,5 -0,29 0,3859 0,4 0,0859 -0,0141
499,0 - 0,2 0,4207 0,5 0,0207 -0,0793
501,5 0,29 0,6141 0,6 0,1141 0,0141
502,5 0,49 06879 0,7 0,0879 -0,0121
507,0 1,37 0,9147 0,8 0,2147 0,1147
510,0 1,96 0,9750 0,9 0,175 0,075
510,5 1 2,06 1 0,9803 1 10 0 10803

logo d10 = 0,2147.

o valor tabelado para ii = 10 e p = 0,95 (a = 0,05) é 0,409. Como


0,2147 < 0,409, não se rejeita a hipOtese nula a este nivel de significáncia, ou
seja, não ha evidéncia estatistica de que a máquina não esteja a funcionar de
acordo corn o especificado (ou seja, pode-se considerar que a distribuiçao dos
pesos dos pacotes de esparguete embalados por esta máquina segue distribuição
normal de rnédia 500 gr e desvio-padrao 5,1 gr).
U

o teste de Kotmogorov-Smirnov de ajustamento está desenhado partindo


do pressuposto que a distribuiçâo indicada na hipótese nula está completa-
mente especificada.
Caso tal não aconteça, ou seja caso as hipoteses em teste sejam, por
exemplo
H0: X tem distribuição normal
Ha: X não tern essa distribuição

onde nào se pretende fixar a priori a media e a variância da normal a ajustar,


torna-se necessário recorrer a estimaçào desses parámetros, o que torna o
teste conservativo (ou seja, tende a näo rejeitar a hipOtese nula quando eta ë
falsa).
No entanto, 6 prática corrente a utilização deste teste nesses moldes.
TESTES NAO-PARAMETRICOS

Note-se porém que Lilliefors estudou este problema e apresentou, em 1967,


tabelas modificadas para o caso do ajustamerlto a Normal sem parâmetros
especificadOS tendo por base a mesma estatistica de teste.
Este autor apresentou ainda, em 1969, tabelas modificadas para o ajusta-
mento de uma distribuicàO exponencial'.

1 Sobre este assunto, consulte-se, por exemplo, CONOVER (1980), Pratical Nonparametric Statistics
2 ed., J. Wiley, New York, 1980, págs. 357-363.
Tabelas de contingência

3.1. Teste do Qui-Quadrado de independência

No dia-a-dia frases como estas são frequentes:

- Homens e mu/hems tOrn preferéncias diferentes, no que se refere a


prograrnas de TV
- As apetOncias para a leitura diferem consoante o estrato social em que
o indivIduo se insere.
- Independentemente da sua idade, o portuguOs gosta de fado.

Nestas afirrnaçöes está subjacente uma dupla classificação da população


em estudo:
- Na primeira classificam-se, por exemplo, Os portugueses adultos e corn
acesso a televisão, por urn lado segundo o seu sexo, e por outro, segundo o
tipo de prograrnas preferidos (p. ex: inforrnação; fumes; telenovelas; desporti-
vos; concursos; outros).
- Na segunda, cada individuo é classjficado segundo o estrato social em
que se insere e também segundo urn indicador "apetencia para a leitura',
previamente definido.
- Na terceira, tern-se por um lado uma classificação "gosta de fado
versus "não gosta de fado", e por outro o posicionamento do indivIduo no
escalão etário respectivo.
Em geral, este tipo de afirmaçOes resultaram de inferências sobre uma
arnostra da população ern estudo, classificada segundo duas variáveis quail-
tativas.
TESTES NAO-PARAMETRICOS

ExemplO 9

Duzentas donas-de-casa foram inquiridas sobre a frequência corn que vëem


televisâo, e tarnbérn sobre 0 tipo de detergente que preferencialmente compram:
A, B ou C.
A inforrnaçào obtida resultou na seguinte tabela de contingência:

Frequênc!a corn Tipo de detergente


que vO TV
A B C

Nunca
Ocasionalmente
Frequentemente
25
10

40
10
40
31
5
9
30

Total ern coluna 75 81 M


2O
Na arnostra recoihida tern-se assim, por exernplo, que 31 donas de casa vêern
frequenternente televisäo e usam o detergente B.
Outras inforrnaçOes decorrentes desta tabela:

- do total das 200 pessoas inquiridas, 25 nunca vêern TV, 74 vOem TV


ocasionairnente, enquanto que 101 o fazem frequentemente (totals ern
linha).
- do total das 200 pessoas inquiridas, 75 usam 0 detergente A, 81 o deter-
gente B e 44 0 C (totals em coluna).
- exemplo de percentagern em linha: das 25 donas de casa que nunca vêem
televisão, 20% (isto e 5 desse total) usam 0 detergente C.
- exernplo de percentagern em coluna: de todas as inquiridas que usam A
(75), aproxirnadarnente 13,3% (isto é 10 das 75) nunca vêem TV.
U

Suponha-se que so está perante uma arnostra de dirnensäo n, classificada


segundo duas variáveis qualitativas, uma corn r categorias, e outra corn c
categorias.
Note-se quo estas variáveis podem ser o resultado da tabelação de urna
variavel continua corno so pode ver no exemplo seguinte.
APLICADA

Tomem-se, por exemplo, as variáveis idade e rendimerito familiar mensal.


Fodem-se então construir as variáveis qualitativas classe etária e escalão de
rendimento.
Uma divisão possIvel seria:

Classe etária

1 Menos de 25 anos
2 Entre 25 e 35 anos
3 Entre 35 e 60 anos
4 60 anos ou mais

Escaläo de rendimento

1 Menos de 1500 contos/ano


2 Entre 1500 e 2499 contos/ano
3 Entre 2500 e 3499 contos/ano
4 Entre 3500 e 4999 contos/ano
5 5000 contos/ano ou mais

1-1
TESTES NAO-PARAMETRICOS

o objectivo desta dupla classificação é, na maioria dos casos, tentar inferir


sabre a existência ou inexistënoia de relação entre as variáveis (e consequen-
temente a etaboraçào de frases coma as que abrem este capitulo).

Exemplo 9 (continua ção)

No caso que tern vindo a ser analisado, suspeita-se que a frequëncia corn quo
a dona de casa ye televisão está relacionada corn a rnarca de detergente quo
consome.
As hipOteses a testar serão:
H0: A rnarca do detergente que a dona do casa consorne é independente da
frequência corn que ye televisâo.
Ha: A marca de detergente quo a dona de casa utiliza depende da frequência
corn quo ye televisão.

Suponha-se agora que a probabilidade de um elemento da arnostra


pertencer a A1 e Bj sirnultaneamente é p11.
Então a nUmero de individuos da amostra que so espera em
(A1, Bj ) será
Eq = flPu l

De forma análoga, seja Pj• a probabilidade de urn indivIduo pertencer a A1


(distribuiçao marginal da variável em linha) e P.j a probabilidade de um indivI-
duo pertencer a Bj (distribuiçäo marginal da variável em coluna).

Tern-se que:
- o nUrnero de individuos esperados na classe A1 da variável em linha
será E1 = np1.
- o nUmero esperado de individuos na classe Bj da variável em coluna
será = np•1

1
que 6 o valor esperado de uma distribuiçao multiriomial corn probabilidades associadas p
ESTATISTICA ,4PL!CI4DA

Existindo independéricia entre as duas variáveis, então

Pg = A. P.j

Para que valores da estatIstica de teste será rejeitada a hipótese nula?


Sendo H0 verdadeira, a diferença entre cada frequencia observada e a
respectiva frequência esperada näo deve ser grande, quando comparada corn
a grandeza desta ültima. Assirn, valores pequenos da estatIstica de teste são
cornpativeis corn a hipOtese nuta, enquanto que valores grandes denotam
TESTES NAQ.PARAMETRJCQS

discrePancias entre alguns valores observados e os respectivos valores espe-


rados e, assim, a não validade da hipótese nula.
A região critica será pois, unilateral direita. Rejeitar-se-á H0, para urn nfvel

de significãncia a, se o valor observado do teste, X 2 , for superior ou igual ao


quantil de probabilidade a de uma variável aleatOria corn distribuição do Qui-
-quadrado corn (r— 1) (c - i) graus de liberdade, ou seja

Rejeita-se H0 ao nIvel de significância a se


X 2
> Xa; (f-i) (c -i)

onde P[%r_(c_i) < Xa(r-i)(c-1)I

As hipóteses a testar, como já foi visto anteriormente, são:


H0 : a marca de detergente que a dona de casa consome 6 independente da
frequôncia corn que ye televisáo;

Ha a rnarca do detergente que a dona S casa utiliza depende da frequência


corn quo ye te/evisäo.

Definindo
A1 - a dona do casa nunca ye TV
A2 - a dona do casa ye TV ocasionaa'rnente
A3 - a dona de casa ye TV frequentemente
e
B1 - a dona do casa usa o detergente A
B2 - a dona do casa usa o detergente B
B3 - a dona do casa usa o detergente C

tern-se

Pu = P[A1 Sf1
corn Pt = P1 k] e P.j = P{Bj]

assim
ci. 0,1 - 72 x 25 -
9,375
N - 200 -

i. 02 81 >< 25 -
012 = -10,125
N = 200

401
e assim sucessivarnente, como se resume no quadro seguinte:

TA BELA OF FREQUENCIAS ESPERADAS

FrequOncia Tipo de detergente


Total em linha
corn queve TV B C
A

Nunca 9,375 10,125 5,5 25


Ocasionalmente 27,75 29,97 16,28 74
Frequentemente 37,875 40,905 22,22 101

Total em coluna 75 81 44 200

o valor do teste será então


- (10 9,375)2 + (10 10,125)2
-
- + + (30 - 22,22)2
1222
x2 - 91375 10,125 22,22
-

Dado que r = 3 e C = 3 tem-se que a estatistica de teste tern (3-1)


(3-1) = 4 graus de liberdade.
A tabela da distribuiçäo do Qui-quadrado indica que o quantil de probabilidade
0,05, para 4 graus de liberdade, é 9,49.
Assim, corno = 12,22 > 9,49, rejeita-se H0 ao nivel de significância de
5%. 0 detergente que as donas de casa utilizarn depende da frequência corn que
vêern tetevisão.

S
Tal como no teste de aderéncia do Qui-quadrado, e necessario que se
verifiquem certas condiçoes, de forma a que se possam aceitar os resultados
obtidos.
Embora não haja unanimidade entre diferentes autores, pode-se estabele-
cer para que o teste do Qui-quadrado de independOncia seja aplicável, é
necessário que:
a) Nao mais de 20% das células tenharn frequência esperada estimada
inferior a 5 (isto O não mais de 20% dos e,7 sejarn inferiores a 5);
b) Não exista qualquer célula corn valor esperado inferior a 1 (ou seja,
eq~:l Vi,Vj).

Se tal não se passar, poder-se-á proceder a fusão de algumas classes de


urna ou das duas variáveis. E porém necessário ter em conta as alteraçOes
de contexto prQvocadas por estas fusães (por exemplo, fundir as classes "ye
TV ocasionalmente>' corn "ye TV frequentemente" resulta em duas classes:
"Ve TV)> e (cNao v6 TV", o que tem urn significado diferente).
TESTES NAO-PARAMETR/CQS

3.2. Medidas de associação

Ao estudar a relaçäo entre duas variáveis qualitativas, o analista pode estar


interessado em anahsar, para atOm da existOncia/inexistência da relaçao, a sua
intensidade.
Sendo a estatIstica do Qui-quadrado tanto major quanto maior 0 o afasta-
menlo da hipOtese de independéncia, uma solução imediata seria utilizar a
valor do teste coma medida de associação. No entanto, 0 necessário ter em
consideracão que, não sO não teria a desejável propriedade de variar entre 0
e 1, coma ainda que a sua magnitude depende em sentido directo do nUmero
total de observaçöes da amostra.

Pearson sugeriu a chamado coeficiente do contingéncia, definido da


seguinte forma:

Este coeficiente varia entre 0 e 1, sendo que valores baixos de C


indicam pouca dependOncia entre as variáveis (0 se as variáveis forem
independentes) enquanto que valores altos indicam major dependéncia
entre as variáveis.

No entanto, mesmo no caso de completa associaçâo, este coeficiente não


assume o valor 1. Em geral, o valor maxima de C é n(q - 1), onde
q = mm (r, c), e assim,

q-1 < •
ESTATISTICA APLICADA

No exempto que tern sido seguido:


H0: A marca de detergente que a dona de casa consorne e independente da
frequência corn que ye tetevisão
Ha: A mama de detergente que a dona de casa utiliza depende da frequència
corn que ye televisão.
Obteve-se urn valor para a estatistica de teste de X 2 = 12,22.
Como r = c = 3 e ii = 200, tern-se que
TESTES NAO-PARAMETRJCOS

Note-se que, embora se tenha concluido que a relaçào entre as variãveis e


significativa, ela é bastante fraca, sendo que o valor do coeficiente de contingOncia
e 0,24, num máximo de 0,82, e o V de Cramer é 0,17.
Estes baixos valores dos coeficientes são também consequencia da dimensão
da amostra. 0 mesmo valor de teste, para amostras de tamanho inferior, levaria
a coeficientes de maior valor.
N

necessário ter em atenção que, sendo estes coeficientes calculados com


E
podem ser interpretados caso sejam
base na estatIstiCa do Qul-Quadrado, so
verificadas as condicöes de aplicabilidade do teste referidas anteriormente.
Refira-se ainda que, quando as variáveis em teste são de natureza ordinal,
e o Tau C
podem-se catcular outras medidas de associacão - como o Tau B
de Kendall - que tomam em consideracão a ordem existente entre os valores
19801.
das variáVeiS. Sobre este assunto veja-Se por exemplo EvERITT,

S., The Analysis of contingency Tables, Monographs on Applied Probability and


1 EvERITr, B.
Statistics, Chapman & Halt, 1980 (reedicãO).
Testes a igualdade de duas
ou mais distribuiçöes

o conjunto de testes que irão ser apresentados do seguida tOrn urn deno-
minador cornurn. Em todos eles, genericamente, as hipóteses a testar são:
H0: As diferentes amostras são provenientes de populaçöes corn a mesrna
distribuição.
Ha: Polo rnenos uma das amostras e proveniente de urna população com
distribuição diferente das restantes.

Não interessa, em geral, qua[ é a forma da distribuição de cada população


subjacente. 0 que interessa é testar so é a rnesrna para todas as amostras,
ou não.

Num certo inquérito sobre autornOveis, pediu-se a opinião dos indivIduos (na
escaa do 1 - nada importante a 5 - mu/to importante) sobre urn conjunto de
questäes caracterizadoras de urn veiculo automOvel, entre as quais
- facilidade de conduçao
- design
- conforto
- potOncia do carro
- poder do arranque
- custo de rnanutenção,
tendo-se anotado tarnbérn algurnas caracteristicas dos individuos corno a idade,
o sexo, o rendimento familiar, etc.
As variáveis de opinião são ern escala tipo Liked, donde, ordinais, e, neste
caso, assumindo urn nürnero retativarnente pequeno de valores diferentes.
Algurnas questôes podern surgir no decurso da anátise:
"Será que hornens e rnulheres dão a rnesrna irnportância ao poder de arran-
que de urn carro? E ao design?"
<'A irnportânciá dada ao custo de rnanutenção será a rnesrna para indivIduos
ern diferentes escalöes de rendimento?"
r

TESTES

"Os indivIduos darão a mesma importância a facilidade de conduçao e a


poténcia do motor?>'
No primeiro caso observa-se uma variável resposta (importância do poder de
arranque) em dois grupos (homens e muiheres). Está-se assim em presenca de
duas amostras independentes da variavel resposta.
No segundo caso, tendo sido feita a classificaçao dos rendimentos em k
escaloes, está-se em presenca de k amostras independentes da variável em
estudo <<custo de manutencão".
No terceiro caso, as amostras em causa são empareihadas: para cada mdi-
vIduo é considerado o par de respostas (importância da facilidade de condução;
importância da poténcia do motor).
I

Uma ideia imediata consistiria em comparar as respectivas médias popula-


cionais, usando o teste t-Student para amostras independentes no primeiro
caso, 0 mesmo teste, mas para amostras empareihadas no terceiro, e a análise
de variãncia simples paramétrica no segundo. Mas estas técnicas tém pressu-
postos!
I) As variáveis devem ser contInuas (embora muitas vezes este pressuposto
seja ignorado);
ii) As variáveis devem ter distribuição normal em cada grupo.
Os testes não paramétricos que a seguir se apresentam permitem respon-
der as questOes levantadas, e a outras semeihantes, servindo ainda como
atternativa aos testes paramOtricos apontados, quando estes não são utilizá-
veis.
As estatisticas de vários destes testes baseiam-se, não nos valores das
observaçães, mas sim nos seus postos.

No caso de amostras independentes, o posto de uma observação é o


nümero de ordem que Ihe corresponde considerando a ordenação indis-
tinta das amostras envolvidas.
No caso de amostras empareihadas, considera-se a amostra das
diferenças, sendo o posto de uma difereriça o lugar que the corresponde
apOs ordenação.

473
ES TA TISTICA APLICADA

Tratar-se-á, em prirneiro lugar, do caso de amostras independentes:


- duas amostras independentes, corn os testes de Mann-Whitney e 0
Kolrnogorov-Smirnov para duas amostras;
- mais de duas amostras independentes, corn o teste de Kruskall-Wallis;..
seguindo-se o caso de duas amostras empareihadas, corn o teste de
Wilcoxon.

4.1. Testes a igualdade de d!stribuiçôes


em duas amostras independentes
Como ja fol referido, o caso prático mais usual de obtenção de duas
amostras independentes consiste na análise de urna variável resposta (por
exernplo, importância da facilidade de condução de urn autornóvel), dividida
ern grupos segundo urna variavel dicotOmica de classificação (por exernplo,
sexo).
Apresentar-se-ão dois testes: o teste de Mann-Whitney, e o de Koirnogo-
rov-Srnirnov para duas amostras (designado apenas por teste de Srnirnov por
alguns autores).
o primeiro baseia-se nos postos (cf. definiçào dada ern 4.) dos valores
observados.da variável em estudo, enquanto que o segundo tern como ponto de
partida a cornparaçào das funçöes de distribuição ernpirica das duas amostras.
A irnportáncia do teste de Mann-Whitney advém do facto de ser gerairnente
considerado corno alternativa náo-paramétrica ao teste t para a diferença de
médias1.

4.1.1. Teste de Mann-Whitney

Considerern duas amostras independentes


n1 , retirada da população X
X1, X2, ..., X,1 de dirnensào
Y1, Y2, ' n2 de dimensâo n2 , retirada da populaçâo Y
e suponha-se que n1 < n2 .

1 Embora sale necessário admitir hipOteses adicionais, cONOVER, W.J. (1980). Practical Nonpara-
metric Statistics, 2nd ed., J, Wiley, New York.
IT
TESTES NAO-PARAMETRICOS

As hipOteses a testar são:


H0 : As duas arnostras são proveniontes do populaçoes corn a mesma
distribuição.
Ha: As duas amostras são provenientes do populaçoes corn distribufçoes
distintas.

Definindo F(x) coma senda a funçãa distribuiçaa da papulaçao X G(x)


coma sendo a função distribuiçaa da populaçãa Y, estas hipOteses podem ser
reformuladas:
H0 : F(x) = G(x) V

Ha : Bx: F(x) # G(x).

o mada coma a teste é canstrulda tarna-a especialmente sensivel as


diferenças nas medidas de lacalizaçãa, em particular as diferenças nas me-
dianas das distribuiçOes. Designe-se entãa par 01 a mediana da populaçaa X
e par 02 a mediana da papulação V. Entãa, padem-se redefinir as hipOteses
uma vez mais:
H0 : 01 =02
Ha : 01 02.

Peta mada coma foram calacadas as hipOteses, a teste em causa O bilate-


ral, mas padem-se também pastular hipOteses unilaterais:
H0 : e ~! e
Ha : Gi <02

teste unilateral esquerda, ande a hipOtese alternativa é a de que os valares da


primeira população estãa tendencialmente abaixa dos da segunda (e portanto
a mediana da primeira O inferior a da segunda)
au H0 : 01

Ha : Ui > 02

teste unilateral direita, onde a hipOtese alternativa é a de que as valores da


primeira papulação estãa tendencialmente acima da segunda (e portanta a
mediana daquela 6 superior a desta).
ESTATISTICA APLICADA

Considerem-se as variáveis "importaricia do design do autornóvel" <(impor-


tância do poder de arranque do automóvel" e sexo".
Poder-se-é pensar que, para as muiheres, o design de urn carro e mais
importante do que para Os hornens, enquanto que, para estes, o poder de arran-
que é mais importante do que para aquelas.
Designando por X a irnportância que as muiheres dâo ao design de urn carro,
e por Y importância que os hornens dão a esse aspecto do veiculo, a prirneira
questão pode ser respondida procedendo ao teste que tern corno hipOteses:

H0: Muiheres e hornens dâo igual irnportância ao design de urn carro


Ha: As rnuiheres dão mais irnportância que os hornens ao design de urn carro
ou seja
H0: 01 = 0 2
Ha: 01 > e.
A segunda questão pode ser respondida procedendo ao teste que tern corn
hipOteses:
H0: Muiheres e hornens dão igual irnportância ao poder de arranque de urn
carro
Ha: As rnulheres dão rnenos irnportância ao poder de arranque que os hornens
ou seja, definindo coerenternente X V,
H0: 01 = 02
Ha : Oi C 02 -
LI
A estatistica de teste baseia-se nos postos das observaçOes.
Tome-se a amostra conjunta, isto e, sern fazer diferenciaçao entre os dois
grupos, e ordenem-se os valores (mas sem perder o grupo de origem de cada
observação).
Caso nao haja empates, a observação de valor mats baixo recebe o posto
1, a segunda mais baixa recebe o posto 2, e assim sucessivarnente.
Caso existarn empates, ou seja, observaçôes corn o mesmo valor, atribua-
se as observaçöes ernpatadas o posto médio dos postos que thes
corresponderiam caso tais empates näo existissem.
TESTES NAOPARAMETRICQS

Seja R1 (1) o posto atribuido a /-ésima observação do grupo 1 e


R2 (1) 0 posto atribuldo a j-ésirna observação do grupo 2.

Uma possivel estatIstica de teste e


nl
= F?1 (I)
1=1

ou seja, a soma dos postos atribuidos aos valores da primeira amostra.

± 1) ,
Note-se que o valor mais pequeno que R1 pode ássumir é p1

que corresporide ao caso em que as n1 observaçöes da amostra 1 são as


ni (ni + 1)
primeiras, e o mais elevado é + n1n2, 0 que corresponde ao
2
caso em que as n1 observaçöes da primeira amostra são as Ultimas.

Uma outra estatistica, derivada desta, O


n + 1)
U1=n1n2+ i (n1 —F?1
2
que assumirã valores entre 0 e n1 n2 (0 quando F?1 é máxirno, n1 n2
quando R1 e minirno).

U1 pode ser interpretado da seguinte forma:


U1 e o nürnero de vezes que um valor da primeira amostra precede urn
elemento da segunda arnostra.
Assim, quando se tern, por exemplo a orderiação conjunta ABBAB,
U1 = 4 porque: o elemento de A com posto 1 precede os de B com postos 2,
3 e 5 (conta corno 3 vezes); o elemento de A corn o posto 4 precede apenas
o elemento de B corn o posto 5 (conta corno uma vez). Assim, o riümero de
vezes que urn elemento da primeira amostra precede urn elemento da segunda
é 3 + 1 = 4.
A distribuição exacta destas estatisticas obtAm-se partindo do pressuposto
que, sob H0 , todas as ordenaçöes são igualmente prováveis.

1 Embora seja necessário ter cuidado caso haja empate - nests caso, calcular Ui tazendo estas
contagens, pode levar a valores errados da estatistica.
ESTAT[STICA APLICADA

Para n1 = 2 e n2 = 3, são possIveis as seguintes ordenaçães conjuntas:

POSTO

1 2 3 4 5 Ri Ui

A A B B B 3 6
A B A B B 4 5
A B B A B 5 4
A B B B A 6 3
B A A B B 5 4
B A B A B 6 3
B A B B A 7 2
B B A A B 7 2
B B A B A 8 1
B B B A A 9 0

onde A indica urn elemento da piimeira amostra e B urn da segunda.


Note-se o nUmero total de casos é 10 = ( ) e assirn a probabilidade de

ocorréncia de cada caso é 0,1. Então, por exemplo,


P[Ri = 31 = P[U1 = 6] = 0,1
P[R1 = 5] = P{U1 = 4] = 0,1 + 0,1 = 0,2
porque quer ABBAB como BMBB levam a R1 = 5 e assim sucessivarnente. A
função de probabilidade de R1 é, neste caso,

R1 3 4 5 6 7 8 9

f(u) 0,1 0,1 0,2 0,2 0,2 0,1 0,1

n1 (n +
Note-se que f(u) é sempre urna função simétrica em relação a 2 1)
onde n = n, + n2.
[11

Embora nâo seja aqui demostrado, a funçào de probabilidade de R1 e


n1 (n + 1)
sempre simétrica em relação a , onde n = n1 + n2.
2
As duas estatIsticas, R1 e Ui, são equivalentes. Contudo iremos utilizar a
primeira, estando as tabelas da respectiva função distribuição, para diferentes
valores de n1 e n2, em anexo.
TESTES NAO-PARAMETRIC0S

Exemplo 13

Urn produto pode ser exposto em dois locals distintos A e B, de urn super-
mercado. Pretende-se saber se o local de exposiçâo influencia as vendas, ou não.
Em vários dias o produto fol exposto no local A e noutros, no local B. Observa-
ram-se as vendas em 4 dos dias de exposição em A e em 5 dos da exposiçao
em B. Os resultados obtidos foram os seguintes:

Grupo Quaritidade vendida Posto

1 10 3
1 12 5
1 15 8
1 16 9

2 6 1
2 9 2
2 11 4
2 14 7
2 13 6

As hipOteses a testar são


H0: As vendas são identicas quer o produto esteja exposto no local A, quer
no local B.
H3: As vendas são diferentes, consoante o local once o produto so oncontra
exposto.

Tendo em conta que n1 = 4 e n2 = 5 (n é sempre a dimensão do menor


grupo), o valor da estatIstica de teste será
r1 = 3 + 5 +8+9 = 25.

Tomando urn a global de 0,05, e tendo em conta que o teste é bilateral, o


quantil de probabilidade 0,025 para estes valores de n1 e n2, q (0,025; 4;5), será
12, sendo q (0,975; 4; 5) = 281.

Assirn, como 13 !~ 25 !~ 28, não se rejeita a hipOtese nula, a este nivel de


significância, isto é, as vendas são idênticas, quer o produto esteja exposto num
local, quer noutro.

1 Note-se que, sendo a distribuiçäo discreta, urn quantil de uma certa probabilidade p é 0 prirneiro
valor da variável para o qual a respectiva função de distribuiçào ultrapassa p.

479
ESTATISTICA APLICAQA

Prova-se (o que sal fora do arnbito deste livro) que


'i (n + 1)
2
e
- fli fl2 Q + 1)
12

Caso n1 ou n2 sejarn rnaiores que 10 (mas se n1 = 3 ou 4, caso


> 12) ja é possIvel utilizar a distribuição normal como aproximação.

Th n2
R1 - R1— 0
Z = = N(0, 1).
GRI
ni n2 (n + 1)
J 12

No entanto, dado que a distribuição de R1 é discreta, é aconselhável


proceder a uma correcção de continuidade (especialmente se algurna das
amostras não for razoavelmente grande). 0 valor de teste calculado deverá
ser, assirn,
Th
r1±0,5—
2

4 ni n2 (n + 1)
12

No caso de urn teste bilateral, ou unilateral esquerdo, dever-se-á sornar 0,5


para efeitos de cornparação corn o lirnite inferior da Região de Aceitaçào. No
caso de urn teste bilateral ou de urn unilateral direito, dever-se-á subtrair 05
para efeitos de cornparaçào corn o limite superior da Região de Aceitação.
Como ja foi referido anteriormente, caso existarn empates, ë atribuIdo as
observaçöes ernpatadas o posto médio dos postos que Ihes corresponderiarn
se tais empates não existissern. Se os empates forern apenas entre observa-
çöes do mesmo grupo, o valor do teste nâo será afectado. No caso de tais
empates envolverern elernentos de grupos diferentes, o valor da estatIstica de
teste altera-se, o que, mesrno assirn, não tern influencia sobre a decisão a
tomar, se o nürneró de observaçöes empatadas for pequeno.
TESTES NAO-PARAMErR,cQS

Se o nUmero de observaçöes empatadas for grande, envolver elementos


das duas amostras, e se esteja em condiçOes do utilizar a aproximação a
distribuição Normal, poder-se-á corrigir a variância do R1, da seguinte forma:
considere-se que g é o nUmero de grupos de observaçöes empatadas e, para
cada um desses grupos, I, tj é o nUmero de observaçöes empatadas. A
variância de R1, corrigida para empates, serä então

I
9 3
(32 l2
1n(n+1) 12 12
j=1

Exemplo 14

Num estudo sobre a avaliação escolar, foram inquiridos 21 estudantes (11


homens e 10 muiheres) sobre a importância que atribuem a componente de
avaliação continua, indicada numa escala de 1 a 10. Pretende-se saber so este
aspecto da avaliaçäo e igualmente importante nos dois grupos.
H0: Homens e mulheres atribuem igual importãncia a avaliação continua.
Ha: Homens e muiheres nào dao a mesma importância a este aspecto da
avaliação.

Os resultados obtidos foram os seguintes (amostra já ordenada pelo grau do


importância):

Sexo Resp. Resp. Posto Sexo Resp. Posto Sexo Resp. Posto

M 1 6 9 M 7 12,5 F 10 20
M 2 6 9 M 8 14,5 F 10 20
F 3 T
3,5F 6 9 M 8 14,5 F 10 20
F 3 6 9 M 9 17
M 4 6 9 M 9 17
NI 5 7 12,5 M 9 17

= 10 (amostra menor)
B1 = 3,5 + 3,5 + 9 + 9 + 9 + 9 + 9 + 12,5 + 20 + 20 + 20 = 124,5
g - n ümero do grupos do observaçães ernpa tadas = 6
ti - nOmero do observaçöes empatadas em cada grupo /
t1=t3=t4=2 t2=5 t5=t6=a
ES TA TISTICA APLICADA

6
t2 — 2-2 53_5 2-2 2-2
12 12 12 + 12 + 12 +
j=1

33_ 3 33_ 3
+ 12 + 12 =13,5.

- n - 21 - 21
12 -
12
= 770.

10 11
= 0,2619.
n(n - 1) - 21 x 20

= 0,2619 x (770 - 13,5) = 198,13.

10 x 11
124,5 ± 0,5 - 69,5 ± 0,5
2
Z
= fl98,131 = 14,08

z = 4,973 v z = 4,902.

A Regiao de aceitação, para urn nivel de significãncia global de 5%, conside-


rando o teste bilateral, é 1-1,96; + 1,96 [.
Sendo positivo o valor do teste, e devido a correcção de continuidade, deve-se
comparar o rnenor valor obtido corn o lirnite superior da IRA. Assirn, dever-se-á
rejeitar a hipótese nula, ao nivel de significância de 5%, ou seja, homens e
mulheres tern opiniao diferente no que concerne a irnportância da avaliação
continua.
As hipóteses poderiarn ter sido postuládas de urn rnodo unilateral:
H0: Homens e mulheres atribuem igual importânciaa ava/iação continua.
Ha: As mulheres dao mais importáncia que Os homens a avaliaçäo continua.
ou seja, considerando que Xrepresenta a opinião das mulheres (gwpo de rnenor
dimensäo) e que Y representa a opiniäo dos homens,

H0: ei = 82

Ha : Ui > 0 2
Posto desta forma, está-se perante urn teste unilateral direito. 0 ponto crItico,
considerando urn a de 0,05 é (ver tabela da distribuiçäo Normal) 1,645. Assim,
dever-se-á rejeitar, a hipOtese nula a este nIvel de significância, ou seja, as
mulheres deverão dar mais irnportância a avaliação continua que os homens.
M
TESTES NAO-PARAMETFIICOS

4.1.2. Teste de Ko!mogorOV-SmirflOV para duas amostras

Tal como no teste de Mann-Whitney, o objectivo do teste de Kolrnogorov-


-Srnirnov consiste em tentar descobrir se duas amostras podem ou não ser
consideradas como provenientes de populaçöes corn a rnesrna distribuição.
Sernethante ao teste K— S para urna amostra, o teste K— S para duas
amostras baseia-se tarnbérn na noção de função de distribuição empirica (vd.
ponto 2.2 deste capitulo). Enquanto que no primeiro se analisavam as diferen-
ças entre a função distribuição empirica e a função distribuição teOrica em
teste, no segundo o objecto de anátise é constituido pelas diferenças entre as
funçäes de distribuição empirica das duas amostras.
Intuitivarnente, caso as duas amostras sejam provenientes de populaçöes
corn a rnesma distribuição, espera-se que os vatores de uma e outra apareçarn
indiferenciadarnente, fazendo corn que, em cada ponto, a diferença entre as
funçöes seja relativarnente pequena.
0 teste de Kolrnogorov-SrnirnoV para duas amostras O aplicável desde que
a escata de medida seja pelo menos ordinal, ernbora o teste sO seja exacto
caso as variáveis sejarn de natureza continua.
Considerern-se então duas amostras independentes

(X1 , X2 , ..., X,,1 ) de dirnensão n1 , retirada da população X


e
(Y1, Y2, ., Yn 2) de dirnensão ti2, retirada da populacão Y.

As hipOteses a testar são:

H0 : As duas amostras são provenientes do populaçöes corn a mesma


distribuição.

Ha: As duas amostras são provenientes do popu/acöes corn distribuiçöes


diferentes.

Definindo como F(x) a função de distribuição de X e 0(y) a função de


distribuição de Y, estas hipOteses podem ser colocadas de urn rnodo mais
formal:
HO : F(x) = 0(x) V

Ha :RX:F(X) # 0(x).
APLICADA

Este teste pode ainda ser utilizado de modo unilateral:


H0: F(x) :~ G(x)Vx
H8 : Bx: F(x) > 6(x)
ou
H0: F(x) ~! G(x)Vx

Ha : Bx:F(x) c 0(x).

No primeiro caso unilateral, a hipOtese alternativa exprime a noção intuitiva


de que os valores assumidos por X são tendencialmente inferiores aos assU-
midos por Y (a por isso a função de distribuição de X cresce "mais
lentamente" que a de Y); no segundo caso unilateral a situação é a inversa:
a hipOtese alternativa indica que, para alguns valores de x, F(x) é menor que
6(x), crescendo portanto mais rapidamente, indicando assim atendOncia para
X assumir valores superiores a Y.
Sendo, tal como referenciado no ponto 2.2., (X1. ni' X2. ni Xni: ni) e
(Y1. n2' n2' n2: n2) as amostras apOs ordenaçao, 6 possIvel definir as
respectivas funçöes de distribuição amostrais, Fn1 (x) e Gn2 (y) que, após
concretização, darão origem as respectivas funçôes de distribuição empIrica,
S,,1 (x) e S(x).

'f:ff
TESTES NAO.PARAMETR,COS

ApOs concretização das amostras, os valores observados destas es-


tatIsticas de teste são, respectivamente,

t= max lSnjx) - S 2 (x)I

= max(S1(x) - S 2 (x))

= max (S2(x) - S 1 (x))

sendo, obviamente, t = max (t, fl.

Exemplo 15
A fábrica de margarinas "Natura" dispoe de duas máquinas de empacotarnen-
to, A e B, que utiliza para produzir pacotes de 250 gr. Embora as máquinas sejam
da mesma marca e modelo, existern dUvidas quanto ao facto de estarern a
funcionar de modo idéntico.
Foram recoihidas, de modo aleatOrio, duas arnostras de pacotes de 250 gr de
<(Natura,, a primeira proveniente da rnáquina A e corn 9 elernentos e a segunda,
proveniente da rnáquina B e de dimensão 10.
Os resultados obtidos foram os seguintes (apOs ordenacão):

Or/gem Peso do cads pacote de margar/na

M6q. A 245 247 247 249 249 249,5 250 251 251

Mãq. B 246,5 248 248 248,5 250 250,5 - 252 252 252,5 254

Pretende-se saber so as máquinas estão ou não a funcionar de modo idOntico.


Seja
I) X - peso em gramas de urn pacote, dito do 250 gr do "Natura", empaco-
tado na rriáquina A.
Y— peso em gramas do urn pacote, dito do 250 gr, do cNaturan empaco-
tado na maquina B.
ii) F (x) - fun ção do distribuição do X.
C (y) - fun ção do distribuição do Y
iii) (X1, X2, ..., X9) arnostra aieatOria de dimensão 9, retirada da populacao X
(Y1, Y2, ..., Y10) amostra aleatoria de dimensão 10, retirada da populaçao Y
que, apOs ordenação, se transformarn ern (Xi 9 X2 : 9, ..., Xg: 9)
e (YI : 10' 10'•••' 'lo: io)
ESTATISTICA APLICADA

Dado que 0 que está em jogo é saber se as maquinas se comportam de modo


idêntico, ou não, as hipóteses a testar serão:
H0 :F(x) = 6(x) V x
Ha HXF(X) # 6(x).

Como visto, a estatistica de teste será


T= sup IF9(x) - 610(x)I
X

e a sua concretizaçãO,
t= max IS9(x) - S0(x)l.
X

Consultando a tabela referente a este teste em anexo e assumindo um nivel


de significância de 5%, obtém-se 0 ponto crItico
26
Mb95 ; 9; 10 = 0,58.
45

Assim, a regra de decisão será:


Rejeitar H0 se t ~t 0,58
Nao rejeitar H0 se t < 0,58.

Calcute-se então o valor da estatistica de teste

x S9 (x) S{ (x) S9 (x) - S io

245 0,11 0,0 0,11

246,5 011 0,1 0,01

247 0,33 0,1 023

248 0,33 0,3 0,03

248,5 0,33 0,4 - 0,07

249 0,56 0,4 0,16

249,5 0,67 0,4 0,27

250 0,78 0,5 0,28

250,5 0,78 0,6 0,18

251 1,00 0,6 0,40

252 1,00 0,8 0,20

252,5 1,00 0,9 0,10

254 1,00 1,0 0

MM
TESTES NAQ-p,4R4METR/C05

Assim, o valor da estatistica de teste é:


t = 0,4
e, portanto, a decisão corisiste em não rejeitar a hipOtese nula, ao nIvel de
significâricia considerado. Consequentemente näo deverão existir diferenças no
empacotamento, eritre as duas máquinas.
U

Resta apenas acrescentar que, se as arnostras forern grandes (valores não


tabelados de n1 e n2), pode-se utilizar a aproxirnaçào que a seguir se iridica:

i + fl2
Wp;n1;n2 = r nsv I n n.j fl2

onde r depende do nIvel de significâricia assurnido. Por exemplo, para urn


teste bilateral, e corn a = 0,05, o valor de r será 1,36 (vd. Tabela ern anexo).

4.2. Teste a igualdade de distribuiçöes


em mais de duas amostras independentes -
— o teste de Kruskall-Wallis

Este teste O usualmente aceite corno urna alternativa nao-pararnétrica a


Analise de variãncia simples.
Pretende-se verificar se k arnostras aleatOrias independentes podem ou não
ser consideradas como provenientes de populaçöes corn a mesma distribuição.
Assirn, as hipOteses podern ser postuladas corno:
H0 : As k populaçães partilharn a rnesrna distribuição.

Ha : Pelo rnenos urna das populaçöes tern distribuição diferente das res-
tantes, dando origem a vabores tendencialrnente superiores.
o modo como o teste é construido torna-o especialmente sensIvel As
diferenças de medidas de Iocalizaçào, em especial as diferenças entre as
medianas das k poputaçoes. Assim, e em alternativa, as hipOteses são tam-
bOm por vezes colocadas da seguinte forma:
Sendo Oj a mediana da j-ésima população,
HO : O1=02= ... =Ok
Ha : 31, J:O Bj.

o teste de Kruskall-Wallis e uma generalizaçäo, para k> 2 amostras, do


teste de Mann-Whitney, anteriormente apresentado. Tat como este, a estatIstica:
de teste baseia-se nos postos das observaçöes (vd. ponto 4.1.1.) e como tal
a variável em estudo (nos diferentes grupos) terá de ser pelo menos de nIvel
ordinal.
Suponha-se então a existéncia de k populaçöes X1, X2, ..., X,, das quais
foram retiradas k amostras aleatOrias:
Al, X12,...,X11 ) dapopulaçãoX1

(X21, X22, ..., X22 ) da população X2

(X, X<2, ..., Xk) da população Xk


e ainda que existe independência, não sO entre os elementos de cada amostra,
como também entre elementos de amostras distintas.
A atribuiçáo de postos as diferentes observaçöes é feita nos mesmos
moldes que no teste de Mann-Whitney:
Ordenem-se as k amostras conjuntamente. A observação de mais baixo
valor tomará o posto 1, a segunda o posto 2 e assim sucessivamente. Caso
existam empates, seth atribuIdo o mesmo posto as observaçOes empatadas.
Este é a media aritmética dos postos que Ihes corresponderiam se tais empa-
tes nào existissem.
T
I
TESTES NAD-PARAMETRICOS

A estatistica de teste de Kruskall-Wallis é dada por

1 k R12 n(n+l)
nf_ 4
1 =1

(k nj
R(Xq)2 - n(n + 1)2
= n 11 41
fri

Esta estatistica reduz-se a

12
La R12 —3(n+1)
n(n+1) nj
1=1

caso não existam empates.

No caso de apenas trés grupos, em que a tamanho dos grupos não exceda
5 e näo existam empates, as valores de diferentes quantis da distribuição
exacta do teste encontram-se na tabela em anexo. Nas outras situaçOes,
utiliza-se como distribuição aproximada a Oui-quadrado com k— 1 graus de
liberdade. Esta distribuição funciona bem, mesmo para amostras pequenas,
embora neste caso tenda a tornar o teste conservativo.
Tendo determinado o quantil apropriado, t1 - a, rejeitar-.se-á H0 ao nIvel de
significancia cc se o valor calculado da estatistica de teste a ele for superior,
isto O,
Rejeita-se H0 se T> tj -

Exemplo 16

Num estudo efectuado por uma TV privada, uma das questoes colocadas foi:
'<Concorda que os ui/mes estrangeiros exibidos na televisäo devam ser dobrados
em português?". As respostas foram codificadas de i (discordo totalmente) a 10
(concordo totalmente). Os respondentes foram também classificados segundo o
ESTATISTICA APLICADA

e
seu nivet de escolaridade: 1 = mal sabe ler/escrever, 2 = escolaridade básica
3 = escolaridade media ou superior.
Numa pre-amostra de 14 individuos, dos quais 4 corn o nivel de escolaridade
Os seguintes resultados:
1, e 5 em cada urn dos outros dois niveis, obtiverarn-se

F
is do escolaridade
Nivet 2 NIveI

6 10

8 5

9 6 7

10 10 4

1 2

Seri possivel afirmar que o desejo dos portugueseS em terern fumes dobrados
vatia corn o nivet de escolaridade que possuern?

Existem então trés grupos de individuos, correspondentes aos trés niveis de


escolaridade considerados. As hipóteses em teste podern ser:
H0 : As op/fides dos indivIduos sobre a dobragem dos f/lines tern a mesma
distribuição qualquer quo sofa 0 seu nivel de escolaridade.
Ha: Existe polo menos um dos grupos onde a opinião dos indivIduos é mais
favorá vol a dobra gem dos fUmes do quo nos restantes grupos.

A estatIstica de teste será, neste caso,


(3
R12 14x152
4 I
H
( 3 llj
14 x 152
s2=l R(Xy)—
2 4
13 1 Y'
j=1
)

Assurnirido um nivel de significância a = 0,05, e corno n1 = 4


= 5,64.
e n2 = n3 = 5 (mas a ordem dos grupos é arbitraria), vern w095
Assirn, tern-se RC= [5,64; + a[ e RA = [0; 5,64[.
TESTES NAO-PARAMETRJCQS

Calcule-se agora 0 valor du teste:

Grupo 1 Grupo 2 Grupo 3

Valor Posto Valor Posto Valor Posto

10 12,5 6 5,5 10 12,5


8 8,5 8 8,5 5 4

9 10 6 5,5 7 7

10 12,5 10 12,5 4 3
1 1 2 2

n1R1 4 43,5 5 33,0 5 28,5

S 2 = 17,04 t = 3,86.
Como t = 3,86 < 5,64, entäo t c= RA, isto é, não se rejeita a hipótese nula.
Não ha evidéncia estatistica que permita concluir que a opinião dos individuos
sobre a dobragem de filmes seja influenciada pelo soul nIvel de instruçào.

Exemplo 17

Suponha-se agora que 0 caso anterior (exemplo 16) correspondia a uma fase
preliminar do inquOrito, e que, entretanto, mais respostas foram recolhidas. Adi-
cioriarido os novos casos aos anteriorrnente já obtidos, a amostra agora em
análise é (indica-se já o posto determinado para cada elemento) a seguinte:

Grupo I Grupo 2 Grupo 3

Valor Posto Valor Posto Valor Posto

10 26 6 15,5 10 26

8 19 8 19 5 13
9 22 6 15,5 7 17

10 26 10 26 4 10,5

10 26 1 1,5 2 4,5
9 22 1,5
9 19 4,5

8 8
8
O,5
M 4,5

491
ESTATISTICA APLICADA

As hipóteses a testar são as mesmas, ou seja:


H0: As opiniöos dos indivIduos sobre a dobra gem dos fumes tern a mesma
distribuição, qualquer quo sofa 0 seu nIvol de escolaridade;

Ha: Existe polo menos urn dos grupos onde a opinião dos indivIduos 6 mais
favorá vol a dobragem dos fumes do quo nos restantes grupos.
A estatistica de teste, neste caso, é

R12 28 x 292'
4 I
1=1
1)

1 3 ni
2 28x292
R(X1y)
27 - 4
j=1
)

Ter-se-á de utilizar agora a aproxirnacão pela distribuição do Qui-quadrado.


Assirn, o ponto crItico será, para urn a de 0,05,

X095 = 5,991

o RC = [5,991; + a[ RA = [0; 5,991

Calcula-se faclirnente

F?1 = 182 R2 = 126,5 H3 = 97,5 e

donde t = 12,05.

Assim t e RC e dover-se-a rejeitar H0. Assirn, a opinião dos individuos sobre


a dobragern ou nâo dos fiirnes estrangeitos O influenciada pelo seu nIvet de
escolaridade.
U

A rejeiçào da hipOtese nula permite coricluir da existência de difereriças


entre os grupos, mas não permite identificar Os grupos que diferem entre si.
Para tal, 6 necessário proceder a comparação dos grupos, dois a dois.
NAQ-PARAMETRICQS

Este procedirnento corresponde a efectuar testes cujas hipoteses pa-


dem ser postas, genericarnente, para urn certo par de grupos (I, I), i # j,
coma:
H0 : A distribuiçâo na populaçao / é idOntica a distribuiçao na população j,
Ha : A distribuição na população / é diferente da distribuiçâo na populaçäo j,
ou ainda, assumindo mais uma vez que Or O a rnediana da população r,
H0 : Oi = O j
Ha: Oi # O.

Para so conseguir urn nIvel global de significancia de a poder-se-a utilizar


a regra do decisão quo a seguir so apresenta.

As populaçOes I e 1 podern ser consideradas corno diferindo na sua


distribuição so

> t#tls2n_ 1 _T
(n—k;1 —cz/2) '4 n—k V i__L (If

sendo t(nk; 1—(x/2) o quantil do probabilidade 1 - cV do umavariável


aleatOria corn distribuição t—Student corn n — k graus do liberdade, e To
valor calculado para a teste K— W.

Exemplo 17 (continuação)

Continuando a exemplo anterior, viu-se que, naquele caso, a hipOtese nula


era rejeitada, isto 6, tinha-se chegado a conclusao que a opiniao sobre a dobra-
gem dos fumes estrangeiros dependia do nivel de escolaridade dos individuos.
Para tentar saber quais as grupos que diferem (e em que sentido) 6 necessário
calcular as diferenças IRUni - Rj/njl para todos os pares (I, 1).
APLICADA

Sendo n-28, k=3, e corn a = 0,05 tern-se t(n_k; 1 -a/2) =

= t (25; 0,975)
= 2,06;

corno S2 = 66,76 e T = 12,05, as comparaçOes possIveis são

Comparacao I R1 / n1 - R1 / flj I Valor critico

1 corn 2 10,1 6,18

1 corn 3 13,0 6,18

2 corn 3 2,9 5,82

Note-se que o ponto critico, para cada comparação, depende da dimensäo


das arnostras ern jogo. Assim, nos dois prirneiros casos, urna das arnostras tern
dimensão 8 e a outra 10, sendo o ponto critico igual nos dois casos.
A urn nivel de significância global de 5% pode-se concluir que a grupo 1 difere
não so do 2 corno tarnbOrn do 3, enquanto que Os grupos 2 e 3 não diferern entre
si. Inserindo no contexto, os individuos corn escolaridade mais baixa dão mais
irnportãncia a dobragern dos filrnes para portuguès do que os restantes (esse
grupo apresenta o maior score global). A diferença de scores globais entre os
indivIduos corn escolaridade básica e os corn escolaridade rnOdia ou superior não
pode ser considerada corno estatisticarnente significativa, assurnindo-se assirn
que tern posiçOes sernelhantes ern relação a este assunto.
Comparaçöes entre duas
amostras empareihadas

Quando urn mesrno indivIduo é exposto a duas situaçoes diferentes, ou


sujeito a dois tratarnentos sequenciais corn o rnesmo objectivo, ou quando
indivIduos o mais possIvel idénticos são sujeitos a estimulos diferentes (por
exernplo, estudo da influencia do rneio social através de gérneos), obtern-se o
que usualmente se designa por amostras empare/hadas. Vejarn-se alguns
exemplos:

Caso 1: Pretende-se estudar o efe/to de urn debate eleitoral entre o part/do


do governo e o major part/do da opos/ção na opinião p01 It/ca do eleitorado.
Para tal pediu-se a urn grupo de /nd/vIduos que expressassern a sua preferen-
c/a entre Os do/s part/dos, antes e depo/s do refer/do debate. A amostra ass/rn
obtida é ernparelhada: cons/ste em pares de preferenc/as, urn par para cada
/ndivfduo entre v/stado.

Caso 2: Urna empresa de pratos pré-cozinhados costuma preparar o seu


"Bacalhau a Braz" segundo uma rece/ta que ut/l/za ha là var/os anos. Pensa
que se passar a ad/cionar rnenos sal, 0 seu prato passará a ser ma/s aprec/ado.
Para tal esco/heu urn pa/nel de consurn/dores, aos qua/s entregou do/s pratos,
urn deles con fecc/onado corn a rece/ta trad/c/onal, o outro corn a nova, ped/n-
do-Ihes que ordenassern as suas preferéric/as. Obteve ass/rn uma amostra,
onde (1,2) s/gn/flca que a pessoa prefer/u o pr/me/ro ao segundo, e (2,1) o
/nverso - este é a/nda o caso de uma amostra empareihada.

Caso 3: Pretende-se estudar o efe/to no consurno de gasol/na, de urn novo


/ubr/f/cante para autornóve/s. Ass/m, tornaram-se urn conjunto de veIcu/os, corn
os respect/vos condutores, fazendo-os rea//zar urn dado percurso duas vezes:
da prirne/ra corn o carro /ubriflcado trad/c/ona/mente, da segunda corn o novo
lubrificante. Mantendo-se o rnesrno percurso e os mesmos automóve/s corn os
mesrnos con dutores, a On/ca d/ferença reside no /ubr/f/cante - obtOm-se uma
amostra empareihada de consurnos.
ES TATIS TI CA APLICADA

Em qualquer destes exemplos, não existe independOncia entre as duas


amostras obtidas, não se podendo assim recorrer aos testes já apreseritados
para duas amostras independentes.
Consoante o tipo de variáveis em estudo e o objectivo que se pretende
atingir, o teste a aplicar varia. Neste ponto ir-se-ão abordar três testes comum-
mente aphcados neste contexto: o teste de McNemar (ou de mudança de
opiniflo) - que poderia ser aplicado ao primeiro caso - o teste do sinai,
enquadrávei ao segundo caso, e o teste de Wilcoxon, aplicávei ao terceiro
caso apresentado.

5.1. Teste de McNemar ou de mudança de opinião

Este teste ë aphcãvel a situaçOes em que é possIvel definir duas situaçöes,


designadas por mites e depois, em que cada individuo e avaltado ou inquirido
em dots momentos temporais separados por um determinado acontecimento
e onde essa avatiaçäo dos individuos e feita utilizando uma variavel dicotomica
E o caso ja citado em que a preferOncia dos individuos entre o partido do
governo e o da oposição e avaliada antes e depots de um importante debate
eleitoral. E ainda o caso do estudo da acção de urn rnedicarnento, em que urn
grupo de indivIduos é avaliado apOs a torna de placebo, a após a toma do
medicamento em estudo.
Assumindo que X representa a ciassificação de urn indivIduo no primeiro
momento e Y a sua classificação no segundo rnornento, e que estas classifi-
caçöes são dicotOrnicas, podendo por isso ser codificadas em 0 a 1, cada par
de observaçOes sO pode ser (0,0), (0,1), (1,0) e (1,1), onde o 2 2 e 32 casos
correspondem a situaçöes de <<mudança de ctassificação", que são as que se
pretende analisar.
Pretende-se saber se o acontecirnento que medeia os dois rnornentos de
avaliação influencia ou não o comportamento dos indivIduos. Se não influen-
ciar, espera-se que o nUrnero de indivIduos cuja c!assificação se aitera num
sentido seja estatIsticarnente iguat ao nUmero de individuos cuja ciassificação
se altera no outro sentido. Assim, as hipOteses podern ser colocadas como:
H0 : P [Xi = 0, Y1= 11 = P [Xi = 1; Y1 = 01, k//

Ha : P[X1 = 0, Yt = 11 # P = 1; ?' = 01, Vi.


TESTES NAO-PARAMETRICOS

A organizaçäo do teste passa peia construção de urna tabela de contingén-


cia 2 x 2 onde numa das marginais estão as classificaçoes possIveis no
primeiro momento de avaliação, e na outra, as classificaçoes do Segundo
mornento:

Depois Y=o Y=1

Antes

X=O A B

X=1 C D

onde, por exemplo, A representa o nümero de indivIduos na amostra quo


tiveram avaliação 0 antes e depots do acontecirnento em análise (ou seja nos
dois momentos de avaliação).

Concretizando para os exemplos introduzidos:


- no primeiro, A represer.ta o nUmero de indivfduos que, quer antes quer
depois do debate, preferem o partido do governo;

- no segundo, so o 0 representar que o doente não rnelhorou, e 1 o


contrário, A será o nümero de doentes que näo melhoraram nem apOs
a torna do placebo, nem apOs a toma do medicarnento em estudo.

Os restantes valores, B, C e 0 podem ser interpretados do modo similar.

A estatistica de teste baseia-se apenas nos valores B e C, ou seja,


nos casos em que houve alteração da classificação. Tern-se assirn,

(B—C) 2
B+C

que, sob a hipOtese nula, tern distribuiçao aproximada a Qui-quadrado


corn 1 grau de liberdade.
No entanto, devido a fraca aproxirnação a Qui-quadrado, especialmen-
te quando a dimensao da arnostra é pequena, rnais especificarnente
quando B+ C seja no máximo 20, é possivel utilizar, ern alternativa,
T2=a
ESTATISTICA APLICADA

Considore-so n = B + C e a o riIvel de significância (aproximado) quo so


deseja. A escoiha do tosto e a respectiva regra do decisão associada podem
ser resumidas do modo que se segue:

Se n :~ 20:

A estatistica de teste a utilizar O T2 = B.

A distribuição dosta estatIstica, sob H0 , é a do uma binomial corn

parãmetros n = B + Cep = 05.


Sela a1 o valor mais próximo do a/2 tal que P[T2 !~ t] = a1.

Rejeita-se H0 ao nivel a' = 2a1 so T2 :~ t ou T2 ~! n - L

Caso contrarlo, não so rejeita H0 ao nivel a'

So (1 > 20:
B C" 2
Oteste a utilizaré T1 = /
B+C
(lB—Cl—i) 2 .
Pode-se utilizar a correcçao do continuidade 1 = 8+

A distribuiçào desta estatIstica é aproximada a de Qui-quadrado


corn 1 grau de liberdade. Sendo to quantil do probabilidade 1 -cc
da distribuição referida, rejeita-se H0 ao nivel a se T1 ~! t

(ou T1' ~: t, so se utiliza a correcção de continuidade). Caso contrâric


não se rejeita H0 .

Retornando o exemplo que tern vindo a ser seguido, suponha-se que 55.
indivIduos foram inquiridos no arnbito de urn estudo encomendado par urn jomal
diario de grande circulação, sabre as suas preferéncias entre 0 partido que está
no governo e o rnaior partido da oposição, antes e depois de urn importante
debate televisivo entre as respectivos lfderes.

rteJ:
TESTES NA 0-PARAMErRICOS

Os resultados encontram-se sumariados no quadro seguinte:

epois
epo
Pie fore
Antes

Governo Oposiçao

Prefere Governa 20 12

Oposição 8 15

Apenas 12 + 8 = 20 indivIduos mudaram de opinião após o debate. Sera


que se pode admitir que o nümero de mudanças
Govemo - oposição
Oposicão - governo

são estatisticamente iguais, levando a concluir que o debate não alterou substan-
cialmente o quadro politico?

As hipóteses em teste são:


H0: P (governo - oposiçao) = P (oposicão - governo)

Ha: P (governo —* oposicao) ;& P (oposicão -# governo)

ou seja, definindo

X = 0 se o indivIduo prefere o partido que está no governo, antes do debate


X = 1 se o individuo prefere o partido da oposição, antes do debate
e de igual forma, Y = 0e V = 1, para as posiçOes apOs o debate,

H0:P (Xi =0;V1=1)=P(Xj=1;Yj=0)Vi

Ha : P(X1= 0; V= 1) P = 1; V1= 0)

Dado que o nümero de mudanças de opinião, B + C, é 20, utilizar-se-á a


segunda estatIstica de tests, T2 = B que, sob H0, segue distribuição binomial
corn n = 20 e p = 0,5.
Suponha-se que o nivel de significancia desejado ronde Os 5%.
Consultando a tabela da binomial em questão, verifica-se que

P[b(20; 0,5) :~ 5] = 0,0207

P[b(20; 0,5) :~ 6] = 0,0577

donde t = 5 porque é o valor que da origem a probabilidade mais próxima de


0,025 = a/2. A decisao será não rejeitar H0 dado que T2 = 12 > 5, isto é 0
debate televisivo não deverá ter influenciado a opinião dos leitores.
9STATIST1CA APLICADA

0 nIvel de significancia real será então 2ai = 2 x 0,0207 = 0,0414.

Sirnultanearnente, urn outro jomal, urn semariário de grande tiragern, tinha


encornendado o mesmo estudo a urna outra empresa de estudos de mercado.
Esta tinha inquirido igualmente 55 indivIduos, mas as suas respostas tinharn sido:

Pre fare
Antes
Governo Oposiçáo
Prefere Governo 10 22

Oposição 10 13

0 que conctuju esta outra empresa?

Neste caso, onde n = B + C = 22 + 10 = 32, opta-se pela estatIstica

(1)

As hipóteses a colocar são idénticas ao anteriomiente apresentado:

Ho:P(XjF0;t=H)P (Xi =1;Yj=0)Vi

Ha : P = 0; Yj = 1) # P = 1; Y1 = 0) Vi

e a estatistica de teste é
T1 = (B C) 2
fl

Assumindo urn nIvel de signifiãncia de 5%, tern-se, após a consulta da tabela


do Qul-quadrado,
BC = [3,84; + cr4 BA = [0; 3,84[

0 valor do teste é Ti = (22 - 10)2 /34 = 4,2 e BC.

Assirn, esta outra empresa de estudos de mercado é conduzida a rejeicão da


hipotese nula, ao nivel de signtftcancia de 0,05, ou seja, chega a conclusão que
o debate televisivo influenciou a posicão dos indivIduos perante os partidos
considerados. Como o nUmero de mudanças governo - oposição é major do
que o nümero de mudanças oposição - govemo, e, dado o resultado do teste,
esta diferença é significativa, então pode-se tambOm concluir que 0 partido que
está no govetho "perdeu terreno" apOs o debate.
/
52. Teste do

o teste do sinai O o teste nao-pararnetriCO mais antigo de que ha conheci-


mento, tendo as suas origens no século XVIII.
Utihza-se em situaçöes em que se pretende testar se uma das variáveis de
urn par (X, Y) tende ou nâo a ser superior a outra.
Em cada par (X1, Y1) é feita urna comparacão, e o par é ctassificado como
<<+>> se X1 é preferido a Yj

se X1 é preterido a Y1

0 se X1 e Y1 sào iridiferentes (caso de empate).

'+" e P (-) de modo


Definindo P (+) como a probabilidade de obter urn par
similar, as hipOteses deste teste podern ser postas como:
H0 : P(+) = P(—)
Ha : P(+) P(—).

o nümero total de pares <+ na


binomial corn p = 0,5, e onde n
DU seja,
0,5)

As hipóteses podem também ser postuladas de urn rnodo unilateral. Assim,


se se pretender tomar como atternatiVa que Xtendea ser preferido a Y, será:
H0 : P(+) 5 P(—)
Ha : P(+) > P(—).
Se se pretender tomar como atternativa que X tende a ser preterido a Y,
as hipOteses seräo:
H0 : P(+) ~! P(—)
Ha : P(+) <
ES TA TISTICA APLICADA

a distribuição
Caso n seja superior a 20, pode-se utilizar a aproxirnação
binomial dada pela Normal. Dada que p = 0,5, tern-se que

E[T] e Var[T]
= =

e consequentemente,

T- -

T1 = n N(0,1).

oU
Assim, rejeitar-se-á H0 ao nivel de significancia a se T1 > Z1
- Z1 a a onde z1 /2
a quantil de prababitidade 1 a/2 de uma -

- -

distribuicäo normal-padrão.
A adaptação ao caso unilateral dada é evidente:

-
Se o teste for unilateral direito (Ha : P (+) > P (-)) então rejeita-se H0

seT1 > Z1_;


Se o teste for unilateral esquerdo (Ha : P(+) < P (-)) entâo rejeita-se
-

H0 seT cZi_a. -

Caso n seja inferior ou igual a 20, a construção da regra de decisão é coma


a apresentada no teste de McNemar, caso o teste seja bilateral, e que a seguir
se descreve:
Seja a 0 nIvel de significância desejado. Consulte-se a tabela da binomial
w1,
com p = 0,5 e n, nümero de casos sem empates, e tome-se o valor
tabelado, tal que P[T :5 w1] = a = a/2.
0 nivel de significância real será 2a1 = a.

Rejeite-se H0 ao nivel 2a1 se T f~- w1 ou T ~! n - w1; caso

não se rejeite H0.

Se a teste for unilateral direito (Ha : P(+) P H), seja w1 tal que
>

P [T !~ w1] = a1 = a. 0 nivel de significãncia real é a1 e rejeita-se H0 a esse

nivel se T> n -

Se o teste for unilateral esquerdo (Ha : P(+) < P (-)), determinando w1 nas

mesinas condig6es, rejeita-se H0 caso T < w1.


Urna empresa de pratos pre-cozinhados costurna preparar o seu "Bacalhau
A Braz" segundo urna receita que utiliza ha jà vários anos. Pensa que, se passar
a adicionar menos sal, o seu prato passará a ser mais apreciado. Para tal
escolheu urn grupo de 30 agregados familiares, aleatoriamente deterrninadOs, aos
quais entregou dais pratos, urn deles confeccionado corn a receita tradicional, o
outro corn a nova, pedindo-Ihes que ordenassern as suas preferéncias.

Os resultados obtidos, já tratados, foram os seguintes:

NOrnero de casos em quo a receita original foi preferida 8

NOmero de casos em quo a receita original foi preterida 15

7
NUmero do empateS

As hipóteses a testar são:


Nao existe diferenca entre a preferéncia pa/a receita tradicional a a nova,
Ho:
corn menos sal;
Ha: A receita tradicional é considerada menos agradável qua a nova, corn
menos sal;

ouseja,Ho:P(+) 'a P(—)


Ha : P(+) < P(—).

Neste caso, n = 8 + 15 = 23 > 20.


o nUrnero de casos sern empates O superior a 20, pelo que se utiliza a
aproximacão a Normal.
O teste e unilateral esquerdo e, tornando a = 0,05, tern-se .- - = - 1,645.
0 valor da estatistica de teste é
8_a
T—- -
T1=
2

Como - 1,46 > - 1,645, não se rejeita H0 a este nIvel de significância, isto é,
neste contexto, não existe evidencia estatistica suficiente que permita afirmar que
a receita corn menos sat agradou rnais.
0
ESTATISTICA APLIcADA

5.3. Teste de Wilcoxon


o teste abordado no ponto anterior (teste do sinai) teva a perda de bastante
informação se as variáveis em estudo, mesmo sendo apenas ordinais, assu-
mirem urn teque variado de valores.
De facto, no teste do sinai são apenas contabihzados as casos ern que uma
variávet assume valores inferiores, iguais ou superiores a outra, não se toman-
do em consideraçào a intensidade dessas diferenças.
o teste de Wilcoxon, baseado na noção de posto, tat como os Já abordados
testes de Mann-Whitney e de Kruskal-Wallis, permite incorporar a amplitude
das diferenças existentes entre as duas variáveis, X Y, em estudo.

Suponha-se então a existOncia de uma amostra empareihada de


çães, (Xi , Yj), do par (X, Y),
(X1, Y1) (X2, Y2) (X3, Y3) ... (X1, Y1)

que constitui uma amostra aleatOria bivariada e onde X e Y são, pelo


teoricamente, variáveis continuas.
As hipóteses subjacentes ao teste de Wilcoxon podem ser postuladas dE
l
seguinte forma :

H0 : E[X] = E[Y}
H5:E[X] E[Y]

caso os respectivos valores esperados existam, e visto supor-se de um


amostra aleatOria bivariada; se não as hipOteses podern apenas ser postula
das em termos das medianas de X de Y.
Este teste pode assim ser encarado coma uma alternativa não-paramétrk
ao teste t para a diferença de médias em amostras empareihadas.
Para construir a estatIstica de teste respectiva é necessário passar, e
prirneiro lugar, para a amostra de diferenças
Di (Yj
= -Xj) / =
e retirar da análise todos os pares corn diferença nula, isto O, passar pare
amostra de diferenças(D1, D2, •••, D) onde D, > 0 e onde n !~ n1, evidE
temente.

As hipoteses podem também ser postuladas de modo unilateral.


NAQ-PARAMETRICOS

De seguida, e de urn modo similar ao utilizado nos testes acirna referjdos,


atribui-se a cada diferença D1 urn posto R[ de acordo corn o seu valor
absoiuto: assirn, ao par corn Di mais baixo será atribuIdo o posto 1, ao
segundo mais baixo, o posto 2, e assim sucessivamente. Caso existarn em-
pates, será atribuido a cada observaçao empatada o posto rnedio dos que ihes
caberiarn caso tais empates näo existissern (vd., por exemplo, 0 ponto 4.1.
deste capItuio).

Finalrnente, o posto corn sinai, R1, base da construção da estatIstica de


teste, e obtido para cada par (Xi, Yj) corn Di > 0 da seguinte forma:
Di
Ri lD1l Rf.

Note-se que D1/ID1 l = 1 se a diferença (V j - X,) for positiva, e será —1


se tal diferença for negativa.

A estatIstica de teste será então


n

1=1

7iR

que sirnplifica, caso näo haja empates, para


n -

/=1
n(n+ 1)(2n+ 1)16

Caso não existarn empates é possIvei determinar a distribuiçao exacta da


estatIstica de teste if = R1 , alternativa a T para este caso.
D,> 0
ESTATISTICA APLICADA

No entanto, optou-se aqui pela aproximaçâo sistemática a distribuição Nor-


mal (que é sempre válida caso haja empates ou o nümero de pares em análise
seja grande). Tem-se assim que, sob H0,

fl N(O,1)

e a regra de decisão é a usual nestes casos, tomando em atençào se o teste


é bilateral ou unilateral.

Regra de decisão:

I) Teste bilateral
H0 :E(X) = E(Y)
Ha :E(X) E(Y).
Seja a o nIvel de significancia desejado e z1 a/2 o quantil
de probabilidade 1 - a/2 de uma normal-padrão.

RejeiteseHo aonIVelctseT>z1-a/2 ou T< — z1-a/2

/0 Teste unilateral esquerdo


H0:E(X) ~: E(Y)
Ha:E(X) < E(Y)
Seja a o nIvel de significãncia desejado e z1 o quantil

de probabilidade 1 - a de uma normal-padrão. Então:

Rejeite-se H0 ao nivel de signtficãncia (x se T > Z1 -a

Tome-se atençào ao modo como D1 e construido 0, = Y, - X,

iii) Teste unilateral direito


H0 : E(X) S E(Y)
Ha:E(X) > E(Y)
Seja a o nivel de significância desejado e Za o quantil de probabilidad
de uma normal-padrão. Então:
Rejeite-se H0 ao nivel de significãncia se T < Za
São distribufrjos a cada urn de 30 agregados famiiiares aleatoriarnente esco-
Ihidos duas ernbalagens de c<BacaJhau a Braz, urna fabricada Segundo a receita
tradicional, e outra Segundo a nova receita, corn menos sal. Pediu-se que ciassi-
ficassern cada uma das respectivas receitas numa escala de 0 a 10 (os inquiridos
não tinharn conhecirnento das diferenças entre as embalagens). Os pares de
resultados (X1, Y1) obtidos foram as seguintes:

(8; 7) (9; 7) (5; 3,5) (4; 2,5) (10; 7,5)


(3; 7,5) (3,5; 7,5) (4; 9,5) (5; 10) (5,5; 9)
(7; 10) (7; 10) (7; 7) (5; 5) (4; 4)
(6; 1) (9; 5) (7; 6,5) (2; 6) (2,5; 5)
(6; 95) (6,5; 7,5) (7; 7,5) (7,5; 10) (7; 10)
(8; 8) (5; 5) (6,5; 6,5) (4; 4) (8: 8)

corn X1 - classificaçao Segundo a receita tradicional


yj - claSsificaçao Segundo a nova receita.

As hipOteses em teste são:


H0: a classiflcaçao mOd/a do aBacalhau a
Braz'.' Segundo a receita tradicional
6 igual a clasSificaçao media do prato corn a nova receita;
Ha: a cIasSiflcaçao media do "Bacalhau a Braz',
da nova receita 6 melhor que
a da receita tradicional,
ou seja

H0:E(x) 15 E(Y)
Ha :E(X) > E(Y)

A tabela que se segue inciui ja, para atém das classificacoes obtidas nos dois
pratos para cada urna das 30 farnihas, a diferença de classificaçao obtida
(D1 ) e
0 respectivo posto corn Sinai.
ES7-AT1STICA APLICADA

Tradicional Nova
0 =Y X

7 10 3 13

3 75 4,5 19,5

6 6 0 n.a.

5 3,5 -1,5 -5,5

3,5 7,5 4 17

4 2,5 -1,5 -5,5

4 9,5 5,5 22

5 10 5 20,5

8 8 0

5,5 9 4,5 19,5

10 7,5 -2,5 -9,5

6 1 -5 -20,5

9 5 -4 -17

1 1 0 n.a.

6 9,5 3,5 15

6,5 7,5 1 3,5

7 7,5 0,5 1,5

7 10 3 13

3 3 0 n.a.

5 5 0 n.a.

7 6,5 -0,5 -1,5

7,5 10 2,5 9,5

7,5 10 2,5 9,5

10 10 0

7 10 3 13
TESTES NA 0-PA RAMETRICOS

Ri —70+203
=2,06.
=
17 4 R
Sendo o teste unilateral esquerdo, rejeita-se a hipOtese nula, corn urn nivel de
significância de 0,05, se T > z0,95 = 1,645.

Como T = 2,06 > 1,645, então rejeita-se H0, ou seja, a nova receita deve
obter maior aceitação junto dos consurnidores.
a
Note-se que a conclusão foi contrária obtida corn o teste do sinai: de facto,
a situação era igual, ern terrnos do nUmero de farnflias quo preferiam uma ou o
outra receita. So que, dado que o teste de Wilcoxon engloba igualmente a
amplitude das diferenças, toma-se rnuito rnais "rico" em termos da inforrnaçâo
considerada (vd. exernplo 19).
a
ExercIcios prop os tos
1. 0 recenseamento de 320 farnilias corn 5 filhos conduziu aos seguintes resul-
tados:

Rapazes 5 4 3 2 1 0

Familias 18 56 110 1 88 40 8

Verifique se estes resultados são cornpatIveis corn a hipótese do nürnero de


rapazes nurna familia de 5 filhos ser urna variavel ateatOria corn distribuição
binomial, admitindo a equiprobabilidade dos sexos, ao nivel de significancia 0,01.

A: Sim.

2. Uma empresa vende cilindros de gas cornprimido em caixas de 20 cilindros.


Ocasionalmente, urn cilindro pode ser defeituoso, isto é, ter pressão dernasiado baixa.
0 responsável pelo controlo de qualidade da empresa garante que o nürnero
de cilindros defeituosos por caixa é rnuito baixo e que a probabilidade de se
encontrar nurna caixa urn cilindro defeituoso é de 0,05.
Teste a afirmaçào do responsavel (corn (x = 0,05), sabendo que foram esco-
Ihidas de forma aleatOria 100 caixas cujos resultados foram os seguintes:

N9 de cillndros ou +
0 1 2 3 4 5 6
defeituosos por caixa

N2 de caixas
39 34 20 4 1 2 0
observadas

R: 0 responsável deve ter razão.

3. A loja "Vende Muito" tern verificado que nos Ultimos anos que 35% dos seus
clientes pagarn as suas cornpras corn cheque, 48% corn cartão de crédito e
apenas 17% fazern pagarnentos em dinheiro. Urna arnostra de 200 vendas reaD-
zadas na sernana anterior ao Natal revelou os seguintes resultados:

Cheque Cartão Dinhefro

N2 devendas 47 116 37

Será que a tipo de pagarnento que as clientes da "Vende Muito>' utilizam na


época natalicia 6 concordante corn a informação que a toja tern?
4. Uma empresa fomece ampolas de vidro a diversas empresas farmacèuticas,
em caixas de 100 ampolas cada.
As empresas clientes tém-se queixado ultimamente da deficiente qualidade
das referidas ampolas e têm vindo a devolvercaixas em que detectarn pelo menos
uma ampola defeituosa.
0 responsive] pelo controlo de qualidade juiga näo haver razôes para proce-
dimento: assegura que ë baixa a percentagern de ampolas defeituosas e que a
nUmero de ampolas defeituosas por caixa segue uma distribuiçao aproxirnada de
Poisson corn media % = 0,1.
Sabendo que foi obtida uma amostra de 200 caixas que fomeceu as resulta-
dos:

Ndeampolas I I I
0 1 2 3 4 5oumais
defeituosas J
Ndecaixas 807535 8

a) 0 que concluiria em face da hipOtese avançada pelo responsavel da qua-


lidade? Utilize urn nivel de signuficância de 0,05.
b) Explique clararnente, a escolha da(s) aba(s) do teste que utilizou.

5. Nurn estudo de rnercado sabre a audiência dos jornais semanais foram inqui-
ridos 1000 leitores de arnbos as sexos sobre a semanário que compram
preferencialmente, tendo-se encontrado as seguintes resultados:

Semancido
Expresso 0 Jamal 0 Independente
Sexo

Feminino 150 50 150

Masculirio 350 200 100

a) Será de adrnitir que a preferéncia pelos vârios semanários O irifluenciada


pelo sexo dos leitores? (Admita urn nivel de significancia de 5%).
b) Explique, clara e sucintamente, a escoiha da(s) aba(s) do teste que efec-
tuou.

6. 0 responsive] por uma cadeia de supermercados de uma empresa do rarno


alimentar deseja lançar uma nova ernbalagern para um dos seus produtos pere-
civeis, sendo expectável que o tempo de conservação (em dias) venha a ser
superior.
Para tal decidiu testar o protótipo da nova embalagern, recoihendo duas
amostras de 6 elernentos cada, tendo obtido as seguintes resuitados:
ES TA TISTI CA APLICADA

lipo de ernbalagem

Nova em ba/a gem

Qua] a decisão que a empresa dove tornar? (utilize urn nIvel de significância

do 1%)
R: A ernpresa deverá optar pela nova embalagem.

pretende avaliar a performance


7. 0 responsavel por uma cadeia de franchising
do três dos seus franchisados.
volume de vendas em contos e em seis dias aleatoria-
Para tal, recolheu 0
mente seleccionados, tendo obtido os seguintes resultados:

o que poderá o responsável concluir, ao nivel de significancia de 5%?


identicas, suspeitando-se ainda que a lola
B: As lojas não tern performances
3 é a que apresenta a performance mais fraca.

8. Urn taboratório farmacêutico pretende testar urn novo rnedicarnentO que se


pensa vir a atenuar os sintornas do privacão alcoólica, nomeadarnente os tremo-
res, ern doentes corn intençöes de desintoxicacãO.
0 novo rnedicarnento foi aplicado a 5 alcoólicos, tendo-se avaliado os sinto-
mas destes doentes em dois momentos distintos: antes e apOs o perlodo de
medicacãO. Os resultados obtidos foram os seguintes:

I H
Depois Corn Sern
trernores trernores
Antes

5 17
ComtrernOres
3
SemtrefllOres

Que poderá concluir ao nIvel de significaflCia do 5%?

B: 0 novo rnedicarnento influencia a existéncia de tremores (diminui).


Apên dice

Tabelas de distribuição
- DISTRIBu/cAo BINOMIAL

DISTRIBUIçAO BINOMIAL
VALORES DA FUN9AO DE PROBABILIDADE

p
n x 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5

0 0,9500 0,9000 0,8500 0,8000 0,7500 0,7000 0,6500 0,6000 05500 0,5000
1 0,0500 0,1000 0,1500 0,2000 0,2500 0,3000 0,3500 0,4000 0,4500 0,5000

2 0 0,9025 0,8100 0,7225 0,6400 0,5625 0,4900 0,4225 0,3600 0,3025 0,2500
1 0,0950 0,1800 0,2550 0,3200 0,3750 0,4200 0,4550 0,4800 0,4950 0,5000
2 0,0025 0,0100 0,0225 0,0400 0,0625 0,0900 0,1225 0,1600 0,2025 0,2500

3 0 0,8574 0,7290 0,6141 0,5120 0,4219 0,3430 0,2746 0,2160 0,1664 0,1250
1 0,1354 0,2430 0,3251 0,3840 0,4219 0,4410 0,4436 0,4320 0,4064 0,3750
2 0,0071 0,0270 0,0574 0,0960 0,1406 0,1890 0,2389 0,2880 0,3341 0,3750
3 0,0001 0,0010 0,0034 0,0080 0,0156 0,0270 0,0429 0,0640 0,0911 0,1250

4 0 0,8145 0,6561 0,5220 0,4096 0,3164 0,2401 0,1785 0,1296 0,0915 0,0625
1 0,1715 0,2916 0,3685 0,4096 0,4219 0,4116 0,3845 0,3456 0,2995 0,2500
2 0,0135 0,0486 0,0975 0,1536 0,2109 0,2646 0,3105 0,3456 0,3675 0,3750
3 0,0005 0,0036 0,0115 0,0258 0,0469 0,0756 0,1115 0,1536 0,2005 0,2500
4 0,0000 0,0001 0,0005 0,0016 0,0039 0,0081 0,0150 0,0256 0,0410 0,0625

5 0 0,7738 0,5905 0,4437 0,3277 0,2373 0,1681 0,1160 0,0778 0,0503 0,0313
0,2036 0,3281 0,3915 0,4096 0,3955 0,3601 0,3124 0,2592 0,2059 0,1563
2 0,0214 0,0729 0,1382 0,2048 0,2637 0,3087 0,3364 0,3456 0,3369 0,3125
3 0,0011 0,0081 0,0244 0,0512 0,0879 0,1323 0,1811 0,2304 0,2757 0,3125
4 0,0000 0,0005 0,0022 0,0064 0,0146 0,0283 0,0488 0,0768 0,1128 0,1563

5 0,0000 0,0000 0,0001 0,0003 0,0010 0,0024 0,0053 0,0102 0,0185 0,0313

6 0 0,7351 0,5314 0,3771 0,2621 0,1780 0,1176 0,0754 0,0467 0,0277 0,0156
1 0,2321 0,3543 0,3993 0,3932 0,3560 0,3025 0,2437 0,1866 0,1359 0,0938
2 0,0305 0,0984 0,1762 0,2458 0,2966 0,3241 0,3280 0,3110 0,2780 0,2344
3 0,0021 0,0146 0,0415 0,0819 0,1318 0,1852 0,2355 0,2765 0,3032 0,3125
4 0,0001 0,0012 0,0055 0,0154 0,0330 0,0595 0,0951 0,1382 0,1861 0,2344

5 0,0000 0,0001 0,0004 0,0015 0,0044 0,0102 0,0205 0,0369 0,0609 0,0938
6 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0018 0,0041 0,0083 0,0156

7 0 0,6983 0,4783 0,3206 0,2097 0,1335 0,0824 0,0490 0,0280 0,0152 0,0078
1 0,2573 0,3720 0,3960 0,3670 0,3115 0,2471 0,1848 0,1306 0,0872 0,0547
2 0,0406 0,1240 0,2097 0,2753 0,3115 0,3177 0,2985 0,2613 0,2140 0,1641
3 0,0036 0,0230 0,0617 0,1147 0,1730 0,2269 0,2679 0,2903 0,2918 0,2734
4 0,0002 0,0026 0,0109 0,0287 0,0577 0,0972 0,1442 0,1935 0,2388 0,2734

5 0,0000 0,0002 0,0012 0,0043 0,0115 0,0250 0,0466 0,0774 0,1172 0,1641
6 0,0000 0,0000 0,0001 0,0004 0,0013 0,0036 0,0084 0,0172 0,0320 0,0547
7 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0006 0,0016 0,0037 0,0078

8 0 0,6634 0,4305 0,2725 0,1678 0,1001 0,0576 0,0319 0,0168 0,0084 0,0039
1 0,2793 0,3826 0,3847 0,3355 0,2670 0,1977 0,1373 0,0896 0,0548 0,0313
2 0,0515 0,1488 0,2376 0,2936 0,3115 0,2965 0,2587 0,2090 0,1569 0,1094
3 0,0054 0,0331 0,0839 0,1468 0,2076 0,2541 0,2786 0,2787 0,2568 0,2188
4 0,0004 0,0046 0,0185 0,0459 0,0865 0,1361 0,1875 0,2322 0,2627 0,2734

5 0,0000 0,0004 0,0026 0,0092 0,0231 0,0467 0,0808 0,1239 0,1719 0,2188
6 0,0000 0,0000 0,0002 0,0011 0,0038 0,0100 0,0217 0,0413 0,0703 0,1094
7 0,0000 0,0000 0,0000 0,0001 0,0004 0,0012 0,0033 0,0079 0,0164 0,0313
8 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0007 0,0017 0,0039

515
ESTATISTICAAPL!CADA

'p
0,05 0,1 0,15 0,2 025 0,3 035 0,4 0,45 0,5
n x
9 0 0,6302 0,3874 0,2316 0,1342 0,0751 0,0404 0,0207 0,0101 0,0046 0,0020
0,2985 0,3874 0,3679 0,3020 0,2253 0,1556 0,1004 0,0605 0,0339 0,0176
1
0,0629 0,1722 0,2597 0,3020 0,3003 0,2668 0,2162 0,1612 0,1110 0,0703
2
0,0077 0,0446 0,1069 0,1762 0,2336 0,2668 0,2716 0,2508 0,2119 0,1641
3
0,0006 0,0074 0,0283 0,0661 0,1168 0,1715 0,2194 0,2508 0,2600 0,2461
4
0,0000 0,0008 0,0050 0,0165 0,0389 0,0735 0,1181 0,1672 0,2128 0,2461
5
0,0000 0,0001 0,0006 0,0028 0,0087 0,0210 0,0424 0,0743 0,1160 0,1641
6
7 0,0000 0,0000 0,0000 0,0003 0,0012 0,0039 0,0098 0,0212 0,0407 0,0703
0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0013 0,0035 0,0083 0,0176
8
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0008 0,0020

10 0 0,5987 0,3487 0,1969 0,1074 0,0563 0,0282 0,0135 0,0060 0,0025 0,0010
1 0,3151 0,3874 0,3474 0,2684 0,1877 0,1211 0,0725 0,0403 0,0207 0,0098
2 0,0746 0,1937 0,2759 0,3020 0,2816 0,2335 0,1757 0,1209 0,0763 0,0439
3 0,0105 0,0574 0,1298 0,2013 0,2503 0,2668 0,2522 0,2150 0,1665 0,1172
4 0,0010 0,0112 0,0401 0,0881 0,1460 0,2001 0,2377 0,2508 0,2384 0,2051

5 0,0001 0,0015 0,0085 0,0264 0,0584 0,1029 0,1536 0,2007 0,2340 0,2461
6 0,0000 0,0001 0,0012 0,0055 0,0162 0,0368 0,0689 0,1115 0,1596 0,2051
7 0,0000 0,0000 0,0001 0,0008 0,0031 0,0090 0,0212 0,0425 0,0746 0,1172
8 0,0000 0,0000 0,0000 0,0001 0,0004 0,0014 0,0043 0,0106 0,0229 0,0439
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0016 0,0042 0,0098

10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010

11 0 0,5688 0,3138 0,1673 0,0859 0,0422 0,0198 0,0088 0,0036 0,0014 0,0005
1 0,3293 0,3835 0,3248 0,2362 0,1549 0,0932 0,0518 0,0266 0,0125 0,0054
2 0,0867 0,2131 0,2866 0,2953 0,2581 0,1998 0,1395 0,0887 0,0513 0,0269
3 0,0137 0,0710 0,1517 0,2215 0,2581 0,2568 0,2254 0,1774 0,1259 0,0806
4 0,0014 0,0158 0,0536 0,1107 0,1721 0,2201 0,2428 0,2365 0,2060 0,1611

5 00001 00025 00132 00388 00803 01321 01830 02207 02360 02256
6 0,0000 0,0003 0,0023 0,0097 0,0268 0,0566 0,0985 0,1471 0,1931 0,2256
7 0,0000 0,0000 0,0003 0,0017 0,0064 0,0173 0,0379 0,0701 0,1128 0,1611
8 0,0000 0,0000 0,0000 0,0002 0,0011 0,0037 0,0102 0,0234 0,0462 0,0806
9 00000 00000 00000 00000 00001 00005 00018 00052 00126 00269

10 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0021 0,0054
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0005

12 0 0,5404 0,2824 0,1422 0,0687 0,0317 0,0138 0,0057 0,0022 0,0008 0,0002
1 0,3413 0,3766 0,3012 0,2062 0,1267 0,0712 0,0368 0,0174 0,0075 0,0029
2 0,0988 0,2301 0,2924 0,2835 0,2323 0,1678 0,1088 0,0639 0,0339 0,0161
3 0,0173 0,0852 0,1720 0,2362 0,2581 0,2397 0,1954 0,1419 0,0923 0,0537
4 00021 00213 00683 01329 01936 02311 02367 02128 01700 01208

5 00002 00038 00193 00532 01032 01585 02039 02270 02225 01934
6 0,0000 0,0005 0,0040 0,0155 0,0401 0,0792 0,1281 0,1766 0,2124 0,2256
7 0,0000 0,0000 0,0006 0,0033 0,0115 0,0291 0,0591 0,1009 0,1489 0,1934
8 00000 00000 00001 00005 00024 00078 00199 00420 00762 01208
9 00000 00000 00000 00001 00004 00015 00048 00125 00277 00537

10 00000 00000 00000 00000 00000 00002 00008 00025 00068 00161
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0029
12 00000 00000 00000 00000 00000 00000 00000 00000 00001 00002

13 0 05133 02542 01209 00550 00238 00097 00037 00013 00004 00001
1 0,3512 0,3672 0,2774 0,1787 0,1029 0,0540 0,0259 0,0113 0,0045 0,0016
2 0,1109 0,2448 0,2937 0,2680 0,2059 0,1388 0,0836 0,0453 0,0220 0,0095
3 0,0214 0,0997 0,1900 0,2457 0,2517 0,2181 0,1651 0,1107 0,0660 0,0349
4 00028 00277 00838 01535 02097 02337 02222 01845 01350 00873
LflO I flIbU!O HJJVQM!AL

p
005 01 015 02 025 03 035 04045 05
5 00003 00055 00266 00691 01258 01803 02154 02214 01989 01571
6 00000 00008 00063 00230 00559 01030 01546 01968 02169 02095
7 00000 00001 00011 00058 00186 00442 00833 01312 01775 02095
8 00000 00000 00001 00011 00047 00142 00336 00656 01089 01571
9 00000 00000 00000 00001 00009 00034 00101 00243 00495 00873

IC 00000 00000 00000 00000 00001 00006 00022 00065 00162 00349
11 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0012 0,0036 0,0095
12 00000 00000 00000 00000 00000 00000 00000 00001 00005 00016
13 00000 00000 00000 00000 00000 00000 00000 00000 00000 00001

14 0 0,4877 0,2288 0,1028 0,0440 0,0178 0,0068 0,0024 0,0008 0,0002 0,0001
1 0,3593 0,3559 0,2539 0,1539 0,0832 0,0407 0,0181 0,0073 0,0027 0,0009
2 0,1229 0,2570 0,2912 0,2501 0,1802 0,1134 0,0634 0,0317 0,0141 0,0056
3 0,0259 0,1142 0,2056 0,2501 0,2402 0,1943 0,1366 0,0845 0,0462 0,0222
4 0,0037 0,0349 0,0998 0,1720 0,2202 0,2290 0,2022 0,1549 0,1040 0,0611
5 0,0004 0,0078 0,0352 0,0860 0,1468 0,1963 0,2178 0,2066 0,1701 0,1222
6 0,0000 0,0013 0,0093 0,0322 0,0734 0,1262 0,1759 0,2066 0,2088 0,1833
7 0,0000 0,0002 0,0019 0,0092 0,0280 0,0618 0,1082 0,1574 0,1952 0,2095
8 0,0000 0,0000 0,0003 0,0020 0,0082 0,0232 0,0510 0,0918 0,1398 0,1833
9 0,0000 0,0000 0,0000 0,0003 0,0018 0,0066 0,0183 0,0408 0,0762 0,1222
10 0,0000 0,0000 0,0000 0,0000 0,0003 0,0014 0,0049 0,0136 0,0312 0,0611
Il 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0010 0,0033 0,0093 0,0222
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0019 0,0056
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0009
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
15 0 0,4633 0,2059 0,0874 0,0352 0,0134 0,0047 0,0016 0,0005 0,0001 0,0000
1 0,3658 0,3432 0,2312 0,1319 0,0668 0,0305 0,0126 0,0047 0,0016 0,0005
2 0,1348 0,2669 0,2856 0,2309 0,1559 0,0916 0,0476 0,0219 0,0090 0,0032
3 0,0307 0,1285 0,2184 0,2501 0,2252 0,1700 0,1110 0,0634 0,0318 0,0139
4 0,0049 0,0428 0,1156 0,1876 0,2252 0,2186 0,1792 0,1268 0,0780 0,0417
5 0,0006 0,0105 0,0449 0,1032 0,1651 0,2061 0,2123 0,1859 0,1404 0,0916
6 0,0000 0,0019 0,0132 0,0430 0,0917 0,1472 0,1906 0,2066 0,1914 0,1527
7 0,0000 0,0003 0,0030 0,0138 0,0393 0,0811 0,1319 0,1771 0,2013 0,1964
8 0,0000 0,0000 0,0005 0,0035 0,0131 0,0348 0,0710 0,1181 0,1647 0,1964
9 0,0000 0,0000 0,0001 0,0007 0,0034 0,0116 0,0298 0,0612 0,1048 0,1527
10 0,0000 0,0000 0,0000 0,0001 0,0007 0,0030 0,0096 0,0245 0,0515 0,0916
11 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0074 0,0191 0,0417
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0016 0,0052 0,0139
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0032
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005
15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
16 0 0,4401 0,1853 0,0743 0,0281 0,0100 0,0033 0,0010 0,0003 0,0001 0,0000
I 0,3706 0,3294 0,2097 0,1126 0,0535 0,0228 0,0087 0,0030 0,0009 0,0002
2 0,1463 0,2745 0,2775 0,2111 0,1336 0,0732 0,0353 0,0150 0,0056 0,0018
3 0,0359 0,1423 0,2285 0,2463 0,2079 0,1465 0,0888 0,0468 0,0215 0,0085
4 0,0061 0,0514 0,1311 0,2001 0,2252 0,2040 0,1553 0,1014 0,0572 0,0278
5 0,0008 0,0137 0,0555 0,1201 0,1802 0,2099 0,2008 0,1623 0,1123 0,0667
6 0,0001 0,0028 0,0180 0,0550 0,1101 0,1649 0,1982 0,1983 0,1684 0,1222
7 0,0000 0,0004 0,0045 0,0197 0,0524 0,1010 0,1524 0,1889 0,1969 0,1746
8 0,0000 0,0001 0,0009 0,0055 0,0197 0,0487 0,0923 0,1417 0,1812 0,1964
9 0,0000 0,0000 0,0001 0,0012 0,0058 0,0185 0,0442 0,0840 0,1319 0,1746
ESTATISTICA APLICADA

p
x 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5

10 0,0000 0,0000 0,0000 0,0002 0,0014 0,0056 0,0167 0,0392 0,0755 0,1222
11 0,0000 0,0000 0,0000 0,0000 0,0002 0,0013 0,0049 0,0142 0,0337 0,0667
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0040 0,0115 0,0278
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 00008 0,0029 0,0085
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018

15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

17 0 0,4181 0,1668 0,0631 0,0225 0,0075 0,0023 0,0007 0,0002 0,0000 0,0000
1 0,3741 0,3150 0,1893 0,0957 0,0426 0,0169 0,0060 0,0019 0,0005 0,0001
2 0,1575 0,2800 0,2673 0,1914 0,1136 0,0581 0,0260 0,0102 0,0035 0,0010
3 0,0415 0,1556 0,2359 0,2393 0,1893 0,1245 0,0701 0,0341 0,0144 0,0052
4 0,0076 0,0605 0,1457 0,2093 0,2209 0,1868 0,1320 0,0796 0,0411 0,0182

5 0,0010 0,0175 0,0668 0,1361 0,1914 0,2081 0,1849 0,1379 0,0875 0,0472
6 0,0001 0,0039 0,0236 0,0680 0,1276 0,1784 0,1991 0,1839 0,1432 0,0944
7 0,0000 0,0007 0,0065 0,0267 0,0668 0,1201 0,1685 0,1927 0,1841 0,1484
8 0,0000 0,0001 0,0014 0,0084 0,0279 0,0644 0,1134 0,1606 0,1883 0,1855
9 0,0000 0,0000 0,0003 0,0021 0,0093 0,0276 0,0611 0,1070 0,1540 0,1855

10 0,0000 0,0000 0,0000 0,0004 0,0025 0,0095 0,0263 0,0571 0,1008 0,1484
11 0,0000 0,0000 0,0000 0,0001 0,0005 0,0026 0,0090 0,0242 0,0525 0,0944
12 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0081 0,0215 0,0472
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0021 0,0068 0,0182
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0016 0,0052

15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

18 0 0,3972 0,1501 0,0536 0,0180 0,0056 0,0016 0,0004 0,0001 0,0000 0,0000
1 0,3763 0,3002 0,1704 0,0811 0,0338 0,0126 0,0042 0,0012 0,0003 0,0001
2 0,1683 0,2835 0,2556 0,1723 0,0958 0,0458 0,0190 0,0069 0,0022 0,0006
3 0,0473 0,1680 0,2406 0,2297 0,1704 0,1046 0,0547 0,0246 0,0095 0,0031
4 0,0093 0,0700 0,1592 0,2153 0,2130 0,1681 0,1104 0,0614 0,0291 0,0117

5 0,0014 0,0218 0,0787 0,1507 0,1988 0,2017 0,1664 0,1146 0,0666 0,0327
6 0,0002 0,0052 0,0301 0,0816 0,1436 0,1873 0,1941 0,1655 0,1181 0,0708
7 0,0000 0,0010 0,0091 0,0350 0,0820 0,1376 0,1792 0,1892 0,1657 0,1214
8 0,0000 0,0002 0,0022 0,0120 0,0376 0,0811 0,1327 0,1734 0,1864 0,1669
9 0,0000 0,0000 0,0004 0,0033 0,0139 0,0386 0,0794 0,1284 0,1694 0,1855

10 0,0000 0,0000 0,0001 0,0008 0,0042 0,0149 0,0385 0,0771 0,1248 0,1669
11 0,0000 0,0000 0,0000 0,0001 0,0010 0,0046 0,0151 0,0374 0,0742 0,1214
12 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0047 0,0145 0,0354 0,0708
13 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0045 0,0134 0,0327
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011 0,0039 0,0117

15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0009 0,0031
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

19 0 0,3774 0,1351 0,0456 0,0144 0,0042 0,0011 0,0003 0,0001 0,0000 0,0000
1 0,3774 0,2852 0,1529 0,0685 0,0268 0,0093 0,0029 0,0008 0,0002 0,0000
2 0,1787 0,2852 0,2428 0,1540 0,0803 0,0358 0,0138 0,0046 0,0013 0,0003
3 0,0533 0,1796 0,2428 0,2182 0,1517 0,0869 0,0422 0,0175 0,0062 0,0018
4 0,0112 0,0798 01714 0,2182 0,2023 0,1491 0,0909 0,0467 0,0203 0,0074
DISTRIBUJQAO BINOMIAL

p
n x 005 01 015 02 025 03 035 04 045 05

5 00018 00266 00907 01636 02023 01916 01468 00933 00497 00222
6 00002 00069 00374 00955 01574 01916 01844 01451 00949 00518
7 00000 00014 00122 00443 00974 01525 01844 01797 01443 00961
8 00000 00002 00032 00166 00487 00981 01489 01797 01771 01442
9 00000 0,0000 0,0007 0,0051 00198 0,0514 0,0980 0,1464 01771 0,1762

10 0,0000 0,0000 0,0001 0,0013 0,0066 0,0220 0,0528 0,0976 0,1449 0,1762
11 0,0000 0,0000 0,0000 0,0003 0,0018 0,0077 0,0233 0,0532 0,0970 0,1442
12 0,0000 0,0000 0,0000 0,0000 0,0004 0,0022 0,0083 0,0237 0,0529 0,0961
13 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0024 0,0085 0,0233 0,0518
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0024 0,0082 0,0222

15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0022 0,0074
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0005 0,0018
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

20 0 0,3585 0,1216 0,0388 0,0115 0,0032 0,0008 0,0002 0,0000 0,0000 0,0000
1 0,3774 0,2702 0,1368 0,0576 0,0211 0,0068 0,0020 0,0005 0,0001 0,0000
2 0,1887 0,2852 0,2293 0,1369 0,0669 0,0278 0,0100 0,0031 0,0008 0,0002
3 0,0596 0,1901 0,2428 0,2054 0,1339 0,0716 0,0323 0,0123 0,0040 0,0011
4 0,0133 0,0898 0,1821 0,2182 0,1897 0,1304 0,0738 0,0350 0,0139 0,0046

5 0,0022 0,0319 0,1028 0,1746 0,2023 0,1789 0,1272 0,0746 0,0365 0,0148
6 0,0003 0,0089 0,0454 0,1091 0,1686 0,1916 0,1712 0,1244 0,0746 0,0370
7 0,0000 0,0020 0,0160 0,0545 0,1124 0,1643 0,1844 0,1659 0,1221 0,0739
8 0,0000 0,0004 0,0046 0,0222 0,0609 0,1144 0,1614 0,1797 0,1623 0,1201
9 0,0000 0,0001 0,0011 0,0074 0,0271 0,0654 0,1158 0,1597 0,1771 0,1602

10 0,0000 0,0000 0,0002 0,0020 0,0099 0,0308 0,0686 0,1171 0,1593 0,1762
11 0,0000 0,0000 0,0000 0,0005 0,0030 0,0120 0,0336 0,0710 0,1185 0,1602
12 0,0000 0,0000 0,0000 0,0001 0,0008 0,0039 0,0136 0,0355 0,0727 0,1201
13 0,0000 0,0000 0,0000 0,0000 0,0002 0,0010 0,0045 0,0146 0,0366 0,0739
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0012 0,0049 0,0150 0,0370

15 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0049 0,0148
16 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0013 0,0046
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0011
18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002
19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

20 1 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
DISTRIBUIçAO DE POISSON
VALORES DA FUNcAO DE PROBABILIDADE

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
N
0 0,9048 0,8187 0,7408 0,6703 0,6065 0,5488 0,4966 0,4493 0,4066 0,3679
I 0,0905 0,1637 0,2222 0,2681 0,3033 0,3293 0,3476 0,3595 0,3659 0,3679
2 0,0045 0,0164 0,0333 0,0536 0,0758 0,0988 0,1217 0,1438 0,1647 01839
3 0,0002 0,0011 0,0033 0,0072 0,0126 0,0198 0,0284 0,0383 0,0494 0,0613
4 0,0000 0,0001 0,0003 00007 0,0016 0,0030 0,0050 0,0077 0,0111 0,0153

5 00000 00000 00000 00001 00002 00004 00007 00012 00020 00031
6 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0003 0,0005
7 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 010001

1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0

0 0,3329 0,3012 0,2725 0,2466 0,2231 0,2019 0,1827 0,1653 0,1496 0,135
0,3662 0,3614 0,3543 0,3452 0,3347 0,3230 0,3106 0,2975 0,2842 0,270
2 0,2014 0,2169 0,2303 0,2417 0,2510 0,2584 0,2640 0,2678 0,2700 0,270
3 0,0738 0,0867 0,0998 0,1128 0,1255 0,1378 0,1496 0,1607 0,1710 0,180
4 0,0203 0,0260 0,0324 0,0395 0,0471 0,0551 0,0636 0,0723 0,0812 0,090

5 0,0045 0,0062 0,0084 0,0111 0,0141 0,0176 0,0216 0,0260 0,0309 0,036
6 0,0008 0,0012 0,0018 0,0026 0,0035 0,0047 0,0061 0,0078 0,0098 0,012
7 0,0001 0,0002 0,0003 0,0005 0,0008 0,0011 0,0015 0,0020 0,0027 0,003
8 0,0000 0,0000 0,0001 0,0001 0,0001 0,0002 0,0003 0,0005 0,0006 0,000
9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,000

2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0

0 0,1225 0,1108 0,1003 0,0907 0,0821 0,0743 0,0672 0,0608 0,0550 0,04
0,2572 0,2438 0,2306 0,2177 0,2052 0,1931 0,1815 0,1703 0,1596 0,14
2 0,2700 0,2681 0,2652 0,2613 0,2565 0,2510 0,2450 0,2384 0,2314 0,224
3 0,1890 0,1966 0,2033 0,2090 0,2138 0,2176 0,2205 0,2225 0,2237 0,224
4 0,0992 0,1082 0,1169 0,1254 0,1336 0,1414 0,1488 0,1557 0,1622 0,16E

5 0,0417 0,0476 0,0538 0,0602 0,0668 0,0735 0,0804 0,0872 0,0940 0,10C
6 0,0146 0,0174 0,0206 0,0241 0,0278 0,0319 0,0362 0,0407 0,0455 0,05C
7 0,0044 0,0055 0,0068 0,0083 0,0099 0,0118 0,0139 0,0163 0,0188 0,021
8 0,0011 0,0015 0,0019 0,0025 0,0031 0,0038 0,0047 0,0057 0,0068 000€
9 0,0003 0,0004 0,0005 0,0007 0,0009 0,0011 0,0014 0,0018 0,0022 0,00

10 0,0001 0,0001 0,0001 0,0002 0,0002 0,0003 0,0004 0,0005 0,0006 0,00(
II 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0002 0,00C
12 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,00C

520
D!$TR/BujcAo DE POISSON

3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0
0 0,0450 0,0408 0,0369 0,0334 0,0302 0,0273 0,0247 0,0224 0,0202 0,0183
1 0,1397 0,1304 0,1217 0,1135 0,1057 0,0984 0,0915 0,0850 0,0789 0,0733
2 0,2165 0,2087 0,2008 0,1929 0,1850 0,1771 0,1692 0,1615 0,1539 0,1465
3 0,2237 0,2226 0,2209 0,2186 0,2158 0,2125 0,2087 0,2046 0,2001 0,1954
4 0,1733 0,1781 0,1823 0,1858 0,1888 0,1912 0,1931 0,1944 0,1951 0,1954
5 0,1075 0,1140 0,1203 0,1264 0,1322 0,1377 0,1429 0,1477 0,1522 0,1563
6 0,0555 0,0608 0,0662 0,0716 0,0771 0,0826 0,0881 0,0936 0,0989 0,1042
7 0,0246 0,0278 0,0312 0,0348 0,0385 0,0425 0,0466 0,0508 0,0551 0,0595
8 0,0095 0,0111 0,0129 0,0148 0,0169 0,0191 0,0215 0,0241 0,0269 0,0298
9 0,0033 0,0040 0,0047 0,0056 0,0066 0,0076 0,0089 0,0102 0,0116 0,0132
10 0,0010 0,0013 0,0016 0,0019 0,0023 0,0028 0,0033 0,0039 0,0045 0,0053
11 0,0003 0,0004 0,0005 0,0006 0,0007 0,0009 0,0011 0,0013 0,0016 0,0019
12 0,0001 0,0001 0,0001 0,0002 0,0002 0,0003 0,0003 0,0004 0,0005 0,0006
13 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0001 0,0002 0,0002
14 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001

'NX
4,1 4,2 4,3 4,4 4,5 4,6 4,7 4,8 4,9 5,0
0 0,0166 0,0150 0,0136 0,0123 0,0111 0,0101 0,0091 0,0082 0,0074 0,0067
1 0,0679 0,0630 0,0583 0,0540 0,0500 0,0462 0,0427 0,0395 0,0365 0,0337
2 0,1393 0,1323 0,1254 0,1188 0,1125 0,1063 0,1005 0,0948 0,0894 0,0842
3 0,1904 0,1852 0,1798 0,1743 0,1687 0,1631 0,1574 0,1517 0,1460 0,1404
4 0,1951 0,1944 0,1933 0,1917 0,1898 0,1875 0,1849 0,1820 0,1789 0,1755
5 0,1600 0,1633 0,1662 0,1687 0,1708 0,1725 0,1738 0,1747 0,1753 0,1755
6 0,1093 0,1143 0,1191 0,1237 0,1281 0,1323 0,1362 0,1398 0,1432 0,1462
7 0,0640 0,0686 0,0732 0,0778 0,0824 0,0869 0,0914 0,0959 0,1002 0,1044
8 0,0328 0,0360 0,0393 0,0428 0,0463 0,0500 0,0537 0,0575 0,0614 0,0653
9 0,0150 0,0168 0,0188 0,0209 0,0232 0,0255 0,0281 0,0307 0,0334 0,0363
10 0,0061 0,0071 0,0081 0,0092 0,0104 0,0118 0,0132 0,0147 0,0164 0,0181
11 0,0023 0,0027 0,0032 0,0037 0,0043 0,0049 0,0056 0,0064 0,0073 0,0082
12 0,0008 0,0009 0,0011 0,0013 0,0016 0,0019 0,0022 0,0026 0,0030 0,0034
13 0,0002 0,0003 0,0004 0,0005 0,0006 0,0007 0,0008 0,0009 0,0011 0,0013
14 0,0001 0,0001 0,0001 0,0001 0,0002 0,0002 0,0003 0,0003 0,0004 0,0005
15 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0001 0,0001 0,0002

'NX
5,1
-
N. 5,2 5,3 5,4 5,5 5,6 5,7 5,8 5,9 6,0
0 0,0061 0,0055 0,0050 0,0045 0,0041 0,0037 0,0033 0,0030 0,0027 0,0025
1 0,0311 0,0287 0,0265 0,0244 0,0225 0,0207 0,0191 0,0176 0,0162 0,0149
2 0,0793 0,0746 0,0701 0,0659 0,0618 0,0580 0,0544 0,0509 0,0477 0,0446
3 0,1348 0,1293 0,1239 0,1185 0,1133 0,1082 0,1033 0,0985 0,0938 0,0892
4 0,1719 0,1681 0,1641 0,1600 0,1558 0,1515 0,1472 0,1428 0,1383 0,1339
5 0,1753 0,1748 0,1740 0,1728 0,1714 0,1697 0,1678 0,1656 0,1632 0,1606
6 0,1490 0,1515 0,1537 0,1555 0,1571 0,1584 0,1594 0,1601 0,1605 0,1606
7 0,1086 0,1125 0,1163 0,1200 0,1234 0,1267 0,1298 0,1326 0,1353 0,1377
8 0,0692 0,0731 0,0771 0,0810 0,0849 0,0887 0,0925 0,0962 0,0998 0,1033
9 0,0392 0,0423 0,0454 0,0486 0,0519 0,0552 0,0586 0,0620 0,0654 0,0688
10 0,0200 0,0220 0,0241 0,0262 0,0285 0,0309 0,0334 0,0359 0,0386 0,0413
11 0,0093 0,0104 0,0116 0,0129 0,0143 0,0157 0,0173 0,0190 0,0207 0,0225
12 0,0039 0,0045 0,0051 0,0058 0,0065 0,0073 0,0082 0,0092 0,0102 0,0113
13 0,0015 0,0018 0,0021 0,0024 0,0028 0,0032 0,0036 0,0041 0,0046 0,0052
14 0,0006 0,0007 0,0008 0,0009 0,0011 0,0013 0,0015 0,0017 0,0019 0,0022
15 0,0002 0,0002 0,0003 0,0003 0,0004 0,0005 0,0006 0,0007 0,0008 0,0009
16 0,0001 0,0001 0,0001 0,0001 0,0001 0,0002 0,0002 0,0002 0,0003 0,0003
17 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0001 0,0001
ESTAT!STJCAAPLICADA

6,5 6,6 67 6,8 6,9 7,0


xN. 6,1 - 62
, 63 64 ..
0,0017 0,0015 0,0014 0,0012 0,0011 0,0010 0,0009
0 0,0022 0,0020 0,0018
0,0098 0,0090 0,0082 0,0076 0,0070 0,0064
0,0137 0,0126 0,0116 0,0106
0,0318 0,0296 0,0276 0,0258 0,0240 0,0223
2 0,0417 0,0390 0,0364 0,0340
0,0726 0,0688 0,0652 0,0617 0,0584 0,0552 0,0521
3 0,0848 0,0806 0,0765
0,1118 0,1076 0,1034 0,0992 0,0952 0,0912
4 0,1294 0,1249 0,1205 0,1162
0,1487 0,1454 0,1420 0,1385 0,1349 0,1314 0,1277
5 0,1579 0,1549 0,1519
0,1586 0,1575 0,1562 0,1546 0,1529 0,1511 0,1490
6 0,1605 0,1601 0,1595
0,1450 0,1462 0,1472 0,1480 0,1486 0,1489 0,1490
7 0,1399 0,1418 0,1435
0,1130 0,1160 0,1188 0,1215 0,1240 0,1263 0,1284 0,1304
8 0,1066 0,1099
0,0791 0,0825 0,0858 0,0891 0,0923 0,0954 0,0985 0,1014
9 0,0723 0,0757
0,0528 0,0558 0,0588 0,0618 0,0649 0,0679 0,0710
10 0,0441 0,0469 0,0498
0,0307 0,0330 0,0353 0,0377 0,0401 0,0426 0,0452
11 0,0244 0,0265 0,0285
0,0164 0,0179 0,0194 0,0210 0,0227 0,0245 0,0263
12 0,0124 0,0137 0,0150
0,0081 0,0089 0,0099 0,0108 0,0119 0,0130 0,0142
13 0,0058 0,0065 0,0073
0,0037 0,0041 0,0046 0,0052 0,0058 0,0064 0,0071
14 0,0025 0,0029 0,0033
0,0016 0,0018 0,0020 0,0023 0,0026 0,0029 0,0033
15 0,0010 0,0012 0,0014
0,0006 0,0007 0,0008 0,0010 0,0011 0,0013 0,0014
16 0,0004 0,0005 0,0005
0,0002 0,0002 0,0003 0,0003 0,0004 0,0004 0,0005 0,0006
17 0,0001 0,0002
0,0001 0,0001 0,0001 0,0001 0,0002 0,0002 0,0002
18 0,0000 0,0001 0,0001
0,0000 0,0000 0,000& 0,0000 0,0001 0,0001 0,0001 0,0001
19 0,0000 0,0000

7,3 7,4 7,5 7,6 7,7 7,8 7,9 8,0


xNj 7,1 7,2

0,0007 0,0006 0,0006 0,0005 0,0005 0,0004 0,0004 0,0003


0 0,0008 0,0007
0,0049 0,0045 0,0041 0,0038 0,0035 0,0032 0,0029 0,0027
1 0,0059 0,0054
0,0180 0,0167 0,0156 0,0145 0,0134 0,0125 0,0116 0,0107
2 0,0208 0,0194
0,0413 0,0389 0,0366 0,0345 0,0324 0,0305 0,0286
3 0,0492 0,0464 0,0438
0,0799 0,0764 0,0729 0,0696 0,0663 0,0632 0,0602 0,0573
4 0,0874 0,0836
0,1167 0,1130 0,1094 0,1057 0,1021 0,0966 0,0951 0,0916
5 0,1241 0,1204
0,1420 0,1394 0,1367 0,1339 0,1311 0,1282 0,1252 0,1221
6 0,1468 0,1445
0,1481 0,1474 0,1465 0,1454 0,1442 0,1428 0,1413 0,1396
7 0,1489 0,1486
0,1351 0,1363 0,1373 0,1381 0,1388 0,1392 0,1395 0,1396
8 0,1321 0,1337
0,1121 0,1144 0,1167 0,1187 0,1207 0,1224 0,1241
9 0,1042 0,1070 0,1096
0,0800 0,0829 0,0858 0,0887 0,0914 0,0941 0,0967 0,0993
10 0,0740 0,0770
0,0558 0,0585 0,0613 0,0640 0,0667 0,0695 0,0722
11 0,0478 0,0504 0,0531
0,0323 0,0344 0,0366 0,0388 0,0411 0,0434 0,0457 0,0481
12 0,0283 0,0303
0,0181 0,0196 0,0211 0,0227 0,0243 0,0260 0,0278 0,0296
13 0,0154 0,0168
0,0104 0,0113 0,0123 0,0134 0,0145 0,0157 0,0169
14 0,0078 0,0086 0,0095
0,0046 0,0051 0,0057 0,0062 0,0069 0,0075 0,0083 0,0090
15 0,0037 0,0041
0,0021 0,0024 0,0026 0,0030 0,0033 0,0037 0,0041 0,0045
16 0,0016 0,0019
0,0010 0,0012 0,0013 0,0015 0,0017 0,0019 0,0021
17 0,0007 0,0008 0,0009
0,0004 0,0005 0,0006 0,0006 0,0007 0,0008 0,0009
18 0,0003 0,0003 0,0004
0,0002 0,0002 0,0002 0,0003 0,0003 0,0003 0,0004
19 0,0001 0,0001 0,0001
0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0002
20 0,0000 0,0000 0,0001
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0001
21 0,0000 0,0000
DISTRIBuIçAQ DE PoissoN

8,1 8,2 8,3 8,4 8,5 8,8 8,7 8,8 89 90


o
• 1 •• •
0,0003 0,0003 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
1 0,0001 010001
0,0025 0,0023 0,0021 0,0019 0,0017 0,0016 0,0014 0,0013 0,0012 01 0011
2 0,0100 0,0092 0,0086 0,0079 0,0074 0,0068 0,0063 0,0058 0,0054 010050
3 0,0269 0,0252 0,0237 0,0222 0,0208 0,0195 0,0183 0,0171 0,0160 0,0150
4 0,0544 0,0517 0,0491 0,0466 0,0443 0,0420 0,0398 0,0377 0,0357 0,0337
5 0,0882 0,0849 0,0816 0,0784 0,0752 0,0722 0,0692 0,0663 0,0635 0,0607
o 0,1191 0,1160 0,1128 0,1097 0,1066 0,1034 0,1003 0,0972 0,0941 0,0911
7 0,1378 0,1358 0,1338 0,1317 0,1294 0,1271 0,1247 0,1222 0,1197 0,1171
8 0,1395 0,1392 0,1368 0,1382 0,1375 0,1366 0,1356 0,1344 0,1332 0,1318
9 0,1256 0,1209 0,1280 0,1290 0,1299 0,1306 0,1311 0,1315 0,1317 0,1318
10 0,1017 0,1040 0,1063 0,1084 0,1104 0,1123 0,1140 0,1157 0,1172 0,1186
11 0,0749 0,0776 0,0802 0,0828 0,0853 0,0878 0,0902 0,0925 0,0948 0,0970
12 0,0505 0,0530 0,0555 0,0579 0,0604 0,0629 0,0654 0,0679 0,0703 0,0728
13 0,0315 0,0334 0,0354 0,0374 0,0395 0,0416 0,0438 0,0459 0,0481 0,0504
14 0,0182 0,0196 0,0210 0,0225 0,0240 0,0256 0,0272 0,0289 0,0306 0,0324
15 0,0098 0,0107 0,0116 0,0126 0,0138 0,0147 0,0158 0,0169 0,0182 0,0194
16 0,0050 0,0055 0,0060 0,0066 0,0072 0,0079 0,0086 0,0093 0,0101 0,0109
17 0,0024 0,0026 0,0029 0,0033 0,0036 0,0040 0,0044 0,0048 0,0053 0,0058
18 0,0011 0,0012 0,0014 0,0015 0,0017 0,0019 0,0021 0,0024 0,0028 0,0029
19 0,0005 0,0005 0,0006 0,0007 0,0008 0,0009 0,0010 0,0011 0,0012 0,0014
20 0,0002 0,0002 0,0002 0,0003 0,0003 0,0004 0,0004 0,0005 0,0005 0,0006
21 0,0001 0,0001 0,0001 0,0001 0,0001 0,0002 0,0002 0,