You are on page 1of 173

Anlise de Dados

Introduo s tcnicas de Amostragem


Introduo Estimao
Introduo aos testes
Mtodos no paramtricos

Maria Eugnia Graa Martins


Faculdade de Cincias da Universidade de Lisboa

Maro 2009

NDICE

Captulo 1 Introduo s tcnicas de Amostragem


1.1 Introduo A Estatstica estuda a variabilidade apresentada pelos dados.......................1
1.2 Probabilidade e Estatstica .................................................................................................2
1.3 Aquisio de Dados
.................................................................................................6
1.3.1 Introduo
.................................................................................................6
1.3.2 Tcnicas de amostragem aleatria ....................................................................9
1.3.2.1 Amostra aleatria simples.....................................................................9
1.3.2.2 Amostra aleatria sistemtica...............................................................12
1.3.2.3 Amostra estratificada ............................................................................13
1.3.2.4 Amostragem por clusters ou grupos .....................................................14
1.3.3 Amostragem no aleatria .................................................................................14
1.3.4 Outros tipos de erros num processo de aquisio de dados.............................14
1.4 Estimador centrado e no centrado. Preciso ......................................................................15
1.5 Qual a dimenso que se deve considerar para a amostra....................................................17
1.6 Estimao do valor mdio utilizando amostras aleatrias simples .......................................18
1.6.1 Distribuio de amostragem da mdia ..............................................................19
1.6.1.1 Distribuio de amostragem exacta......................................................19
1.6.1.2 Distribuio de amostragem aproximada .............................................27
1.6.2 Distribuio aproximada da mdia, como estimador do valor mdio de uma
populao finita, mas de dimenso suficientemente grande.............................27
1.7 Distribuio de amostragem da mdia em amostragem com reposio ..............................28
1.8 Forma da distribuio de amostragem da mdia em populaes infinitas ou
amostragem com reposio .................................................................................................32
1.8.1 Valor mdio e desvio padro da mdia .............................................................35
1.8.2 Distribuio da mdia, para populaes normais ..............................................35
1.8.2.1 Desvio padro conhecido ..................................................................35
1.8.2.2 Desvio padro desconhecido ............................................................36
1.8.3 Distribuio da mdia para populaes no normais. Teorema Limite
Central
.................................................................................................37
1.9 Distribuio de amostragem da proporo............................................................................38
1.9.1 Distribuio de amostragem da proporo para populaes finitas..................38
1.9.2 Distribuio de amostragem da proporo para populaes infinitas ou com
reposio
.................................................................................................40

Captulo 2 Introduo estimao


2.1 Introduo
.................................................................................................41
2.2 Estimao da proporo. Intervalo de confiana para a proporo......................................43
2.3 Estimao do valor mdio. Intervalo de confiana para o valor mdio.................................49
2.3.1 Intervalo de confiana para o valor mdio conhecido .................................49
2.3.2 Intervalo de confiana para o valor mdio desconhecido ...........................53

Captulo 3 Introduo aos testes de hipteses


3.1 Introduo
.................................................................................................59
3.2 Outros exemplos
.................................................................................................62
3.3 Hiptese nula e Hiptese alternativa; erros de tipo 1 e tipo 2; estatstica de teste; regio
de rejeio
.................................................................................................63
3.4 Testes de hipteses para a proporo p ...............................................................................65
3.4.1 Determinao dos pontos crticos......................................................................68
3.4.2 P-Value
.................................................................................................69
3.5 Vamos conversar acerca de testes .......................................................................................70
3.6 Testes de hipteses sobre o valor mdio..............................................................................74
3.6.1 P-value
.................................................................................................78

Captulo 4 Testes igualdade de duas populaes


4.1 Inferncia sobre a diferena entre as propores de duas populaes ..............................83
4.1.1 Testes de hipteses sobre a diferena de propores......................................84
4.1.2 Intervalo de confiana para a diferena de propores.....................................85
4.2 Inferncia sobre a diferena entre os valores mdios de duas populaes .........................85
4.2.1 Inferncia sobre a diferena entre valores mdios de populaes
independentes .................................................................................................86
4.2.1.1 As populaes so normais e as varincias conhecidas .....................87
4.2.1.2 As populaes so normais e as varincias so iguais e
desconhecidas teste t para amostras independentes .......................88
4.2.1.3 As populaes so normais e as varincias so diferentes e
desconhecidas ......................................................................................89
4.2.1.4 As populaes no so normais e as amostras so de grande
dimenso...............................................................................................90
4.2.2 Amostras emparelhadas ....................................................................................90
4.2.2.1 Populaes normais, pequenas amostras teste t emparelhado........91
4.2.2.2 Grandes amostras.................................................................................92
4.2.3 Que tipo de planeamento fazer..........................................................................93
4.3 Teste para a igualdade de varincias em populaes normais ............................................94

Captulo 5 Mtodos no paramtricos


5.1 Introduo
.................................................................................................97
5.2 Testes de ajustamento
.................................................................................................99
5.2.1 Introduo
.................................................................................................99
5.2.2 Generalizao do modelo Binomial o modelo Multinomial .............................99
5.2.3 Teste de ajustamento do Qui-quadrado ............................................................103
5.2.3.1 Anlise de dados qualitativos ...............................................................103
5.2.3.2 Anlise de dados discretos ...................................................................107
5.2.3.3 Anlise de dados contnuos ..................................................................111
5.2.4 Teste de Kolmogorov-Smirnov...........................................................................117
5.2.5 Comparao entre os testes do Qui-quadrado e o de Kolmogorov-Smirnov....120
5.3 Problema da localizao e da localizao e simetria teste dos sinais e teste de
Wilcoxon
.................................................................................................122
5.3.1 Introduo
.................................................................................................122

5.3.2
5.3.3

Teste dos Sinais.................................................................................................123


5.3.2.1 Teste dos Sinais para amostras emparelhadas ...................................126
Teste de Wilcoxon..............................................................................................127
5.3.3.1 Distribuio de amostragem de Tn+ .......................................................130

5.3.3.2 Teste de Wilcoxon para amostras emparelhadas ................................134


5.3.3.3 O teste de Wilcoxon e o teste-t.............................................................135
5.4 Testes de hipteses em modelos no paramtricos para testar a homogeneidade de
vrias populaes independentes .........................................................................................135
5.4.1 Comparao de duas populaes independentes ............................................135
5.4.1.1 Teste de Mann-Whitney-Wilcoxon ........................................................135
5.4.1.1.1
Distribuio de amostragem de W m,n ................................136
5.4.1.1.2
O teste de Mann-Whitney-Wilcoxon e o teste-t para
duas amostras ...................................................................139
5.4.1.1.3
Forma alternativa para a estatstica de Mann-WhitneyWilcoxon ............................................................................141
5.4.1.2 Teste de Kolmogorov-Smirnov para duas amostras ............................143
5.4.2 Comparao de mais de duas populaes independentes...............................146
5.4.2.1 Teste de Kruskal-Wallis ........................................................................146
5.4.2.1.1
Comparaes mltiplas .....................................................152
5.4.2.2 Teste do Qui-quadrado em tabelas de contingncia para testar a
homogeneidade ....................................................................................153
5.5 Testes de hipteses em modelos no paramtricos para testar a independncia ...............156
5.5.1 Teste do Qui-quadrado em tabelas de contingncia para testar a
independncia de duas populaes ..................................................................156
5.5.2 Coeficiente de correlao ordinal de Spearman................................................158
5.5.3 ndice de Friedman ............................................................................................162

Bibliografia
Conover, W.J. (1980) Practical Nonparametric Statistics, John Wiley & Sons
De Veaux, R. Et al. (2004) Intro Stats, Pearson, Addison Wesley
Graa Martins, M. E. (2005) Introduo Probabilidade e Estatstica Com complementos de
Excel, SPE
Graa Martins, M. E. et al. (1999) Probabilidades e Combinatria, Ministrio da Educao,
Departamento do Ensino SEcundrio
Mendenhall, W., et al. (1987) Statistics: a Tool for the Social Sciences, PWSKent
Montgomery, D. et al. (1999) Applied Statistics and Probability for Engineers, John Wiley & Sons,
Inc. New York
Murteira, B. et al. (2002) Introduo Estatstica, McGraw-Hill de Portugal
Sprent, P. (1989) Applied Nonparametric Statistical Methods, Chapman and Hal
Tannenbaum. P. et al. (1998) Excursions in Modern Mathematics, Prentice Hall

Anlise de Dados

Introduo s tcnicas de amostragem

Introduo s tcnicas de amostragem. Distribuio de amostragem de algumas


estatsticas baseadas em amostras aleatrias simples e em amostragem com
reposio. Estudo dos estimadores Mdia e Proporo amostral.

1.1 Introduo A Estatstica estuda a variabilidade apresentada


pelos dados
Da experincia que temos no dia a dia com os dados j conclumos, com certeza, que
estes apresentam variabilidade. Por exemplo comum que um pacote de acar que
na embalagem tenha escrito um quilograma, no pese exactamente um quilograma.
Por outro lado ao pesar duas vezes o mesmo pacote possivelmente no obteremos o
mesmo valor. Assim, ao dizermos que o peso do pacote um determinado valor, no
podemos ter a certeza que esse valor seja correcto. Esta variabilidade est presente
em todas as situaes do mundo que nos rodeia, pelo que as concluses que tiramos a
partir dos dados que se nos apresentam, tm inerente um certo grau de incerteza.
A Estatstica trata e estuda esta variabilidade apresentada pelos dados. Permite-nos a
partir dos dados retirar concluses, mas tambm exprimir o grau de confiana que
devemos ter nessas concluses. precisamente nesta particularidade que se
manifesta toda a potencialidade da Estatstica.
Podemos ento, e tal como refere David Moore em Perspectives on Contemporary
Statistics, considerar trs grandes reas nesta cincia dos dados:

Aquisio de dados

Anlise dos dados

Inferncia a partir dos dados

Maria Eugnia Graa Martins

Anlise de Dados

Vamos, numa das seces seguintes, abordar o primeiro tema considerado, ou seja o
que diz respeito Aquisio de Dados, numa perspectiva de que pretendemos obter
dados, para respondermos a determinadas questes, isto , para posteriormente
retirarmos concluses para as Populaes a partir das quais esses dados so
adquiridos contexto em que tem sentido fazer inferncia estatstica. Vamos assim,
preocupar-nos em obter amostras representativas de Populaes que se pretendem
estudar.

1.2 Probabilidade e Estatstica


A Probabilidade o instrumento que permite ao estatstico utilizar a informao
recolhida da amostra para descrever ou fazer inferncias sobre a Populao de onde a
amostra foi recolhida. Podemos ainda dizer que os objectivos da Probabilidade e da
Estatstica so, de certo modo, inversos. Alguns exemplos ajudar-nos-o a
compreender melhor esta ideia.
EXEMPLO 1.1 (Graa Martins, M.E. et al, 1999) Suponha que tem uma moeda equilibrada e que
lana a moeda uma srie de vezes, registando em cada lanamento a face que fica voltada para cima. O
resultado dos registos uma sucesso de F e de C, onde utilizamos a letra F para designar cara (face) e
a letra C para designar coroa. Como admitimos que a moeda equilibrada, isto , estamos a adoptar um
determinado modelo probabilstico, esperamos que o nmero de Fs seja aproximadamente metade do
nmero de lanamentos efectuados. Se, por outro lado, considerarmos uma amostra de dimenso 1, isto
, fizermos unicamente um lanamento, dizemos que a probabilidade de obter F 1/2, j que existe igual
possibilidade de obter F ou C (ao dizer que a moeda equilibrada estamos a atribuir igual probabilidade
sada de cara ou de coroa num lanamento).
Suponha agora que a sua moeda no era equilibrada. Neste caso quando procedemos a vrios
lanamentos j no sabemos qual a proporo de caras que esperamos obter, uma vez que a Populao
no perfeitamente conhecida conhecemos os resultados possveis em cada lanamento cara ou
coroa, mas o modelo no est completamente especificado, uma vez que as probabilidades associadas a
esses resultados no so conhecidas (estamos a assumir que a moeda no equilibrada). Ento um
modo possvel de obter mais alguma informao sobre o modelo probabilstico proceder a um certo
nmero de lanamentos e calcular a frequncia relativa da sada de cara, nos lanamentos efectuados.
Este valor vai-nos servir para estimar a probabilidade da sada de cara. Por exemplo, se em 1000
lanamentos se obtiveram 324 caras, dizemos que um valor aproximado para a probabilidade de se

Maria Eugnia Graa Martins

Anlise de Dados

verificar cara 0.324 (ao fim de 1000 lanamentos verificou-se uma certa estabilidade volta deste valor)
e o valor aproximado para a probabilidade de sair coroa ser 0.676.

Com este exemplo procuramos exemplificar o papel relativo da Probabilidade e da


Estatstica:
Enquanto que ao assumirmos um determinado modelo de probabilidade Populao
conhecida, o que foi feito ao admitir que a moeda era equilibrada, estamos aptos a
raciocinar do geral para o particular, isto , da Populao para a Amostra, quando a
Populao no conhecida utilizamos a Estatstica para fazer raciocnios no sentido
inverso, isto , inferir para a Populao resultados observados na Amostra.
Para esclarecer melhor esta ideia, consideremos ainda os seguintes exemplos:
EXEMPLO 1.2 (Adaptado de Murteira, B. et al., 2002) Consideremos um conjunto numeroso de
pessoas, por exemplo os alunos matriculados na FCUL no ano lectivo de 2005/2006. Relativamente a
esta populao, existe uma percentagem p, de alunos que praticam desporto. Escolhem-se (sem
reposio) ao acaso 10 alunos. Se p fosse conhecido, por exemplo 0.3, podamos calcular a
probabilidade de encontrar x praticantes de desporto, com 0x10, nesse grupo de 10 alunos,
probabilidade que se sabe ser determinada pela expresso
10
0.3x 0.710-x
x

Como a populao era numerosa, podemos admitir que o nmero de estudantes que praticam desporto,
em 10 estudantes retirados aleatoriamente da populao, bem modelado pelo modelo Binomial, de
parmetros 10 e 0.3 (a composio da populao praticamente no se altera, quando retiramos alguns
elementos, pelo que podemos admitir que temos provas de Bernoulli). Trata-se de um problema de
probabilidade. Pode, no entanto, suceder, que p seja desconhecido, sendo esta, alis, a situao mais
corrente. Ento, neste caso, vamos utilizar a informao sobre o nmero de praticantes de desporto na
amostra de 10, nomeadamente a proporo x/n, para tirar concluses sobre a proporo de praticantes
de desporto da populao. Trata-se de um problema de inferncia estatstica.

EXEMPLO 1.3 Sabe-se que determinado tipo de componentes electrnicas tem um tempo de vida
que no depende da idade, isto , a falha pode ocorrer em qualquer instante e no depende de h
quanto tempo as componentes j esto em funcionamento. Sabe-se ainda que estas componentes
podem falhar em qualquer altura, no tendo, portanto, um tempo de garantia. Se se souber que o tempo
mdio at falha 100 horas, ento o tempo de vida T, deste tipo de componentes, pode ser bem

Maria Eugnia Graa Martins

Anlise de Dados

modelado por uma exponencial, com funo densidade de probabilidade e funo distribuio,
respectivamente
f (t) =

1
t
exp(),
100
100

t>0

F(t) = 1 exp(-

t
)
100

Ento, assumindo o modelo anterior, podemos calcular, por exemplo, a probabilidade de uma destas
componentes no falhar antes de 200 horas:
P(T>200) = 1 F(200) = exp(-2) = 0.135
Na realidade, a situao corrente que aquele valor mdio desconhecido e o modelo probabilstico
para o tempo de vida das componentes conhecido a menos de um parmetro, sendo a sua funo
densidade
f(t) =

1
t
exp(- ),

>0, t>0

Como estimar ? Um estimador natural considerar uma amostra de n componentes que se colocam em
teste, observar os tempos at falha e tomar a mdia desses tempos, como estimativa do tempo mdio
at falha, j que, no modelo exponencial tal como foi apresentado anteriormente, o parmetro o
valor mdio de T.

EXEMPLO 1.4 Numa Universidade os inquritos pedaggicos so lidos atravs de leitura ptica.
Sabe-se que estes leitores, embora raramente, podem cometer alguns erros. Um processo de controlar a
qualidade da leitura seleccionar aleatoriamente uns tantos inquritos e verificar quantos erros foram
cometidos pela leitura ptica, em cada um dos inquritos.
Admitindo que o nmero de erros, Z, por inqurito, pode ser bem modelado por uma Poisson, temos para
funo massa de probabilidade da v.a. Z
P(Z=k) = exp-

k
, k=0, 1, 2, ...
k!

Se soubermos que, em mdia, se detectam 0,2 erros por pgina, podemos calcular, por exemplo, a
probabilidade de no encontrarmos nenhum erro num inqurito escolhido aleatoriamente. Efectivamente,
neste caso, =0.2, pelo que a probabilidade pretendida ser P(Z=0) = exp(-0.2) (0.2)0/0!= 0,82. No
entanto, numa situao em que, partida, no se conhea o desempenho dos leitores pticos, ter de se
estimar o parmetro . Uma estimativa para este parmetro obtm-se seleccionando alguns inquritos j
lidos, e depois de contar o nmero de erros cometidos em cada um, calcular a mdia dos valores obtidos.

EXEMPLO 1.5 Uma equipa mvel de colheita de sangue, estacionada no Saldanha, interpela as
pessoas que passam, no sentido de as sensibilizar a darem sangue, investigando nomeadamente o seu
Maria Eugnia Graa Martins

Anlise de Dados

grupo sanguneo. Qual a probabilidade de, em certo dia, s encontrarem um indivduo de grupo O RH-,
ao 10 indivduo que abordam? Estamos numa situao em que temos uma populao constituda por
indivduos pertencentes a uma de 2 categorias ter sangue O RH-, ou no ter este tipo de sangue.
Pretendemos fazer um raciocnio probabilstico sobre a varivel aleatria X, que representa o nmero de
indivduos inquiridos (insucessos) at se encontrar um com sangue O RH- (sucesso). Para obter um
modelo probabilstico para esta varivel aleatria, vamos comear por admitir que desta experincia
aleatria, que consiste em perguntar a cada indivduo o seu grupo sanguneo, resultam provas de
Bernoulli: efectivamente em cada prova podemos ter sucesso ou insucesso e podemos considerar as
provas independentes, com probabilidade de sucesso constante, uma vez que, embora a populao seja
finita, as provas ainda podem ser consideradas independentes, pois a dimenso da amostra
seleccionada muito pequena, quando comparada com a dimenso da populao.
Ento, se representarmos por p a proporo de indivduos da populao com sangue O RH-, um modelo
para X (modelo geomtrico) ser
P(X=k) = (1-p)k-1p, k=1, 2, ...
Se conhecermos o valor de p, por exemplo, 6%, podemos calcular a probabilidade pretendida:
P(X=10) = (1-0.06)9 0.06 = 0.034
E se a probabilidade p for desconhecida? Neste caso temos de a estimar. Tendo em considerao que o
valor mdio de X 1/p, uma estimativa natural para p pode ser obtida recolhendo uma amostra, em que
cada elemento o nmero de indivduos abordados at se obter sucesso, calcular a mdia dessa
amostra e considerar como estimativa de p, o inverso da mdia obtida.

EXEMPLO 1.6 O sr. Silva, industrial txtil, decidiu comear a fabricar camisas de homem, destinadas
a serem vendidas em Portugal. Precisava de ter alguma informao sobre os moldes que devia utilizar,
nomeadamente sobre o comprimento R, adequado para as mangas. Um estatstico, a quem pediu ajuda,
passado algum tempo, sugeriu-lhe o modelo Normal. O sr. Silva ficou muito espantado, pois tinha alguns
estudos, embora poucos, de Estatstica e uma das coisas que se lembrava era de que o suporte do
modelo Normal era R. Ora ns sabemos que o comprimento do brao necessariamente positivo! Na
verdade, o que acontece que se tentassemos encontar um modelo com suporte positivo, teramos
grandes dificuldades e na realidade, adoptando um modelo normal, com valores convenientes para os
parmetros valor mdio () e desvio padro (), podemos verificar, que a probabilidade de obtermos
valores para R inferiores a determinado valor praticamente nula. Estes valores convenientes so
estimados a partir de uma amostra de comprimentos de braos de homem, para a qual se calculam a
mdia e o desvio padro, que so utilizados como estimativas dos parmetros desconhecidos.

Maria Eugnia Graa Martins

Anlise de Dados

Os exemplos apresentados anteriormente mostram a importncia de encontrarmos


modelos probabilsticos para as situaes reais descritas. Em algumas das situaes
tivmos de propor modelos que no descrevem perfeitamente a situao real, mas que
consideramos teis, pois nos permitem tomar decises. Nesta reflexo sobre qual o
modelo a adoptar para traduzir um fenmeno aleatrio, vem a propsito lembrar o que
diz Box:
Todos os modelos so maus, alguns so teis
Na seco seguinte abordamos o problema da aquisio de dados e a sua importncia
e cuidados necessrios para, numa fase seguinte, procedermos a inferncias sobre as
populaes de onde os dados foram retirados.

1.3 Aquisio de dados


1.3.1 Introduo
Abordaremos de seguida (Graa Martins, M. E., 2005) algumas das tcnicas de
aquisio de dados, em que se distinguem as
Sondagens e Experimentaes (aleatoriezadas)
Gostaramos desde j de realar que o objectivo desta seco o de explorar, de uma
forma simples, algumas das tcnicas de amostragem, com vista realizao de
sondagens, situaes que se encontram de um modo geral nas Cincias Sociais, ao
contrrio das Cincias experimentais, tais como Fsica ou Qumica, em que a recolha
de dados se faz fundamentalmente recorrendo a experincias. Por exemplo, a
populao constituda pelos eleitores, a populao constituda pela contas sedeadas
num banco, etc, s contm um nmero finito de elementos, ao contrrio da Populao
conceptual de respostas geradas por um processo qumico.
No demais realar a importncia desta fase, a que chamamos de Produo ou
Aquisio de Dados. Como referido em Tannenbaum (1998), pgina 426: Behind
every statistical statement there is a story, and like a story it has a beginning, a middle,
an end, and a moral. In this first statistics chapter we begin with the beginning, which in
statistics typically means the process of gathering or collecting data. Data are the raw
Maria Eugnia Graa Martins

Anlise de Dados

material of which statistical information is made, and in order to get good statistical
information one needs good data.
Sondagem, Populao, Amostra
Populao, unidade, amostra
Populao o conjunto de objectos, indivduos ou resultados experimentais acerca do
qual se pretende estudar alguma caracterstica comum. As Populaes podem ser
finitas ou infinitas, existentes ou conceptuais. Aos elementos da populao chamamos
unidades estatsticas.
Amostra uma parte da populao que observada com o objectivo de obter
informao para estudar a caracterstica pretendida.
O objectivo de uma sondagem o de recolher informao acerca de uma populao,
seleccionando e observando um conjunto de elementos dessa populao.
Sondagem Estudo estatstico de uma populao, feito atravs de uma amostra,
destinado a estudar uma ou mais caractersticas tais como elas se apresentam nessa
populao.
Se se observarem todos os elementos da populao tem-se um recenseamento
Geralmente, h algumas quantidades numricas acerca da populao que se
pretendem conhecer. A essas quantidades chamamos parmetros. Os parmetros so
estimados por estatsticas, que so nmeros calculados a partir da amostra. Estas
quantidades so conceptualmente distintas, pois enquanto a caracterstica populacional
pode ser considerada um valor exacto, embora desconhecido, a caracterstica amostral
conhecida, embora contendo um certo erro, inerente amostra seleccionada, mas
que todavia pode ser considerada uma estimativa til da caracterstica populacional
respectiva.

Maria Eugnia Graa Martins

Anlise de Dados

Populao
Amostra

Parmetro

Estatstica

No entanto, para se poder utilizar as estatsticas estimadores, para estimar


parmetros necessrio que as amostras sejam representativas das populaes de
onde foram retiradas.
Amostra enviesada. Amostra aleatria e amostra no aleatria.
Uma amostra que no seja representativa da Populao diz-se enviesada e a sua
utilizao pode dar origem a interpretaes erradas
Um processo de amostragem diz-se enviesado quando tende sistematicamente a
seleccionar elementos de alguns segmentos da Populao, e a no seleccionar
sistematicamente elementos de outros segmentos da Populao.
Surge assim, a necessidade de fazer um planeamento da amostragem, onde se
decide quais e como devem ser seleccionados os elementos da Populao, com o fim
de serem observados, relativamente caracterstica de interesse.
Amostra aleatria e amostra no aleatria Dada uma populao, uma amostra
aleatria uma amostra tal que qualquer elemento da populao tem alguma
probabilidade de ser seleccionado para a amostra. Numa amostra no aleatria, alguns
elementos da populao podem no poder ser seleccionados para a amostra.
Normalmente obtm-se amostras enviesadas quando existe a interveno do factor
humano. Com o objectivo de minimizar o enviesamento, no planeamento da escolha da
amostra deve ter-se presente o princpio da aleatoriedade de forma a obter uma
amostra aleatria.

Maria Eugnia Graa Martins

Anlise de Dados

Quando se pretende recolher uma amostra de dimenso n, de uma Populao de


dimenso N, podemos recorrer a vrios processos de amostragem. Como o nosso
objectivo , a partir das propriedades estudadas na amostra, inferir propriedades para a
Populao, gostaramos de obter processos de amostragem que dem origem a bons
estimadores e consequentemente boas estimativas. Acontece que as propriedades
dos estimadores, como veremos a seguir, s podem ser estudadas se conseguirmos
estabelecer um plano de amostragem que atribua a cada amostra seleccionada uma
determinada probabilidade, e esta atribuio s pode ser feita com planos de
amostragem aleatrios. Assim, importante termos sempre presente o princpio da
aleatoriedade, quando vamos proceder a um estudo em que procuramos alargar para a
Populao as propriedades estudadas na amostra.
1.3.2 Tcnicas de amostragem aleatria
Seguidamente apresentaremos algumas dos planeamentos mais utilizados para
seleccionar amostras aleatrias. Dos vrios tipos de planeamento utilizados, destacamse os que conduzem a amostras aleatrias simples, amostras sistemticas e amostras
estratificadas.
1.3.2.1 Amostra aleatria simples
O plano de amostragem aleatria mais bsico o que permite obter a amostra aleatria
simples:
Amostra aleatria simples - Dada uma populao, uma amostra aleatria simples de
dimenso n um conjunto de n unidades da populao, tal que qualquer outro conjunto
de n unidades teria igual probabilidade de ser seleccionado.
Se uma populao tem dimenso N e se pretende uma amostra aleatria simples de
N

dimenso n, esta amostra recolhida aleatoriamente de entre todas as amostras


n

distintas que se podem recolher da populao. Isto implica que cada amostra tenha a

Maria Eugnia Graa Martins

Anlise de Dados

mesma probabilidade

10

N

n

de ser seleccionada. Uma amostra destas pode ser

escolhida sequencialmente da populao, escolhendo um elemento de cada vez, sem


reposio, pelo que em cada seleco cada elemento tem a mesma probabilidade de
ser seleccionado. Um esquema de amostragem aleatria simples, conduz a que cada
elemento da Populao tenha a mesma probabilidade de ser seleccionado para a
amostra, podendo-se demonstrar que igual a

n1
. No entanto existem outros
N

esquemas de amostragem em que cada elemento tem igual probabilidade de ser


seleccionado, sem que cada conjunto de n elementos tenha a mesma probabilidade de
ser seleccionado. o que se passa com a amostragem aleatria sistemtica, em
determinadas situaes particulares.
Como seleccionar uma amostra aleatria simples?
1. Para seleccionar uma amostra aleatria simples, teoricamente o processo mais
simples consiste em colocar objectos identificadores (bolas, bocados de papel de igual
dimenso, etc) de todos os elementos da populao numa caixa, e retirar um a um,
sequencialmente, sem reposio. Os elementos seleccionados sero observados
relativamente caracterstica de interesse.
2. O processo anterior pouco prtico, pelo que normalmente substitudo por uma
seleco feita utilizando uma tabela de dgitos aleatrios:
Dgitos aleatrios (ou nmeros aleatrios) - Uma tabela de dgitos aleatrios uma
listagem dos dgitos 0, 1, 2, 3, 4, 5, 6, 7, 8 ou 9 tal que:
- qualquer um dos dgitos considerados tem igual possibilidade de figurar em qualquer
posio da lista;
- a posio em que figura cada dgito independente das posies dos outros dgitos.

N 1
. A probabilidade de qualquer elemento no ser
O n de amostras de n elementos que no contm um dado elemento
n
N 1 N
/ , ou seja (N-n)/N. Assim, a probabilidade de um determinado elemento ser seleccionado
includo portanto igual a
n n
1

1-(N-n)/N, ou seja n/N.

Maria Eugnia Graa Martins

Anlise de Dados

11

Apresenta-se a seguir um extracto de uma tabela de nmeros aleatrios (Moore, 1997).


O facto de os dgitos se apresentarem agrupados 5 a 5 s para facilidade de leitura.
Linha
101

19223

95034

05756

28713

96409

12531

42544

82853

102

73676

47150

99400

01927

27754

42648

82425

36290

103

45467

71709

77558

00095

32863

29485

82226

90056

104

52711

38889

93074

60227

40011

85848

48767

52573

105

95592

94007

69971

91481

60779

53791

17297

59335

106

68417

35013

15529

72765

85089

57067

50211

47487

107

82739

57890

20807

47511

81676

55300

94383

14893

108

60940

72024

17868

24943

61790

90656

87964

18883

109

36009

19365

15412

39638

85453

46816

83485

41979

A partir da tabela de dgitos aleatrios podem-se obter nmeros aleatrios de 2 dgitos qualquer par dos 100 pares possveis 00, 01, 98, 99, tem igual probabilidade de ser
seleccionado, de 3 dgitos - qualquer triplo dos 1000 triplos possveis 000, 001, 998,
999, tem igual probabilidade de ser seleccionado, etc, tomando os dgitos da tabela 2 a
2, 3 a 3, etc, a partir de uma linha qualquer e percorrendo-a da esquerda para a direita.
Para seleccionar uma amostra de uma populao utilizando a tabela procede-se em
duas etapas:
1. atribui-se um nmero a cada elemento da populao. Esta atribuio ter de
ser feita com as devidas precaues, de forma a que cada nmero tenha o
mesmo nmero de dgitos, para ter igual probabilidade de ser seleccionado;
2. a partir da tabela escolhe-se uma linha ao acaso e comea-se a percorr-la da
esquerda para a direita, tomando de cada vez os dgitos necessrios.
EXEMPLO 1.7 Considerando a populao constituda por 18 alunos de uma turma, vamos numerlos com os nmeros 01, 02, 03, , 17, 18 (podia ser utilizado qualquer outro conjunto de 18 nmeros de
2 dgitos). Para seleccionar uma amostra de dimenso 4 fixamo-nos numa linha qualquer da tabela, por
exemplo a linha 107 e comeamos a seleccionar os nmeros de dois dgitos, tendo-se obtido:
82

73

95

78

90

20

80

74

75

11

81

67

65

53

00

94

38

31

48

93

60

94

07

20

24

17

86

82

49

43

61

79

09

Maria Eugnia Graa Martins

Anlise de Dados

12

Tivemos de ler 33 nmeros, dos quais s aproveitmos 4, pois os outros no correspondiam a elementos
da populao.

Como obter uma tabela de nmeros aleatrios?


Um processo poder consistir em meter numa caixa 10 bolas numeradas de 0 a 9 e
fazer vrias extraces de uma bola, tantas quantas os dgitos que se pretendem para
constituir a tabela. De cada vez que se faz uma extraco, l-se o nmero da bola,
aponta-se e repe-se a bola na caixa - extraco com reposio. Com este processo
qualquer dgito tem igual probabilidade de ser seleccionado. Alm disso a sada de
qualquer um dos dgitos em qualquer momento, independente dos dgitos que j
saram anteriormente.
Alm das tabelas de nmeros aleatrios tambm existe a possibilidade de utilizar o
computador para os gerar ou uma simples mquina de calcular. Este o processo mais
utilizado hoje em dia, mas convm ter presente que os nmeros que se obtm so
pseudo-aleatrios, j que um mecanismo determinista que lhes d origem, embora se
comportem como nmeros aleatrios (passam numa bateria de testes destinados a
confirmar a sua aleatoriedade). Sugere-se a utilizao do Excel para seleccionar
amostras aleatrias simples2.
1.3.2.2 Amostra aleatria sistemtica
Na prtica o processo de seleccionar uma amostra aleatria simples de uma populao
com grande dimenso, no to simples como o descrito anteriormente. Se a
dimenso da populao for grande o processo torna-se muito trabalhoso. Ento uma
alternativa considerar uma amostra aleatria sistemtica. Por exemplo, se
pretendermos seleccionar uma amostra de 150 alunos de uma Universidade com 6000
alunos, considera-se um ficheiro com o nome dos 6000 alunos ordenados por ordem
alfabtica. Considera-se o quociente 6000/150=40 e dos primeiros 40 elementos da
lista, selecciona-se um aleatoriamente. A partir deste elemento seleccionamos
sistematicamente todos os elementos distanciados de 40 unidades. Assim, se o
elemento seleccionado aleatoriamente de entre os primeiros 40, foi o 27, os outros
2

Consultar, por exemplo, Graa Martins, M. E. Introduo Probabilidade e Estatstica, Com complementos de Excel, 2005

Maria Eugnia Graa Martins

Anlise de Dados

13

elementos a serem seleccionados so 67, 107, 147, etc. Obviamente que o quociente
entre a dimenso da populao e a da amostra no necessariamente inteiro, como
anteriormente, mas no h problema pois considera-se a parte inteira desse quociente.
Amostra aleatria sistemtica Dada uma populao de dimenso N, ordenada por
algum critrio, se se pretende uma amostra de dimenso n, escolhe-se aleatoriamente
um elemento de entre os k primeiros, onde k a parte inteira do quociente N/n. A partir
desse elemento escolhido, escolhem-se todos os k-simos elementos da populao
para pertencerem amostra.
A amostra aleatria sistemtica no uma amostra aleatria simples, j que nem todas
as amostras possveis de dimenso n, tm a mesma probabilidade de serem
seleccionadas. No entanto, se o quociente N/n for inteiro, mostra-se que a
probabilidade de qualquer elemento ser seleccionado igual a n/N3.
1.3.2.3 Amostra estratificada
Pode acontecer que a populao possa ser subdividida em vrias subpopulaes, mais
ou menos homogneas relativamente caracterstica a estudar. Por exemplo, se se
pretende estudar o salrio mdio auferido pelas famlias lisboetas, possvel dividir a
regio de Lisboa segundo zonas mais ou menos homogneas, estratos, quanto
caracterstica em estudo salrio mdio, e posteriormente extrair de cada um destes
estratos uma percentagem de elementos que iro constituir a amostra, sendo esta
percentagem, de um modo geral, proporcional dimenso dos estratos.
Amostra estratificada Divide-se a populao em vrias subpopulaes estratos, e
de cada uma destes estratos extrai-se aleatoriamente uma amostra. O conjunto de
todas estas amostras constitui a amostra pretendida.
EXEMPLO 1.8 - Suponhamos que se pretendia estudar o volume das vendas de prestao de
servios, das empresas de construo civil. Podemos partida considerar a Populao das empresas
3

Pensemos nos N elementos colocados em circulo e seja N=nk. Comecemos por fixar uma posio inicial j. A probabilidade de um

elemento A ser seleccionado igual a

Maria Eugnia Graa Martins

j=1

j=1

P( A amostra/ posio inicial j) P(posio inicial ser j) = Nn N1 = Nn .

Anlise de Dados

14

divididas em 3 estratos, quanto ao nmero de trabalhadores que emprega: pequenas - 10 ou menos


trabalhadores, mdias - entre 11 e 40 e grandes - mais de 41 trabalhadores. Uma vez identificados os
estratos, procede-se numa segunda etapa recolha de uma amostra aleatria simples dentro de cada
estrato. Admitindo que a Populao em estudo constituda por 500 empresas, das quais 55% so
pequenas, 35% so mdias e 10% so grandes e que a dimenso da amostra pretendida de 85,
seleccionaramos amostras de dimenso 47 (85x0.55=46.75), 30 (85x0.35=29.75) e 8 (85x0.10=8.5),
respectivamente do conjunto das pequenas, das mdias ou das grandes empresas.

Existe um tipo de amostragem no aleatria, muito semelhante amostragem


estratificada, que a amostragem por quotas. Neste tipo de amostragem,
consideram-se os estratos, mas depois em vez de se recolher uma amostra aleatria de
dentro de cada estrato, extrai-se uma amostra no aleatria, de dimenso proporcional
do estrato na populao.
1.3.2.4 Amostragem por clusters ou grupos
Por exemplo, suponha que se pretende estudar o nvel de satisfao dos trabalhadores
txteis, das empresas do Norte do Pas. No dispondo de uma lista com todos os
trabalhadores, considera-se uma lista de todas as empresas txteis clusters,
admitindo-se que o conjunto de trabalhadores de cada empresa caracteriza
convenientemente a populao que se pretende estudar. A partir dessa lista
seleccionam-se

aleatoriamente

algumas

empresas

considera-se

amostra

constituda por todos os trabalhadores das empresas seleccionadas.


Amostra por clusters A populao dividida em clusters, onde cada cluster
representativo da populao. Selecciona-se aleatoriamente um conjunto de clusters e a
amostra constituda por todos os elementos dos clusters seleccionados.
1.3.3 Amostragem no aleatria
Amostragem por convenincia e amostragem por resposta voluntria so exemplos de
amostragem no aleatria.

Maria Eugnia Graa Martins

Anlise de Dados

15

1.3.4 Outros tipos de erro num processo de aquisio de dados, sem serem
erros de amostragem
1 - A populao inquirida diferente da populao alvo ou populao objectivo
2 Informao recolhida no verdadeira
3 Problema da no resposta
4 Erros de processamento

1.4 Estimador centrado e no centrado. Preciso


Uma vez escolhido um plano de amostragem aleatrio, ao pretendermos estimar um
parmetro, pode ser possvel utilizar vrias estatsticas (estimadores) diferentes. Por
exemplo, quando pretendemos estudar a variabilidade presente numa Populao, que
pode ser medida pela varincia populacional 2, sabemos que podemos a partir de uma
amostra, obter duas estimativas diferentes para essa varincia, a partir das expresses
n

s =

(x
i =1

2
i x)

n 1

ou

s =

(x

x) 2

i =1

Quais as razes que nos podem levar a preferir uma das estatsticas relativamente
outra?
Um critrio que costuma ser aplicado o de escolher um bom estimador como sendo
aquele que centrado e que tem uma boa preciso. Escolhido um plano de
amostragem, define-se:
Estimador centrado Um estimador diz-se centrado quando a mdia das estimativas
obtidas para todas as amostras possveis que se podem extrair da Populao, segundo
o esquema considerado, coincide com o parmetro a estimar. Quando se tem um
estimador centrado, tambm se diz que no enviesado.
No captulo seguinte abordaremos com mais detalhe este assunto do no
enviesamento dos estimadores. Veremos assim, que uma das razes que nos levam a
preferir o estimador S2 para a varincia, relativamente a S2, o facto de praticamente
no apresentar enviesamento (Mostra-se mais frente que E(S2)=

Maria Eugnia Graa Martins

N
2).
N 1

Anlise de Dados

16

Para se evitar o enviesamento, necessrio estarmos atentos, primeiro na escolha do


plano de amostragem e depois na escolha do estimador utilizado para estimar o
parmetro desconhecido. O facto de utilizarmos um estimador centrado, no nos
previne contra a obteno de ms estimativas, se o plano de amostragem utilizado,
sistematicamente favorecer uma parte da Populao (isto , fornecer amostras
enviesadas).
Preciso - Ao utilizar o valor de uma estatstica para estimar um parmetro, vimos que
cada amostra fornece um valor para a estatstica que se utiliza como estimativa desse
parmetro. Estas estimativas no so iguais devido variabilidade presente na
amostra. Se, no entanto, os diferentes valores obtidos para a estatstica forem
prximos, e o estimador for centrado, podemos ter confiana de que o valor calculado a
partir da amostra recolhida (na prtica recolhe-se uma nica amostra) est prximo do
valor do parmetro (desconhecido).
A falta de preciso juntamente com o problema do enviesamento da amostra so
dois tipos de erros com que nos defrontamos num processo de amostragem (mesmo
que tenhamos escolhido um bom estimador). No se devem, contudo, confundir.
Enquanto o enviesamento se manifesta por um desvio nos valores da estatstica,
relativamente ao valor do parmetro a estimar, sempre no mesmo sentido, a falta de
preciso manifesta-se por uma grande variabilidade nos valores da estatstica, uns
relativamente aos outros. Por outro lado, enquanto o enviesamento se reduz com o
recurso a amostras aleatrias, a preciso aumenta-se aumentando a dimenso da
amostra.
Como veremos a seguir o estudo de um estimador feito atravs da sua distribuio de
amostragem, ou seja, da distribuio dos valores obtidos pelo estimador, quando se
consideram todas as amostras possveis.
Distribuio de amostragem Distribuio de amostragem de uma estatstica a
distribuio dos valores que a estatstica assume para todas as possveis amostras, da
mesma dimenso, da populao.

Maria Eugnia Graa Martins

Anlise de Dados

17

A maior parte das vezes no se consegue obter a distribuio de amostragem exacta,


mas tem-se uma distribuio aproximada, considerando um nmero suficientemente
grande de amostras da mesma dimenso e calculando para cada uma delas uma
estimativa do parmetro em estudo (problema a estudar posteriormente).

1.5 Qual a dimenso que se deve considerar para a amostra?


Outro problema que se levanta com a recolha da amostra o de saber qual a
dimenso desejada para a amostra a recolher. Este um problema para o qual, nesta
fase, no possvel avanar nenhuma teoria, mas sobre o qual se podem tecer
algumas consideraes gerais. Pode-se comear por dizer que, para se obter uma
amostra que permita calcular estimativas suficientemente precisas dos parmetros a
estudar, a sua dimenso depende muito da variabilidade da populao subjacente. Por
exemplo, se relativamente populao constituda pelos alunos do 10 ano de uma
escola secundria, estivermos interessados em estudar a sua idade mdia, a dimenso
da amostra a recolher no necessita de ser muito grande j que a varivel idade
apresenta valores muito semelhantes, numa classe etria muito restrita. No entanto se
a caracterstica a estudar for o tempo mdio que os alunos levam a chegar de casa
escola, j a amostra ter de ter uma dimenso maior, uma vez que a variabilidade da
populao muito maior. Cada aluno pode apresentar um valor diferente para esse
tempo. Num caso extremo, se numa populao a varivel a estudar tiver o mesmo valor
para todos os elementos, ento bastaria recolher uma amostra de dimenso 1 para se
ter informao completa sobre a populao; se, no entanto, a varivel assumir valores
diferentes para todos os elementos, para se ter o mesmo tipo de informao seria
necessrio investigar todos os elementos.
Chama-se a ateno para a existncia de tcnicas que permitem obter valores mnimos
para as dimenses das amostras a recolher e que garantem estimativas com uma
determinada preciso exigida partida. Uma vez garantida essa preciso, a opo por
escolher uma amostra de maior dimenso, uma questo a ponderar entre os custos
envolvidos e o ganho com o acrscimo de preciso. Vem a propsito a seguinte frase
(Statistics: a Tool for the Social Sciences, Mendenhall et al., 1987, pag. 226):

Maria Eugnia Graa Martins

Anlise de Dados

18

"Se a dimenso da amostra demasiado grande, desperdia-se tempo e talento; se a


dimenso da amostra demasiado pequena, desperdia-se tempo e talento".
Convm ainda observar que a dimenso da amostra a recolher no directamente
proporcional dimenso da populao a estudar, isto , se por exemplo para uma
populao de dimenso 1000 uma amostra de dimenso 100 for suficiente para o
estudo de determinada caracterstica, no se exige necessariamente uma amostra de
dimenso 200 para estudar a mesma caracterstica de uma populao anloga, mas de
dimenso 2000, quando se pretende obter a mesma preciso. Como explicava George
Gallup, um dos pais da consulta da opinio pblica (Tannenbaum, 1998),: Whether you
poll the United States or New York State or Baton Rouge (Louisiana) you need the
same number of interviews or samples. Its no mystery really if a cook has two pots of
soup on the stove, one far larger than the other, and thoroughly stirs them both, he
doesnt have to take more spoonfuls from one than the other to sample the taste
accurately.
Finalmente chama-se a ateno para o facto de que se o processo de amostragem
originar uma amostra enviesada, aumentar a dimenso no resolve nada, antes pelo
contrrio!

1.6 Estimao do valor mdio utilizando amostras aleatrias


simples
Quando se pretende estimar um parmetro, uma vez definido o esquema de
amostragem, considera-se uma estatstica conveniente, isto , uma funo adequada
das observaes, funo esta que para cada amostra observada dar uma estimativa
do parmetro que se pretende estimar. Quando o parmetro a estimar o valor mdio
ou mdia populacional, ento natural considerar como estimador a funo mdia,
que para cada amostra observada dar uma estimativa do parmetro.

Maria Eugnia Graa Martins

Anlise de Dados

19

Como que podemos saber se a mdia um bom estimador para o valor


mdio?
Ser que para as diferentes amostras que podemos obter da populao, as diferentes
estimativas so prximas umas das outras e do parmetro valor mdio? que se isso
acontecer, temos uma certa garantia que a amostra que seleccionmos, j que na
prtica s se selecciona uma amostra, nos fornece uma estimativa razovel. A resposta
questo anterior dada construindo a distribuio de amostragem da mdia, em
que, como vimos anteriormente, se define distribuio de amostragem de uma
estatstica como sendo a distribuio dos valores que a estatstica assume para todas
as possveis amostras, da mesma dimenso, da populao.
So as distribuies de amostragem das estatsticas que nos vo permitir fazer
inferncias sobre os parmetros populacionais correspondentes. A aleatoriedade
presente no processo de seleco das amostras, faz com que se possa utilizar a
distribuio de amostragem de uma estatstica para descrever o comportamento dessa
estatstica, quando se utiliza para estimar um determinado parmetro. Podemos dizer
que atravs da distribuio de amostragem que introduzimos a probabilidade num
procedimento estatstico, em que a partir das propriedades estudadas na amostra,
procuramos tirar concluses para a populao.
1.6.1 Distribuio de amostragem da mdia, como estimador do valor mdio de
uma Populao finita
1.6.1.1 Distribuio de amostragem exacta
Seguidamente vamos exemplificar o processo de obteno da distribuio de
amostragem da Mdia, e consequente estudo das suas propriedades como estimador
do valor mdio de uma Populao finita. Vamos considerar uma Populao de
dimenso suficientemente pequena, para que o problema possa ser tratado dentro dos
limites do razovel.
Consideremos a seguinte populao constituda pelos 9 alunos de uma classe infantil

Maria Eugnia Graa Martins

Anlise de Dados

20

N
1
2
3
4
5
6
7
8
9

Aluno
Maria
Teresa
Tiago
David
Rita
Ana
Joana
Bernardo
Leonor

Peso (kg)
12.5
11.6
13.4
14.1
12.0
10.8
11.9
12.7
9.6

Altura (cm)
65
68
61
64
59
69
58
61
63

N irmos
0
1
0
1
2
1
0
1
1

Algumas caractersticas desta populao so:


Peso
Altura
N irmos

Val. mdio
12.07
63.11
0.78

Desvio padro
1.34
3.57
0.67

Mn.
9.6
58
0

Mx.
14.1
69
2

Mediana
12
63
1

Esta populao to pequena, que para a estudar no tivemos necessidade de


recorrer a amostras para estimar alguns parmetros desconhecidos, tais como altura
mdia, peso mdio, etc. Vamos, no entanto utiliz-la para exemplificar como se pode
estimar a altura mdia a partir da mdia de amostras de dimenso 3. Como a nossa
Populao tem dimenso 9, vamos utilizar a poro de tabela de dgitos aleatrios
considerada na pgina 7, seleccionando nmeros de 1 dgito. Considerando ao acaso
uma das linhas, por exemplo a linha 104, os elementos seleccionados so o 5, o 2 e o
7, sobre os quais vamos recolher a informao relevante ou seja a altura:
N

Nome

Altura

Rita

59

Teresa

68

Joana

58

A mdia das alturas observadas 61.7, que uma estimativa da altura mdia da
Populao.
Como neste caso conhecemos o valor do parmetro, podemos dizer que a estimativa
est razoavelmente prxima do parmetro a estimar. Obviamente que se recolhermos
outras amostras, obteremos outras estimativas. Ento vamos seleccionar mais 9
amostras de dimenso 3, com o auxlio da tabela:

Maria Eugnia Graa Martins

Anlise de Dados

Amostra

21

5 59

65

2 68

61

7 58

61

61

7 58

2 68

1 65

63

4 64

7 58

8 61

61

6 69

4 64

5 59

10

61

6 69

61

59

64

7 58

63

63

58

5 59

59

68

Na obteno das amostras anteriores tivemos o cuidado de fazer a seleco sem


reposio, o que significa que ao obter cada amostra, um elemento seleccionado no
poderia voltar a ser seleccionado. Tambm tivemos o cuidado de verificar se as
amostras eram todas distintas (constitudas por elementos diferentes). Os valores
obtidos para as mdias das 10 amostras foram:
Amostra

10

61.7

62.3

61.7

63.7

63.3

61.7

61.0

62.0

61.0

61.5

Obtivemos vrios valores diferentes como estimativas, sendo esta variabilidade


resultado da variabilidade presente na amostra. Os valores apresentados pelas mdias
das 10 amostras, no diferem muito entre si, nem do valor do parmetro. Mas como
que podemos ter a garantia que se recolhermos outra amostra, no vamos obter como
estimativa do valor mdio da altura, um valor muito diferente do verdadeiro valor do
parmetro? Por outras palavras, gostaramos de poder responder seguinte questo:
Para este processo de amostragem, como que podemos concluir que a mdia
(amostral) um bom estimador do valor mdio (mdia populacional)?
Teremos de estudar a distribuio de amostragem da mdia, que neste caso consiste
9
3

em estudar como se comporta a distribuio das mdias obtidas para as = 84


amostras diferentes, de dimenso 3, que se podem extrair da Populao.
Considerando ento todas as amostras aleatrias simples, diferentes, de dimenso 3,
obtemos
Am.

10

11

12

13

14

15

16

17

18

19

20

21

65

65

65

65

65

65

65

65

65

65

65

65

65

65

65

65

65

65

65

65

65

68

68

68

68

68

68

68

61

61

61

61

61

61

64

64

64

64

64

59

59

59

61

64

59

69

58

61

63

64

59

69

58

61

63

59

69

58

61

63

69

58

61

mdia 64.7 65.7 64.0 67.3 63.7 64.7

Maria Eugnia Graa Martins

65.3 63.3 61.7 65.0 61.3 62.3 63.0 62.7 66.0 62.3 63.3 64.0 64.3 60.7 61.7

Anlise de Dados

Am.

22

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

65

65

65

65

65

65

65

68

68

68

68

68

68

68

68

68

68

68

68

68

68

59

69

69

69

58

58

61

61

61

61

61

61

61

64

64

64

64

64

59

59

59

63

58

61

63

61

63

63

64

59

69

58

61

63

59

69

58

61

63

69

58

61

mdia 62.3 64.0 65.0 65.7 61.3 62.0

63.0 64.3 62.7 66.0 62.3 63.3 64.0 63.7 67.0 63.3 64.3 65.0 65.3 61.7 62.7

Am.

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

68

68

68

68

68

68

68

61

61

61

61

61

61

61

61

61

61

61

61

61

61

59

69

69

69

58

58

61

64

64

64

64

64

59

59

59

59

69

69

69

58

58

63

58

61

63

61

63

63

59

69

58

61

63

69

58

61

63

58

61

63

61

63

mdia 63.3 65.0 66.0 66.7 62.3 63.0

64.0 61.3 64.7 61.0 62.0 62.7 63.0 59.3 60.3 61.0 62.7 63.7 64.3 60.0 60.7

Am.

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

61

64

64

64

64

64

64

64

64

64

64

59

59

59

59

59

59

69

69

69

58

61

59

59

59

59

69

69

69

58

58

61

69

69

69

58

58

61

58

58

61

61

63

69

58

61

63

58

61

63

61

63

63

58

61

63

61

63

63

61

63

63

63

mdia 61.7 64.0 60.3 61.3 62.0 63.7

64.7 65.3 61.0 61.7 62.7 62.0 63.0 63.7 59.3 60.0 61.0 62.7 63.3 64.3 60.7

Uma vez que o plano de amostragem considerado, foi a amostragem aleatria simples,
cada amostra tem igual probabilidade (=1/84) de ser seleccionada, pelo que podemos
considerar os diferentes valores obtidos para a varivel Mdia, assim como as
respectivas probabilidades ou seja, estamos em condies de considerar a seguinte
funo massa de probabilidade para a varivel Mdia, que vamos designar por Mdia3,
para realar o facto de as amostras a partir das quais se obtiveram os seus valores,
terem dimenso 3:
Mdia3

59.3

60.0

60.3

60.7

61.0

61.3

61.7

62.0

62.3

62.7

63.0

63.3

Prob.

2/84

2/84

2/84

3/84

4/84

4/84

5/84

4/84

5/84

7/84

5/84

6/84

Mdia3

63.7

64.0

64.3

64.7

65.0

65.3

65.7

66.0

66.7

67.0

67.3

Prob.

5/84

6/84

5/84

4/84

4/84

3/84

2/84

3/84

1/84

1/84

1/84

Maria Eugnia Graa Martins

Anlise de Dados

23

Algumas caractersticas da varivel Mdia3 so:

Mdia3

Valor mdio

Desvio padro

Mnimo

Mximo

Mediana

63.11

1.79

59.3

67.3

62.83

Repare-se que:

o valor mdio da varivel Mdia3 coincide com o valor mdio da Populao Altura,
de onde se recolheram as amostras;

o desvio padro da varivel Mdia3 bastante menor que o da varivel Altura.

As observaes anteriores permitem-nos concluir que a Mdia3, como estimador do


parmetro - valor mdio da Altura, um estimador centrado, j que o seu valor mdio
coincide com parmetro a estimar.
A partir da distribuio de probabilidade da Mdia3, podemos ainda concluir que a
probabilidade de obtermos estimativas no intervalo [61.3, 65.3] de 0.75, assim como a
probabilidade de obtermos essas estimativas no intervalo [59.5, 66.7] superior a 95%.
Este resultado significa que, ao recolhermos uma amostra de dimenso 3 e ao
calcularmos a partir dela uma estimativa para o valor mdio, estamos confiantes, com
uma confiana superior a 95%, de que essa estimativa no se afasta do parmetro a
estimar de uma distncia superior a 3.6, aproximadamente (63.159.5=3.61; 66.763.1=3.6).
Chamamos a ateno para que a confiana anterior, no nos d a garantia de que a
estimativa que ns calculamos, para a amostra seleccionada, esteja naquele intervalo.
Temos f que sim!
E se as amostras tiverem maior dimenso? O que que ganhamos com isso?
Repetindo o processo anterior, mas agora para amostras de dimenso 5, ser que a
variabilidade apresentada pelo estimador diminui? J que temos mais informao, de
esperar algum ganho na preciso do estimador!
Vamos ento considerar a distribuio de amostragem da mdia para amostras de
dimenso 5. O processo em tudo idntico ao considerado anteriormente, mas agora
ser um pouco mais trabalhoso j que o nmero de amostras distintas, de dimenso 5,
9

que podemos extrair da Populao de dimenso 9 = 126.


5
Maria Eugnia Graa Martins

Anlise de Dados

24

Os resultados obtidos para a distribuio de amostragem da mdia, para amostras de


dimenso 5, foi:
Mdia5

60.4

60.6

60.8

61.0

61.2

61.4

61.6

61.8

62.0

62.2

62.4

62.6

62.8

63.0
0.079

Probab

0.008

0.008

0.008

0.016

0.016

0.032

0.024

0.040

0.040

0.056

0.063

0.048

0.063

Mdia5

63.2

63.4

63.6

63.8

64.0

64.2

64.4

64.6

64.8

65.0

65.2

65.4

65.8

Probab

0.063

0.071

0.056

0.056

0.048

0.048

0.048

0.024

0.024

0.024

0.016

0.016

0.008

Algumas caractersticas da varivel Mdia5 so:

Mdia5

Valor mdio

Desvio padro

Mnimo

Mximo

Mediana

63.11

1.13

60.4

65.8

63.1

Repare-se que:

o valor mdio da varivel Mdia5 coincide com o valor mdio da Populao


varivel Altura, de onde se recolheram as amostras;

o desvio padro da varivel Mdia3 bastante menor que o da Populao varivel


Altura e ainda inferior ao da varivel Mdia3.

Na figura seguinte apresentamos as distribuies de amostragem da Mdia3 e da


Mdia5:

Maria Eugnia Graa Martins

Anlise de Dados

25

Concluso: a preciso do estimador aumenta, medida que se aumenta a dimenso da


amostra. Recordamos que quanto menor for a variabilidade apresentada pelo
estimador, maior a preciso.
Resultado terico:
Dada uma Populao de dimenso N, de valor mdio e varincia 2, quando se
considera um plano de amostragem aleatria simples, e como estimador de a Mdia,
calculada a partir de amostras de dimenso n, ento:

O valor mdio da Mdia , isto , a Mdia como estimador do valor mdio um


estimador centrado;

A varincia da Mdia igual a

2 N -n
n

N -1

N - n S2
(
)
um estimador no enviesado da varincia da Mdia
N n

Nota: A demonstrao destes resultados apresentada a seguir, depois de algumas consideraes


sobre as expresses apresentadas.

A expresso obtida para a varincia muito interessante pela informao que contm.
Nomeadamente:

Confirma o que j havamos esperado, no sentido de que ao aumentar a dimenso


da amostra, aumentamos a preciso do estimador (na medida em que diminui a
sua variabilidade).

Maria Eugnia Graa Martins

Anlise de Dados

26

Permite-nos ainda concluir que, para obter a mesma preciso, quando estimamos
o valor mdio de Populaes da mesma dimenso, a dimenso da amostra ter de
ser tanto maior, quanto maior for a variabilidade presente na Populao.

Mas mais interessante, embora menos intuitivo, permite-nos concluir que se a


dimenso da Populao for substancialmente maior que a da amostra, ento a
preciso do estimador no depende da dimenso dessa Populao, mas
unicamente da variabilidade a presente (pois (N-n)/(N-1) 1).

Demonstrao:
Seja Y1, Y2, ...,Yn uma amostra aleatria simples de uma populao de valores {u1, u2, ..., uN}.
N

Considerando um Yi, tem-se E(Yi)=

i=1

Yi por

Y,

tem-se E( Y )=

1
n

ui

1
=
N

e V(Yi)=

(u - )
i=1

N(N 1)

i j

1
N2

ui )2 =

i =1

N(N 1)
uiu j

N
uiu j
1
1
2
(
u
)

i
=
N
( N 1) N
i =1
i j

=-

1
N( N 1)

( u )
i

Var( Y ) =

n
1
2 + 2

n2
i< j
i =1

N 1 =

N2

=-

i =1

u )
i

i =1

N
N

u i )2
u i2
N

1 i =1
1
i =1
(
u i )2

N
N 1
N

i =1

n
n

1
1

Yi =
2 + 2

n
n2
i< j
i =1
i =1

Como Var( Y ) = Var

. Representando a mdia dos

i =1

N
N

1
1 1

2
ui
ui

N( N 1)
N N 1

i
=
1
i
=
1

= 2

i j

uiu j

E(Y ) =. Por outro lado,

Cov(Yi, Yj) = E[(Yi -)(Yj-)]= E(YiYj) 2=

2 1

1
N 1

Cov(Yi , Yj )

1 2 2 2 n (n 1)
n

N 1
2
n 2

=-

2.

ento

pois h n(n-1)/2 pares (i,j) seleccionados de

entre os inteiros 1,2, ..., n tais que i<j. Portanto


Var( Y )=
Pode-se ainda mostrar que

1
N n S2
, com S2=
N 1
N
n

Var( Y ). Efectivamente E(S2) =

Maria Eugnia Graa Martins

2 N - n
n N-1
n

(Y Y )

i=1
2

, um estimador no enviesado de

Nn S
N 2
, donde E(
) = Var( Y ).
N
N -1
n

Anlise de Dados

27

1.6.1.2 Distribuio de amostragem aproximada


Quando a populao finita, e a amostragem se faz sem reposio, existem algumas
condies necessrias e suficientes para que se possa considerar a distribuio da
mdia aproximada pela distribuio Normal. No vamos apresentar essas condies,
embora admitamos que elas esto satisfeitas e enunciamos o seguinte resultado:
Suponhamos que uma amostra aleatria simples seleccionada de uma Populao de
dimenso N, em que a varivel em estudo tem valor mdio e varincia 2. Ento, se a
dimenso n da amostra for suficientemente grande (um valor que usual considerar
como suficientemente grande 30), a distribuio de amostragem da mdia pode ser
aproximada pela distribuio Normal com valor mdio e varincia

2 N -n
n

N -1

). A

aproximao verifica-se para amostras de dimenso suficientemente grande,


independentemente da forma da distribuio da Populao.
O resultado anterior permite concluir que quanto maior for a dimenso da amostra,
menor a variabilidade apresentada pelo estimador.
1.6.2 Distribuio de amostragem aproximada da mdia, como estimador do
valor mdio de uma Populao finita, mas de dimenso suficientemente
grande
Na maior parte dos casos em que necessrio recolher uma amostra para estudar uma
caracterstica de uma Populao, no se conhece a dimenso desta. Ento costuma-se
assumir que suficientemente grande de modo que se diz que se tem uma Populao
de dimenso infinita. Em termos prticos costuma-se considerar que se tem uma
populao de dimenso infinita quando nN/20. Nestas condies o factor (N-n)/(N-1)
que aparece na expresso da varincia da Mdia toma um valor aproximadamente
igual a 1, pelo que temos o seguinte resultado, conhecido como Teorema Limite
Central (TLC), de que o resultado anterior uma verso para Populaes finitas:

Maria Eugnia Graa Martins

Anlise de Dados

28

Suponhamos que uma amostra aleatria simples seleccionada de uma Populao de


dimenso grande, em que a varivel em estudo tem valor mdio e varincia 2. Ento,
se a dimenso n da amostra for suficientemente grande (um valor que usual
considerar como suficientemente grande 30), a distribuio de amostragem da mdia
pode ser aproximada pela distribuio Normal com valor mdio e varincia

2
n

. A

aproximao verifica-se para amostras de dimenso suficientemente grande,


independentemente da forma da distribuio da Populao subjacente s amostras.
Mais uma vez chamamos a ateno para a seguinte propriedade, j anteriormente
referida: quanto maior for a dimenso da amostra, menor a variabilidade apresentada
pelo estimador. Alm disso, tambm conclumos que, para Populaes de dimenso
suficientemente grande, esta no tem influncia sobre a variabilidade do estimador.
Em concluso, a preciso de um estimador, para Populaes de grande dimenso,
no depende do tamanho da Populao, mas sim da variabilidade a presente. Quando
pretendemos estimar um parmetro da Populao, para obter uma determinada
preciso, a dimenso da amostra ter de ser tanto maior, quanto maior for a
variabilidade existente na Populao. No entanto, se a dimenso da Populao j
no for suficientemente grande, essa dimenso ter interferncia na preciso do
estimador.

1.7 Distribuio de amostragem da mdia, em amostragem com


reposio
Ser interessante estudarmos a distribuio de amostragem da Mdia, quando se faz
amostragem com reposio, de uma Populao com dimenso N e comparar com o
que se obtm em amostragem sem reposio.
Agora, cada elemento da Populao tem uma probabilidade constante e igual a 1/N de
ser seleccionado para pertencer amostra, j que quando um elemento
seleccionado, uma vez a informao recolhida, ele novamente reposto na Populao.

Maria Eugnia Graa Martins

Anlise de Dados

29

Este processo equivalente a seleccionarmos uma amostra aleatria de dimenso n de


uma populao uniforme discreta no conjunto dos valores da caracterstica a estudar da
Populao, que podemos representar por y1, y2, , yN. Ento cada vez que se
selecciona um elemento da Populao como se obtivssemos um valor da varivel Y
que assume os valores yi considerados anteriormente, com probabilidade 1/N.
Seleccionar uma amostra de dimenso n significa seleccionar n variveis Y1, Y2, , Yn,
independentes e com distribuio idntica de Y. Ento a Mdia ser uma varivel cujo
valor mdio o valor mdio da Populao (ou da distribuio uniforme) e cuja
varincia 2/n, onde 2 a varincia da Populao (ou da distribuio uniforme
subjacente).
A amostragem sem reposio mais eficiente do que a amostragem com reposio

2
, para a varincia da Mdia, com o resultado apresentado
Comparando o resultado
n
quando se faz amostragem sem reposio, nomeadamente

2 N -n
n

N -1

) , conclui-se que

a amostragem sem reposio mais eficiente, quando se pretende estimar o valor


mdio da Populao, uma vez que produz um estimador com uma varincia mais
pequena, isto , que apresenta menor variabilidade.
EXEMPLO 1.9 Considere uma populao constituda pelos elementos 1, 2, 3, 4 e 5. Pretende estimar
o valor mdio desta populao, pelo que decide recolher uma amostra de dimenso 2, com reposio. e
calcular a sua mdia. Obtenha a distribuio de amostragem do estimador utilizado para estimar o valor
mdio da populao.
Resoluo: A Populao anterior constituda pelos elementos 1, 2, 3, 4 e 5, tendo cada um uma
probabilidade constante e igual a 1/5 de ser seleccionado para pertencer a uma amostra:
Populao X
Probabilidade
Propriedades da Populao:
Valor mdio = 3
Desvio padro = 2.

Maria Eugnia Graa Martins

1
1/5

2
1/5

3
1/5

4
1/5

5
1/5

Anlise de Dados

30

A metodologia seguida para obter a distribuio de amostragem consiste em obter todas as amostras de
dimenso 2, com reposio, calcular o valor da estatstica mdia para cada uma delas e depois
representar a distribuio dos valores obtidos:

Amostras

(1,1)

(1,2)

(1,3)

(1,4)

(1,5)

(2,5)

(3,5)

(4,5)

(2,1)

(2,2)

(2,3)

(2,4)

(3,4)

(4,4)

(5,4)

(3,1)

(3,2)

(3,3)

(4,3)

(5,3)

(4,1)

(4,2)

(5,2)

(5,5)

(5,1)
mdia

1.5

2.5

3.5

4.5

De acordo com a tabela anterior obtemos a seguinte distribuio de amostragem para o estimador
Mdia2 (assim representado por se obter a partir de amostras de dimenso 2)
Mdia2
Probabilidade

1.5

2.5

3.5

4.5

1/25

2/25

3/25

4/25

5/25

4/25

3/25

2/25

1/25

1 1.5 2 2.5 3 3.5 4 4.5 5

Caractersticas da distribuio de amostragem da Mdia para amostras de dimenso 2:


Valor mdio = 3
Desvio padro = 1

Algumas observaes:

O centro da distribuio de amostragem do estimador Mdia utilizado para estimar o valor mdio da
populao (igual a 3), coincide com o parmetro a estimar .

O desvio padro da populao inicial igual a

2 , enquanto que o desvio padro da mdia,

calculada a partir de amostras de dimenso 2 1 ( 2 / 2 =1 resultado considerado anteriormente).


Se repetirmos a metodologia seguida no processo do exemplo anterior, considerando agora amostras de
dimenso 3, o problema torna-se mais trabalhoso, j que o nmero de amostras possveis 53=125.
Assim, abstemo-nos de apresentar todas essas amostras, limitando-nos a apresentar a distribuio de
amostragem da Mdia3:

Maria Eugnia Graa Martins

Anlise de Dados

31

Mdia3

1.33

1.67

2.33

2.67

3.33

3.67

4.33

4.67

Proba.

.008

.024

.048

.080

.120

.144

.152

.144

.120

.080

.048

.024

.008

Caractersticas da distribuio de amostragem:


Valor mdio = 3
Desvio padro = 0.816

Algumas observaes:

O centro da distribuio de amostragem do estimador Mdia3 utilizado para estimar o valor mdio da
populao (igual a 3), coincide com o parmetro a estimar .

O desvio padro da populao inicial igual a

2 , enquanto que o desvio padro da Mdia3,

calculada a partir de amostras de dimenso 3 0.816 ( 2 / 3 =0.816 o que condiz com o resultado
apresentado anteriormente, de que a varincia da Mdia 2/n).

A variabilidade apresentada pela distribuio de amostragem inferior obtida quando se


consideram amostras de dimenso 2. Este resultado indicia que quanto maior for a dimenso da
amostra, menor a variabilidade apresentada pela distribuio de amostragem.

Se a dimenso da Populao for muito grande, a probabilidade de extrairmos o mesmo elemento duas
vezes extremamente pequena. Assim, os dois processos de amostragem, com reposio e sem
reposio, so praticamente equivalentes, quando estamos a estimar a mdia populacional.

A concluso anterior vai de encontro com a que se pode obter tambm se tomarmos
ateno s varincias das Mdias de amostras de dimenso n, quando se faz extraco
com e sem reposio. Efectivamente o factor

N
n
Nn
=
(1 )
N-1
N
N1
que aparece na expresso da varincia num processo de amostragem aleatria simples
(sem reposio) assume um valor prximo de 1, quando N razoavelmente grande e n

Maria Eugnia Graa Martins

Anlise de Dados

32

razoavelmente pequeno, quando comparado com N. Ao quociente

n
costuma-se
N

chamar fraco de amostragem. J apontamos anteriormente que se considera uma


Populao grande se a sua dimenso for cerca de 20 vezes superior dimenso da
amostra, ou seja, quando a fraco de amostragem for menor que 0.05.

1.8 A forma da distribuio de amostragem da Mdia em populaes infinitas ou amostragem com reposio
Vimos anteriormente que o estimador Mdia um estimador centrado do valor mdio
da populao, quer a populao seja finita ou infinita e a amostragem com reposio ou
sem reposio. Vimos tambm a expresso para a varincia, em qualquer das
situaes consideradas.
Vamos agora admitir que estamos a realizar uma amostragem com reposio, ou que a
populao a estudar, X, infinita, situao em que a seleco de um elemento para a
amostra, pode ser considerada independente da seleco dos outros elementos. Assim,
consideremos a amostra aleatria (X1, X2, ..., Xn) onde as variveis aleatrias X1, X2, ...,
Xn so indepententes e identicamente distribudas a X, como se apresenta no seguinte
esquema:
Se tivermos k amostras de dimenso n, recolhidas da Populao X:

Populao X

1 amostra
x x ... x

2 amostra
x x ... x

k-sima amostra
x ... x
x

Relativamente s amostras anteriores, podemos considerar o seguinte:

Maria Eugnia Graa Martins

Anlise de Dados

33

x11, x21, ...,xk1

so os valores observados de uma v.a. com distribuio idntica


de X, mas que representamos por X1, para significar que foi o 1
elemento recolhido nas diferentes amostras;
so os valores observados de uma v.a. com distribuio idntica

x12, x22, ...,xk2

de X, independente de X1 (numa amostra aleatria, os valores no


podem depender uns dos outros), mas que representamos por X2,
para significar que corresponde ao 2 elemento recolhido;
so os valores observados de uma v.a. com distribuio idntica
de X, independente de X1, X2,... que representamos por Xn, para

x1n, x2n, ...,xkn

significar que foi o ensimo elemento a ser recolhido.


Com esta notao, as amostras (x11, x12, x13,..., x1n ), ( x21, x22, x23,..., x2n ) ..., ( xk1, xk2,
xk3,..., xkn ) so amostras observadas da amostra aleatria
(X1, X2, , Xn)
Admitindo que a populao X, que estvamos a estudar, era constituda pelas alturas
(em cm) dos alunos inscritos na FCUL, no ano lectivo de 2005/2006, era tal que
XN(165,10), podemos obter vrias amostras observadas, de dimenso 10:
(158, 163, 171, 150, 149, 167, 158, 172, 149, 150)
(167, 149, 168, 153, 162, 160, 170, 161, 160, 149)

(170, 160, 158, 168, 165, 159, 163, 159, 172, 150)
da amostra aleatria (X1, X2, , X10), em que todas as v.a. Xi, i=1,,10, so
independentes e tm distribuio Normal de valor mdio 165 e desvio padro 10.
Tendo em considerao o que foi dito anteriormente, podemos afirmar que
x1 , x 2 , , x k , so valores observados da varivel aleatria
n

X=

X
i =1

n
onde X1, X2, , Xn so variveis aleatrias independentes e com a mesma distribuio
que uma varivel aleatria X ( populao em estudo). Sendo a estatstica uma varivel
aleatria tem uma distribuio de probabilidades, a que damos o nome de distribuio
de amostragem, como j vimos nas seces consideradas anteriormente.

Maria Eugnia Graa Martins

Anlise de Dados

34

So as distribuies de amostragem das estatsticas que nos vo permitir fazer


inferncias sobre os parmetros populacionais correspondentes. Ao aleatoriezarmos o
processo de seleco das amostras, faz com que se possa utilizar a distribuio de
amostragem de uma estatstica para descrever o comportamento dessa estatstica,
quando se utiliza para estimar um determinado parmetro. Por outro lado, para
podermos utilizar os resultados da Teoria das Probabilidades, o processo de
amostragem que se considera o de amostragem com reposio. Esta observao
relevante, sobretudo para populaes de dimenso pequena, em que a composio da
populao, relativamente caracterstica de interesse, se altera quando se retiram
alguns elementos; esta situao no se verifica com populaes de grande dimenso,
que normalmente a situao de interesse em Estatstica.
Assim, se uma populao tiver N elementos, para obter as distribuies de amostragem
de estatsticas, a partir de amostras de dimenso n, teramos de seleccionar Nn
amostras distintas. Ento, para calcular a distribuio de amostragem da mdia, ser
necessrio considerar todas as amostras possveis e calcular as respectivas mdias?
Felizmente no necessrio estar com tanto trabalho, graas a um dos resultados mais
importantes da Teoria das Probabilidades, conhecido como Teorema Limite Central,
que nos fornece um modelo matemtico para a distribuio de amostragem da mdia,
como veremos a seguir.
Algumas questes que se podem levantar acerca da distribuio de amostragem da
estatstica mdia, so as seguintes:

A distribuio da mdia, depende da distribuio da populao X, subjacente s


amostras?

Ser sempre possvel conhecer essa distribuio?

No que se segue procuraremos responder a estas questes, adiantando desde j que,


na verdade, a distribuio de amostragem da mdia depende da distribuio da
populao subjacente s amostras. Veremos tambm, que nem sempre possvel
obter a distribuio exacta da mdia, mas sim uma distribuio aproximada.

Maria Eugnia Graa Martins

Anlise de Dados

35

1.8.1 Valor mdio e desvio padro da mdia


Dada uma populao X de valor mdio e desvio padro , ento, tendo em
considerao as propriedades do valor mdio e da varincia, pode-se mostrar
facilmente que
E( X ) =

Var( X ) =

2
n

Obs: No esquecer que X uma combinao linear de variveis aleatrias


independentes e com a mesma distribuio.
Chamamos a ateno para o facto do valor mdio da v.a estimador X , coincidir com o
parmetro que estamos a estimar, o valor mdio, , da populao. Dizemos que o
estimador centrado ou no enviesado. Alm disso, a varincia do estimador
decresce com a dimenso da amostra, o que permite concluir que, medida que
aumentamos a dimenso da amostra a variabilidade do estimador, em torno do
parmetro, diminui. Diz-se ento que o estimador consistente. Estas propriedades de
no enviesamento e de consistncia fazem com que a mdia seja um bom estimador
do valor mdio.
1.8.2 Distribuio da mdia, para populaes Normais
Para obter a distribuio de X , vamos distinguir o caso de a populao X ser Normal e
no Normal, distinguindo ainda se o desvio padro conhecido ou no.
1.8.2.1 Desvio padro conhecido
J dissemos quando estudamos a distribuio Normal, que qualquer combinao linear
de variveis aleatrias independentes, com distribuio Normal, ainda tem distribuio
Normal. Como a mdia uma combinao linear de variveis aleatrias Xi,
independentes, com distribuio idntica de X, que por hiptese Normal(,), vem
imediatamente que X tem distribuio Normal, com valor mdio e desvio padro
pelo que procedendo standardizao, se obtm o seguinte resultado

Maria Eugnia Graa Martins

Anlise de Dados

36

Populaes Normais, conhecido


Z=

X -
/ n

N(0,1)

1.8.2.2 Desvio padro desconhecido


Quando o parmetro desconhecido, situao que ocorre com frequncia, j o
resultado anterior no vlido. Assim, estima-se o desvio padro desconhecido pelo
desvio padro emprico, S, em que
n

S2 =

(X
i =1

X)2

n 1

e tem-se o seguinte resultado


Populaes Normais, desconhecido
T=

X
S t(n -1)
n

o que significa que se conhece a distribuio exacta da varivel aleatria T, que a


chamada distribuio t-Student (t de Student), com (n-1) graus de liberdade e que se
representa por t(n-1).
Este modelo tem uma funo densidade semelhante da Normal, mas com as caudas
mais altas, isto , no to concentrada. No entanto, medida que o nmero de graus
de liberdade aumenta (isto , medida que n aumenta), a t-Student confunde-se com a
Normal. Do mesmo modo que a Normal, tambm a distribuio t-Student se encontra
tabelada.

Maria Eugnia Graa Martins

Anlise de Dados

37

1.8.3 Distribuio da mdia, para populaes no normais. Teorema Limite


Central
Quando a distribuio da populao X j no Normal, a distribuio de amostragem
da mdia depender da distribuio de X, no sendo em geral conhecida. No entanto,
um dos teoremas fundamentais das probabilidades, d-nos uma indicao do
comportamento da distribuio da mdia de um nmero suficientemente grande de
variveis aleatrias independentes e identicamente distribudas:
Teorema limite central
Se X1, X2, , Xn so variveis aleatrias independentes e identicamente distribudas a
2

uma varivel aleatria X com valor mdio e varincia , finita, ento a distribuio da
soma Sn = X1+ X2+ + Xn, ou da mdia X =

Sn
tende a aproximar-se da distribuio
n

Normal, para n suficientemente grande


P(

S n n
z ) (z)
n

P(

X
z ) (z)

O teorema limite central d-nos uma justificao terica para a grande utilizao da
distribuio Normal, como modelo de fenmenos aleatrios. Quantidades tais como
alturas e pesos de uma populao relativamente homognea, podem ser consideradas
como somas de um grande nmero de causas genticas e efeitos devido ao meio
ambiente, mais ou menos independentes entre si, cada um contribuindo com uma
pequena quantidade para a soma.
O que que se entende por um valor de n suficientemente grande?
Uma questo que se pode pr a seguinte: quando queremos aplicar o teorema do
limite central: qual o valor de n, para que se possa considerar que temos uma boa
aproximao para a distribuio Normal?
Este valor de n depende da distribuio subjacente amostra e ser tanto maior quanto
mais enviesada for a distribuio da populao (o termo enviesado aplica-se como
contrrio a simtrico).

Maria Eugnia Graa Martins

Anlise de Dados

38

1.9 Distribuio de amostragem da proporo


Anteriormente estudmos a estimao do valor mdio e vamos, neste captulo, ver
como os resultados que se obtiveram podem ser traduzidos para o estudo da estimao
do parmetro proporo de elementos da Populao que satisfazem determinada
propriedade ou verificam determinada caracterstica.
1.9.1 Distribuio de amostragem da proporo para populaes finitas
Consideremos ento uma populao de dimenso N e seja p a proporo
(desconhecida) de elementos de uma populao que verificam determinada
caracterstica. Na metodologia que vamos utilizar, no estudo da estimao da
proporo, comeamos por verificar que uma proporo uma mdia de 0s e 1s em
que atribumos o valor 1 a um elemento da populao que verifique a caracterstica em
estudo e o valor 0 a um elemento que no verifique essa caracterstica. Assim, a
proporo p no mais do que o valor mdio desta populao cujos elementos so
0s e 1s, pelo que o estudo feito para a estimao do valor mdio ser facilmente
adaptado para a estimao da proporo.
Para esta populao to particular, constituda por 0s e 1s, em que a mdia
populacional a proporo populacional, a mdia amostral tambm ser a proporo
amostral, que ser assim, o estimador intuitivo para a proporo populacional.
Como no captulo anterior estudmos a distribuio de amostragem da mdia, tendo
concludo que a mdia um bom estimador para o valor mdio, imediatamente
conclumos que a proporo amostral um bom estimador para a proporo
populacional.
A fim de utilizar os resultados enunciados para a distribuio de amostragem da mdia,
vejamos a que igual a varincia de uma populao constituda por 0s e 1s em que a
percentagem de 1s p.

Maria Eugnia Graa Martins

Anlise de Dados

39

Varincia 2 da populao em estudo:


A partir da expresso da varincia, temos que

2 =

(1 - p)2 Np + (0 - p)2 N(1- p)


N

2 = p (1- p)
A varincia de uma populao constituda por 0s e 1s, em que a percentagem de 1s
p, igual a p(1- p).
As concluses a que chegmos no captulo anterior, permitem-nos agora enunciar os
seguintes resultados:
Dada uma populao de dimenso N, em que p a percentagem de elementos da
populao que verificam determinada caracterstica, quando se considera um esquema
de amostragem aleatria simples, e como estimador de p, a proporo amostral p , isto
a proporo de elementos com a caracterstica em estudo, existente em amostras de
dimenso n, ento:

de p um estimador centrado, j que o seu valor mdio coincide


O estimador p
com p;

igual a
A varincia de p

p(1-p) N -n
(
).
n
N -1

O resultado terico conhecido como Teorema Limite Central toma agora a seguinte
expresso:
Suponhamos que uma amostra aleatria simples seleccionada de uma Populao de
dimenso grande, em que a caracterstica em estudo est presente numa proporo p
(desconhecida) Ento, se a dimenso n da amostra for suficientemente grande (um
valor que usual considerar como suficientemente grande 30), a distribuio de

pode ser aproximada pela distribuio Normal


amostragem da proporo amostral p
com valor mdio p e varincia

Maria Eugnia Graa Martins

p(1- p)
n

Anlise de Dados

40

1.9.2 Distribuio de amostragem da proporo para populaes infinitas ou


com reposio
Neste caso, em que a populao infinita ou a amostragem se faz com reposio, as n
variveis aleatrias X1, X2, ..., Xn (n provas) que consistem em seleccionar outros tantos
elementos da populao e verificar se sim ou no tm a caracterstica em estudo
(sucesso ou insucesso), que existe na populao com uma proporo p, so variveis
de Bernoulli. Assim, a v.a. X que representa o n de sucessos nas n provas tem
distribuio Binomial de parmetros n e p, Bin(n,p). Um estimador da proporo p a

=
proporo amostral p

X
, cujas propriedades podem ser deduzidas a partir do facto da
n

distribuio de X ser conhecida. Efectivamente

)=
E( p

E( X) np
=
=p
n
n

)=
Var( p

Var ( X) np(1 p) p(1 p)


=
=
n
n2
n2

Por outro lado, se a dimenso da amostra for suficientemente grande, a distribuio


Bin(n,p) pode ser aproximada por uma distribuio Normal(np, np(1 p) ), pelo que a

pode ser aproximada por uma distribuio Normal (p,


distribuio de p
como j havamos concludo anteriormente.

Maria Eugnia Graa Martins

p(1 p)
),
n

Anlise de Dados

41

Introduo estimao

Introduo estimao. Estimao pontual e intervalar. Intervalo de confiana com uma


confiana de 100(1-)%. Dimenso da amostra necessria para obter um intervalo de
confiana com uma determinada preciso e uma determinada confiana.
Margem de erro.

2.1 Introduo
Dada uma amostra, vimos que possvel fazer a sua reduo, atravs do clculo de
certas estatsticas. No entanto, a importncia destas caractersticas amostrais no se
fica por aqui, pois o nosso objectivo vai ser utiliz-las para inferir algo sobre a
populao subjacente amostra. Foi nesta perspectiva que falmos em utilizar:
i) a mdia x como estimativa do valor mdio ;
ii) a proporo p =x/n, onde x representa o n de sucessos obtidos numa certa amostra

de dimenso n, como estimativa da probabilidade p de sucesso, na distribuio


Binomial, etc.
Quer dizer que as estatsticas referidas permitem-nos obter determinados valores que
servem como estimativas dos parmetros (desconhecidos) ou caractersticas das
distribuies populacionais - a estes valores chamamos estimativas pontuais. Por
vezes interessa-nos obter, no um valor que estime o parmetro em causa, mas um
intervalo que contenha, com determinada probabilidade, esse parmetro - neste caso
pretendemos uma estimativa intervalar ou um intervalo de confiana.
Um estimador uma varivel aleatria, funo da amostra aleatria, que para valores
observados da amostra fornece estimativas pontuais ou estimativas intervalares do
parmetro populacional desconhecido. Ento, a v.a. X um estimador do valor mdio,

Maria Eugnia Graa Martins

Anlise de Dados

42

X
assim como p = um estimador da probabilidade p. De um modo geral quando nos
n

referimos ao estimador utilizamos letra maiscula, enquanto que a estimativa se


representa com letra minscula. Esta metodologia por vezes no seguida, como por
exemplo, no caso anteriormente considerado da proporo.
O que um "bom" estimador?
O facto de termos escolhido a mdia como estimador do valor mdio, no se deve
unicamente analogia existente, entre parmetros populacionais e parmetros
amostrais. Comom vimos no captulo 1, existem alguns critrios que definem partida,
se um estimador "bom" ou "mau". Assim, o critrio mais utilizado exige que o
estimador seja no enviesado ou centrado, isto , que o seu valor mdio coincida com o
parmetro populacional a estimar, e de entre os que satisfazem esta condio deve ter
varincia mnima. Estas duas propriedades so, de certo modo intuitivas, pois ao

considerar um estimador esperamos que as estimativas que ele fornece coincidam, em


mdia, com o parmetro a estimar, e alm disso a variabilidade dessas estimativas, em
torno do parmetro, deve ser pequena. Por exemplo, no caso concreto de populaes
simtricas, podem existir vrios estimadores centrados para o valor mdio,
nomeadamente a mdia e a mediana. No entanto, escolhe-se o que tem varincia
mnima, que a mdia.
No que diz respeito varincia populacional 2, alguns estimadores possveis so
(Xi X)
S2=
n 1

ou

S'2=

(Xi X) 2
n

Ao considerar estas duas estatsticas, costuma-se dizer que por razes que se
prendem com a inferncia estatstica, a estatstica mais utilizada S2. Neste momento
j podemos dar a razo que nos leva a escolher
ao contrrio de

(Xi X) 2
,
n

(Xi X) 2
n 1

- o facto de este estimador,


2

ser centrado, pois pode-se mostrar que E [S ]=

com Xi

, i=1,...,n variveis aleatrias independentes e identicamente distribudas a X, enquanto

Maria Eugnia Graa Martins

Anlise de Dados

que E [S ]=

43

n 1
n

. Assim, quando a dimenso da amostra suficientemente grande,

S assintticamente centrado, pois

n 1
n

1, sendo indiferente utilizar um ou outro

estimador.

2.2 Estimao da proporo. Intervalo de confiana para a


proporo
J vimos no captulo 1 que se tivermos uma populao constituda por indivduos que
pertencem a uma de duas categorias, que representamos por A e Ac em que p a
proporo (desconhecida) de indivduos que pertencem categoria A, um estimador
desta proporo p . Vimos que p um estimador centrado ou no enviesado e tem
uma variabilidade que tende para 0, medida que a dimenso da amostra recolhida
aumenta. Podemos dizer que temos um bom estimador, pelo menos relativamente ao
critrio considerado anteriormente!
Ento, quando pretendemos fazer inferncia sobre p, recolhemos uma amostra de
dimenso n e calculamos p . O valor obtido uma estimativa pontual de p. Se
recolhermos vrias amostras da mesma dimenso e calcularmos outras tantas
estimativas para p, no temos possibilidade de saber qual o erro associado com cada
uma dessas estimativas. O verdadeiro valor da percentagem p desconhecido, pelo
que no sabemos se as estimativas que obtivemos so boas ou ms, portanto no
sabemos qual a confiana com que devem ser encaradas, e no temos assim
possibilidade de saber qual a que devemos utilizar. Por exemplo, se dois jornais
distintos apresentarem, no mesmo dia, as percentagens de 45% e 52% de pessoas que
votaro Sim Constituio Europeia, no sabemos qual a que nos merece mais
confiana. Perante esta incapacidade de medir o erro cometido ao tomar uma
estimativa pontual, abordamos o problema de outra forma e vamos procurar uma
estimativa intervalar, isto , um intervalo da forma [a,b], que contenha o verdadeiro
valor da percentagem (desconhecida), com uma determinada confiana, que definimos
priori, isto ,
Prob( [a,b] conter p ) = 1-

Maria Eugnia Graa Martins

Anlise de Dados

44

De um modo geral a confiana exprime-se na forma 100(1-)%, com pequeno.


Como determinar os limites a e b do intervalo de confiana?
J que, como vimos na seco anterior, a distribuio de amostragem de p pode ser
aproximada pela distribuio Normal, quando a dimenso n da amostra utilizada for
suficientemente grande, ento possvel, dada uma probabilidade P, por exemplo .95,
obter o valor de z tal que se tenha
P(

Se P(

| p p |
p(1 p)
n

| p p |
p(1 p)
n

z ) = .95.

| p p |

z ) = .95 ento z=1.96, ou seja P(

p(1 p)
n

1.96 ) = .95.

Trabalhando a expresso anterior obtemos


P( p -1.96

p(1 p)
n

p p +1.96

p(1 p)
n

) = .95

Se n suficientemente grande p est suficientemente prximo de p, pelo que na


expresso anterior vamos substituir p por p em
P( p -1.96

p(1 p)
n

Dizemos que o intervalo [ p -1.96

p(1 p)
, obtendo-se
n

p p +1.96

p(1 p)
n

, p +1.96

p(1 p)
n
p(1 p)
n

) .95

] um intervalo aproximado

de confiana para p, com uma confiana de 95%.


De um modo geral se considerarmos uma confiana de 100(1-)% (representamos por
uma probabilidade pequena, que associamos desconfiana ou ao erro cometido na
obteno do intervalo de confiana), o intervalo de confiana para p assume o
aspecto
[ p -z1-/2

p(1 p)
n

p(1 p)
, p +z1-/2
]
n

onde representamos por z1-/2 o quantil de probabilidade (1-/2) da N(0,1) e p a


proporo de elementos da amostra pertencentes categoria em estudo.

Maria Eugnia Graa Martins

Anlise de Dados

45

EXEMPLO 2.1 (Adaptado de De Veaux and al, 2004) Os corais esto em declnio, em todo o
mundo, possvelmente devido poluio ou mudana da temperatura da gua do mar. A morte dos
recifes de corais pode ser um aviso das mudanas climticas e poder ter um impacto econmico ainda
no calculado. Uma espcie muito bonita de coral, conhecida como Leque do Mar, particularmente
afectada pela poluio e pela doena aspergillosis. Em Junho de 2000, uma equipa de investigadores
recolheu uma amostra de corais desta espcie, a uma profundidade de 40 ps, em Las Redes Reef,
Akumal, Mxico. Verificaram que 54 dos 104 corais que recolheram, estavam infectados com aquela
doena. O que que se pode dizer sobre a prevalncia desta doena, sobre aquele tipo de corais? Para
j, temos uma proporo de corais doentes de 51.9%, mas ningum nos garante que os investigadores
obteriam a mesma proporo se recolhessem outra amostra de 104 corais.O que que podemos dizer
efectivamente sobre a proporo p de corais infectados? Apresentamos a seguir uma lista de coisas que
poderamos dizer, ou que por vezes se dizem, e a razo pela qual no so correctas a maior parte delas:
1. 51.9% de todos os corais da espcie Leque do Mar, em Las Redes Ref, esto infectados No

temos informao suficiente para fazer esta afirmao. S poderamos fazer esta afirmao se
tivssemos investigado o que se passava com todos os corais. Assim, se recolhessemos outra
amostra, obteramos outra percentagem.
2. Provavelmente verdade que 51.9% de todos os corais da espcie Leque do Mar, em Las Redes
Ref, estejam infectados No podemos fazer esta afirmao. Podemos ter quase a certeza de que,

qualquer que seja a verdadeira proporo de corais infertados, ela no ser exactamente igual a
51.900%.
3. No sabemos exactamente qual a proporo de corais infectados, da espcie Leque do Mar, em
Las

Redes

Ref,

mas

sabemos

que

essa

proporo

est

no

intervalo

51.9%

1.96

0.519 (1 0.519)
, ou seja 51.9%9.6%, ou seja ainda entre 42.3% e 61.5%. Ainda no podemos
104

fazer esta afirmao, pois no podemos ter a certeza que a verdadeira proporo esteja neste
intervalo, ou noutro qualquer.

Maria Eugnia Graa Martins

Anlise de Dados

46

4. No sabemos exactamente qual a proporo de corais infectados da espcie Leque do Mar, em Las
Redes Ref, mas o intervalo de 42.3% a 61.5% provavelmente contm a verdadeira proporo.

Agora sim, podemos fazer esta afirmao. Comemos por dar o intervalo e em seguida admitir que
pensamos que esse intervalo provavelmente contm o verdadeiro valor da proporo.
Esta ltima afirmao est correcta, mas podemos quantificar o que que entendemos por
provavelmente. Podemos dizer que 95% das vezes que construirmos intervalos do tipo considerado

anteriormente, conseguimos cobrir o valor de p, pelo que podemos estar 95% confiantes de que
aquele intervalo seja um dos que contm p.

5. Temos uma confiana de 95% de que o intervalo entre 42.3% e 61.5% contenha a percentagem de
corais infectados, da espcie Leque do Mar, em Las Redes Reef. A este intervalo chamamos um
intervalo de confiana.

Confiana e preciso
Qual a dimenso da amostra necessria para obter um intervalo de 100(1-)% de
confiana, cuja amplitude no exceda d?

Repare-se que a amplitude do intervalo nos d a preciso quanto menor for a


amplitude, maior ser a preciso. Efectivamente no estamos interessados em obter
um intervalo com uma grande amplitude, pois numa situao extrema dizemos que o
intervalo [0, 1] contm a probabilidade p, que pretendemos estimar, com uma confiana
de 100%!
Da forma do intervalo de confiana para p, verificamos que existem duas maneiras de
diminuir a sua amplitude, que igual a 2 z1-/2

p(1 p)
. Assim:
n

i) Ou diminumos a confiana (1-), o que implica obter um valor mais pequeno


para o quantil z1-/2, ou
ii) aumentamos a dimenso da amostra.
A soluo apresentada em i) no aconselhvel - num caso extremo obteramos um
intervalo de amplitude nula (estimativa pontual!), mas com uma confiana de 0%!
Ento vejamos como proceder adoptando a soluo preconizada em ii). Pretendemos
que

Maria Eugnia Graa Martins

Anlise de Dados

47

2 z1-/2

p(1 p)
d
n

de onde
n(

2z1 /2 2
) p (1 p )
d

Se no tivermos uma estimativa de p, ento devemos considerar o valor mximo do 2


membro da desigualdade anterior, que se obtm quando p=

1
, donde um limite
2

superior para n ser


n(

z 1 / 2 2
)
d

Chamamos a ateno para que este valor de n, de um modo geral, peca por excesso,
j que foi obtido para a pior situao do valor do parmetro a estimar estar prximo de
0.5. Assim, aconselhvel proceder a um estudo prvio, ou recolher informao
eventualmente existente, para ter uma ideia do valor do parmetro, se os custos com a
recolha da amostra forem elevados.
Chama-se margem de erro, a metade da amplitude do intervalo de confiana.
Representando a margem de erro por ME, temos na expresso anterior que d o valor
adequado para a dimenso da amostra:
n(

z 1 / 2
2ME

)2

Repare que, fixando a dimenso da amostra, quanto maior for a confiana, maior ser a
margem de erro. Podemos aumentar a confiana at 100%. Mas, na verdade, qual a
utilidade de um intervalo, com essa confiana?
EXEMPLO 2.2 Numa cidade com 25000 habitantes considerou-se uma amostra de 1600 pessoas
para estimar a percentagem de eleitores que votavam num certo candidato. Dos 1600 inquiridos, 917
declararam ter a inteno de votar no dito candidato. Determine um intervalo de 95% de confiana para a
proporo de eleitores da cidade que pensam votar no candidato.
Resoluo: Uma estimativa de p p =917/1600=.57. O intervalo de confiana pretendido ser
[.57 - 1.96

.57 .43
1600

, .57 + 1.96

Maria Eugnia Graa Martins

.57 .43
1600

], ou seja [.55, .59], pelo que o intervalo tem amplitude .04.

Anlise de Dados

48

Qual a dimenso da amostra necessria para reduzir a metade a amplitude anterior? Como
consideramos o mesmo nvel de significncia, vem n

1.962
9604. Repare-se que neste caso j no
.022

esto satisfeitas as condies para podermos aplicar o modelo Binomial, pois a dimenso da amostra
muito grande, quando comparada com a dimenso da populao.

Interpretao do intervalo de confiana

Ao interpretar o intervalo de confiana deve-se ter em ateno que o que aleatrio o


intervalo e no a percentagem p desconhecida - a variabilidade existe no processo de
amostragem e no no parmetro. Quando se recolhem vrias amostras, o valor de p
diferente de amostra para amostra, pelo que os limites do intervalo variam.
Ao calcular um intervalo com 95% de confiana (a partir de uma amostra entretanto
recolhida), no significa que a probabilidade do intervalo conter o parmetro .95, j
que o intervalo contm ou no contm o parmetro. Como deve ser interpretado o
intervalo de confiana da seguinte forma: ao recolher 100 amostras da mesma
dimenso e ao calcular os intervalos correspondentes, aproximadamente 95 destes
intervalos contm o parmetro p, enquanto que 5 no o contm,

Maria Eugnia Graa Martins

Anlise de Dados

com ai=

pi (1 pi )
n

49

. Na figura anterior representmos 3 intervalos, dos quais 2 contm p,

enquanto um terceiro no contm o valor de p. Chamamos a ateno para que quando


calculamos um intervalo de confiana para a proporo, nunca sabemos se ele contm
ou no o verdadeiro valor da proporo. Estamos confiantes que sim, j que em 95%
das vezes que calculamos esses intervalos, eles contm o valor de p. J seria muito
azar, o nosso intervalo ser um dos 5% de intervalos que no contm o valor de p!

2.3 Estimao do valor mdio. Intervalo de confiana para o valor


mdio
Dada uma populao X, com valor mdio , desconhecido, e desvio padro

suponhamos que se pretende estimar o parmetro . J vimos que um bom estimador


para o valor mdio a mdia, pelo que a maneira de proceder a seguinte: recolhe-se
uma amostra de dimenso n da populao a estudar, x1, x2,, xn, e calcula-se a mdia
x =xi/n. Este valor considerado como estimativa pontual de .

No entanto, se tivesse sido outra a amostra recolhida, nomeadamente x'1,x'2,,x'n, seria


natural que a estimativa obtida para atravs desta amostra, diferisse da inicialmente
obtida. Qual a confiana que devemos atribuir a uma ou a outra? Surge assim,
intuitivamente, a necessidade de um outro processo, que no s nos fornea o mtodo
de estimar, mas permita simultaneamente saber qual a confiana que devemos atribuir
ao resultado obtido, tal como no caso da proporo.
2.3.1 Intervalo de confiana para o valor mdio - conhecido

Consideremos a populao X com distribuio Normal de parmetros e , em que o


parmetro conhecido. Ento, como vimos no captulo 1, para a distribuio da
mdia, tem-se,

X N(,/ n )
pelo que possvel obter o valor de z tal que

Maria Eugnia Graa Martins

Anlise de Dados

50

P[

|X |
/ n

z] = .95

z=1.96

A probabilidade anterior pode-se escrever


P[ X - 1.96 / n X + 1.96 / n ] = .95
ou seja, [ X -1.96 / n , X + 1.96 / n ] um intervalo aleatrio, que contm o valor
mdio , com uma probabilidade ou confiana igual a .95, ou por outras palavras, se
recolhermos um grande nmero de amostras (de igual dimenso), esperamos que
cerca de 95% dos intervalos [ x -1.96/ n , x + 1.96/ n ] obtidos, contenham ,
enquanto 5% dos intervalos no o contero.
Para considerar um exemplo concreto, admitamos por exemplo, que o peso dos
indivduos do sexo masculino, de 1.65 m de altura, tem distribuio normal com valor
mdio 60 e desvio padro 4. Nas cidades de Lisboa, Porto, Coimbra, Braga e vora
recolheram-se amostras de pesos de 10 indivduos escolhidos ao acaso (com 1.65 m
de altura), tendo-se obtido os seguintes resultados:
Mdia

L 55.9 56.3 56.8 57.2 61.2 61.9 62.5 63.8 64.4 68.2

60.82

P 55.7 55.8 57.0 57.4 59.0 59.5 59.9 60.4 64.2 67.7

59.66

C 53.0 54.6 54.7 54.8 57.6 58.6 62.4 63.5 65.5 66.6

59.13

B 57.3 58.1 58.6 58.7 59.0 61.9 62.6 64.4 64.9 66.7

61.22

E 49.5 50.4 52.8 54.3 55.3 57.0 61.2 62.6 63.2 64.1

57.04

Qualquer uma das mdias obtidas pode ser considerada como estimativa pontual do
valor mdio 60. Pensemos ainda na mediana amostral, como estimador de (nas
distribuies simtricas o valor mdio coincide com a mediana). As estimativas obtidas
para as diferentes amostras seriam:
L

61.55

59.25

58.10

60.45

56.15

Maria Eugnia Graa Martins

Anlise de Dados

51

Dispondo os valores obtidos para as mdias e as medianas, num segmento de recta,


verificamos que a mediana apresenta maior variabilidade do que a mdia, em relao
ao valor mdio (embora uma amostra de dimenso 5 no seja significativa!).

Vejamos agora o que se passa com a estimao intervalar. Considerando o intervalo


aleatrio [ X - 1.96

4
10

, X + 1.96

4
10

], com confiana de 95%, para as amostras

consideradas anteriormente, chegmos aos seguintes resultados:


Cidade

[ x - 2.48 ,

x + 2.48]

60.82

[58.34 ,

63.30]

59.66

[57.18 ,

62.14]

59.13

[56.65 ,

61.61]

61.22

[58.74 ,

63.70]

57.04

[54.56 ,

59.52] ***

Dos intervalos obtidos, conclumos que 4 contm o valor mdio enquanto que um no o
contm (assinalado com ***).
Uma questo que se levanta neste momento a seguinte: o que acontece se exigirmos
um intervalo de confiana com uma probabilidade de 99% em vez de 95%? Facilmente
se conclui, que quanto maior for o nvel de confiana exigido, maior ser a amplitude do
intervalo obtido. Para um nvel de confiana de 99% o intervalo de confiana ser [ X 2.58/ n , X + 2.58/ n ] e na realidade a amplitude pode ser to grande que deixe de
ter significado o clculo do intervalo. No limite temos um intervalo de amplitude infinita,
mais precisamente R, com uma confiana de 100%!
De um modo geral, dada uma populao N(,), um intervalo de confiana para o
valor mdio, com um nvel de confiana de 100(1-)%, obtm-se considerando
P[ -z1-/2

X
z1-/2 ] = 1/ n

onde representamos por z1-/2 o quantil de probabilidade 1-/2, da normal (0,1).

Maria Eugnia Graa Martins

Anlise de Dados

52

A partir da probabilidade anterior conclui-se imediatamente, que o intervalo de


confiana para o valor mdio tem a forma
[ X - z 1-/2 / n , X + z 1-/2 / n ]

para uma confiana de 100(1-)%, e qualquer que seja a dimenso da amostra


considerada.
Admitamos agora, que a distribuio da populao de que se pretende estimar o valor
mdio j no normal. Neste caso, as concluses anteriormente obtidas continuam a
ser vlidas, mas exige-se que a dimenso da amostra seja suficientemente grande
(n>30), para ser possvel aplicar o teorema do limite central - os resultados agora no
sero exactos, mas sim aproximados. Resumindo
Dada uma populao N(,) e uma amostra de dimenso qualquer, ou uma amostra de
dimenso suficientemente grande (n>30), no caso de a populao j no ser normal,
conhecido, um intervalo de confiana para o valor mdio, com um nvel de
confiana de 100(1-%, tem a forma
[ X - z 1-/2 / n , X + z 1-/2 / n ]

onde representamos por z1-/2 o quantil de probabilidade 1-/2, da N(0,1).


Suponhamos ainda que a populao X tem distribuio normal de valor mdio
desconhecido e desvio padro conhecido, ou que a dimenso da amostra
suficientemente grande. Pretende-se determinar para o valor mdio, um intervalo de
confiana com um nvel de confiana de 100(1-)% e cuja amplitude no exceda d.
Qual a dimenso exigida para a amostra? Tendo em conta a forma para o intervalo de
confiana, conclumos ainda, que um processo para diminuir a amplitude do intervalo
de confiana, ser aumentar a dimenso da amostra e essa dimenso ter de ser tal
que:
2 z1-/2 / n d

ou

n ( 2 z1-/2 /d)2

Repare-se que da expresso anterior podemos concluir, para j, que a dimenso da


amostra que deve ser recolhida, depende da variabilidade existente na populao.

Maria Eugnia Graa Martins

Anlise de Dados

53

2.3.2 Intervalo de confiana para o valor mdio - desconhecido.

Em todas as concluses obtidas at aqui, no que respeita estimao do valor mdio,


admitimos que o parmetro era conhecido. No entanto na situao mais vulgar, tanto
como so desconhecidos. Para resolver o problema, vamos distinguir dois casos:
a) Se a dimenso da amostra for suficientemente grande (n>30), utiliza-se a estatstica
S como estimador de e o intervalo de confiana, para um nvel de confiana de 100

(1-)% tem a forma


[ X - z1-/2 S/ n , X + z1-/2 S/ n ]

onde representamos por z1-/2 o quantil de probabilidade 1-/2, da normal (0,1), pois
para n grande,

n (X) /S continua a ter distribuio aproximadamente normal.

b) Se a dimenso da amostra for pequena, mas a populao tem distribuio normal,

ento

n (X) /S j no tem distribuio normal, mas sim a chamada distribuio t de

Student com (n-1) graus de liberdade, como j vimos no captulo 9, no estudo da

distribuio de amostragem da mdia. Nestas condies o intervalo de confiana para a


mdia, para um nvel de confiana de 100(1-)%
[ X - t1-/2(n-1) S/ n , X + t1-/2(n-1) S/ n ]

onde representamos por t1-/2(n-1) o quantil de probabilidade 1-/2, da distribuio t


de Student, com n-1 graus de liberdade. Esta distribuio, assim como a normal,
encontra-se tabelada.
Convm ainda observar que a distribuio t-Student se aproxima da distribuio normal
reduzida, medida que o nmero de graus de liberdade aumenta. Assim, tem toda a
propriedade utilizar a aproximao feita em a), para grandes amostras.
Observao Para usar o modelo de Student, necessrio que a populao seja
Normal. Na prtica, suficiente que os dados sejam provenientes de uma populao
unimodal e simtrica, se a dimenso da amostra for superior a 15 (De Veaux and al,
2004).

Maria Eugnia Graa Martins

Anlise de Dados

54

Qual a dimenso da amostra necessria para que o intervalo de confiana tenha


alguma utilidade?

J anteriormente definimos margem de erro (ME), como sendo metade da amplitude do


intervalo de confiana e dissemos que quanto menor for a margem de erro, maior ser
a preciso, mas menor ser a confiana, para uma mesma dimenso da amostra.
Qualquer intervalo de confiana uma soluo de compromisso entre confiana e
preciso. Ento o que se faz fixar a confiana em determinados valores, tais como
90%, 95% ou 99% e recolher uma amostra de dimenso tal que mantenha a margem
de erro dentro de certo limite. Considerando ento determinados valores para a
margem de erro e para a confiana, vejamos qual a dimenso da amostra necessria:
ME = t1-/2(n-1) s/ n
de onde
n= (t1-/2(n-1) s/ME)2
Na expresso anterior podemos fixar um determinado valor para a margem de erro ME,
mas estamos perante algumas situaes problemticas. No conhecemos s, antes de
termos recolhido a amostra e precisamente queramos conhecer n para recolher a
amostra! Normalmente o que se faz nestes casos fazer um estudo piloto que nos d
uma ideia do valor de s. Alis esta situao idntica que j nos deparmos quando
do estudo do intervalo de confiana para a proporo ou probabilidade p, em que era
necessrio conhecer umaa estimativa de p. E no que diz respeito ao valor de t1-/2(n1)? Novamente precisamos de conhecer n para calcular o valor do quantil de
probabilidade (1-/2) de uma t-Student com (n-1) graus de liberdade! Neste caso o que
se pode fazer substituir o quantil da t-Student pelo quantil z1-/2 da N(0,1) e ver qual
o valor que vem para n. Se este valor for suficientemente grande, podemos utiliz-lo
como dimenso da amostra a recolher, j que os quantis da t-Student e da Normal(0,1)
so idnticos. Caso contrrio, utilizamo-lo para obter o quantil da t-Student e
posteriormente recalcular o valor (de n) a partir da frmula respectiva.

Maria Eugnia Graa Martins

Anlise de Dados

55

EXEMPLO 2.3 Uma mquina est afinada para produzir peas de um certo comprimento. Todavia,
observa-se uma certa variao de comprimento de uma pea para outra, podendo tal comprimento ser
considerado uma varivel aleatria normal.
a) Suponha que foi extrada uma amostra de 16 peas, tendo sido medido o comprimento de cada uma.
Os resultados obtidos foram os seguintes:

x = 80 cm x
i

2
i

= 535 cm

Determine um intervalo de 95% de confiana para o valor mdio do comprimento das peas.
b) Admita que o verdadeiro valor da varincia igual estimativa obtida naquela amostra. Determine
novo intervalo de confiana, com esta informao adicional. Que concluses tira?
c) Repita a alnea b) admitindo que a amostra recolhida tinha dimenso 25.
Resoluo:
n=16

x=

80
=5
16

s=

535 16 25
=9
15
15

t.975(15) = 2.131
a) Intervalo de confiana

[5 - 2.131

b) Intervalo de confiana

[5 - 1.96

3
3
, 5 + 2.131 ] = [3.40, 6.60]
4
4

3
3
, 5 + 1.96 ]
4
4

= [3.53,6.47]

O intervalo de confiana agora calculado tem uma amplitude inferior do calculado na alnea a), o que
seria de esperar pois dispomos de mais informao.
c) Intervalo de confiana

[5 - 1.96

3
3
, 5 + 1.96 ] = [ 3.82, 6.18]
5
5

A amplitude do intervalo inferior do intervalo calculado na alnea b) pois considermos ainda mais
informao ao dispormos de uma amostra de maior dimenso.

EXEMPLO 2.4 Numa rua que passa frente de uma escola, chamada Rua Nova, existe uma
passadeira para os pees e um sinal a limitar a velocidade a 50 km por hora. No entanto, a maior parte
das vezes, os carros nem sequer abrandam! A polcia, frequentemente, coloca um radar para controlar a
velocidade e motivar ao cumprimento daquela regra de trnsito. Os pais das crianas que no
acreditam que esta medida seja suficiente e pretendem que seja colocado um semforo, que passa a
encarnado com velocidade superior aos 50 Km/h. Para poderem ter argumentos perante as instncias
camarrias, resolvem fazer um controlo de velocidades e num certo dia til, pensam recolher as
velocidades mdias de alguns dos carros que passarem. Quantos carros devem observar, para obterem
um intervalo de confiana de 95%, cuja margem de erro no ultrapasse 2 Km?

Maria Eugnia Graa Martins

Anlise de Dados

56

Resoluo: Para determinar a dimenso da amostra a recolher, necessrio ter uma ideia de como
que se distribuem as velocidades, nomeadamente se a distribuio dos dados unimodal e simtrica.
Alm disso necessrio ter um valor aproximado para a variabilidade. Suponhamos ento que se
recolheu uma amostra piloto, para recolher a informao necessria:
50

48

57

57

43

50

48

63

52

42

57

53

52

45

62

48

43

40

57

60

52

57

60

35

O histograma que fizmos dos dados mostra que a distribuio unimodal e aproximadamente simtrica.
No temos razes que nos levem a duvidar da independncia dos dados (estamos a admitir que a
recolha dos dados no se fez em hora de ponta...).

Para a varincia amostral obtivmos o valor de s=7.33. Consideranto o quantil de probabilidade 0.975 da
normal, que igual a 1.96, temos
n=

1.96 7.33 2
) =
2

51.5

donde necessitamos de uma amostra de dimenso 52. Refazendo os clculos para a determinao da
dimenso da amostra, considerando agora o quantil da t-Student com 51 graus de liberdade, que igual
a 2.008, obtivmos para n o valor de 54.
Facilmente se verifica que a margem de erro do intervalo de 95% de confiana, construdo com os dados
recolhidos para a amostra piloto, de 3 Km.
Exerccios
1. Uma fbrica produz peas, havendo uma certa percentagem de defeituosas. O departamento de

controlo de qualidade recolheu uma amostra de 30 peas, encontrando 4 defeituosas. Determine um


intervalo de 95% de confiana para a percentagem de peas defeituosas produzidas pela dita mquina.
Qual a dimenso da amostra necessria para obter um intervalo com 95% de confiana, cuja amplitude
no exceda .1?
2. Perguntou-se a cada um dos 80 estudantes de um determinado curso, qual o seu grau de satisfao

relativamente ao curso que frequenta. Obtiveram-se os seguintes resultados:


NS

MB

NS

NS

SP

SP

NS

NS

NS

SP

MB

SP

NS

NS

MB

SP

NS

Maria Eugnia Graa Martins

Anlise de Dados

57

SP

SP

SP

NS

NS

SP

MB

MB

NS

S
S

SP

NS

SP

MB

NS

NS

NS

MB

MB

NS

MB

SP

NS

MB

NS

MB

NS

MB

SP

MB

SP

SP

MB

NS-"No Satisfaz"; SP-"Satisfaz Pouco; S-"Satisfaz"; B- "Bom"; MB- "Muito Bom".


a) Faa uma representao grfica adequada para os dados e indique uma caracterstica amostral.
b) Admitindo que as opinies destes estudantes so representativas das opinies dos estudantes dos
outros cursos, construa um intervalo de 95% de confiana para a probabilidade de um estudante,
escolhido ao acaso, ter uma opinio positiva (Satisfaz, Bom ou Muito Bom) sobre o curso em que est
inscrito.
3 . Um inqurito realizado a 100 potenciais compradores de um carro novo para o prximo ano, revelou

que esto dispostos a pagar em mdia 14750 euros, com um desvio padro de 4250 euros.
a) Calcule um intervalo de 95% de confiana para a quantia mdia que os compradores esto dispostos a
pagar.
b) Foi posto venda um novo tipo de carro, ao preo de 22500 euros. Ser que este valor excede
significativamente o que os compradores pretendem gastar em mdia?
4. Ao Instituto para a defesa do consumidor tm sido apresentadas queixas, dizendo que as embalagens

de determinado produto congelado tm menos peso do que o indicado nas embalagens. Uma recolha
preliminar de 40 destas embalagens indicou um peso mdio de 975 gramas, com um desvio padro de
85 gramas. Quantas embalagens devem ser examinadas, de forma a obter uma estimativa do peso
mdio com erro inferior a 25 gramas, com uma confiana de 95%?
5. Os seguintes dados representam o tempo de reaco (em segundos), de 42 indivduos, a um estmulo

luminoso :
13.8
28.8
37.1
46.5

19.1
30.2
38.1
48.1

20.4
31.2
40.3
49.9

21.8
31.7
40.4
50.0

22.3
31.7
41.8
50.2

24.0
33.6
42.2
56.4

24.6
34.6
42.4

25.2
34.8
43.7

26.1
35.4
43.8

26.5
36.0
44.0

a) Determine as seguintes caractersticas amostrais : mdia, varincia, mediana, Q

26.6
36.3
44.4

3/5

eQ

5/14

28.7
36.8
44.6

b) Escolha uma amplitude conveniente para o intervalo de classe e construa o histograma correspondente

aos dados.
c) Construa um intervalo de 99% de confiana para o tempo mdio de reaco.
6. Os seguintes dados representam o tempo de CPU (em segundos), gastos por um programa que utiliza

um determinado software de estatstica :


6.2
8.1
6.1

Maria Eugnia Graa Martins

5.8
3.2
5.6

4.6
3.4
5.5

4.9
4.4
3.1

7.1
8.0
6.8

5.2
7.9
4.6

4.4
3.1
7.8

Anlise de Dados

58

3.8
4.1

2.6
6.1

4.5
4.1

4.6
4.4

7.7
5.2

3.8
1.5

2.9
5.6

a) Determine as seguintes caractersticas amostrais : mdia, varincia, mediana , Q

2/5

eQ

3/4

b) Escolha uma amplitude conveniente para o intervalo de classe e construa o histograma correspondente

aos dados.
c) Admitindo a normalidade dos dados, construa um intervalo de 95% de confiana para o valor mdio dos

tempos de CPU gastos pelo programa.


7 . Recolheu-se uma amostra de 40 alunos a frequentarem o tronco comum de Matemtica Aplicada no ano

lectivo de 98/99, tendo-se verificado que 10 destes alunos frequentam o curso em 1 opo.

Com base nos resultados determine um intervalo de 95% de confiana para a verdadeira percentagem
de estudantes do 1 ano que efectivamente escolheram o curso em 1 opo.

Se pretendesse reduzir a metade a amplitude do intervalo obtido anteriormente, com uma amostra da
mesma dimenso, qual o maior nvel de confiana com que devia trabalhar?

Se recolhesse 200 amostras de dimenso 40, a partir das quais construsse outros tantos intervalos de
confiana, quantos destes intervalos esperaria que contivessem o verdadeiro valor da percentagem de
estudantes que frequentam o curso em 1 opo?

8. Verifique que o intervalo de 90% de confiana para os dados do exemplo 4 [47.9km; 54.1km]. Explique,

porque que no correcto dizer o seguinte (Adaptado de De Veaux and al, 2004):
a) 90% de todos os veculos que passam na Rua Nova, vo a uma velocidade entre 47.9km e 54.1km.
(Res: O intervalo de confiana diz respeito velocidade mdia dos veculos e no velocidade de cada
um dos veculos).
b) Temos uma confiana de 90% de que um veculo seleccionado aleatoriamente, v a uma velocidade
entre 47.9km e 54.1km. (Res: Como no caso anterior, estamos a referir-nos a um nico veculo, quando,
na verdade, estamos 90% confiantes que o intervalo [47.9km; 54.1km] contenha a velocidade mdia de
todos os veculos que passam na Rua Nova).
c) A velocidade mdia dos veculos, 51km, 90% do tempo. (Res: esta afirmao d a ideia que a
verdadeira velocidade mdia varia, quando o que varia o intervalo, que ser diferente, sempre que
recolhermos uma amostra diferente).
d) 90% de todas as amostras tm velocidades mdias entre 47.9km e 54.1km. (Res: Esta afirmao d a
ideia de que este intervalo goza de algum privilgio, relativamente a outros. De facto, este intervalo to
bom ou to mau, como qualquer dos outos. O que deveremos dizer que 90% de todas as possveis
amostras permitem construir intervalos que contm a velocidade mdia. Nunca saberemos se o nosso
intervalo um dos que contm ou no).

Maria Eugnia Graa Martins

Anlise de Dados

59

Introduo aos testes de hipteses

Introduo aos testes de hipteses. Hiptese nula e hiptese alternativa. Estatstica de


teste. Regio de rejeio e de no rejeio. Nvel de significncia de um teste. P-value.
Testes de hipteses sobre a proporo e sobre o valor mdio e sobre.

3.1 Introduo
J vimos um processo de fazer inferncia estatstica - a estimao, em que utilizmos o
modelo Binomial e o modelo Normal. Vamos ainda utilizar o modelo Binomial num outro
tipo de inferncia estatstica a que chamamos testes de hipteses.
O objectivo dos testes de hipteses, determinar se uma dada conjectura ou hiptese
que fazemos acerca de uma populao, plausvel, isto , tem razo de ser.
Precisamente esta plausibilidade calculada com base na informao obtida a partir de
uma amostra da populao.
EXEMPLO 3.1 (Teaching Statistics, vol 15, n1, 1993) Um professor chega um dia aula e
resolve pr a seguinte questo: - H aqui algum aluno que consiga distinguir, pelo sabor, a Coca-Cola da
Pepsi-Cola?
Um estudante diz que sim, que consegue distinguir, embora o professor pense que ele efectivamente no
o consegue, e se acertar, por acaso. Depois de alguma discusso em que o aluno afirma que consegue
distinguir e o professor diz que ele est a fazer "bluf", resolvem fazer uma aposta, em que apostam uma
certa quantia.
Algumas questes que se levantam, relativamente a este problema, so:
1 - Com que probabilidade consegue o estudante distinguir entre a Coca e a Pepsi?
2 - Qual o critrio que se utiliza para ver quem o vencedor?
3 - Usando o critrio, a definir em 2:
a) Qual a probabilidade do estudante perder, mesmo que tenha razo? ( o estudante pode

ter acordado mal disposto, estar nervoso, pouco concentrado, )

Maria Eugnia Graa Martins

Anlise de Dados

60

b) Qual a probabilidade do estudante ganhar a aposta, se de facto adivinhou, mas

efectivamente no consegue distinguir entre a Coca e a Pepsi e responde ao acaso (foi uma
questo de sorte)?
4 - Quo pequenas devem ser as probabilidades em 3, para que cada um dos apostadores no esteja a

correr um risco muito grande?


A perspectiva de levar a cabo a experincia na turma, em frente de toda a gente, deveras intimidante,
pelo que no de esperar que o voluntrio consiga distinguir as duas bebidas 100% das vezes. De modo
geral o estudante estabelecer essa probabilidade entre 0.7 e 0.8 como realstica. Para o
prosseguimento da nossa experincia, vamos admitir que de 0.7.
Temos agora de delinear a experincia e determinar o critrio de sucesso para o estudante.
Depois de algumas discusses na aula, o voluntrio concorda em provar 15 copos de bebida e dizer se
cada uma Coca ou Pepsi. De acordo com a probabilidade estabelecida anteriormente, para cada prova
ele ter uma probabilidade de 70% de dar a resposta correcta.
Qual o critrio justo, que se deve considerar, para admitir que o estudante tem razo? Ou antes, qual o
critrio justo, que se deve considerar, para que as duas pessoas que apostaram no estejam a correr um
risco demasiado grande?

Idealmente, gostaramos que o risco que correm os dois apostadores fosse aproximadamente igual, isto
, as probabilidades consideradas em 3. deveriam ser aproximadamente iguais.
Com o objectivo de estabelecer um critrio, o voluntrio sugere que pelo menos 10 respostas certas
significa que tem razo.
Ento, P(estudante ganhar a aposta, sabendo distinguir as bebidas) =
= P(n respostas certas em 15 ser 10, sabendo que a probabilidade de sucesso .7) =
15

( i ).7 .3
15

i 15 i

= .722

i=10

de onde
P(estudante perder a aposta, sabendo distinguir as bebidas) = 1 - .722 = .278
Esta probabilidade de .278 o risco que o estudante corre.
Qual o risco que o professor corre?
O professor est interessado em calcular a probabilidade de perder o seu dinheiro, se o estudante se
limitou a adivinhar e efectivamente no consegue distinguir a Coca da Pepsi. Esta probabilidade :
P(professor perder a aposta, se o estudante no sabe distinguir as bebidas) =

Maria Eugnia Graa Martins

Anlise de Dados

61

P(n respostas certas em 15 ser 10, sabendo que a probabilidade de sucesso .5) =
15

( i ).5 .5
15

i 15 i

= .151

i=10

Esta probabilidade de .151 o risco que o professor corre.


Nestas circunstncias estaro eles dispostos a apostar? E se se aumentar o n de respostas correctas
como critrio de ganho ou perca?
1 - Se se aumentar o n de respostas correctas necessrias, a probabilidade do estudante perder,

embora estando convencido que consegue distinguir, aumenta.


Obs: Se o n de respostas correctas necessrias fosse k (>10), ento o risco que o estudante corria seria
P(n de respostas certas < k) > P(n de respostas certas < 10)(= .278)
2 - Por outro lado, aumentando o n de respostas correctas necessrias, a probabilidade do professor

perder, se o estudante se limita a adivinhar, diminui.


Obs: Se o n de respostas correctas necessrias fosse k>10, ento o risco que o professor corria seria
P(n de respostas certas k) < P(n de respostas certas 10)(= .151)
Assim, modificando o critrio, estamos a aumentar a probabilidade de um dos tipos de erro e a diminuir a
probabilidade do outro tipo de erro.
3 - Sob a hiptese de que a capacidade de deciso (gustativa) do estudante continua em forma,

aumentando a dimenso da amostra, talvez se consigam diminuir estas probabilidades dos dois tipos de
erros.
Por exemplo, se o n de provas for 20 e o critrio para ganhar for de 12 respostas correctas pelo menos,
recalculando as probabilidades de cometer os dois tipos de erros, ou sejam, de correr os dois tipos de
risco so 0.113 e 0.252, respectivamente, para o estudante e o professor.
Se o professor for um "bom desportista" este critrio razovel, se a quantidade de dinheiro posta em
jogo no for grande.

Este exemplo servir para introduzir os conceitos formais de testes de hipteses, erros
de tipo 1 e tipo 2 e as notaes associadas com os procedimentos estatsticos. No
entanto vamos antes disso, dar outros exemplos de aplicao de testes de hipteses.

Maria Eugnia Graa Martins

Anlise de Dados

62

3.2 Outros exemplos


EXEMPLO 3.2 Numa fbrica de determinadas peas, um lote destas peas considerado aceitvel se
tem menos de 8% de peas defeituosas. J que os lotes tm um grande nmero de peas, sairia muito
caro inspeccionar todas essas peas. A deciso a favor de no rejeitar o lote ser tomada no caso de
uma amostra a retirar do lote, dar indicao nesse sentido.

EXEMPLO 3.3 Supe-se que os estudantes so a favor da avaliao contnua, isto , mais de 50%
dos estudantes preferem a avaliao contnua. Para verificar se existem indcios de que esta hiptese
no seja verdadeira, recolhe-se uma amostra de estudantes, registando-se o n de respostas a favor.

EXEMPLO 3.4 - Um fabricante afirma na garantia que acompanha as lmpadas que fabrica, que o
tempo mdio de vida superior a 450 horas. Ultimamente alguns clientes tm-se queixado das referidas
lmpadas. Para testar se os clientes tm razo, recolheu-se uma amostra de algumas lmpadas,
registando-se o tempo de vida (utilizando os chamados testes de vida acelerados, que provocam a falha
mais rapidamente).

Todos estes exemplos que acabamos de referir, tm algumas caractersticas comuns:

Consideram-se duas hipteses complementares acerca de uma quantidade


desconhecida da populao.

a informao disponvel dada pela amostra que se recolheu da populao


em estudo.

pretende-se verificar se uma das hipteses a que damos mais importncia,


sustentada ou rejeitada pela informao recolhida da amostra.

No caso 3.2, por exemplo, as hipteses a testar so de que o lote aceitvel - p.08,
ou no - p>.08. O que se pretende verificar que no temos razes para rejeitar a
hiptese de que p.08.
No caso 3.3, temos as hipteses p.5 e p<.5. O que se pretende testar se h alguma
razo para rejeitar p.5.

Maria Eugnia Graa Martins

Anlise de Dados

63

3.3 Hiptese nula e Hiptese alternativa; erros de tipo 1 e tipo 2;


estatstica de teste; regio de rejeio
Num teste estatstico temos duas hipteses em alternativa, a que chamamos hiptese
nula (H0) e hiptese alternativa (H1), sobre um parmetro desconhecido da

populao. A hiptese nula a hiptese que reflecte a situao em que no h


mudana, sendo pois uma hiptese conservadora e aquela em que temos mais
confiana (resultado de uma experincia passada).
O objectivo de um teste de hipteses o de tomar uma deciso, no sentido de
verificar se existem razes para rejeitar ou no a hiptese nula. Esta deciso baseada
na informao disponvel, obtida a partir de uma amostra, que se recolhe da populao.
No caso em estudo vamos considerar as hipteses
H0: O estudante consegue distinguir

contra(versus)

H1: O estudante no

Coca da Pepsi

consegue distinguir

Estas hipteses podem-se exprimir em termos da probabilidade de o estudante dar uma


resposta correcta
H0: p= .7

contra

H1: p=.5

A amostra recolhida tem dimenso 15 e vamos utilizar como informao relevante, o n


de respostas correctas, nas 15 provas. Seja X a varivel aleatria que representa esse
nmero. esta v.a. que vai permitir tomar uma deciso, recebendo o nome de
estatstica de teste.

Ao tomar uma deciso podemos cometer dois tipos de erros:

Decidir que o estudante no consegue distinguir, quando efectivamente ele


consegue, isto , Rejeitar H0, quando H0 verdadeiro;

Decidir que o estudante consegue distinguir, quando efectivamente ele no


consegue e responde ao acaso, isto , No rejeitar H0, quando H1 verdadeiro .

Ao primeiro erro chamamos erro de tipo 1 e ao segundo, erro de tipo 2. Estes erros so
contabilizados em termos de probabilidade.

Maria Eugnia Graa Martins

Anlise de Dados

64

O nvel de significncia do teste representa-se por e o valor mximo para a


probabilidade de cometer o erro de tipo 1:
P(Rejeitar H0 | H0 verdadeiro)

A probabilidade de cometer o erro de tipo 2 representa-se por


P(No rejeitar H0 | H1 verdadeiro) =

O risco que o estudante corre , enquanto que o risco que o professor corre .
O seguinte quadro reflecte a situao verificada quando se realiza um teste de
hipteses:

Na escolha do teste, o nosso objectivo controlar o erro de tipo 1, ou seja .


No caso do exemplo o nosso critrio de deciso baseou-se na seguinte regra de
deciso:
Rejeitar H0 se X<10

Considerando a regra anterior vimos que = .2784.


Poderamos considerar o problema de outra forma, isto , partir de um determinado
nvel de significncia, e determinar os valores de X que levavam rejeio de H0.
Suponhamos que pretendamos realizar o teste para o nvel de significncia de 10%.
Os valores possveis para X v.a. que representa o n de respostas correctas, so

Maria Eugnia Graa Martins

Anlise de Dados

65

todos os inteiros entre 0 e 15. Destes, pretendemos saber quais os que levam a rejeitar
H0, de modo que o que pretendemos saber qual o valor de c, tal que

P(X c | X B(15, .7)) 0.10


Obs: Atendendo s hipteses consideradas somos levados a rejeitar a hiptese nula
quando o n de respostas correctas do estudante for pequeno (X c).
Consultando uma tabela da Binomial com parmetros 15 e 0.7, verificamos que
P(X 8) = .1311
P(X 7) = .0500
Ento rejeitamos H0 quando o n de respostas correctas for 7. Mas para esta regio
de rejeio a probabilidade de cometer o erro de tipo 2
P(X 8 | X B(15, .5)) = .5, o qual muito grande!

3.4 Testes de hipteses para a proporo p


O exemplo apresentado anteriormente um caso particular de testes de hipteses para
a proporo p, que vamos formalizar seguidamente.
Suponhamos que temos uma populao constituda por indivduos que pertencem a
uma de duas categorias, que representamos por A e AC. Representemos por p a
proporo (desconhecida) de indivduos que pertencem categoria A. Pretendemos
fazer inferncia sobre o parmetro p, pelo que se recolhe da populao uma amostra
de dimenso n. A estatstica de teste que vamos utilizar, para tomar uma deciso, X v.a. que representa o n de indivduos da amostra que pertencem categoria A. Na
formalizao dos testes representamos por p0 o valor da proporo, que se pretende
testar.
Os testes que vamos realizar so os seguintes:

Maria Eugnia Graa Martins

Anlise de Dados

66

1.

contra

H0: p = p0

H1: p > p0

Rejeitamos H0 quando for elevado o n de indivduos da amostra pertencentes


categoria A, ou seja quando Xx. (Se H1 verdadeiro, ou seja, p > p0, caso em que
devemos rejeitar H0, ento esperamos encontrar na amostra "muitos" indivduos
pertencentes categoria A. Entendemos por "muitos", um nmero de indivduos volta
de np, que superior aos que esperaramos encontrar caso fosse H0 verdadeiro, ou
seja np0).

A determinao do ponto crtico x deve fazer-se tendo em ateno o nvel de


significncia , ou seja, vamos calcular o menor inteiro x tal que
P[ X x| X B(n, p0)]

isto , a regio de rejeio R constituda pelos pontos:


n

R = { x x| [

( i )p (1 p )

i = x

i
0

n i

] e [

n
( )p i0 (1 p 0 )n i ]>}
i = x 1 i
n

Obs: A hiptese nula pode-se exprimir na forma pp0, j que se obtm um teste
equivalente.
2.
H0: p = p0

contra

H1: p < p0

Rejeitamos H0 quando for pequeno o n de indivduos da amostra pertencentes


categoria A, ou seja quando Xx'.
R

x'

A determinao do ponto crtico x' deve fazer-se tendo em ateno o nvel de


significncia , ou seja, vamos calcular o maior inteiro x' tal que
Maria Eugnia Graa Martins

Anlise de Dados

67

P[ X x'| X B(n, p0)]

isto , a regio de rejeio R constituda pelos pontos:


x'

n
R = { x x'| [ ( )p i0 (1 p 0 )n i ] e [
i=0 i

x' +1

( i )p
i =0

i
0

(1 p 0 )n i ]>}

Obs: A hiptese nula pode-se exprimir na forma pp0, j que se obtm um teste
equivalente.
3.
H0: p = p0

contra

H1: p p0

Rejeitamos H0 quando for pequeno ou elevado o n de indivduos da amostra


pertencentes categoria A, ou seja quando Xx' ou Xx.
R

x'

A determinao dos pontos crticos x' e x deve fazer-se tendo em ateno o nvel de
significncia . Alm disso vamos considerar o chamado teste equilibrado, isto ,
atribuir a cada uma das partes da regio de rejeio, uma probabilidade igual a metade
do nvel de significncia:
P[ X x'| X B(n, p0)] /2

e
P[ X x| X B(n, p0)] /2

isto , a regio de rejeio R constituda pelos pontos:


x'
n n
n
n i
i
R = { x x' ou x x | [ ( )p i0 (1 p 0 )n i ] /2 e [ ( )p0 (1 p0 ) ]/2}
i
i
i = x
i=0

Dos trs tipos de testes considerados anteriormente, os dois primeiros dizem-se


unilaterais, enquanto que o ltimo se chama bilateral.
EXEMPLO 3.5 Uma fbrica produz determinado tipo de peas, e sabe-se que a percentagem de
defeituosas de 20%. O director da linha de montagem procedeu a algumas alteraes no equipamento,

Maria Eugnia Graa Martins

Anlise de Dados

68

com o objectivo de melhorar a produo, diminuindo nomeadamente a percentagem de peas


defeituosas. Tendo-se recolhido uma amostra de 20 peas, verificou-se que 2 eram defeituosas. Ser
que h evidncia de mudana na percentagem de peas defeituosas?
Resoluo:
H0: p .20

contra

H1:p < .20

Pretende-se determinar o valor de x' tal que


P[ X x'| X B(20, .20)]
Consultando uma tabela da Binomial, verificamos que
P(X 0) = .0115
P(X 1) = .0692
P(X 2) = .2061
donde conclumos que:
Se

= 5%

R={0}

Se

= 10%

R={0,1}

Deciso: Para os nveis usuais de significncia, no se deve rejeitar H0, isto no h evidncia de ter
havido alterao (para melhor) no processo de fabrico.

3.4.1 Determinao dos pontos crticos x' e x para grandes amostras

A determinao dos pontos crticos x' e x dos testes anteriores, pode fazer-se
consultando as tabelas com a distribuio Binomial. Pode no entanto acontecer que o
valor de n seja demasiado grande, e j no conste nessas tabelas. Ento faz-se uma
aproximao Normal, como se descreve a seguir.
Tendo em considerao o teorema do limite central, sabe-se que a distribuio Binomial
pode ser aproximada pela distribuio Normal, isto , se X B(n,p), ento
P(X x) (

x np
)
np(1 p)

Considera-se a estatstica de teste


Z=

Maria Eugnia Graa Martins

X np0
np0 (1 p0 )

Anlise de Dados

69

cuja distribuio pode ser aproximada por uma Normal(0,1) e a determinao dos
pontos crticos, para os trs tipos de testes considerados anteriormente, faz-se da
seguinte forma:
1.

P[ X x| X B(n, p0)]

sendo x o menor inteiro tal que

x 1+np0+z1- np 0 (1 p 0 )
2.

P[ X x'| X B(n, p0)]


x' np0+z np 0 (1 p 0 )

sendo x' o maior inteiro tal que


ou

x' np0 - z1- np 0 (1 p 0 )

3. P[ X x'| X B(n, p0)] /2 e P[ X x| X B(n, p0)] /2

x' np0 - z1-/2 np 0 (1 p 0 ) e x 1 + np0 + z1-/2 np 0 (1 p 0 )


(x' maior inteiro e x menor inteiro satisfazendo respectivamente cada uma das
desigualdades anteriores).
Observao Uma alternativa, equivalente, estatstica de teste X, com distribuio
aproximadamente Normal(np0, np 0 (1 p 0 ) ), sob H0, a estatstica
distribuio aproximadamente N(p0,

p 0 (1 p 0 )
n

) X
p= ,
n

com

).

3.4.2 P-value (valor-p)

Ao realizar um teste de hipteses, podemos partida no ter especificado um nvel de


significncia. Ento, um processo alternativo para a realizao dos testes anteriores ,
face ao valor observado x0 da estatstica de teste X, calcular a seguinte probabilidade:
Caso 1 : P = P[X x0 |X B(n, p0)]
Caso 2 : P = P[X x0 |X B(n, p0)]
Caso 3 : P = 2 min {P[X x0 |X B(n, p0)],P[X x0 |X B(n, p0)]}
Esta probabilidade P o menor valor para o nvel de significncia que levaria rejeio
da hiptese nula, para a amostra recolhida. A P chamamos P-value. Assim, para
Maria Eugnia Graa Martins

Anlise de Dados

70

tomarmos uma deciso, calcula-se o P-value e para um dado nvel de significncia ,


rejeita-se a hiptese nula se
P

A metodologia seguida neste caso diferente da seguida anteriormente, em que para


tomarmos uma deciso era necessrio especificar partida o nvel de significncia com
que pretendamos realizar o teste, de forma a calcular a regio de rejeio. Se o valor
observado da estatstica de teste pertencesse a essa regio ento rejeitaramos a
hiptese nula. Agora calculamos o P-value e no necessrio calcular explicitamente a
regio de rejeio, pois se para um determinado nvel de significncia se verifica que
P, isto significa necessariamente que o valor observado da estatstica de teste

pertence regio de rejeio.

3.5 Vamos conversar acerca de testes


Ao longo deste texto j temos referido vrias vezes que objectivo da Estatstica
arranjar modelos probabilsticos que sirvam para modelar situaes do mundo real. Ao
formular uma hiptese (hiptese nula), como as que formulmos anteriormente, no
estamos mais que a propor um modelo para uma situao real. Uma vez o modelo
proposto, vamos recolher informao - os dados, para averiguar da consistncia do
modelo. Ento, defrontamo-nos com duas situaes:
ou os dados so consistentes com o modelo, e nesse caso no vemos razo
para o rejeitar,
ou os dados contradizem fortemente o modelo, e neste caso pensamos que h
evidncia para o rejeitar.

Repare-se que na primeira situao, no dissemos que os dados mostravam que a


hiptese verdadeira! S dissmos que no vamos razo para a rejeitar. Esta situao
anloga que se passa nos tribunais tem que se comear por admitir a presuno
de inocncia e cabe ao juiz, mostrar que os factos contradizem esta presuno, para
admitir a culpabilidade. Na segunda situao, dissmos que pensamos que h
evidncia para rejeitar o modelo. Mas fica-nos sempre a dvida se deveremos tomar
Maria Eugnia Graa Martins

Anlise de Dados

71

essa opo, j que rejeitar o modelo proposto, se ele fosse efectivamente verdadeiro,
pode acarretar grandes prejuzos. Ento precisamos de quantificar essa deciso e essa
quantificao feita probabilisticamente. Assim, calculamos a probabilidade de obter
dados como os recolhidos, baseando-nos em que o modelo verdadeiro. Se esta
probabilidade for muito pequena, pensamos que no foi s o acaso, isto a
aleatoriedade presente na recolha da informao, que nos levou a obter aqueles dados,
mas naturalmente o prprio modelo que no o correcto, pois essa probabilidade
demasiado pequena, para ser verdade, e rejeitamos esse modelo. Esta tal
probabilidade p-value, d-nos uma medida do erro que cometemos ao rejeitar o
modelo proposto, e quanto menor for, maior ser a evidncia contra o modelo.
Assim, quando no rejeitamos a hiptese nula, ficamos sempre na dvida, sobre se ter
sido o teste que no teve capacidade para a rejeitar, mesmo sendo ela falsa. Justificase, assim, que se procure calcular a probabilidade de se rejeitar a hiptese nula,
quando ela falsa, isto , P(RejeitarH0H1verdadeira). A esta probabilidade chama-se
potncia do teste. Repare-se que para um determinado valor do parmetro

especificado na hiptese alternativa:


Potncia do teste = 1 P(erro de tipo 2)
Ento, de um modo geral, podemos dizer que pretendemos um teste com nvel de
significncia pequeno e potncia grande.
Para visualizar melhor a relao entre estes conceitos, vamos colocar-nos na situao
de estarmos a realizar o seguinte teste:
H0: p=p0

contra

H1: p>p0

Rejeitamos H0 para valores grandes de X ou de forma equivalente, para valores

) X
) )
)
x
grandes de p = , nomeadamente para valores de p p , onde p = , utilizando
n
n
notao j introduzida anteriormente.
Se n for grande, a distribuio da estatstica de teste aproximada pela Normal, pelo
que temos:

Maria Eugnia Graa Martins

Anlise de Dados

72

Na figura anterior apresentamos a distribuio da estatstica de teste, para o caso de H0


ser verdadeira (Normal superior) e para um valor especfico do parmetro (p), no caso
)

de ser H1 verdadeira (Normal inferior). A regio de rejeio dada pelo intervalo [ p ,


1]. Algumas concluses so evidentes da figura anterior:
)

Quanto mais p estiver para a direita, isto , menor for o nvel de significncia do

teste, ou a probabilidade de cometer o erro de tipo 1, maior ser a probabilidade


de cometer o erro de tipo 2. Assim, no possvel minimizar os dois erros ao
mesmo tempo, a no ser aumentando a dimenso da amostra. Efectivamente, se
se aumentar a dimenso da amostra recolhida, as normais ficam mais magras,
j que a varincia diminui;
Quanto menor for o erro de tipo 2, maior ser a potncia do teste;
No caso de H0 ser falsa, a potncia do teste ser tanto maior, quanto mais

afastado de p0, estiver o verdadeiro valor da proporo p (a Normal de baixo


afasta-se para a direita).

Maria Eugnia Graa Martins

Anlise de Dados

73

Formalizando um pouco o que dissmos anteriormente, para realizar um teste de


hipteses, em que as hiptese so quase sempre sobre parmetros de modelos,
necessrio:
Formular uma hiptese nula H0, que aquela que reflecte a situao em que no

h mudana e em que assumimos um valor para o parmetro no modelo


proposto, e uma hiptese alternativa H1, que reflecte a situao que pensamos
ser verdadeira, no caso de no o ser a hiptese nula;
Arranjar uma estatstica de teste, que sirva para medir a discrepncia entre o que

se observa nos dados e o que se espera quando se considera a hiptese nula


(isto , uma estatstica cuja distribuio de amostragem seja conhecida no caso
da hiptese nula ser verdadeira, pois a discrepncia medida em termos de
probabilidade);
Face amostra que entretanto se recolheu, calcular o p-value;
Tomar uma deciso, que se exprimir na seguinte forma:

Rejeitar H0, para o nvel de significncia ou


No rejeitar H0 para o nvel de significncia .
Se tivermos possibilidade de escolher entre vrios testes, ento para o mesmo

nvel de significncia, deve-se escolher o de potncia mxima;


Se tivermos possibilidade de recolher amostras de dimenso maior, melhor ser,

pois reduzimos as probabilidades de cometer erros, ao tomar uma deciso,


aumentando tambm a potncia do teste.

Maria Eugnia Graa Martins

Anlise de Dados

74

3.6 Testes de hipteses sobre o valor mdio


Da mesma forma que realizmos testes de hipteses sobre o parmetro p, tambm se
podem realizar sobre o valor mdio , desconhecido, de uma populao. A metodologia
a seguir a mesma, mas agora temos de considerar outra estatstica de teste, sendo
natural considerar a mdia ou uma funo da mdia para fazer inferncia estatstica
sobre o valor mdio.
Consideremos, por exemplo, um industrial de componentes electrnicas, que afirma
que o tempo mdio de vida das componentes que fabrica de 560 horas. Um cliente
acha este tempo exagerado, pois tem tido mau resultado com este tipo de material.
Ento o industrial est interessado em testar que o valor mdio da distribuio do
tempo de vida das componentes igual a 560 horas, ou seja de que tem razo. Temos
assim uma conjectura ou hiptese sobre a populao e que em testes de hipteses se
refere como Hiptese nula e se representa por H0. No entanto a hiptese anterior vai
ser testada contra uma Hiptese alternativa que se representa por H1, que reflicta a
situao que ser verdadeira, no caso de no o ser a hiptese nula. Concretamente, no
exemplo anteriormente considerado temos as seguintes hipteses a serem testadas
(representando por o valor mdio da populao):
H0 : =560 horas

contra

H1: <560 horas

Escolhemos a hiptese alternativa anterior, pois ela reflecte a situao real, no caso de
no se provar que H0 verdadeira (estamos a pensar nas queixas dos clientes).
Vamos exemplificar a realizao de um teste de hipteses sobre o valor mdio atravs
do exemplo dos pesos, referido quando abordmos o problema da estimao.
Suponhamos que estamos interessados em realizar um teste sobre o peso mdio da
populao, constituda pelos indivduos de 1.65 m de altura, tendo sido levantadas
algumas dvidas sobre se o peso seria de 60 kg. Ento
H0: = 60 kg contra

Maria Eugnia Graa Martins

H1: 60 kg

Anlise de Dados

75

Formulamos a hiptese alternativa deste modo j que partida no tnhamos qualquer


informao que nos levasse a considerar quer um valor mdio superior, quer um valor
mdio inferior a 60 kg.
Pensemos na seguinte estatstica de teste
T=

X
/ n

cuja distribuio conhecida se H0 verdadeira. fundamental conhecer a distribuio


de T, no caso de H0 ser verdadeira, pois esse facto vai-nos permitir determinar a regio
de rejeio R a partir do nvel de significncia , definido priori,

P[T R | H0 verdadeira]=

ou seja

P[|T0|> z1-/2] =
onde T0 se obtm de T substituindo por 0, sendo 0 o valor de considerado na
hiptese nula (no caso do exemplo 0=60).
Ento a zona de rejeio dada pelo seguinte intervalo

R = ]- , -z1-/2[ ] z1-/2 , +[
pelo que se rejeita a hiptese H0, sempre que t0 R, sendo t0 o valor observado da
estatstica de teste. Considerando, no exemplo, a amostra correspondente cidade de
Lisboa, temos:
t0= 10 (60.82 60) /4=.65

pelo que trabalhando com um nvel de significncia de 5%, se tem a seguinte regio de
rejeio:
R = ]- , -1.96[ ] 1.96 , +[

Como 0.65 no pertence regio de rejeio, no vemos razo para rejeitar a hiptese
nula.
Ainda no exemplo que temos vindo a considerar, suponhamos que tnhamos comeado
por recolher a amostra referente cidade de vora. Mediante o resultado obtido, uma

Maria Eugnia Graa Martins

Anlise de Dados

76

pessoa mais cptica teria razes para suspeitar que o peso mdio seria inferior a 60 kg.
Nestas circunstncias deveramos proceder ao seguinte teste:
H0: =60

contra

H1: < 60

Agora a hiptese alternativa especifica que o valor mdio inferior a 60 e se a hiptese


H1 fosse verdadeira esperaramos obter amostras que levassem a um valor negativo
para t0 (porqu?). Quer dizer que vamos rejeitar a hiptese nula se t0 < z , pois
P [ T < z | H0 verdadeira] =
Para o nvel de significncia de 5% o quantil z.05 = -1.6449, pelo que a regio de
rejeio

R = ]- , -1.6449[
Considerando ento a amostra observada em vora, obtemos
t0= 10(57.04 60) /4 = -2.34
valor que pertence regio de rejeio, donde conclumos que devemos rejeitar a
hiptese nula.
Pensemos agora na cidade de Braga, em que temos razes para suspeitar que os
pesos so mais altos (come-se muito bem no Norte..., o que no quer dizer que se
coma mal em vora...), pelo que consideramos o seguinte teste:
H0 : =60

contra

H1 : >60

Neste momento a hiptese alternativa indica-nos que a zona de rejeio corresponder


a valores de t0 demasiado grandes, ou seja t0>z1-. Como
t0= 10(61.22 60) /4=.96

z.95=1.6449

no vemos razo para rejeitar a hiptese nula.


Repare-se que dos 3 testes considerados anteriormente, o 1 de ndole diferente dos
outros dois, no que diz respeito hiptese alternativa - no 1 caso estamos perante um
teste bilateral enquanto que os outros 2 se referem a testes unilaterais.
O exemplo anterior pode-se inserir num processo mais geral de testar hipteses sobre
o valor mdio, que podemos resumir do modo seguinte:

Maria Eugnia Graa Martins

Anlise de Dados

77

1 caso
Dados: dada uma amostra (x1,x2,xn), valor observado da amostra aleatria

(X1,X2,,Xn) em que n30.


Se a populao tem distribuio aproximadamente normal e varincia conhecida, ento
a dimenso da amostra pode ser inferior a 30.
Hiptese nula: H0: = 0

(Esta hiptese nula equivalente a 0 ou 0 conforme se utilizem as hipteses


alternativas b) e c) especificadas a seguir)
n(X 0 ) /

Estatstica de teste: T0=

Obs. Para n30, quando desconhecido, pode ser estimado por s.


Hiptese alternativa

Deciso a tomar para um nvel de significncia

a) H1: 0

Rejeita-se H0 se |t0| > z1-/2

b) H1: > 0

Rejeita-se H0 se t0 > z1-

c) H1: < 0

Rejeita-se H0 se t0 < z

2 caso
Dados: dada uma amostra (x1,x2,xn), valor observado da amostra aleatria

(X1,X2,,Xn) de uma populao com distribuio Normal e parmetro desconhecido.


Hiptese nula - H0: = 0

(Esta hiptese nula equivalente a 0 ou 0 conforme se utilizem as hipteses


alternativas b) e c) especificadas a seguir)
Estatstica de teste : T1 =

n(X 0 ) /S

Hiptese alternativa

Deciso a tomar para um nvel de significncia

a) H1: 0

Rejeita-se H0 se |t1| > t1-/2(n-1)

b) H1: > 0

Rejeita-se H0 se t1 > t1-(n-1)

c) H1: < 0

Rejeita-se H0 se t1 < t(n-1)

onde representamos por t(n-1) o quantil de probabilidade da distribuio t de


Student com (n-1) graus de liberdade.

Maria Eugnia Graa Martins

Anlise de Dados

78

Obs. Quando a dimenso da amostra for suficientemente grande, a distribuio da

estatstica T1 aproximadamente normal, pelo que podemos tratar o segundo caso de


modo anlogo ao 1 caso. Na realidade, medida que a dimenso da amostra aumenta
e consequentemente o nmero de graus de liberdade, a distribuio t de Student
aproxima-se da distribuio Normal.
3.6.1 P-value

Um processo alternativo de realizar os testes de hipteses anteriores calcular o Pvalue. Mais concretamente, para cada uma das situaes consideradas anteriormente,
face ao valor observado t0 ou t1 das estatsticas de teste T0 ou T1, calcula-se:
1 caso:
a)

P = 2 min {P[T0t0], P[T0t0]}

b)

P = P[T0t0]

c)

P = P[T0t0]

2 caso:
a)

P = 2 min {P[T1t1], P[T1t1]}

b)

P = P[T1t1]

c)

P = P[T1t1]

Deciso: Para um determinado nvel de significncia , rejeita-se a hiptese nula


quando P.
Exerccios
1. Admita que a mediana da nota da PE, dos alunos que entraram no ano lectivo 91/92 foi de 35. Com

base na amostra anterior, verifique se existem razes para suspeitar de que os alunos que entraram no
ano lectivo de 92/93, tm tendncia para terem notas mais fracas.
Obs. Considere que a populao a estudar est dividida em duas categorias: a dos alunos com nota
superior a 35 e dos alunos com nota inferior ou igual a 35.
2. Supe-se que numa populao existem trs vezes mais indivduos no fumadores do que fumadores.
a) Tendo-se recolhido uma amostra de 20 indivduos, verificou-se que 7 eram fumadores. Teste, ao nvel de

significncia de 5% se a suposio tem razo de ser.


Maria Eugnia Graa Martins

Anlise de Dados

b) Na

79

populao anterior pretende-se estudar a incidncia de doena pulmonar. Sabe-se que a

percentagem de doentes entre os fumadores e no fumadores respectivamente de 60% e 20%.


(i) Determine a probabilidade de um indivduo ter doena pulmonar.
(ii) Determine a probabilidade de um doente pulmonar ser fumador.
(iii) Qual a probabilidade de numa amostra de 10 doentes, pelo menos trs serem fumadores?
(iv) Qual a probabilidade de numa amostra de 225 doentes, mais de metade serem fumadores?
3. O sr. X no consegue chegar a horas ao emprego. Todos os dias marca o ponto depois da hora

estipulada para a sua entrada. No final do ms, juntamente com uma repreenso escrita, recebeu uma
folha com um registo dos seus atrasos (em minutos):
0.01

2.66

3.30

3.77

4.47

5.13

7.56

8.79

10.26

14.36

15.29

19.64

21.45

28.41

a) Investigue a existncia de possveis outliers na amostra.


b) O sr. X acha injusta a repreenso, j que segundo diz, desde que trabalha naquela empresa, mais de

50% das vezes o atraso inferior a 5 minutos. Com base nos dados anteriores verifique se existe
evidncia suficiente para dar razo ao sr. X.
4. Suponha que uma amostra recolhida de rendimentos de famlias de determinada cidade revelou que

55% dos rendimentos da populao se situam entre os 60 e os 120 contos. O presidente da cmara
considera-a "ideal" !
Desconfia-se que o bairro X no segue a distribuio "ideal" da cidade. Recolheu-se uma amostra de
valores de rendimentos familiares nesse bairro, tendo-se obtido os seguintes resultados:
15

24

36

55

58

62

65

67

70

71

73

76

89

90

92

97

105

112

118

160

Verifique se esta suspeita tem razo de ser.


5. Um grupo de 20 indivduos hipertensos, foi submetido durante 30 dias a um regime de dieta sem sal.

Apresentam-se a seguir os valores da presso sistlica para esses indivduos:


sexo
M
M
M
F
F
M
F
M
M
F
F
F
M
M
F
M

Maria Eugnia Graa Martins

Antes da dieta
17.0
17.7
17.9
18.1
18.1
18.2
18.3
18.4
18.4
18.5
18.5
18.6
18.7
18.8
18.9
19.2

Depois da dieta
15.6
16.6
16.9
15.6
16.0
15.5
16.5
17.2
15.0
17.5
15.9
16.2
17.5
15.8
17.2
17.3

Anlise de Dados

M
F
F
F

80

19.3
19.5
19.8
20.1

17.8
16.0
16.9
17.5

a) Um especialista afirma que aps um ms em regime de dieta sem sal, pelo menos 80% dos

indivduos apresenta uma diminuio da presso sistlica superior a 10%. Averige se existem razes
para duvidar da afirmao do especialista.
6. Recolheu-se a opinio de 20 executivos acerca de mquinas fotocopiadoras, verificando-se que 15

preferiam a marca Kodac relativamente marca Xerox. Pensa-se, no entanto, que na realidade no
existem diferenas significativas entre as mquinas, pelo que a probabilidade de cada uma ser escolhida
de 50%. Poderamos assim considerar as seguintes hipteses a testar:
H0: p=.5

contra

H1: p.5

em que representamos por p a probabilidade de ser escolhida a mquina Kodac. Se para 20 executivos
consultados, representar por X o nmero dos que preferem Kodac, considere a seguinte regra de
deciso:
rejeito H0 se X<6 ou se X>14
a) Qual o nvel de significncia associado ao teste anterior?
b) Qual a deciso a tomar relativamente amostra considerada?
c) Para as hipteses H0 e H1 especificadas, qual a regra de teste se efectivamente o nmero de
executivos que constituem a amostra fosse de 50, considerando o nvel de significncia de 5%?
7. Admite-se que a quantidade de nicotina (medida em mg.) existente numa dada marca de cigarros,

tem distribuio normal. Observaram-se 5 cigarros da referida marca tendo-se obtido:


16

16.5

19

15.4

15.6

O fabricante afirma que a quantidade mdia de nicotina , por cigarro, de 13.5 mg.
a) Teste, ao nvel de significncia = 0.10 a hiptese:
H0 : = 13.5
contra

H1 : > 13.5

b) Determine um intervalo de 95% de confiana para a quantidade mdia de nicotina existente em cada

cigarro.
8. O departamento de controlo de qualidade de uma fbrica de conservas, est na disposio de mandar

reajustar todo o equipamento, caso se verifique que o peso mdio de cada lata inferior ao especificado
na embalagem. Nomeadamente no caso das latas de sardinha, especifica-se que este peso seja de 150
gramas. Com o objectivo de tomar uma deciso, procedeu-se recolha de algumas latas de sardinha,
que se pesaram, usando-se a mdia X, como estatstica de teste.
a) Formule as hipteses nula e alternativa, em termos do valor especificado para o peso mdio.

Maria Eugnia Graa Martins

Anlise de Dados

81

b) Tendo em considerao as consequncias que advm de cometer um erro de tipo I, dever escolher
um nvel de significncia grande ou pequeno? Justifique convenientemente a sua resposta. Qual ou
quais os valores que escolheria?
c) Admitindo que o peso das latas de sardinha se distribui de acordo com uma Normal e que os valores
observados para os pesos de uma amostra de 10 latas foram ( em gramas):
147

152

145

130

155

148

150

149

146

149

qual a deciso que o gerente da fbrica deve tomar, no que diz respeito ao reajustamento do
equipamento?
9. Um mdico receita aos seus doentes um medicamento para diminuir o nmero de pulsaes por

minuto. Recolheu o n de pulsaes a doentes medicados, que j tomam o medicamento h um ms,


tendo obtido o seguinte output, obtido atravs de um software de Estatstica, em que seleccionou como
opo, utilizar a distribuio t-Student:
Com 95% de confiana: 70.887604 < <74.497011
a) Quais as hipteses que o investigador teve de admitir para tomar a opo de seleccionar a
distribuio t-Student?
b) Explique o que significa o output anterior.
c) Qual a margem de erro do intervalo?
d) Se o intervalo fosse calculado com uma confiana de 99%, a margem de erro aumentaria ou
diminuiria?
10. Durante um cateterismo para detectar a a exteno da doena cardaca, verificando o estado das

artrias, introduzido um pequeno tubo, o catter, atravs de uma artria da perna. importante que
catter tenha um dimetro de 2.00mm, em mdia, com um desvio padro muito pequeno. O processo de
fabrico dos cateteres submetido a um rigoroso controlo de qualidade, de modo que todos os dias so
recolhidas algumas medidas, para testar a hiptese nula H0: m = 2.00mm, contra a hiptese alternativa
m2.00mm, com um nvel de significncia de 5%, para parar o processo de fabrico, no caso de haver
alteraes.
a) Estamos perante um teste unilateral ou bilateral? Porque que isto importante, no contexto do
problema?
b) Explicar o que que acontece se o departamento de controlo de qualidade cometer um erro de tipo 1?
c) E se cometer um erro de tipo 2?
11. Uma fbrica de bolachas com pedacinhos de chocolate, ao anunciar as suas bolachas diz que cada

pacote de meio quilo contm, pelo menos, 1000 pedacinhos de chocolate. Os estudantes do
Departamento de Estatstica de determinada Universidade, decidiram comprar alguns destes pacotes e
contar o nmero de pedacinhos de chocolate, tendo obtido os seguintes resultados:
1219

1214

1087

Maria Eugnia Graa Martins

1200

1419

1121

1325

1345

1244

1258

1356

1132

Anlise de Dados

1191

1270

82

1295

1135

a) Verifique se esto cumpridas as condies para poder fazer inferencia.


b) Obtenha um intervalo de 95% de confiana para o nmero mdio de pedacinhos de chocolate, em
cada pacote.
c) O que que pode concluir sobre o que diz a empresa que vende as bolachas? Utilize o intervalo
anterior para testar uma hiptese apropriada para tirar concluses.
Sugesto: Verifique que o intervalo de confiana (1187.9, 1288.4) e de seguida calcule P(X<1000)
tendo em considerao que a v.a.X, que representa o n de pedacinhos de chocolate em cada pacote,
tem distribuio Normal N(1188, 94) ou N(1288, 94).

Maria Eugnia Graa Martins

Anlise de Dados

83

Testes igualdade de duas populaes

Teste sobre a diferena de propores de duas populaes independentes.


Testes de hipteses sobre a diferena de valores mdios de duas populaes
independentes Normais varincias conhecidas, varincias desconhecidas e iguais ou
varincias desconhecidas e diferentes. Caso de populaes no Normais, mas grandes
amostras. Caso de amostras emparelhadas.

4.1 Inferncia sobre a diferena entre as propores de duas


populaes
Uma situao que por vezes tem interesse estudar, a diferena entre propores
correspondentes a duas populaes. Suponhamos, por exemplo, a situao de um
candidato a Presidente da Repblica, que est interessado em saber se a percentegem
de potenciais eleitores que votaro nele igual para Lisboa e Porto.
Outro exemplo o de duas mquinas que produzem o mesmo tipo de artigo e estamos
interessados em estudar se a percentagem de defeituosos igual, para as duas
mquinas.
Temos ainda o caso em que se pretende conhecer se o sucesso no exame nacional de
Matemtica, o mesmo para os alunos de duas escolas distintas.
Sejam ento duas populaes W1 e W2 e p1 e p2 as percentagens ou propores que se
pretendem comparar:
p1 percentagem de elementos da populao W1 pertencentes a determinada
categoria;
p2 percentagem de elementos da populao W2 pertencentes a determinada
categoria

Maria Eugnia Graa Martins

Anlise de Dados

84

Sejam n1 e n2 as dimenses de 2 amostras recolhidas respectivamente das populaes


) )
)
R
W1 e W2. Ento uma estimativa pontual de p1 p2 ser dada por p1 p 2 , onde p1 = 1
n1

)
R
e p 2 = 2 , sendo R1 e R2, respectivamente o nmero de elementos das amostras que
n2

pertencem categoria em estudo. Admitindo que temos populaes infinitas ou que a


amostragem se faz com reposio, j vimos no Captulo 1 que as variveis aleatrias
R1 e R2 tm, respectivamente, distribuio Binomial de parmetros (n1, p1) e (n2, p2).
) )
No conhecida a distribuio de amostragem exacta de p1 p 2 , mas admitindo que
as dimenses das amostras so suficientemente grandes, a distribuio de
) )
p1 p 2 (p1 p 2 )
pode ser aproximada pela N(0,1)
p1 (1 p1 ) p 2 (1 p 2 )
+
n1
n2
Este resultado vai-nos servir para construir os testes de hipteses sobre a diferena de
propores p1-p2.
4.1.1. Testes de hipteses sobre a diferena de propores

Consideremos os seguintes testes, realizados para o nvel de significncia :


a) H0: p1-p2 p0

contra

H1: p1-p2 > p0

Se H0 verdadeiro, podemos considerar para estatstica de teste


Z=

) )
p1 p 2 p 0
~ N(0,1)
)
)
)
)
p1 (1 p1 ) p 2 (1 p 2 )
+
n1
n2

Regio de rejeio: Valores grandes da estatstica de teste ou


) )
Z z1- ou p1 p 2 p0 + z1-

b) H0: p1-p2 p0

contra

)
)
)
)
p1 (1 p1 ) p 2 (1 p 2 )
+
n1
n2

p1-p2 < p0

Regio de rejeio: Valores pequenos da estatstica de teste ou

Maria Eugnia Graa Martins

Anlise de Dados

85

)
)
)
)
) )
p1 (1 p1 ) p 2 (1 p 2 )
Z z ou p1 p 2 p0 + z
+
n1
n2

c) H0: p1-p2 = p0

contra

p1-p2 p0

Regio de rejeio: Valores pequenos ou grandes da estatstica de teste ou


)
)
)
)
) )
p1 (1 p1 ) p 2 (1 p 2 )
|Z| z1-/2 ou | p1 p 2 | p0 + z1-/2
+
n1
n2

Podemos em alternativa calcular o P-value (valor-p), que se obtm, calculando para o


valor observado da estatstica de teste, zobs, as seguintes probabilidades:
a) P(Z zobs | H0)
b) P(Z zobs | H0)
c) 2P(Z |zobs|| H0)
4.1.2. Intervalo de confiana para a diferena de propores

Um intervalo de confiana, com uma confiana de 100(1-)% vem imediatamente a


partir da distribuio de amostragem para a diferena de propores amostrais:
)
)
)
)
) )
p1 (1 p1 ) p 2 (1 p 2 )
p1 p 2 p0 + z1-/2
+
n1
n2

4.2 Inferncia sobre a diferena entre os valores mdios de duas


populaes
De um modo geral, quando se est a fazer um estudo comparativo, utiliza-se o termo
estatstico tratamento para referir as caractersticas que esto a ser comparadas.
Por exemplo, num estudo para investigar se um novo tipo de semente de trigo produz
maior quantidade de cereal, semearam-se vrias pores de terreno, umas com a
semente normal e as outras com a nova semente. As pores de terreno semeadas
com cada tipo de semente foram escolhidas aleatoriamente. Quando o trigo
amadureceu, pesaram-se as quantidades produzidas por cada poro de terreno. Nesta

Maria Eugnia Graa Martins

Anlise de Dados

86

experincia os dois tipos de semente representam os dois tratamentos. A atribuio de


cada tipo de semente a cada poro de terreno, constitui o que se chama o
planeamento da experincia. Esta fase crucial para o tratamento futuro dos dados, j
que este planeamento pode, de uma maneira geral, produzir:

Amostras independentes ou

Amostras emparelhadas (pares de dados)

O primeiro caso, das amostras independentes, verifica-se quando os indivduos ou


unidades que vo ser expostas a cada tratamento, so escolhidas aleatoriamente em
dois grupos, atribuindo-se a um dos grupos o tratamento 1 e ao outro grupo o
tratamento 2. Os resultados que se obtm de cada tratamento constituem uma amostra
de uma dada populao, pelo que podemos falar em comparao de populaes.
Num planeamento de experincias por pares, os indivduos ou unidades que vo ser
expostas ao tratamento so escolhidas aos pares, de modo que os membros de cada
par so semelhantes, e um elememto de cada par recebe o tratamento 1, enquanto que
o outro recebe o tratamento 2. assim, ao contrrio do que se passa no caso anterior,
esperamos que os resultados de cada par sejam dependentes, j que houve, partida,
condies marcantes para que isso acontecesse, na escolha de elementos
semelhantes.
Vamos comear por abordar o primeiro caso de amostras independentes de duas
populaes.
4.2.1. Inferncia sobre a diferena entre valores mdios de populaes
independentes

Consideremos duas populaes X1 e X2, independentes, de valores mdios e desvios


padres, respectivamente, 1 e 2 e 1 e 2.
Sejam X11, X12, ..., X1n1 e X21, X22, ..., X2n2, duas amostras aleatrias de X1 e X2,
respectivamente.
O nosso objectivo, ao pretender comparar os dois tratamentos ou populaes, vai ser o
de comparar os seus valores mdios. Assim, pretende-se fazer inferncia sobre 1-2.

Maria Eugnia Graa Martins

Anlise de Dados

87

O estimador pontual para a diferena entre os valores mdios , obviamente, X1 X 2 .


No que diz respeito distribuio de amostragem deste estimador, tem-se
E( X1 X 2 ) = 1-2
12 22
Var( X1 X 2 ) =
+
n1 n 2
e no que diz respeito forma da distribuio, podemos considerar os seguintes casos:
4.2.1.1 As populaes so Normais e as varincias so conhecidas

Neste caso, tendo em considerao que a combinao linear de variveis aleatrias,


independentes, com distribuio Normal, ainda tem distribuio Normal, vem
imediatamente
X 1 X 2 ( 1 2 )
12 22
+
n1 n 2

I N(0,1)

Testes de hipteses sobre 1-2


H0: 1-2 = 0
Estatstica de teste sob H0: Z =

Hiptese alternativa H1

X1 X 2 0
12 22
+
n1 n 2
Regio de Rejeio

P-value

1-2 > 0

z z1-

P(ZZobs|H0)

1-2 < 0

z z

P(ZZobs|H0)

1-2 0

|z| z1-/2

2P(Z|Zobs||H0)

Intervalo de confiana, com uma confiana de 100(1-)%, para 1-2


X1 X 2 z1-/2

Maria Eugnia Graa Martins

12 22
+
n1 n2

Anlise de Dados

88

4.2.1.2 As populaes so Normais e as varincias so iguais e desconhecidas


teste t, para amostras independentes

Se a varincia comum 2 fosse conhecida, ento estaramos no caso anterior. No


entanto, de um modo geral a varincia desconhecida e ser estimada a partir das
duas amostras. O estimador utilizado o chamado pooled variance, que se obtm da
seguinte forma:
S2 =

(n1 1) S12 + (n 2 1) S 22
n1 + n 2 2
X1 X 2 ( 1 2 )

e com este estimador

1
1
S
+
n1 n 2

I t(n1+n2-2)

tem como distribuio (exacta) uma t-Student com (n1+n2-2) graus de liberdade.
Testes de hipteses sobre 1-2, para um nvel de significncia
H0: 1-2 = 0
Estatstica de teste sob H0: T =

X1 X 2 0
S

Hiptese alternativa H1

1
1
+
n1 n 2

Regio de Rejeio

P-value

1-2 > 0

t t1-(1)

P(TTobs|H0)

1-2 < 0

t t

P(TTobs|H0)

1-2 0

|t| t1-/2

2P(T|Tobs||H0)

(1) Quantil de probabilidade (1-) da t-Student com (n1+n2-2) graus de liberdade.


Intervalo de confiana, com uma confiana de 100(1-)%, para 1-2
X1 X 2 t1-/2 S

Maria Eugnia Graa Martins

1
1
+
n1 n 2

Anlise de Dados

89

4.2.1.3 As populaes so Normais e as varincias so diferentes e


desconhecidas

No caso anterior exigimos que as varincias fossem iguais, para termos uma
distribuio exacta e posteriormente podermos utilizar o teste t. Em termos prticos
verifica-se se

S12
1 S12

4,
no

muito
diferente
de
1.
Como
regra
emprica,
se
4 S 22
S 22

assume-se a igualdade de varincias e utiliza-se o processo descrito. Se

S12
for muito
S 22

diferente de 1, deve-se suspeitar da igualdade de varincias e utiliza-se, por exemplo,


um mtodo no paramtrico. A regra que apresentmos emprica, pelo que em
situaes de maior rigor deve-se utilizar um teste de igualdade de varincias para
populaes normais (por exemplo o teste F).
No entanto, ainda para o caso de populaes normais, pequenas amostras e varincias
diferentes, existe um processo aproximado sugerido por Satterthwaite e da o nome de
aproximao de Satterthwaite, que sugeriu ainda a distribuio aproximada de uma tStudent para a estatstica de teste
X1 X 2 ( 1 2 )
S12 S 22
+
n1 n 2
mas com o nmero de graus de liberdade dado pela equao
s12 s 22 2
+ )
n1 n 2
f=
s2
s2
( 1 )2 ( 2 )2
n
n1
+ 2
n1 1 n 2 1
(

Os testes sobre 1-2 so idnticos ao caso anterior.

Maria Eugnia Graa Martins

Anlise de Dados

90

4.2.1.4 As populaes no so Normais e as amostras tm dimenso grande

No caso em que as amostras tm dimenso suficientemente grande a distribuio de


amostragem de
X1 X 2 ( 1 2 )
S12 S 22
+
n1 n 2

pode ser aproximada pela N(0,1)

A inferncia estatstica sobre 1-2 idntica realizada no caso 4.2.1.1 com as


varincias substitudas pelos estimadores.
4.2.2 Amostras emparelhadas

Ao comparar dois tratamentos, seria desejvel que os indivduos ou unidades


experimentais sujeitas a esses tratamentos, fossem to semelhantes quanto possvel,
de modo que as diferenas entre os resultados dos dois grupos pudessem ser
atribudas s diferenas de tratamento. Na realidade, se algumas condies variarem
de forma incontrolada nos indivduos sujeitos a tratamento, essas condies podem
introduzir nos resultados uma grande variabilidade.
Por outro lado, a imposio de que todos os indivduos sejam semelhantes
demasiado restritiva, podendo, inclusivamente, impedir a recolha de amostras de
dimenso suficiente para determinadas anlises estatsticas. Por exemplo, para a
comparao de dois analgsicos, seria impraticvel obter um nmero suficiente de
doentes nas mesmas condies da doena, mesmo sexo, mesma idade, etc. Alm
disso seria mais razovel aplicar os analgsicos a indivduos com caractersticas
diferentes.
Estamos numa situao de conflito, em que por um lado exigimos indivduos com
caractersticas semelhantes, mas que tambm tenham caractersticas diferentes! Para
resolver esta questo, entramos com o conceito de matching ou blocking, que
consiste em escolher os indivduos por pares ou blocos, de modo que dentro de cada
bloco tenham caractersticas semelhantes e sejam diferentes, para blocos diferentes.

Maria Eugnia Graa Martins

Anlise de Dados

91

Num planeamento de experincias deste tipo, depois de seleccionados os pares (ou


blocos), deve-se aplicar a cada elemento do par o tratamento 1 ou 2 de forma aleatria.
Representando por X1 e X2, respectivamente, as respostas ou resultados ao tratamento
1 ou 2, os dados apresentam-se com a seguinte estrutura:
Par

Tratamento 1

Tratamento 2

Diferena D

X11

X21

D1

X12

X22

D2

X13

X23

D3

X1n

X2n

Dn

As diferenas D1, D2, D3, ..., Dn, constituem a amostra aleatria. Observe-se que,
embora os pares (X1i, X2i) sejam independentes uns dos outros, dentro do mesmo par
no existe independncia, tendo em considerao a forma como foi planeada a
experincia.
Algumas das estatsticas de interesse so

D=

1 n
Di
n i=1

S D2 =

1 n
(D i D ) 2

n 1 i=1

A inferncia estatstica sobre as diferenas entre os valores mdios dos resultados


devidos aos dois tratamentops, resume-se a fazer inferncia sobre = 1-2, e os
processos resumem-se ao que j foi dito atrs sobre a inferncia sobre o valor mdio
de uma populao.
4.2.2.1 Populaes Normais, pequenas amostras teste t emparelhado

No caso em que temos pequenas amostras, necessrio assumir que a amostra Di =


X1i X2i, proveniente de uma populao Normal (, D). Ento, a estatstica de teste
que vamos utilizar tem uma distribuio t-Student, com (n-1) graus de liberdade e a este
tipo de teste chamamos o teste t emparelhado (t-paired test).
Testes de hipteses sobre 1-2

Maria Eugnia Graa Martins

Anlise de Dados

92

H0: 1-2 = 0
Estatstica de teste sob H0: T =
Hiptese alternativa H1

D 0
SD / n
Regio de Rejeio

P-value

1-2 > 0

t t1-(1)

P(TTobs|H0)

1-2 < 0

t t

P(TTobs|H0)

1-2 0

|t| t1-/2

2P(T|Tobs||H0)

(1) Quantil de probabilidade (1-) da t-Student com (n-1) graus de liberdade


Observao Para testar que os dois tratamentos tiveram o mesmo efeito, faz-se 0=0.
Intervalo de confiana, com uma confiana de 100(1-)%, para 1-2
D t1-/2

SD
n

4.2.2.2. Grandes amostras

Neste caso a distribuio da estatstica de teste pode ser aproximada pela distribuio
Normal(0,1), pelo que temos o seguinte:
H0: 1-2 = 0
Estatstica de teste sob H0: Z =

Hiptese alternativa H1

D 0
SD / n
Regio de Rejeio

P-value

1-2 > 0

z z1-

P(ZZobs|H0)

1-2 < 0

z z

P(ZZobs|H0)

1-2 0

|z| z1-/2

2P(Z|Zobs||H0)

Intervalo de confiana, com uma confiana de 100(1-)%, para 1-2


D z1-/2

Maria Eugnia Graa Martins

SD
n

Anlise de Dados

93

4.2.3 Que tipo de planeamento fazer

Ao planear uma experincia para comparar dois tratamentos, muitas vezes temos a
opo

de

escolher

emparelhadas.

entre

Vejamos

considerar

algumas

amostras

consideraes

independentes
sobre

estes

ou
dois

amostras
tipos

de

planeamento.
Se considerarmos n pares de observaes, obtemos 2n valores, o que corresponde no
caso de amostras independentes a duas amostras de dimenso igual a n. Para o
clculo da mdia, indiferente se as amostras esto emparelhadas ou no, j que
D=

1 n
( X1i X 2i ) = X1 X 2
n i=1

Centrando a nossa atena no caso de termos pequenas amostras, no que diz respeito
aos intervalos de confiana para 1-2, temos
X1 X 2 t1-/2 * estimador do erro padro (desvio padro da diferena das mdias)
Amostras independentes

Amostras emparelhadas

(n1=n2=n)

n pares

Estimativa do erro padro


s
Graus de liberdade

(n 1)s12 + (n 1)s 22
=
Obs: s=
2(n 1)

1
1
+
n1 n 2

SD

2(n-1)

n-1

s12 + s 22
2

Do quadro apresentado anteriormente verifica-se que, se considerarmos amostras


emparelhadas, o n de graus de liberdade diminui, o que implica que para o mesmo
valor de , o quantil de probabilidade 1-/2 ser maior. Por exemplo com n=10,
t.95(9)=1.833, enquanto que t.95(18)=1.734.
Assim, se o valor estimado para o erro padro fosse igual nos dois casos, uma
diminuio do nmero de graus de liberdade, verificada para o caso das amostras
emparelhadas, implicaria um intervalo de confiana maior. Analogamente, nos testes de

Maria Eugnia Graa Martins

Anlise de Dados

94

hipteses, este facto resultaria numa perda de potncia para detectar diferenas reais
nos valores mdios de duas populaes.
Na verdade, o grande mrito das amostras emparelhadas, se efectivamentev a escolha
dos pares for feita de modo a cumprir os objectivos deste tipo de planeamento, est em
que os resultados obtidos para os pares so altamente correlacionados, obtendo-se
uma reduo na varincia das diferenas Di. Esta reduo na varincia e
consequentemente no valor estimado para o erro padro, compensa a perca de graus
de liberdade (ex pag 345, Bhattacharya)

4.3 Teste para a igualdade de varincias em populaes Normais


So dadas duas amostras aleatrias X11, X12, ..., X1n1 e X21, X22, ..., X2n2, de populaces
Normais, X1 e X2, independentes, em que os valores mdio 1 e 2 e as varincias 12 e

22 , so desconhecidos. Representando as varincias amostrais por S12 e S 22 , sabe-se


S12 / 12
que F= 2 2 tem uma distribuio F com (n1-1) graus de liberdade no numerador e
S2 / 2
(n2-1) graus de liberdade no denominador, que se representa por F(n1-1; n2-1)4. Este
facto vai-nos servir para testar a igualdade de varincias, condiderando F como
S12
estatstica de teste, uma vez que sob H0: = , F0= 2 tem distribuio F(n1-1; n2-1).
S2
2
1

2
2

Temos ento os seguintes testes:


H0: 12 = 22
Estatstica de teste sob H0: F0=
Hiptese alternativa H1

12 22

S12
S 22

Regio de Rejeio

P-value

f0 F1-/2(n1-1; n2-1) ou

2min{P(FFobs|H0),

f0 F/2(n1-1; n2-1)
4

A distribuio F goza da propriedade de F(m;n)=1/F1-(n;m)

Maria Eugnia Graa Martins

P(FFobs|H0)}

Anlise de Dados

95

12 > 22

f0 F1-(n1-1; n2-1)

P(FFobs|H0)

12 < 22

f0 F(n1-1; n2-1)

P(FFobs|H0)

Intervalo de confiana, com uma confiana de 100(1-)%, para 12 / 22 :

12 s12
s12
F/2(n2-1; n1-1) 2 2 F1-/2(n2-1; n1-1)
s 22
2 s2
Exemplo 4.1 (Adaptado de Murteira, B. et al, 2002) Para confrontar dois tipos de mquinas de
ceifar, um trigal foi dividido em seces longitudinais, e cada duas seces adjacentes, tratadas por cada
uma das mquinas. As produtividades alcanadas foram as seguintes:
Mquina A:

8.0

8.4

8.0

6.4

8.6

7.7

7.7

5.6

5.6

6.2

Mquina B:

5.6

7.4

7.3

6.4

7.5

6.1

6.6

6.0

5.5

5.5

Pretendendo averiguar se a produtividade das duas mquinas idntica, utilizando o teste t, averige da
igualdade das varincias.
H0: A = B
2

contra

Estatstica de teste sob H0: F0=

H1: 2A B2
S 2A
com distribuio F(9;9)
S B2

Deciso: No rejeitar a igualdade de varincias.


Observao: O teste F, para a igualdade de varincias pode ser realizado directamente no Excel. Para
isso basta seleccionar
Tools Data Analysis F-Test Two Samples for Variances

Maria Eugnia Graa Martins

Anlise de Dados

Maria Eugnia Graa Martins

96

Anlise de Dados

97

Mtodos no paramtricos

Mtodos no paramtricos como alternativa aos mtodos paramtricos. Testes de


ajustamento teste do Qui-quadrado e de Kolmogorov-Smirnov. Problema da
localizao e da localizao e simetria Teste dos Sinais e teste de Wilcoxon. Testes
de hipteses em modelos no paramtricos para testar a homogeneidade de
populaes independentes Teste de Mann-Whitney e de Kruskal-Wallis. Teste do Quiquadrado em tabelas de contingncia para testar a homogeneidade e a independncia.
Outros testes para testar a independncia.

5.1. Introduo
Vimos

nos

captulos

anteriores

alguns

processos

de

inferncia

estatstica,

nomeadamente os que envolvem pequenas amostras, em que necessrio fazer


hipteses sobre a forma da distribuio da populao subjacente amostra.
De um modo geral a inferncia estatstica clssica admite o modelo Normal e temos
assim o teste-t, quando pretendemos fazer testes de hipteses acerca do valor mdio
de uma populao ou pretendemos comparar populaes, ou o teste F quando
comparamos varincias. Felizmente alguns destes processos so razoavelmente
robustos para os desvios da normalidade e basta assumir a simetria, para que ainda se
possam utilizar. exemplo desta situao o teste-t, que bastante robusto, podendo
ainda continuar a aplicar-se quando a populao no Normal, mas simtrica.
No entanto, nem sempre apropriado considerar como hiptese, que a populao
subjacente a determinada amostra, segue uma famlia especfica de distribuies. Pode
ainda acontecer, por exemplo, que os dados nos sejam dados atravs de uma
ordenao e no tenhamos acesso aos verdadeiros valores o que acontece quando
temos as classificaes de um conjunto de candidatos a um lugar, em que esses
Maria Eugnia Graa Martins

Anlise de Dados

98

candidatos foram ordenados, no dispondo de classificaes individuais. Nestes casos


tm de se utilizar os chamados mtodos no paramtricos, que so mtodos com
uma grande generalidade de aplio, j que as hipteses subjacentes a essa aplicao
so pouco restritivas, o que no significa que no tenham de se fazer algumas
hipteses.
Os mtodos no paramtricos baseiam-se essencialmente em contagens, ordens e
sinais de diferenas. Como so mtodos que funcionam bem para vrias distribuies,
dizem-se robustos e as estatsticas utilizadas recebem o nome de estatsticas firmes.
EXEMPLO 5.1 Para testar o efeito de um novo medicamento, considerou-se um grupo de 9 doentes,
tendo-se dado o medicamento a 4 dos doentes escolhidos aleatoriamente. Passadas 3 semanas, os 9
doentes foram examinados por um mdico que, com base num conjunto de observaes clnicas,
ordenou os doentes, numa escala de 1 a 9, sendo o 1 atribudo ao doente que se apresentava em
melhores condies e o 9 o que se apresentava em piores condioes. Pretende-se testar, com base
nesta informao, o seguinte:
H0:

O novo medicamento

contra

H1:

no tem efeito

O novo medicamento
tem efeito (bom ou mau)

Uma estatstica de teste possvel ser considerar a soma das ordens dos doentes que tomaram o
medicamento. Se o novo medicamento no tem efeito, as ordens dos doentes que o tomaram podem ser
quaisquer, pelo que o resultado final pode ser qualquer das 126 combinaes possveis das 9 ordens 4 a
4. No entanto, se o medicamento teve efeito benfico deveremos ter, por exemplo, (1,2,3,4), enquanto
que se fr prejudicial teramos (6,7,8,9).
Os valores possveis para a estatstica de teste T, que representa a soma das ordens dos 4 doentes que
tomaram o medicamneto so
T

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

N de
vezes

11

11

12

11

11

A regio de rejeio ser constituda pelos valores grandes ou pequenos da estatstica de teste. Se
rejeitarmos para T= 10, 11, 29 e 30, ento o nvel de significncia do teste ser = 4/126 0.0318.

Na seco seguinte vamos abordar os testes de ajustamento, que se podem inserir na


categoria dos mtodos no paramtricos

Maria Eugnia Graa Martins

Anlise de Dados

99

5.2 Testes de ajustamento


5.2.1 Introduo1
Ser que existe alguma razo para dizer que os nascimentos so influenciados pelas
fases da Lua? Ser que o signo influencia o futuro, mais ou menos brilhante, de cada
indivduo? Ser que verdade o que a empresa das drageias M&M afirma, sobre as
percentagens de cores das drageias em cada embalagem?
A revista Fortune (De Veaux and al, 2004) recolheu os signos de 256 presidentes de
400 das maiores empresas, tendo obtido a seguinte informao:
Carneiro
Touro
Gmeos
Caranguejo
Leo
Virgem

23
20
18
23
20
19

Balana
Escorpio
Sagitrio
Capricrnio
Aqurio
Peixes

18
21
19
22
24
29

Na tabela anterior verifica-se que o signo dos Peixes sobressai com maior nmero de
nascimentos, mas ser esta diferena suficiente para dizer que os indivduos que
nascem sob este signo tm maior probabilidade de sucesso? Se os nascimentos se
distribuissem

uniformemente,

esperaramos

aproximadamente

21.3

(256/12)

nascimentos em cada signo. De que modo que os valores observados se ajustam


hiptese (nula) de que os nascimentos se distribuem uniformemente ao longo do ano?
Neste caso j no temos, como no captulo anterior, um teste sobre uma proporo,
mas sim sobre 12 propores, uma para cada signo, pelo que precisamos de arranjar
um teste que nos d uma ideia global sobre se as propores observadas diferem muito
das conjecturadas (consideradas na hiptese nula).
5.2.2 Generalizao do modelo Binomial o modelo Multinomial
Consideremos uma Populao W dividida em k 2 categorias disjuntas e exaustivas
A1, A2, S , Ak, pelo que cada indivduo da populao pertence a uma e s a uma das
categorias. Para i=1, S , k, seja pi a proporo de indivduos da Populao
pertencentes categoria i, tendo-se
1

Nesta seco seguimos integralmente Graa Martins, M. E. (2005)

Maria Eugnia Graa Martins

Anlise de Dados

100

=1

i=1

Fazer inferncia estatstica acerca desta Populao resume-se a estudar os parmetros


pi , i=1, S , k.
Recolha-se da Populao em estudo uma amostra de dimenso n, (x1, x2, S , xn) e
comece-se por construir a tabela de frequncias associadas s categorias
Classes

Frequncia

A1

o1

A2

o2

Ak

ok

Da tabela de frequncias anterior obtm-se as estimativas (da mxima verosimilhana)


dos parmetros pi,

) o
pi = i ,
n

i=1, S , k.

Temos agora uma generalizao dum caso tratado anteriormente, pois ao contrrio do
que se passava a, em que podamos considerar que estvamos perante n provas de
Bernoulli (cada indivduo pertencia a uma de 2 categorias, A ou AC, sendo constante a
probabilidade de pertencer categoria A, e da termos considerado o modelo Binomial),
temos neste momento n provas multinomiais - uma prova multinomial, com parmetros
pi , i=1, S , k, uma prova cujo resultado pode ser um de k possveis, chamados
classes ou categorias. A probabilidade da ocorrncia da k-sima classe pi, com
k

0pi1 e

= 1.

i=1

Mais formalmente, temos que a generalizao do modelo Binomial o chamado


modelo Multinomial que consiste no seguinte:
1 Consideram-se n provas idnticas;
2 O resultado de cada prova pode pertencer a uma de k classes possveis A1, A2, S,
A k;

Maria Eugnia Graa Martins

Anlise de Dados

101

3 - A probabilidade de que o resultado pertena classe Ai, pi e sempre a mesma


de prova para prova, i=1, S, k e p1+p2+S+pk=1;
4 As provas so independentes;
5 As variveis de interesse so O1, O2, S,Ok, em que Oi o nmero de vezes em que
o resultado pertence classe Ai e O1+O2+S+Ok = n.
Enunciamos a seguir algumas definies e resultados teis para a anlise da
Populao em estudo.
Definio 5.1. Dada uma experincia que consiste em n provas repetidas multinomiais,

independentes, com parmetros pi, i=1, S , k, seja Oi a v.a. que representa o n de


provas cujo resultado pertence i-sima classe, i=1, S , k. Ento (O1, O2, S , Ok)
uma varivel aleatria multinomial com parmetros n, pi, i=1, S , k.
Teorema 5.1 Se (O1, O2, S , Ok) uma v. a. multinomial com parmetros n, pi, i=1, S ,

k, ento
P(O1=o1, O2=o2, S , Ok=ok) =

n!
p1o1 p o2 2
o1! o 2 !...o k !

p kok

oi= 0,S, n
k

= n;

i=1, S , k

i=1

Observao: Repare-se que se k=2, estamos no caso Binomial.

Teorema 5.2 Se (O1, O2, S , Ok) uma v.a. multinomial, com parmetros n, pi, i=1, S ,
k, ento a funo distribuio da v.a.
k

U=

(Oi npi )2
np
i
i =1

aproxima-se da funo distribuio dum 2 com (k-1) graus de liberdade, quando n


Z.
O resultado anterior serve para testar a hiptese de que (O1, O2, S , Ok) uma v.a.
multinomial com parmetros n, pi, i=1, S , k. Basta para isso calcular

Maria Eugnia Graa Martins

Anlise de Dados

102

(o i np i )2
u=
npi
i =1
para uma amostra observada (o1, o2, S , ok) e rejeitar a hiptese se u 12 (k 1) ,
onde 12 (k 1) o quantil de probabilidade (1-) de uma distribuio dum 2 com (k-1)
graus de liberdade.
Nota - A distribuio aproximada da estatstica de teste do Qui-quadrado pode ser
obtida de forma intuitiva da forma seguinte:
Numa experincia multinomial em que cada resultado pode ser um de k possveis, o
nmero mdio de resultados, em n, que pertencem classe Ai npi. Ento Oi tem
distribuio Binomial(n,pi), pelo que se n for suficientemente grande e pi suficientemente
pequeno, a distribuio de Oi pode ser aproximada por uma Poisson de valor mdio npi,
pelo que a distribuio de

Oi npi
pode ser aproximada por uma Normal(0,1).
np i

O npi
tem uma distribuio de um 2 com (1) grau de liberdade e
Finalmente i
npi

(O i npi )2
tem uma distribuio dum 2 com (k-1) graus de liberdade.
np
i
i =1
Observao - O modelo do 2 tem uma funo densidade com suporte positivo e tem enviesamento para
a direita, dependendo a sua forma do nmero de graus de liberdade. Apresenta-se a seguir a funo
densidade do Qui-quadrado para vrios graus de liberdade:

Maria Eugnia Graa Martins

Anlise de Dados

103

5.2.3 Teste de ajustamento do Qui-quadrado


5.2.3.1 Anlise de dados qualitativos
Considerando ento a Populao em estudo, pretendemos realizar testes de hipteses
sobre os parmetros pi, i=1, S , k, sendo as hipteses a testar

H0: p1= p10 , p2= p 02 , S , pk= p k0

contra H1: pi p i0 para algum i=1,S,k

Estamos em condies, depois dos resultados apresentados anteriormente, de utilizar a


estatstica
X2 =

(Oi e i )2
ei
i =1

onde Oi a v.a. que representa o n de indivduos observados na amostra, de


dimenso n, que pertencem classe Ai e ei=n p i0 , i=1,S,k. Esta estatstica, sob a
hiptese de H0 ser verdadeira, tem uma distribuio de amostragem aproximada de um

2 com (k-1) graus de liberdade.


Regra de deciso: Para o nvel de significncia , rejeita-se a hiptese nula H0 quando
X2 12 (k 1) , ou seja, a regio de rejeio constituda pelo intervalo [ 12 (k-1), +[,
como se pode ver pela figura seguinte

De forma alternativa, face ao valor observado da estatstica de teste x 02 , calcula-se o pvalue P= P(X2 x 02 ) e rejeita-se H0 quando P .
Observao: Para se utilizar este teste deve-se ter em considerao que os valores
esperados para cada classe, ei no podem ser muito pequenos. Normalmente exigemse que sejam 5.

Maria Eugnia Graa Martins

Anlise de Dados

104

Exemplo 5.2 Utilize os dados apresentados no incio deste captulo, para verificar se existe evidncia
de que existam alguns signos mais propcios a que os seus nativos sejam homens de sucesso.
H0: P(Carneiro) = P(Touro) = P(Gmeos) = ... = P(Peixes) = 1/12
contra
H1: Alguma das probabilidades anteriores diferente de 1/12
2

Sabemos que, sob H0, a estatstica de teste tem uma distribuio aproximada dum com 11 graus de
liberdade, uma vez que k=12, isto , temos 12 classes.
Para calcular o valor observado da estatstica de teste, vamos considerar a seguinte tabela:

Obtivmos o valor de 5.0938 para a estatstica de teste. Ser que um valor grande? Ser que um
2

valor na cauda direita da funo densidade? Ser que P(X 5.0938) um valor pequeno, quando a
2

distribuio de X um com 11 graus de liberdade? Estas trs questes, so outras tantas formas de
fazer a mesma pergunta, que : H evidncia para rejeitar a hiptese nula H0?
Repare-se que neste caso, no temos dificuldade em dizer que no h evidncia para rejeitar H0, pois
2

basta ver na figura da funo densidade do com 11 graus de liberdade, que o valor 5.0938
relativamente pequeno. De qualquer modo calculmos o P-value associado a este teste, utilizando a
funo CHIDIST(x;deg_freedom) do Excel, que devolve o valor de P(X>x), onde X uma varivel
aleatria com uma distribuio do Qui-quadrado com deg_freedom graus de liberdade. O valor obtido
0.9265, que se apresenta na figura seguinte:

Maria Eugnia Graa Martins

Anlise de Dados

105

Deciso: No h evidncia para rejeitar a hipsese de que os nascimentos se distribuem uniformemente


pelos signos.

No rejeitar a hiptese nula significa que o modelo proposto o correcto?


No! Na verdade o facto de os dados no nos levarem a rejeitar o modelo proposto na
hiptese nula, no significa que ele seja verdadeiro. O teste serviu unicamente para
mostrar que os dados so consistentes com a teoria (o modelo proposto), mas no para
provar que ela verdadeira.

Porque que no podemos provar a hiptese nula? (De Veaux and al, 2004) Um
biologista pretende mostrar que a sua teoria, sobre a mosca da fruta, vlida. Segundo
ele, 10% das moscas so de tipo 1, 70% de tipo 2 e 20% de tipo 3. Fez um teste de
ajustamento a partir dos dados que os seus alunos recolheram, sobre 100 moscas,
tendo obtido um P-value de 7%. Celebrou este facto, pois sustentava a sua hiptese,
at que os seus alunos recolheram informao sobre mais 100 moscas. Com 200
moscas o P-value desceu para 2%. Apesar de j estar a adivinhar que a resposta seria
no, ainda perguntou ao estatstico, na esperana de poder deitar fora metade dos
dados e ficar com os 100 primeiros! Ora bem, se isto fosse possvel, conseguiramos
sempre provar a hiptese nula no recolhendo muitos dados. Efectivamente, quanto
menos informao tivermos, mais os nossos dados sero consistentes com o que quer
que seja, e tambm nunca rejeitaremos o que quer que seja! Ento um teste assim no
serve para nada. Como j vimos na seco 11.5, diz-se que um teste destes tem pouca
potncia, medindo-se a potncia de um teste como a probabilidade de rejeitar H0,
quando H0 falsa. Assim, quantos mais dados, melhor, j que nunca poderemos
provar a hiptese nula.

Maria Eugnia Graa Martins

Anlise de Dados

106

Exemplo 5.3 Suponha que uma marca conhecida de carros pretende averiguar se existe evidncia
para afirmar que os compradores mudaram, nos ltimos tempos, as suas preferncias pelas 4 cores mais
vendidas, nomeadamente o cinza prateado, o preto, o branco e o vermelho, em que estas cores eram
preferidas por, respectivamente 56.25%, 18.75%, 18.75% e 6.25% dos compradores, segundo
informao de alguns anos atrs. Assim, recolheu informao sobre 100 clientes, tendo obtido os
seguintes resultados:
Preto

Cinza prateado

Vermelho

Branco

59

20

11

10

Retire concluses, para o nvel de significncia de 5%.


Hipteses:
H0: P(Cinza prateado) = 0.5625; P(Preto) = 0.1875; P(Branco) = 0.1875; P(Vermelho) = 0.0625
contra
H1: P(Cinza prateado)0.5625 ou P(Preto)0.1875 ou P(Branco)0.1875 ou P(Vermelho)0.0625
4

Estatstica de teste: X =

i =1

(O i e i ) 2
2
, que sob H0, tem distribuio aproximada dum (3).
ei

Valor observado da estatstica de teste: x = 5.671


2

P-value: P(X 5.671)


Para calcular a probabilidade anterior, utilizando o Excel, utiliza-se a funo CHIDIST(x;deg_freedom), tal
como j fizmos no exemplo anterior, agora com x=5.671 e deg_freedom=3, obtendo para o P-value =
0.12855
Deciso: No rejeitar H0, para os nveis usuais de significncia, nomeadamente para o nvel de
significncia de 5%. S rejeitaramos H0, para 12.855%.
Suponhamos, agora, que tinha sido recolhido uma amostra de dimenso 200, tendo obtido o dobro dos
valores observados, em cada uma das categorias. Qual a concluso que se tiraria?
Refazendo os clculos anteriores, temos:

Maria Eugnia Graa Martins

Anlise de Dados

107

Valor observado da estatstica de teste: x = 11.342


P-value: P(X211.342) = CHIDIST(11.342;3),
= 0.0100
Deciso: Para o nvel de significncia de 5%, rejeitar H0, isto , existe evidncia de que os compradores
mudaram de atitude, quanto ao gosto das cores.
Esta concluso no de estranhar, embora seja diferente da retirada anteriormente, pois agora temos
mais dados, isto , mais informao, e podemos dizer que as discrepncias existentes entre os valores
observados e os valores esperados, mostram maior evidncia contra a hiptese nula

5.2.3.2 Anlise de dados discretos


Face amostra observada (x1, x2, S,xn) de dados discretos quantitativos, associada a
uma caracterstica populacional X, pretende-se inferir algo sobre a funo distribuio
de X.
Ento comea por se fazer o agrupamento dos dados, o qual no caso dos dados
discretos, de um modo geral, no apresenta dificuldade, uma vez que consiste em
contar o nmero de vezes que os diferentes elementos surgem na amostra. Constroi-se
assim a tabela de frequncias e o diagrama de barras. Sendo o diagrama de barras a
imagem estatstica da funo massa de probabilidade, esta primeira fase de tratamento
descritivo dos dados vai-nos obter informaes para passar fase seguinte de postular
qual o modelo que melhor se adapta a esses dados. Nesta fase tambm se entram com
algumas consideraes tericas, que eventualmente sejam conhecidas, sobre a
populao de onde se recolheu a amostra.
Uma vez postulado o modelo necessrio test-lo, utilizando normalmente o teste de
ajustamento do Qui-quadrado.

Maria Eugnia Graa Martins

Anlise de Dados

108

Comecemos por admitir que na hiptese nula se especifica um modelo discreto de


forma completa, isto ,

H0: XF
onde F est perfeitamente especificada, ou ento, uma vez que o modelo discreto, se
especifica atravs da funo massa de probabilidade

H0: P(X=ai) = pi onde aiD, domnio de variao da v.a. X


Considera-se ento uma partio de D, eventualmente constituda pelos pontos ai,
alguns dos quais podem ser agrupados. Representando por A1, A2, S, Ak essa partio,
calculam-se as frequncias observadas, que representamos por oi, e estamos no caso
analisado anteriormente, de anlise de observaes qualitativas pertencentes a uma de
k categorias.
Se o modelo no estiver completamente especificado, tero de se estimar alguns
parmetros, atravs de estimativas da mxima verosimilhana e estamos tambm na
situao descrita anteriormente, da anlise de observaes pertencentes a uma de k
categorias, mas em que a distribuio da estatstica de teste no a mesma.
Resumindo, temos:

H0: XF
Classes
A1
A2
S
Ak

Freq. observadas
o1
o2
S
ok
2

Estatstica de teste: X =

vs

H1: X no tem distribuio F

Sob a validade de Ho
p1=P(XA1)
p2=P(XA2)
S
pk=P(XAk)

Valores esperados
np1
np2
S
npk

(Oi e i )2
ei
i =1

Distribuio da estatstica de teste: Sob a validade de H0


2

a) Se o modelo est completamente especificado, X tem uma distribuio assinttica


2

dum (k-1).

Maria Eugnia Graa Martins

Anlise de Dados

109

b) Se o modelo est especificado a menos de m parmetros desconhecidos, que tero


2

de ser estimados a partir dos dados, X tem uma distribuio assinttica dum (k-m-1).
Ento, fixando o nvel de significncia temos:
2
2
2
a) Rejeita-se H0 se X
(k 1) ou alternativamente, face ao valor observado x da
1
2

estatstica de teste X calcula-se P=P( (k-1) x ) e se P, rejeita-se H0.


b) Anlogo alnea a), mas a distribuio do Qui-quadrado considerada, em vez de ter
(k-1) graus de liberdade tem, (k-m-1) graus de liberdade. Os m parmetros
desconhecidos so estimados utilizando as estimativas da mxima verosimilhana.

Exemplo 5.4 A procura diria de um determinado produto, foi, em 60 dias escolhidos ao acaso, a
seguinte:
N unidades procuradas

N dias

11

14

10

Haver evidncia para duvidar que tal procura se faa segundo um modelo de Poisson?
Resoluo: Seja X a v.a. que representa o n de unidades procuradas, por dia. Ento:
H0: XP()

contra

H1: X no tem uma distribuio P()

Representando o estimador de por , temos que = X (no esquecer que no modelo de Poisson, o
parmetro o valor mdio da varivel aleatria), pelo que uma estimativa para , a mdia dos dados
-3.8

x =3.8, e as estimativas para as probabilidades pi, obter-se-o a partir da expresso P(X=k) = e

3.8 k
.
k!

Estas probabilidades foram obtidas no Excel atravs da funo Poisson(x; mean; cumulative), em que x
o valor que a v.a. X assume, mean o valor mdio e cumulative um valor lgico: para a funo
distribuio, usar TRUE; para a funo massa de probabilidade usar FALSE. Por exemplo, para obter o
valor 0.085009, colocmos o cursor na clula C3 e inserimos a funo =POISSON(B3;3,8;FALSE).

Maria Eugnia Graa Martins

Anlise de Dados

110

Chamamos a ateno para o facto de as classes Ai deverem constituir uma partio do domnio da v.a. X.
Assim, como o domnio da Poisson constitudo pelos valores inteiros positivos (incluindo o 0)
introduzimos a classe 10 ou mais, cuja probabilidade foi calculada fazendo (1-P(X9)) (no esquecer que

P(A ) = 1 ). Por outro lado, tendo em conta a observao feita sobre o valor dos e , que no devem ser
i

inferiores a 5, agrupmos as classes 0 e 1, numa classe, e as classes 7, 8, 9 e 10 ou mais, noutra classe,


tendo ficado assim 7 classes.
7

Se H0 for verdadeiro, a estatstica de teste X =

i =1

(O i e i ) 2
2
tem uma distribuio assinttica dum (7ei

1-1), ou seja dum Qui-quadrado com 5 graus de liberdade. Segundo a tabela anterior, obtivmos, para a
estatstica de teste, o valor observado de 2.2736. Para tomar uma deciso, vamos calcular o P2

value:P(X 2.2736) = 0.81. Este valor foi obtido, inserindo na clula F13, a funo = CHIDIST(E13;5):

Deciso: No h evidncia para dizer que a distribuio do nmero de unidades procuradas por dia, no
segue uma distribuio de Poisson.

Maria Eugnia Graa Martins

Anlise de Dados

111

5.2.3.3 Anlise de dados contnuos


Este caso em tudo idntico ao caso anterior, com a excepo de que agora a escolha
das classes Ai, que constituem uma partio do domnio da varivel aleatria X, j no
to bvia, como no caso dos dados discretos. Assim, de forma a reduzir a
arbitrariedade na escolha da partio Ai, 1ik, usual escolher os Ai, tais que
P(XAiH0) = 1/k ou seja pi = 1/k, 1ik.
Como escolher o k?
A escolha de k feita de modo a garantir que o nmero esperado ei=npi, de elementos
em cada classe seja 5. Assim, deve ter-se n/k5, o que implica que kn/5. Considerase geralmente para k o maior inteiro contido em n/5 (a no ser que este valor seja
demasiado grande, como veremos no exemplo a seguir, em que se escolhe um valor
inferior), e as classes Ai, so assim construdas:
A1 = (-, a1[, P(XA1H0) = 1/k P(X a1) = F(a1) = 1/k a1=F-1(1/k)
A2 = [a1, a2[, P(XA2H0) = 1/k P(a1<X a2) = F(a2)- F(a1)= 1/k a2=F-1(2/k)
...
Ak = [ak-1, [, P(XAkH0) = 1/k P(X> ak-1) = 1 F(ak-1)= 1/k ak-1=F-1((k-1)/k)
A estatstica de teste obtm-se da mesma maneira, assim como a distribuio de
amostragem.

Exemplo 5.4 O Sr. Silva, industrial txtil, decidiu comear a fabricar camisas de homem, destinadas a
serem vendidas em Portugal. Para ter alguma informao sobre os moldes que deve considerar,
nomeadamente no que diz respeito ao comprimento das mangas, resolveu pedir a uma empresa de
Consultoria de Estatstica que o ajudasse, dando-lhe algumas indicaes sobre a populao a que se
destinam as camisas.
Vamos delinear o processo utilizado pela tal empresa, para ajudar o Sr. Silva.
1 passo Recolha de uma amostra
A empresa de Consultoria encarregou o Departamento de Sondagens de recolher uma amostra de
dimenso 250, tendo esta fornecido os seguintes dados, relativos ao comprimento do brao direito de
250 homens:

Maria Eugnia Graa Martins

Anlise de Dados

112

51.5

56.0

55.0

58.3

58.4

55.3

56.3

52.2

55.2

57.3

55.4

52.9

54.0

59.7

55.4

53.0

52.6

55.5

53.1

52.4

57.9

57.7

55.3

53.5

55.8

57.9

54.7

55.7

54.0

52.1

57.6

52.9

54.2

52.9

56.2

54.9

58.2

53.2

54.1

53.1

53.9

54.9

56.7

52.1

57.7

55.4

54.9

54.9

55.5

56.6

56.6

54.7

55.6

53.2

54.7

53.0

57.5

55.6

56.9

57.4

49.9

54.7

53.8

58.4

55.7

55.4

54.3

49.1

56.7

55.4

53.0

55.3

55.7

52.1

51.0

53.1

55.3

52.1

54.3

54.9

55.3

56.7

57.1

54.4

53.7

58.9

53.8

54.8

55.7

55.4

56.6

56.8

53.4

53.4

56.0

56.5

56.7

54.0

51.6

52.6

56.4

56.8

57.4

54.7

55.5

53.2

54.7

54.7

58.4

56.3

58.1

53.4

56.7

58.1

54.9

54.2

56.5

53.2

51.3

56.6

56.6

58.8

57.7

52.5

56.2

54.4

56.8

51.8

53.9

58.4

58.7

55.2

53.0

58.0

58.6

52.3

59.2

56.5

57.1

54.2

55.3

55.5

56.1

52.1

53.9

53.2

52.9

58.8

55.0

54.2

54.8

53.4

56.8

51.9

55.0

51.6

58.2

55.5

56.2

53.7

54.6

51.7

55.5

52.8

54.4

55.7

54.0

56.8

53.3

56.8

54.2

50.5

54.3

54.6

53.2

52.2

55.2

55.4

55.8

55.6

60.2

57.0

54.6

55.0

56.6

55.1

58.0

57.3

56.0

51.7

55.1

54.5

53.8

55.1

55.7

57.1

53.2

52.4

55.5

57.2

56.1

55.1

55.2

56.3

57.1

55.5

53.2

54.8

55.6

56.0

60.7

58.3

59.4

52.8

55.8

56.8

56.3

55.7

53.0

53.0

51.9

55.7

53.4

53.8

52.1

57.5

59.8

55.3

55.0

55.0

54.2

57.6

55.1

56.5

58.3

53.1

55.2

53.7

48.4

54.7

55.0

56.5

56.9

57.0

58.2

56.7

54.4

50.2

54.4

56.5

2 passo Estudo descritivo


Procedeu-se ao estudo descritivo dos dados anteriores, calculando algumas caractersticas amostrais e
procedendo reduo dos dados atravs de uma tabela de frequncias e construo do histograma
correspondente. Apresentam-se a seguir os resultados obtidos:

Maria Eugnia Graa Martins

Anlise de Dados

113

Decidimos construir uma tabela de frequncias com 8 classes, valor sugerido pela regra emprica
enunciada quando da construo do histograma, e considerar como amplitude de classe o valor 1.54
(valor aproximado, por excesso, de (max-min)/8).Construmos uma tabela de frequncias e o histograma
associado, utilizando a metodologia das PivotTables.:

O histograma sugere-nos um modelo Normal, pelo que, o passo seguinte ser testar se efectivamente
tem sentido ajustar um modelo Normal aos dados. Uma questo que se levanta neste momento a
seguinte: ter sentido estar a ajustar aos nossos dados um modelo com suporte R, isto , que pode
assumir qualquer valor real, quando ns sabemos que isso no se passa com o comprimento do brao?
Mas se estamos renitentes em ajustar um modelo com suporte em R, talvez pensassemos que seria mais
+

razovel um cujo suporte fosse R , pois se temos a garantia que o comprimento no pode ser negativo,
no sabemos qual o valor mximo que devemos escolher. Ou poderamos inventar um valor ao acaso
como limite superior, por exemplo 150 cm, mas com que legitimidade que escolhemos este e no outro
valor? Tambm no devemos considerar o valor 60.7 como valor mximo, embora tenha sido o maior
valor da amostra que se recolheu. Ningum nos garante que na populao no haja homens com o
comprimento do brao superior a 60.7! Nesta altura, de reflexo sobre qual o modelo a adoptar,
recordemos o que se disse sobre a escolha de um modelo para traduzir um fenmeno aleatrio todos
os modelos so maus, alguns so teis. No entanto, alm do histograma nos sugerir o modelo Normal,
devido semelhana com a funo densidade da Normal, tambm dispomos de alguma informao
cientfica sobre este modelo; e so esses estudos que nos dizem que ele se aplica em situaes de
fenmenos que possam ser considerados provenientes de uma contribuio aditiva de vrias variveis,
como , por exemplo, o caso da varivel em estudo. Ento, em posse da informao sobre a
provenincia dos dados e dos resultados do estudo descritivo dos mesmos, estamos em condies de
propor o modelo Normal.
3 passo Teste de ajustamento do modelo sugerido no passo anterior

Maria Eugnia Graa Martins

Anlise de Dados

114

Representando por X, a v.a. que representa o comprimento do brao, consideremos as seguintes


hipteses:
H0: XN(,)

contra

H1: X

N(,)

Para utilizarmos o teste de ajustamento do Qui-qudrado, as classes Ai tm que constituir uma partio do
suporte da v.a. X. Neste momento podemos seguir dois processos, nomeadamente: utilizar a tabela de
frequncia anterior, procedendo s modificaes adequadas nas classes, de forma a termos uma
partio, ou utilizar o processo enunciado anteriormente, para a formao das classes. Vamos
exemplificar os dois processos:
Processo 1 Modificao da tabela de frequncias, de forma a termos uma partio de R
Para obter uma partio, basta proceder a uma alterao conveniente na primeira e na ltima classe,
como se apresenta a seguir:

Para calcular estimativas das probabiliaddes pi, utilizmos o modelo Normal(55.14, 2.087), no Excel. Por
exemplo, para calcular a probabilidade do intervalo ]49.94, 51.48], colocmos o cursor na clula G19 e
escrevemos =NORMDIST(51,48;55,14;2,087;TRUE)-NORMDIST(49,94;55, 14;2,087;TRUE).
2

Como estimmos dois parmetros a partir dos dados, a estatstica de teste X , tem uma distribuio
2

assinttica dum (8-2-1), ou seja dum Qui-quadrado com 5 graus de liberdade.


Para tomar uma deciso calculmos o P-value, bastando colocar o cursor na clula J26 e escrever
=CHIDIST(I26;5):

Maria Eugnia Graa Martins

Anlise de Dados

115

Deciso: No existe evidncia para rejeitar a hiptese do modelo Normal.


Processo 2 Admitindo que no tinha havido uma fase anterior, em que tinha sido necessrio proceder a
um agrupamento dos dados, como no caso do exemplo que estamos a tratar, vamos exemplificar o
processo sugerido na seco anterior.
Temos n=250, donde k250/5. Vamos considerar k=10, isto , 10 classes. Ento os limites de classe a1,
a2, ..., a9, com a notao introduzida na seco referida, podem ser obtidos no Excel, da seguinte forma:

Uma vez as classes construdas, teremos de contar quais os valores observados. Utilizmos a seguinte
tabela feita no Excel, para determinar esses valores, assim como o valor observado da estatstica de
teste:

A estatstica de teste a mesma, mas agora tem uma distribuio de amostragem dum Qui-quadrado
com 7=(10-2-1) graus de liberdade, uma vez que considermos 10 classes e estimmos 2 parmetros:

Maria Eugnia Graa Martins

Anlise de Dados

116

Deciso: Uma vez que o P-value igual a 32.56%, no existe evidncia para rejeitar a hiptese de que
os dados sejam provenientes de um modelo Normal.
4 passo Transmisso dos resultados ao industrial txtil
Agora, nesta fase, justificava-se uma conversa com o Sr. Silva, para a apresentao dos resultados.
Pode-se, no entanto, ir adiantando alguma informao, em termos de percentagens dos futuros
compradores das camisas. Assim, temos os seguintes nmeros:

Aproximadamente 68% dos homens tm o comprimento dos braos no intervalo [53, 57]
P(55.14-2.087X55.14+2.087)=(1)-(-1)= 2(1)-10.68

Aproximadamente 95% dos homens tm o comprimento dos braos no intervalo [51, 59]
P(55.14-22.087X55.14+22.087)=(2)-(-2)= 2(2)-10.95

Aproximadamente 100% dos homens tm o comprimento dos braos no intervalo [49, 61]
P(55.14-32.087X55.14+32.087)=(2)-(-2)= 2(3)-10.997

Utilizando ainda o modelo Normal(55.14, 2.087), podemos ser um pouco mais precisos, informando o Sr.
Silva sobre os valores do 1 e 3 quartis, que so respectivamente 53.7 cm e 56.5 cm:

Assim, o industrial sabe que, por exemplo, s 25% dos homens que tm o comprimento dos braos
inferior a 53.7 cm e que 50% dos homens tm o comprimento dos braos no intervalo [53.7, 56.5]. Esta
informao importante, pois permite fazer uma programao adequada da percentagem de camisas
que devem ser fabricadas, para cada tamanho

Maria Eugnia Graa Martins

Anlise de Dados

117

5.2.4 Teste de Kolmogorov-Smirnov


Dada uma populao X, contnua, pretende-se testar a hiptese
H0: XF(x)

contra

H1: XG(x) com F(x)G(x) para algum x

A metodologia seguida na realizao do teste de Kolmogorov-Smirnov a de utilizar a


funo distribuio emprica Fn(x), que um estimador consistente de F(x),
considerando como estatstica de teste, uma estatstica que seja uma medida da
distncia entre a funo distribuio emprica e a funo distribuio F(x), postuladav
em H0.
Face amostra aleatria (X1, X2, ..., Xn), consideremos a funo distribuio emprica

x < X1:n
0 se
i
Fn(x) =
se X i:n x < X i+1:n
n

x X n:n
1 se
para i= 1, 2, ..., n-1. Se considerarmos X0:n=- e Xn+1:n=+, podemos escrever mais
simplesmente
Fn(x) =

i
n

Xi:nx<Xi+1:n,

i=0, 1, 2, ..., n

Repare-se que nFn(x) uma varivel aleatria discreta, que assume os valores i, com

n
i=0, 1, 2, ..., n e P[nFn(x)=i]= F(x)i[1-F(x)]n-i, para i=0, 1, 2, ..., n.
i
A v.a. n Fn(x) tem distribuio Binomial (n, F(x)), donde
E[nFn(x)]=nF(x)

Var[nFn(x)]=nF(x) [1-F(x)]

E[Fn(x)]=F(x)
Var[Fn(x)]=

F( x )[1 F( x )]
n

Assim se conclui que Fn(x) um estimador centrado e quando n , um estimador


consistente de F(x).
As estatsticas que se consideram so as seguintes:

Estatstica bilateral

Dn= sup |Fn(x) F(x)|


xR

Estatstica unilateral

D n+ = sup [Fn(x) F(x)]


xR

Maria Eugnia Graa Martins

Anlise de Dados

118

Estatstica unilateral

D n = sup [F(x) Fn(x)]


xR

As estatsticas unilaterais podem-se apresentar com outro aspecto, como vamos ver:
D n+ = sup [Fn(x) F(x)]
xR

= max sup [Fn ( x ) F( x )]


0in X x < X
i +1:n
i:n

i
= max inf F( x )
Xi:n x < Xi +1:n
0 i n n

i
= max F( X i:n )
0 i n n


i
= max max F( X i:n ), o

1in n

Analogamente
D n = sup [F(x) Fn(x)]
xR

= max sup [F( x ) Fn ( x )]


0 i n X x < X
i +1:n
i:n

= max inf F( x )
0in Xi:n x < Xi +1:n
n

= max F( X i+1:n )
0in
n

= max max F(X i + 1:n ) , o


0 i n 1
n

= max max F(X i:n )


1 i n

i 1
, o
n

Resumindo, podemos escrever para as estatsticas de Kolmogorov-Smirnov (K-S):


i
D n+ = max max F( X i:n ), o

1in n

Maria Eugnia Graa Martins

Anlise de Dados

119

D n = max max F( X i:n )

Dn= Max { D n+ , D n }

1 i n

i 1
, o
n

donde conclumos que a distribuio das estatsticas de teste depende das variveis
aleatrias F(Xi:n). Como F(Xi:n) a isima estatstica ordinal de uma amostra cuja
distribuio subjacente a uniforme no intervalo (0, 1), conclumos que a distribuio
das estatsticas de K-S independente da distribuio considerada em H0, se esta for
absolutamente contnua.
Se a funo distribuio postulada em H0, F(.), for absolutamente

Teorema 5.3

contnua, as estatsticas D n+ , D n e Dn, tm distribuies independentes de F. As


distribuies exactas e assintticas destas estatsticas encontram-se tabeladas.
Vejamos quais as regras de teste associadas s diferentes estatsticas de KolmogorovSmirnov:
1. H0: XF(x)

contra

H1: XG(x) com F(x)G(x) para algum x

Utiliza-se a estatstica Dn e face ao valor observado de Dn, dn, rejeita-se H0 se dndn,, onde
P(Dndn,) = .

2. H0: XF(x)

contra

H1: XG(x) com G(x)F(x) para todo o x e para


algum x, G(x)>F(x)

Utiliza-se a estatstica
+

D n+ e face ao valor observado de D n+ , dn+ , rejeita-se H0 se dn+ dn+, , onde

P( D n dn, ) = .

3. H0: XF(x)

contra

H1: XG(x) com G(x)F(x) para todo o x e para


algum x, G(x)<F(x)

Utiliza-se a estatstica

D n e face ao valor observado de D n , dn , rejeita-se H0 se dn dn, , onde

P( D n dn, ) = .

Exemplo 5.5 Considere a seguinte amostra de dimenso 10, que se supe proveniente de uma
populao X, com distribuio uniforme no intervalo (0,1): 0.621, 0.503, 0.203, 0.477, 0.710, 0.581, 0.329,
0.480, 0.554, 0.382. Verifique se existem razes para duvidar da nossa suposio.
Vamos considerar o seguinte teste:

Maria Eugnia Graa Martins

Anlise de Dados

H0: XF0(x)

120

contra

H1: X no tem a distribuio F0(x) com

x<0
0 se

F0(x)= x se 0 x < 1
1 se
x 1

Vamos utilizar a estatstica de teste bilateral Dn. Realizmos os clculos numa folha de Excel

e conclumos que dn=0,290. Consultando uma tabela com a distribuio de D10, obtemos que o quantil de
probabilidade 95% 0,409, d10,.05=0,409, pelo que tomamos a deciso de no rejeitar a hiptese nula,
uma vez que 0,290<0,409.

5.2.5 Comparao entre os testes do Qui-quadrado e o de Kolmogorov-Smirnov


Vamos fazer a comparao entre estes dois testes de ajustamento, em termos das
vantagens e desvantagens de um e outro:
1. O teste do Qui-quadrado pode ser aplicado quando os dados so discretos ou
contnuos, enquanto que o teste de Kolmogorov-Smirnov pressupe a
continuidade dos dados. A tabela com os pontos crticos da distribuio de
amostragem das estatsticas de teste de K-S s exacte se a distribuio
subjacente aos dados for contnua. Caso contrrio, os quantis conduzem a um
teste conservativo. Existe, no entanto, um processo para obter os pontos crticos
exactos quando a distribuio discreta (consultar Conover).
2. O teste do Qui-quadrado pode ser facilmente modificado, de modo a permitir a
estimao de parmetros a partir dos dados, enquanto que o teste de
Kolmogorov-Smirnov no tem essa flexibilidade. No entanto, existem algumas

Maria Eugnia Graa Martins

Anlise de Dados

121

distribuies importantes, como so o caso da Normal e da Exponencial, para os


quais existem tabelas com os valores corrigidos para os pontos crticos das
estatsticas de teste. O caso mais conhecido o da Normal, chamando-se neste
caso teste de Lilliefors.
3. O teste de Kolmogorov-Smirnov trata as observaes individualmente, enquanto
que o teste dfo Qui-quadrado discretiza os dados, procedendo ao seu
agrupamento, dando origem a perca de informao.
4. O teste de Kolmogorov-Smirnov aplicvel para o caso de pequenas amostras,
enquanto que o teste do Qui-quadrado essencialmente para grandes amostras,
uma vez que s dispomos da distribuio assinttica da distribuio de
amostragem, da estatstica de teste.

Maria Eugnia Graa Martins

Anlise de Dados

122

5.3. Problema da localizao e da localizao e simetria teste dos


Sinais e teste de Wilcoxon
5.3.1 Introduo
Seja (X1, X2, ...,Xn) uma amostra aleatria de dimenso n, proveniente de uma
populao com funo distribuio F(.) desconhecida. Admitiremos usualmente, no que
se segue, que F(.) absolutamente contnua, com funo densidade f(.).
Seja p um real que assume valores no intervalo (0, 1) e designemos por (F) o quantil
p
de probabilidade p, de F(.).
Um problema que tem interesse estudar o chamado problema da localizao, em que
se pretende testar:
H0: (F)=
0
p

contra

H1: (F)> ou
0
p
H1: (F)< ou
0
p
H1: (F)
0
p

Um outro problema o chamado problema da localizao e simetria, em que se


pretende testar:
H0:

0.5

(F)= e F(.) simtrica


0

contra

H1:

0.5

(F) ou F(.) no simtrica


0

O nosso objectivo vai ser o de encontrar estatsticas de teste convenientes, cuja


distribuio de amostragem, sob a validade de H0, seja conhecida.
Exemplo 5.6

Os passageiros que utilizam determinada carreira da Carris, na paragem de

Entrecampos, tm-se queixado alegando que o tempo que esperam pelo autocarro demasiado, quando
a empresa afirma que a mediana do tempo de espera inferior a 20 minutos. Haver razo para duvidar
da afirmao da Carris?
Pretende-se testar se existe evidncia para afirmar que a mediana da populao constituda pelos
tempos de espera na referida paragem superior a 20 minutos, ou seja:

Maria Eugnia Graa Martins

Anlise de Dados

123

H0:

0.5 (F)20

contra

H1:

0.5 (F)>20

com base numa amostra de tempos de espera (em minutos) de 12 passageiros escolhidos
aleatoriamente e que foram 25, 15, 19, 16, 21, 24, 18, 18, 24, 28, 25, 21.
Vamos considerar para estatstica de teste a varivel aleatria R que representa o nmero de elementos
da amostra superiores a 20, e que sob H0 tem distribuio Binomial(12, 0.5). Como a hiptese alternativa
que a mediana superior a 20, ento deveremos rejeitar a hiptese nula para valores grandes da
estatstica de teste, pois se H1 fosse verdadeira, situao que nos levaria a rejeitar H, esperaramos
encontrar, na amostra, muitos valores maiores que a mediana. No nosso caso tem-se r0=7, pelo que
vamos calcular o P-value, que , neste caso, a probabilidade de encontrar um valor igual ou maior que o
valor observado, ou seja
P-value= P(R7|RB(12, 0.5))=0.387
Deciso: No h evidncia para rejeitar a afirmao da Carris (s rejeitaramos a hiptese nula para
38.7%).

Este exemplo que acabmos de apresentar um exemplo de um teste, chamado teste


dos sinais, que vamos introduzir formalmente a seguir.
5.3.2 Teste dos Sinais

Consideremos uma populao X contnua, com distribuio F(.), da qual se recolheu


uma amostra aleatria (X1, X2, ...,Xn), e sobre a qual pretendemos testar
H0: (F)= , ou seja P(X )=p.
0
0
p
Sob a validade de H0 de esperar que nos surjam np valores menores do que

n(1-p) valores maiores do que , dos n valores da amostra. Vamos ento considerar
0
uma estatstica que conta o nmero de valores maiores do que :
0
n

Sn= I( X i 0 ) =n de sinais positivos na amostra {Xi - },


0
i=1

1 se X i > 0
j que I(Xi - )=
0 0 se X i 0
Ento, sob Ho, SnB(n, 1-p).
Maria Eugnia Graa Martins

com probabilidade (1 p)
com probabilidade p

Anlise de Dados

124

Como a regio de rejeio vai depender da hiptese alternativa que se especificar,


consideremos, ento, os seguintes casos:
1 caso:
H0: (F)=
0
p

contra

ou seja P(X )=p


0

H1: (F)<
0
p
P(X )=p>p
0

Se a hiptese alternativa for verdadeira, temos maior probabilidade de obter valores


menores que ou seja, esperamos obter menos valores, na amostra, maiores do que
0

0 , do que os que esperaramos obter se Ho fosse verdadeira. Ento, devemos rejeitar


Ho para valores pequenos da estatstica de teste:
Regio de rejeio: 0, 1, ..., c, onde P[Sn c | SnB(n, 1-p)]
2 caso:
H0: (F)=
p
0
ou seja P(X )=p
0

contra

H1: (F)>
p
0
P(X )=p<p
0

Se a hiptese alternativa for verdadeira, temos menor probabilidade de obter valores


menores que ou seja, esperamos obter mais valores, na amostra, maiores do que
0

0 , do que os que esperaramos obter se Ho fosse verdadeira. Ento, devemos rejeitar


Ho para valores grandes da estatstica de teste:
Regio de rejeio: c ' c ' +1, ..., n, onde P[Sn c ' | SnB(n, 1-p)]
Temos ainda um 3 caso, em que o teste bilateral, o qual ser apresentado no resumo
que se segue, pois uma situao que se deduz das duas anteriores:

Maria Eugnia Graa Martins

Anlise de Dados

125

Formalizando o teste em que aplicamos a estatstica Sn e a que chamamos teste dos


Sinais, temos, para o nvel de significncia :
H1

H0

p (F)= 0

Regio de rejeio

p (F)< 0

Sn c

p (F)> 0

Sn c '

p (F) 0

Sn c * ou Sn c '*

onde c o maior inteiro tal que

i= 0

i (1 p) p

c ' o menor inteiro tal que

c o maior inteiro tal que

e c '* o menor inteiro

i= c '

( n i )

i (1 p) p

c *

i= 0

i= c '*

i (1 p) p
i

( n i )

( n i )

i (1 p) p
i

( n i )

/2
/2

Observao: Os valores da amostra que forem iguais a so desprezados,


0
diminuindo-se a dimenso da amostra em conformidade com o nmero de valores
desprezados.

Exemplo 5.7

Os dados seguintes referem-se ao peso (em Kg) de 12 crianas de 6 anos,

seleccionadas aleatoriamente, entre os alunos de uma escola primria: 22.3, 21.7, 19.6, 18.4, 17.7, 19.3,
18.5, 18.6, 17.8, 16.9, 21.4, 20.6. A tabela de pesos para crianas de 6 anos, indica que o valor do 1
quartil 19 kg. Uma tcnica de sade, que visitou a escola, apresentou um relatrio, reclamando um
suplemento alimentar para as crianas, alegando que elas apresentavem um peso inferior ao tabelado.
Teste a veracidade desta afirmao. Qual o menor nvel de significncia que leva rejeio da hiptese
de que as crianas apresentam um peso, dentro do que est tabelado?
Ho:

0.25 (F)=19

H1:

0.25 (F)<19

onde F a funo distribuio da v.a. X, que representa o peso das crianas de 6 anos. Vamos
considerar como estatstica de teste a v.a. S12, que representa o nmero de crianas, na amostra, com
peso superior a 19, que sob Ho, tem distribuio Binomial(12, 0.75),
S12|HoB(12, 0.75)

Maria Eugnia Graa Martins

Anlise de Dados

126

Rejeitamos Ho para valores pequenos da estatstica de teste, cujo valor observado s12 =6. Ento
P(S126)Ho =0.0544
Deciso: O menor nvel de significncia que nos levaria a rejeitar a hiptese nula seria =5.44%. Para
=10% h evidncia para afirmar que as crianas tm peso inferior ao tabelado.

5.3.2.1 Teste dos Sinais para amostras emparelhadas


O teste dos sinais pode ser facilmente modificado para se aplicar a amostras
emparelhadas, quando se pretende comparar dois processos associados amostra
bivariada (Ui, Vi), i=1, 2, ..., n e cujos resultados observados so os pares (ui, vi). Para
utilizar o teste dos Sinais, passamos amostra Xi= Ui - Vi, admitimos que Xi tem
distribuio absolutamente contnua H(.) e as hipteses que pretendemos testar so
relativamente a esta funo. Uma hiptese que tem interesse testar a de que a
mediana de X assume um determinado valor, que, sem perda de generalidade,
assumimos ser 0. Ento, pretende-se testar
H0:

0 .5

(H)=0

contra

H1:

0 .5

(H)0

Repare-se que a hiptese nula equivalente a considerar que P(X>0)=P(X<0)=1/2, ou


P(U>V)=P(U<V)=1/2 ou P(+)=P(-)=1/2 e como hipteses alternativas temos:

P(U>V)<P(U<V) P(+)>P(-)

P(U>V)<P(U<V) P(+)<P(-)

P(U>V) P(U<V) P(+)P(-)

0 .5
0 .5

(H)>0
(H)<0

0.5

(H) 0

O teste dos sinais o mtodo no paramtrico, equivalente ao teste-t para amostras


emparelhadas.
Observao: Sempre que se verificarem ligaes, isto , valores ui=vi, esses valores
so desprezados, diminuindo-se a dimenso da amostra, do nmero de ligaes
existentes.
Exemplo 5.8 Os dados seguintes referem-se ao nmero de batimentos cardacos, por minuto, de 10
ratos quando ss ou quando na presena de outro rato. Pretende-se averiguar, se o facto de os ratos
estarem acompanhados, faz aumentar o ritmo cardaco:
Maria Eugnia Graa Martins

Anlise de Dados

127

10

S (U)

463

462

462

456

450

426

418

415

409

402

Acomp. (V)

523

499

461

535

476

454

448

408

470

437

Rato

Vamos considerar a amostra xi=ui-vi, proveniente de uma v.a. X, com distribuio H, pretendendo-se
testar:

H0:

0.5

(H)=0

H1:

contra

0.5

(H)<0

Estatstica de teste: S10|HoB(10, 0.5)


Valor observado da estatstica de teste: s10=2. Chamamos a ateno para o facto de no ser necessrio
obter o valor dos xi, para calcular o valor observado da estatstica de teste, j que o que nos interessam
so os valores positivos. Assim, basta conhecer o sinal da diferena entre os ui e os vi, como se
exemplifica a seguir, acrescentando mais uma linha tabela anterior:
Rato

10

S (U)

463

462

462

456

450

426

418

415

409

402

Acomp. (V)

523

499

461

535

476

454

448

408

470

437

P-value: P=P(S102)Ho =0.0547


Deciso: Rejeitar H0 para 5.47%, isto , para valores do nvel de significncia superiores a 5.45%, h
evidncia para afirmar que os batimentos cardacos aumentam, quando os ratos esto acompanhados.

5.3.3 Teste de Wilcoxon

Ao ignorar a amplitude da diferena entre as observaes e o quantil especificado na


hiptese nula, o teste dos Sinais est a desprezar grande parte da informao
disponvel na amostra.
O teste de Wilcoxon um teste alternativo ao teste dos Sinais, para populaes
contnuas e simtricas, em que se pretende testar o seguinte:
H0:

0 .5

(F)=

Maria Eugnia Graa Martins

contra

H1:

0.5 (F)> 0 ou

H1:

0.5 (F)< 0 ou

H1:

0.5 (F) 0

Anlise de Dados

128

Sem perda de generalidade, vamos considerar =0, pois caso isso no se verifique,
0
considera-se a amostra {Xi- }.
0
Como nas populaes simtricas a mediana e o valor mdio coincidem, neste teste
podemos falar indiferentemente de valor mdio ou mediana.
Para obter as estatsticas de teste, necessrio entrar com o conceito de ordem:

Considera-se a amostra X1, X2, ..., Xn;

Considera-se a amostra das estatsticas ordinais X1:n<X2:n<...<Xn:n (no


admitimos ligaes);

Chama-se ordem de Xj ao valor Rj tal que XRj:n=Xj, para 1jn.

Uma vez o conceito de ordem definido, vejamos como obter as estatsticas de


Wilcoxon:
1. Ordena-se a amostra Yj=|Xj|, onde (X1, X2, ..., Xn) a amostra dada
(estamos a admitir que =0), onde Yj0 e no existem ligaes;
0
2. Associa-se a cada Yj a sua ordem Rj, 1jn, mantendo-se informao
sobre o sinal original de Xj, 1jn.
As estatsticas de Wilcoxon so:
Tn+

= soma das ordens correspondentes aos Xs positivos


n

R I(X )
i =1

Tn

em que

1 t > 0
I(t)=
0 t < 0

= soma das ordens correspondentes aos Xs negativos


+

Tn= max( Tn

, Tn )

As estatsticas Tn+ e Tn esto linearmente relacionadas, j que Tn+ + Tn =

n(n + 1)
,
2

fornecendo, portanto, critrios equivalentes. Vamos considerar a estatstica Tn+ , e


comecemos por fazer as seguintes consideraes.
Sob a validade de H0, de esperar que a soma das ordens positivas no difira
grandemente da soma das ordens negativas. Uma soma grande para as ordens
positivas (negativas), relativamente soma das ordens negativas (positivas), implica
Maria Eugnia Graa Martins

Anlise de Dados

129

que a mediana tenha uma pequena probabilidade de ser igual a zero. Ento, se
considerarmos a estatstica de teste Tn+ , como nos propusemos, vejamos quais as
diferentes regies de rejeio, face s alternativas usuais:
H0

H1

0.5 (F)= 0

Regio de rejeio

0.5 (F)> 0

Tn+ c

0.5 (F)< 0

Tn+ c '

0.5 (F) 0

Tn+ c * ou Tn+ c '*

Exemplo 5.9 Considerando a populao constituda pelas percentagens de pessoas com idade maior
ou igual a 60 anos, nos diferentes pases, retirou-se desta populao uma amostra de dimenso 12,
cujos elementos so: 4.9, 6.0, 6.9, 17.6, 4.5, 12.3, 5.7, 5.3, 9.6, 13.5, 15.7, 7.7. Admitindo a simetria da
populao, teste se existe evidncia para duvidar que a mediana da populao seja igual a 12.
Pretende-se ento realizar o seguinte teste:
H0:

0.5 (F)= 12

contra

O valor da estatstica de teste igual a 14. Por outro lado

H1:

0.5 (F) 12

T12+ + T12 =12*13/2=78, pelo que verificamos

que o valor observado para a estatstica de teste demasiado pequeno para o que estvamos espera
se a hiptese nula fosse verdadeira! Efectivamente, se H0 fosse verdadeira, esperaramos obter um valor

Maria Eugnia Graa Martins

Anlise de Dados

130

para a estatstica de teste volta de 39. Precisamos ento de calcular a probabilidade de obter um valor
+

igual ou mais pequeno do que o valor observado para a estatstica de teste, ou seja, P( T12 14H0), mas
para isso necessrio conhecer a distribuio de amostragem de

T12+ . Admitindo, para j, a existncia de

uma tabela com essa distribuio, verificamos que P( T12 14H0)=0.026. Ento o P-value igual a
0.052, pelo que a deciso a tomar a de rejeitar a hiptese nula para 5.2%.

5.3.3 1 Distribuio de amostragem de Tn+

Para obter a distribuio de amostragem de Tn+ , vamos introduzir as seguintes variveis


aleatrias:

Z(i)= 1 se o Y j = X j com ordem i corresponde a um X j positivo


0

caso contrrio

Ento, em termos dos Z(i), a estatstica de teste Tn+ vem


Tn+ =

i Z
i =1

(i)

Vamos comear por obter a distribuio assinttica de Tn+ , pelo que temos de calcular
(caso existam!) o seu valor mdio e varincia, sob H0:
E( Tn+ )=

i E(Z
i=1

(i)

E(Z(i)) = 1.P(Z(i)=1) = P(Yi:n corresponder a um Xj positivo) = 1/2 (porque sob H0


P(Xj <0)=P(Xj >0)=1/2)

Var(Z(i)) = E(Z(i)2) E2(Z(i)) = E(Z(i)) E2(Z(i)) = 1/4

Ento
1 n
n(n + 1)
i=

2 i=1
4

E( Tn+ )=

Var( Tn+ )=

1 n 2 n(n + 1)(2n + 1)
i =
4 i=1
24

Maria Eugnia Graa Martins

Anlise de Dados

131

Distribuio assinttica de Tn+

Para n grande a condio de Lindeberg satisfeita, pelo que sendo vlida uma
generalizao do teorema limite central, vem que, sob H0, a distribuio de

n(n + 1)
4
pode ser aproximada pela distribuio N(0,1)
n(n + 1)(2n + 1)
24
Tn+

Distribuio exacta de Tn+

Para o caso de n ser pequeno, a distribuio de Tn+ fica completamente identificada


pelos z(i), i=1, 2, ..., n, pelo que o espao amostral pode ser considerado como o
conjunto dos 2n n-nuplos (z(1), z(2), ..., z(n)) onde cada z(i)=0 ou 1.
Ento, sob H0:
1. Tn+ =0 se todos os Xis forem negativos (z(i)=0, i=1, 2, ..., n);
2.

Tn+ =

n(n + 1)
se todos os Xis forem positivos (z(i)=1, i=1, 2, ..., n);
2

3. Tn+ simtrica em torno do seu valor mdio

n(n + 1)
;
4

n de modos possveis como se pode obter

k somando inteiros distintos entre 1 e n n(k)


= n
4. P( Tn+ =k)=
2n
2

Exemplifiquemos para o caso de n=3:


T3+ = k

(z(1), z(2), z(3))

n(k)

(0, 0, 0)

1/8

(1, 0, 0)

1/8

(0, 1, 0)

1/8

(1, 1, 0)

2/8

(1, 0, 1)

1/8

(0, 1, 1)

1/8

(1, 1, 1)

1/8

P( T3

=k)

(0, 0, 1)

Maria Eugnia Graa Martins

Anlise de Dados

132

Observao: Como a v.a. simtrica relativamente ao seu valor mdio, bastaria


calcular a tabela anterior para os valores de k=0, 1, 2 e 3, uma vez que E( T3+ )=3.
Para valores de n pequenos, a distribuio exacta da estatstica Tn+ encontra-se
tabelada. Se esta distribuio j no se encontrar tabelada para um determinado valor
de n, significa que podemos utilizar a distribuio assinttica.
No incio da definio da estatstica de teste de Wilcoxon, dissemos que no se
admitiam ligaes, assim como os elementos da amostra eram diferentes da mediana.
Na realidade, tem sentido fazer estas hipteses, j que se a distribuio da populao
em estudo contnua, a probabilidade de obter dois valores iguais, assim como a
probabilidade de obter valores iguais a um valor prefixado, so nulas. Na prtica a
situao diferente, uma vez que ao medirmos uma varivel contnua, necessitamos
de a discretizar, o que faz com que surjam observaes iguais entre si ou iguais
mediana. No caso de existirem ligaes, substitumos as ordens desses elementos,
pela mdia das ordens que teriam se diferissem ligeiramente uns dos outros, mas a
distribuio de amostragem da estatstica de teste j no a mesma. Vejamos o caso
simples de n=4 e de o 1 e 2 elementos y1:4 e y2:4 serem iguais, a que atribumos a
mdia das ordens 1 e 2, ou seja 1.5:
T4+ = k
+

P( T4

=k)

1.5

4.5

5.5

8.5

10

1/16

2/16

2/16

1/16

2/16

2/16

1/16

2/16

2/16

1/16

O valor mdio o mesmo, que no caso de no haver ligaes, ou seja E( T4+ )=5, mas a
varincia vem igual a Var( T4+ )=7.375, enquanto que no caso de no haver ligaes viria
igual a 7.5 (=4*5*9/24). Efectivamente, se representarmos as ordens, no caso de haver
ligaes, por ri, tem-se que E( Tn+ )=

1
2

i=1

ri =

1
2

i=1

i , mas Var( Tn )=

1
4

i=1

ri2

1
4

i=1

Na prtica, como as varincias no diferem muito, utiliza-se a distribuio da estatstica,


como se no houvesse ligaes.
Relativamente aos valores observados que possam surgir iguais mediana, usual
desprez-los, diminuindo do mesmo nmero de unidades, a dimenso da amostra.

Maria Eugnia Graa Martins

Anlise de Dados

133

Exemplo 5.10 (Adaptado de Murteira, B., 2002) Os dados do quadro seguinte constituem uma
amostra de observaes da precipitao anual em Beja. Pensa-se que a mediana da populao igual a
650 mm. Verifique se existem razes para duvidar desta hiptese.
607.4

592.8

513.3

602.3

809.1

809.1

345.4

527.4

672.0

721.8

488.8

620.0

497.6

581.1

533.9

481.1

407.7

728.4

464.0

384.2

Seja X a v.a. que representa a precipitao anual em Beja. Ento, pretende testar-se
H0: P(X<650)=P(X>650)=1/2

contra

H1:P(X<650)P(X>650)

Vamos utilizar este exemplo para o resolver pelo teste dos Sinais e pelo teste de Wilcoxon e comparar os
resultados.
Seja S20 a v.a. que representa o n de elementos da amostra maiores que 650, ou seja, o n de sinais
positivos nas diferenas (xi-mediana). Sob H0, S20 tem uma distribuio Binomial(20,0.5). Na tabela
anterior acrescentmos os sinais das diferenas
607.4(-)

592.8(-)

513.3(-)

602.3(-)

809.1(+)

809.1(+)

345.4(-)

527.4(-)

672.0(+)

721.8(+)

488.8(-)

620.0(-)

497.6(-)

581.1(-)

533.9(-)

481.1(-)

407.7(-)

728.4(+)

464.0(-)

384.2(-)

obtendo o valor observado da estatstica de teste s20=5. Como se rejeita para valores grandes ou
pequenos da estatstica de teste, vem que P-value=2 P(S205)=20.0207=0.0414, donde temos a
seguinte deciso:
Rejeitar H0 para 4.14%.
Se pensarmos em termos da regio crtica, temos que para o nvel de significncia de 5%, ela
constituda pelos valores {0, 1, 2, 3, 4, 5, 15, 16, 17, 18, 19, 20}. Isto significa que nenhuma hiptese que
proponha uma mediana maior que 488.8 (observao de ordem 6, quando se considera a amostra
ordenada) ou menor que 620.0 (observao de ordem 15 quando se considera a amostra ordenada),
ser rejeitada para o nvel de significncia de 5%. Desta concluso podemos concluir que o intervalo
(488.8, 620.0) um intervalo de confiana, com uma confiana de 95% para a mediana.
Admitindo que a distribuio F da precipitao simtrica, vamos utilizar o teste de Wilcoxon na
resoluo deste problema. As hipteses a testar so as mesmas, embora as apresentemos com outro
aspecto:
H0:

Maria Eugnia Graa Martins

0.5 (F)= 650

contra

H1:

0.5 (F) 650

Anlise de Dados

134

O valor observado para a estatstica de teste foi 43, pelo que consultando a tabela da distribuio de
+
43)=0.01, donde o P-value =0.02, pelo que temos a seguinte deciso:
Wilcoxon, verificamos que P( T20

Rejeitar H0 para 2%.


Comparando com o resultado obtido pelo teste dos Sinais, verificamos que agora rejeitamos mais vezes,
o que no deve estranhar, pois este teste foi realizado na posse de mais informao: no s admitimos a
simetria da distribuio, como utilizmos mais informao fornecida pelos dados.

5.3.3.2 Teste de Wilcoxon para amostras emparelhadas


O teste de Wilcoxon, como o teste dos Sinais, pode ser modificado para se aplicar a
amostras emparelhadas, quando se pretende comparar dois processos associados
amostra bivariada (Ui, Vi), i=1, 2, ..., n e cujos resultados observados so os pares (ui,
vi). Para utilizar o teste de Wilcoxon, passamos amostra Xi= Ui - Vi, admitimos que Xi
tem distribuio absolutamente contnua H(.) e simtrica e as hipteses que
pretendemos testar so relativamente a esta funo. Uma hiptese que tem interesse
testar a de que a mediana ou valor mdio de X assume um determinado valor, que,
sem perda de generalidade, assumimos ser 0. Ento, pretende-se testar
H0:

Maria Eugnia Graa Martins

0 .5

(H)=0

contra

H1:

0 .5

(H)0

Anlise de Dados

135

5.3.3.3 O teste de Wilcoxon e o teste-t


O teste de Wilcoxon a verso no paramtrica do teste-t para uma nica amostra.
Existem estudos (Montgomery, 1999) que comparam os dois testes e que concluem
que, de um modo geral, o teste de Wilcoxon nunca muito pior do que o teste-t, e que
na maior parte das situaes em que a populao subjacente no Normal, pode ser
superior. Temos assim uma alternativa bastante til ao teste-t.

5.4. Testes de hipteses em modelos no paramtricos para testar a


homogeneidade de vrias populaes independentes
5.4.1 Comparao de duas populaes independentes
5.4.1.1 Teste de Mann-Whitney Wilcoxon
Consideremos duas populaes contnuas X e Y, independentes, em que assumimos
que as suas distribuies tm a mesma forma e variabilidade, s diferindo na
localizao. Face a duas amostras independentes, pretende testar-se a sua
homogeneidade, isto , dadas as amostras independentes (X1, X2, ..., Xm) e (Y1, Y2, ...,
Yn), respectivamente de X e Y, pretende testar-se
H0:FX(x)=GY(x) x

contra

H1: alternativa unilateral ou bilateral

O processo que se vai considerar para arranjar uma estatstica dec teste, vai ser o de
considerar a amostra conjunta dos Xs e dos Ys, considerando-se para estatstica de
teste a v.a. que conta o n total de Ys que so maiores que os Xi, i=1, 2, ..., m. Assim,
considerando
1 Yj > X i
Zij=
0 Yj X i

para i=1, 2, ..., m; j=1, 2, ..., n

a estatstica de Mann-Whitney-Wilcoxon dada por


W m,n =

Z
i=1 j=1

ij

cujo domnio de variao o intervalo [0, mn]

Vejamos ento qual a regra de teste, de acordo com a alternativa especificada:


Maria Eugnia Graa Martins

Anlise de Dados

136

H0

H1

Regio de rejeio

FX(x)=GY(x) x

FX(x)GY(x) x e para
algum x, FX(x)>GY(x)

W m,n c

FX(x)=GY(x) x

FX(x)GY(x) x e para
algum x, FX(x)<GY(x)

W m,n c

FX(x)=GY(x) x

FX(x)GY(x) para
algum x

W m,n c * ou W m,n c '*

Observao: Chamamos a ateno para o facto de que dizer que F>G equivalente a
dizer que X<Y, pois, como se verifica pela figura junta, dado um x qualquer, tem-se
P(Xx)>P(Yx) ou P(X>x)<P(Y>x), isto ,
se F>G, ento X toma valores menores
que x com maior probabilidade do que Y
toma valores menores que x, ou tem
menor probabilidade de tomar valores
maiores que x, do que Y.
Este facto faz com que, por exemplo, na primeira situao de teste considerada
anteriormente, se a hiptese alternativa em que admitimos que F>G, for verdadeira,
esperamos encontrar muitos Ys maiores que Xs, na amostra conjunta (j que X<Y),
ou seja um valor grande para a estatstica de teste. Assim, um valor grande para a
estatstica de teste leva-nos a rejeitar a hiptese nula. Sabemos que um valor grande
deve situar-se prximo de mn, mas para saber qual o ponto crtico que, para um
determinado nvel de significncia define a fronteira entre a regio de rejeio e a de
no rejeio, temos de conhecer a distribuio de amostragem da estatstica de teste.
5.4.1.1 1 Distribuio de amostragem de Wm,n

Vamos comear por obter a distribuio assinttica de W m,n, pelo que temos de calcular
o seu valor mdio e varincia, sob H0:
m

E(W m,n)= E(Z ij ) = P(Y j > X i )


i=1 j=1

Maria Eugnia Graa Martins

i=1 j=1

Anlise de Dados

Var(W m,n)=

137

Cov(Z , Z
ij

hk

i=1 j=1 h =1 k =1

Se H0 verdadeiro, P(Yj>Xi)=1/2, pelo que


E(W m,n)=

mn
2

No que diz respeito varincia, necessrio calcular E(ZijZhk), pelo que vamos
considerar o produto
1 se X i < Y j e X h < Yk
0 caso contrrio

ZijZhk=

Ento, sob H0, E(ZijZhk)=P(Xi<Yj e Xh<Yk)=P(Xi<Yj)

se i=h e j=k

=P(Xi<Yj)2 se ih, jk
=P(Xi<Yj, Xh<Yj) se ih, j=k ou i=h, jk
Para calcular as probabilidades anteriores, basta ter em considerao que, dados 3
elementos de uma amostra X1, X2 e X3, P(X1< X2)=1/2 e P(X1<X2, X3<X2)=2/6=1/3.
Atendendo a que Cov(Zij, Zhk)= E(ZijZhk) E(Zij)E(Zhk), vem, sob H0:
Cov(Zij, Zhk)=

se ih, jk

1/4

se i=h e j=k

1/12

se ih, j=k ou i=h, jk

Assim, para obter a varincia de W m,n, basta contar o n de termos em que se verificam
cada uma das situaes anteriores, e que :
Se

i=h, j=k

o n de termos mn

j=k, ih

nm(m-1)

i=h, jk

mn(n-1)

Finalmente temos que Var(W m,n)=

mn(m + n + 1)
12

Resumindo, algumas propriedades da estatstica W m,n, so:

Maria Eugnia Graa Martins

Anlise de Dados

138

Domnio: {0, 1, 2, ..., mn}

E(W m,n)=

Var(W m,n)=

simtrica relativamente ao seu valor mdio. Assim, P(W m,nw)=P(W m,nmn-w)

mn
2
mn(m + n + 1)
12

Distribuio assinttica de Wm,n

Para valores elevados de m e n, embora as variveis Zij sejam dependentes, i=1, ..., m;
j=1, ..., n, continua a ser vlido um teorema do tipo do teorema limite central, pelo que a
distribuio de amostragem de
mn
2
pode ser aproximada pela distribuio N(0,1)
mn(m + n + 1)
12
Wm,n

A aproximao anterior vlida para valores suficientemente grandes de m e n e tais


que m/n, seja aproximadamente constante (os valores de m e n no devem diferir
muito).
Distribuio exacta de Wm,n

Para obter a distribuio exacta de W m,n sob a validade de H0, vamos representar a
funo massa de probabilidade por pm,n(k)=P(W m,n=k)=P[n de Zij em que Yj>Xi (na
amostra conjunta) igual a k], com K=0, 1, ..., mn. Considerando a amostra conjunta dos
Xs e dos Ys, vamos calcular a probabilidade anterior condicionando no maior valor
dessa amostra conjunta, fazendo o seguinte raciocnio:
O maior elemento da amostra conjunta pode ser um elemento pertencente amostra
dos Xs, o que ocorre com probabilidade

m
(no esquecer que sob H0, existe
m+n

homogeneidade), ou pode ser um elemento pertencente amostra dos Ys, o que


ocorre com probabilidade

Maria Eugnia Graa Martins

n
. Por outro lado, para que W m,n venha igual a k:
m+n

Anlise de Dados

139

se o maior elemento for um Xi, necessrio que a amostra constituda pelos


outros (m-1) Xs e n Ys, contribua com k Zij nas condies exigidas;

se o maior elemento for um Yj, ele est a contribuir com m Zij para k e
necessrio que os restantes m Xs e (n-1) Ys contribuam com (k-m).

Assim, pm,n(k)=P(W m,n=k)= P(o maior elemento ser um X)P(Wm-1,n=k)+P(o maior


elemento ser um Y)P(W m,n-1=k-m)
pm,n(k)=

m
n
pm-1,n(k)+
pm,n-1(k-m)
m+n
m+n

A equao anterior, juntamente com as condies iniciais seguintes:


1. p0,n(0)=1
2. Pm,0(0)=1
3. Pm,n(k)=0, se k<0, e m,n0.
permite obter, de forma recursiva, a funo massa de probabilidade de W m,n. Para
valores pequenos de m e n, esta distribuio encontra-se tabelada. Se os valores de m
e n pretendidos j no estiverem nas tabelas, significa que podemos utilizar a
distribuio assinttica.
5.4.1.1 2 O teste de Mann-Whitney-Wilcoxon e o teste-t para duas amostras

O teste de Mann-Whitney-Wilcoxon a alternativa no paramtrica ao teste-t para duas


amostras independentes. Os resultados da comparao entre estes dois testes, so
idnticos aos referidos quando comparmos o teste de Wilcoxon e o teste-t para uma
nica amostra. Acresce ainda o facto de que o teste-t, na presena de distribuies com
caudas pesadas, tem um comportamento muito instvel pois depende muito das
mdias amostrais, as quais so medidas pouco resistentes (Montgomery, 1999). Neste
caso o teste de Mann-Whitney-Wilcoxon uma boa alternativa.
Exemplo 5.11

Dezassete estudantes foram escolhidos aleatoriamente para participarem num

projecto de investigao educacional. Assim, enquanto 8 estudantes seguiram um curso tradicional de


aprendizagem de uma lngua, os restantes seguiram um curso de auto aprendizagem com cassetes
vdeo. Ao fim de 4 semanas realizaram um teste, tendo-se obtido os seguintes resultados:
Mtodo tradicional:

Maria Eugnia Graa Martins

75

82

28

82

94

78

76

64

Anlise de Dados

140

Mtodo auto aprendizagem:

78

95

63

37

48

74

65

77

63

Teste se existe evidncia de diferena significativa entre os dois mtodos.


Resoluo: Representando por X e Y, respectivamente, os resultados obtidos pelo mtodo tradicional e
pelo mtodo de auto aprendizagem, com funes de distribuio F e G, respectivamente, pretendemos
testar
H0: FX(x)=GY(x)

contra

H1: FX(x)GY(x) para algum x

Estatstica de teste: A v.a. W 8,9, que representa o nmero de vezes que os Ys so superiores aos Xs, na
amostra conjunta. Para obter o valor observado para a estatstica de teste, uma metodologia possvel a
seguinte:
1 passo: o primeiro y que surge na amostra dos ys, ou seja o 78, superior a 4 XS;
2 passo: o segundo y que surge na amostra os ys, ou seja o 95, superior a 8 xs;
....
9 passo: o ltimo y que surge na amostra os ys, ou seja o 63, superior a 1 xs.
Ento, o valor observado da estatstica de teste
w8,9=4+8+1+1+1+2+2+4+1=24
os valores que a estatstica de teste pode assumir, variam entre 0 e 72, pelo que se rejeitarmos H0, ser
porque 24 um valor demasiado pequeno, pelo que precisamos de calcular P(W 8,924)
Da
As tabelas disponveis s apresentam a P(W m,n>w),
donde P(W 8,924)=P(W 8,972-24)=P(W 8,9>47)

consulta

das

tabelas,

verificamos

que

P(W 8,9)>600.01 e que P(W 8,9)>49) 0.10, pelo


que conclumos que P(W 8,9>47)>0.10 e temos um
P-value>20%.

Deciso: No temos razo para duvidar que os dois mtodos sejam idnticos.

Exemplo 5.12 Dois plsticos, cada um produzido pelo seu processo foram testados para avaliar a
sua resistncia. As medidas a seguir representam as foras necessrias para danificarem vrios pedaos
idnticos dos dois tipos de plstico. Haver razes para acreditar que o plstico 2 mais forte que o
plstico 1?
Plstico 1:

15.3

18.7

22.3

17.6

19.1

14.8

Plstico 2:

21.1

22.4

18.3

19.3

17.1

37.7

Representando por F1 e F2, respectivamente a distribuio da fora necessria para danificar o plstico 1
e o plstico 2, pretendemos testar:
H0: F1(x)=F2(x) x

contra

H1: F1(x) F2 (x) x e para algum x F1(x)> F2 (x)

Estatstica de teste: A v.a. W 6,6, que representa o nmero de vezes que os valores da amostra 2 so
superiores aos valores da amostra 1, quando se considera a amostra conjunta. O valor observado da
estatstica de teste w6,6=5+6+3+5+2+6=27.

Maria Eugnia Graa Martins

Anlise de Dados

141

Rejeitamos a hiptese nula para valores grandes da estatstica de teste, pelo que pretendemos calcular
P(W 6,627), ou seja P(W 6,6>26). Da consulta das tabelas
P(W 6,6>26)=.10
Deciso: Para o nvel de significncia de 10%, rejeitamos a hiptese dos dois tipos de rao serem
idnticos. J no rejeitamos para 5% ou 1%.

Exemplo 5.13 Temos dois tipos de alimentao para porcos A e B, tendo-se comeado a desconfiar
que a rao de tipo A melhor que a de tipo B. Com base em amostras de pesos de porcos, com a
mesma idade e da mesma ninhada, mas em que uns foram alimentados com a rao A e os outros com
a rao B, verifique se a desconfiana tem razo de ser:
Rao A:

73

42

90

58

62

Rao B:

50

23

68

40

45

Resoluo: Pretende-se testar


H0: FA(x)=FB(x) x

contra

H1: FA(x)FB(x) x e para algum x FA(x)<FB(x)

Estatstica de teste: W 5,5 que representa o nmero de vezes que os pesos Bs so superiores aos As.
Valor observado da estatstica de teste: w5,5=1+3+1=5
Rejeitamos a hiptese nula para valores pequenos da estatstica de teste, pelo que pretendemos calcular
P(W 5,55), ou seja P(W 5,55)=P(W 5,525-5)=P(W 5,520)=P(W 5,5>19). Da consulta das tabelas
P(W 5,5>19)=.10
P(W 5,5>20)=.05
Assim P(W 5,55)=P(W 5,5<6)= P(W 5,5>19)=0.10
Deciso: Para o nvel de significncia de 10%, rejeitamos a hiptese dos dois tipos de rao serem
idnticos. J no rejeitamos para 5% ou 1%.

5.4.1.1 3 Forma alternativa para a estatstica de Mann-Whitney-Wilcoxon

Por vezes, como estatstica de Mann-Whitney-Wilcoxon, utiliza-se uma outra estatstica,


que consiste em considerar a v.a.
n

Tm.n= R(Yi ) = soma das ordens dos Ys na amostra conjunta


i=1

Como R(Yi)=(n de Xs <Yi)+ordem de Yi nos Ys, vem que


n

i=1

i=1

Tm,n= R(Yi ) = n de X' s < Yi ) +

Maria Eugnia Graa Martins

n(n + 1)
, donde
2

Anlise de Dados

142

Tm,n=W m,n +

n(n + 1)
2

Observao: O clculo directo do valor mdio e da varincia de Tm,n, prende-se com o

seguinte problema: Considerem-se N bolas numa urna, numeradas de 1 a N. Uma a


uma, retiram-se n dessas bolas, com n<N. Seja T a soma dos nmeros das n bolas
retiradas. Assumindo que as tiragens so aleatrias, calcular o valor mdio e a
varincia de T.
Podemos considerar T como a soma de n variveis aleatrias X1, X2, ..., Xn, onde cada
Xi o nmero da i-sima bola extrada:
k k = 1,2,..., N

Xi
1
P( X i = k ) = N
N

Ento E(Xi)= k
i=1

N +1
1 N +1
, pelo que E(T)=n
=
N
2
2
n

Quanto Var(T)= Var ( X i ) + Cov( X i , X j ) (ij)


i=1

(1)

i =1 j=1

Pode-se mostrar (Conover, pag 37 e segs) que


Var(Xi) =

(N + 1)(N 1)
N +1
e Cov(Xi, Xj)=12
12

Como na expresso (1) o termo que contm a varincia aparece n vezes e o que
contm a covarincia aparece n(n-1) vezes, vem que
Var(T)=n
=

(N + 1)(N 1)
N +1
+n(n-1)()
12
12
n(N + 1)(N n)
12

Exemplo 5.13 Considere duas amostras independentes X1, X2, X3 e Y1, Y2 e a estatstica de teste
T3,2, anteriormente considerada. Determine a sua distribuio de amostragem.
Resoluo: Vamos considerar uma matriz, onde indicamos as ordens possveis para Y1 e para Y2, na
amostra conjunta, preenchendo a tabela com a soma dessas ordens, como se apresenta a seguir

Maria Eugnia Graa Martins

Anlise de Dados

143

OrdemY1
Ordem Y2

1
2

Ento a funo massa de probabilidade para a estatstica vem


T3,2=k

P(T3,2=k)

.1

.1

.2

.2

.2

.1

.1

5.4.1.2 Teste de Kolmogorov-Smirnov para duas amostras


Consideremos duas populaes contnuas X e Y, independentes, e duas amostras X1,
X2, ..., Xm e Y1, Y2, ..., Yn, respectivamente de X e Y. Com base nestas amostras
pretende-se testar a homogeneidade das populaes subjacentes. No teste de
ajustamento de K-S, considermos uma estatstica de teste baseada na diferena entre
a funo distribuio emprica construda a partir da amostra dada, e a funo
distribuio da populao subjacente amostra. Agora vamos considerar uma
estatstica de teste construda com base na diferena das funes de distribuio
empricas construdas a partir das amostras dadas.
1. Processo para obter a estatstica de teste
Comeam por se considerar as estatsticas ordinais e as funes de distribuio
empricas:
0
k
X1:m, X2:m, ..., Xm:m e Fm* ( x ) =
m
1

se

x < X1:m

se X k:m x < X k +:m


se

k = 1,..., m - 1

x X m:m

x < Y1:n
0 se

Y1:n, Y2:n, ..., Yn:n e Gn* ( x ) =


se Yk:n x < Yk +:n
n
x Yn:n
1 se
2. Estatsticas de teste
Maria Eugnia Graa Martins

k = 1,..., n - 1

Anlise de Dados

144

Dm,n= sup Fm* ( x ) G n* ( x )


x

D m+ ,n = sup Fm* ( x ) G n* ( x )
x

D m ,n = sup G n* ( x ) Fm* ( x )
x

3. Regra de teste para o nvel de significncia


Considerando como hiptese nula
H0: As duas amostras so provenientes de populaes homogneas, ou seja
FX(x)=GY(x), x, temos as seguintes hipteses alternativas e as respectivas regies de
rejeio:
a) H1: FX(x)GY(x) para algum x
Utiliza-se a estatstica Dm,n e rejeita-se H0 quando Dm,nDm,n, onde P(Dm,n Dm,n,)
b) H1: FX(x) GY(x) x e para algum x FX(x) >GY(x)
Utiliza-se a estatstica D m+ ,n e rejeita-se H0 quando D m+ ,n D m+ ,n, onde P( D m+ ,n D m+ ,n, )
c) H1: FX(x) GY(x) x e para algum x FX(x) <GY(x)
Utiliza-se a estatstica D m ,n e rejeita-se H0 quando D m ,n D m ,n, onde P( D m ,n D m ,n, )
4. Distribuio das estatsticas de teste
As distribuies das estatsticas de teste encontram-se tabeladas para pequenas
amostras.
Exemplo 5.14 Com o objectivo de estudar o efeito de determinado medicamento, foram recolhidas
amostras de dois grupos de indivduos um grupo de controlo, a quem foi dado um placebo e outro
grupo a quem foi administrado o medicamento. Os dados obtidos referem-se a uma variao de uma
determinada substncia existente na urina, relativamente a um valor padro:
Grupo de controlo: 0.22, -0.87, -2.39, -1.79. 0.37, -1.54, 1.28, -0.31, -0.74, 1.72, 0.38, -0.17, -0.62, -1.10,
0.30, 0.15, 2.30, 0.19, -0.50, -0.09
Grupo de tratamento: -5.13, -2.19, -2.43, -3.83, 0.50, -3.25, 4.32, 1.63, 5.18, -0.43, 7.11, 4.87, -3.10, 5.81, 3.76, 6.31, 2.58, 0.07, 5.76, 3.50
Verifique se existe evidncia de que o tratamento tenha efeito, para um nvel de significncia de 5%.
Resoluo: Representando por FC e GT, respectivamente as funes de distribuio das populaes de
onde foram recolhidas as amostras de controlo e de tratamento, vamos fazer o teste bilateral, pelo que as
hipteses a testar so:
H0: FC(x)=GT(x) x
Maria Eugnia Graa Martins

contra H1: FC(x)GT(x) para algum x

Anlise de Dados

145

As funes de distribuio emprica so:


*
F20
(x)= 0

G *20 (x)=0

x<-2.39

x<-5.80

0.05

-2.39x<-1.79

0.05

-5.80x<-5.10

0.10
0.15
0.20

-1.79x<-1.54
-1.54x<-1.10
-1.10x<-0.87

0.10
0.15
0.20

-5.10x<-3.80
-3.80x<-3.30
-3.30x<-3.10

0.25
0.30
0.35

-0.87x<-0.74
-0.74x<-0.62
-0.62x<-0.50

0.25
0.30
0.35

-3.10x<-2.40
-2.40x<-2.20
-2.20x<-0.40

0.40
0.45
0.50

-0.50x<-0.31
-0.31x<-0.17
-0.17x<-0.09

0.40
0.45
0.50

-0.40x<0.07
0.07x<0.50
0.50x<1.63

0.55
0.60
0.65

-0.09x<0.15
0.15x<0.19
0.19x<0.22

0.55
0.60
0.65

1.63x<2.58
2.58x<3.50
3.50x<3.76

0.70
0.75
0.80

0.22x<0.30
0.30x<0.37
0.37x<0.38

0.70
0.75
0.80

3.76x<4.32
4.32x<4.87
4.87x<5.18

0.85
0.90
0.95

0.38x<1.28
1.28x<1.72
1.72x<2.3

0.85
0.90
0.95

5.18x<5.76
5.76x<6.31
6.31x<7.11

1.00

2.3x

1.00

7.11x

*
Ento F20
(x) - G *20 (x)= 0

x<-5.80

-0.05
-0.10

-5.80x<-5.10
-5.10x<-3.80

0.15
0.20
0.25

0.15x<0.19
0.19x<0.22
0.22x<0.30

-0.15
-0.20
-0.25

-3.80x<-3.30
-3.30x<-3.10
-3.10x<-2.40

0.30
0.35
0.40

0.30x<0.37
0.37x<0.38
0.38x<0.50

-0.30
-0.25
-0.30

-2.40x<-2.39
-2.39x<-2.20
-2.20x<-1.79

0.35
0.40
0.35

0.50x<1.28
1.28x<1.63
1.63x<1.72

-0.25
-0.20
-0.15

-1.79x<-1.54
-1.54x<-1.10
-1.10x<-0.87

0.40
0.45

1.72x<2.30
2.30x<2.58

0.40

2.58x<3.50

-0.10
-0.05
0

-0.87x<-0.74
-0.74x<-0.62
-0.62x<-0.50

0.35
0.30
0.25

3.50x<3.76
3.76x<4.32
4.32x<4.87

0.05
0
0.05

-0.50x<-0.40
-0.40x<-0.31
-0.31x<-0.17

0.20
0.15
0.10

4.87x<5.18
5.18x<5.76
5.76x<6.31

0.10
0.15
0.10

-0.17x<-0.09
-0.09x<0.07
0.07x<0.15

0.05
0

6.31x<7.11
7.11x

O valor observado da estatstiva de teste d20,20=0.45, como se pode verificar da diferena entre as
funes de distribuio empricas, anteriormente considerada, e se pode visualizar na figura seguinte,
onde esto representadas graficamente essas funes:

Maria Eugnia Graa Martins

Anlise de Dados

146

Consultando uma tabela da distribuio D20,20, verificamos que P(D20,200.45)=0.02. Ento rejeitamos a
hiptese nula para 2%, pelo que rejeitamos a hittese de que o tratamento no tem efeito, para o nvel
de significncia de 5%.

5.4.2 Comparao de mais de duas populaes independentes


5.4.2.1 Teste de Kruskal-Wallis

Consideremos p (3) populaes contnuas, independentes, X1, X2, ..., Xp, com funes
distribuio F1, F2, ..., Fp, de onde se recolheram, respectivamente, as amostras
X11, X12, ..., X1n1
X21, X22, ..., X 2n2
...
Xp1, Xp2, ..., X pnp
Com base nas amostras anteriores, pretende-se testar a hiptese nula de que as p
populaes so homogneas, contra a hiptese alternativa, de que pelo menos uma
das populaes fornece observaes maiores ou menores.
Para obter a estatstica de teste, do mesmo modo que para o teste de Mann-Whitney,
vamos considerar a amostra conjunta, constituda pelas p amostras. No entanto, a partir
daqui vamos trabalhar com as ordens das observaes, quando consideradas na
amostra conjunta, pelo que deixaremos de trabalhar com os dados originais. Vamos
delinear, a seguir, a filosofia que est por detrs do teste de Kruskal-Wallis.
p

Seja N a soma das dimenses das p amostras, N= n i , e representemos por R(Xij),


i=1

i=1,...,p; j=1,...,ni, a ordem de Xij, na ordenao das N observaes, onde, se existirem


ligaes, se associa a mdia das ordens. Representemos ainda por R1, R2, ..., Rp, a
Maria Eugnia Graa Martins

Anlise de Dados

147

soma das ordens das obervaes correspondentes, respectivamente, s amostras 1, 2,


..., p:
ni

Ri= R( X ij ) , i=1, 2, ..., p


j=1

Se a hiptese nula for verdadeira, esperamos que a distribuio das ordens pelas
diferentes amostras se faa aleatoriamente, pelo que nem as ordens pequenas, nem as
ordens grandes tero tendncia em concentrar-se numa das amostras. Assim, se se
verificar a homogeneidade entre as populaes, esperamos que as p somas das ordens
das observaes das p amostras, que representmos por Ri, sejam aproximadamente
iguais, depois de devidamente ajustadas para entrar em linha de conta com as
diferentes dimenses das amostras. Intuitivamente, uma possvel estatstica de teste,
poderia ser uma estatstica que determinasse se as somas das ordens no so
substancialmente diferentes das que obteramos se considerssemos populaes
idnticas. Ento, sob a hiptese de homogeneidade, temos que
ni

E(Ri) = E( R( X ij ) ) =
j=1

ni

E(R( Xij )) =
j=1

ni

n (N + 1)
1 N
i= i

2
j=1 N i=1

e vamos considerar uma estatstica que consiste na soma ponderada dos quadrados
dos desvios entre as somas das ordens e o valor mdio anterior, utilizando como
coeficiente de ponderao os inversos das dimenses das amostras:
p

1
D=
i=1 n i
Pode-se mostrar que E(D) =

n i (N + 1)

R i
2

(p 1) N (N + 1)
, utilizando-se ento como estatstica de
12

teste de Kruskal-Wallis a estatstica

12
D , que se representa por K n1 ,n2 ,...,np e que se
N(N + 1)

costuma apresentar com o seguinte aspecto:


p
R i2
12
K n1 ,n2 ,...,np =
-3(N+1)
N(N + 1) i=1 ni

Maria Eugnia Graa Martins

Anlise de Dados

148

com valor mdio (p-1), independente das dimenses das amostras. A frmula anterior
obtm-se no pressuposto de que no existem ligaes. Caso isso acontea,
necessrio introduzir uma correco, pelo que a estatstica de teste a utilizar ser:
1 p R i2 N(N + 1) 2

K n1 ,n2 ,...,np = 2

4
S i=1 n i

N(N + 1) 2
1 p ni 2
S=
R ( X ij )

N 1 i=1 j=1
4

onde

A distribuio de amostragem exacta (1), da estatstica de teste, para valores pequenos


das dimenses das amostras, encontra-se tabelada. Se ni5 para algum i, i=1,..., p,
ento a distribuio da estatstica de teste pode ser aproximada pela distribuio do
Qui-quadrado, com (p-1) graus de liberdade (2).
Como regra de teste, rejeita-se a hiptese nula para valores grandes da estatstica de
teste, ou seja, para o nvel de significncia , rejeita-se H0, quando o valor observado
da estatstica de teste for superior a um valor k n1,n2 ,...,np , , onde P( K n1 ,n2 ,...,np k n1 ,n2 ,...,np , ).
Alternativamente, face ao valor observado K n01 ,n2 ,...,np da estatstica de teste, calcula-se o
P-value, ou seja, P=P( K n1 ,n2 ,...,np K n01 ,n2 ,...,np ) e rejeita-se H0 para P.

(1) Distribuio de amostragem exacta para a estatstica de Kruskal-Wallis

Para obter a distribuio exacta da estatstica de teste K n1 ,n2 ,...,np , basta ter presente que,
sob H0, todos os arranjos das ordens de 1 at N, em grupos de tamanhos n1, n2, ..., np,
so igualmente provveis. Calcula-se para cada um o valor da estatstica de teste e
assim se obtm a f.m.p da estatstica. No caso particular de p=3, n1=2, n2=1 e n3=1,
vem :
Arranjo
1e2
3e4
5e6
7e8
9 e 10
11 e 12
13 e 14
15 e 16
17 e 18

Amostra
1(X1,X2) Ordens
(X1,X2) ou (X2,X1) (1,2)
(X1,X2) ou (X2,X1) (1,2)
(X1,X2) ou (X2,X1) (1,3)
(X1,X2) ou (X2,X1) (1,3)
(X1,X2) ou (X2,X1) (1,4)
(X1,X2) ou (X2,X1) (1,4)
(X1,X2) ou (X2,X1) (2,3)
(X1,X2) ou (X2,X1) (2,3)
(X1,X2) ou (X2,X1) (2,4)

Maria Eugnia Graa Martins

2 (Y) Ordem
3
4
2
4
2
3
1
2
1

2(Z) Ordem
4
3
4
2
3
2
2
1
3

K2,1,1
2.7
2.7
1.8
1.8
0.3
0.3
2.7
2.7
1.8

Anlise de Dados

19 e 20
21 e 22
23 e 24

149

(X1,X2) ou (X2,X1) (2,4)


(X1,X2) ou (X2,X1) (3,4)
(X1,X2) ou (X2,X1) (3,4)

3
1
2

1
2
1

1.8
2.7
2.7

Da tabela anterior obtm-se para K2,1,1 a seguinte funo massa de probabilidade:


K2,1,1=k

0.3

1.8

2.7

P(K2,1,1=k)

4/24

8/24

12/24

Como se disse anteriormente, para obter a distribuio de amostragem da estatstica de


Kruskal-Wallis, no ser necessrio utilizar o processo anterior, pois embora simples,
trabalhoso, mesmo para o caso de valores pequenos das dimenses das amostras, j
que estas distribuies se encontram tabeladas.
(2) Distribuio de amostragem assinttica para a estatstica de Kruskal-Wallis

Na expresso da estatstica de teste temos Ri, que a soma de ni variveis aleatrias,


pelo que para ni suficientemente grande, pelo Teorema Limite Central, a distribuio de
R i E(R i )
Var (R i )

pode ser aproximada pela distribuio N(0,1). Tendo em conta a observao

feita na seco 5.4.1.1.3, E(Ri)=ni

n (N + 1)(N n i )
N +1
. Ento, a distribuio
e Var(Ri)= i
2
12

de
2

R i E(R i ) {R i [n i (N + 1) / 2]}2

=
Var (R i ) n i (N + 1)(N n i ) / 12
pode ser aproximada pela distribuio do Qui-quadrado, com 1 grau de liberdade. Se os
Ri fossem independentes (Conover, pag 235), a soma das p parcelas, idnticas
expresso anterior, correspondentes s p v.a. Ri, teria uma distribuio aproximada de
um Qui-quadrado, com (p-1) graus de liberdade. No entanto a soma dos Ri N(N+1)/2,
pelo que existe dependncia. Kruskal mostrou que se a parcela correspondente
varivel Ri for multiplicada por (N-ni)/N, para cada i=1, 2, ..., p, ento
p

{R i [ni (N + 1) / 2]}2

i=1

n i (N + 1)N / 12

Maria Eugnia Graa Martins

Anlise de Dados

150

tem uma distribuio assinttica de um Qui-quadrado, com (p-1) graus de liberdade. A


expresso utilizada como estatstica de Kruskal-Wallis no mais que um rearranjo dos
termos da expresso anterior.

Exemplo 5.15 Um produtor de vinhos seleccionou, aleatoriamente, 3 grupos de provadores de


vinhos, em que cada grupo provava o mesmo vinho. No entanto, cada provador tinha uma entrevista
pessoal, onde lhe era criada uma certa expectativa, quanto ao vinho que iria provar. Esta expectativa era
a mesma dentro de cada grupo, sendo maior para o grupo A e menor para o grupo C. Depois da prova,
cada provador tinha de atribuir uma classificao, numa escala de 1 a 10, em que 10 est no topo da
tabela. As classificaes obtidas foram as seguintes:
Grupo A: 6.4, 6.8, 7.2, 8.3, 8.4, 9.1, 9.4, 9.7
Grupo B: 2.5, 3.7, 4.9, 5.4, 5.9, 8.1, 8.2
Grupo C: 1.3, 4.1, 4.9, 5.2, 5.5, 8.2
Verifique se existe evidncia de que o mtodo de sugesto utilizado para criar a expectativa, funcionou.
Resoluo: Vamos utilizar o teste de K-W, para testar as hipteses
H0: O mtodo de sugesto no funcionou

contra H1: O mtodo de sugesto funcionou

No caso de H0 ser verdadeira, K8,7,6 tem uma distribuio assinttica de Qui-quadrado, com 2 graus de
liberdade.
A metodologia utilizada para obter o valor da estatstica de teste de K-W, foi de inserir os dados de cada
grupo, em coluna, numa folha de Excel, indicando na coluna adjacente o grupo a que pertencem.
Ordenmos os dados (esta operao no era necessria, mas conveniente para nos apercebermos
mais rapidamente da existncia de observaes iguais, uma vez que, neste caso, as ordens iguais vm
consecutivas), sem perder a indicao do grupo a que pertencem e utilizando a funo RANK do Excel
atribumos ordens aos dados. No caso de haver observaes iguais, substitumos a ordem que o Excel
atribui, pela mdia das ordens.

Maria Eugnia Graa Martins

Anlise de Dados

151

O valor observado para a estatstica de teste foi de 9.84. Para calcular o valor anterior ignormos as duas
ligaes existentes.

Para obter o p-value vamos utilizar a funo do Excel CHIDIST(x;deg_freedom)

que, para o valor de x=9.83627 e deg_freedom=2, devolve o valor 0.007313, que a probabilidade de
uma varivel aleatria X, com uma distribuio de um Qui-quadrado, com 2 graus de liberdade, assumir
valores superiores a 9.83627, ou seja, o p-value=0.007313.
Deciso: Rejeitar a hiptese nula para valores de 0.7%.

Para utilizar o teste de Kruskal-Wallis, basta que os dados estejam na escala ordinal,
como se exemplifica a seguir:

Exemplo 5.16 Trs instrutores decidiram comparar as pontuaes dadas no semestre passado, para
averiguar se haveria algum com tendncia para dar notas mais baixas. Estes instrutores fizeram parte de
um jri de avaliao, sendo o resultado da avaliao, sobre alunos do mesmo nvel, o seguinte:
Pontuao

Maria Eugnia Graa Martins

Instrutor1

Instrutor2

Instrutor3

10

14

17

Anlise de Dados

152

H0: Os instrutores do pontuaes anlogas

contra

H1: Os instrutores no do pont. anlogas

A tabela anterior apresenta as classificaes dadas, numa escala ordinal, em que, por exemplo, a
classificao A foi atribuda a 20 alunos, metade dos quais pelo instrutor2. Como se depreende, temos
dados com muitas ligaes, nomeadamente 20 iguais a A, 27 iguais a B, etc. Vamos aproveitar a tabela
anterior para associar as ordens mdias a cada uma das pontuaes, de forma a calcular o valor
observado para a estatstica de Kruskal-Wallis:
Pontuao

Instrutor1

Instrutor2

Instrutor3

Total linhas

10

20 (1-20)

14

27 (21-47)

17

34 (48-81)

19 (82-100)

9 (101-109)

N total de
estudantes

43

38

28

Ordens
mdias
21
=10.5
2
21 + 47
=34
2
48 + 81
=64.5
2
82 + 100
=91
2
101 + 109
=105
2

R1=410.5+1434+1764.5+691+2105=2370.5
R2=1010.5+634+964.5+791+6105=2156.5
R3=610.5+734+864.5+691+1105=1468
2

Neste caso temos de utilizar a expresso que d o S para o caso de existirem ligaes, obtendo
S2=941.71, donde vem para o valor observado da estatstica de teste k43,38,28=0.3209. Sabendo que, se
H0 verdadeira, a distribuio da estatstica de teste K43,38,28 assintoticamente um Qui-quadrado com 2
graus de liberdade, obtemos para o p-value
P-value= P(K43,38,28 0.3209)=0.8518 (calculado no Excel)
Deciso: No existe razo para duvidar que os instrutores do notas anlogas.

5.4.2.1 1. Comparaes mltiplas (Conover, pag 231)


No caso da hiptese nula ser rejeitada, podemos utilizar o seguinte processo para
determinar quais os pares de populaes que tendem a diferir. Podemos dizer que as
populaes i e j tm tendncia para serem diferentes, se a seguinte desigualdade for
satisfeita:
N 1 k n1 ,n2 ,...,np
Ri R j

> t 1 / 2 (N p) S 2

Np
ni n j

Maria Eugnia Graa Martins

1/ 2

1 1
+
n n
j
i

1/ 2

Anlise de Dados

153

onde t1-/2 o quantil de probabilidade 1-/2 de uma t-Student com (N-p) graus de
liberdade. O nvel de significncia o mesmo que o utilizado no teste de K-W.

Exemplo 5.15 (cont) Para este exemplo, uma vez que rejeitmos a hiptese nula para os nveis
usuais de significncia, vamos utilizar o critrio definido anteriormente para proceder s comparaes
mltiplas. Vamo-nos fixar no nvel de significncia de 5%.
2

S=

N(N + 1)
=38.5;
12

2 N 1 k n1,n 2 ,...,np
S

Np

=21.73

Da tabela anterior conclumos que existe tendncia para que a populao 1 seja distinta das populaes
2 e 3, no havendo razo para dizer o mesmo sobre as populaes 2 e 3.

5.4.2.2 Teste do Qui-quadrado em tabelas de contingncia para testar a


homogeneidade
Consideremos p (2) populaes independentes, X1, X2, ..., Xp, com funes
distribuio F1, F2, ..., Fp, de onde se recolheram, respectivamente, as amostras
X11, X12, ..., X1n1
X21, X22, ..., X 2n2
...
Xp1, Xp2, ..., X pnp
Com base nas amostras anteriores, pretende-se testar a hiptese nula de que as p
populaes so homogneas, contra a hiptese alternativa, de que pelo menos uma
das populaes fornece observaes maiores ou menores.
Consideremos uma partio da recta real em c classes A1, A2, ..., Ac e representemos
por nij=#{Xik, 1kni; XikAj}, 1ip; 1jc
Com a notao introduzida anteriormente, podemos construir a seguinte tabela de
contingncia
Maria Eugnia Graa Martins

Anlise de Dados

154

A1

A2

Aj

Ac

X1

n11

n12

n1j

n1c

n1

X2

n21

n22

n2j

n2c

n2

ni1

ni2

nij

nic

ni

np1

np2

npj

npc

np

n.1

n.2

n.j

n.c

q
Xi
q
Xp

em que a margem vertical fixa, isto , conhecida antes do preenchimento da tabela,


pois constituda pelas dimenses das amostras recolhidas das p populaes, que
representmos por X1, X2, q, Xp.
Representemos por pj|i, a probabilidade de um elemento da amostra Xi, pertencer
classe Aj. A hiptese de homogeneidade que se pe
H0: pj|1= pj|2=q= pj|p para 1jc
a qual vai ser testada contra a alternativa
H1: Existe um par (i,k) com ik, tal que pj|i pj|k
Para obter a estatstica de teste e a respectiva distribuio de amostragem (assinttica),
vamos utilizar a seguinte metodologia, recordando o que fizmos quando estudmos o
teste de ajustamento do Qui-quadrado:
1. Se pjIi for conhecido , para todo o i, tal que 1ip
c

(n ij n i p jIi ) 2
n i p jIi

j=1

tem uma distribuio assinttica de um c2 1

2. Como as amostras so independentes, temos p situaes multinomiais


independentes, pelo que
p

(n ij n i p jIi ) 2
n i p jIi

i=1 j=1

tem uma distribuio assinttica de um p2(c 1)

3. Normalmente tero de se estimar os pjIi, pelo que se H0 verdadeira, teremos


como estimadores p jIi =
j que

jIi

n. j
n

, com 1jc, dos quais s (c-1) so independentes,

=1

j=1

4. Ento teremos como estatstica de teste

Maria Eugnia Graa Martins

Anlise de Dados

155

(n ij n i

X =
2

i=1 j=1

ni

n. j
n

p jIi

)2

com uma distribuio assinttica de um (2p1)(c 1)

j que p(c-1)-(c-1)=(p-1)(c-1).
Regra de deciso para o nvel de significncia :
Rejeitar H0 para x2 2(1 ) (p1)(c 1) (Quantil de probabilidade (1-) de um (2p1)(c 1) ).
Alternativamente, calcula-se para o valor observado x 02 , a probabilidade P=P(X2 x 02 ,) e
rejeita-se H0 para P.

Exemplo 5.17 O Senhor Afonso, director da Academia de Manequins Continental, tem muito orgulho
na sua escola e argumenta que os seus manequins so melhores profissionais do que os da sua
concorrente, a Senhora D. Brbara, dos Modelos Jovens. Numa avaliao destas duas escolas de
manequins, as classificaes obtidas pelos manequins foram:
Muito Bom

Suficiente

Medocre

Total

Afonso

10

45

60

Brbara

35

11

50

Total

14

80

16

110

Com base nas classificaes, haver evidncia para duvidar de que as duas escolas fornecem
profissionais do mesmo nvel?
Resoluo:

H0:

P(Muito Bom|Afonso)= P(Muito Bom|Brbara);


P(Suficiente|Afonso)= P(Suficiente|Brbara);
P(Medocre|Afonso)= P(Medocre |Brbara);

H1:

Alguma das igualdades anteriores no se verifica

Estatistica de Teste: X2 que, sob H0, tem distribuio assinttica de um (22 1)(31) .
Sob H0, o valor observado da estatstica de teste, obtm-se da seguinte forma:

x 02 =

14 2
)
110
14
60
110

(10 60

80 2
)
110
80
60
110

( 45 60

16 2
)
110
16
60
110

(5 60

14 2
)
110
14
50
110

( 4 50

80 2
)
110
80
50
110

(35 50

16 2
)
110
16
50
110

(11 50

= 5.20

Consultando uma tabela do Qui-quadrado com 2 graus de liberdade, ou o Excel, vem que
P(X

5.20)=0.074274.

Deciso: Rejeitar a hiptese de que os manequins das duas escolas tm o mesmo nvel, para 7.43%.

Maria Eugnia Graa Martins

Anlise de Dados

156

5.5. Testes de hipteses em modelos no paramtricos para testar a


independncia de vrias populaes
5.5.1 Teste do Qui-quadrado em tabelas de contingncia para testar a
independncia de duas populaes
Consideremos uma amostra de dados bivariados (Xi, Yi), i=1, ...,n, tendo (X, Y) funo
de distribuio conjunta F(x,y) com marginais F1(x) = F(x,+) e F2(y)=F(+,y).
Pretendemos testar
H0: F(x,y)=F1(x) F2(y) (x,y)R2

contra

H1: F(x,y)F1(x) F2(y) para algum (x,y)R2,

isto , face a uma amostra aleatria (Xi, Yi), i=1,...,n, pretendemos testar a
independncia do par (X,Y).
Para obter a estatstica de teste comeamos por dividir o suporte da varivel aleatria X
em p classes A1, A2, ..., Ap, disjuntas e o suporte da varivel aleatria Y em c classes
B1, B2, ..., Bc, disjuntas. Representemos por
nij= #{(xk, yk): xkAi, ykBj},

ni.=

n.j=

n ij

j=1

pij= P(XAi e YBj)

ij

i=1

A1
A2

B1
n11
n21

B2
n12
n22

Bj
n1j
n2j

Bc
n1c
n2c

n1.
n2.

Ai

ni1

ni2

nij

nic

n3.

Ap

np1
n.1

np2
n.2

npj
n.j

npc
n.c

np.

pi.= P(XAi), p.j= P(YBj), i=1,...,p; j=1,...,c

Com a notao introduzida anteriormente, as hipteses a testar tm a forma


H0: pij= pi. p.j, (i,j)

contra

H1: pij pi. p.j, para algum (i,j)

Estatstica de teste:
Se as probabilidades pij forem conhecidas, a estatstica de teste que se utiliza
p

X2=
i=1 j=1

(n ij np ij ) 2
np ij

Maria Eugnia Graa Martins

que, sob H0, tem uma distribuio assinttica de um (2pc 1)

Anlise de Dados

157

Se as probabilidades pij no forem conhecidas, vamos substitu-las pelas suas


estimativas, as quais sero, se H0 verdadeira
n.j
)
)
)
)
n
)
p ij = p i. p . j onde p i. = i. e p . j =
.
n
n

Ento a estatstica de teste tem a forma


X2=

i=1 j=1

(n ij n i.n . j / n) 2
n i.n . j / n

que, sob H0, tem uma distribuio assinttica de um (2p1)(c 1) .


Observao: Como estimmos (p-1) + (c-1) parmetros, o nmero de graus de
liberdade vem igual a pc-1-(p-1) (c-1)=(p-1)(c-1).
Chama-se a ateno para o facto de, embora a expresso seja anloga utilizada no
teste de homogeneidade, o significado da estatstica de teste, aqui, substancialmente
diferente. Assim, num teste de homogeneidade, uma das margens da tabela de
contingncia fixa, pois constituda pelas dimenses das amostras que estamos a
testar. Num teste de independncia, nenhuma das margens fixa.

Regra de deciso para o nvel de significncia :


Rejeitar H0 para x2 2(1 ) (p1)(c 1) (Quantil de probabilidade (1-) de um (2p1)(c 1) ).
Alternativamente, calcula-se para o valor observado x 02 , a probabilidade P=P(x2 x 02 ,) e
rejeita-se H0 para P.
Regra prtica: Como a distribuio da estatstica de teste assinttica, convm que as
clulas no tenham valores esperados muito pequenos. Como regra prtica, utiliza-se a
seguinte: No mximo, 20% das clulas podem ter frequncia esperada <5 e nenhuma
clula deve ter frequncia esperada <1.

Exemplo 5.18 Para estudar se haveria alguma relao entre a sensibilidade da pele ao Sol e a cor
dos olhos, considerou-se uma amostra de 100 pessoas que foram sujeitas a uma dose de raios ultravioletas, tendo-se obtido os seguintes resultados:

Cor dos olhos

Tire concluses.

Maria Eugnia Graa Martins

Azul
Cinzenta ou verde
Castanha

++
19
7
1

Reaco
+
27
8
13

4
5
16

Anlise de Dados

158

Resoluo: Vamos testar as seguintes hipteses


H0: Existe independncia entre a sensibilidade da pele e a cor dos olhos
Contra
H1: No existe independncia
2

A estatstica de teste X tem uma distribuio assinttica de um (24 ) . O valor observado da estatstica de
2

teste x =25.13, donde P(X 25.13)<.0001, pelo que rejeitamos a hiptese nula. Assim, conclumos que
h evidncia para dizer que a cor dos olhos no independente da sensibilidade da pele.

5.5.2 Coeficiente de correlao ordinal de Spearman


Consideremos uma amostra de dados bivariados (Xi, Yi), i=1, ...,n, de uma populao
contnua (X, Y).
Pretende-se arranjar um ndice que sirva para medir a dependncia ou inter-relao
entre a varivel X e a varivel Y.
Considera-se como hiptese nula
H0: No existe relao entre as variveis X e Y, isto , elas so independentes.
Observao: Num modelo paramtrico e Normal, X e Y so independentes sse o
coeficiente de correlao igual a 0, isto , testar H0 equivalente a testar H0: =0,
pelo que natural usar o coeficiente de correlao amostral.
Processo para construir a estatstica de teste:
O coeficiente de correlao ordinal de Spearman, RS, que o ndice que procuramos,
essencialmente o coeficiente de correlao amostral, em que os Xis e os Yis so
substitudos pelas suas ordens:
n

R=

(X

i=1

i=1

(R

X)( Yi Y )

( X i X)

( Yi Y )

i =1

RS=

R )(S i S )

i=1

i=1

(R i R ) 2

(S

S)2

i=1

Para obter as ordens Ri= ordem de Xi e Si= ordem de Yi, ordenam-se as amostras dos
Xis e os Yis separadamente. Como se admite que tm distribuio contnua,

Maria Eugnia Graa Martins

Anlise de Dados

159

obteremos um nico conjunto de ordens, isto , no existem (teoricamente) ligaes


entre os Xis, nem entre os Yis.
O facto de os dados com que estamos a trabalhar serem ordens, permite simplificar a
frmula de RS. Para j, podemos escrever
n

R S
i

(1)

RS=

nR S

i=1

2
i

n R 2 )(

i =1

2
i

nS 2 )

i=1

Representando por Di=Ri Si


D i2 = R i2 + S i2 -2RiSi
n

Ri =

i=1

Si =

i=1

i =
i=1

R = S = i
2
i

2
i

i=1

i=1

n(n + 1)
2

i=1

n(n + 1)( 2n + 1)
6

Ento
n

R S

(2)

i=1

(3)

=S=

n(n + 1)( 2n + 1)
6

D
i=1

2
i

(n + 1)
2

Introduzindo em (1) as simplificaes obtidas, vem


n

12

RS=

R S
i

i=1
2

n(n 1)

-3

(n + 1)
n 1

ou
n

RS= 1 - 6

2
i

i=1
2

n(n 1)

Maria Eugnia Graa Martins

Anlise de Dados

160

Observemos que as ordens de X e Y esto completamente de acordo sse Ri=Si, i, e


em completo desacordo sse Ri = n+1 Si.
A diferena Di entre Ri e Si mede o grau de no associao entre Ri e Si, no sentido de
que Di=0 quando Ri=Si, o que implica RS=1 e

D i2 =

i=1

n(n 2 1)
3

quando Ri+Si=n+1, o que

implica RS=-1.
Assim, o grau mximo de associao verifica-se para |RS|=1:
Quando RS=1, existe uma associao directa;
Quando RS=-1, existe uma associao indirecta
Pequenos valores de RS, tendem a suportar a hiptese H0 de no associao entre X e
Y.
Regra de deciso, utilizando a estatstica RS:
H0

H1

Rej H0

P-value, sob H0

No existe
associao

Existe associao
directa

RSc1

P(RSr0)

Existe associao indirecta

RSc2

P(RSr0)

Existe associao

|RS|c

2min[P(RSr0), P(RSr0)]

onde r0 o valor observado da estatstica de teste.

A partir da expresso de RS
n

12

RS=

vem que E(RS)=

12
n(n 2 1)

E(

R S
i

i=1
2

n(n 1)

-3

(n + 1)
n 1

n +1

R S ) -3 n - 1
i

i=1

Sob H0, E(R i S i ) = E(Ri)E(Si)


=(

n +1 2
)
2

(Observao: Cada um dos Ri (ou Si) uma v.a. que, sob H0, assume o valor i, i=1,...,n, com
probabilidade 1/n).

pelo que, E(RS) = 0. Pode-se demonstrar que, sob H0, Var(RS)=


grande a distribuio de
n - 1 RS pode ser aproximada pela N(0,1).
Maria Eugnia Graa Martins

1
, donde, para n
n -1

Anlise de Dados

161

Clculo da distribuio exacta da estatstica RS


Para calcular os pontos crticos necessrios para obter a regio de rejeio,
necessitamos da distribuio de RS, sob a validade de H0.
Sem perda de generalidade, admitamos que Ri=i, para i=1,...,n. Ento Di=i-Si, para
i=1,...,n. Sendo H0 verdadeiro, isto , X e Y independentes, temos n! possibilidades para
os pares (i, Si), i=1,...,n, todas elas igualmente provveis. Assim, sob H0,
P(RS=r)=

n depossibilidades para as quais R S = r


n!

RS pode assumir valores pertencentes ao intervalo [-1, 1], e a distribuio de RS


simtrica relativamente ao ponto 0.
Exemplo: Clculo da distribuio exacta para n=3
n

is

(s1, s2, s3)

12

r=

is

-3

i=1
2

3(3 1)

(1, 2, 3)

14

1.0

(1, 3, 2)

13

.5

(2, 1, 3)

13

.5

(2, 3, 1)

11

-.5

(3, 1, 2)

11

-.5

(3, 2, 1)

10

-1.0

(3 + 1)
3 1

Ento
RS=r

-1

-.5

.5

PH0 (R S = r )

1/6

2/6

2/6

1/6

Para n=4, obter-se-ia, de forma idntica,


RS=r

-1

-.8

-.6

-.4

-.2

.2

.4

.6

.8

PH0 (R S = r )

1/24

3/24

1/24

4/24

2/24

2/24

2/24

4/24

1/24

3/24

1/24

Maria Eugnia Graa Martins

Anlise de Dados

162

Exemplo 5.19 Dois juzes ordenaram 4 provas do seguinte modo:


Juiz 1:

Juiz 2:

Verifique se haver evidncia da existncia de associao entre as ordens.


Vamos testar as seguintes hipteses:
H0: No existe associao

contra

H1: Existe associao

i si = 2+8+9+4=23
O valor observado da estatstica de teste r0=-.4, donde P(|RS|.4)=18/24=.75, pelo que decidimos no
rejeitar H0.

Observao: No caso de existir um nmero pequeno de ligaes, atribui-se a mdia das


ordens e usa-se a mesma distribuio para calcular o P-value.

5.5.3 ndice de Friedman


Do mesmo modo que a estatstica de Kruskal-Wallis generaliza a estatstica de MannWhitney, tambm o ndice de Friedman generaliza a ideia do coeficiente de correlao
ordinal de Spearman.
Suponhamos ento que temos uma amostra aleatria (Xi1, Xi2, ..., XiI). i=1, ..., m, de
uma populao de tipo contnuo, multivariada de ordem I.
Observao: No caso do coeficiente de correlao ordinal tnhamos
(X11, X12, ..., X1I)
(X21, X22, ..., X2I).
ou seja, m=2 ordenaes.
As observaes podem ser arranjadas em m linhas e I colunas, chamando-se blocos s
linhas e tratamentos s colunas.
Friedman sugeriu que se substitusse cada observao, pela sua ordem no bloco
respectivo. Admitamos que no existem ligaes. Ento, inicialmente tnhamos um
conjunto de observaes, em que cada observao foi substituda pela sua ordem (no
bloco correspondente):

Maria Eugnia Graa Martins

Anlise de Dados

163

X11

X12

...

X1I

X21

X22

...

X2I

...

...

...

...

Xm1

Xm2

...

XmI

R11

R12

...

R1I

R21

R22

...

R2I

Rm1

Rm2

...

RmI

Muito possivelmente o conjunto dos dados para anlise j nos so fornecidos na forma
de ordenaes.
Outra forma de apresentar os dados dizer que temos I objectos (tratamentos),
classificados por m juzes (blocos):
Obj

R11

R21

...

...

R12

...

R1I

R22

...

R2I

Juiz

...

...

...

...

...

Ri1

Ri2

...

...

...

RiI

Rm1

Rm2

...

RmI

...
m

Em geral, quando vrios juzes ordenam vrios itens, ou quando obtemos vrias
ordenaes, esperamos que haja correlao entre as ordenaes e precisamente
isso que pretendemos testar. Assim, as hipteses que nos interessam considerar so:
H0: Existe independncia entre as ordenaes (os tratamentos tm todos o mesmo
efeito)
contra
H1: No existe independncia entre as ordenaes
Vamos utilizar uma estatstica de teste muito semelhante estatstica de Kruskal-Wallis,
(K-W), na forma e na distribuio.
Para calcular a estatstica de K-W, substitumos cada observao pela sua ordem, na
amostra conjunta, com o objectivo de comparar cada observao com outra qualquer.
Aqui no faz muito sentido comparar observaes correspondentes a linhas diferentes,
pelo que a cada linha corresponde uma observao.

Maria Eugnia Graa Martins

Anlise de Dados

164

Seja Rj a soma das ordens correspondentes ao j-simo objecto, ou seja,


correspondente j-sima coluna, j=1, ..., I. Se existir independncia entre as
ordenaes, esperamos que sob H0
E(Rj) =

E(R ij ) =

i =1

i
i=1

i=1

m(I + 1)
2

A soma dos quadrados dos desvios de Rj, relativamente a E(Rj) , por conseguinte,
uma medida das diferenas nas classificaes dos diferentes objectos. Seja
I

m(I + 1)

S=

R j
2
i=1

Pode-se mostrar que S ser igual a 0 se todos os Rj forem iguais (R1=R2=...=RI =


m(I + 1)
), pelo que um valor grande desta estatstica denotar um afastamento da
2

hipteses dos Rj serem iguais ou sensivelmente iguais.


Pode-se mostrar que (ver mais frente), sob H0:
Var(Rj) =

Ento, a distribuio de

Rj

m(I + 1)
2

m(I 2 1)
12

m(I 2 1)
12

assintoticamente N(0,1), pelo que

m(I + 1)
I R j

tem uma distribuio assinttica de um 2 , ou seja,


2
(I1)

2
m(I 1)
j=1

12

F*=

m(I 2

R
1)

12

j =1

m(I + 1)
tem uma distribuio assinttica de um (2I1) . Mostraremos
2

mais frente que E(S)=

Im(I 2 1)
, pelo que a estatstica
12

F=

Maria Eugnia Graa Martins

12
mI(I + 1)

j=1

m(I + 1)

R j
2

Anlise de Dados

165

tem valor mdio (I-1), dependendo, portanto, unicamnete do nmero de objectos que se
pretendem ordenar. esta estatstica F, que se utiliza como estatstica de Friedman.
Outra forma de apresentar a estatstica F, a seguinte
F=

12
mI(I + 1)

2
j

-3m(I+1)

j=1

A distribuio exacta de F est tabelada, e a distribuio assinttica , como vimos


anteriormente, um (2I1) .
Regra de teste: Rejeitar H0, para valores grandes da estatstica de teste.
Complementos:
1) Mostrar que, sob H0, Var(Rj) =

m(I 2 1)
12

Var(Rj)=E( R 2j ) E2(Rj)
m

E( R 2j ) =E(

ij

)2

i =1

E(R

2
ij ) +

i=1

=m
=

1
I

E(R

ij )E(R kj ) ,

+m(m-1)

i=1

(I + 1) 2
4

m(I + 1)
[(I-1)+3m(I+1)]
12

Tendo em conta que E(Rj)=


2) Mostrar que E(S)=
I

E(S) =

com ik

i=1 k =1

E(R 2j ) +

j=1

m(I + 1)
, vem o resultado pretendido.
2

Im(I 2 1)
12

m(I + 1)
Im 2 (I + 1) 2
-2
4
2

E(R )
j

j=1

Im(I + 1)
m(I + 1) Im(I + 1)
Im 2 (I + 1) 2
[(I-1)+3m(I+1)]+
-2
12
4
2
2

Im(I 2 1)
12

Maria Eugnia Graa Martins

Anlise de Dados

166

Exemplo 5.20 Num festival da cano, em que concorreram 7 pases, o jri, constitudo por 3
elementos, ordenou as canes pela seguinte ordem:
Portugal

Espanha

Frana

Suia

Itlia

Blgica

Reino Unido

Juiz 1

Juiz 2

Juiz 3

Soma ordens

11

14

20

10

12

Pretende-se saber se existe evidncia de alguma das canes ser preferida, relativamente s restantes.
Resoluo: Pretende-se testar as hipteses
H0: Existe independncia entre os juzes

contra

H1: No existe independncia

ou as canes so equivalentes

ou algumas canes so melhores

A estatstica de teste F tem, sob H0, uma distribuio assinttica de um (26 ) e o valor observado de F,
f =

12
3 7(7 + 1)

2
j

-98

j=1

1
(81+121+64+196+400+100+144)-72
14

=7
Para I=7 e m=3, no temos a distribuio exacta da estatstica de teste, pelo que utilizamos a distribuio
assinttica, obtendo-se.30<P(F7)<.40, pelo que decidimos no rejeitar H0, para os nveis usuais de
significncia, ou seja, no h evidncia para dizer que os juzes combinaram a classificao.

Exemplo 5.21 Decidiu-se testar 3 tipos de raes para animais. Escolheram-se 3 grupos de 5 porcos
cada um, em que cada grupo de porcos foi escolhido dentro da mesma ninhada. Apresentamos na
seguinte tabela, os aumentos de pesos (em Kg):
Rao

3.0

7.3

6.1

4.9

6.4

6.0

6.7

9.2

4.5

8.9

3.8

7.4

6.3

7.2

6.5

Pretende-se testar a hiptese


H0: No existe diferena entre as raes, isto , os tratamentos so equivalentes, ou ainda, existe
independncia entre as ordenaes
Para aplicar o teste de Friedman, vamos considerar as ordens
A
1
2
1
2
1
7

Maria Eugnia Graa Martins

B
3
1
3
1
3
11

C
2
3
2
3
2
12

Anlise de Dados

167

A estatstica F tem, sob H0, uma distribuio assinttica de um (22 ) , e o valor observado de F f=2.8.
Consultando a tabela para m=5 e I=3, verificamos que P(F2.8)>0.10, pelo que no rehjeitamos H0, ou
seja, no temos evidncia para dizer que as raes no aso equivalentes.

Maria Eugnia Graa Martins

You might also like