Professional Documents
Culture Documents
Maro 2009
NDICE
5.3.2
5.3.3
Bibliografia
Conover, W.J. (1980) Practical Nonparametric Statistics, John Wiley & Sons
De Veaux, R. Et al. (2004) Intro Stats, Pearson, Addison Wesley
Graa Martins, M. E. (2005) Introduo Probabilidade e Estatstica Com complementos de
Excel, SPE
Graa Martins, M. E. et al. (1999) Probabilidades e Combinatria, Ministrio da Educao,
Departamento do Ensino SEcundrio
Mendenhall, W., et al. (1987) Statistics: a Tool for the Social Sciences, PWSKent
Montgomery, D. et al. (1999) Applied Statistics and Probability for Engineers, John Wiley & Sons,
Inc. New York
Murteira, B. et al. (2002) Introduo Estatstica, McGraw-Hill de Portugal
Sprent, P. (1989) Applied Nonparametric Statistical Methods, Chapman and Hal
Tannenbaum. P. et al. (1998) Excursions in Modern Mathematics, Prentice Hall
Anlise de Dados
Aquisio de dados
Anlise de Dados
Vamos, numa das seces seguintes, abordar o primeiro tema considerado, ou seja o
que diz respeito Aquisio de Dados, numa perspectiva de que pretendemos obter
dados, para respondermos a determinadas questes, isto , para posteriormente
retirarmos concluses para as Populaes a partir das quais esses dados so
adquiridos contexto em que tem sentido fazer inferncia estatstica. Vamos assim,
preocupar-nos em obter amostras representativas de Populaes que se pretendem
estudar.
Anlise de Dados
verificar cara 0.324 (ao fim de 1000 lanamentos verificou-se uma certa estabilidade volta deste valor)
e o valor aproximado para a probabilidade de sair coroa ser 0.676.
Como a populao era numerosa, podemos admitir que o nmero de estudantes que praticam desporto,
em 10 estudantes retirados aleatoriamente da populao, bem modelado pelo modelo Binomial, de
parmetros 10 e 0.3 (a composio da populao praticamente no se altera, quando retiramos alguns
elementos, pelo que podemos admitir que temos provas de Bernoulli). Trata-se de um problema de
probabilidade. Pode, no entanto, suceder, que p seja desconhecido, sendo esta, alis, a situao mais
corrente. Ento, neste caso, vamos utilizar a informao sobre o nmero de praticantes de desporto na
amostra de 10, nomeadamente a proporo x/n, para tirar concluses sobre a proporo de praticantes
de desporto da populao. Trata-se de um problema de inferncia estatstica.
EXEMPLO 1.3 Sabe-se que determinado tipo de componentes electrnicas tem um tempo de vida
que no depende da idade, isto , a falha pode ocorrer em qualquer instante e no depende de h
quanto tempo as componentes j esto em funcionamento. Sabe-se ainda que estas componentes
podem falhar em qualquer altura, no tendo, portanto, um tempo de garantia. Se se souber que o tempo
mdio at falha 100 horas, ento o tempo de vida T, deste tipo de componentes, pode ser bem
Anlise de Dados
modelado por uma exponencial, com funo densidade de probabilidade e funo distribuio,
respectivamente
f (t) =
1
t
exp(),
100
100
t>0
F(t) = 1 exp(-
t
)
100
Ento, assumindo o modelo anterior, podemos calcular, por exemplo, a probabilidade de uma destas
componentes no falhar antes de 200 horas:
P(T>200) = 1 F(200) = exp(-2) = 0.135
Na realidade, a situao corrente que aquele valor mdio desconhecido e o modelo probabilstico
para o tempo de vida das componentes conhecido a menos de um parmetro, sendo a sua funo
densidade
f(t) =
1
t
exp(- ),
>0, t>0
Como estimar ? Um estimador natural considerar uma amostra de n componentes que se colocam em
teste, observar os tempos at falha e tomar a mdia desses tempos, como estimativa do tempo mdio
at falha, j que, no modelo exponencial tal como foi apresentado anteriormente, o parmetro o
valor mdio de T.
EXEMPLO 1.4 Numa Universidade os inquritos pedaggicos so lidos atravs de leitura ptica.
Sabe-se que estes leitores, embora raramente, podem cometer alguns erros. Um processo de controlar a
qualidade da leitura seleccionar aleatoriamente uns tantos inquritos e verificar quantos erros foram
cometidos pela leitura ptica, em cada um dos inquritos.
Admitindo que o nmero de erros, Z, por inqurito, pode ser bem modelado por uma Poisson, temos para
funo massa de probabilidade da v.a. Z
P(Z=k) = exp-
k
, k=0, 1, 2, ...
k!
Se soubermos que, em mdia, se detectam 0,2 erros por pgina, podemos calcular, por exemplo, a
probabilidade de no encontrarmos nenhum erro num inqurito escolhido aleatoriamente. Efectivamente,
neste caso, =0.2, pelo que a probabilidade pretendida ser P(Z=0) = exp(-0.2) (0.2)0/0!= 0,82. No
entanto, numa situao em que, partida, no se conhea o desempenho dos leitores pticos, ter de se
estimar o parmetro . Uma estimativa para este parmetro obtm-se seleccionando alguns inquritos j
lidos, e depois de contar o nmero de erros cometidos em cada um, calcular a mdia dos valores obtidos.
EXEMPLO 1.5 Uma equipa mvel de colheita de sangue, estacionada no Saldanha, interpela as
pessoas que passam, no sentido de as sensibilizar a darem sangue, investigando nomeadamente o seu
Maria Eugnia Graa Martins
Anlise de Dados
grupo sanguneo. Qual a probabilidade de, em certo dia, s encontrarem um indivduo de grupo O RH-,
ao 10 indivduo que abordam? Estamos numa situao em que temos uma populao constituda por
indivduos pertencentes a uma de 2 categorias ter sangue O RH-, ou no ter este tipo de sangue.
Pretendemos fazer um raciocnio probabilstico sobre a varivel aleatria X, que representa o nmero de
indivduos inquiridos (insucessos) at se encontrar um com sangue O RH- (sucesso). Para obter um
modelo probabilstico para esta varivel aleatria, vamos comear por admitir que desta experincia
aleatria, que consiste em perguntar a cada indivduo o seu grupo sanguneo, resultam provas de
Bernoulli: efectivamente em cada prova podemos ter sucesso ou insucesso e podemos considerar as
provas independentes, com probabilidade de sucesso constante, uma vez que, embora a populao seja
finita, as provas ainda podem ser consideradas independentes, pois a dimenso da amostra
seleccionada muito pequena, quando comparada com a dimenso da populao.
Ento, se representarmos por p a proporo de indivduos da populao com sangue O RH-, um modelo
para X (modelo geomtrico) ser
P(X=k) = (1-p)k-1p, k=1, 2, ...
Se conhecermos o valor de p, por exemplo, 6%, podemos calcular a probabilidade pretendida:
P(X=10) = (1-0.06)9 0.06 = 0.034
E se a probabilidade p for desconhecida? Neste caso temos de a estimar. Tendo em considerao que o
valor mdio de X 1/p, uma estimativa natural para p pode ser obtida recolhendo uma amostra, em que
cada elemento o nmero de indivduos abordados at se obter sucesso, calcular a mdia dessa
amostra e considerar como estimativa de p, o inverso da mdia obtida.
EXEMPLO 1.6 O sr. Silva, industrial txtil, decidiu comear a fabricar camisas de homem, destinadas
a serem vendidas em Portugal. Precisava de ter alguma informao sobre os moldes que devia utilizar,
nomeadamente sobre o comprimento R, adequado para as mangas. Um estatstico, a quem pediu ajuda,
passado algum tempo, sugeriu-lhe o modelo Normal. O sr. Silva ficou muito espantado, pois tinha alguns
estudos, embora poucos, de Estatstica e uma das coisas que se lembrava era de que o suporte do
modelo Normal era R. Ora ns sabemos que o comprimento do brao necessariamente positivo! Na
verdade, o que acontece que se tentassemos encontar um modelo com suporte positivo, teramos
grandes dificuldades e na realidade, adoptando um modelo normal, com valores convenientes para os
parmetros valor mdio () e desvio padro (), podemos verificar, que a probabilidade de obtermos
valores para R inferiores a determinado valor praticamente nula. Estes valores convenientes so
estimados a partir de uma amostra de comprimentos de braos de homem, para a qual se calculam a
mdia e o desvio padro, que so utilizados como estimativas dos parmetros desconhecidos.
Anlise de Dados
Anlise de Dados
material of which statistical information is made, and in order to get good statistical
information one needs good data.
Sondagem, Populao, Amostra
Populao, unidade, amostra
Populao o conjunto de objectos, indivduos ou resultados experimentais acerca do
qual se pretende estudar alguma caracterstica comum. As Populaes podem ser
finitas ou infinitas, existentes ou conceptuais. Aos elementos da populao chamamos
unidades estatsticas.
Amostra uma parte da populao que observada com o objectivo de obter
informao para estudar a caracterstica pretendida.
O objectivo de uma sondagem o de recolher informao acerca de uma populao,
seleccionando e observando um conjunto de elementos dessa populao.
Sondagem Estudo estatstico de uma populao, feito atravs de uma amostra,
destinado a estudar uma ou mais caractersticas tais como elas se apresentam nessa
populao.
Se se observarem todos os elementos da populao tem-se um recenseamento
Geralmente, h algumas quantidades numricas acerca da populao que se
pretendem conhecer. A essas quantidades chamamos parmetros. Os parmetros so
estimados por estatsticas, que so nmeros calculados a partir da amostra. Estas
quantidades so conceptualmente distintas, pois enquanto a caracterstica populacional
pode ser considerada um valor exacto, embora desconhecido, a caracterstica amostral
conhecida, embora contendo um certo erro, inerente amostra seleccionada, mas
que todavia pode ser considerada uma estimativa til da caracterstica populacional
respectiva.
Anlise de Dados
Populao
Amostra
Parmetro
Estatstica
Anlise de Dados
distintas que se podem recolher da populao. Isto implica que cada amostra tenha a
Anlise de Dados
mesma probabilidade
10
N
n
n1
. No entanto existem outros
N
N 1
. A probabilidade de qualquer elemento no ser
O n de amostras de n elementos que no contm um dado elemento
n
N 1 N
/ , ou seja (N-n)/N. Assim, a probabilidade de um determinado elemento ser seleccionado
includo portanto igual a
n n
1
Anlise de Dados
11
19223
95034
05756
28713
96409
12531
42544
82853
102
73676
47150
99400
01927
27754
42648
82425
36290
103
45467
71709
77558
00095
32863
29485
82226
90056
104
52711
38889
93074
60227
40011
85848
48767
52573
105
95592
94007
69971
91481
60779
53791
17297
59335
106
68417
35013
15529
72765
85089
57067
50211
47487
107
82739
57890
20807
47511
81676
55300
94383
14893
108
60940
72024
17868
24943
61790
90656
87964
18883
109
36009
19365
15412
39638
85453
46816
83485
41979
A partir da tabela de dgitos aleatrios podem-se obter nmeros aleatrios de 2 dgitos qualquer par dos 100 pares possveis 00, 01, 98, 99, tem igual probabilidade de ser
seleccionado, de 3 dgitos - qualquer triplo dos 1000 triplos possveis 000, 001, 998,
999, tem igual probabilidade de ser seleccionado, etc, tomando os dgitos da tabela 2 a
2, 3 a 3, etc, a partir de uma linha qualquer e percorrendo-a da esquerda para a direita.
Para seleccionar uma amostra de uma populao utilizando a tabela procede-se em
duas etapas:
1. atribui-se um nmero a cada elemento da populao. Esta atribuio ter de
ser feita com as devidas precaues, de forma a que cada nmero tenha o
mesmo nmero de dgitos, para ter igual probabilidade de ser seleccionado;
2. a partir da tabela escolhe-se uma linha ao acaso e comea-se a percorr-la da
esquerda para a direita, tomando de cada vez os dgitos necessrios.
EXEMPLO 1.7 Considerando a populao constituda por 18 alunos de uma turma, vamos numerlos com os nmeros 01, 02, 03, , 17, 18 (podia ser utilizado qualquer outro conjunto de 18 nmeros de
2 dgitos). Para seleccionar uma amostra de dimenso 4 fixamo-nos numa linha qualquer da tabela, por
exemplo a linha 107 e comeamos a seleccionar os nmeros de dois dgitos, tendo-se obtido:
82
73
95
78
90
20
80
74
75
11
81
67
65
53
00
94
38
31
48
93
60
94
07
20
24
17
86
82
49
43
61
79
09
Anlise de Dados
12
Tivemos de ler 33 nmeros, dos quais s aproveitmos 4, pois os outros no correspondiam a elementos
da populao.
Consultar, por exemplo, Graa Martins, M. E. Introduo Probabilidade e Estatstica, Com complementos de Excel, 2005
Anlise de Dados
13
elementos a serem seleccionados so 67, 107, 147, etc. Obviamente que o quociente
entre a dimenso da populao e a da amostra no necessariamente inteiro, como
anteriormente, mas no h problema pois considera-se a parte inteira desse quociente.
Amostra aleatria sistemtica Dada uma populao de dimenso N, ordenada por
algum critrio, se se pretende uma amostra de dimenso n, escolhe-se aleatoriamente
um elemento de entre os k primeiros, onde k a parte inteira do quociente N/n. A partir
desse elemento escolhido, escolhem-se todos os k-simos elementos da populao
para pertencerem amostra.
A amostra aleatria sistemtica no uma amostra aleatria simples, j que nem todas
as amostras possveis de dimenso n, tm a mesma probabilidade de serem
seleccionadas. No entanto, se o quociente N/n for inteiro, mostra-se que a
probabilidade de qualquer elemento ser seleccionado igual a n/N3.
1.3.2.3 Amostra estratificada
Pode acontecer que a populao possa ser subdividida em vrias subpopulaes, mais
ou menos homogneas relativamente caracterstica a estudar. Por exemplo, se se
pretende estudar o salrio mdio auferido pelas famlias lisboetas, possvel dividir a
regio de Lisboa segundo zonas mais ou menos homogneas, estratos, quanto
caracterstica em estudo salrio mdio, e posteriormente extrair de cada um destes
estratos uma percentagem de elementos que iro constituir a amostra, sendo esta
percentagem, de um modo geral, proporcional dimenso dos estratos.
Amostra estratificada Divide-se a populao em vrias subpopulaes estratos, e
de cada uma destes estratos extrai-se aleatoriamente uma amostra. O conjunto de
todas estas amostras constitui a amostra pretendida.
EXEMPLO 1.8 - Suponhamos que se pretendia estudar o volume das vendas de prestao de
servios, das empresas de construo civil. Podemos partida considerar a Populao das empresas
3
Pensemos nos N elementos colocados em circulo e seja N=nk. Comecemos por fixar uma posio inicial j. A probabilidade de um
j=1
j=1
Anlise de Dados
14
aleatoriamente
algumas
empresas
considera-se
amostra
Anlise de Dados
15
1.3.4 Outros tipos de erro num processo de aquisio de dados, sem serem
erros de amostragem
1 - A populao inquirida diferente da populao alvo ou populao objectivo
2 Informao recolhida no verdadeira
3 Problema da no resposta
4 Erros de processamento
s =
(x
i =1
2
i x)
n 1
ou
s =
(x
x) 2
i =1
Quais as razes que nos podem levar a preferir uma das estatsticas relativamente
outra?
Um critrio que costuma ser aplicado o de escolher um bom estimador como sendo
aquele que centrado e que tem uma boa preciso. Escolhido um plano de
amostragem, define-se:
Estimador centrado Um estimador diz-se centrado quando a mdia das estimativas
obtidas para todas as amostras possveis que se podem extrair da Populao, segundo
o esquema considerado, coincide com o parmetro a estimar. Quando se tem um
estimador centrado, tambm se diz que no enviesado.
No captulo seguinte abordaremos com mais detalhe este assunto do no
enviesamento dos estimadores. Veremos assim, que uma das razes que nos levam a
preferir o estimador S2 para a varincia, relativamente a S2, o facto de praticamente
no apresentar enviesamento (Mostra-se mais frente que E(S2)=
N
2).
N 1
Anlise de Dados
16
Anlise de Dados
17
Anlise de Dados
18
Anlise de Dados
19
Anlise de Dados
20
N
1
2
3
4
5
6
7
8
9
Aluno
Maria
Teresa
Tiago
David
Rita
Ana
Joana
Bernardo
Leonor
Peso (kg)
12.5
11.6
13.4
14.1
12.0
10.8
11.9
12.7
9.6
Altura (cm)
65
68
61
64
59
69
58
61
63
N irmos
0
1
0
1
2
1
0
1
1
Val. mdio
12.07
63.11
0.78
Desvio padro
1.34
3.57
0.67
Mn.
9.6
58
0
Mx.
14.1
69
2
Mediana
12
63
1
Nome
Altura
Rita
59
Teresa
68
Joana
58
A mdia das alturas observadas 61.7, que uma estimativa da altura mdia da
Populao.
Como neste caso conhecemos o valor do parmetro, podemos dizer que a estimativa
est razoavelmente prxima do parmetro a estimar. Obviamente que se recolhermos
outras amostras, obteremos outras estimativas. Ento vamos seleccionar mais 9
amostras de dimenso 3, com o auxlio da tabela:
Anlise de Dados
Amostra
21
5 59
65
2 68
61
7 58
61
61
7 58
2 68
1 65
63
4 64
7 58
8 61
61
6 69
4 64
5 59
10
61
6 69
61
59
64
7 58
63
63
58
5 59
59
68
10
61.7
62.3
61.7
63.7
63.3
61.7
61.0
62.0
61.0
61.5
10
11
12
13
14
15
16
17
18
19
20
21
65
65
65
65
65
65
65
65
65
65
65
65
65
65
65
65
65
65
65
65
65
68
68
68
68
68
68
68
61
61
61
61
61
61
64
64
64
64
64
59
59
59
61
64
59
69
58
61
63
64
59
69
58
61
63
59
69
58
61
63
69
58
61
65.3 63.3 61.7 65.0 61.3 62.3 63.0 62.7 66.0 62.3 63.3 64.0 64.3 60.7 61.7
Anlise de Dados
Am.
22
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
65
65
65
65
65
65
65
68
68
68
68
68
68
68
68
68
68
68
68
68
68
59
69
69
69
58
58
61
61
61
61
61
61
61
64
64
64
64
64
59
59
59
63
58
61
63
61
63
63
64
59
69
58
61
63
59
69
58
61
63
69
58
61
63.0 64.3 62.7 66.0 62.3 63.3 64.0 63.7 67.0 63.3 64.3 65.0 65.3 61.7 62.7
Am.
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
68
68
68
68
68
68
68
61
61
61
61
61
61
61
61
61
61
61
61
61
61
59
69
69
69
58
58
61
64
64
64
64
64
59
59
59
59
69
69
69
58
58
63
58
61
63
61
63
63
59
69
58
61
63
69
58
61
63
58
61
63
61
63
64.0 61.3 64.7 61.0 62.0 62.7 63.0 59.3 60.3 61.0 62.7 63.7 64.3 60.0 60.7
Am.
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
61
64
64
64
64
64
64
64
64
64
64
59
59
59
59
59
59
69
69
69
58
61
59
59
59
59
69
69
69
58
58
61
69
69
69
58
58
61
58
58
61
61
63
69
58
61
63
58
61
63
61
63
63
58
61
63
61
63
63
61
63
63
63
64.7 65.3 61.0 61.7 62.7 62.0 63.0 63.7 59.3 60.0 61.0 62.7 63.3 64.3 60.7
Uma vez que o plano de amostragem considerado, foi a amostragem aleatria simples,
cada amostra tem igual probabilidade (=1/84) de ser seleccionada, pelo que podemos
considerar os diferentes valores obtidos para a varivel Mdia, assim como as
respectivas probabilidades ou seja, estamos em condies de considerar a seguinte
funo massa de probabilidade para a varivel Mdia, que vamos designar por Mdia3,
para realar o facto de as amostras a partir das quais se obtiveram os seus valores,
terem dimenso 3:
Mdia3
59.3
60.0
60.3
60.7
61.0
61.3
61.7
62.0
62.3
62.7
63.0
63.3
Prob.
2/84
2/84
2/84
3/84
4/84
4/84
5/84
4/84
5/84
7/84
5/84
6/84
Mdia3
63.7
64.0
64.3
64.7
65.0
65.3
65.7
66.0
66.7
67.0
67.3
Prob.
5/84
6/84
5/84
4/84
4/84
3/84
2/84
3/84
1/84
1/84
1/84
Anlise de Dados
23
Mdia3
Valor mdio
Desvio padro
Mnimo
Mximo
Mediana
63.11
1.79
59.3
67.3
62.83
Repare-se que:
o valor mdio da varivel Mdia3 coincide com o valor mdio da Populao Altura,
de onde se recolheram as amostras;
Anlise de Dados
24
60.4
60.6
60.8
61.0
61.2
61.4
61.6
61.8
62.0
62.2
62.4
62.6
62.8
63.0
0.079
Probab
0.008
0.008
0.008
0.016
0.016
0.032
0.024
0.040
0.040
0.056
0.063
0.048
0.063
Mdia5
63.2
63.4
63.6
63.8
64.0
64.2
64.4
64.6
64.8
65.0
65.2
65.4
65.8
Probab
0.063
0.071
0.056
0.056
0.048
0.048
0.048
0.024
0.024
0.024
0.016
0.016
0.008
Mdia5
Valor mdio
Desvio padro
Mnimo
Mximo
Mediana
63.11
1.13
60.4
65.8
63.1
Repare-se que:
Anlise de Dados
25
2 N -n
n
N -1
N - n S2
(
)
um estimador no enviesado da varincia da Mdia
N n
A expresso obtida para a varincia muito interessante pela informao que contm.
Nomeadamente:
Anlise de Dados
26
Permite-nos ainda concluir que, para obter a mesma preciso, quando estimamos
o valor mdio de Populaes da mesma dimenso, a dimenso da amostra ter de
ser tanto maior, quanto maior for a variabilidade presente na Populao.
Demonstrao:
Seja Y1, Y2, ...,Yn uma amostra aleatria simples de uma populao de valores {u1, u2, ..., uN}.
N
i=1
Yi por
Y,
tem-se E( Y )=
1
n
ui
1
=
N
e V(Yi)=
(u - )
i=1
N(N 1)
i j
1
N2
ui )2 =
i =1
N(N 1)
uiu j
N
uiu j
1
1
2
(
u
)
i
=
N
( N 1) N
i =1
i j
=-
1
N( N 1)
( u )
i
Var( Y ) =
n
1
2 + 2
n2
i< j
i =1
N 1 =
N2
=-
i =1
u )
i
i =1
N
N
u i )2
u i2
N
1 i =1
1
i =1
(
u i )2
N
N 1
N
i =1
n
n
1
1
Yi =
2 + 2
n
n2
i< j
i =1
i =1
i =1
N
N
1
1 1
2
ui
ui
N( N 1)
N N 1
i
=
1
i
=
1
= 2
i j
uiu j
2 1
1
N 1
Cov(Yi , Yj )
1 2 2 2 n (n 1)
n
N 1
2
n 2
=-
2.
ento
1
N n S2
, com S2=
N 1
N
n
2 N - n
n N-1
n
(Y Y )
i=1
2
, um estimador no enviesado de
Nn S
N 2
, donde E(
) = Var( Y ).
N
N -1
n
Anlise de Dados
27
2 N -n
n
N -1
). A
Anlise de Dados
28
2
n
. A
Anlise de Dados
29
2
, para a varincia da Mdia, com o resultado apresentado
Comparando o resultado
n
quando se faz amostragem sem reposio, nomeadamente
2 N -n
n
N -1
) , conclui-se que
1
1/5
2
1/5
3
1/5
4
1/5
5
1/5
Anlise de Dados
30
A metodologia seguida para obter a distribuio de amostragem consiste em obter todas as amostras de
dimenso 2, com reposio, calcular o valor da estatstica mdia para cada uma delas e depois
representar a distribuio dos valores obtidos:
Amostras
(1,1)
(1,2)
(1,3)
(1,4)
(1,5)
(2,5)
(3,5)
(4,5)
(2,1)
(2,2)
(2,3)
(2,4)
(3,4)
(4,4)
(5,4)
(3,1)
(3,2)
(3,3)
(4,3)
(5,3)
(4,1)
(4,2)
(5,2)
(5,5)
(5,1)
mdia
1.5
2.5
3.5
4.5
De acordo com a tabela anterior obtemos a seguinte distribuio de amostragem para o estimador
Mdia2 (assim representado por se obter a partir de amostras de dimenso 2)
Mdia2
Probabilidade
1.5
2.5
3.5
4.5
1/25
2/25
3/25
4/25
5/25
4/25
3/25
2/25
1/25
Algumas observaes:
O centro da distribuio de amostragem do estimador Mdia utilizado para estimar o valor mdio da
populao (igual a 3), coincide com o parmetro a estimar .
Anlise de Dados
31
Mdia3
1.33
1.67
2.33
2.67
3.33
3.67
4.33
4.67
Proba.
.008
.024
.048
.080
.120
.144
.152
.144
.120
.080
.048
.024
.008
Algumas observaes:
O centro da distribuio de amostragem do estimador Mdia3 utilizado para estimar o valor mdio da
populao (igual a 3), coincide com o parmetro a estimar .
calculada a partir de amostras de dimenso 3 0.816 ( 2 / 3 =0.816 o que condiz com o resultado
apresentado anteriormente, de que a varincia da Mdia 2/n).
Se a dimenso da Populao for muito grande, a probabilidade de extrairmos o mesmo elemento duas
vezes extremamente pequena. Assim, os dois processos de amostragem, com reposio e sem
reposio, so praticamente equivalentes, quando estamos a estimar a mdia populacional.
A concluso anterior vai de encontro com a que se pode obter tambm se tomarmos
ateno s varincias das Mdias de amostras de dimenso n, quando se faz extraco
com e sem reposio. Efectivamente o factor
N
n
Nn
=
(1 )
N-1
N
N1
que aparece na expresso da varincia num processo de amostragem aleatria simples
(sem reposio) assume um valor prximo de 1, quando N razoavelmente grande e n
Anlise de Dados
32
n
costuma-se
N
1.8 A forma da distribuio de amostragem da Mdia em populaes infinitas ou amostragem com reposio
Vimos anteriormente que o estimador Mdia um estimador centrado do valor mdio
da populao, quer a populao seja finita ou infinita e a amostragem com reposio ou
sem reposio. Vimos tambm a expresso para a varincia, em qualquer das
situaes consideradas.
Vamos agora admitir que estamos a realizar uma amostragem com reposio, ou que a
populao a estudar, X, infinita, situao em que a seleco de um elemento para a
amostra, pode ser considerada independente da seleco dos outros elementos. Assim,
consideremos a amostra aleatria (X1, X2, ..., Xn) onde as variveis aleatrias X1, X2, ...,
Xn so indepententes e identicamente distribudas a X, como se apresenta no seguinte
esquema:
Se tivermos k amostras de dimenso n, recolhidas da Populao X:
Populao X
1 amostra
x x ... x
2 amostra
x x ... x
k-sima amostra
x ... x
x
Anlise de Dados
33
(170, 160, 158, 168, 165, 159, 163, 159, 172, 150)
da amostra aleatria (X1, X2, , X10), em que todas as v.a. Xi, i=1,,10, so
independentes e tm distribuio Normal de valor mdio 165 e desvio padro 10.
Tendo em considerao o que foi dito anteriormente, podemos afirmar que
x1 , x 2 , , x k , so valores observados da varivel aleatria
n
X=
X
i =1
n
onde X1, X2, , Xn so variveis aleatrias independentes e com a mesma distribuio
que uma varivel aleatria X ( populao em estudo). Sendo a estatstica uma varivel
aleatria tem uma distribuio de probabilidades, a que damos o nome de distribuio
de amostragem, como j vimos nas seces consideradas anteriormente.
Anlise de Dados
34
Anlise de Dados
35
Var( X ) =
2
n
Anlise de Dados
36
X -
/ n
N(0,1)
S2 =
(X
i =1
X)2
n 1
X
S t(n -1)
n
Anlise de Dados
37
uma varivel aleatria X com valor mdio e varincia , finita, ento a distribuio da
soma Sn = X1+ X2+ + Xn, ou da mdia X =
Sn
tende a aproximar-se da distribuio
n
S n n
z ) (z)
n
P(
X
z ) (z)
O teorema limite central d-nos uma justificao terica para a grande utilizao da
distribuio Normal, como modelo de fenmenos aleatrios. Quantidades tais como
alturas e pesos de uma populao relativamente homognea, podem ser consideradas
como somas de um grande nmero de causas genticas e efeitos devido ao meio
ambiente, mais ou menos independentes entre si, cada um contribuindo com uma
pequena quantidade para a soma.
O que que se entende por um valor de n suficientemente grande?
Uma questo que se pode pr a seguinte: quando queremos aplicar o teorema do
limite central: qual o valor de n, para que se possa considerar que temos uma boa
aproximao para a distribuio Normal?
Este valor de n depende da distribuio subjacente amostra e ser tanto maior quanto
mais enviesada for a distribuio da populao (o termo enviesado aplica-se como
contrrio a simtrico).
Anlise de Dados
38
Anlise de Dados
39
2 =
2 = p (1- p)
A varincia de uma populao constituda por 0s e 1s, em que a percentagem de 1s
p, igual a p(1- p).
As concluses a que chegmos no captulo anterior, permitem-nos agora enunciar os
seguintes resultados:
Dada uma populao de dimenso N, em que p a percentagem de elementos da
populao que verificam determinada caracterstica, quando se considera um esquema
de amostragem aleatria simples, e como estimador de p, a proporo amostral p , isto
a proporo de elementos com a caracterstica em estudo, existente em amostras de
dimenso n, ento:
igual a
A varincia de p
p(1-p) N -n
(
).
n
N -1
O resultado terico conhecido como Teorema Limite Central toma agora a seguinte
expresso:
Suponhamos que uma amostra aleatria simples seleccionada de uma Populao de
dimenso grande, em que a caracterstica em estudo est presente numa proporo p
(desconhecida) Ento, se a dimenso n da amostra for suficientemente grande (um
valor que usual considerar como suficientemente grande 30), a distribuio de
p(1- p)
n
Anlise de Dados
40
=
proporo amostral p
X
, cujas propriedades podem ser deduzidas a partir do facto da
n
)=
E( p
E( X) np
=
=p
n
n
)=
Var( p
p(1 p)
),
n
Anlise de Dados
41
Introduo estimao
2.1 Introduo
Dada uma amostra, vimos que possvel fazer a sua reduo, atravs do clculo de
certas estatsticas. No entanto, a importncia destas caractersticas amostrais no se
fica por aqui, pois o nosso objectivo vai ser utiliz-las para inferir algo sobre a
populao subjacente amostra. Foi nesta perspectiva que falmos em utilizar:
i) a mdia x como estimativa do valor mdio ;
ii) a proporo p =x/n, onde x representa o n de sucessos obtidos numa certa amostra
Anlise de Dados
42
X
assim como p = um estimador da probabilidade p. De um modo geral quando nos
n
ou
S'2=
(Xi X) 2
n
Ao considerar estas duas estatsticas, costuma-se dizer que por razes que se
prendem com a inferncia estatstica, a estatstica mais utilizada S2. Neste momento
j podemos dar a razo que nos leva a escolher
ao contrrio de
(Xi X) 2
,
n
(Xi X) 2
n 1
com Xi
Anlise de Dados
que E [S ]=
43
n 1
n
n 1
n
estimador.
Anlise de Dados
44
Se P(
| p p |
p(1 p)
n
| p p |
p(1 p)
n
z ) = .95.
| p p |
p(1 p)
n
1.96 ) = .95.
p(1 p)
n
p p +1.96
p(1 p)
n
) = .95
p(1 p)
n
p(1 p)
, obtendo-se
n
p p +1.96
p(1 p)
n
, p +1.96
p(1 p)
n
p(1 p)
n
) .95
] um intervalo aproximado
p(1 p)
n
p(1 p)
, p +z1-/2
]
n
Anlise de Dados
45
EXEMPLO 2.1 (Adaptado de De Veaux and al, 2004) Os corais esto em declnio, em todo o
mundo, possvelmente devido poluio ou mudana da temperatura da gua do mar. A morte dos
recifes de corais pode ser um aviso das mudanas climticas e poder ter um impacto econmico ainda
no calculado. Uma espcie muito bonita de coral, conhecida como Leque do Mar, particularmente
afectada pela poluio e pela doena aspergillosis. Em Junho de 2000, uma equipa de investigadores
recolheu uma amostra de corais desta espcie, a uma profundidade de 40 ps, em Las Redes Reef,
Akumal, Mxico. Verificaram que 54 dos 104 corais que recolheram, estavam infectados com aquela
doena. O que que se pode dizer sobre a prevalncia desta doena, sobre aquele tipo de corais? Para
j, temos uma proporo de corais doentes de 51.9%, mas ningum nos garante que os investigadores
obteriam a mesma proporo se recolhessem outra amostra de 104 corais.O que que podemos dizer
efectivamente sobre a proporo p de corais infectados? Apresentamos a seguir uma lista de coisas que
poderamos dizer, ou que por vezes se dizem, e a razo pela qual no so correctas a maior parte delas:
1. 51.9% de todos os corais da espcie Leque do Mar, em Las Redes Ref, esto infectados No
temos informao suficiente para fazer esta afirmao. S poderamos fazer esta afirmao se
tivssemos investigado o que se passava com todos os corais. Assim, se recolhessemos outra
amostra, obteramos outra percentagem.
2. Provavelmente verdade que 51.9% de todos os corais da espcie Leque do Mar, em Las Redes
Ref, estejam infectados No podemos fazer esta afirmao. Podemos ter quase a certeza de que,
qualquer que seja a verdadeira proporo de corais infertados, ela no ser exactamente igual a
51.900%.
3. No sabemos exactamente qual a proporo de corais infectados, da espcie Leque do Mar, em
Las
Redes
Ref,
mas
sabemos
que
essa
proporo
est
no
intervalo
51.9%
1.96
0.519 (1 0.519)
, ou seja 51.9%9.6%, ou seja ainda entre 42.3% e 61.5%. Ainda no podemos
104
fazer esta afirmao, pois no podemos ter a certeza que a verdadeira proporo esteja neste
intervalo, ou noutro qualquer.
Anlise de Dados
46
4. No sabemos exactamente qual a proporo de corais infectados da espcie Leque do Mar, em Las
Redes Ref, mas o intervalo de 42.3% a 61.5% provavelmente contm a verdadeira proporo.
Agora sim, podemos fazer esta afirmao. Comemos por dar o intervalo e em seguida admitir que
pensamos que esse intervalo provavelmente contm o verdadeiro valor da proporo.
Esta ltima afirmao est correcta, mas podemos quantificar o que que entendemos por
provavelmente. Podemos dizer que 95% das vezes que construirmos intervalos do tipo considerado
anteriormente, conseguimos cobrir o valor de p, pelo que podemos estar 95% confiantes de que
aquele intervalo seja um dos que contm p.
5. Temos uma confiana de 95% de que o intervalo entre 42.3% e 61.5% contenha a percentagem de
corais infectados, da espcie Leque do Mar, em Las Redes Reef. A este intervalo chamamos um
intervalo de confiana.
Confiana e preciso
Qual a dimenso da amostra necessria para obter um intervalo de 100(1-)% de
confiana, cuja amplitude no exceda d?
p(1 p)
. Assim:
n
Anlise de Dados
47
2 z1-/2
p(1 p)
d
n
de onde
n(
2z1 /2 2
) p (1 p )
d
1
, donde um limite
2
z 1 / 2 2
)
d
Chamamos a ateno para que este valor de n, de um modo geral, peca por excesso,
j que foi obtido para a pior situao do valor do parmetro a estimar estar prximo de
0.5. Assim, aconselhvel proceder a um estudo prvio, ou recolher informao
eventualmente existente, para ter uma ideia do valor do parmetro, se os custos com a
recolha da amostra forem elevados.
Chama-se margem de erro, a metade da amplitude do intervalo de confiana.
Representando a margem de erro por ME, temos na expresso anterior que d o valor
adequado para a dimenso da amostra:
n(
z 1 / 2
2ME
)2
Repare que, fixando a dimenso da amostra, quanto maior for a confiana, maior ser a
margem de erro. Podemos aumentar a confiana at 100%. Mas, na verdade, qual a
utilidade de um intervalo, com essa confiana?
EXEMPLO 2.2 Numa cidade com 25000 habitantes considerou-se uma amostra de 1600 pessoas
para estimar a percentagem de eleitores que votavam num certo candidato. Dos 1600 inquiridos, 917
declararam ter a inteno de votar no dito candidato. Determine um intervalo de 95% de confiana para a
proporo de eleitores da cidade que pensam votar no candidato.
Resoluo: Uma estimativa de p p =917/1600=.57. O intervalo de confiana pretendido ser
[.57 - 1.96
.57 .43
1600
, .57 + 1.96
.57 .43
1600
Anlise de Dados
48
Qual a dimenso da amostra necessria para reduzir a metade a amplitude anterior? Como
consideramos o mesmo nvel de significncia, vem n
1.962
9604. Repare-se que neste caso j no
.022
esto satisfeitas as condies para podermos aplicar o modelo Binomial, pois a dimenso da amostra
muito grande, quando comparada com a dimenso da populao.
Anlise de Dados
com ai=
pi (1 pi )
n
49
X N(,/ n )
pelo que possvel obter o valor de z tal que
Anlise de Dados
50
P[
|X |
/ n
z] = .95
z=1.96
L 55.9 56.3 56.8 57.2 61.2 61.9 62.5 63.8 64.4 68.2
60.82
P 55.7 55.8 57.0 57.4 59.0 59.5 59.9 60.4 64.2 67.7
59.66
C 53.0 54.6 54.7 54.8 57.6 58.6 62.4 63.5 65.5 66.6
59.13
B 57.3 58.1 58.6 58.7 59.0 61.9 62.6 64.4 64.9 66.7
61.22
E 49.5 50.4 52.8 54.3 55.3 57.0 61.2 62.6 63.2 64.1
57.04
Qualquer uma das mdias obtidas pode ser considerada como estimativa pontual do
valor mdio 60. Pensemos ainda na mediana amostral, como estimador de (nas
distribuies simtricas o valor mdio coincide com a mediana). As estimativas obtidas
para as diferentes amostras seriam:
L
61.55
59.25
58.10
60.45
56.15
Anlise de Dados
51
4
10
, X + 1.96
4
10
[ x - 2.48 ,
x + 2.48]
60.82
[58.34 ,
63.30]
59.66
[57.18 ,
62.14]
59.13
[56.65 ,
61.61]
61.22
[58.74 ,
63.70]
57.04
[54.56 ,
59.52] ***
Dos intervalos obtidos, conclumos que 4 contm o valor mdio enquanto que um no o
contm (assinalado com ***).
Uma questo que se levanta neste momento a seguinte: o que acontece se exigirmos
um intervalo de confiana com uma probabilidade de 99% em vez de 95%? Facilmente
se conclui, que quanto maior for o nvel de confiana exigido, maior ser a amplitude do
intervalo obtido. Para um nvel de confiana de 99% o intervalo de confiana ser [ X 2.58/ n , X + 2.58/ n ] e na realidade a amplitude pode ser to grande que deixe de
ter significado o clculo do intervalo. No limite temos um intervalo de amplitude infinita,
mais precisamente R, com uma confiana de 100%!
De um modo geral, dada uma populao N(,), um intervalo de confiana para o
valor mdio, com um nvel de confiana de 100(1-)%, obtm-se considerando
P[ -z1-/2
X
z1-/2 ] = 1/ n
Anlise de Dados
52
ou
n ( 2 z1-/2 /d)2
Anlise de Dados
53
onde representamos por z1-/2 o quantil de probabilidade 1-/2, da normal (0,1), pois
para n grande,
ento
Anlise de Dados
54
Anlise de Dados
55
EXEMPLO 2.3 Uma mquina est afinada para produzir peas de um certo comprimento. Todavia,
observa-se uma certa variao de comprimento de uma pea para outra, podendo tal comprimento ser
considerado uma varivel aleatria normal.
a) Suponha que foi extrada uma amostra de 16 peas, tendo sido medido o comprimento de cada uma.
Os resultados obtidos foram os seguintes:
x = 80 cm x
i
2
i
= 535 cm
Determine um intervalo de 95% de confiana para o valor mdio do comprimento das peas.
b) Admita que o verdadeiro valor da varincia igual estimativa obtida naquela amostra. Determine
novo intervalo de confiana, com esta informao adicional. Que concluses tira?
c) Repita a alnea b) admitindo que a amostra recolhida tinha dimenso 25.
Resoluo:
n=16
x=
80
=5
16
s=
535 16 25
=9
15
15
t.975(15) = 2.131
a) Intervalo de confiana
[5 - 2.131
b) Intervalo de confiana
[5 - 1.96
3
3
, 5 + 2.131 ] = [3.40, 6.60]
4
4
3
3
, 5 + 1.96 ]
4
4
= [3.53,6.47]
O intervalo de confiana agora calculado tem uma amplitude inferior do calculado na alnea a), o que
seria de esperar pois dispomos de mais informao.
c) Intervalo de confiana
[5 - 1.96
3
3
, 5 + 1.96 ] = [ 3.82, 6.18]
5
5
A amplitude do intervalo inferior do intervalo calculado na alnea b) pois considermos ainda mais
informao ao dispormos de uma amostra de maior dimenso.
EXEMPLO 2.4 Numa rua que passa frente de uma escola, chamada Rua Nova, existe uma
passadeira para os pees e um sinal a limitar a velocidade a 50 km por hora. No entanto, a maior parte
das vezes, os carros nem sequer abrandam! A polcia, frequentemente, coloca um radar para controlar a
velocidade e motivar ao cumprimento daquela regra de trnsito. Os pais das crianas que no
acreditam que esta medida seja suficiente e pretendem que seja colocado um semforo, que passa a
encarnado com velocidade superior aos 50 Km/h. Para poderem ter argumentos perante as instncias
camarrias, resolvem fazer um controlo de velocidades e num certo dia til, pensam recolher as
velocidades mdias de alguns dos carros que passarem. Quantos carros devem observar, para obterem
um intervalo de confiana de 95%, cuja margem de erro no ultrapasse 2 Km?
Anlise de Dados
56
Resoluo: Para determinar a dimenso da amostra a recolher, necessrio ter uma ideia de como
que se distribuem as velocidades, nomeadamente se a distribuio dos dados unimodal e simtrica.
Alm disso necessrio ter um valor aproximado para a variabilidade. Suponhamos ento que se
recolheu uma amostra piloto, para recolher a informao necessria:
50
48
57
57
43
50
48
63
52
42
57
53
52
45
62
48
43
40
57
60
52
57
60
35
O histograma que fizmos dos dados mostra que a distribuio unimodal e aproximadamente simtrica.
No temos razes que nos levem a duvidar da independncia dos dados (estamos a admitir que a
recolha dos dados no se fez em hora de ponta...).
Para a varincia amostral obtivmos o valor de s=7.33. Consideranto o quantil de probabilidade 0.975 da
normal, que igual a 1.96, temos
n=
1.96 7.33 2
) =
2
51.5
donde necessitamos de uma amostra de dimenso 52. Refazendo os clculos para a determinao da
dimenso da amostra, considerando agora o quantil da t-Student com 51 graus de liberdade, que igual
a 2.008, obtivmos para n o valor de 54.
Facilmente se verifica que a margem de erro do intervalo de 95% de confiana, construdo com os dados
recolhidos para a amostra piloto, de 3 Km.
Exerccios
1. Uma fbrica produz peas, havendo uma certa percentagem de defeituosas. O departamento de
MB
NS
NS
SP
SP
NS
NS
NS
SP
MB
SP
NS
NS
MB
SP
NS
Anlise de Dados
57
SP
SP
SP
NS
NS
SP
MB
MB
NS
S
S
SP
NS
SP
MB
NS
NS
NS
MB
MB
NS
MB
SP
NS
MB
NS
MB
NS
MB
SP
MB
SP
SP
MB
que esto dispostos a pagar em mdia 14750 euros, com um desvio padro de 4250 euros.
a) Calcule um intervalo de 95% de confiana para a quantia mdia que os compradores esto dispostos a
pagar.
b) Foi posto venda um novo tipo de carro, ao preo de 22500 euros. Ser que este valor excede
significativamente o que os compradores pretendem gastar em mdia?
4. Ao Instituto para a defesa do consumidor tm sido apresentadas queixas, dizendo que as embalagens
de determinado produto congelado tm menos peso do que o indicado nas embalagens. Uma recolha
preliminar de 40 destas embalagens indicou um peso mdio de 975 gramas, com um desvio padro de
85 gramas. Quantas embalagens devem ser examinadas, de forma a obter uma estimativa do peso
mdio com erro inferior a 25 gramas, com uma confiana de 95%?
5. Os seguintes dados representam o tempo de reaco (em segundos), de 42 indivduos, a um estmulo
luminoso :
13.8
28.8
37.1
46.5
19.1
30.2
38.1
48.1
20.4
31.2
40.3
49.9
21.8
31.7
40.4
50.0
22.3
31.7
41.8
50.2
24.0
33.6
42.2
56.4
24.6
34.6
42.4
25.2
34.8
43.7
26.1
35.4
43.8
26.5
36.0
44.0
26.6
36.3
44.4
3/5
eQ
5/14
28.7
36.8
44.6
b) Escolha uma amplitude conveniente para o intervalo de classe e construa o histograma correspondente
aos dados.
c) Construa um intervalo de 99% de confiana para o tempo mdio de reaco.
6. Os seguintes dados representam o tempo de CPU (em segundos), gastos por um programa que utiliza
5.8
3.2
5.6
4.6
3.4
5.5
4.9
4.4
3.1
7.1
8.0
6.8
5.2
7.9
4.6
4.4
3.1
7.8
Anlise de Dados
58
3.8
4.1
2.6
6.1
4.5
4.1
4.6
4.4
7.7
5.2
3.8
1.5
2.9
5.6
2/5
eQ
3/4
b) Escolha uma amplitude conveniente para o intervalo de classe e construa o histograma correspondente
aos dados.
c) Admitindo a normalidade dos dados, construa um intervalo de 95% de confiana para o valor mdio dos
lectivo de 98/99, tendo-se verificado que 10 destes alunos frequentam o curso em 1 opo.
Com base nos resultados determine um intervalo de 95% de confiana para a verdadeira percentagem
de estudantes do 1 ano que efectivamente escolheram o curso em 1 opo.
Se pretendesse reduzir a metade a amplitude do intervalo obtido anteriormente, com uma amostra da
mesma dimenso, qual o maior nvel de confiana com que devia trabalhar?
Se recolhesse 200 amostras de dimenso 40, a partir das quais construsse outros tantos intervalos de
confiana, quantos destes intervalos esperaria que contivessem o verdadeiro valor da percentagem de
estudantes que frequentam o curso em 1 opo?
8. Verifique que o intervalo de 90% de confiana para os dados do exemplo 4 [47.9km; 54.1km]. Explique,
porque que no correcto dizer o seguinte (Adaptado de De Veaux and al, 2004):
a) 90% de todos os veculos que passam na Rua Nova, vo a uma velocidade entre 47.9km e 54.1km.
(Res: O intervalo de confiana diz respeito velocidade mdia dos veculos e no velocidade de cada
um dos veculos).
b) Temos uma confiana de 90% de que um veculo seleccionado aleatoriamente, v a uma velocidade
entre 47.9km e 54.1km. (Res: Como no caso anterior, estamos a referir-nos a um nico veculo, quando,
na verdade, estamos 90% confiantes que o intervalo [47.9km; 54.1km] contenha a velocidade mdia de
todos os veculos que passam na Rua Nova).
c) A velocidade mdia dos veculos, 51km, 90% do tempo. (Res: esta afirmao d a ideia que a
verdadeira velocidade mdia varia, quando o que varia o intervalo, que ser diferente, sempre que
recolhermos uma amostra diferente).
d) 90% de todas as amostras tm velocidades mdias entre 47.9km e 54.1km. (Res: Esta afirmao d a
ideia de que este intervalo goza de algum privilgio, relativamente a outros. De facto, este intervalo to
bom ou to mau, como qualquer dos outos. O que deveremos dizer que 90% de todas as possveis
amostras permitem construir intervalos que contm a velocidade mdia. Nunca saberemos se o nosso
intervalo um dos que contm ou no).
Anlise de Dados
59
3.1 Introduo
J vimos um processo de fazer inferncia estatstica - a estimao, em que utilizmos o
modelo Binomial e o modelo Normal. Vamos ainda utilizar o modelo Binomial num outro
tipo de inferncia estatstica a que chamamos testes de hipteses.
O objectivo dos testes de hipteses, determinar se uma dada conjectura ou hiptese
que fazemos acerca de uma populao, plausvel, isto , tem razo de ser.
Precisamente esta plausibilidade calculada com base na informao obtida a partir de
uma amostra da populao.
EXEMPLO 3.1 (Teaching Statistics, vol 15, n1, 1993) Um professor chega um dia aula e
resolve pr a seguinte questo: - H aqui algum aluno que consiga distinguir, pelo sabor, a Coca-Cola da
Pepsi-Cola?
Um estudante diz que sim, que consegue distinguir, embora o professor pense que ele efectivamente no
o consegue, e se acertar, por acaso. Depois de alguma discusso em que o aluno afirma que consegue
distinguir e o professor diz que ele est a fazer "bluf", resolvem fazer uma aposta, em que apostam uma
certa quantia.
Algumas questes que se levantam, relativamente a este problema, so:
1 - Com que probabilidade consegue o estudante distinguir entre a Coca e a Pepsi?
2 - Qual o critrio que se utiliza para ver quem o vencedor?
3 - Usando o critrio, a definir em 2:
a) Qual a probabilidade do estudante perder, mesmo que tenha razo? ( o estudante pode
Anlise de Dados
60
efectivamente no consegue distinguir entre a Coca e a Pepsi e responde ao acaso (foi uma
questo de sorte)?
4 - Quo pequenas devem ser as probabilidades em 3, para que cada um dos apostadores no esteja a
Idealmente, gostaramos que o risco que correm os dois apostadores fosse aproximadamente igual, isto
, as probabilidades consideradas em 3. deveriam ser aproximadamente iguais.
Com o objectivo de estabelecer um critrio, o voluntrio sugere que pelo menos 10 respostas certas
significa que tem razo.
Ento, P(estudante ganhar a aposta, sabendo distinguir as bebidas) =
= P(n respostas certas em 15 ser 10, sabendo que a probabilidade de sucesso .7) =
15
( i ).7 .3
15
i 15 i
= .722
i=10
de onde
P(estudante perder a aposta, sabendo distinguir as bebidas) = 1 - .722 = .278
Esta probabilidade de .278 o risco que o estudante corre.
Qual o risco que o professor corre?
O professor est interessado em calcular a probabilidade de perder o seu dinheiro, se o estudante se
limitou a adivinhar e efectivamente no consegue distinguir a Coca da Pepsi. Esta probabilidade :
P(professor perder a aposta, se o estudante no sabe distinguir as bebidas) =
Anlise de Dados
61
P(n respostas certas em 15 ser 10, sabendo que a probabilidade de sucesso .5) =
15
( i ).5 .5
15
i 15 i
= .151
i=10
aumentando a dimenso da amostra, talvez se consigam diminuir estas probabilidades dos dois tipos de
erros.
Por exemplo, se o n de provas for 20 e o critrio para ganhar for de 12 respostas correctas pelo menos,
recalculando as probabilidades de cometer os dois tipos de erros, ou sejam, de correr os dois tipos de
risco so 0.113 e 0.252, respectivamente, para o estudante e o professor.
Se o professor for um "bom desportista" este critrio razovel, se a quantidade de dinheiro posta em
jogo no for grande.
Este exemplo servir para introduzir os conceitos formais de testes de hipteses, erros
de tipo 1 e tipo 2 e as notaes associadas com os procedimentos estatsticos. No
entanto vamos antes disso, dar outros exemplos de aplicao de testes de hipteses.
Anlise de Dados
62
EXEMPLO 3.3 Supe-se que os estudantes so a favor da avaliao contnua, isto , mais de 50%
dos estudantes preferem a avaliao contnua. Para verificar se existem indcios de que esta hiptese
no seja verdadeira, recolhe-se uma amostra de estudantes, registando-se o n de respostas a favor.
EXEMPLO 3.4 - Um fabricante afirma na garantia que acompanha as lmpadas que fabrica, que o
tempo mdio de vida superior a 450 horas. Ultimamente alguns clientes tm-se queixado das referidas
lmpadas. Para testar se os clientes tm razo, recolheu-se uma amostra de algumas lmpadas,
registando-se o tempo de vida (utilizando os chamados testes de vida acelerados, que provocam a falha
mais rapidamente).
No caso 3.2, por exemplo, as hipteses a testar so de que o lote aceitvel - p.08,
ou no - p>.08. O que se pretende verificar que no temos razes para rejeitar a
hiptese de que p.08.
No caso 3.3, temos as hipteses p.5 e p<.5. O que se pretende testar se h alguma
razo para rejeitar p.5.
Anlise de Dados
63
contra(versus)
H1: O estudante no
Coca da Pepsi
consegue distinguir
contra
H1: p=.5
Ao primeiro erro chamamos erro de tipo 1 e ao segundo, erro de tipo 2. Estes erros so
contabilizados em termos de probabilidade.
Anlise de Dados
64
O risco que o estudante corre , enquanto que o risco que o professor corre .
O seguinte quadro reflecte a situao verificada quando se realiza um teste de
hipteses:
Anlise de Dados
65
todos os inteiros entre 0 e 15. Destes, pretendemos saber quais os que levam a rejeitar
H0, de modo que o que pretendemos saber qual o valor de c, tal que
Anlise de Dados
66
1.
contra
H0: p = p0
H1: p > p0
R = { x x| [
( i )p (1 p )
i = x
i
0
n i
] e [
n
( )p i0 (1 p 0 )n i ]>}
i = x 1 i
n
Obs: A hiptese nula pode-se exprimir na forma pp0, j que se obtm um teste
equivalente.
2.
H0: p = p0
contra
H1: p < p0
x'
Anlise de Dados
67
n
R = { x x'| [ ( )p i0 (1 p 0 )n i ] e [
i=0 i
x' +1
( i )p
i =0
i
0
(1 p 0 )n i ]>}
Obs: A hiptese nula pode-se exprimir na forma pp0, j que se obtm um teste
equivalente.
3.
H0: p = p0
contra
H1: p p0
x'
A determinao dos pontos crticos x' e x deve fazer-se tendo em ateno o nvel de
significncia . Alm disso vamos considerar o chamado teste equilibrado, isto ,
atribuir a cada uma das partes da regio de rejeio, uma probabilidade igual a metade
do nvel de significncia:
P[ X x'| X B(n, p0)] /2
e
P[ X x| X B(n, p0)] /2
Anlise de Dados
68
contra
= 5%
R={0}
Se
= 10%
R={0,1}
Deciso: Para os nveis usuais de significncia, no se deve rejeitar H0, isto no h evidncia de ter
havido alterao (para melhor) no processo de fabrico.
A determinao dos pontos crticos x' e x dos testes anteriores, pode fazer-se
consultando as tabelas com a distribuio Binomial. Pode no entanto acontecer que o
valor de n seja demasiado grande, e j no conste nessas tabelas. Ento faz-se uma
aproximao Normal, como se descreve a seguir.
Tendo em considerao o teorema do limite central, sabe-se que a distribuio Binomial
pode ser aproximada pela distribuio Normal, isto , se X B(n,p), ento
P(X x) (
x np
)
np(1 p)
X np0
np0 (1 p0 )
Anlise de Dados
69
cuja distribuio pode ser aproximada por uma Normal(0,1) e a determinao dos
pontos crticos, para os trs tipos de testes considerados anteriormente, faz-se da
seguinte forma:
1.
P[ X x| X B(n, p0)]
x 1+np0+z1- np 0 (1 p 0 )
2.
p 0 (1 p 0 )
n
) X
p= ,
n
com
).
Anlise de Dados
70
Anlise de Dados
71
essa opo, j que rejeitar o modelo proposto, se ele fosse efectivamente verdadeiro,
pode acarretar grandes prejuzos. Ento precisamos de quantificar essa deciso e essa
quantificao feita probabilisticamente. Assim, calculamos a probabilidade de obter
dados como os recolhidos, baseando-nos em que o modelo verdadeiro. Se esta
probabilidade for muito pequena, pensamos que no foi s o acaso, isto a
aleatoriedade presente na recolha da informao, que nos levou a obter aqueles dados,
mas naturalmente o prprio modelo que no o correcto, pois essa probabilidade
demasiado pequena, para ser verdade, e rejeitamos esse modelo. Esta tal
probabilidade p-value, d-nos uma medida do erro que cometemos ao rejeitar o
modelo proposto, e quanto menor for, maior ser a evidncia contra o modelo.
Assim, quando no rejeitamos a hiptese nula, ficamos sempre na dvida, sobre se ter
sido o teste que no teve capacidade para a rejeitar, mesmo sendo ela falsa. Justificase, assim, que se procure calcular a probabilidade de se rejeitar a hiptese nula,
quando ela falsa, isto , P(RejeitarH0H1verdadeira). A esta probabilidade chama-se
potncia do teste. Repare-se que para um determinado valor do parmetro
contra
H1: p>p0
) X
) )
)
x
grandes de p = , nomeadamente para valores de p p , onde p = , utilizando
n
n
notao j introduzida anteriormente.
Se n for grande, a distribuio da estatstica de teste aproximada pela Normal, pelo
que temos:
Anlise de Dados
72
Quanto mais p estiver para a direita, isto , menor for o nvel de significncia do
Anlise de Dados
73
Anlise de Dados
74
contra
Escolhemos a hiptese alternativa anterior, pois ela reflecte a situao real, no caso de
no se provar que H0 verdadeira (estamos a pensar nas queixas dos clientes).
Vamos exemplificar a realizao de um teste de hipteses sobre o valor mdio atravs
do exemplo dos pesos, referido quando abordmos o problema da estimao.
Suponhamos que estamos interessados em realizar um teste sobre o peso mdio da
populao, constituda pelos indivduos de 1.65 m de altura, tendo sido levantadas
algumas dvidas sobre se o peso seria de 60 kg. Ento
H0: = 60 kg contra
H1: 60 kg
Anlise de Dados
75
X
/ n
P[T R | H0 verdadeira]=
ou seja
P[|T0|> z1-/2] =
onde T0 se obtm de T substituindo por 0, sendo 0 o valor de considerado na
hiptese nula (no caso do exemplo 0=60).
Ento a zona de rejeio dada pelo seguinte intervalo
R = ]- , -z1-/2[ ] z1-/2 , +[
pelo que se rejeita a hiptese H0, sempre que t0 R, sendo t0 o valor observado da
estatstica de teste. Considerando, no exemplo, a amostra correspondente cidade de
Lisboa, temos:
t0= 10 (60.82 60) /4=.65
pelo que trabalhando com um nvel de significncia de 5%, se tem a seguinte regio de
rejeio:
R = ]- , -1.96[ ] 1.96 , +[
Como 0.65 no pertence regio de rejeio, no vemos razo para rejeitar a hiptese
nula.
Ainda no exemplo que temos vindo a considerar, suponhamos que tnhamos comeado
por recolher a amostra referente cidade de vora. Mediante o resultado obtido, uma
Anlise de Dados
76
pessoa mais cptica teria razes para suspeitar que o peso mdio seria inferior a 60 kg.
Nestas circunstncias deveramos proceder ao seguinte teste:
H0: =60
contra
H1: < 60
R = ]- , -1.6449[
Considerando ento a amostra observada em vora, obtemos
t0= 10(57.04 60) /4 = -2.34
valor que pertence regio de rejeio, donde conclumos que devemos rejeitar a
hiptese nula.
Pensemos agora na cidade de Braga, em que temos razes para suspeitar que os
pesos so mais altos (come-se muito bem no Norte..., o que no quer dizer que se
coma mal em vora...), pelo que consideramos o seguinte teste:
H0 : =60
contra
H1 : >60
z.95=1.6449
Anlise de Dados
77
1 caso
Dados: dada uma amostra (x1,x2,xn), valor observado da amostra aleatria
a) H1: 0
b) H1: > 0
c) H1: < 0
Rejeita-se H0 se t0 < z
2 caso
Dados: dada uma amostra (x1,x2,xn), valor observado da amostra aleatria
n(X 0 ) /S
Hiptese alternativa
a) H1: 0
b) H1: > 0
c) H1: < 0
Anlise de Dados
78
Um processo alternativo de realizar os testes de hipteses anteriores calcular o Pvalue. Mais concretamente, para cada uma das situaes consideradas anteriormente,
face ao valor observado t0 ou t1 das estatsticas de teste T0 ou T1, calcula-se:
1 caso:
a)
b)
P = P[T0t0]
c)
P = P[T0t0]
2 caso:
a)
b)
P = P[T1t1]
c)
P = P[T1t1]
base na amostra anterior, verifique se existem razes para suspeitar de que os alunos que entraram no
ano lectivo de 92/93, tm tendncia para terem notas mais fracas.
Obs. Considere que a populao a estudar est dividida em duas categorias: a dos alunos com nota
superior a 35 e dos alunos com nota inferior ou igual a 35.
2. Supe-se que numa populao existem trs vezes mais indivduos no fumadores do que fumadores.
a) Tendo-se recolhido uma amostra de 20 indivduos, verificou-se que 7 eram fumadores. Teste, ao nvel de
Anlise de Dados
b) Na
79
estipulada para a sua entrada. No final do ms, juntamente com uma repreenso escrita, recebeu uma
folha com um registo dos seus atrasos (em minutos):
0.01
2.66
3.30
3.77
4.47
5.13
7.56
8.79
10.26
14.36
15.29
19.64
21.45
28.41
50% das vezes o atraso inferior a 5 minutos. Com base nos dados anteriores verifique se existe
evidncia suficiente para dar razo ao sr. X.
4. Suponha que uma amostra recolhida de rendimentos de famlias de determinada cidade revelou que
55% dos rendimentos da populao se situam entre os 60 e os 120 contos. O presidente da cmara
considera-a "ideal" !
Desconfia-se que o bairro X no segue a distribuio "ideal" da cidade. Recolheu-se uma amostra de
valores de rendimentos familiares nesse bairro, tendo-se obtido os seguintes resultados:
15
24
36
55
58
62
65
67
70
71
73
76
89
90
92
97
105
112
118
160
Antes da dieta
17.0
17.7
17.9
18.1
18.1
18.2
18.3
18.4
18.4
18.5
18.5
18.6
18.7
18.8
18.9
19.2
Depois da dieta
15.6
16.6
16.9
15.6
16.0
15.5
16.5
17.2
15.0
17.5
15.9
16.2
17.5
15.8
17.2
17.3
Anlise de Dados
M
F
F
F
80
19.3
19.5
19.8
20.1
17.8
16.0
16.9
17.5
a) Um especialista afirma que aps um ms em regime de dieta sem sal, pelo menos 80% dos
indivduos apresenta uma diminuio da presso sistlica superior a 10%. Averige se existem razes
para duvidar da afirmao do especialista.
6. Recolheu-se a opinio de 20 executivos acerca de mquinas fotocopiadoras, verificando-se que 15
preferiam a marca Kodac relativamente marca Xerox. Pensa-se, no entanto, que na realidade no
existem diferenas significativas entre as mquinas, pelo que a probabilidade de cada uma ser escolhida
de 50%. Poderamos assim considerar as seguintes hipteses a testar:
H0: p=.5
contra
H1: p.5
em que representamos por p a probabilidade de ser escolhida a mquina Kodac. Se para 20 executivos
consultados, representar por X o nmero dos que preferem Kodac, considere a seguinte regra de
deciso:
rejeito H0 se X<6 ou se X>14
a) Qual o nvel de significncia associado ao teste anterior?
b) Qual a deciso a tomar relativamente amostra considerada?
c) Para as hipteses H0 e H1 especificadas, qual a regra de teste se efectivamente o nmero de
executivos que constituem a amostra fosse de 50, considerando o nvel de significncia de 5%?
7. Admite-se que a quantidade de nicotina (medida em mg.) existente numa dada marca de cigarros,
16.5
19
15.4
15.6
O fabricante afirma que a quantidade mdia de nicotina , por cigarro, de 13.5 mg.
a) Teste, ao nvel de significncia = 0.10 a hiptese:
H0 : = 13.5
contra
H1 : > 13.5
b) Determine um intervalo de 95% de confiana para a quantidade mdia de nicotina existente em cada
cigarro.
8. O departamento de controlo de qualidade de uma fbrica de conservas, est na disposio de mandar
reajustar todo o equipamento, caso se verifique que o peso mdio de cada lata inferior ao especificado
na embalagem. Nomeadamente no caso das latas de sardinha, especifica-se que este peso seja de 150
gramas. Com o objectivo de tomar uma deciso, procedeu-se recolha de algumas latas de sardinha,
que se pesaram, usando-se a mdia X, como estatstica de teste.
a) Formule as hipteses nula e alternativa, em termos do valor especificado para o peso mdio.
Anlise de Dados
81
b) Tendo em considerao as consequncias que advm de cometer um erro de tipo I, dever escolher
um nvel de significncia grande ou pequeno? Justifique convenientemente a sua resposta. Qual ou
quais os valores que escolheria?
c) Admitindo que o peso das latas de sardinha se distribui de acordo com uma Normal e que os valores
observados para os pesos de uma amostra de 10 latas foram ( em gramas):
147
152
145
130
155
148
150
149
146
149
qual a deciso que o gerente da fbrica deve tomar, no que diz respeito ao reajustamento do
equipamento?
9. Um mdico receita aos seus doentes um medicamento para diminuir o nmero de pulsaes por
artrias, introduzido um pequeno tubo, o catter, atravs de uma artria da perna. importante que
catter tenha um dimetro de 2.00mm, em mdia, com um desvio padro muito pequeno. O processo de
fabrico dos cateteres submetido a um rigoroso controlo de qualidade, de modo que todos os dias so
recolhidas algumas medidas, para testar a hiptese nula H0: m = 2.00mm, contra a hiptese alternativa
m2.00mm, com um nvel de significncia de 5%, para parar o processo de fabrico, no caso de haver
alteraes.
a) Estamos perante um teste unilateral ou bilateral? Porque que isto importante, no contexto do
problema?
b) Explicar o que que acontece se o departamento de controlo de qualidade cometer um erro de tipo 1?
c) E se cometer um erro de tipo 2?
11. Uma fbrica de bolachas com pedacinhos de chocolate, ao anunciar as suas bolachas diz que cada
pacote de meio quilo contm, pelo menos, 1000 pedacinhos de chocolate. Os estudantes do
Departamento de Estatstica de determinada Universidade, decidiram comprar alguns destes pacotes e
contar o nmero de pedacinhos de chocolate, tendo obtido os seguintes resultados:
1219
1214
1087
1200
1419
1121
1325
1345
1244
1258
1356
1132
Anlise de Dados
1191
1270
82
1295
1135
Anlise de Dados
83
Anlise de Dados
84
)
R
e p 2 = 2 , sendo R1 e R2, respectivamente o nmero de elementos das amostras que
n2
contra
) )
p1 p 2 p 0
~ N(0,1)
)
)
)
)
p1 (1 p1 ) p 2 (1 p 2 )
+
n1
n2
b) H0: p1-p2 p0
contra
)
)
)
)
p1 (1 p1 ) p 2 (1 p 2 )
+
n1
n2
p1-p2 < p0
Anlise de Dados
85
)
)
)
)
) )
p1 (1 p1 ) p 2 (1 p 2 )
Z z ou p1 p 2 p0 + z
+
n1
n2
c) H0: p1-p2 = p0
contra
p1-p2 p0
Anlise de Dados
86
Amostras independentes ou
Anlise de Dados
87
I N(0,1)
Hiptese alternativa H1
X1 X 2 0
12 22
+
n1 n 2
Regio de Rejeio
P-value
1-2 > 0
z z1-
P(ZZobs|H0)
1-2 < 0
z z
P(ZZobs|H0)
1-2 0
|z| z1-/2
2P(Z|Zobs||H0)
12 22
+
n1 n2
Anlise de Dados
88
(n1 1) S12 + (n 2 1) S 22
n1 + n 2 2
X1 X 2 ( 1 2 )
1
1
S
+
n1 n 2
I t(n1+n2-2)
tem como distribuio (exacta) uma t-Student com (n1+n2-2) graus de liberdade.
Testes de hipteses sobre 1-2, para um nvel de significncia
H0: 1-2 = 0
Estatstica de teste sob H0: T =
X1 X 2 0
S
Hiptese alternativa H1
1
1
+
n1 n 2
Regio de Rejeio
P-value
1-2 > 0
t t1-(1)
P(TTobs|H0)
1-2 < 0
t t
P(TTobs|H0)
1-2 0
|t| t1-/2
2P(T|Tobs||H0)
1
1
+
n1 n 2
Anlise de Dados
89
No caso anterior exigimos que as varincias fossem iguais, para termos uma
distribuio exacta e posteriormente podermos utilizar o teste t. Em termos prticos
verifica-se se
S12
1 S12
4,
no
muito
diferente
de
1.
Como
regra
emprica,
se
4 S 22
S 22
S12
for muito
S 22
Anlise de Dados
90
Anlise de Dados
91
Tratamento 1
Tratamento 2
Diferena D
X11
X21
D1
X12
X22
D2
X13
X23
D3
X1n
X2n
Dn
As diferenas D1, D2, D3, ..., Dn, constituem a amostra aleatria. Observe-se que,
embora os pares (X1i, X2i) sejam independentes uns dos outros, dentro do mesmo par
no existe independncia, tendo em considerao a forma como foi planeada a
experincia.
Algumas das estatsticas de interesse so
D=
1 n
Di
n i=1
S D2 =
1 n
(D i D ) 2
n 1 i=1
Anlise de Dados
92
H0: 1-2 = 0
Estatstica de teste sob H0: T =
Hiptese alternativa H1
D 0
SD / n
Regio de Rejeio
P-value
1-2 > 0
t t1-(1)
P(TTobs|H0)
1-2 < 0
t t
P(TTobs|H0)
1-2 0
|t| t1-/2
2P(T|Tobs||H0)
SD
n
Neste caso a distribuio da estatstica de teste pode ser aproximada pela distribuio
Normal(0,1), pelo que temos o seguinte:
H0: 1-2 = 0
Estatstica de teste sob H0: Z =
Hiptese alternativa H1
D 0
SD / n
Regio de Rejeio
P-value
1-2 > 0
z z1-
P(ZZobs|H0)
1-2 < 0
z z
P(ZZobs|H0)
1-2 0
|z| z1-/2
2P(Z|Zobs||H0)
SD
n
Anlise de Dados
93
Ao planear uma experincia para comparar dois tratamentos, muitas vezes temos a
opo
de
escolher
emparelhadas.
entre
Vejamos
considerar
algumas
amostras
consideraes
independentes
sobre
estes
ou
dois
amostras
tipos
de
planeamento.
Se considerarmos n pares de observaes, obtemos 2n valores, o que corresponde no
caso de amostras independentes a duas amostras de dimenso igual a n. Para o
clculo da mdia, indiferente se as amostras esto emparelhadas ou no, j que
D=
1 n
( X1i X 2i ) = X1 X 2
n i=1
Centrando a nossa atena no caso de termos pequenas amostras, no que diz respeito
aos intervalos de confiana para 1-2, temos
X1 X 2 t1-/2 * estimador do erro padro (desvio padro da diferena das mdias)
Amostras independentes
Amostras emparelhadas
(n1=n2=n)
n pares
(n 1)s12 + (n 1)s 22
=
Obs: s=
2(n 1)
1
1
+
n1 n 2
SD
2(n-1)
n-1
s12 + s 22
2
Anlise de Dados
94
hipteses, este facto resultaria numa perda de potncia para detectar diferenas reais
nos valores mdios de duas populaes.
Na verdade, o grande mrito das amostras emparelhadas, se efectivamentev a escolha
dos pares for feita de modo a cumprir os objectivos deste tipo de planeamento, est em
que os resultados obtidos para os pares so altamente correlacionados, obtendo-se
uma reduo na varincia das diferenas Di. Esta reduo na varincia e
consequentemente no valor estimado para o erro padro, compensa a perca de graus
de liberdade (ex pag 345, Bhattacharya)
2
2
12 22
S12
S 22
Regio de Rejeio
P-value
f0 F1-/2(n1-1; n2-1) ou
2min{P(FFobs|H0),
f0 F/2(n1-1; n2-1)
4
P(FFobs|H0)}
Anlise de Dados
95
12 > 22
f0 F1-(n1-1; n2-1)
P(FFobs|H0)
12 < 22
f0 F(n1-1; n2-1)
P(FFobs|H0)
12 s12
s12
F/2(n2-1; n1-1) 2 2 F1-/2(n2-1; n1-1)
s 22
2 s2
Exemplo 4.1 (Adaptado de Murteira, B. et al, 2002) Para confrontar dois tipos de mquinas de
ceifar, um trigal foi dividido em seces longitudinais, e cada duas seces adjacentes, tratadas por cada
uma das mquinas. As produtividades alcanadas foram as seguintes:
Mquina A:
8.0
8.4
8.0
6.4
8.6
7.7
7.7
5.6
5.6
6.2
Mquina B:
5.6
7.4
7.3
6.4
7.5
6.1
6.6
6.0
5.5
5.5
Pretendendo averiguar se a produtividade das duas mquinas idntica, utilizando o teste t, averige da
igualdade das varincias.
H0: A = B
2
contra
H1: 2A B2
S 2A
com distribuio F(9;9)
S B2
Anlise de Dados
96
Anlise de Dados
97
Mtodos no paramtricos
5.1. Introduo
Vimos
nos
captulos
anteriores
alguns
processos
de
inferncia
estatstica,
Anlise de Dados
98
O novo medicamento
contra
H1:
no tem efeito
O novo medicamento
tem efeito (bom ou mau)
Uma estatstica de teste possvel ser considerar a soma das ordens dos doentes que tomaram o
medicamento. Se o novo medicamento no tem efeito, as ordens dos doentes que o tomaram podem ser
quaisquer, pelo que o resultado final pode ser qualquer das 126 combinaes possveis das 9 ordens 4 a
4. No entanto, se o medicamento teve efeito benfico deveremos ter, por exemplo, (1,2,3,4), enquanto
que se fr prejudicial teramos (6,7,8,9).
Os valores possveis para a estatstica de teste T, que representa a soma das ordens dos 4 doentes que
tomaram o medicamneto so
T
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
N de
vezes
11
11
12
11
11
A regio de rejeio ser constituda pelos valores grandes ou pequenos da estatstica de teste. Se
rejeitarmos para T= 10, 11, 29 e 30, ento o nvel de significncia do teste ser = 4/126 0.0318.
Anlise de Dados
99
23
20
18
23
20
19
Balana
Escorpio
Sagitrio
Capricrnio
Aqurio
Peixes
18
21
19
22
24
29
Na tabela anterior verifica-se que o signo dos Peixes sobressai com maior nmero de
nascimentos, mas ser esta diferena suficiente para dizer que os indivduos que
nascem sob este signo tm maior probabilidade de sucesso? Se os nascimentos se
distribuissem
uniformemente,
esperaramos
aproximadamente
21.3
(256/12)
Anlise de Dados
100
=1
i=1
Frequncia
A1
o1
A2
o2
Ak
ok
) o
pi = i ,
n
i=1, S , k.
Temos agora uma generalizao dum caso tratado anteriormente, pois ao contrrio do
que se passava a, em que podamos considerar que estvamos perante n provas de
Bernoulli (cada indivduo pertencia a uma de 2 categorias, A ou AC, sendo constante a
probabilidade de pertencer categoria A, e da termos considerado o modelo Binomial),
temos neste momento n provas multinomiais - uma prova multinomial, com parmetros
pi , i=1, S , k, uma prova cujo resultado pode ser um de k possveis, chamados
classes ou categorias. A probabilidade da ocorrncia da k-sima classe pi, com
k
0pi1 e
= 1.
i=1
Anlise de Dados
101
k, ento
P(O1=o1, O2=o2, S , Ok=ok) =
n!
p1o1 p o2 2
o1! o 2 !...o k !
p kok
oi= 0,S, n
k
= n;
i=1, S , k
i=1
Teorema 5.2 Se (O1, O2, S , Ok) uma v.a. multinomial, com parmetros n, pi, i=1, S ,
k, ento a funo distribuio da v.a.
k
U=
(Oi npi )2
np
i
i =1
Anlise de Dados
102
(o i np i )2
u=
npi
i =1
para uma amostra observada (o1, o2, S , ok) e rejeitar a hiptese se u 12 (k 1) ,
onde 12 (k 1) o quantil de probabilidade (1-) de uma distribuio dum 2 com (k-1)
graus de liberdade.
Nota - A distribuio aproximada da estatstica de teste do Qui-quadrado pode ser
obtida de forma intuitiva da forma seguinte:
Numa experincia multinomial em que cada resultado pode ser um de k possveis, o
nmero mdio de resultados, em n, que pertencem classe Ai npi. Ento Oi tem
distribuio Binomial(n,pi), pelo que se n for suficientemente grande e pi suficientemente
pequeno, a distribuio de Oi pode ser aproximada por uma Poisson de valor mdio npi,
pelo que a distribuio de
Oi npi
pode ser aproximada por uma Normal(0,1).
np i
O npi
tem uma distribuio de um 2 com (1) grau de liberdade e
Finalmente i
npi
(O i npi )2
tem uma distribuio dum 2 com (k-1) graus de liberdade.
np
i
i =1
Observao - O modelo do 2 tem uma funo densidade com suporte positivo e tem enviesamento para
a direita, dependendo a sua forma do nmero de graus de liberdade. Apresenta-se a seguir a funo
densidade do Qui-quadrado para vrios graus de liberdade:
Anlise de Dados
103
(Oi e i )2
ei
i =1
De forma alternativa, face ao valor observado da estatstica de teste x 02 , calcula-se o pvalue P= P(X2 x 02 ) e rejeita-se H0 quando P .
Observao: Para se utilizar este teste deve-se ter em considerao que os valores
esperados para cada classe, ei no podem ser muito pequenos. Normalmente exigemse que sejam 5.
Anlise de Dados
104
Exemplo 5.2 Utilize os dados apresentados no incio deste captulo, para verificar se existe evidncia
de que existam alguns signos mais propcios a que os seus nativos sejam homens de sucesso.
H0: P(Carneiro) = P(Touro) = P(Gmeos) = ... = P(Peixes) = 1/12
contra
H1: Alguma das probabilidades anteriores diferente de 1/12
2
Sabemos que, sob H0, a estatstica de teste tem uma distribuio aproximada dum com 11 graus de
liberdade, uma vez que k=12, isto , temos 12 classes.
Para calcular o valor observado da estatstica de teste, vamos considerar a seguinte tabela:
Obtivmos o valor de 5.0938 para a estatstica de teste. Ser que um valor grande? Ser que um
2
valor na cauda direita da funo densidade? Ser que P(X 5.0938) um valor pequeno, quando a
2
distribuio de X um com 11 graus de liberdade? Estas trs questes, so outras tantas formas de
fazer a mesma pergunta, que : H evidncia para rejeitar a hiptese nula H0?
Repare-se que neste caso, no temos dificuldade em dizer que no h evidncia para rejeitar H0, pois
2
basta ver na figura da funo densidade do com 11 graus de liberdade, que o valor 5.0938
relativamente pequeno. De qualquer modo calculmos o P-value associado a este teste, utilizando a
funo CHIDIST(x;deg_freedom) do Excel, que devolve o valor de P(X>x), onde X uma varivel
aleatria com uma distribuio do Qui-quadrado com deg_freedom graus de liberdade. O valor obtido
0.9265, que se apresenta na figura seguinte:
Anlise de Dados
105
Porque que no podemos provar a hiptese nula? (De Veaux and al, 2004) Um
biologista pretende mostrar que a sua teoria, sobre a mosca da fruta, vlida. Segundo
ele, 10% das moscas so de tipo 1, 70% de tipo 2 e 20% de tipo 3. Fez um teste de
ajustamento a partir dos dados que os seus alunos recolheram, sobre 100 moscas,
tendo obtido um P-value de 7%. Celebrou este facto, pois sustentava a sua hiptese,
at que os seus alunos recolheram informao sobre mais 100 moscas. Com 200
moscas o P-value desceu para 2%. Apesar de j estar a adivinhar que a resposta seria
no, ainda perguntou ao estatstico, na esperana de poder deitar fora metade dos
dados e ficar com os 100 primeiros! Ora bem, se isto fosse possvel, conseguiramos
sempre provar a hiptese nula no recolhendo muitos dados. Efectivamente, quanto
menos informao tivermos, mais os nossos dados sero consistentes com o que quer
que seja, e tambm nunca rejeitaremos o que quer que seja! Ento um teste assim no
serve para nada. Como j vimos na seco 11.5, diz-se que um teste destes tem pouca
potncia, medindo-se a potncia de um teste como a probabilidade de rejeitar H0,
quando H0 falsa. Assim, quantos mais dados, melhor, j que nunca poderemos
provar a hiptese nula.
Anlise de Dados
106
Exemplo 5.3 Suponha que uma marca conhecida de carros pretende averiguar se existe evidncia
para afirmar que os compradores mudaram, nos ltimos tempos, as suas preferncias pelas 4 cores mais
vendidas, nomeadamente o cinza prateado, o preto, o branco e o vermelho, em que estas cores eram
preferidas por, respectivamente 56.25%, 18.75%, 18.75% e 6.25% dos compradores, segundo
informao de alguns anos atrs. Assim, recolheu informao sobre 100 clientes, tendo obtido os
seguintes resultados:
Preto
Cinza prateado
Vermelho
Branco
59
20
11
10
Estatstica de teste: X =
i =1
(O i e i ) 2
2
, que sob H0, tem distribuio aproximada dum (3).
ei
Anlise de Dados
107
Anlise de Dados
108
H0: XF
onde F est perfeitamente especificada, ou ento, uma vez que o modelo discreto, se
especifica atravs da funo massa de probabilidade
H0: XF
Classes
A1
A2
S
Ak
Freq. observadas
o1
o2
S
ok
2
Estatstica de teste: X =
vs
Sob a validade de Ho
p1=P(XA1)
p2=P(XA2)
S
pk=P(XAk)
Valores esperados
np1
np2
S
npk
(Oi e i )2
ei
i =1
dum (k-1).
Anlise de Dados
109
de ser estimados a partir dos dados, X tem uma distribuio assinttica dum (k-m-1).
Ento, fixando o nvel de significncia temos:
2
2
2
a) Rejeita-se H0 se X
(k 1) ou alternativamente, face ao valor observado x da
1
2
Exemplo 5.4 A procura diria de um determinado produto, foi, em 60 dias escolhidos ao acaso, a
seguinte:
N unidades procuradas
N dias
11
14
10
Haver evidncia para duvidar que tal procura se faa segundo um modelo de Poisson?
Resoluo: Seja X a v.a. que representa o n de unidades procuradas, por dia. Ento:
H0: XP()
contra
Representando o estimador de por , temos que = X (no esquecer que no modelo de Poisson, o
parmetro o valor mdio da varivel aleatria), pelo que uma estimativa para , a mdia dos dados
-3.8
3.8 k
.
k!
Estas probabilidades foram obtidas no Excel atravs da funo Poisson(x; mean; cumulative), em que x
o valor que a v.a. X assume, mean o valor mdio e cumulative um valor lgico: para a funo
distribuio, usar TRUE; para a funo massa de probabilidade usar FALSE. Por exemplo, para obter o
valor 0.085009, colocmos o cursor na clula C3 e inserimos a funo =POISSON(B3;3,8;FALSE).
Anlise de Dados
110
Chamamos a ateno para o facto de as classes Ai deverem constituir uma partio do domnio da v.a. X.
Assim, como o domnio da Poisson constitudo pelos valores inteiros positivos (incluindo o 0)
introduzimos a classe 10 ou mais, cuja probabilidade foi calculada fazendo (1-P(X9)) (no esquecer que
P(A ) = 1 ). Por outro lado, tendo em conta a observao feita sobre o valor dos e , que no devem ser
i
i =1
(O i e i ) 2
2
tem uma distribuio assinttica dum (7ei
1-1), ou seja dum Qui-quadrado com 5 graus de liberdade. Segundo a tabela anterior, obtivmos, para a
estatstica de teste, o valor observado de 2.2736. Para tomar uma deciso, vamos calcular o P2
value:P(X 2.2736) = 0.81. Este valor foi obtido, inserindo na clula F13, a funo = CHIDIST(E13;5):
Deciso: No h evidncia para dizer que a distribuio do nmero de unidades procuradas por dia, no
segue uma distribuio de Poisson.
Anlise de Dados
111
Exemplo 5.4 O Sr. Silva, industrial txtil, decidiu comear a fabricar camisas de homem, destinadas a
serem vendidas em Portugal. Para ter alguma informao sobre os moldes que deve considerar,
nomeadamente no que diz respeito ao comprimento das mangas, resolveu pedir a uma empresa de
Consultoria de Estatstica que o ajudasse, dando-lhe algumas indicaes sobre a populao a que se
destinam as camisas.
Vamos delinear o processo utilizado pela tal empresa, para ajudar o Sr. Silva.
1 passo Recolha de uma amostra
A empresa de Consultoria encarregou o Departamento de Sondagens de recolher uma amostra de
dimenso 250, tendo esta fornecido os seguintes dados, relativos ao comprimento do brao direito de
250 homens:
Anlise de Dados
112
51.5
56.0
55.0
58.3
58.4
55.3
56.3
52.2
55.2
57.3
55.4
52.9
54.0
59.7
55.4
53.0
52.6
55.5
53.1
52.4
57.9
57.7
55.3
53.5
55.8
57.9
54.7
55.7
54.0
52.1
57.6
52.9
54.2
52.9
56.2
54.9
58.2
53.2
54.1
53.1
53.9
54.9
56.7
52.1
57.7
55.4
54.9
54.9
55.5
56.6
56.6
54.7
55.6
53.2
54.7
53.0
57.5
55.6
56.9
57.4
49.9
54.7
53.8
58.4
55.7
55.4
54.3
49.1
56.7
55.4
53.0
55.3
55.7
52.1
51.0
53.1
55.3
52.1
54.3
54.9
55.3
56.7
57.1
54.4
53.7
58.9
53.8
54.8
55.7
55.4
56.6
56.8
53.4
53.4
56.0
56.5
56.7
54.0
51.6
52.6
56.4
56.8
57.4
54.7
55.5
53.2
54.7
54.7
58.4
56.3
58.1
53.4
56.7
58.1
54.9
54.2
56.5
53.2
51.3
56.6
56.6
58.8
57.7
52.5
56.2
54.4
56.8
51.8
53.9
58.4
58.7
55.2
53.0
58.0
58.6
52.3
59.2
56.5
57.1
54.2
55.3
55.5
56.1
52.1
53.9
53.2
52.9
58.8
55.0
54.2
54.8
53.4
56.8
51.9
55.0
51.6
58.2
55.5
56.2
53.7
54.6
51.7
55.5
52.8
54.4
55.7
54.0
56.8
53.3
56.8
54.2
50.5
54.3
54.6
53.2
52.2
55.2
55.4
55.8
55.6
60.2
57.0
54.6
55.0
56.6
55.1
58.0
57.3
56.0
51.7
55.1
54.5
53.8
55.1
55.7
57.1
53.2
52.4
55.5
57.2
56.1
55.1
55.2
56.3
57.1
55.5
53.2
54.8
55.6
56.0
60.7
58.3
59.4
52.8
55.8
56.8
56.3
55.7
53.0
53.0
51.9
55.7
53.4
53.8
52.1
57.5
59.8
55.3
55.0
55.0
54.2
57.6
55.1
56.5
58.3
53.1
55.2
53.7
48.4
54.7
55.0
56.5
56.9
57.0
58.2
56.7
54.4
50.2
54.4
56.5
Anlise de Dados
113
Decidimos construir uma tabela de frequncias com 8 classes, valor sugerido pela regra emprica
enunciada quando da construo do histograma, e considerar como amplitude de classe o valor 1.54
(valor aproximado, por excesso, de (max-min)/8).Construmos uma tabela de frequncias e o histograma
associado, utilizando a metodologia das PivotTables.:
O histograma sugere-nos um modelo Normal, pelo que, o passo seguinte ser testar se efectivamente
tem sentido ajustar um modelo Normal aos dados. Uma questo que se levanta neste momento a
seguinte: ter sentido estar a ajustar aos nossos dados um modelo com suporte R, isto , que pode
assumir qualquer valor real, quando ns sabemos que isso no se passa com o comprimento do brao?
Mas se estamos renitentes em ajustar um modelo com suporte em R, talvez pensassemos que seria mais
+
razovel um cujo suporte fosse R , pois se temos a garantia que o comprimento no pode ser negativo,
no sabemos qual o valor mximo que devemos escolher. Ou poderamos inventar um valor ao acaso
como limite superior, por exemplo 150 cm, mas com que legitimidade que escolhemos este e no outro
valor? Tambm no devemos considerar o valor 60.7 como valor mximo, embora tenha sido o maior
valor da amostra que se recolheu. Ningum nos garante que na populao no haja homens com o
comprimento do brao superior a 60.7! Nesta altura, de reflexo sobre qual o modelo a adoptar,
recordemos o que se disse sobre a escolha de um modelo para traduzir um fenmeno aleatrio todos
os modelos so maus, alguns so teis. No entanto, alm do histograma nos sugerir o modelo Normal,
devido semelhana com a funo densidade da Normal, tambm dispomos de alguma informao
cientfica sobre este modelo; e so esses estudos que nos dizem que ele se aplica em situaes de
fenmenos que possam ser considerados provenientes de uma contribuio aditiva de vrias variveis,
como , por exemplo, o caso da varivel em estudo. Ento, em posse da informao sobre a
provenincia dos dados e dos resultados do estudo descritivo dos mesmos, estamos em condies de
propor o modelo Normal.
3 passo Teste de ajustamento do modelo sugerido no passo anterior
Anlise de Dados
114
contra
H1: X
N(,)
Para utilizarmos o teste de ajustamento do Qui-qudrado, as classes Ai tm que constituir uma partio do
suporte da v.a. X. Neste momento podemos seguir dois processos, nomeadamente: utilizar a tabela de
frequncia anterior, procedendo s modificaes adequadas nas classes, de forma a termos uma
partio, ou utilizar o processo enunciado anteriormente, para a formao das classes. Vamos
exemplificar os dois processos:
Processo 1 Modificao da tabela de frequncias, de forma a termos uma partio de R
Para obter uma partio, basta proceder a uma alterao conveniente na primeira e na ltima classe,
como se apresenta a seguir:
Para calcular estimativas das probabiliaddes pi, utilizmos o modelo Normal(55.14, 2.087), no Excel. Por
exemplo, para calcular a probabilidade do intervalo ]49.94, 51.48], colocmos o cursor na clula G19 e
escrevemos =NORMDIST(51,48;55,14;2,087;TRUE)-NORMDIST(49,94;55, 14;2,087;TRUE).
2
Como estimmos dois parmetros a partir dos dados, a estatstica de teste X , tem uma distribuio
2
Anlise de Dados
115
Uma vez as classes construdas, teremos de contar quais os valores observados. Utilizmos a seguinte
tabela feita no Excel, para determinar esses valores, assim como o valor observado da estatstica de
teste:
A estatstica de teste a mesma, mas agora tem uma distribuio de amostragem dum Qui-quadrado
com 7=(10-2-1) graus de liberdade, uma vez que considermos 10 classes e estimmos 2 parmetros:
Anlise de Dados
116
Deciso: Uma vez que o P-value igual a 32.56%, no existe evidncia para rejeitar a hiptese de que
os dados sejam provenientes de um modelo Normal.
4 passo Transmisso dos resultados ao industrial txtil
Agora, nesta fase, justificava-se uma conversa com o Sr. Silva, para a apresentao dos resultados.
Pode-se, no entanto, ir adiantando alguma informao, em termos de percentagens dos futuros
compradores das camisas. Assim, temos os seguintes nmeros:
Aproximadamente 68% dos homens tm o comprimento dos braos no intervalo [53, 57]
P(55.14-2.087X55.14+2.087)=(1)-(-1)= 2(1)-10.68
Aproximadamente 95% dos homens tm o comprimento dos braos no intervalo [51, 59]
P(55.14-22.087X55.14+22.087)=(2)-(-2)= 2(2)-10.95
Aproximadamente 100% dos homens tm o comprimento dos braos no intervalo [49, 61]
P(55.14-32.087X55.14+32.087)=(2)-(-2)= 2(3)-10.997
Utilizando ainda o modelo Normal(55.14, 2.087), podemos ser um pouco mais precisos, informando o Sr.
Silva sobre os valores do 1 e 3 quartis, que so respectivamente 53.7 cm e 56.5 cm:
Assim, o industrial sabe que, por exemplo, s 25% dos homens que tm o comprimento dos braos
inferior a 53.7 cm e que 50% dos homens tm o comprimento dos braos no intervalo [53.7, 56.5]. Esta
informao importante, pois permite fazer uma programao adequada da percentagem de camisas
que devem ser fabricadas, para cada tamanho
Anlise de Dados
117
contra
x < X1:n
0 se
i
Fn(x) =
se X i:n x < X i+1:n
n
x X n:n
1 se
para i= 1, 2, ..., n-1. Se considerarmos X0:n=- e Xn+1:n=+, podemos escrever mais
simplesmente
Fn(x) =
i
n
Xi:nx<Xi+1:n,
i=0, 1, 2, ..., n
Repare-se que nFn(x) uma varivel aleatria discreta, que assume os valores i, com
n
i=0, 1, 2, ..., n e P[nFn(x)=i]= F(x)i[1-F(x)]n-i, para i=0, 1, 2, ..., n.
i
A v.a. n Fn(x) tem distribuio Binomial (n, F(x)), donde
E[nFn(x)]=nF(x)
Var[nFn(x)]=nF(x) [1-F(x)]
E[Fn(x)]=F(x)
Var[Fn(x)]=
F( x )[1 F( x )]
n
Estatstica bilateral
Estatstica unilateral
Anlise de Dados
118
Estatstica unilateral
As estatsticas unilaterais podem-se apresentar com outro aspecto, como vamos ver:
D n+ = sup [Fn(x) F(x)]
xR
i
= max inf F( x )
Xi:n x < Xi +1:n
0 i n n
i
= max F( X i:n )
0 i n n
i
= max max F( X i:n ), o
1in n
Analogamente
D n = sup [F(x) Fn(x)]
xR
= max inf F( x )
0in Xi:n x < Xi +1:n
n
= max F( X i+1:n )
0in
n
i 1
, o
n
i
D n+ = max max F( X i:n ), o
1in n
Anlise de Dados
119
Dn= Max { D n+ , D n }
1 i n
i 1
, o
n
donde conclumos que a distribuio das estatsticas de teste depende das variveis
aleatrias F(Xi:n). Como F(Xi:n) a isima estatstica ordinal de uma amostra cuja
distribuio subjacente a uniforme no intervalo (0, 1), conclumos que a distribuio
das estatsticas de K-S independente da distribuio considerada em H0, se esta for
absolutamente contnua.
Se a funo distribuio postulada em H0, F(.), for absolutamente
Teorema 5.3
contra
Utiliza-se a estatstica Dn e face ao valor observado de Dn, dn, rejeita-se H0 se dndn,, onde
P(Dndn,) = .
2. H0: XF(x)
contra
Utiliza-se a estatstica
+
P( D n dn, ) = .
3. H0: XF(x)
contra
Utiliza-se a estatstica
P( D n dn, ) = .
Exemplo 5.5 Considere a seguinte amostra de dimenso 10, que se supe proveniente de uma
populao X, com distribuio uniforme no intervalo (0,1): 0.621, 0.503, 0.203, 0.477, 0.710, 0.581, 0.329,
0.480, 0.554, 0.382. Verifique se existem razes para duvidar da nossa suposio.
Vamos considerar o seguinte teste:
Anlise de Dados
H0: XF0(x)
120
contra
x<0
0 se
F0(x)= x se 0 x < 1
1 se
x 1
Vamos utilizar a estatstica de teste bilateral Dn. Realizmos os clculos numa folha de Excel
e conclumos que dn=0,290. Consultando uma tabela com a distribuio de D10, obtemos que o quantil de
probabilidade 95% 0,409, d10,.05=0,409, pelo que tomamos a deciso de no rejeitar a hiptese nula,
uma vez que 0,290<0,409.
Anlise de Dados
121
Anlise de Dados
122
contra
H1: (F)> ou
0
p
H1: (F)< ou
0
p
H1: (F)
0
p
0.5
contra
H1:
0.5
Entrecampos, tm-se queixado alegando que o tempo que esperam pelo autocarro demasiado, quando
a empresa afirma que a mediana do tempo de espera inferior a 20 minutos. Haver razo para duvidar
da afirmao da Carris?
Pretende-se testar se existe evidncia para afirmar que a mediana da populao constituda pelos
tempos de espera na referida paragem superior a 20 minutos, ou seja:
Anlise de Dados
123
H0:
0.5 (F)20
contra
H1:
0.5 (F)>20
com base numa amostra de tempos de espera (em minutos) de 12 passageiros escolhidos
aleatoriamente e que foram 25, 15, 19, 16, 21, 24, 18, 18, 24, 28, 25, 21.
Vamos considerar para estatstica de teste a varivel aleatria R que representa o nmero de elementos
da amostra superiores a 20, e que sob H0 tem distribuio Binomial(12, 0.5). Como a hiptese alternativa
que a mediana superior a 20, ento deveremos rejeitar a hiptese nula para valores grandes da
estatstica de teste, pois se H1 fosse verdadeira, situao que nos levaria a rejeitar H, esperaramos
encontrar, na amostra, muitos valores maiores que a mediana. No nosso caso tem-se r0=7, pelo que
vamos calcular o P-value, que , neste caso, a probabilidade de encontrar um valor igual ou maior que o
valor observado, ou seja
P-value= P(R7|RB(12, 0.5))=0.387
Deciso: No h evidncia para rejeitar a afirmao da Carris (s rejeitaramos a hiptese nula para
38.7%).
n(1-p) valores maiores do que , dos n valores da amostra. Vamos ento considerar
0
uma estatstica que conta o nmero de valores maiores do que :
0
n
1 se X i > 0
j que I(Xi - )=
0 0 se X i 0
Ento, sob Ho, SnB(n, 1-p).
Maria Eugnia Graa Martins
com probabilidade (1 p)
com probabilidade p
Anlise de Dados
124
contra
H1: (F)<
0
p
P(X )=p>p
0
contra
H1: (F)>
p
0
P(X )=p<p
0
Anlise de Dados
125
H0
p (F)= 0
Regio de rejeio
p (F)< 0
Sn c
p (F)> 0
Sn c '
p (F) 0
Sn c * ou Sn c '*
i= 0
i (1 p) p
i= c '
( n i )
i (1 p) p
c *
i= 0
i= c '*
i (1 p) p
i
( n i )
( n i )
i (1 p) p
i
( n i )
/2
/2
Exemplo 5.7
seleccionadas aleatoriamente, entre os alunos de uma escola primria: 22.3, 21.7, 19.6, 18.4, 17.7, 19.3,
18.5, 18.6, 17.8, 16.9, 21.4, 20.6. A tabela de pesos para crianas de 6 anos, indica que o valor do 1
quartil 19 kg. Uma tcnica de sade, que visitou a escola, apresentou um relatrio, reclamando um
suplemento alimentar para as crianas, alegando que elas apresentavem um peso inferior ao tabelado.
Teste a veracidade desta afirmao. Qual o menor nvel de significncia que leva rejeio da hiptese
de que as crianas apresentam um peso, dentro do que est tabelado?
Ho:
0.25 (F)=19
H1:
0.25 (F)<19
onde F a funo distribuio da v.a. X, que representa o peso das crianas de 6 anos. Vamos
considerar como estatstica de teste a v.a. S12, que representa o nmero de crianas, na amostra, com
peso superior a 19, que sob Ho, tem distribuio Binomial(12, 0.75),
S12|HoB(12, 0.75)
Anlise de Dados
126
Rejeitamos Ho para valores pequenos da estatstica de teste, cujo valor observado s12 =6. Ento
P(S126)Ho =0.0544
Deciso: O menor nvel de significncia que nos levaria a rejeitar a hiptese nula seria =5.44%. Para
=10% h evidncia para afirmar que as crianas tm peso inferior ao tabelado.
0 .5
(H)=0
contra
H1:
0 .5
(H)0
P(U>V)<P(U<V) P(+)>P(-)
P(U>V)<P(U<V) P(+)<P(-)
0 .5
0 .5
(H)>0
(H)<0
0.5
(H) 0
Anlise de Dados
127
10
S (U)
463
462
462
456
450
426
418
415
409
402
Acomp. (V)
523
499
461
535
476
454
448
408
470
437
Rato
Vamos considerar a amostra xi=ui-vi, proveniente de uma v.a. X, com distribuio H, pretendendo-se
testar:
H0:
0.5
(H)=0
H1:
contra
0.5
(H)<0
10
S (U)
463
462
462
456
450
426
418
415
409
402
Acomp. (V)
523
499
461
535
476
454
448
408
470
437
0 .5
(F)=
contra
H1:
0.5 (F)> 0 ou
H1:
0.5 (F)< 0 ou
H1:
0.5 (F) 0
Anlise de Dados
128
Sem perda de generalidade, vamos considerar =0, pois caso isso no se verifique,
0
considera-se a amostra {Xi- }.
0
Como nas populaes simtricas a mediana e o valor mdio coincidem, neste teste
podemos falar indiferentemente de valor mdio ou mediana.
Para obter as estatsticas de teste, necessrio entrar com o conceito de ordem:
R I(X )
i =1
Tn
em que
1 t > 0
I(t)=
0 t < 0
Tn= max( Tn
, Tn )
n(n + 1)
,
2
Anlise de Dados
129
que a mediana tenha uma pequena probabilidade de ser igual a zero. Ento, se
considerarmos a estatstica de teste Tn+ , como nos propusemos, vejamos quais as
diferentes regies de rejeio, face s alternativas usuais:
H0
H1
0.5 (F)= 0
Regio de rejeio
0.5 (F)> 0
Tn+ c
0.5 (F)< 0
Tn+ c '
0.5 (F) 0
Exemplo 5.9 Considerando a populao constituda pelas percentagens de pessoas com idade maior
ou igual a 60 anos, nos diferentes pases, retirou-se desta populao uma amostra de dimenso 12,
cujos elementos so: 4.9, 6.0, 6.9, 17.6, 4.5, 12.3, 5.7, 5.3, 9.6, 13.5, 15.7, 7.7. Admitindo a simetria da
populao, teste se existe evidncia para duvidar que a mediana da populao seja igual a 12.
Pretende-se ento realizar o seguinte teste:
H0:
0.5 (F)= 12
contra
H1:
0.5 (F) 12
que o valor observado para a estatstica de teste demasiado pequeno para o que estvamos espera
se a hiptese nula fosse verdadeira! Efectivamente, se H0 fosse verdadeira, esperaramos obter um valor
Anlise de Dados
130
para a estatstica de teste volta de 39. Precisamos ento de calcular a probabilidade de obter um valor
+
igual ou mais pequeno do que o valor observado para a estatstica de teste, ou seja, P( T12 14H0), mas
para isso necessrio conhecer a distribuio de amostragem de
uma tabela com essa distribuio, verificamos que P( T12 14H0)=0.026. Ento o P-value igual a
0.052, pelo que a deciso a tomar a de rejeitar a hiptese nula para 5.2%.
caso contrrio
i Z
i =1
(i)
Vamos comear por obter a distribuio assinttica de Tn+ , pelo que temos de calcular
(caso existam!) o seu valor mdio e varincia, sob H0:
E( Tn+ )=
i E(Z
i=1
(i)
Ento
1 n
n(n + 1)
i=
2 i=1
4
E( Tn+ )=
Var( Tn+ )=
1 n 2 n(n + 1)(2n + 1)
i =
4 i=1
24
Anlise de Dados
131
Para n grande a condio de Lindeberg satisfeita, pelo que sendo vlida uma
generalizao do teorema limite central, vem que, sob H0, a distribuio de
n(n + 1)
4
pode ser aproximada pela distribuio N(0,1)
n(n + 1)(2n + 1)
24
Tn+
Tn+ =
n(n + 1)
se todos os Xis forem positivos (z(i)=1, i=1, 2, ..., n);
2
n(n + 1)
;
4
n(k)
(0, 0, 0)
1/8
(1, 0, 0)
1/8
(0, 1, 0)
1/8
(1, 1, 0)
2/8
(1, 0, 1)
1/8
(0, 1, 1)
1/8
(1, 1, 1)
1/8
P( T3
=k)
(0, 0, 1)
Anlise de Dados
132
P( T4
=k)
1.5
4.5
5.5
8.5
10
1/16
2/16
2/16
1/16
2/16
2/16
1/16
2/16
2/16
1/16
O valor mdio o mesmo, que no caso de no haver ligaes, ou seja E( T4+ )=5, mas a
varincia vem igual a Var( T4+ )=7.375, enquanto que no caso de no haver ligaes viria
igual a 7.5 (=4*5*9/24). Efectivamente, se representarmos as ordens, no caso de haver
ligaes, por ri, tem-se que E( Tn+ )=
1
2
i=1
ri =
1
2
i=1
i , mas Var( Tn )=
1
4
i=1
ri2
1
4
i=1
Anlise de Dados
133
Exemplo 5.10 (Adaptado de Murteira, B., 2002) Os dados do quadro seguinte constituem uma
amostra de observaes da precipitao anual em Beja. Pensa-se que a mediana da populao igual a
650 mm. Verifique se existem razes para duvidar desta hiptese.
607.4
592.8
513.3
602.3
809.1
809.1
345.4
527.4
672.0
721.8
488.8
620.0
497.6
581.1
533.9
481.1
407.7
728.4
464.0
384.2
Seja X a v.a. que representa a precipitao anual em Beja. Ento, pretende testar-se
H0: P(X<650)=P(X>650)=1/2
contra
H1:P(X<650)P(X>650)
Vamos utilizar este exemplo para o resolver pelo teste dos Sinais e pelo teste de Wilcoxon e comparar os
resultados.
Seja S20 a v.a. que representa o n de elementos da amostra maiores que 650, ou seja, o n de sinais
positivos nas diferenas (xi-mediana). Sob H0, S20 tem uma distribuio Binomial(20,0.5). Na tabela
anterior acrescentmos os sinais das diferenas
607.4(-)
592.8(-)
513.3(-)
602.3(-)
809.1(+)
809.1(+)
345.4(-)
527.4(-)
672.0(+)
721.8(+)
488.8(-)
620.0(-)
497.6(-)
581.1(-)
533.9(-)
481.1(-)
407.7(-)
728.4(+)
464.0(-)
384.2(-)
obtendo o valor observado da estatstica de teste s20=5. Como se rejeita para valores grandes ou
pequenos da estatstica de teste, vem que P-value=2 P(S205)=20.0207=0.0414, donde temos a
seguinte deciso:
Rejeitar H0 para 4.14%.
Se pensarmos em termos da regio crtica, temos que para o nvel de significncia de 5%, ela
constituda pelos valores {0, 1, 2, 3, 4, 5, 15, 16, 17, 18, 19, 20}. Isto significa que nenhuma hiptese que
proponha uma mediana maior que 488.8 (observao de ordem 6, quando se considera a amostra
ordenada) ou menor que 620.0 (observao de ordem 15 quando se considera a amostra ordenada),
ser rejeitada para o nvel de significncia de 5%. Desta concluso podemos concluir que o intervalo
(488.8, 620.0) um intervalo de confiana, com uma confiana de 95% para a mediana.
Admitindo que a distribuio F da precipitao simtrica, vamos utilizar o teste de Wilcoxon na
resoluo deste problema. As hipteses a testar so as mesmas, embora as apresentemos com outro
aspecto:
H0:
contra
H1:
Anlise de Dados
134
O valor observado para a estatstica de teste foi 43, pelo que consultando a tabela da distribuio de
+
43)=0.01, donde o P-value =0.02, pelo que temos a seguinte deciso:
Wilcoxon, verificamos que P( T20
0 .5
(H)=0
contra
H1:
0 .5
(H)0
Anlise de Dados
135
contra
O processo que se vai considerar para arranjar uma estatstica dec teste, vai ser o de
considerar a amostra conjunta dos Xs e dos Ys, considerando-se para estatstica de
teste a v.a. que conta o n total de Ys que so maiores que os Xi, i=1, 2, ..., m. Assim,
considerando
1 Yj > X i
Zij=
0 Yj X i
Z
i=1 j=1
ij
Anlise de Dados
136
H0
H1
Regio de rejeio
FX(x)=GY(x) x
FX(x)GY(x) x e para
algum x, FX(x)>GY(x)
W m,n c
FX(x)=GY(x) x
FX(x)GY(x) x e para
algum x, FX(x)<GY(x)
W m,n c
FX(x)=GY(x) x
FX(x)GY(x) para
algum x
Observao: Chamamos a ateno para o facto de que dizer que F>G equivalente a
dizer que X<Y, pois, como se verifica pela figura junta, dado um x qualquer, tem-se
P(Xx)>P(Yx) ou P(X>x)<P(Y>x), isto ,
se F>G, ento X toma valores menores
que x com maior probabilidade do que Y
toma valores menores que x, ou tem
menor probabilidade de tomar valores
maiores que x, do que Y.
Este facto faz com que, por exemplo, na primeira situao de teste considerada
anteriormente, se a hiptese alternativa em que admitimos que F>G, for verdadeira,
esperamos encontrar muitos Ys maiores que Xs, na amostra conjunta (j que X<Y),
ou seja um valor grande para a estatstica de teste. Assim, um valor grande para a
estatstica de teste leva-nos a rejeitar a hiptese nula. Sabemos que um valor grande
deve situar-se prximo de mn, mas para saber qual o ponto crtico que, para um
determinado nvel de significncia define a fronteira entre a regio de rejeio e a de
no rejeio, temos de conhecer a distribuio de amostragem da estatstica de teste.
5.4.1.1 1 Distribuio de amostragem de Wm,n
Vamos comear por obter a distribuio assinttica de W m,n, pelo que temos de calcular
o seu valor mdio e varincia, sob H0:
m
i=1 j=1
Anlise de Dados
Var(W m,n)=
137
Cov(Z , Z
ij
hk
i=1 j=1 h =1 k =1
mn
2
No que diz respeito varincia, necessrio calcular E(ZijZhk), pelo que vamos
considerar o produto
1 se X i < Y j e X h < Yk
0 caso contrrio
ZijZhk=
se i=h e j=k
=P(Xi<Yj)2 se ih, jk
=P(Xi<Yj, Xh<Yj) se ih, j=k ou i=h, jk
Para calcular as probabilidades anteriores, basta ter em considerao que, dados 3
elementos de uma amostra X1, X2 e X3, P(X1< X2)=1/2 e P(X1<X2, X3<X2)=2/6=1/3.
Atendendo a que Cov(Zij, Zhk)= E(ZijZhk) E(Zij)E(Zhk), vem, sob H0:
Cov(Zij, Zhk)=
se ih, jk
1/4
se i=h e j=k
1/12
Assim, para obter a varincia de W m,n, basta contar o n de termos em que se verificam
cada uma das situaes anteriores, e que :
Se
i=h, j=k
o n de termos mn
j=k, ih
nm(m-1)
i=h, jk
mn(n-1)
mn(m + n + 1)
12
Anlise de Dados
138
E(W m,n)=
Var(W m,n)=
mn
2
mn(m + n + 1)
12
Para valores elevados de m e n, embora as variveis Zij sejam dependentes, i=1, ..., m;
j=1, ..., n, continua a ser vlido um teorema do tipo do teorema limite central, pelo que a
distribuio de amostragem de
mn
2
pode ser aproximada pela distribuio N(0,1)
mn(m + n + 1)
12
Wm,n
Para obter a distribuio exacta de W m,n sob a validade de H0, vamos representar a
funo massa de probabilidade por pm,n(k)=P(W m,n=k)=P[n de Zij em que Yj>Xi (na
amostra conjunta) igual a k], com K=0, 1, ..., mn. Considerando a amostra conjunta dos
Xs e dos Ys, vamos calcular a probabilidade anterior condicionando no maior valor
dessa amostra conjunta, fazendo o seguinte raciocnio:
O maior elemento da amostra conjunta pode ser um elemento pertencente amostra
dos Xs, o que ocorre com probabilidade
m
(no esquecer que sob H0, existe
m+n
n
. Por outro lado, para que W m,n venha igual a k:
m+n
Anlise de Dados
139
se o maior elemento for um Yj, ele est a contribuir com m Zij para k e
necessrio que os restantes m Xs e (n-1) Ys contribuam com (k-m).
m
n
pm-1,n(k)+
pm,n-1(k-m)
m+n
m+n
75
82
28
82
94
78
76
64
Anlise de Dados
140
78
95
63
37
48
74
65
77
63
contra
Estatstica de teste: A v.a. W 8,9, que representa o nmero de vezes que os Ys so superiores aos Xs, na
amostra conjunta. Para obter o valor observado para a estatstica de teste, uma metodologia possvel a
seguinte:
1 passo: o primeiro y que surge na amostra dos ys, ou seja o 78, superior a 4 XS;
2 passo: o segundo y que surge na amostra os ys, ou seja o 95, superior a 8 xs;
....
9 passo: o ltimo y que surge na amostra os ys, ou seja o 63, superior a 1 xs.
Ento, o valor observado da estatstica de teste
w8,9=4+8+1+1+1+2+2+4+1=24
os valores que a estatstica de teste pode assumir, variam entre 0 e 72, pelo que se rejeitarmos H0, ser
porque 24 um valor demasiado pequeno, pelo que precisamos de calcular P(W 8,924)
Da
As tabelas disponveis s apresentam a P(W m,n>w),
donde P(W 8,924)=P(W 8,972-24)=P(W 8,9>47)
consulta
das
tabelas,
verificamos
que
Deciso: No temos razo para duvidar que os dois mtodos sejam idnticos.
Exemplo 5.12 Dois plsticos, cada um produzido pelo seu processo foram testados para avaliar a
sua resistncia. As medidas a seguir representam as foras necessrias para danificarem vrios pedaos
idnticos dos dois tipos de plstico. Haver razes para acreditar que o plstico 2 mais forte que o
plstico 1?
Plstico 1:
15.3
18.7
22.3
17.6
19.1
14.8
Plstico 2:
21.1
22.4
18.3
19.3
17.1
37.7
Representando por F1 e F2, respectivamente a distribuio da fora necessria para danificar o plstico 1
e o plstico 2, pretendemos testar:
H0: F1(x)=F2(x) x
contra
Estatstica de teste: A v.a. W 6,6, que representa o nmero de vezes que os valores da amostra 2 so
superiores aos valores da amostra 1, quando se considera a amostra conjunta. O valor observado da
estatstica de teste w6,6=5+6+3+5+2+6=27.
Anlise de Dados
141
Rejeitamos a hiptese nula para valores grandes da estatstica de teste, pelo que pretendemos calcular
P(W 6,627), ou seja P(W 6,6>26). Da consulta das tabelas
P(W 6,6>26)=.10
Deciso: Para o nvel de significncia de 10%, rejeitamos a hiptese dos dois tipos de rao serem
idnticos. J no rejeitamos para 5% ou 1%.
Exemplo 5.13 Temos dois tipos de alimentao para porcos A e B, tendo-se comeado a desconfiar
que a rao de tipo A melhor que a de tipo B. Com base em amostras de pesos de porcos, com a
mesma idade e da mesma ninhada, mas em que uns foram alimentados com a rao A e os outros com
a rao B, verifique se a desconfiana tem razo de ser:
Rao A:
73
42
90
58
62
Rao B:
50
23
68
40
45
contra
Estatstica de teste: W 5,5 que representa o nmero de vezes que os pesos Bs so superiores aos As.
Valor observado da estatstica de teste: w5,5=1+3+1=5
Rejeitamos a hiptese nula para valores pequenos da estatstica de teste, pelo que pretendemos calcular
P(W 5,55), ou seja P(W 5,55)=P(W 5,525-5)=P(W 5,520)=P(W 5,5>19). Da consulta das tabelas
P(W 5,5>19)=.10
P(W 5,5>20)=.05
Assim P(W 5,55)=P(W 5,5<6)= P(W 5,5>19)=0.10
Deciso: Para o nvel de significncia de 10%, rejeitamos a hiptese dos dois tipos de rao serem
idnticos. J no rejeitamos para 5% ou 1%.
i=1
i=1
n(n + 1)
, donde
2
Anlise de Dados
142
Tm,n=W m,n +
n(n + 1)
2
Xi
1
P( X i = k ) = N
N
Ento E(Xi)= k
i=1
N +1
1 N +1
, pelo que E(T)=n
=
N
2
2
n
(1)
i =1 j=1
(N + 1)(N 1)
N +1
e Cov(Xi, Xj)=12
12
Como na expresso (1) o termo que contm a varincia aparece n vezes e o que
contm a covarincia aparece n(n-1) vezes, vem que
Var(T)=n
=
(N + 1)(N 1)
N +1
+n(n-1)()
12
12
n(N + 1)(N n)
12
Exemplo 5.13 Considere duas amostras independentes X1, X2, X3 e Y1, Y2 e a estatstica de teste
T3,2, anteriormente considerada. Determine a sua distribuio de amostragem.
Resoluo: Vamos considerar uma matriz, onde indicamos as ordens possveis para Y1 e para Y2, na
amostra conjunta, preenchendo a tabela com a soma dessas ordens, como se apresenta a seguir
Anlise de Dados
143
OrdemY1
Ordem Y2
1
2
P(T3,2=k)
.1
.1
.2
.2
.2
.1
.1
se
x < X1:m
k = 1,..., m - 1
x X m:m
x < Y1:n
0 se
k = 1,..., n - 1
Anlise de Dados
144
D m+ ,n = sup Fm* ( x ) G n* ( x )
x
D m ,n = sup G n* ( x ) Fm* ( x )
x
Anlise de Dados
145
G *20 (x)=0
x<-2.39
x<-5.80
0.05
-2.39x<-1.79
0.05
-5.80x<-5.10
0.10
0.15
0.20
-1.79x<-1.54
-1.54x<-1.10
-1.10x<-0.87
0.10
0.15
0.20
-5.10x<-3.80
-3.80x<-3.30
-3.30x<-3.10
0.25
0.30
0.35
-0.87x<-0.74
-0.74x<-0.62
-0.62x<-0.50
0.25
0.30
0.35
-3.10x<-2.40
-2.40x<-2.20
-2.20x<-0.40
0.40
0.45
0.50
-0.50x<-0.31
-0.31x<-0.17
-0.17x<-0.09
0.40
0.45
0.50
-0.40x<0.07
0.07x<0.50
0.50x<1.63
0.55
0.60
0.65
-0.09x<0.15
0.15x<0.19
0.19x<0.22
0.55
0.60
0.65
1.63x<2.58
2.58x<3.50
3.50x<3.76
0.70
0.75
0.80
0.22x<0.30
0.30x<0.37
0.37x<0.38
0.70
0.75
0.80
3.76x<4.32
4.32x<4.87
4.87x<5.18
0.85
0.90
0.95
0.38x<1.28
1.28x<1.72
1.72x<2.3
0.85
0.90
0.95
5.18x<5.76
5.76x<6.31
6.31x<7.11
1.00
2.3x
1.00
7.11x
*
Ento F20
(x) - G *20 (x)= 0
x<-5.80
-0.05
-0.10
-5.80x<-5.10
-5.10x<-3.80
0.15
0.20
0.25
0.15x<0.19
0.19x<0.22
0.22x<0.30
-0.15
-0.20
-0.25
-3.80x<-3.30
-3.30x<-3.10
-3.10x<-2.40
0.30
0.35
0.40
0.30x<0.37
0.37x<0.38
0.38x<0.50
-0.30
-0.25
-0.30
-2.40x<-2.39
-2.39x<-2.20
-2.20x<-1.79
0.35
0.40
0.35
0.50x<1.28
1.28x<1.63
1.63x<1.72
-0.25
-0.20
-0.15
-1.79x<-1.54
-1.54x<-1.10
-1.10x<-0.87
0.40
0.45
1.72x<2.30
2.30x<2.58
0.40
2.58x<3.50
-0.10
-0.05
0
-0.87x<-0.74
-0.74x<-0.62
-0.62x<-0.50
0.35
0.30
0.25
3.50x<3.76
3.76x<4.32
4.32x<4.87
0.05
0
0.05
-0.50x<-0.40
-0.40x<-0.31
-0.31x<-0.17
0.20
0.15
0.10
4.87x<5.18
5.18x<5.76
5.76x<6.31
0.10
0.15
0.10
-0.17x<-0.09
-0.09x<0.07
0.07x<0.15
0.05
0
6.31x<7.11
7.11x
O valor observado da estatstiva de teste d20,20=0.45, como se pode verificar da diferena entre as
funes de distribuio empricas, anteriormente considerada, e se pode visualizar na figura seguinte,
onde esto representadas graficamente essas funes:
Anlise de Dados
146
Consultando uma tabela da distribuio D20,20, verificamos que P(D20,200.45)=0.02. Ento rejeitamos a
hiptese nula para 2%, pelo que rejeitamos a hittese de que o tratamento no tem efeito, para o nvel
de significncia de 5%.
Consideremos p (3) populaes contnuas, independentes, X1, X2, ..., Xp, com funes
distribuio F1, F2, ..., Fp, de onde se recolheram, respectivamente, as amostras
X11, X12, ..., X1n1
X21, X22, ..., X 2n2
...
Xp1, Xp2, ..., X pnp
Com base nas amostras anteriores, pretende-se testar a hiptese nula de que as p
populaes so homogneas, contra a hiptese alternativa, de que pelo menos uma
das populaes fornece observaes maiores ou menores.
Para obter a estatstica de teste, do mesmo modo que para o teste de Mann-Whitney,
vamos considerar a amostra conjunta, constituda pelas p amostras. No entanto, a partir
daqui vamos trabalhar com as ordens das observaes, quando consideradas na
amostra conjunta, pelo que deixaremos de trabalhar com os dados originais. Vamos
delinear, a seguir, a filosofia que est por detrs do teste de Kruskal-Wallis.
p
Anlise de Dados
147
Se a hiptese nula for verdadeira, esperamos que a distribuio das ordens pelas
diferentes amostras se faa aleatoriamente, pelo que nem as ordens pequenas, nem as
ordens grandes tero tendncia em concentrar-se numa das amostras. Assim, se se
verificar a homogeneidade entre as populaes, esperamos que as p somas das ordens
das observaes das p amostras, que representmos por Ri, sejam aproximadamente
iguais, depois de devidamente ajustadas para entrar em linha de conta com as
diferentes dimenses das amostras. Intuitivamente, uma possvel estatstica de teste,
poderia ser uma estatstica que determinasse se as somas das ordens no so
substancialmente diferentes das que obteramos se considerssemos populaes
idnticas. Ento, sob a hiptese de homogeneidade, temos que
ni
E(Ri) = E( R( X ij ) ) =
j=1
ni
E(R( Xij )) =
j=1
ni
n (N + 1)
1 N
i= i
2
j=1 N i=1
e vamos considerar uma estatstica que consiste na soma ponderada dos quadrados
dos desvios entre as somas das ordens e o valor mdio anterior, utilizando como
coeficiente de ponderao os inversos das dimenses das amostras:
p
1
D=
i=1 n i
Pode-se mostrar que E(D) =
n i (N + 1)
R i
2
(p 1) N (N + 1)
, utilizando-se ento como estatstica de
12
12
D , que se representa por K n1 ,n2 ,...,np e que se
N(N + 1)
Anlise de Dados
148
com valor mdio (p-1), independente das dimenses das amostras. A frmula anterior
obtm-se no pressuposto de que no existem ligaes. Caso isso acontea,
necessrio introduzir uma correco, pelo que a estatstica de teste a utilizar ser:
1 p R i2 N(N + 1) 2
K n1 ,n2 ,...,np = 2
4
S i=1 n i
N(N + 1) 2
1 p ni 2
S=
R ( X ij )
N 1 i=1 j=1
4
onde
Para obter a distribuio exacta da estatstica de teste K n1 ,n2 ,...,np , basta ter presente que,
sob H0, todos os arranjos das ordens de 1 at N, em grupos de tamanhos n1, n2, ..., np,
so igualmente provveis. Calcula-se para cada um o valor da estatstica de teste e
assim se obtm a f.m.p da estatstica. No caso particular de p=3, n1=2, n2=1 e n3=1,
vem :
Arranjo
1e2
3e4
5e6
7e8
9 e 10
11 e 12
13 e 14
15 e 16
17 e 18
Amostra
1(X1,X2) Ordens
(X1,X2) ou (X2,X1) (1,2)
(X1,X2) ou (X2,X1) (1,2)
(X1,X2) ou (X2,X1) (1,3)
(X1,X2) ou (X2,X1) (1,3)
(X1,X2) ou (X2,X1) (1,4)
(X1,X2) ou (X2,X1) (1,4)
(X1,X2) ou (X2,X1) (2,3)
(X1,X2) ou (X2,X1) (2,3)
(X1,X2) ou (X2,X1) (2,4)
2 (Y) Ordem
3
4
2
4
2
3
1
2
1
2(Z) Ordem
4
3
4
2
3
2
2
1
3
K2,1,1
2.7
2.7
1.8
1.8
0.3
0.3
2.7
2.7
1.8
Anlise de Dados
19 e 20
21 e 22
23 e 24
149
3
1
2
1
2
1
1.8
2.7
2.7
0.3
1.8
2.7
P(K2,1,1=k)
4/24
8/24
12/24
n (N + 1)(N n i )
N +1
. Ento, a distribuio
e Var(Ri)= i
2
12
de
2
R i E(R i ) {R i [n i (N + 1) / 2]}2
=
Var (R i ) n i (N + 1)(N n i ) / 12
pode ser aproximada pela distribuio do Qui-quadrado, com 1 grau de liberdade. Se os
Ri fossem independentes (Conover, pag 235), a soma das p parcelas, idnticas
expresso anterior, correspondentes s p v.a. Ri, teria uma distribuio aproximada de
um Qui-quadrado, com (p-1) graus de liberdade. No entanto a soma dos Ri N(N+1)/2,
pelo que existe dependncia. Kruskal mostrou que se a parcela correspondente
varivel Ri for multiplicada por (N-ni)/N, para cada i=1, 2, ..., p, ento
p
{R i [ni (N + 1) / 2]}2
i=1
n i (N + 1)N / 12
Anlise de Dados
150
No caso de H0 ser verdadeira, K8,7,6 tem uma distribuio assinttica de Qui-quadrado, com 2 graus de
liberdade.
A metodologia utilizada para obter o valor da estatstica de teste de K-W, foi de inserir os dados de cada
grupo, em coluna, numa folha de Excel, indicando na coluna adjacente o grupo a que pertencem.
Ordenmos os dados (esta operao no era necessria, mas conveniente para nos apercebermos
mais rapidamente da existncia de observaes iguais, uma vez que, neste caso, as ordens iguais vm
consecutivas), sem perder a indicao do grupo a que pertencem e utilizando a funo RANK do Excel
atribumos ordens aos dados. No caso de haver observaes iguais, substitumos a ordem que o Excel
atribui, pela mdia das ordens.
Anlise de Dados
151
O valor observado para a estatstica de teste foi de 9.84. Para calcular o valor anterior ignormos as duas
ligaes existentes.
que, para o valor de x=9.83627 e deg_freedom=2, devolve o valor 0.007313, que a probabilidade de
uma varivel aleatria X, com uma distribuio de um Qui-quadrado, com 2 graus de liberdade, assumir
valores superiores a 9.83627, ou seja, o p-value=0.007313.
Deciso: Rejeitar a hiptese nula para valores de 0.7%.
Para utilizar o teste de Kruskal-Wallis, basta que os dados estejam na escala ordinal,
como se exemplifica a seguir:
Exemplo 5.16 Trs instrutores decidiram comparar as pontuaes dadas no semestre passado, para
averiguar se haveria algum com tendncia para dar notas mais baixas. Estes instrutores fizeram parte de
um jri de avaliao, sendo o resultado da avaliao, sobre alunos do mesmo nvel, o seguinte:
Pontuao
Instrutor1
Instrutor2
Instrutor3
10
14
17
Anlise de Dados
152
contra
A tabela anterior apresenta as classificaes dadas, numa escala ordinal, em que, por exemplo, a
classificao A foi atribuda a 20 alunos, metade dos quais pelo instrutor2. Como se depreende, temos
dados com muitas ligaes, nomeadamente 20 iguais a A, 27 iguais a B, etc. Vamos aproveitar a tabela
anterior para associar as ordens mdias a cada uma das pontuaes, de forma a calcular o valor
observado para a estatstica de Kruskal-Wallis:
Pontuao
Instrutor1
Instrutor2
Instrutor3
Total linhas
10
20 (1-20)
14
27 (21-47)
17
34 (48-81)
19 (82-100)
9 (101-109)
N total de
estudantes
43
38
28
Ordens
mdias
21
=10.5
2
21 + 47
=34
2
48 + 81
=64.5
2
82 + 100
=91
2
101 + 109
=105
2
R1=410.5+1434+1764.5+691+2105=2370.5
R2=1010.5+634+964.5+791+6105=2156.5
R3=610.5+734+864.5+691+1105=1468
2
Neste caso temos de utilizar a expresso que d o S para o caso de existirem ligaes, obtendo
S2=941.71, donde vem para o valor observado da estatstica de teste k43,38,28=0.3209. Sabendo que, se
H0 verdadeira, a distribuio da estatstica de teste K43,38,28 assintoticamente um Qui-quadrado com 2
graus de liberdade, obtemos para o p-value
P-value= P(K43,38,28 0.3209)=0.8518 (calculado no Excel)
Deciso: No existe razo para duvidar que os instrutores do notas anlogas.
> t 1 / 2 (N p) S 2
Np
ni n j
1/ 2
1 1
+
n n
j
i
1/ 2
Anlise de Dados
153
onde t1-/2 o quantil de probabilidade 1-/2 de uma t-Student com (N-p) graus de
liberdade. O nvel de significncia o mesmo que o utilizado no teste de K-W.
Exemplo 5.15 (cont) Para este exemplo, uma vez que rejeitmos a hiptese nula para os nveis
usuais de significncia, vamos utilizar o critrio definido anteriormente para proceder s comparaes
mltiplas. Vamo-nos fixar no nvel de significncia de 5%.
2
S=
N(N + 1)
=38.5;
12
2 N 1 k n1,n 2 ,...,np
S
Np
=21.73
Da tabela anterior conclumos que existe tendncia para que a populao 1 seja distinta das populaes
2 e 3, no havendo razo para dizer o mesmo sobre as populaes 2 e 3.
Anlise de Dados
154
A1
A2
Aj
Ac
X1
n11
n12
n1j
n1c
n1
X2
n21
n22
n2j
n2c
n2
ni1
ni2
nij
nic
ni
np1
np2
npj
npc
np
n.1
n.2
n.j
n.c
q
Xi
q
Xp
(n ij n i p jIi ) 2
n i p jIi
j=1
(n ij n i p jIi ) 2
n i p jIi
i=1 j=1
jIi
n. j
n
=1
j=1
Anlise de Dados
155
(n ij n i
X =
2
i=1 j=1
ni
n. j
n
p jIi
)2
j que p(c-1)-(c-1)=(p-1)(c-1).
Regra de deciso para o nvel de significncia :
Rejeitar H0 para x2 2(1 ) (p1)(c 1) (Quantil de probabilidade (1-) de um (2p1)(c 1) ).
Alternativamente, calcula-se para o valor observado x 02 , a probabilidade P=P(X2 x 02 ,) e
rejeita-se H0 para P.
Exemplo 5.17 O Senhor Afonso, director da Academia de Manequins Continental, tem muito orgulho
na sua escola e argumenta que os seus manequins so melhores profissionais do que os da sua
concorrente, a Senhora D. Brbara, dos Modelos Jovens. Numa avaliao destas duas escolas de
manequins, as classificaes obtidas pelos manequins foram:
Muito Bom
Suficiente
Medocre
Total
Afonso
10
45
60
Brbara
35
11
50
Total
14
80
16
110
Com base nas classificaes, haver evidncia para duvidar de que as duas escolas fornecem
profissionais do mesmo nvel?
Resoluo:
H0:
H1:
Estatistica de Teste: X2 que, sob H0, tem distribuio assinttica de um (22 1)(31) .
Sob H0, o valor observado da estatstica de teste, obtm-se da seguinte forma:
x 02 =
14 2
)
110
14
60
110
(10 60
80 2
)
110
80
60
110
( 45 60
16 2
)
110
16
60
110
(5 60
14 2
)
110
14
50
110
( 4 50
80 2
)
110
80
50
110
(35 50
16 2
)
110
16
50
110
(11 50
= 5.20
Consultando uma tabela do Qui-quadrado com 2 graus de liberdade, ou o Excel, vem que
P(X
5.20)=0.074274.
Deciso: Rejeitar a hiptese de que os manequins das duas escolas tm o mesmo nvel, para 7.43%.
Anlise de Dados
156
contra
isto , face a uma amostra aleatria (Xi, Yi), i=1,...,n, pretendemos testar a
independncia do par (X,Y).
Para obter a estatstica de teste comeamos por dividir o suporte da varivel aleatria X
em p classes A1, A2, ..., Ap, disjuntas e o suporte da varivel aleatria Y em c classes
B1, B2, ..., Bc, disjuntas. Representemos por
nij= #{(xk, yk): xkAi, ykBj},
ni.=
n.j=
n ij
j=1
ij
i=1
A1
A2
B1
n11
n21
B2
n12
n22
Bj
n1j
n2j
Bc
n1c
n2c
n1.
n2.
Ai
ni1
ni2
nij
nic
n3.
Ap
np1
n.1
np2
n.2
npj
n.j
npc
n.c
np.
contra
Estatstica de teste:
Se as probabilidades pij forem conhecidas, a estatstica de teste que se utiliza
p
X2=
i=1 j=1
(n ij np ij ) 2
np ij
Anlise de Dados
157
i=1 j=1
(n ij n i.n . j / n) 2
n i.n . j / n
Exemplo 5.18 Para estudar se haveria alguma relao entre a sensibilidade da pele ao Sol e a cor
dos olhos, considerou-se uma amostra de 100 pessoas que foram sujeitas a uma dose de raios ultravioletas, tendo-se obtido os seguintes resultados:
Tire concluses.
Azul
Cinzenta ou verde
Castanha
++
19
7
1
Reaco
+
27
8
13
4
5
16
Anlise de Dados
158
A estatstica de teste X tem uma distribuio assinttica de um (24 ) . O valor observado da estatstica de
2
teste x =25.13, donde P(X 25.13)<.0001, pelo que rejeitamos a hiptese nula. Assim, conclumos que
h evidncia para dizer que a cor dos olhos no independente da sensibilidade da pele.
R=
(X
i=1
i=1
(R
X)( Yi Y )
( X i X)
( Yi Y )
i =1
RS=
R )(S i S )
i=1
i=1
(R i R ) 2
(S
S)2
i=1
Para obter as ordens Ri= ordem de Xi e Si= ordem de Yi, ordenam-se as amostras dos
Xis e os Yis separadamente. Como se admite que tm distribuio contnua,
Anlise de Dados
159
R S
i
(1)
RS=
nR S
i=1
2
i
n R 2 )(
i =1
2
i
nS 2 )
i=1
Ri =
i=1
Si =
i=1
i =
i=1
R = S = i
2
i
2
i
i=1
i=1
n(n + 1)
2
i=1
n(n + 1)( 2n + 1)
6
Ento
n
R S
(2)
i=1
(3)
=S=
n(n + 1)( 2n + 1)
6
D
i=1
2
i
(n + 1)
2
12
RS=
R S
i
i=1
2
n(n 1)
-3
(n + 1)
n 1
ou
n
RS= 1 - 6
2
i
i=1
2
n(n 1)
Anlise de Dados
160
D i2 =
i=1
n(n 2 1)
3
implica RS=-1.
Assim, o grau mximo de associao verifica-se para |RS|=1:
Quando RS=1, existe uma associao directa;
Quando RS=-1, existe uma associao indirecta
Pequenos valores de RS, tendem a suportar a hiptese H0 de no associao entre X e
Y.
Regra de deciso, utilizando a estatstica RS:
H0
H1
Rej H0
P-value, sob H0
No existe
associao
Existe associao
directa
RSc1
P(RSr0)
RSc2
P(RSr0)
Existe associao
|RS|c
2min[P(RSr0), P(RSr0)]
A partir da expresso de RS
n
12
RS=
12
n(n 2 1)
E(
R S
i
i=1
2
n(n 1)
-3
(n + 1)
n 1
n +1
R S ) -3 n - 1
i
i=1
n +1 2
)
2
(Observao: Cada um dos Ri (ou Si) uma v.a. que, sob H0, assume o valor i, i=1,...,n, com
probabilidade 1/n).
1
, donde, para n
n -1
Anlise de Dados
161
is
12
r=
is
-3
i=1
2
3(3 1)
(1, 2, 3)
14
1.0
(1, 3, 2)
13
.5
(2, 1, 3)
13
.5
(2, 3, 1)
11
-.5
(3, 1, 2)
11
-.5
(3, 2, 1)
10
-1.0
(3 + 1)
3 1
Ento
RS=r
-1
-.5
.5
PH0 (R S = r )
1/6
2/6
2/6
1/6
-1
-.8
-.6
-.4
-.2
.2
.4
.6
.8
PH0 (R S = r )
1/24
3/24
1/24
4/24
2/24
2/24
2/24
4/24
1/24
3/24
1/24
Anlise de Dados
162
Juiz 2:
contra
i si = 2+8+9+4=23
O valor observado da estatstica de teste r0=-.4, donde P(|RS|.4)=18/24=.75, pelo que decidimos no
rejeitar H0.
Anlise de Dados
163
X11
X12
...
X1I
X21
X22
...
X2I
...
...
...
...
Xm1
Xm2
...
XmI
R11
R12
...
R1I
R21
R22
...
R2I
Rm1
Rm2
...
RmI
Muito possivelmente o conjunto dos dados para anlise j nos so fornecidos na forma
de ordenaes.
Outra forma de apresentar os dados dizer que temos I objectos (tratamentos),
classificados por m juzes (blocos):
Obj
R11
R21
...
...
R12
...
R1I
R22
...
R2I
Juiz
...
...
...
...
...
Ri1
Ri2
...
...
...
RiI
Rm1
Rm2
...
RmI
...
m
Em geral, quando vrios juzes ordenam vrios itens, ou quando obtemos vrias
ordenaes, esperamos que haja correlao entre as ordenaes e precisamente
isso que pretendemos testar. Assim, as hipteses que nos interessam considerar so:
H0: Existe independncia entre as ordenaes (os tratamentos tm todos o mesmo
efeito)
contra
H1: No existe independncia entre as ordenaes
Vamos utilizar uma estatstica de teste muito semelhante estatstica de Kruskal-Wallis,
(K-W), na forma e na distribuio.
Para calcular a estatstica de K-W, substitumos cada observao pela sua ordem, na
amostra conjunta, com o objectivo de comparar cada observao com outra qualquer.
Aqui no faz muito sentido comparar observaes correspondentes a linhas diferentes,
pelo que a cada linha corresponde uma observao.
Anlise de Dados
164
E(R ij ) =
i =1
i
i=1
i=1
m(I + 1)
2
A soma dos quadrados dos desvios de Rj, relativamente a E(Rj) , por conseguinte,
uma medida das diferenas nas classificaes dos diferentes objectos. Seja
I
m(I + 1)
S=
R j
2
i=1
Ento, a distribuio de
Rj
m(I + 1)
2
m(I 2 1)
12
m(I 2 1)
12
m(I + 1)
I R j
2
m(I 1)
j=1
12
F*=
m(I 2
R
1)
12
j =1
m(I + 1)
tem uma distribuio assinttica de um (2I1) . Mostraremos
2
Im(I 2 1)
, pelo que a estatstica
12
F=
12
mI(I + 1)
j=1
m(I + 1)
R j
2
Anlise de Dados
165
tem valor mdio (I-1), dependendo, portanto, unicamnete do nmero de objectos que se
pretendem ordenar. esta estatstica F, que se utiliza como estatstica de Friedman.
Outra forma de apresentar a estatstica F, a seguinte
F=
12
mI(I + 1)
2
j
-3m(I+1)
j=1
m(I 2 1)
12
Var(Rj)=E( R 2j ) E2(Rj)
m
E( R 2j ) =E(
ij
)2
i =1
E(R
2
ij ) +
i=1
=m
=
1
I
E(R
ij )E(R kj ) ,
+m(m-1)
i=1
(I + 1) 2
4
m(I + 1)
[(I-1)+3m(I+1)]
12
E(S) =
com ik
i=1 k =1
E(R 2j ) +
j=1
m(I + 1)
, vem o resultado pretendido.
2
Im(I 2 1)
12
m(I + 1)
Im 2 (I + 1) 2
-2
4
2
E(R )
j
j=1
Im(I + 1)
m(I + 1) Im(I + 1)
Im 2 (I + 1) 2
[(I-1)+3m(I+1)]+
-2
12
4
2
2
Im(I 2 1)
12
Anlise de Dados
166
Exemplo 5.20 Num festival da cano, em que concorreram 7 pases, o jri, constitudo por 3
elementos, ordenou as canes pela seguinte ordem:
Portugal
Espanha
Frana
Suia
Itlia
Blgica
Reino Unido
Juiz 1
Juiz 2
Juiz 3
Soma ordens
11
14
20
10
12
Pretende-se saber se existe evidncia de alguma das canes ser preferida, relativamente s restantes.
Resoluo: Pretende-se testar as hipteses
H0: Existe independncia entre os juzes
contra
ou as canes so equivalentes
A estatstica de teste F tem, sob H0, uma distribuio assinttica de um (26 ) e o valor observado de F,
f =
12
3 7(7 + 1)
2
j
-98
j=1
1
(81+121+64+196+400+100+144)-72
14
=7
Para I=7 e m=3, no temos a distribuio exacta da estatstica de teste, pelo que utilizamos a distribuio
assinttica, obtendo-se.30<P(F7)<.40, pelo que decidimos no rejeitar H0, para os nveis usuais de
significncia, ou seja, no h evidncia para dizer que os juzes combinaram a classificao.
Exemplo 5.21 Decidiu-se testar 3 tipos de raes para animais. Escolheram-se 3 grupos de 5 porcos
cada um, em que cada grupo de porcos foi escolhido dentro da mesma ninhada. Apresentamos na
seguinte tabela, os aumentos de pesos (em Kg):
Rao
3.0
7.3
6.1
4.9
6.4
6.0
6.7
9.2
4.5
8.9
3.8
7.4
6.3
7.2
6.5
B
3
1
3
1
3
11
C
2
3
2
3
2
12
Anlise de Dados
167
A estatstica F tem, sob H0, uma distribuio assinttica de um (22 ) , e o valor observado de F f=2.8.
Consultando a tabela para m=5 e I=3, verificamos que P(F2.8)>0.10, pelo que no rehjeitamos H0, ou
seja, no temos evidncia para dizer que as raes no aso equivalentes.