Professional Documents
Culture Documents
Seja X1, X2, ..., Xn uma amostra aleatria de uma populao X com funo (densidade) de probabilidade f desconhecida e f0 a funo (densidade) de probabilidade proposta. Hipteses a testar: H0: f(x)=f0(x) H1: f(x)f0(x)
1
Exemplo 1: A procura diria de um certo produto foi, em 40 dias escolhidos ao acaso, a seguinte:
Nmero de Nmero de unidades dias 0 6 1 14 2 10 3 7 4 2 5 1 Tabela I: Procura diria de um produto registada em 40 dias.
Ser que tais observaes foram extradas de uma populao com distribuio de Poisson, isto , ser de admitir que tal procura segue uma distribuio de Poisson?
2
Exemplo 2: Pretende-se construir um modelo de simulao das operaes de um determinado terminal de um porto situado na Europa. Uma das variveis a considerar no modelo a diferena entre a data de chegada dos navios provenientes dos EU e a respectiva data planeada. Dado que tal diferena influenciada por muitos factores, pode tomar-se como uma varivel aleatria. H razes para supor que tem distribuio Normal de mdia 0.1 e desvio padro 7.2. Uma amostra de 30 navios revelou os resultados que se apresentam na tabela seguinte.
-2 12.4 -9
5 -6 13.2
2.4 7.6
15 1.8
2.6 2.2 4
Tabela II: Diferena entre a data de chegada e a data planeada para 30 navios.
Ser mesmo de admitir que tais dados foram extrados de uma populao N(0.1, 7.22)?
Tanto no primeiro como no segundo exemplo, estamos perante um problema de ajustamento de dados a uma determinada distribuio. Existem vrios testes de ajustamento que nos permitem fazer uma anlise de problemas deste tipo, entre os quais: o teste de ajustamento do Qui-quadrado sugerido por Karl Pearson, o teste de Kolmogorov ou Kolmogorov-Smirnov e o teste de normalidade de Lilliefors, que apresentamos a seguir.
Teste do Qui-quadrado
Considere-se uma amostra aleatria de n elementos, extrada de uma populao com distribuio desconhecida, sobre os quais se observa uma caracterstica (qualitativa ou quantitativa). Os valores possveis da caracterstica em estudo so, num primeiro passo, repartidas por m classes mutuamente exclusivas, A1, A2, ... , Am (sero intervalos da recta real se a caracterstica quantitativa e contnua).
Denote-se por: - Oi o n de observaes ou frequncia absoluta observada da classe Ai; - pi a probabilidade desconhecida de obter uma observao na classe Ai; - p0i a probabilidade de obter uma observao na classe Ai assumindo que a observao foi extrada de uma populao com a distribuio especificada em H0, i.e. p0i =P(Ai\H0). Hipteses a testar: H0: pi=p0i , i=1,...,m H1: pip0i para algum i
Assim, a frequncia esperada da classe Ai, quando H0 verdadeira, dada por ei = np0i.
Q=
(Oi ei )2
ei
i =1
que, sendo verdadeira a hiptese nula, tem distribuio assimpttica do Quiquadrado com m-k-1 graus de liberdade (2m-k-1), onde k o nmero de parmetros desconhecidos da distribuio proposta em H0, estimados a partir da amostra.
Se a hiptese nula for verdadeira, a diferena entre cada valor observado e o respectivo valor esperado, Oi ei, no deve ser muito grande, e consequentemente a estatstica de teste ter um valor observado, Qobs, tambm no muito grande.
De modo intuitivo, quanto maior for o valor observado de Q, menos plausvel a hiptese nula, isto , mais nos encaminhamos de concluir que as frequncias observadas no foram provenientes da populao em que se baseou a hiptese nula, levando rejeio desta. Trata-se portanto de um teste unilateral direita.
Na aplicao deste teste deve-se ter particular ateno s frequncias esperadas, eis, pois se estas forem muito pequenas a aproximao ao Quiquadrado no a mais apropriada. So referidas na literatura vrias regras prticas de aplicao do teste, das quais avanamos a seguinte. Se tivermos:
- mais de 20% das classes com ei inferior a 5 ou, - mais de uma classe com ei inferior a 1 devemos proceder agregao de algumas classes contguas, e iniciar novamente o teste, agora com menos classes.
10
Exemplo 1: Nmero de Nmero de unidades dias 0 6 1 14 2 10 3 7 4 2 5 1 Tabela I: Procura diria de um produto registada em 40 dias. Representando por X a procura diria do produto e por f a funo de probabilidade de X, as hipteses a testar so H0: X ~ P() H1: X (f(x) = f0(x) = e
- x
x!
, x = 0,1,2,... e >0)
~ P() /
11
= 1.7
Frequncias esperadas ei =40p0i 7.308 12.424 10.556 5.984 2.544 0.864 3.728 0.32
12
0.0932
1.7 0 p01= P(A1\H0) = P(X{0}\H0)=P(X=0) = f0(0) = e-1.7 = 0.1827; 0! 1.71 = 0.3106; p02= P(A2\H0) = P(X{1}\H0) =P(X=1)= f0(1) = e-1.7 1! 1.7 2 =0.2639; p03= e-1.7 2!
M
A estatstica teste Q, sob a hiptese H0, tem aproximadamente distribuio Qui-quadrado com m-k-1 = 5-1-1=3 graus de liberdade.
13
Qobs=
(7 5.984) 2 + + 5.984
Ento, a hiptese H0 no rejeitada ao nvel de significncia de 0.05, isto , no podemos rejeitar a hiptese de aquelas observaes provirem de uma populao com distribuio Poisson.
14
Exemplo 2: Denotando por X a diferena entre a data de chegada dos navios e a data planeada, as hipteses a testar so
~ N(0.1, 7.22) /
Neste caso a distribuio proposta em H0 contnua e, deste modo, as classes Ai, i=1,...m, so intervalos da forma A1=]-, a1[, A2=[ a1, a2[ A3=[ a2, a3[ ... Am=[ am-1, +[.
15
Nmero de classes = m, com m tal que n/m>5. Os limites dos intervalos so tais que as probabilidades decorrentes da hiptese nula sejam iguais a 1/m para todas as classes. Assim, as frequncias esperadas so todas iguais a n/m>5.
Para o exemplo escolheu-se m=4 classes (ei=301/4=7.5>5), donde p0i = P(Ai\H0) = P(XAi\ X~N(0.1, 7.22)) = 1/4, para i=1,2,3,4.
16
Clculo dos limites dos intervalos de classe: a3: p03 = P(XA3\X~N(0.1, 7.22)) = 0.25 P(X<a3\ X~N(0.1, 7.22)) =0.75
a1
a2 =0.1
a3
-2 12.4 -9
5 -6 13.2
15 -8.9 1.8
Tabela II: Diferena entre a data de chegada e a data planeada para 30 navios.
Frequncias observadas 8 8 7 7
18
Qobs=
19
A estatstica teste, sob o pressuposto de H0 ser verdadeira, tem aproximadamente liberdade. distribuio Qui-quadrado com m-1=4-1=3 graus de
Como Qobs R.C., somos levados a no rejeitar a hiptese de que a diferena entre os tempos de chegada e os tempos planeados tem distribuio N(0.1, 7.22).
20
Teste de Kolmogorov-Smirnov
O teste de Kolmogorov-Smirnov (K-S) ao contrrio do teste do Qui-quadrado, no se aplica a dados qualitativos nem a variveis discretas, pois a tabela disponvel para este teste s exacta caso a distribuio em teste seja contnua.
No entanto, tem a vantagem de no estar dependente de classificaes dos dados, que alm de serem sempre algo arbitrrias envolvem perdas de informao. De facto, no ajustamento de uma distribuio contnua a uma amostra usando o teste do Qui-quadrado, temos de proceder agregao dos dados em classes, sendo por isso mais adequado utilizar o teste K-S.
21
Por outro lado, o teste K-S s pode ser aplicado quando a distribuio indicada na hiptese nula est completamente especificada (o que no sucede com o teste do Qui-quadrado). No caso de pretendermos, por exemplo, efectuar um ajustamento de uma distribuio normal, sem especificar e , podemos recorrer a outro teste, neste caso o teste desenvolvido por Lilliefors (teste de normalidade de Lilliefors) que ser abordado mais tarde. Alm disso, o teste do Qui-Quadrado est orientado essencialmente para grandes amostras, enquanto que o teste K-S aplicvel a pequenas amostras.
22
Funo de distribuio emprica e funo de distribuio da amostra Seja (X1, X2,...,Xn) uma amostra aleatria de uma certa populao X e (x1, x2,...,xn) uma sua realizao.
n ( x ) = 1 F n
#{xi: xix},
-< x <+,
23
A funo de distribuio da amostra definida, para as variveis aleatrias (X1, X2,...,Xn), por
1 Fn ( x) = n
Note-se que
#{Xi: Xix},
-< x <+.
24
Exemplo: Consideremos a amostra constituda pelas observaes: 5, 7, 8, 8, 10 e 11. A funo de distribuio emprica
0 1 / 6 2 / 6 F (x) = 4 / 6 5 / 6 1
6
se se se se se se
A representao grfica de
F6
26
Seja F a funo de distribuio da populao e F0 a funo de distribuio proposta, contnua e completamente especificada. Hipteses a testar: H0: F(x)=F0(x), -<x<+ H1: F(x)F0(x) No teste de Kolmogorov-Smirnov considera-se a estatstica
Dn = sup Fn ( x) F0 ( x)
< x < +
como uma medida da discrepncia entre a funo de distribuio da amostra Fn e a funo de distribuio proposta F0.
27
Fn
uma funo em
escada, o supremo dn ocorre num ponto onde se verifica um salto de observao xi) ou imediatamente antes desse ponto. Isto ,
d n = max F0 ( xi ) Fn ( xi ) , F0 ( xi ) Fn ( xi ) i =1,..., n
Fn
(numa
}.
28
F0(x)
< x < +
sup Fn ( x) F0 ( x)
Fn ( x)
Fn .
29
Assim, se H0 for verdadeira, a distncia vertical mxima entre as imagens das duas distribuies no deve de ser muito grande, e logo espera-se que Dn tome um valor pequeno. Ento, rejeita-se H0, para um nvel de significncia , se o valor observado dn da estatstica teste Dn for superior ou igual ao ponto crtico Dn, onde Dn, tal que, P(DnDn,\ H0 verdadeira)= Os valores crticos Dn, podem ser consultados numa tabela.
30
Exemplo 3: Um certo Politcnico do pas efectuou um contrato com uma determinada empresa que ficou responsvel pelo abastecimento da carne que compunha as refeies na cantina dessa Escola. O contrato refere uma mdia de 290 gramas de carne por refeio, por estudante. No entanto, alguns alunos queixaram-se acerca da comida, em particular acerca da quantidade de carne servida por refeio. Os alunos falaram com o cozinheiro chefe, que lhes disse que a quantidade de carne servida por refeio a cada estudante tinha aproximadamente distribuio normal de mdia 290 gr com um desvio padro de 56 gr.
31
Aps esta conversa com o cozinheiro, alguns alunos concordaram em recolher as suas refeies ao longo de vrios dias, resultando assim uma amostra de 10 refeies, que foram levadas para um laboratrio afim de serem pesados os pedaos de carne nelas contidos. Os dados obtidos so os seguintes: 198 254 262 272 275 278 285 287 287 292
Ao nvel de significncia de 5%, h evidncia para rejeitar a hiptese de que o cozinheiro seguia as regras que afirmou em relao quantidade de carne servida?
32
Denote-se por X a quantidade, em gramas, de carne servida por refeio a cada estudante. As hipteses a testar so, neste caso,
~ N(290, 562). /
33
xi
F10 ( xi ) F10 ( xi )
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,9 1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,9
x i 290 56
-1,64 -0,64 -0,5 -0,32 -0,27 -0,21 -0,09 -0,05 0,04
zi=
F10 ( xi ) |
0,0505 0,1611 0,1085 0,0745 0,0064 0,0832 0,1359 0,2199 0,384
34
|F0(xi)-
( (
Como d10=0.484>0.409, ao nvel de significncia de 5%, rejeitamos a hiptese de a quantidade de carne servida por refeio a cada estudante seguir distribuio N(290, 562).
35
Teste de Normalidade Lilliefors Sejam X1, X2,...,Xn uma amostra aleatria de uma populao X com distribuio F desconhecida. Pretende-se testar se X tem distribuio N(, 2) sem especificar e , isto , para algum e algum .
~ N(, 2) /
36
Este teste processa-se como o teste de Kolmogorov-Smirnov, mas os dados originais so estandardizados, usando estimativas de e :
Xi X Zi = S
Hipteses a testar: H0: Z ~ N(0, 1) H1: Z
(i=1,..n).
~ N(0, 1) /
37
< z < +
onde Fn a funo de distribuio da amostra depois de estandardizada, i.e., definida para as variveis aleatrias Z1, Z2,...,Zn.
* * Dn , d n ,
obtido
substituindo na estatstica a funo distribuio da amostra estandardizada pela funo distribuio emprica.
38
39
Exemplo 4: Um distribuidor pretende estimar o tempo mdio de entrega dos seus produtos a um cliente bastante importante. Foi recolhida uma amostra aleatria de cinco tempos: 29, 33, 35, 36 e 36. O senhor quer estimar o tempo mdio pretendido atravs de um intervalo de confiana, mas no sabe nada acerca da distribuio do tempo de entrega X, e alm disso, a dimenso da amostra muito pequena (n=5). Poder faz-lo? Sabemos que caso X tenha distribuio normal o intervalo pode ser
40
~ N(, 2) /
Uma vez que nada sabemos acerca de e , podemos utilizar o teste de Lilliefors, recorrendo s estimativas
x =33.8 s=2.95 .
41
* * D5 , d 5 :
29 33 35 36
x i 33.8 2.95
-1,63 -0,27 0,41 0,75
zi=
F5 ( zi ) F5 ( zi )
0,2 0,4 0,6 1 0 0,2 0,4 0,6
|F0(zi)-
F5 ( z i ) |
0,1484 0,0064 0,0591 0,2266
F5 ( zi ) |
0,0516 0,1936 0,2591 0,1734
|F0(zi)-
Como
42
Tabelas de Contingncia
Teste do Qui-quadrado de Independncia
Suponha que numa amostra aleatria de tamanho n de uma dada populao so observados dois atributos ou caractersticas A e B (qualitativas ou quantitativas), uma com r e outra com s modalidades ou categorias, respectivamente A1, A2,..., Ar e B1, B2,..., Bs.
43
Cada indivduo da amostra classificado numa e numa s categoria (ou classe) de A e numa e numa s categoria (ou classe) de B. A classificao dos elementos da amostra d origem a uma tabela de dupla entrada, designada por tabela de contingncia rs, com o seguinte aspecto:
A1 A2
M
Ar
Or1
Or2
... Ors
44
Nesta tabela cada Oij (i=1,...,r e j=1,...,s) uma varivel aleatria que representa na amostra o nmero de elementos classificados simultaneamente nas categorias Ai de A e Bj de B. Alm disso, temos as variveis aleatrias:
Oi = Oij
j =1
O j = Oij
i =1
45
Tem-se,
n = Oij = Oi = O j ,
i =1 j =1 i =1 j =1
onde n a dimenso da amostra que se supe fixa. O objectivo a que nos propomos o de tentar inferir sobre a existncia ou no de qualquer relao ou associao entre os atributos (variveis) A e B, mais concretamente, inferir se A e B so ou no independentes. Hipteses a testar: H0: A e B so independentes H1: A e B no so independentes
46
Denote-se por:
p i = P ( Ai ) p j = P( B j )
47
Tem-se,
1 = p ij = p i = p j .
i =1 j =1 i =1 j =1
P( Ai B j ) = P ( Ai ) P ( B j ) ,
isto , pij= p i
p j .
Assim, as hipteses anteriores podem ser formuladas do seguinte modo: H0: pij= p i H1: pij p i
p j p j
48
p i
p j
so estimadas, a partir
oi p i = n
onde
p j =
o j n
oi
o j
Oi
O j ,
respectivamente, para uma amostra concreta. eij=n pij nmero esperado de indivduos na classe Ai de A e Bj de B.
49
p j , temos eij = n p i p j
2 =
i =1 j =1
que, sob o pressuposto de H0 ser verdadeira, tem distribuio assinttica do Qui-quadrado com (r-1)(s-1) graus de liberdade.
50
Vimos que quando H0 verdadeira eij pode ser estimado por logo a diferena entre oij (frequncia observada) e
eij = np i p j , e
eij
(estimativa da frequncia
esperada supondo a independncia) no deve ser grande. Assim, a estatstica teste, tal como est definida, mede o afastamento dos dados em relao hiptese de independncia. Trata-se ento de um teste unilateral direita.
51
Exemplo 1: Um supermercado quer testar ao nvel de significncia de 5% a hiptese de que o modo de pagamento dos clientes nesse estabelecimento independente do perodo do dia em que fazem as compras. Existem trs modos de efectuar os pagamentos: por cheque, dinheiro e carto de crdito. A seguinte tabela de contingncia 33 apresenta os resultados obtidos numa amostra de 4000 clientes: PERODO DO DIA Manh Tarde 750 125 125 1500 300 200
Denotando por A o atributo Modo de pagamento e por B o atributo Perodo do dia em que faz as compras, as hipteses as testar so
Uma vez que A e B assumem cada uma 3 modalidades, sob H0, a estatstica teste tem distribuio assinttica do Qui-quadrado com (r-1)(s-1)=(3-1)(3-1)= 4 graus de liberdade. Ao nvel de significncia de 0.05, a regio crtica ento [9.49, +[.
53
Como vimos, para obtermos o valor observado da estatstica teste, temos de calcular as frequncias esperadas:
oi o j oi. o. j = . eij = np i p j =n n n n
Assim, por exemplo,
e11
=(30001000)/4000=750,
54
Frequncias esperadas PERODO DO DIA Manh Tarde 750 125 125 1000 1500 250 250 2000
55
2obs =
(750 750) 2 (1500 1500) 2 (200 250) 2 + +...+ + 750 1500 250 (175 125) 2 =60. 125
Uma vez que 60 excede o valor crtico 9.49, ao nvel de significncia de 0.05, rejeitamos a hiptese de que o modo de pagamento independente do perodo do dia em que as compras so feitas.
56
Medidas de Associao No teste do Qui-Quadrado apresentado, se for rejeitada a hiptese de independncia entre os atributos, pode interessar medir a intensidade da associao entre os mesmos, atravs de uma medida adequada. Uma vez que a estatstica do teste mede o afastamento em relao hiptese de independncia, o seu valor observado tambm poder servir para avaliar a fora da relao entre os atributos. No entanto, houve necessidade de introduzir algumas modificaes, devido a diversas razes, por exemplo o facto
2 do no tomar valores apenas no intervalo [0,1], o que salutar numa
medida de associao.
57
C=
2 2 +n
onde q=min{r,s} e portanto nunca
(q 1) q
assume o valor 1. Valores pequenos de C indicam fraca associao entre os atributos, enquanto que valores grandes de C indicam forte associao. O facto deste coeficiente no assumir o valor 1 no caso de associao completa uma sua limitao. Para obviar este problema, Tshuprow props o seguinte coeficiente.
58
Coeficiente de Tshuprow:
T=
n (r 1)(s 1)
Este coeficiente varia entre 0 e 1, tomando o valor 0 no caso de existir independncia e o valor 1 quando r=s e houver associao completa. Por ltimo, referimos o coeficiente proposto por Cramer que atinge o valor 1 quando h associao completa.
59
Coeficiente V de Cramer:
V =
2
n(q 1)
, com q=min{r,s}
0V1.
Para o exemplo anterior, rejeitamos a hiptese de independncia entre o modo de pagamento e o perodo do dia em que as compras eram efectuadas. Para ter uma ideia da intensidade de associao entre estes dois atributos, calcula-se, por exemplo, o coeficiente V de Cramer. Assim, tem-se V=
60 =0.087. 4000 2
Verificamos, segundo o coeficiente V que, apesar de haver associao entre os atributos, esta pode considerar-se fraca.
60
Teste de Homogeneidade Suponha que so recolhidas amostras aleatrias de s populaes (subpopulaes ou estratos) B1, B2,..., Bs , nas quais se observa um atributo A com r categorias A1, A2,..., Ar.
Neste contexto, surge tambm uma tabela de contingncia rs da forma apresentada na tabela I, mas com leitura diferente.
Assim, cada Oij (i=1,...,r e j=1,...,s) uma varivel aleatria que representa o nmero de elementos classificados na categorias Ai de A, na amostra da populao Bj.
61
Oi = Oij
j =1
O j = Oij
i =1
aleatria como acontece no teste de independncia), pois o tamanho da amostra recolhida na populao Bj. Neste caso, cada Bj rotula uma subpopulao cujos elementos se distribuem pelas r modalidades do atributo A, e o que se pretende saber se existe homogeneidade, isto , se no h diferena entre as populaes no modo como os seus elementos se distribuem pelas modalidades do atributo A.
62
Suponhamos, por exemplo, que dispomos dos resultados de vacinao contra a clera num conjunto de 279 indivduos escolhidos aleatoriamente entre os vacinados, e num conjunto de 539 indivduos escolhidos aleatoriamente entre os no vacinados:
63
Isto corresponde a ter duas amostras, uma em cada coluna da tabela, obtidas de modo independente e de dimenses, respectivamente
o1 =279 e o2 =539.
Hipteses a testar: H0: os atacados e no atacados distribuem-se de forma idntica (homognea) nos vacinados e no vacinados H1: os atacados e no atacados distribuem-se de modo diferente nos vacinados e no vacinados
Assim, sob o pressuposto de H0 ser verdadeira, em cada um dos grupos dos vacinados e no vacinados, deviam ser atacados (no atacados) uma proporo de indivduos igual a 0.084 (0.916), isto :
o1. =2790.084=23.44 indivduos atacados e11 = o.1 n o 2. e no atacados e21 = o.1 =2790.916=255.56; n
65
o1. =5390.084=45.276 indivduos atacados e12 = o.2 n o2. e no atacados e22 = o.2 =5390.916=493.724. n
O quadro seguinte apresenta as frequncias esperadas sob o pressuposto de homogeneidade: Vacinados Atacados No Atacados Totais 23.44 255.56 279 No Vacinados 45.276 493.724 539
66
2 =
i =1 j =1
que, sob o pressuposto de H0 ser verdadeira, tem distribuio assinttica do Qui-Quadrado com (r-1)(s-1) graus de liberdade. As frequncias observadas Oij e as estimativas das frequncias esperadas
e ij
calculadas sob o pressuposto de H0 ser verdadeira, devem diferir pouco se H0 for de facto verdadeira. Assim, valores muito grandes da estatstica teste traduzem um grande afastamento dos dados em relao hiptese nula, conduzindo rejeio desta. Mais uma vez, a estatstica teste mede o afastamento dos dados em relao hiptese de homogeneidade.
67
2 =
=29.8
O quantil de probabilidade 0.995 da distribuio 12 7.88 . Como o valor observado da estatstica teste 29.8 > 7.88 ento, para um nvel de significncia 0.005, rejeita-se a hiptese de homogeneidade entre as duas amostras, isto , a populao dos vacinados difere da dos no vacinados no que se refere ao facto de terem ou no sido atacados.
68
69
Hipteses a testar: H0: As duas amostras so retiradas de populaes com a mesma distribuio H1: As duas amostras so retiradas de populaes com distribuies diferentes Denotando por F e G as funes de distribuio de X e Y, respectivamente, as hipteses podem ser formuladas da seguinte maneira: H0: F(x)=G(x), para todo o x H1: F(x)G(x), para algum x
70
Teste do Qui-quadrado Os valores possveis da caracterstica em estudo so repartidos por m classes mutuamente exclusivas A1, A2,...,Am. A hiptese H0 que se pretende testar a de que as duas populaes em estudo tm a mesma distribuio, isto , no h diferena entre as duas populaes no modo como os seus elementos se distribuem pelas diversas classes. Por outras palavras, as duas populaes so homogneas. Trata-se ento do teste do Qui-quadrado de homogeneidade para duas populaes (s=2).
71
Teste de Kolmogorov-Smirnov Admite-se que X e Y so variveis aleatrias contnuas. Seja n1 o tamanho da amostra de X e n2 o tamanho da amostra de Y Estatstica de teste:
onde
Fn1 ( x)
G n2 ( x )
amostras.
72
Substituindo as funes de distribuio das amostras pelas funes de distribuio empricas obtm-se o valor observado da estatstica de teste:
Para um nvel de significncia , a hiptese H0 rejeitada se o valor observado da estatstica de teste for superior ao ponto crtico tal que:
73