You are on page 1of 5

DESEMPENHO DE TESTES DE NORMALIDADE VIA SIMULAO MONTE

CARLO
Cosme Teixeira da Silva1; Eric Batista Ferreira2

INTRODUO
A maior parte das estatsticas da histria foi construda sob a hiptese de normalidade.
Por tal razo, imprescindvel a existncia de um teste para testes a normalidade de um
conjunto de dados (THODE JR, 2002).
Dentre as caractersticas desejadas em um teste esto o poder e a taxa de erro tipo I.
Alm disso, o tamanho amostral mnimo em que determinado teste tem um desempenho
satisfatrio tambm fundamental para que, com o menor esforo possvel, a normalidade (ou
falta dela) seja detectada.
O presente trabalho tem o objetivo de estimar o poder, a taxa de erro tipo I e o
tamanho amostral mnimo dos testes Shapiro-Wilk, Anderson-Darling, Lillefors (KolmogorovSmirnov), Shapiro-Francia e Qui-quadrado de Pearson, via simulao Monte Carlo.

Teste Lilliefors (Kolmogorov-Smirnov)


O teste de Lilliefors (Kolmogorov-Smirnov) um teste amplo de funo distribuio emprica
para a hiptese nula (composta) de normalidade. A estatstica de teste diferena mxima absoluta
entre a funo distribuio acumulada hipottica e emprica. Ele pode ser calculado como

D = max ( D + , D - ) , em que D + = max i p(i ) , D = max p(i ) i 1 e p(i ) = X (i ) X .


i =1,, n

i =1,, n

Aqui, ( ) funo distribuio acumulada da distribuio normal padro, e X e S so a mdia e o


desvio padro dos valores. O p-valor calculado pela frmula de Dallal-Wilkinson (1986), que s
confivel para p-valores inferiores a 0,1. Se o p-valor de Dallal-Wilkinson for maior que 0,1, ento o

p-valor calculado a partir da distribuio da estatstica modificada Z = D n 0, 01 +

0,85

(STEPHENS, 1974), sendo a frmula de p-valor real obtida por simulao e processo de aproximao.

Teste de Shapiro-Wilk

1
2

Engenheiro Agrcola, Universidade Federal de Lavras, email: cosme.teixeira@gmail.com.


Ps-doutorado, Departamento de Cincias Exatas/UFLA, email: ericbferreira@netscape.net.

Para valores amostrais ordenados, a estatstica W de Shapiro-Wilk e seu respectivo pvalor so calculados como descritos em Royston (1995). Os tamanhos amostrais devem estar entre
5 e 3000. Para n = 3 , o clculo do p-valor exato; para 4 n 11 e n 12 , so usadas
aproximaes.

Teste de Shapiro-Francia

O teste de Shapiro-Francia (THODE JR, 2002) conhecido como um teste de boa


performance (ROYSTON, 1993). Os quantis ordenados esperados a partir da distribuio
normal padro so ligeiramente diferentes daqueles usados pelo grfico normal quantilquantil, e seu tamanho amostral deve ser maior que 10.

Teste de Anderson-Darlin

O teste de Anderson-Darlin um teste amplo de funo distribuio emprica para a


hiptese nula (composta) de normalidade. A estatstica do teste

A= n

) (

1
( 2 i 1) ln p( i ) +ln 1 p( ni+1) ,
n i =1

em que p(i ) = X (i ) X . Aqui, ( ) funo distribuio acumulada da distribuio

normal padro, e X e S so a mdia e o desvio padro dos valores. O p-valor calculado


0,75 2, 25
pela estatstica modificada Z = A 1 +
+ 2 , de acordo com a Tabela 4.9 que pode ser
n
n

encontrada em Stephens (1986).

Teste de Qui-quadrado
A estatstica de teste de Pearson
P=

( Ci Ei )
Ei

em que Ci o nmero observado e Ei o nmero esperado de observaes (sob a hiptese


nula) na classe i . As classes so construdas de tal forma que sejam equiprovveis sob a
hiptese nula de normalidade. O p-valor calculado de uma distribuio qui-quadrado com

gruas de liberdade entre o nmero de classes menos 3 e o nmero de classes menos 1


(MOORE, 1986).

MATERIAL E MTODOS
Foi utilizada a simulao Monte Carlo para gerar amostras de tamanhos 10, 30, 50, 75,
100 e 500 observaes oriundas de trs distribuies de probabilidade, a saber, Normal (com
parmetros 0 e 1), Exponencial (com parmetro 5) e Gama (com parmetros 5 e 1/5). Em
seguida, foram aplicados cinco testes de normalidade a essas amostras. Os testes avaliados
foram: Shapiro-Wilk, Anderson-Darling, Lillefors (Kolmogorov-Smirnov), Shapiro-Francia e
Qui-quadrado de Pearson. Cada teste foi repetido 10.000 vezes para cada tamanho amostral e
a proporo de vezes que H0 foi aceita, computado. A taxa nominal adotada foi de 5%.
As amostras vindas da distribuio Normal padro foram utilizadas para se determinar
a taxa de erro Tipo I de cada teste. J as amostras vindas das distribuies Exponencial e
Gama foram utilizadas para se determinar o poder dos testes.
A gerao das amostras e os testes foram feitos no software estatstico R 2.6.2 (R
DEVELOPMENT CORE TEAM, 2008), utilizando-se as funes: rgamma, rnorm, rexp (para
a gerao das amostras) e shapiro.test, lillie.test, ad.test, pearson.test e sf.test (para as
anlises). Dentre as funes de anlise, todas pertencem ao pacote nortest, exceto a funo

shapiro.test, que faz parte do pacote statis.

RESULTADOS E DISCUSSO
A taxa de erro tipo I dos cinco testes avaliados pode ser observada na Tabela 1. Nela,
encontram-se as taxas de erro cometidas pelos testes para os tamanhos amostrais de 10 a 500.
Pode-se observar que todos os testes apresentaram um comportamento prximo ao esperado,
ou seja, taxas de erro tipo ao redor de 5%. Pequenas variaes que ocorreram podem ser
atribudas ao erro de Monte Carlo. Apenas o teste de Qui-quadrado de Pearson, para o
tamanho amostral igual a 10 elementos, apresentou a maior taxa de erro tipo I (6,42%).
A taxa de erro tipo I no parece decrescer com o aumento do tamanho amostral, mas
convergir para a taxa nominal. Para amostras normais, tamanhos amostrais a partir de 10
podem ser usados para qualquer teste, entretanto, para o teste Qui-quadrado, aconselham-se
tamanhos amostrais maiores ou iguais a 30.

TABELA 1 Taxa de erro tipo I para os cinco testes avaliados ao longo dos
amostrais 10, 30, 50, 75 e 500.
Tamanho amostral
Teste
10
30
50
75
100
0,0520
0,0515
0,0508
0,0501
0,0494
Shapiro Wilk
0,0474
0,0501
0,0496
0,0513
0,0485
Anderson-Darling
0,0500
0,0508
0,0498
0,0487
0,0481
Lilliefors
0,0514
0,0546
0,0559
0,0506
0,0557
Shapiro-Francia
0,0533
0,0524
0,0516
0,0495
0,0642
Qui-quadrado

tamanhos

500
0,0515
0,0488
0,0495
0,0525
0,0484

TABELA 2 Poder dos testes avaliados ao longo dos tamanhos amostrais 10, 30, 50, 75, 100 e
500, ao testar dados vindos de uma distribuio Gama.
Tamanho Amostral
Teste
10
30
50
75
100
500
1,0000
0,9029
0,7894
0,5913
0,3764
0,1183
Shapiro Wilk
1,0000
0,8056
0,6743
0,4906
0,2984
0,1126
Anderson- Darling
0,9998
0,5996
0,4787
0,3294
0,2043
0,0923
Lilliefors
1,0000
0,8759
0,7507
0,5441
0,3464
0,1228
Shapiro-Francia
0,9955
0,3942
0,3213
0,2135
0,1396
0,1076
Qui-quadrado
TABELA 3 Poder dos testes avaliados ao longo dos tamanhos amostrais 10, 30, 50, 75, 100 e
500, ao testar dados vindos de uma distribuio Exponencial.
Tamanho Amostral
Teste
10
30
50
75
100
500
1,0000
1,0000
1,0000
0,9995
0,9680
0,4411
Shapiro Wilk
1,0000
1,0000
1,0000
0,9965
0,9284
0,4095
Anderson-Darling
1,0000
0,9998
0,9980
0,9581
0,7754
0,2966
Lilliefors
1,0000
1,0000
1,0000
0,9992
0,9500
0,4283
Shapiro-Francia
0,9999
0,9999
0,9990
0,9838
0,8490
0,3964
Qui-quadrado
Sob H1 (Tabelas 2 e 3) pode-se observar as estimativas de poder dos teste avaliados
neste estudo. Quando os dados vm de uma distribuio Gama(5,1/5) (Tabela 2) os testes de
Shapiro-Wilk e Shapiro-Francia apresentam o melhor desempenho. A partir do tamanho
amostral 100, esses testes apresentam praticamente 90% de probabilidade de rejeitar H0,
quando esta hiptese falsa.
Por outro lado, quando os dados vm de uma distribuio Exponencial(5) (Tabela 3),
o tamanho amostral 30 j suficiente para garantir poder acima de 90% para todos os testes,
exceto para os testes Lilliefors e Qui-quadrado de Pearson.

CONCLUSES
Apesar de todos os testes controlarem as taxas de erro tipo I para tamanhos amostrais
iguais ou maiores que 30, os testes de Shapiro-Wilk e Shapiro-Francia apresentaram as
maiores estimativas de poder. Para esses testes, o tamanho amostral igual a 100 garante taxas
de erro tipo I iguais s nominais e altas taxa de poder, at mesmo para as situaes mais
rgidas.

REFERNCIAS BIBLIOGRFICAS

DALLAL, G.E.; WILKINSON, L. An analytic approximation to the distribution of Lilliefors'


test for normality. The American Statistician, 40, 294296. 1986.

MOORE, D. S. Tests of the chi-squared type. In: D'Agostino, R.B. and Stephens, M.A.,
eds.: Goodness-of-Fit Techniques. Marcel Dekker, New York. 1986.

ROYSTON, P. Remark AS R94: A remark on Algorithm AS 181: The W test for normality.

Applied Statistics, 44, 547551. 1995.

R DEVELOPMENT CORE TEAM. R: A language and environment for statistical

computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0,


URL http://www.R-project.org. 2008.

ROYSTON, P. A pocket-calculator algorithm for the Shapiro-Francia test for non-normality:


an application to medicine. Statistics in Medicine, 12, 181184. 1993.

STEPHENS, M.A. EDF statistics for goodness of fit and some comparisons. Journal of the

American Statistical Association, 69, 730737. 1974.

THODE JR., H.C. Testing for Normality. Marcel Dekker, New York. 2002.