You are on page 1of 5

Edson Melo de Souza Mestrando em Engenharia de Produção Universidade Nove de Julho ± Uninove São Paulo, Brasil, 2011 souzaem@uninove

.edu.br

APLICAÇÃO DOS TESTES DE SHAPIRO-WILK, KOLMOGOROVI-

SMIRNOV E QUI-QUADRADO NA ADEQUAÇÃO DA ANÁLISE DA
NORMALIDADE

1. INTRODUÇÃO
A inferência estatística sobre uma variável, de modo geral, assume que um conjunto de dados tem sua origem em uma população com distribuição normal. Entretanto, para o caso de p-dimensões (p>1), a normalidade torna-se critério necessário. A utilização de gráficos para analisar o comportamento de tais dados, em determinadas ocasiões, não satisfaz ou não é suficiente para a interpretação. Neste caso, se faz necessário aplica testes estatísticos nas r amostras a fim de inferir sobre a normalidade. Os testes mais comuns encontrados na literatura, e utilizados para aplicação em sistemas com uma variável são: o teste de aderência Qui-quadrado; Kolmogorov-Smirnov e Shapiro-Wilk. Para os casos com mais de uma variável, em geral, são utilizadas extensões dos testes com uma variável. A escolha de um teste deve ser feita observando os aspectos que o pesquisador julgar apropriado para a pesquisa, tais como: poder do teste, controle de taxa do erro I e, principalmente, sobre as suposições que cada um deles apresenta como retorno. Segundo comparativo efetuado por (Gibbons e Subhabrata, 1992) sobre os testes de Kolmogorov-Smirnov e Qui-quadrado, observou-se que, no teste de aderência Qui-quadrado, os dados são agrupado em classes, ao passo que o teste de Kolmogorov-Smirnov considera cada observação da amostra independente. Outra vantagem do teste Kolmogorov-Smirnov é que não há restrição quanto ao tamanho da amostra, característica divergente do teste Qui-quadrado que depende de um número grande

na amostra. Apesar desta diferença pontual, ambos os testes necessitam do conhecimento da média e da variância populacional. Considerando o poder e o controle da taxa de erro tipo I, o teste de Shapiro-Wilk se apresenta como melhor opção mediante Kolmogorov-Smirnov e Qui-quadrado, pois, segundo os próprios autores (Shapiro e Wilk, 1965), estudos empíricos demonstraram o poder do teste em diversas situações e tipos de distribuições com diferentes tamanhos de amostras.

2. RESUMO DOS MÉTODOS
2.1. KOLMOGOROV-SMIRNOV

O teste de Kolmogorov-Smirnov ou (K-S) é um teste de aderência que verifica o grau de concordância entre distribuições em um conjunto de valores, buscando identificar se os dados seguem uma distribuição normal. Este teste utiliza a distribuição de frequência acumulada que ocorreria dada a descrição teórica, e a compara com a distribuição de frequência acumulada observada. Descrição das hipóteses
y y

A amostra provém de uma distribuição normal (teórica); 
A amostra não provém de uma distribuição teórica específica (distribuição

normal), sendo, neste caso, uma distribuição não normal. A estatística do teste espera que quando erros aleatórios. Vantagens
y

é verdadeira, as diferenças entre a proporção de

casos esperados e a distribuição de freqüências sejam pequenas e estejam dentro do limite dos

Pode ser aplicado em uma amostra sem depender de um número específico de observações para que seja válido;

y

O teste não depende da função de distribuição acumulada que está sendo testada.

2

Desvantagens
y y

A distribuição da amostra deve ser conhecida; Só pode ser aplicado em distribuições contínuas, entretanto não constitui um obstáculo, pois a rejeição deste teste seria um forte indício da não normalidade dos dados. Segundo (Breiman,1973), a rejeição da hipótese nula é muito mais informativa do que a não rejeição, dado que quando ocorre a não rejeição, o teste estará na verdade aceitando todas as distribuições que não diferem drasticamente da distribuição hipotetizada.

2.2.

SHAPIRO-WILK

O teste de Shapiro-Wilk determina uma variável estatística (W) calculada sobre os valores amostrais ordenados elevados ao quadrado, buscando aferir se uma amostra aleatória é originária de uma distribuição normal. Devido seu grande poder de resolução, este método tem sido adotado preferencialmente nos testes de normalidade. A variável W é calculada da seguinte forma:

ƒš 

Descrição das hipóteses
y y 

tem distribuição normal não tem distribuição normal ao nível de significância se W calculado < W (os valores críticos da estatística

Rejeitar

W de Shapiro-Wilk são fornecidos em tabela).
3

Vantagens
y y

Pode ser utilizado com amostras pequenas (n < 30) Não necessita de agrupamento de dados quando <
À

Rejeita-se

2.3.

TESTE DE ADERÊNCIA QUI-QUADRADO (

)

O método Qui-Quadrado, simbolizado por

, é um teste de hipóteses que se destina a

encontrar o valor da dispersão para duas variáveis nominais, avaliando a associação existente entre variáveis qualitativas. É um teste não paramétrico, ou seja, não depende dos parâmetros populacionais, como média e variância. O princípio básico deste método é comparar proporções, isto é, as possíveis divergências entre as frequências observadas e esperadas para certo evento. Descrição das hipóteses
y

As frequências observadas não são diferentes das frequências propostas, portanto, a característica em estudo segue a distribuição proposta;

y

As frequências observadas são diferentes da frequências esperadas, portanto a característica em estudo não segue a distribuição proposta.

Rejeita-se uma hipótese quando a máxima probabilidade de erro ao rejeitar aquela hipótese for baixa. Vantagens
y

Permite que parâmetros desconhecidos dessa população sejam estimados. Essa estimação pode ser necessária para calcular as frequências esperadas.

y

Pode utilizar populações contínuas e discretas

4

Desvantagens
y y

Necessita de amostras grandes (n > 30) Possui baixa potência, pois em determinados casos não se rejeita rejeitar. quando deveria

3. CONCLUSÃO
Os métodos apresentados convergem para o objetivo de testar a distribuição normal em uma determinada amostra, a fim de estimar uma probabilidade de ocorrência associada. De acordo com a literatura, o teste de Shapiro-Wilk tem sido o teste de normalidade preferido por mostrar ser mais poderoso na resolução de problemas de normalidade.
REFERÊNCIA BIBLIOGRÁFICA

BREIMAN, L. Statistics: with a view toward applications. USA, Houghton Mifflin Company, 1973. GUNER, B.; FRANKFORD, M. T. and JOHNSON, J. T.; A study of the Shapiro-Wilk test for thedetection of Pulsed Sinusoidal Radio Frequency Interference. IEEE Transactions on Geoscience and Remote Sensing. Jun. 2009, Vol. 47(6), 1745 -1751. GIBBONS, J. D.; SUBHABRATA, C. Non parametric statistical inference. 3th. ed. New York: Marcel Dekker, 1992. 544p. (Statistics: textbook and monograph, v.31). SCUDINO, P. A. A Utilização de Alguns Testes Estatísticos para Análise da Variabilidade do Preço do Mel nos Municípios de Angra dos Reis e Mangaratiba, Estado do Rio de Janeiro. Monografia. Universidade Federal do Rio de Janeiro. Rio de Janeiro, 2008. SHAPIRO, S. S., WILK, M. B. An analysis of variance test for normality (complete samples). Biometrika, London, v.52, p.591-609, 1965.

5