You are on page 1of 10

Prueba de Bondad de Ajuste de Kolmogorov-Smirnov (KS)

Hiptesis a contrastar: H0: Los datos analizados siguen una distribucin M. H1: Los datos analizados no siguen una distribucin M. Estadstico de contraste:

(x ) F (x ) D = sup F n i 0 i
1i n

donde: xi es el i-simo valor observado en la muestra (cuyos valores se han ordenado previamente de menor a mayor). ( x ) es un estimador de la probabilidad de observar F n i valores menores o iguales que xi. F0 ( x ) es la probabilidad de observar valores menores o iguales que xi cuando H0 es cierta. As pues, D es la mayor diferencia absoluta observada entre la ( x ) y la frecuencia frecuencia acumulada observada F n acumulada terica F0 ( x ) , obtenida a partir de la distribucin de probabilidad que se especifica como hiptesis nula.
( x ) son similares a los esperados Si los valores observados F n F0 ( x ) , el valor de D ser pequeo. Cuanto mayor sea la ( x ) y la distribucin discrepancia entre la distribucin emprica F
n

terica , mayor ser el valor de D.

Por tanto, el criterio para la toma de la decisin entre las dos hiptesis ser de la forma: Si DD Aceptar H0 Si D>D Rechazar H0 donde el valor D se elige de tal manera que:

P (Rechazar H0 H0 es cierta) =

= P ( D > D Los datos siguen la distribucion M) =

siendo el nivel de significacin del contraste. Para el clculo prctico del estadstico D deben obtenerse:

i D + = max F0 ( xi ) , 1i n n
y a partir de estos valores:

i 1 D = max F0 ( xi ) 1i n n

D = max {D + , D }

A su vez, el valor de D depende del tipo de distribucin a probar y se encuentra tabulado. En general es de la forma:

c k ( n) donde c y k(n) se encuentran en las tablas siguientes: D =


Modelo General Normal Exponencial Weibull n=10 Weibull n=20 Weibull n=50 Weibull n= c 0.1 1.224 0.819 0.990 0.760 0.779 0.790 0.803 0.05 1.358 0.895 1.094 0.819 0.843 0.856 0.874 0.01 1.628 1.035 1.308 0.944 0.973 0.988 1.007

DISTRIBUCIN QUE SE CONTRASTA General. Parmetros conocidos. Normal Exponencial Weibull

k(n)

k (n) = n + 0.12 +
k ( n) = n 0.01 +

0.11 n 0.85
n 0.11

k (n) = n + 0.12 +
k ( n) = n

Ejemplo 1:
Determinar si los valores de la primera columna se conforman a una distribucin normal:
Y 6.0 2.3 4.8 5.6 4.5 3.4 3.3 1.9 4.8 4.5 Y-ordenados 1.9 2.3 3.3 3.4 4.5 4.5 4.8 4.8 5.6 6.0 Orden 1 2 3 4 5 6 7 8 9 10 F Z 0.1 -1.628 0.2 -1.332 0.3 -0.592 0.4 -0.518 0.5 0.296 0.6 0.296 0.7 0.518 0.8 0.518 0.9 1.11 1.0 1.406 Fo 0.051 0.091 0.276 0.302 0.616 0.616 0.698 0.698 0.867 0.920 D+ 0.049 0.109 0.024 0.098 -0.116* -0.016 0.002 0.102 0.033 0.080 D0.051 -0.009 0.076 0.002 0.216* 0.116 0.098 -0.002 0.067 0.020

(media: 4.1 varianza: 1.82)


D = 0.895 10 0.01 + 0.85 10 = 0.895 = 0.262 3.42

Como el valor D = 0.216 < 0.262, no se rechaza H0 y se acepta que los datos se distribuyen normalmente.

Modo alternativo de realizar la prueba de Kolmogorov Smirnov.


La toma de la decisin en el contraste anterior puede llevarse a cabo tambin mediante el empleo del p-valor asociado al estadstico D observado. El p-valor se define como:
p-valor = P ( D > Dobs H 0 es cierta )

Si el p-valor es grande significa que, siendo cierta la hiptesis nula, el valor observado del estadstico D era esperable. Por tanto no hay razn para rechazar dicha hiptesis. Asimismo, si el p-valor fuera pequeo, ello indicara que, siendo cierta la hiptesis nula, era muy difcil que se produjera el valor de D que efectivamente se ha observado. Ello obliga a poner muy en duda, y por tanto a rechazar, la hiptesis nula. De esta forma, para un nivel de significacin , la regla de decisin para este contraste es: Si p-valor Aceptar H0 Si p-valor < Rechazar H0 Obviamente, la obtencin del p-valor requiere conocer la distribucin de D bajo la hiptesis nula y hacer el clculo correspondiente. En el caso particular de la prueba de Kolmogorov Smirnov, la mayora de los paquetes de software estadstico realizan este clculo y proporcionan el p-valor directamente.

Ejemplo 2:
En los siguientes ejemplos se han simulado datos con distribucin exponencial o normal, contrastndose en todos los casos si puede aceptarse que los datos siguen distribucin exponencial. Se ha acompaado al contraste con el histograma de los datos y el grfico Q-Q Plot (grfico cuantil-cuantil: se representan los cuantiles de la distribucin terica supuesta frente a los cuantiles de la distribucin emprica. En un buen ajuste, la gran mayora de estos puntos deberan situarse sobre la recta y=x)

Simulacin de datos con distribucin exponencial n=1000


Histogram of x
1.5 Density 0.0 0.0 0.5 1.0

0.5

1.0 x

1.5

2.0

2.5

Q-Q Plot
3 qu 0 0.0 1 2

0.5

1.0

1.5

2.0 p-valor = 0.3004146

2.5

x Kolmogorov Smirnov D = 0.030760

Simulacin de datos con distribucin exponencial: n=1000

Histogram of x
1.5 Density 0.0 0 0.5 1.0

1 x

Q-Q Plot

qu

0 0

3 p-valor = 0.8917437

x Kolmogorov Smirnov D = 0.018285

Simulacin de datos con distribucin exponencial n=1000

Histogram of x
2.0 Density 0.0 0.0 0.5 1.0 1.5

0.5

1.0

1.5 x

2.0

2.5

3.0

Q-Q Plot

qu

0 0.0

0.5

1.0

1.5

2.0

2.5

3.0

x Kolmogorov Smirnov D = 0.047714

p-valor = 0.02106549

Ntese que, en este caso, aunque los datos se han generado realmente con distibucin exponencial, el p-valor conduce a rechazar que sta sea la distribucin de los datos.

Simulacin de datos con distribucin normal n=1000

Histogram of x
0.6 Density 0.0 0.2 0.4

-1

0 x

Q-Q Plot
3 qu 0 1 2

-1

1 p-valor = 0

x Kolmogorov Smirnov D = 0.237

En este caso, obviamente se rechaza que la distribucin sea exponencial, cosa que adems se ve claramente en los grficos.

Simulacin de datos con distribucin normal n=10

Histogram of x

Density

0.0 -1.0

0.4

0.8

-0.5

0.0 x

0.5

1.0

Q-Q Plot
1.2 qu 0.0 -0.5 0.4 0.8

0.0 x Kolmogorov Smirnov D = 0.33481

0.5 p-valor = 0.2122409

1.0

En este caso, aunque los datos se han generado con distribucin normal, el contraste conduce a aceptar que siguen distribucin normal. Ello se debe a que en general cuando hay poca informacin (en este caso slo diez datos), la hiptesis nula tiende a no ser rechazada, salvo que haya una evidencia abrumadora en su contra.

Simulacin de datos con distribucin exponencial n=10

Histogram of x

Density

0.0 0.0

0.4

0.8

0.5 x

1.0

1.5

Q-Q Plot
1.2 qu 0.0 0.2 0.4 0.8

0.4

0.6

0.8

1.0

1.2

1.4

x Kolmogorov Smirnov D = 0.54233

p-valor = 0.005575512

Aqu ha ocurrido lo contrario al caso anterior; a pesar de que los datos son originalmente exponenciales, el contraste rechaza que lo sean

You might also like