Professional Documents
Culture Documents
Hiptesis a contrastar: H0: Los datos analizados siguen una distribucin M. H1: Los datos analizados no siguen una distribucin M. Estadstico de contraste:
(x ) F (x ) D = sup F n i 0 i
1i n
donde: xi es el i-simo valor observado en la muestra (cuyos valores se han ordenado previamente de menor a mayor). ( x ) es un estimador de la probabilidad de observar F n i valores menores o iguales que xi. F0 ( x ) es la probabilidad de observar valores menores o iguales que xi cuando H0 es cierta. As pues, D es la mayor diferencia absoluta observada entre la ( x ) y la frecuencia frecuencia acumulada observada F n acumulada terica F0 ( x ) , obtenida a partir de la distribucin de probabilidad que se especifica como hiptesis nula.
( x ) son similares a los esperados Si los valores observados F n F0 ( x ) , el valor de D ser pequeo. Cuanto mayor sea la ( x ) y la distribucin discrepancia entre la distribucin emprica F
n
Por tanto, el criterio para la toma de la decisin entre las dos hiptesis ser de la forma: Si DD Aceptar H0 Si D>D Rechazar H0 donde el valor D se elige de tal manera que:
P (Rechazar H0 H0 es cierta) =
siendo el nivel de significacin del contraste. Para el clculo prctico del estadstico D deben obtenerse:
i D + = max F0 ( xi ) , 1i n n
y a partir de estos valores:
i 1 D = max F0 ( xi ) 1i n n
D = max {D + , D }
A su vez, el valor de D depende del tipo de distribucin a probar y se encuentra tabulado. En general es de la forma:
k(n)
k (n) = n + 0.12 +
k ( n) = n 0.01 +
0.11 n 0.85
n 0.11
k (n) = n + 0.12 +
k ( n) = n
Ejemplo 1:
Determinar si los valores de la primera columna se conforman a una distribucin normal:
Y 6.0 2.3 4.8 5.6 4.5 3.4 3.3 1.9 4.8 4.5 Y-ordenados 1.9 2.3 3.3 3.4 4.5 4.5 4.8 4.8 5.6 6.0 Orden 1 2 3 4 5 6 7 8 9 10 F Z 0.1 -1.628 0.2 -1.332 0.3 -0.592 0.4 -0.518 0.5 0.296 0.6 0.296 0.7 0.518 0.8 0.518 0.9 1.11 1.0 1.406 Fo 0.051 0.091 0.276 0.302 0.616 0.616 0.698 0.698 0.867 0.920 D+ 0.049 0.109 0.024 0.098 -0.116* -0.016 0.002 0.102 0.033 0.080 D0.051 -0.009 0.076 0.002 0.216* 0.116 0.098 -0.002 0.067 0.020
Como el valor D = 0.216 < 0.262, no se rechaza H0 y se acepta que los datos se distribuyen normalmente.
Si el p-valor es grande significa que, siendo cierta la hiptesis nula, el valor observado del estadstico D era esperable. Por tanto no hay razn para rechazar dicha hiptesis. Asimismo, si el p-valor fuera pequeo, ello indicara que, siendo cierta la hiptesis nula, era muy difcil que se produjera el valor de D que efectivamente se ha observado. Ello obliga a poner muy en duda, y por tanto a rechazar, la hiptesis nula. De esta forma, para un nivel de significacin , la regla de decisin para este contraste es: Si p-valor Aceptar H0 Si p-valor < Rechazar H0 Obviamente, la obtencin del p-valor requiere conocer la distribucin de D bajo la hiptesis nula y hacer el clculo correspondiente. En el caso particular de la prueba de Kolmogorov Smirnov, la mayora de los paquetes de software estadstico realizan este clculo y proporcionan el p-valor directamente.
Ejemplo 2:
En los siguientes ejemplos se han simulado datos con distribucin exponencial o normal, contrastndose en todos los casos si puede aceptarse que los datos siguen distribucin exponencial. Se ha acompaado al contraste con el histograma de los datos y el grfico Q-Q Plot (grfico cuantil-cuantil: se representan los cuantiles de la distribucin terica supuesta frente a los cuantiles de la distribucin emprica. En un buen ajuste, la gran mayora de estos puntos deberan situarse sobre la recta y=x)
0.5
1.0 x
1.5
2.0
2.5
Q-Q Plot
3 qu 0 0.0 1 2
0.5
1.0
1.5
2.5
Histogram of x
1.5 Density 0.0 0 0.5 1.0
1 x
Q-Q Plot
qu
0 0
3 p-valor = 0.8917437
Histogram of x
2.0 Density 0.0 0.0 0.5 1.0 1.5
0.5
1.0
1.5 x
2.0
2.5
3.0
Q-Q Plot
qu
0 0.0
0.5
1.0
1.5
2.0
2.5
3.0
p-valor = 0.02106549
Ntese que, en este caso, aunque los datos se han generado realmente con distibucin exponencial, el p-valor conduce a rechazar que sta sea la distribucin de los datos.
Histogram of x
0.6 Density 0.0 0.2 0.4
-1
0 x
Q-Q Plot
3 qu 0 1 2
-1
1 p-valor = 0
En este caso, obviamente se rechaza que la distribucin sea exponencial, cosa que adems se ve claramente en los grficos.
Histogram of x
Density
0.0 -1.0
0.4
0.8
-0.5
0.0 x
0.5
1.0
Q-Q Plot
1.2 qu 0.0 -0.5 0.4 0.8
1.0
En este caso, aunque los datos se han generado con distribucin normal, el contraste conduce a aceptar que siguen distribucin normal. Ello se debe a que en general cuando hay poca informacin (en este caso slo diez datos), la hiptesis nula tiende a no ser rechazada, salvo que haya una evidencia abrumadora en su contra.
Histogram of x
Density
0.0 0.0
0.4
0.8
0.5 x
1.0
1.5
Q-Q Plot
1.2 qu 0.0 0.2 0.4 0.8
0.4
0.6
0.8
1.0
1.2
1.4
p-valor = 0.005575512
Aqu ha ocurrido lo contrario al caso anterior; a pesar de que los datos son originalmente exponenciales, el contraste rechaza que lo sean