You are on page 1of 2

Test de Rachas

Tiene por objetivo determinar si las datos que constituyen la muestra de observaciones se pueden
considerar una muestra aleatoria simple, hipotesis que necesitan casi todos los test en su desarrollo y
que en la mayora de los casos viene dada por como se recogen los datos. Inicialmente esta desarrollado
para variables dicotomicas y se basa en concepto de racha (run).
Sea R=n umero de rachas en la ordenacion aleatoria de n elementos de los cuales n
1
son de tipo A
y n
2
son de tipo B, (n
1
> 0, n
2
> 0).
Res una variable aleatoria discreta que toma los valores {2, . . . , c} donde c =
_
2 min(n
1
, n
2
), n
1
= n
2
;
2 min(n
1
, n
2
) + 1, n
1
= n
2
.
La distribucion de R viene dada por:
P(R = r) =
_

_
2(
n
1
1
s1
)(
n
2
1
s1
)
(
n
n
1
)
, r=2s;
(
n
1
1
s
)(
n
2
1
s1
)+(
n
1
1
s1
)(
n
2
1
s
)
(
n
n
1
)
, r=2s+1.
E(R) = 1 +
2n
1
n
2
n
V ar(R) =
2n
1
n
2
(2n
1
n
2
n)
n
2
(n 1)
Este estadstico se utiliza para contrastar la hipotesis H
0
: la muestra de datos de una variable
aleatoria dicotomica X es aleatoria simple.
Para ello se dene como region crtica RC = {

x /R < c
1
o R > c
2
}
La aplicacion de este test a variables continuas conlleva una dicotomizacion de los datos que
usualmente se lleva a cabo comparando con la mediana muestral, ya que ello permite conocer a
partir de n y sin tener la muestra cuanto valen n
1
, n
2
Para valores de n
1
, n
2
menores que 20 estan disponibles tablas que permiten calcular la region
crtica de este test
Para muestras de tama no grande R se aproxima asintoticamente a una normal, y se suele realizar
la correccion por continuidad al pasar de una variable discreta a una continua, es decir
P(R = r) P
_
N(E(R),
_
V ar(R) ) (r 0.5 , r + 0.5)
_
el calculo del P-valor para muestras de tama no grande se realiza con la aproximacion asintotica
y la correccion por continuidad.
p valor = 2 P
_
N(0, 1) >
| r E(R) | +0.5
_
V ar(R)
_
Test de Spearman
Sea X una variable aleatoria ordinal de la que se tiene una muestra de n datos, (X
1
, . . . , X
n
) a
partir de la cual se pueden construir el estadstico ordenado (X
(1)
, . . . , X
(n)
) y el estadstico de rangos
(R
1
, . . . , R
n
), donde R
i
es la posicion que ocupa X
i
despues de ordenar los elementos de la muestra
de menor a mayor.
Es decir, para la muestra (x
1
, . . . , x
n
)= (1.3, 7.4, 6.2, 2.3),
su estadstico ordenado es (x
(1)
, . . . , x
(n)
)= ( 1.3, 2.3, 6.2, 7.4),
y su estadstico de rangos es (r
1
, . . . , r
n
)= ( 1, 4, 3, 2)
Sea
s
= coeciente de correlacion de Pearson entre la posicion de los datos P = (1, . . . , n) y su rango
R = (R
1
, . . . , R
n
).

s
es un estadstico que se llama es coeciente de correlacion de rangos de Spearman.
Teniendo en cuenta que la media y varianza de las posiciones estan jas valen respectivamente (n+1)/2
y (n
2
1)/12 y que ademas coinciden con la media y varianza de los rangos (ya que son un permutacion
de las posiciones)
s
admite la siguiente expresion para su calculo

s
=
Cov(R, P)
_
V ar(R)V ar(P)
=

n
i=1
iR
i
n

_
n+1
2
_
2
n
2
1
12
= 1
6D
n(n
2
1)
, conD =
n

i=1
(R
i
i)
2
Bajo la hipotesis de que la muestra es aleatoria simple, los valores de X podran estar ordenados de
cualquier forma posible con la misma probabilidad, es decir todas las permutaciones de los valores de X
seran igualmente probables , en consecuencia la variable R tomara como valor cualquier permutacion
de {1, . . . , n} con la misma probabilidad; ello permite calcular la distribucion de
s
bajo esta hipotesis,
y suponiendo que no hay empates entre las observaciones, obteniendose que:

s
es una variable discreta que tiene una distribucion simetrica entre -1 y 1
E(
s
) = 0
V ar(
s
) =
1
n1
Este estadstico se utiliza para contrastar la hipotesis H
0
: la muestra de datos de la variable X
es aleatoria simple.
Para ello se dene como region crtica RC = {

x / |
s
|> c}
Para valores de n menores que 20 estan disponibles tablas que permiten calcular la region crtica
de este test
Para muestras de tama no grande

n 1
s
se aproxima asintoticamente a una normal N(0,1).
Teoricamente al trabajar con variables continuas la probabilidad de que un valor este repetido en
una muestra es cero,pero cuando aparecen datos coincidentes, o empatados, se aplica el criterio
del rango promedio, lo que afecta a la distribucion de
s
ya que aunque permite que la media
muestral de los rangos sea (n+1)/2 su varianza es menor de (n
2
1)/12, por ello es conveniente
que en su aplicacion practica no se presenten muchos empates entre los datos muestrales.
Para la aplicacion del test lo unico que necesito es que los valores de la variable se puedan ordenar
de menor a mayor y que no aparezcan valores coincidentes ya que eso modica la distribucion
de
s