SEMANAS 12 y 13

En general, para que un mtodo estadstico sea clasificado como no paramtrico debe satisfacer al menos una de las siguientes
condiciones:
El mtodo se puede usar con datos nominales. El mtodo se puede usar con datos ordinales. El mtodo se puede usar con datos de intervalo o de razn cuando no cabe supuesto alguno sobre la distribucin de probabilidad de la poblacin.
Si el nivel de medicin de datos es de
intervalo o de razn, y si son adecuados los supuestos necesarios acerca de la distribucin de probabilidad de la poblacin, los mtodos paramtricos permiten aplicar mtodos estadsticos ms certeros o con ms discernimiento. En muchos casos, cuando se puede aplicar tanto un mtodo no paramtrico como uno paramtrico, el primero es casi tan bueno como el segundo.
En casos en los que los datos son nominales
u ordinales, o cuando son inadecuados los supuestos requeridos por los mtodos paramtricos, slo se dispone de mtodos no paramtricos. Por los requisitos menos restrictivos sobre medicin de datos, y por la menor cantidad de supuestos necesarios acerca de la distribucin de la poblacin, se considera que los mtodos no paramtricos tienen aplicacin ms general que los paramtricos.
PRUEBA DEL SIGNO

Una aplicacin comn de la prueba del signo en investigacin de mercados consiste en emplear una muestra de n clientes potenciales para identificar una preferencia hacia una de dos marcas de un producto, como caf, refrescos o detergentes. Las n expresiones de la preferencia son datos nominales, porque el consumidor tan slo nombra o identifica una preferencia. Con estos datos, el objetivo es determinar si hay una diferencia entre las preferencias hacia los dos artculos que se comparan. Como veremos, la prueba de signo es un procedimiento estadstico no paramtrico para contestar preguntas como sta.
Caso de muestra pequea Se debe considerar que, en una prueba de signo, se tiene el caso de muestra pequea cuando n 20
Ejemplo: Una empresa produce el jugo de naranja con marca
Frutos. Un competidor ha comenzado a producir otro, cuya marca es Orange. En un estudio de preferencia de consumidores hacia las dos marcas, se dieron muestras sin identificar a 12 personas. La marca que sabore en primer lugar cada individuo se seleccion de manera aleatoria. Despus de degustar los dos jugos, se pidi a los individuos expresar su preferencia hacia una de las dos marcas. El objeto del estudio es determinar si hay preferencia hacia uno u otro producto. Si p indica la proporcin de la poblacin de consumidores que favorecen a Frutos, se trata de probar los siguientes supuestos:
H 0 : p = 0.50 H1 : p 0.50
Si no se puede rechazar H0 no tendremos pruebas que indiquen que hay preferencia hacia un jugo. Sin embargo, si se puede rechazar H0, podremos concluir que las preferencias del consumidor son distintas hacia las dos marcas. En este caso, la marca que seleccione la mayor cantidad de consumidores ser la ms preferida.
A continuacin explicaremos cmo se aplica la prueba del signo en su versin para muestra pequea, para probar esos supuestos y llegar a una conclusin acerca de las preferencias de los consumidores. Con el fin de anotar los datos de preferencia de los 12 participantes en el estudio, se usa un signo positivo (+) si el individuo dice que su preferido es Frutos y un signo negativo (-) si es Orange. Como los datos se anotan como signos positivos o negativos, a esta prueba no paramtrica se le llama prueba de signo.
Si suponemos que H0 es verdadera (p = 0.50), la cantidad de signos positivos sigue una distribucin binomial de probabilidad, con p = 0.50. Con una tamao de muestra n = 12, las probabilidades de la binomial con p = 0.50 son las que aparecen en la siguiente tabla:
Probabilidades binomiales con n = 12, p = 0.50 N de signos positivos Probabilidad 0 0.0002 1 0.0029 2 0.0161 3 0.0537 4 0.1208 5 0.1934 6 0.2256 7 0.1934 8 0.1208 9 0.0537 10 0.0161 11 0.0029 12 0.0002
Usaremos esta distribucin muestral con el fin de determinar una regla de rechazo de H0. Por ejemplo, con = 0.05, tendramos una regin de rechazo cuya rea aproximada fuera 0.025 en cada extremo de la distribucin. Si iniciamos en el extremo inferior de la distribucin, vemos que la probabilidad de obtener cero, uno o dos signos positivos es 0.002 + 0.0029 + 0.0161 = 0.0192.
Note que nos detuvimos en dos signos positivos, porque si sumramos la probabilidad de tener tres signos positivos, el rea en el extremo inferior sera igual a 0.0192 + 0.0537 = 0.0729, la cual es bastante mayor que el rea deseada, que es de 0.025. En el extremo superior de la distribucin nos encontramos con la misma probabilidad, igual a 0.0192, que corresponde a 10, 11 o 12 signos positivos. Por consiguiente, lo ms que nos pudimos acercar a = 0.05 sin pasarnos fue 0.0192 + 0.0192 = 0.0384. En consecuencia, adoptaremos la siguiente regla de rechazo:
Rechazar H0 si el nmero de signos positivos es menor que 3 o mayor que 9 Los datos de preferencia obtenidos en la prueba se presentan en la siguiente tabla:
Datos de preferencia Individuos Marca preferida 1 Orange 2 Orange 3 Frutos 4 Orange 5 Orange 6 Orange 7 Orange 8 Orange 9 Frutos 10 Orange 11 Orange 12 Orange Dato registrado + + -
Como slo se observaron dos signos positivos, se rechaza la hiptesis nula. El estudio ha proporcionado pruebas de que las preferencias de los consumidores son distintas hacia las dos marcas de jugo de naranja. Hay indicios de que los consumidores prefieren la marca Orange. Se rechaza H0 si el valor p < se puede usar tambin para pruebas no paramtricas. Con dos signos ms, el valor p para esta prueba bilateral es 2 (0.0161 + 0.0029 + 0.0002) = 0.0384. Para una prueba unilateral, el valor p se hallara al sumar las probabilidades de un solo extremo de la distribucin de muestreo.
Caso de muestra grande
Con la hiptesis nula H0: p = 0.50 y un tamao de muestra n > 20, se puede aproximar la distribucin muestral del nmero de signos positivos, mediante una distribucin de probabilidad normal.
Aproximacin normal a la distribucin muestral del nmero de signos positivos cuando no se especifica alguna preferencia
= 0.50 n
=
0.25 n
Forma de la distribucin aproximadamente normal, siempre y cuando n > 20.
Ejemplo En una encuesta durante una campaa de elecciones presidenciales se pidi a 200 votantes calificar a los candidatos demcratas y republicanos para ver cul tena la mejor poltica internacional en general. Los resultados de esa encuesta indicaron que 72 calificaban ms alto al candidato demcrata, 103 ms alto al republicano y 25 indicaron que no haba diferencia entre los candidatos. Esa encuesta, indica que hay una diferencia significativa entre los dos candidatos, en cuanto a la opinin pblica sobre sus polticas internacionales?
Aplicamos la prueba del signo y venos que n = 200 25 = 175 personas pudieron indicar al candidato que, segn ellas, ofreca la mejor poltica internacional. Si aplicamos las frmulas para determinar la media y la desviacin estndar, encontramos que la distribucin muestral del nmero de signos positivos tiene las siguientes propiedades:
= 0.50 n = 0.50 (175) = 87.5

= 0.25n = 0.25 (175) = 6.6
Adems, con n = 175 se puede suponer que la distribucin muestral es aproximadamente normal, por lo que podemos consultar la tabla de reas de la distribucin normal estndar para determinar la regla de rechazo en esta prueba. Con = 0.05, esta regla para la prueba bilateral se puede expresar como: Rechazar H0 si z < - 1.96 o si z > + 1.96
Si consideramos que el nmero de veces que el candidato demcrata recibi la mayor calificacin por su poltica internacional es igual al nmero de signos positivos (x =72), llegamos al siguiente valor del estadstico de prueba:
x 72 87.5 z= = = 2.35 6.6
Como z = - 2.35 es menor que 1.96, se debe rechazar el supuesto de que no hay diferencia entre los dos candidatos, en cuanto a poltica internacional, con un nivel de significancia de 0.05. Con z = - 2.35, la distribucin normal estndar se puede usar para mostrar que el valor p es 2 (0.5000 0.4906) = 0.0188. Este estudio indica que se percibe que los candidatos tienen distintas evaluaciones en cuanto a poltica exterior.
Prueba de supuesto acerca de una mediana
Ahora indicaremos cmo aplicar la prueba del signo para la prueba de hiptesis acerca de la mediana de una poblacin. Recuerde que la mediana divide a una poblacin en tal forma que 50% de los valores estn en la mediana o arriba de ella, y 50% en la mediana o debajo de ella. Es posible aplicar la prueba del signo adjudicando un signo positivo cuando los datos en la muestra estn arriba del valor supuesto de la mediana, y un signo negativo cuando estn debajo. Se debe descartar todo dato que sea exactamente igual al valor supuesto de la mediana. Los clculos para la prueba del signo se hacen en la misma forma que antes.
Por ejemplo, se probar la siguiente hiptesis acerca de la mediana de los precios de casas nuevas en St. Louis, Missouri: H0: mediana = 130 000 dlares H1: mediana 130 000 dlares En una muestra de 62 viviendas nuevas, 34 tienen precios mayores de 130 000 dlares, 26 menores de 130 000 y los precios de dos son exactamente 130 000 dlares.
Aplicamos las ecuaciones anteriores para las n = 60 casas cuyos precios son distintos de 130 000 dlares, y obtenemos:
= 0.50 n = 0.50 (60) = 30

= 0.25n = 0.25 (60) = 3.87
Con x = 34, el nmero de signos positivos, el estadstico de prueba es:
z =
34 30 = = 1.03 3.87
Usamos una prueba bilateral con nivel de significancia
= 0.05y rechazamos H0 si z es menor que 1.96 o mayor que + 1.96. El estadstico de prueba es z = 1.03; por tanto, no podemos rechazar H0. El valor p es 2 (0.5000 0.3485) = 0.303. Sobre la base de estos datos, no podemos rechazar la hiptesis nula de que la mediana del precio de venta de una casa nueva en St. Louis es de 130 000 dlares.
Nota.- El nmero de signos positivos se us en los clculos para determinar si se debe rechazar el supuesto nulo de que p = 0.5. Tambin se podra usar, con la misma facilidad, el nmero de signos negativos, el resultado de la prueba sera el mismo.
Prueba de rango con signo de Wilcoxon

La prueba de rango con signo de Wilcoxon es la alternativa no paramtrica de la prueba de muestra paramtrica pareada. En el caso de la muestra pareada, cada unidad experimental genera dos observaciones pareadas o ajustadas, una de la poblacin 1 y otra de la poblacin 2. Las diferencias entre las observaciones pareadas permiten tener una perspectiva acerca de las diferencias entre las dos poblaciones.
La metodologa del anlisis paramtrico de muestra pareada requiere de datos de intervalo y del supuesto de que la poblacin de las diferencias entre los pares de observaciones tengan distribucin normal. Con este supuesto se puede usar la distribucin t para probar la hiptesis nula: no hay diferencia entre las medias poblacionales. Si no es adecuado el supuesto de diferencias con distribucin normal, se puede aplicar la prueba de rango con signo de Wilcoxon.
Ejemplo
Una fbrica trata de determinar si dos mtodos de produccin tienen distintos tiempos de terminacin del lote. Se seleccion una muestra de 11 trabajadores, y cada uno termin un lote de produccin usando los dos mtodos. El mtodo de produccin empleado primero por cada trabajador se determin en forma aleatoria. As, cada trabajador de la muestra produjo un para de observaciones, como se pude observar en la siguiente tabla:
Mtodo Trabajador 1 2 3 4 5 6 7 8 9 10 11 1 10.2 9.6 9.2 10.6 9.9 10.2 10.6 10.0 11.2 10.7 10.6 2 9.5 9.8 8.8 10.1 10.3 9.3 10.5 10.0 10.6 10.2 9.8 Diferencia 0.7 -0.2 0.4 0.5 -0.4 0.9 0.1 0.0 0.6 0.5 0.8
Una diferencia positiva entre los tiempos de terminacin del lote indica que el mtodo 1 requiri ms tiempo, y la diferencia negativa indica que el mtodo 2 requiri ms tiempo. Indican esos datos que los mtodos son apreciablemente distintos, en lo que concierne al tiempo de terminacin del lote?
Solucin: De hecho, tenemos dos poblaciones de tiempos de terminacin, una asociada con cada mtodo. Se probarn los siguientes supuestos: H0: las poblaciones son idnticas H0: las poblaciones no son idnticas Si no se puede rechazar H0, no tendremos evidencia para concluir que los tiempos de terminacin del lote difieren para los dos mtodos. Sin embargo, si se puede rechazar H0, llegamos a la conclusin de que los dos mtodos difieren en sus tiempos de terminacin del lote.
El primer paso de la prueba de rango con signo de Wilcoxon requiere que se ordene el valor absoluto de las diferencias entre los dos mtodos. Se descartan todas las diferencias iguales a cero y se ordena y etiquetan las diferencias absolutas restantes, desde la mnima hasta la mxima. Cuando las diferencias son iguales son iguales se les asigna la clasificacin media a sus posiciones ordenadas en el conjunto combinado de datos. La clasificacin de los valores absolutos de las diferencias aparecen en la cuarta columna de la siguiente tabla:
Valor absoluto Trabajador Diferencia de la diferencia 1 0.7 0.7 2 -0.2 0.2 3 0.4 0.4 4 0.5 0.5 5 -0.4 0.4 6 0.9 0.9 7 0.1 0.1 8 0.0 0.0 9 0.6 0.6 10 0.5 0.5 11 0.8 0.8
Lugar (rango) 8 2 3.5 5.5 3.5 10 1 -7 5.5 9 Suma
Rango con signo +8 -2 +3.5 +5.5 -3.5 +10 +1 -+7 +5.5 +9 + 44.0
Observe que la diferencia igual a cero, con el trabajador 8, se elimina de las clasificaciones; a continuacin, a la diferencia absoluta 0.1 se le asigna el rango de 1. Esta clasificacin de diferencias absolutas contina hasta que a la mayor diferencia absoluta, 0.9, se le asigna el rango 10. A las diferencias absolutas iguales, para los trabajadores 3 y 5, se les asigna el rango medio de 3.5, y a las de los trabajadores 4 y 10, el rango medio de 5.5.
Una vez determinados los rangos de las diferencias absolutas, se asigna a los rangos el signo de la diferencia original en los datos. Por ejemplo, a la diferencia 0.1 para el trabajador 7, se le asign el rango de 1, se le asigna el valor +1, porque la diferencia observada entre los dos mtodos era positiva. A la diferencia 0.2, con rango igual a 2, se le asigna el valor de 2, porque la diferencia observada entre los dos mtodos era negativa para el trabajador 2. La lista completa de rangos con signo y la suma de ellos se muestra en la ltima columna de la tabla anterior.
Regresemos al supuesto original que dice: los tiempos de terminacin son idnticos para las poblaciones de los dos mtodos. Si las poblaciones de los tiempos de terminacin de cada mtodo son idnticas, cabra esperar que los rangos positivos y los negativos se anularn entre s, de modo que la suma de los valores de rango con signo debera ser, aproximadamente, igual a cero. As, la prueba de significancia de rangos con signo de Wilcoxon implica determinar si la suma calculada de rangos con signo (+ 44, en este ejemplo) es significativamente distinta de cero
Sea T la suma de los valores de rangos con signo en la prueba de Wilcoxon. Se puede demostrar que si las dos poblaciones son idnticas, y si la cantidad de pares ajustados de datos es de 10 o ms, se aproxima la distribucin de T mediante una distribucin de probabilidad normal, como sigue: Distribucin muestral de T para poblaciones idnticas
T = 0
T =
n (n + 1) (2n + 1) 6
Forma de la distribucin: aproximadamente normal, siempre y cuando n 10
En el ejemplo, tenemos n = 10, porque eliminamos la observacin cuya diferencia fue 0 (trabajador 8). As, al aplicar la frmula, obtenemos:
T =
n (n + 1) (2n + 1) 10 (11) (21) = = 19.62 6 6
El valor del estadstico de prueba z es:
z =
T T
44 0 = = 2.24 19.62
Al probar la hiptesis nula, que consiste en la ausencia de diferencia, con un nivel de significancia = 0.05 se rechaza H0 si z < - 1.96, o si z > 1.96. Como tenemos el valor z = 2.24, rechazamos H0 y llegamos a la conclusin de que las dos poblaciones no son idnticas y que los mtodos son distintos en cuanto a su tiempo de terminacin de lote. Con z = 2.24 el valor p es 2(0.5000 0.4875) = 0.025. El hecho de que el mtodo 2 tuviera tiempos menores de terminacin con 8 de los 11 trabajadores, nos conduce a esta conclusin: de acuerdo a las diferencias de poblacin, el mtodo 2 es el mejor mtodo de produccin.
Prueba de Mann-Whitney-Wilcoxon
Presentaremos otro mtodo no paramtrico con el que se puede determinar si hay una diferencia entre dos poblaciones. La prueba de Mann-Whitney-Wilcoxon, sus inventores, a diferencia de la de rango con signo, no se basa en muestras pareadas; aqu se toman dos muestras independientes, una de cada poblacin. A veces se le llama prueba de Mann-Whitney y en ocasiones prueba de la suma de rangos de Wilcoxon. Las dos versiones son equivalentes y la llamaremos prueba de Mann-Whitney-Wilcoxon o prueba de MWW para abreviar.
Recuerde que para una prueba paramtrica de la diferencia entre las medias de dos poblaciones, se probaron dos supuestos.
H 0 : 1 2 = 0 H1 : 1 2 0
En el caso de la muestra pequea, la prueba de hiptesis requiri datos de intervalo y la suposicin de que ambas poblaciones tuvieran una distribucin normal. En estas condiciones, la distribucin t se utiliz para probar la diferencia entre las medias de dos poblaciones.
La prueba no paramtrica de MWW no requiere datos de intervalo o la suposicin de que ambas poblaciones una distribucin normal. El nico requisito es que la escala de medicin de los datos sea al menos ordinal. Entonces, en lugar de probar la diferencia entre las medias de dos poblaciones, la prueba de MWW determina si las dos poblaciones son idnticas. Los supuestos que se prueban son: H0: las dos poblaciones son idnticas. H1: las dos poblaciones no son idnticas.
Caso de muestra pequea
Para esta prueba se debe considerar que se trata de muestra pequea cuando los tamaos de las muestras de ambas poblaciones son menores o iguales a 10.
Ejemplo
Los administradores de una universidad particular, quieren determinar el potencial acadmico de sus alumnos. La mayora de ellos procede de la secundaria de colegios particulares o de la secundaria de colegios estatales. Lo que se desea saber en la administracin de la universidad particular es si la poblacin de alumnos que asistieron a la secundaria a colegios particulares es idntica a la de los que asistieron a colegios estatales, en lo concerniente a potencial acadmico. Para ello se consideraron los siguientes supuestos: H0: las dos poblaciones son idnticas en trminos de potencial acadmico H1: las dos poblaciones no son idnticas en trminos de potencial acadmico
Los administradores de la universidad particular recurrieron a sus registros y seleccionaron una muestra aleatoria de cuatro alumnos procedentes de colegios particulares, y otra muestra aleatoria de cinco alumnos de la secundaria de colegios nacionales. Los lugares de los alumnos dentro de su generacin en secundaria se anotaron para cada uno de los nueve alumnos del estudio. Esas posiciones aparecen en la siguiente tabla:
Alumnos de colegio particular Alumno Fernndez Palomino Quispe Rodrguez Lugar 8 52 21
Alumnos de colegio nacional Alumno Jimnez lvarez Mamani Gmez Lugar 70 202 144 175 146
112 Rojas
El primer paso en la prueba de MWW es ordenar los datos combinados de las dos muestras, en orden ascendente. El valor mnimo (lugar 8 en la clase) recibe un lugar igual a 1, y el mayor (lugar 202 en clase) recibe un rango igual a 9. La clasificacin de los 9 alumnos se muestra en la siguiente tabla:
Alumno Fernndez Rodrguez Palomino Jimnez Quispe Rojas Gmez Mamani lvarez
Lugar en la clase 8 21 52 70 112 144 146 175 202
Lugar en la muestra combinada 1 2 3 4 5 6 7 8 9
El siguiente paso es sumar los rangos por separado para cada muestra. Este clculo se presenta en la siguiente tabla:
Alumnos de colegio particular Lugar en la Alumno Lugar muestra Fernndez Palomino Quispe Rodrguez 8 52 112 21 Suma de rangos 1 3 5 2 Alumnos de colegio estatal Lugar en la Alumno Lugar muestra Jimnez Alvarez Rojas Mamani Gmez 11 70 202 144 175 146 Suma de rangos 4 9 6 8 7 34
En el procedimiento de MWW se puede usar la suma de los rangos de cualquiera de las muestras. En lo que sigue de la descripcin usaremos la suma de los rangos correspondiente a la muestra de cuatro alumnos de colegio particular. Representaremos con el smbolo T a esta suma. As, en nuestro ejemplo, T = 11.
Examinemos las propiedades de la suma de rangos en la muestra de los colegios particulares. Con cuatro alumnos en esa muestra, puede ser que los particulares tengan los cuatro alumnos ms avanzados en el estudio. Si este fuera el caso, T = 1 + 2 + 3 + 4 = 10 sera el valor mnimo posible de la suma de rangos T. Al revs, podra ser que los particulares tuvieran los cuatro alumnos menos aprovechados, el cuyo caso T = 6 + 7 + 8 + 9 = 30 sera el mximo valor posible de T. Por consiguiente, T debe tener un valor entre 10 y 30, para la muestra de particulares. Observe que los valores de T cercanos a 10 implican que es muy probable que los particulares tenga los mejores alumnos, con lo mejores lugares; mientras que si T se acerca a 30, quiere decir que los particulares tiene los alumnos ms dbiles, los de los ltimos lugares. As, si las dos poblaciones de alumnos fueran idnticas en cuanto al potencial acadmico, cabra esperar que el valor T quedara cerca de la media de los dos valores: (10 + 30) / 2 = 20.
Los valores crticos del estadstico T para la prueba de MannWhitney-Wilcoxon aparecen en una tabla especial, para casos en los que ambos tamaos de muestra son menores que, o iguales a 10. All n1 indica el tamao de la muestra cuya suma de rango se usa en la prueba. El valor de TL (inferior) se lee directo de la tabla, y el valor de TU (superior) se calcula con la ecuacin siguiente:
TU = n1 (n1 + n2 + 1) TL
Ni el valor de TL ni el de TU estn en la regin de rechazo. La hiptesis nula, de poblaciones idnticas, se debe rechazar o slo cuando T sea estrictamente menor que TL estrictamente mayor que TU. Por ejemplo, usando la tabla correspondiente, y con un nivel de significancia igual a 0.05, vemos que el valor crtico inferior del estadstico MWW, con n1 = 4 (particular) y n2 = 5 (nacional) es TL = 12. El valor crtico superior para el estadstico MWW, calculado con la ecuacin dada es:
TU = n1 (n1 + n2 + 1) TL = 4(4 + 5 + 1) 12 = 28
De este modo, la regla de rechazo de la prueba de MWW indica que se puede rechazar la hiptesis nula, de poblaciones idnticas, si la suma de rangos de la primera muestra (particulares) es menor que 12 o mayor que 28. La regla de rechazo es: Rechazar H0 si T < 12 o si T > 28 Como hemos calculado que T = 11, tenemos que se rechaza la hiptesis nula y podemos concluir que la poblacin de alumnos de colegios particulares es distinta en comparacin con la de alumnos de colegios nacionales, en lo concerniente al potencial acadmico. Los mejores lugares en clase, obtenidos con la muestra de alumnos particulares, sugieren que esos alumnos estn mejor preparados para estudiar en la universidad que los de la secundaria de colegios estatales.
Caso de muestra grande

Cuando ambos tamaos de muestra son mayores que 10, se puede emplear una aproximacin normal de la distribucin T para el anlisis en la prueba de Mann-Whitney-Wilcoxon.
Ejemplo
Veamos un caso de muestra grande que se present en un gran banco. Este banco tiene dos sucursales. Los datos reunidos en dos muestras aleatorias simples e independientes, una de cada sucursal, aparecen en la siguiente tabla 1. Indican esos datos que las poblaciones de los saldos de cuentas de cheques de las dos sucursales son idnticas?
El primer paso en la prueba de MWW es ordenar de manera creciente los datos combinados. Al emplear el conjunto combinado de 22 observaciones en esta tabla, vemos que el valor mnimo de datos es 750 dlares (el sexto de la muestra 2) y le asignamos un rango igual a 1, y as continuamos. Al clasificar los datos combinados podra ser que dos o ms valores de datos sean iguales. En este caso, a los valores iguales se les asigna el lugar promedio de sus posiciones en el conjunto combinado de datos. Por ejemplo, el saldo de 945 dlares (octavo elemento de la muestra 1) se le asigna el rango 11. Sin embargo, los dos valores siguientes del conjunto de datos son iguales, de 950 dlares en el saldo (vea el sexto elemento de la muestra 1 y el cuarto de la muestra 2). Como a esos dos valores se les asignaran los rangos 12 y 13, a ambos se les asigna el rango de 12.5. En el siguiente valor hacia arriba, 955 dlares, se contina el proceso de ordenamiento, asignndole el rango 14. La tabla 2 muestra el conjunto de datos completo, con el rango asignado a cada observacin.
Tabla 1
Sucursal 1 Cuenta Saldo ($) 1 1095 2 955 3 1200 4 1195 5 925 6 950 7 805 8 945 9 875 10 1055 11 1025 12 975 Sucursal 2 Cuenta Saldo ($) 1 885 2 850 3 915 4 950 5 800 6 750 7 865 8 1000 9 1050 10 935
Tabla 2
Sucursal 1 Cuenta Saldo ($) Lugar 1 1095 20 2 955 14 3 1200 22 4 1195 21 5 925 9 6 950 12.5 7 805 3 8 945 11 9 875 6 10 11 12 1055 19 Cuenta 1 2 3 4 5 6 7 8 9 10 Sucursal 2 Saldo ($) 885 850 915 950 800 750 865 1000 1050 935 Suma de rangos Lugar 7 4 8 12.5 2 1 5 16 18 10 83.5
1025 17 975 15 Suma de rangos 169.5
Enseguida, en la prueba de MWW se suman los rangos de cada muestra. El procedimiento de prueba se puede basar en la suma de los rangos de cualquiera de las muestras. Usaremos la de la sucursal 1. As, para este ejemplo, T = 169.5 Como los tamaos de la muestra son n1 = 12 y n2 = 10, podemos emplear la aproximacin normal a la distribucin T de la suma de rangos en las muestras. La distribucin muestral adecuada se expresa como sigue: Distribucin muestral de T para poblaciones idnticas
T = 1 / 2 n1 (n1 + n2 + 1)
T =
1 / 12 n1 n2 (n1 + n2 + 1)
Forma de la distribucin: aproximacin normal, siempre y cuando n1 10 y n2 10
Para la sucursal 1, obtenemos:
T = 1 / 2 n1 (n1 + n2 + 1) = 1 / 2 12 (12 + 10 + 1) = 138

T = 1 / 12 n1 n2 (n1 + n2 + 1) = 1 / 12 (12) (10) (12 + 10 + 1) = 15.17
De acuerdo con el procedimiento acostumbrado de prueba de hiptesis, calcularemos el estadstico de prueba z . Al calcular el estadstico de prueba, obtenemos:
z= T T
169.5 138 = = 2.08 15.17
Con un nivel de significancia igual a 0.05, sabemos que para rechazar H0, z debe ser menor que -1.96 o mayor que +1.96. Con z = 2.08, y el valor p 2(0.5000 0.4812) = 0.0376 menor que = 0.05, rechazamos H0. Por consiguiente, concluimos que las dos poblaciones de saldos en las dos sucursales no son idnticas.
En resumen, la prueba de Mann-Whitney-Wilcoxon de suma de rangos considera los siguientes pasos para determinar si las dos muestras aleatorias independientes fueron seleccionadas de poblaciones idnticas: Ordene de manera ascendente las observaciones combinadas de ambas muestras, desde la menor hasta la mayor, y asignar la media de los lugares, cuando los valores son iguales. Calcule T, la suma de los rangos para la primera muestra. En el caso de muestras grande, haga la prueba para ver si hay diferencias significativas entre las dos poblaciones, con el valor observado de T, comparndolo con la distribucin muestral de T para poblaciones idnticas. El valor del estadstico de prueba z, o el valor p, dar la pauta para rechazar H0. En el caso de muestra pequea, use la tabla correspondiente para localizar los valores crticos de la prueba.
Prueba de Kruskal-Wallis
La prueba de Mann-Whitney-Wilcoxon se aplica para ver si dos poblaciones son idnticas. Kruskal y Wallis la ampliaron al caso de tres o ms poblaciones y as surge la prueba de KruskalWallis con k 3 Sus supuestos se establecen como sigue: H0: todas las poblaciones son idnticas H1: no todas las poblaciones son idnticas La prueba de Kruskal-Wallis se basa en el anlisis de muestras aleatorias independientes de cada una de las k poblaciones.
Ejemplo
La manufacturera Gmez recluta y contrata empleados para su equipo gerencial en tres escuela locales. En los ltimos das, su departamento de personal ha estado reuniendo y revisando las calificaciones anuales de desempeo para tratar de determinar si hay diferencias en la eficiencia entre los gerentes contratados de esas escuelas. Se dispone de calificaciones de desempeo en muestras independientes de siete empleados de la escuela A, seis de la B y siete de la C. En la siguiente tabla se resumen estos datos, la calificacin general de cada gerente est expresada en una escala de 0 a 100, donde 100 representa la mxima calificacin posible de desempeo.
Escuela A 25 70 60 85 95 90 80
Escuela B 60 20 30 15 40 35
Escuela C 50 70 60 80 90 70 75
Deseamos hacer la prueba para ver si las tres poblaciones son idnticas en cuanto a las evaluaciones de desempeo. El estadstico de prueba de Kruskal-Wallis, que se basa en la suma de rangos de cada una de las muestras, se calcula as:
Estadstico para la prueba de Kruskal-Wallis

k 12 Ri2 W = 3( nT + 1) nT ( nT + 1) i =1 ni
k : nmero de poblaciones ni : nmero de elementos en la muestra i nT : n = nmero total de elementos en todas las muestras
i
Ri : suma de los rangos en la muestra i
Kruskal y Wallis lograron demostrar que, segn la hiptesis nula de que las poblaciones son idnticas, se puede aproximar la distribucin de W en las muestras mediante una distribucin ji cuadrada con k 1 grados de libertad. Esta aproximacin es suficiente, en el caso general, si los tamaos de cada una de las muestras es mayor o igual a 5. Para calcular el estadstico W en nuestro ejemplo, primero debemos ordenar todos los 20 datos. El valor mnimo de los datos, que es 15 y proviene de la escuela B, recibe el rango 1, mientras que el mximo valor de los datos, 95 de la escuela A, recibe un rango igual a 20. Los valores de los datos, sus rangos y la suma de los rangos para las tres muestras aparecen en la siguiente tabla. Observe que asignamos el rango medio a elementos iguales; por ejemplo, los valores de 60, 70, 80 y 90 tuvieron sus iguales.
Escuela Escuela Escuela A Rango B Rango C Rango 3 9 7 25 60 50 12 2 12 70 20 70 9 4 9 60 30 60 17 1 15.5 85 15 80 20 6 18.5 95 40 90 18.5 5 12 90 35 70 15.5 14 80 75 95 27 88 Suma
El estadstico W se calcula:
k 12 Ri2 12 (95) 2 (27) 2 (88) 2 W = + + 3(nT + 1) = 3(20 + 1) = 8.92 20(21) 7 6 7 nT (nT + 1) i =1 ni
En la tabla de la distribucin ji cuadrada se muestra que con k 1 =2 grados de libertad y nivel de significancia 0.05 en el extremo superior de la distribucin, el valor crtico de ji cuadrada es 5.99147. Como el estadstico W = 8.92 es mayor que 5.99147, rechazamos la hiptesis nula de que las poblaciones son idnticas. En consecuencia, concluimos que el desempeo de los gerentes difiere mucho, segn la escuela a la cual asistieron. Adems, como las calificaciones de desempeo fueron mnimas para la escuela B, parece razonable que la empresa ya no busque su personal en la escuela B, o que al menos evale con ms rigor a esos graduados.
Correlacin de rango
El coeficiente de correlacin es una medida de la asociacin lineal entre dos variables, para las que se dispone de datos de intervalo o de razn. Ahora manejaremos medidas de asociacin entre dos variables cuando slo se dispone de datos ordinales. Para este fin se ha desarrollado el coeficiente de correlacin de rango de Spearman. Coeficiente de correlacin de rangos de Spearman
rs = 1
n ( n 2 1)
6 d i2
n: nmero de artculos o individuos que se clasifican xi: rango del artculo i respecto a una variable yi: rango del artculo i respecto a una segunda variable di: xi - yi
Ejemplo
Una empresa desea determinar si las personas que en el momento de ser contratadas se consideraban con un buen potencial de ser buenos vendedores, ahora que ya tienen el empleo presentan los mejores historiales de ventas. Para investigar este asunto, el gerente de personal repas con cuidado los resmenes de las entrevistas de contratacin, las calificaciones acadmicas y las cartas de recomendacin para 10 miembros del equipo de ventas de la empresa. Despus del repaso, el gerente de ventas clasific a los 10 individuos en funcin de su potencial de xito, basando la evaluacin slo en la informacin asequible en el momento de la contratacin. A continuacin se form una lista de la cantidad de unidades que cada vendedor vendi en sus primeros dos aos. Con base en el desempeo real como vendedor, se hizo una segunda clasificacin de los 10 vendedores.
En la siguiente tabla se muestran los datos importantes y las dos clasificaciones. Ventas en 2 aos (unidades) 400 360 300 295 280 350 200 260 220 385
Lugar en Vendedor potencial A 2 B 4 C 7 D 1 E 6 F 3 G 10 H 9 I 8 J 5
Lugar, segn ventas en 2 aos 1 3 5 6 7 4 10 8 9 2
El dilema estadstico consiste en determinar si habr concordancia entre la clasificacin del potencial en el momento de la contratacin y la basada en el desempeo real como vendedor durante los dos primeros aos. Calcule el coeficiente de correlacin de rango de Spearman para los datos de la tabla. Los clculos se resumen en la siguiente tabla.
y d = d x =44
2 i
2 i i
xi = Lugar en Vendedor potencial A 2 B 4 C 7 D 1 E 6 F 3 G 10 H 9 I 8 J 5
yi = Lugar, en desempeo de ventas 1 3 5 6 7 4 10 8 9 2
di = xi - yi 1 1 2 -5 -1 -1 0 1 -1 3
di 1 1 4 25 1 1 0 1 1 9 44
6 ( 44) rs = 1 = 1 = 0.73 2 n ( n 1) 10 (100 1)

Vemos que ese coeficiente es 0.73, positivo. El coeficiente de correlacin de rango de Spearman puede valer desde -1.0 hasta +1.0, y su interpretacin es parecida a la del coeficiente de correlacin de la muestra porque los valores positivos cercanos a 1.0 indican que hay una fuerte asociacin entre las clasificaciones; a medida que aumenta un rango, el otro tambin aumenta. Las correlaciones de rango cercanas a -1.0 sealan que hay una fuerte asociacin negativa entre las clasificaciones: al aumentar un rango, el otro decrece. El valor rs = 0.73 indica una correlacin positiva entre el desempeo potencial y el real. Los individuos a los que se asignaron lugares altos en cuanto al potencial, tienden a tener lugares altos en su desempeo.
6 d i2
Prueba para correlacin de rango significativa

Hasta ahora hemos visto cmo se usan los resultados de la muestra para calcular el coeficiente del rango de la muestra. Como en el caso de muchos otros procedimientos estadsticos, quisiramos usar los resultados de la muestra para hacer una inferencia acerca de la correlacin poblacional del rango, s Para ello, debemos probar las hiptesis siguientes:
H0 : s = 0 H1 : s 0
Distribucin muestral de rs
r = 0
s
r =
s
1 n 1
Forma de la distribucin: aproximadamente normal, siempre y cuando n >= 10
El coeficiente de correlacin de rango de la muestra para el potencial en ventas y el desempeo en ventas es rs = 0.73. Con este valor podemos hacer la prueba para determinar si hay una correlacin de rango significativa. Con las frmulas dadas, podemos calcular la media y la desviacin estndar:
r = 0
s
1 1 rs = = = 0.33 10 1 n 1
Luego, el estadstico de prueba ser:
z=
rs rs
0.73 0 = = 2.21 0.33
Vemos, con un nivel de significancia igual a 0.05, que hay que rechazar la hiptesis nula de que no hay correlacin si z < -1.96 o si z > 1.96. Como z = 2.21 > 1.96 y el valor p = 2 (0.5000-0.4864) = 0.0272 es menor que el nivel de significancia 0.05, rechazamos la hiptesis de falta de correlacin de rangos. As concluimos que s hay correlacin apreciable de rango entre el potencial y el desempeo en ventas.

SEMANAS 12 y 13

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

SEMANAS 12 y 13

Uploaded by

Copyright:

Available Formats

En general, para que un mtodo estadstico sea clasificado como no paramtrico debe satisfacer al menos una de las siguientes

Si el nivel de medicin de datos es de

En casos en los que los datos son nominales

PRUEBA DEL SIGNO

Ejemplo: Una empresa produce el jugo de naranja con marca

Caso de muestra grande

Forma de la distribucin aproximadamente normal, siempre y cuando n > 20.

= 0.50 n = 0.50 (175) = 87.5

x 72 87.5 z= = = 2.35 6.6

Prueba de supuesto acerca de una mediana

= 0.50 n = 0.50 (60) = 30

Con x = 34, el nmero de signos positivos, el estadstico de prueba es:

Usamos una prueba bilateral con nivel de significancia

Prueba de rango con signo de Wilcoxon

Lugar (rango) 8 2 3.5 5.5 3.5 10 1 -7 5.5 9 Suma

Forma de la distribucin: aproximadamente normal, siempre y cuando n 10

n (n + 1) (2n + 1) 10 (11) (21) = = 19.62 6 6

El valor del estadstico de prueba z es:

Caso de muestra pequea

Alumnos de colegio particular Alumno Fernndez Palomino Quispe Rodrguez Lugar 8 52 21

Lugar en la clase 8 21 52 70 112 144 146 175 202

Lugar en la muestra combinada 1 2 3 4 5 6 7 8 9

Caso de muestra grande

1025 17 975 15 Suma de rangos 169.5

Forma de la distribucin: aproximacin normal, siempre y cuando n1 10 y n2 10

Para la sucursal 1, obtenemos:

T = 1 / 2 n1 (n1 + n2 + 1) = 1 / 2 12 (12 + 10 + 1) = 138

169.5 138 = = 2.08 15.17

Estadstico para la prueba de Kruskal-Wallis

Ri : suma de los rangos en la muestra i

Lugar en Vendedor potencial A 2 B 4 C 7 D 1 E 6 F 3 G 10 H 9 I 8 J 5

Lugar, segn ventas en 2 aos 1 3 5 6 7 4 10 8 9 2

xi = Lugar en Vendedor potencial A 2 B 4 C 7 D 1 E 6 F 3 G 10 H 9 I 8 J 5

yi = Lugar, en desempeo de ventas 1 3 5 6 7 4 10 8 9 2

6 ( 44) rs = 1 = 1 = 0.73 2 n ( n 1) 10 (100 1)

Prueba para correlacin de rango significativa

Forma de la distribucin: aproximadamente normal, siempre y cuando n >= 10

Luego, el estadstico de prueba ser:

0.73 0 = = 2.21 0.33

You might also like