You are on page 1of 35

Prueba

Cuadrado

nellypillhuaman@gmail.com

Estn relacionados los hbitos de lectura con el sexo del lector? Estn relacionadas las calificaciones obtenidas con el nmero de faltas? Es independiente la opinin sobre la poltica exterior de la poltica partidista? Es independiente el sexo de una persona de su preferencia en colores? Est relacionado el sexo con tener una educacin universitaria?

Son independientes el tamao de una familia y el nivel de educacin de los padres? Est relacionado el desempleo incremento de la criminalidad? con el

El precio est asociado con la calidad de un producto electrodomstico? El estado nutricional esta asociado con el desempeo acadmico? Estn relacionadas las enfermedades del corazn con el tabaquismo?

Objetivo
El objetivo general de este tpico es que se comprenda las dos tcnicas estadsticas empleadas para analizar datos categricos, con lo cual podr: Analizar datos usando la prueba de Ji cuadrado de independencia Comprender la prueba ji cuadrado de bondad de ajuste y cmo usarla Usar la prueba homogeneidad Ji cuadrado para

PRUEBA CHI CUADRADO

U N A V A R IA B L E

D O S V A R IA B L E S

P R U E B A D E B O N D AD D E AJU S TE

PRUEBA DE IN D E P E N D E N C IA

PRUEBA DE H O M O G E N E ID A D

Prueba de Independencia, Se usa para analizar la frecuencia de dos variables con categoras mltiples para determinar si las dos variables son independientes o no. Por ejemplo: El tipo de refresco preferido por un consumidor es independiente de su grupo etreo? El estado nutricional esta asociado con el desempeo acadmico?

determinar si la regin geogrfica es independiente del tipo de inversin financiera? La prueba Chi cuadrado de independencia es particularmente til para analizar datos de variables cualitativas nominales.

Los datos de variables cualitativa o categricas representan atributos o categoras y se organizan en tablas llamadas tablas de contingencia o tablas de clasificacin cruzada.

Tabla de contingencia

Una Tabla de contingencia con r filas y c columnas tiene la siguiente forma:

Donde: Oi j : es el nmero de sujetos que tienen las caractersticas Ai y Bj a la vez. Ri : (i = 1,,r) es la suma de la i-sima fila de la tabla. Es decir, es el total de sujetos que poseen la caracterstica Ai. Cj :(j = 1,,c) es la suma de la j-sima columna de la tabla. Es decir, es el total de sujetos que poseen la caracterstica Bj. n : representa el total de observaciones tomadas.

La pregunta es: Existir o no relacin entre las variables A y B?, es decir, si A y B son o no independientes. Formulacin de hiptesis:
Hiptesis nula (H0) : Las variables X e Y son independientes, ( X e Y no estn relacionadas) Hiptesis alternativa (H1) : Las variables X e Y no son independientes, (X e Y estn
relacionadas)

Pruebas de Independencia La estadistica Ji-Cuadrado esta dado por:


2 =
i =1 j=1 r c

(O ij E ij ) 2 E ij

donde Oij : es la frecuencia observada de la celda que est en la fila i, columna j,


Eij = Ri * C j n

es la frecuencia esperada de

la

celda (i, j).

La frecuencia esperada es aquella que debe ocurrir para que la hiptesis nula sea aceptada. La prueba estadstica se distribuye como una Ji-Cuadrado con (r-1)*(c-1) grados de libertad.
2 2 alc > La hiptesis Nula se rechaza si , c 1

o equivalentemente si el p-value es menor que (prefijado)

Ejemplo:
Se toma una muestra aleatoria de 2200 familias y se les clasifica en una tabla de doble entrada segn su nivel de ingresos (alto, medio o bajo) y el tipo de colegio a la que envan sus hijos. La siguiente tabla muestra los resultados obtenidos:
TIPO DE COLEGIO
INGRESOS

TOTAL 1000 600 600 2200

PRIVADO 506 438 215 1159

PBLICO 494 162 385 1041

Alto Medio Bajo


TOTAL

A un nivel de significancia del 1% hay razn para creer que el ingreso y el tipo de colegio no son variables independientes?

Primero: ingresar los datos: ya tabulados de la siguiente manera

Segundo: ponderar las frecuencias, de la siguiente forma:

Tercero: realizar el proceso de pedido de la prueba Chi cuadrado

Solucin:
Las hiptesis a plantearse son las siguientes: Ho: No hay relacin entre el ingreso y el tipo de colegio H1: Si hay relacin entre el ingreso y el tipo de colegio.
Tabla de contingencia Tipo_Col * Clase_soc Clase_soc 2.00 Tipo_Col 1.00 2.00 Total Recuento Frecuencia esperada Recuento Frecuencia esperada Recuento Frecuencia esperada Pruebas de chi-cuadrado Valor 169.429a 174.511 16.917 2200 gl 2 2 1 Sig. asinttica (bilateral) .00 0 .00 0 .00 0 1.00 506 438 316.1 162 283.9 600 600.0 3.00 215 385 283.9 600 600.0 Total 1159 1159.0 1041 1041.0 2200 2200.0 526.8 494 473.2 1000 1000.0 316.1

Chi-cuadrado de Pearson Correccin por continuidad Razn de verosimilitudes Asociacin lineal por lineal N de casos vlidos

a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 283.91.

Interpretacin: Como el Pvalue es menor que 0.01 se puede concluir que hay relacin entre el nivel de ingreso y el tipo de colegio.

Ejemplo
El uso de bebida ordenado con alimentos en un restaurante es independiente de la edad del consumidor? Se toma una muestra aleatoria de 309 clientes del restaurante de donde resulta el siguiente cuadro de valores observados. Utilice alfa = 0.01 para determinar si las dos variedades son independientes.
Edad 21-34 35-35 >55 Caf/t 26 41 24 Refresco 95 40 13 Leche 18 20 32

Solucin
1.- Planteamiento de hiptesis Ho : El tipo de bebida preferida es independiente de la edad H1 : El tipo de bebida preferida esta relacionada con la edad
2.- Estadstico de Prueba

2
3.- Nivel de significacin: = 0.01

( fo fe )2 fe

Tabla d e c on tin g en c ia Ed ad * B ebid a Be bida C a f /T Ed ad 21 -34 R e cu e nto Fre cue n cia esp erad a 35 -4 5 R e cu e nto Fre cue n cia esp erad a > =5 5 Total R e cu e nto Fre cue n cia esp erad a R e cu e nto Fre cue n cia esp erad a 26 43.8 41 31 .8 24 15 .4 91 91 .0 R e fresco 95 71 .2 40 51 .7 13 25 .1 14 8 1 48 .0 Le ch e 18 24.0 20 1 7.5 12 8.5 50 5 0.0 To ta l 1 39 1 39 .0 1 01 1 01 .0 49 4 9.0 289 289 .0

P r u eb as d e c h i-c u ad r ad o V a lo r C h i-c u a d r a d o d e P e a r 3 4 .4 3 8 son R a z n d e v e r o s im ilitu d3e s.4 4 1 5 A s o c ia c i n lin e a l p o r lin e a l N d e c a s o s v lid o s 3 .7 4 5 28 9


a

gl 4 4 1

S ig . a s in t tic a ( b ila te r a l) .0 0 0 .0 0 0 .0 5 3

a .0 c a s illa s ( .0 % ) tie n e n u n a fr e c u e n c ia e s p e r a d a L a fr e c u e n c ia m n im a e s p e r a d a e s 8 .4 8 .

Decisin
Las dos variables, bebida preferida y edad, no son independientes. El tipo de bebida que un cliente ordena con alimentos est relacionada con la edad y depende de est.

HOMOGENEIDAD Se extraen Muestras Independientes de varias poblaciones y se prueban para ver si son homogneas con respecto a algn criterio de clasificacin. Un conjunto de Totales Marginales Son Fijos mientras que los otros marginales son Aleatorios.

Ejemplo
Con el fin de probar la efectividad de una vacuna contra cierta enfermedad, se realizo un experimento observando a 200 personas, 110 de ellas vacunadas y las otras 90 sin vacunar. Presentan los datos evidencia suficiente como para indicar que la proporcin de personas vacunadas que contrajeron la enfermedad no es la misma que la proporcin de personas que no se vacunaron y que contrajeron la enfermedad Los resultados obtenidos se muestran en el siguiente cuadro.
Contrajeron Enf. 9 4 No contrajeron la enf. 101 86

Datos

Vacunados No vacunados

1.- Planteamiento de hiptesis Ho: P1 = P2 H1 : P1 diferente de P2 donde: P1 = Proporcin de vacunados que contraen la enfermedad P2 = Proporcin de no vacunados que contraen la enfermedad
Resultados:

Resultados
Tabla de contingencia Vacunados * Enferm Enferm Contrajo Vacunados Si No Total Recuento Frecuencia esperada Recuento Frecuencia esperada Recuento Frecuencia esperada 9 7.2 4 5.9 13 13.0 No contrajo 101 102.9 86 84.2 187 187.0 Total 110 110.0 90 90.0 200 200.0

Pruebas de chi-cuadrado Valor 1.138 b .606 1.175 gl 1 1 1 Sig. asinttica (bilateral) .286 .436 .278 .391 1.132 200 1 .287 .220 Sig. exacta (bilateral) Sig. exacta (unilateral)

Chi-cuadrado de Pearson Correccin por a continuidad Razn de verosimilitudes Estadstico exacto de Fisher Asociacin lineal por lineal N de casos vlidos

a. Calculado slo para una tabla de 2x2. b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 5.85.

Decisin
Como p-valor =0.286 es mayor que 0.05 (alfa) podemos indicar que no existe suficiente evidencia para aceptar que hay diferencias entre las proporciones P1 y P2

Prueba de Bondad de Ajuste


Los procedimientos de prueba de hiptesis que se han presentado en captulos anteriores estn diseados para problemas en los que se conoce la poblacin o o distribucin de probabilidad, y la hiptesis involucra los parmetros de la distribucin. A menudo se encuentra otra clase de hiptesis: no se sabe cul es la distribucin de la poblacin, y se desea probar la hiptesis de que una distribucin en particular ser un modelo satisfactorio de la poblacin. Por ejemplo: Probar la hiptesis de que la poblacin tiene comportamiento normal, Poisson,.exponencial etc.

El procedimiento general para realizar la prueba es: 1.- Formulacin de la hiptesis Ho: Los datos de la muestra se ajustan a la distribucin terica escogida H1: Los datos de la muestra no se ajustan a la distribucin terica escogida 2.- Fijar el nivel de significacin
k 3.- La estadstica de prueba (Oi Ei ) 2 donde: 2 = Ei = npi Ei i =1 Oi = observado p = nmero de parmetros estimados a partir de la muestra K = nmero de categoras o clases pi = probabilidad

4.- Determinar la regin crtica: rechazar Ho si: caso contrario no se rechaza

2lc >2 , k p c a 1 1

5.- Decisin y conclusin Nota: si alguna frecuencia esperada es menor que 5, se debe eliminar esa clase, Y sumar la frecuencia observada a una clase contigua.

BONDAD DE AJUSTE

Se utiliza para la comparacin de la distribucin de una muestra con alguna distribucin terica que se supone describe a la poblacin de la cual se extrajo. Ho : La variable tiene comportamiento normal H1 : La variable no tiene comportamiento normal

Ejemplo:
Los siguientes porcentajes provienen de una encuesta nacional sobre las edades de compradores de msica pregrabada. Una encuesta local produjo los valores y la evidencia de los datos observados, indica que debemos rechazar la distribucin de la encuesta nacional para compradores locales de msica pregrabada? Utilice alfa=0.01

Solucin:
Ho H1 : : La variable edad tiene comportamiento normal La variable edad no tiene comportamiento normal
edad N observado 23 9 14 10 22 78 N esperado 15.6 15.6 15.6 15.6 15.6 Residual 7.4 -6.6 -1.6 -5.6 6.4
Estadsticos de contraste edad Chi-cuadrado gl Sig. asintt.
a

15-19 20-24 25-29 30-34 >=35 Total

11.103 4 .025

a. 0 casillas (.0%) tienen frecuencias esperadas menores que 5. La frecuencia de casilla esperada mnima es 15.6.

Resultados Como p-valor es 0.025 es menor que 0.05, rechazamos la hiptesis nula. Es decir, la variable edad no tiene comportamiento normal.

You might also like