Variables cualitativas (y también v.a.

discretas o
continuas agrupadas en intervalo).
Tres usos de esta distribución:

-Test de Ajuste de distribuciones:
Es un contraste de significación para saber si los datos
de una muestra son conformes a una ley de
distribución teórica que sospechamos que es la
correcta.

-Test de homogeneidad de varias muestras cualitativas:
Sirve para contrastar la igualdad de procedencia de un
conjunto de muestras de tipo cualitativo.

-Test para tablas de contingencia:
Es un contraste para determinar la dependencia o
independencia de caracteres cualitativos

una regla más flexible y que no sacrifica demasiada precisión
1. Para ninguna clase ocurre que


2. para casi todos los , salvo a lo sumo
un de ellos.

Figura: Región crítica (sombreada) para un contraste con el estadístico .
Como sólo son los valores grandes de los que nos llevan a
rechazar H
0
, la región crítica es:
Puntos importantes:
• Solamente toma valores
positivos.
• Tiene asimétrica positiva.
• A medida que aumentan los
grados de libertad, la curva es
menor elevada y mas extendida
a la derecha.
• Los datos se presentan en una
tabla de contingencia filas(f) y
columnas(c).
Ejemplo:
Xi fo
1.525 1.575 1.55 12
1.575 1.625 1.60 29
1.625 1.675 1.65 30
1.675 1.725 1.70 21
1.725 1.775 1.75 9
1.775 1.825 1.80 8
1.825 1.875 1.85 2
TOTAL 111
Se desea verificar si la distribución de frecuencias mostrada a
continuación se aproxima a una distribución normal.

Los datos se refieren a la estatura en metros de 111 pacientes
del Centro Médico San Juan en Agosto del 2010
Xi fo
1.525 1.575 1.55 12
1.575 1.625 1.60 29
1.625 1.675 1.65 30
1.675 1.725 1.70 21
1.725 1.775 1.75 9
1.775 1.875 1.83 10
TOTAL 111
S
2
=
Media 1.65946
DE 0.0729
Categorías K=6
1.- Planteamiento de hipótesis

H
0
: fo = fe →Las fo provienen de una distribución Normal
H
1
: fo ≠ fe → Las fo no provienen de una distribución Normal


2.- Nivel de significancia: α= 0.01



3.- Regla de decisión
Grados de Libertad = k – m – 1= 6-2-1= 3

Donde:
k = Número de clases
m = Número de parámetros estimados
11.34
4.- Estadístico de Prueba



Encontramos los valores esperados:
• ESTANDARIZANDO
Xi fo
1.525 1.575 1.55 12
1.575 1.625 1.60 29
1.625 1.675 1.65 30
1.675 1.725 1.70 21
1.725 1.775 1.75 9
1.775 1.875 1.83 10
TOTAL 111
Xi fo < Z <
1.525 1.575 1.55 12 -1.84 -1.16
1.575 1.625 1.60 29 -1.16 -0.47
1.625 1.675 1.65 30 -0.47 0.21
1.675 1.725 1.70 21 0.21 0.90
1.725 1.775 1.75 9 0.90 1.58
1.775 1.875 1.83 10 1.58 2.96
TOTAL 111
Media 1.65946
DE 0.0729
Xi fo < Z < P( < Z < )
1.525 1.575 1.55 12 -1.84 -1.16 0.033 0.123
1.575 1.625 1.60 29 -1.16 -0.47 0.123 0.318
1.625 1.675 1.65 30 -0.47 0.21 0.318 0.584
1.675 1.725 1.70 21 0.21 0.90 0.584 0.816
1.725 1.775 1.75 9 0.90 1.58 0.816 0.944
1.775 1.875 1.83 10 1.58 2.96 0.944 0.998
TOTAL 111
Xi fo < Z < P( < Z < ) P(Z)
1.525 1.575 1.55 12 -1.84 -1.16 0.033 0.123 0.091
1.575 1.625 1.60 29 -1.16 -0.47 0.123 0.318 0.195
1.625 1.675 1.65 30 -0.47 0.21 0.318 0.584 0.266
1.675 1.725 1.70 21 0.21 0.90 0.584 0.816 0.231
1.725 1.775 1.75 9 0.90 1.58 0.816 0.944 0.128
1.775 1.875 1.83 10 1.58 2.96 0.944 0.998 0.055
TOTAL 111
Xi fo < Z < P( < Z < ) P(Z) nP(Z)
1.525 1.575 1.55 12 -1.84 -1.16 0.033 0.123 0.091 10.074
1.575 1.625 1.60 29 -1.16 -0.47 0.123 0.318 0.195 21.634
1.625 1.675 1.65 30 -0.47 0.21 0.318 0.584 0.266 29.547
1.675 1.725 1.70 21 0.21 0.90 0.584 0.816 0.231 25.672
1.725 1.775 1.75 9 0.90 1.58 0.816 0.944 0.128 14.188
1.775 1.875 1.83 10 1.58 2.96 0.944 0.998 0.055 6.098
TOTAL 111
fo fe X
2
exp
1.525 1.575 12 10.074 0.368
1.575 1.625 29 21.634 2.508
1.625 1.675 30 29.547 0.007
1.675 1.725 21 25.672 0.850
1.725 1.775 9 14.188 1.897
1.775 1.875 10 6.098 2.497
TOTAL 111 8.128
entonces , luego no se puede rechazar H
0
a la
vista de los datos, el que estos provengan de una población normal.
5.- Comparación del valor experimental con tabular
6.- Decisión
Existe suficiente evidencia estadística para aceptar que
los datos sobre estatura en metros de los pacientes del
Centro Médico San Juan en Agosto del 2010 provienen de
una distribución normal


= 8,128
= 11.34
La prueba en el contraste de
independencia de variables aleatorias
cualitativas
Si dos variables cualitativas están o no asociadas,
viendo si son dependientes o no.
Utilizaremos las tablas de Contingencia

Para lo que utilizaremos el estadístico de prueba:
 

 


r
i
k
j
ij
ij ij
E
E O
1 1
2
2

Es así un test no dirigido (test de planteamiento bilateral), que nos
indica si existe o no relación entre dos factores pero no en qué
sentido se produce tal asociación
Tabla 3. Tabla de contingencia para estudiar la asociación entre
fumar durante la gestación y el bajo peso del niño al nacer.
Valores observados y valores esperados (entre paréntesis) si los
factores fuesen independientes.
Recién nacido de bajo peso
Gestante Sí No Total
Fumadora 43 207 250
No fumadora 105 1645 1750
Total 148 1852 2000
1.- Planteamiento de hipótesis
H
0
: El bajo peso del niño y el hecho de fumar durante
la gestación son INDEPENDIENTES.
(no están asociados)

H1: El bajo peso del niño y el hecho de fumar durante
la gestación no son INDEPENDIENTES, (están asociados)

2.- Nivel de significancia: α= 0.05
Tabla 3. Tabla de contingencia para estudiar la asociación entre
fumar durante la gestación y el bajo peso del niño al nacer.
Valores observados y valores esperados (entre paréntesis) si los
factores fuesen independientes.
Recién nacido de bajo peso
Gestante Sí No Total
Fumadora 43 (18.5) 207 (231.5) 250
No fumadora 105 (129.5) 1645 (1620.5) 1750
Total 148 1852 2000
3.- Regla de decisión
Grados de Libertad =(Filas-1)x(Columnas-1)
= (2-1)X(2-1) = 1

3.84
Tabla 3. Tabla de contingencia para estudiar la asociación entre
fumar durante la gestación y el bajo peso del niño al nacer.
Valores observados y valores esperados (entre paréntesis) si los
factores fuesen independientes.
Recién nacido de bajo peso
Gestante Sí No Total
Fumadora 43 207 250
No fumadora 105 1645 1750
Total 148 1852 2000
Valores observados.
Tabla 3. Tabla de contingencia para estudiar la asociación entre
fumar durante la gestación y el bajo peso del niño al nacer.
Valores observados y valores esperados (entre paréntesis) si los
factores fuesen independientes.
Recién nacido de bajo peso
Gestante Sí No Total
Fumadora 43 (18.5) 207 250
No fumadora 105 1645 1750
Total 148 1852 2000
Tabla 3. Tabla de contingencia para estudiar la asociación entre
fumar durante la gestación y el bajo peso del niño al nacer.
Valores observados y valores esperados (entre paréntesis) si los
factores fuesen independientes.
Recién nacido de bajo peso
Gestante Sí No Total
Fumadora 43 (18.5) 207 (231.5) 250
No fumadora 105 1645 1750
Total 148 1852 2000
Tabla 3. Tabla de contingencia para estudiar la asociación entre
fumar durante la gestación y el bajo peso del niño al nacer.
Valores observados y valores esperados (entre paréntesis) si los
factores fuesen independientes.
Recién nacido de bajo peso
Gestante Sí No Total
Fumadora 43 (18.5) 207 (231.5) 250
No fumadora 105 (129.5) 1645 (1620.5) 1750
Total 148 1852 2000
Valores esperados.
   
n
c a b a
E
  

11
   
n
c a d c
E
  

21
   
n
d b b a
E
  

12
   
n
d b d c
E
  

22
5 , 18
2000
250 148
11


 E
5 , 231
2000
250 1852
12


 E
5 , 129
2000
1750 148
21


 E
5 , 1620
2000
1750 1852
22


 E
       
04 , 40
5 , 1620
5 , 1620 1645
5 , 129
5 , 129 105
5 , 231
5 , 231 207
5 , 18
5 , 18 43
2 2 2 2
2








 
4.- Estadístico de Prueba : Frecuencias marginales
entonces , luego se puede rechazar la hipótesis
nula.
5.- Comparación del valor experimental con tabular
6.- Decisión

Existe suficiente evidencia estadística para afirmar al 5%
de significancia que el bajo peso del niño y el hecho de
fumar durante la gestación no son independientes, estan
asociados

Use 5%
La práctica de deporte es independiente
el riesgo de tener depresión. 5%
La prueba en el contraste de
homogeneidad de variables aleatorias
cualitativas
Dos variables cualitativas para comparar sus
proporciones.Utilizaremos las tablas de
Contingencia

Para lo que utilizaremos el estadístico de prueba:
 

 


r
i
k
j
ij
ij ij
E
E O
1 1
2
2

=
Ejemplo
Se desea saber si la distribución de los grupos sanguíneos es
similar en individuos de dos poblaciones.






¿Qué conclusiones pueden obtenerse de estos datos si se usa
un nivel de significación del 5%
Frec
Observ
A B AB O
Muestra 1 90 80 110 20
Muestra 2 200 180 240 30
1.- Planteamiento de hipótesis

H
0
: Las poblaciones se distribuyen en forma homogenea.
(La variable se distribuye igualmente en ambas
poblaciones).

H
1
: Las poblaciones no se distribuyen en forma homogenea.
(La variable se distribuye igualmente en ambas
poblaciones).

2.- Nivel de significancia: α= 0.05
3.- Regla de decisión
Grados de Libertad = (Filas-1) x (Columnas-1)
= (2-1)(4-1)= 1x3= 3

7.81
4.- Estadístico de Prueba: Frecuencias Marginales
A B AB O TOTAL
M 1 90 91.58 80 82.11 110 110.53 20 15.79 300
M 2 200 198.42 180 177.9 240 239.47 30 34.21 650
290 290.00 260 260.00 350 350.00 50 50.00 950
 

 


r
i
k
j
ij
ij ij
E
E O
1 1
2
2
 = 1.76
entonces , luego no se puede rechazar la
hipótesis nula.
5.- Comparación del valor experimental con tabular
6.- Decisión
Existe suficiente evidencia estadística para no rechazar
que exista una distribución homogénea del grupo sanguíneo
en ambas poblaciones.