Professional Documents
Culture Documents
AUTORES
Gloria Herrera
Vicerrectora Académica
Inferencia Estadística
Primera Versión
Copyright
Universidad Nacional Abierta y a Distancia
ISBN
2008
2
TABLA DE CONTENIDO
3
- 5.3. Prueba de Kolmogorov-Smirnov 180
- 5.4. Prueba de Wilcoxon 183
- 5.5. Prueba de Mann-Whitner 185
- 5.6. Prueba de Kruskal-Wallis 186
- 5.7. Introducción a la Inferencia Bayesiana 188
- Glosario 192
- Bibliografía 194
4
UNIDAD UNO
5
CAPITULO UNO
1. PRINCIPIOS DE MUESTREO
Introducción.
Otro aspecto que justifica la decisión de tomar una muestra es en casos donde se debe destruir
los elementos de ésta, por ejemplo cuando se desea identificar el grado de vacío de un
producto enlatado, la resistencia de un material y otros.
Objetivo general.
Que los estudiantes identifiquen los principios sobre población y muestra, métodos de
muestreo, distribución de muestreo para medias, el teorema central del límite, aplicados al
cálculo de tamaños de muestras pertinentes.
Objetivos específicos.
6
determinar la confiabilidad de la inferencia de que los fenómenos observados en la muestra
ocurrirán también en la población de donde se seleccionó la muestra. Es decir, sirve para
estimar la eficacia del razonamiento inductivo con el cual se infiere que lo observado en una
parte será equivalente a lo observado en la población.
Las técnicas de muestreo son importantes en la medida que se utilice en forma adecuada para
la situación que se requiera. De las técnicas más conocidas y utilizadas se tienen el Muestro
Aleatorio Simple (M.A.S), Muestreo Aleatorio Estratificado (M.A.E), Muestro Sistemático
(M.S) y Muestreo por Conglomerados (M.C). Se tratara de analizar estas técnicas,
especialmente el M.A.S y M.A.E
El éxito en el desarrollo del curso en mención está en los buenos conocimientos previos en
Estadística Descriptiva, Probabilidad y, Álgebra, Trigonometría y Geometría analítica. Lo
anterior debido a que se debe predecir resultados o tomar decisiones que tienen un grado de
incertidumbre o un grado de error que se debe definir de antemano.
Existe una serie de términos estadísticos básicos, que son muy utilizados y se requiere sean
comprendidos para avanzar en otros temas o unidades, en esta sección se tratarán los
conceptos de población y muestra.
POBLACIÓN O UNIVERSO
Se considera a todo aquello sobre el que se desea hacer un estudio estadístico. Según el
número de unidades, elementos o casos que la constituyen, la población puede ser finita o
infinita.
Cuando el número de unidades que integra una población es muy grande, se puede considerar
a ésta como una población infinita. La población finita es aquella conformada por un
determinado o limitado número de elementos. El investigador define la población objeto de
estudio en términos de espacio y tiempo, ya que de esta manera los resultados serán sobre la
población definida en el espacio demarcado y en el tiempo definido. Por ejemplo que
podemos decir de las siguientes poblaciones:
- Estudiantes del Programa de Ingeniería de Sistemas
7
- Estudiantes del programa de ingeniería de sistemas de la UNAD
- Estudiantes del programa de Ingeniería de sistemas en la UNAD de los años
2.005, 2.006 y 2.007
¿Cual de esas poblaciones estará mejor definida? Analícelo con su grupo colaborativo y
realicen las observaciones al respecto.
MUESTRA
Entre los motivos que inducen a tomar una muestra aleatoria están:
n = Tamaño de la muestra
X Promedio Muestral
S 2 Varianza Muestral
S Desviación estándar Muestral
ˆ Total Estimado
p = Proporción Muestral
8
UNIDADES DE MUESTREO:
Las unidades de muestreo son conjuntos disjuntos, cuya unión conforman la población
completa. Por ejemplo en un censo poblacional los hogares conforman las unidades de
muestreo, en un estudio sobre la vida útil de las llantas de un automóvil, el auto será la unidad
de muestreo.
UNIDAD DE OBSERVACIÓN:
Son los elementos que se miden; es decir, sobre los que se toman los datos de las variables a
medir. En el caso de los hogares, la unidad de observación serán las personas y en el caso de
las llantas del automóvil, cada una serán las unidades de observación.
MARCO DE MUESTREO:
ERROR DE MUESTREO:
En estadística se sabe que existen diferencias entre lo que se obtuvo en el estudio y lo que se
esperaba. En el proceso de estimación es poco probable que la media Muestral sea idéntica a
la media poblacional, igual para la varianza y la desviación estándar. El error de muestreo es
la diferencia entre el estadístico y el parámetro.
ˆ
Es el parámetro y ˆ es el estadístico.
ERROR TOLERABLE:
Se considera el error tolerable al error máximo que se está dispuesto a aceptar y aún
considerar que el muestreo ha alcanzado su objetivo. En todo estudio estadístico siempre se
considera un error tolerable, partiendo del principio que a menor error tolerable, mayor será el
tamaño de la muestra. Si es el parámetro y ˆ es el estadístico, el error tolerable está
determinado por B, donde:
error ˆ B
ERRORR ESTANDAR
La desviación estándar de una distribución, en el muestreo de un estadístico, es
frecuentemente llamada el error estándar del estadístico. Por ejemplo, la desviación estándar
de las medias de todas la muestras posibles del mismo tamaño, extraídas de una población, es
llamada el error estándar de la media. De la misma manera, la desviación estándar de las
proporciones de todas las muestras posibles del mismo tamaño, extraídas de una población, es
llamada el error estándar de la proporción. La diferencia entre los términos “desviación
9
estándar” y “error de estándar” es que la primera se refiere a los valores originales, mientras
que la segunda está relacionada con valores calculados.
ESTADÍSTICO
Un estadístico es una medida usada para describir alguna característica de una muestra , tal
como una media aritmética, una mediana o una desviación estándar de una muestra.
PARAMETRO
Una parámetro es una medida usada para describir alguna característica de una población, tal
como una media aritmética, una mediana o una desviación estándar de una población.
Cuando los dos nuevos términos de arriba son usados, por ejemplo, el proceso de estimación
en inferencia estadística puede ser descrito como el proceso de estimar un parámetro a partir
del estadístico correspondiente, tal como usar una media muestral (un estadístico) para estimar
la media de la población (un parámetro).
E todo estudio de muestreo se debe definir las etapas que permiten su desarrollo.
Marco de Muestreo: Establecimiento de una metodología para identificar los elementos que
estarán en el muestreo, sus características y el modelo que los identifica.
Identificación de Variables: Es pertinente identificar las variables de estudio, para así definir
la forma de medición que se haría.
Tamaño de la Muestra: Por medio del modelo de muestreo pertinente seleccionar la muestra
representativa, sobre la que se realizarán las mediciones.
Unidad de Muestreo: Se debe extraer las unidades de muestreo según el modelo definido que
determinan las n unidades maestrales de la población N.
Trabajo de Campo: Son todas las acciones necesarias para obtener la información, definiendo
los costos, desplazamientos, herramientas física y logísticas para su realización.
Resultados: Con el proceso desarrollado sobre los datos obtenidos, se procede a la emisión de
los resultados y la confrontación con las metas propuestas para verificar el grado de eficiencia
del trabajo realizado. Es pertinente saber presentar los resultados, ya que un buen trabajo que
no se presente de la mejor manera, quedaría oscuro en su información.
10
TIPOS DE SELECCIÓN DE MUESTRAS
Selección con Reemplazamiento: Consiste en que los elementos seleccionados una vez
medidos vuelven a la muestra, lo que hace que el espacio Muestral permanezca constante. Por
lo anterior la ocurrencia de un evento no afecta la ocurrencia de otro, por lo que los eventos
se consideran independientes.
Ejemplo:
Si en una bolsa se tiene 4 bolas blancas y 5 bolas negras. Cual será la probabilidad que al
seleccionar dos bolas estas sean blancas.
Solución:
4
La probabilidad de que la primera sea negra es: P ( x1 negra )
9
4
A probabilidad de que la segunda sea negra es: P ( x 2 negra )
9
Selección sin Reemplazamiento: Los elementos elegidos una vez la medición, estos NO
vuelven a la muestra, lo que hace que el espacio muestral cambie a medida que se van tomado
elementos de la muestra.
Ejemplo:
Si en una bolsa se tiene 4 bolas blancas y 5 bolas negras. Cual será la probabilidad que al
seleccionar dos bolas estas sean blancas, la selección es sin reemplazamiento
Solución:
Ejemplo:
Solución:
Para los propósitos de esta selección, los valores podrían ser el número de las personas que
viven en cada una de cuatro unidades habitacionales que constituyen una población. Se
realizará una comparación entre el muestreo aleatorio con y sin reemplazamiento para una
muestra de tamaño n = 2. Primero se listan todas las posibles muestras no ordenadas de
tamaño n = 2.
11
Podemos observar que cualquier muestra que se pueda obtener en muestreo sin
reemplazamiento, también es posible obtenerla con reemplazamiento. Sin embargo, las
muestras que contienen valores repetidos no se pueden obtener al realizar el muestreo sin
reemplazamiento. Dado que al medir una unidad más de una vez no se está obteniendo
información adicional, es de esperase que con un muestreo sin reemplazamiento tiende a
recogerse mas información sobre la población de la que puede obtenerse con muestreo
Por otra parte, en problemas comerciales diarios y en la toma de decisiones que a falta de
tiempo no permiten diseñar métodos de muestreo probabílistico hay que recurrir a este tipo de
muestreo, donde el investigador conoce la población.
En este método la persona por experiencia y capacidad selecciona a los individuos u otros
elementos de la población, que supone son los más representativos de esa población. Por
ejemplo un reportero puede muestrear uno o dos senadores, por considerar que ellos reflejan la
opinión general de todos.
12
MUESTREO CAUSA – EFECTO
Se realiza cuando no hay una población definida y se requiere tomar elementos para el estudio
en cuestión, caso por el cual se toman los elementos disponibles.
Cuando es necesario obtener una cantidad dada de elementos que constituyen una muestra
proporcional a la población, se toman elementos hasta cubrir dicha cuota. El caso de tomar
una cantidad de carros en una esquina para hacer un estudio sobre accidentalidad en dicho
sitio.
a-) se pueda definir un conjunto de muestras M1, M2, M3,… posibles derivados del proceso de
selección propuesta. Así se puede identificar qué unidades de muestreo pertenecen a la
muestra M1, M2,…
b-) A cada muestra posible le debe corresponder una probabilidad de selección conocida P(S).
c-) El proceso de selección garantiza que todos los elementos de la población tienen una
probabilidad P(yi)>0 de ser elegido en alguna muestra.
d-) La selección es un proceso aleatorio que garantiza que cada muestra S tenga una
probabilidad P(S) de ser elegida.
13
El marco de muestreo corresponde a la lista codificada de todas las observaciones que hacen
parte de la población. La muestra se elige de tal manera que cada observación tiene la misma
probabilidad de ser elegida, la elección de una observación NO tiene influencia sobre la
elección de otra. Es de aclarar que en el M. A. S. La unidad de muestreo es igual a la unidad
de observación.
a). Tabla de números aleatorios: (Ver tabla siguiente). Se enumeran las unidades que
conforman la población objetivo de estudio, partiendo desde 01 hasta 99, desde 001 hasta 999,
y así sucesivamente, dependiendo del tamaño poblacional. Luego se define el tamaño de la
nuestra y como los elementos de la población están listados y codificados, entonces se
establece un punto de partida: Columna – Fila y se van leyendo ya sea horizontal o
verticalmente los números de la tabla hasta completar el tamaño de la muestra.
Ejemplo 1:
Se desea obtener una muestra aleatoria de tamaño n = 10, los elementos de la población están
codificados de 1 a 200.
Solución:
n = 100, 007, 141, 151, 142, 128, 146, 042, 156, 134
Ejemplo 2:
Obtengamos una muestra aleatoria de 6 elementos de una población cuyos elementos están
codificados de 01 a 50.
Solución:
Elegimos el punto de inicio de la fila 08 y columna 67890. Lectura del primer dígito y lectura
vertical.
n = 9, 5, 1, 3, 7, 8.
14
Fuente: Web
Este método de selección permite que todos los elementos que constituyen la población tengan
la misma posibilidad de ser incluidos en la muestra. Los elementos se escogen en forma
individual y aleatoriamente de la totalidad de la población. Esta selección puede ser sin
15
reemplazamiento, similar a la que se realiza en la extracción aleatoria de números en el juego
denominado “Baloto”. Cada elemento que constituye la muestra se selecciona una sola vez,
denominándose extracciones sin reposición.
En otras ocasiones, cada elemento puede ser elegido más de una vez en la misma muestra,
como por ejemplo, cuando se selecciona aleatoriamente el número ganador de una lotería,
que puede ocurrir ser el mismo número; en estos casos se dice que las extracciones son
realizadas con reposición.
b). Programa de Computador: Utilizando el programa Excel que es el más común se puede
desarrollar números aleatorios de la siguiente manera:
Sintaxis para
obtener números
aleatorios de una
población de 1.000
observaciones
Al dar clic se genera el primer numero aleatorio y desplegando se obtiene los que se desea.
Primer numero
aleatorio.
Se despliega
desde la parte
inferior derecha
hasta completar
20 elementos
De esta manera se obtiene los números aleatorios que se requieren para tomar la muestra
aleatoria de la población objeto de estudio. Si se vuelve a hacer el proceso, se obtendrán
nuevos números y cada que se realice un nuevo proceso, se generarán diferentes números; esto
por lo de Aleatorio.
16
c). Método de Fan Muller: Se definen los números aleatorios î1, î2, î3,… independientes
bajo la distribución uniforme u (0,1). Si îk=1 < n / N. (Siendo N el tamaño de la población y n
el tamaño de la muestra), entonces k = 1 es seleccionado para la muestra, en otro caso no.
Para los siguientes números k = 2, 3, 4,…, nk los seleccionados deben cumplir
n nk
k
N k 1
el proceso termina cuando nk = n. N – k + 1 es el marco muestral; es decir, el tamaño
disponible. Los îk son generados bajo la distribución uniforme y se comparan con (n – nk) /
(N – k + 1).
Estimación en el M.A.S.
Estimación de la Media Poblacional (µ): Al seleccionar una muestra aleatoria por M.A.S.
1 n
sin reemplazamiento y pesos iguales, se tiene que: x xi Para i = 1, 2, 3, … , n
n i 1
A partir de lo anterior, se puede decir que la media muestral es un estimador insesgado y de
mínima varianza de la media poblacional.
Definición:
El valor esperado de la media muestral es la media
poblacional E( X )
Varianza del Estimador: El valor de X indicará muy poco sobre al menos que se evalúe la
bondad del estimador. Esto quiere decir que se debe fijar un límite sobre el error de
estimación, lo que se hace a partir de la varianza del estimador.
Cuando se conoce la varianza poblacional, la varianza del estimador para poblaciones finitas
es de la forma:
2 N n
V (X ) Recordemos que N = Población y n = Muestra
n N 1
17
s2 N n N n
V (X ) Donde Es el factor de corrección para poblaciones finitas.
n N N
N n N
Este factor se pude despreciar si: 0,95 o cuando n
N 20
Cuando se tiene poblaciones infinitas, la varianza estimada del estimador es de la forma:
s2
V (X )
n
Ejemplo 1:
Se tiene una población de elementos N = [2, 4, 6, 8], se desea tomar una muestra aleatoria de
un elemento, hallar y 2
Solución:
Por definición: E ( x) xp( x) Como x = 2, 4, 6, 8 y p(x) = ¼ Entonces:
(2 5) (1 / 4) (4 5) (1 / 4) (6 5) (1 / 4) (8 5) 2 (1 / 4) 5
2 2 2 2
Ejemplo 2:
Del ejemplo uno, tomar muestras de tamaño dos sin reemplazamiento y calcular y 2
Solución:
N N! 4! 24
El número de muestras es: 6
n n!( N n )! 2!( 4 2)! 2 * 2
s2
MUESTRA P(xi) x V (x )
n1: (2, 4) 1/6 3 2 ½
n2: (2, 6) 1/6 4 8 2
n3: (2, 8) 1/6 5 18 9/2
n4: (4, 6) 1/6 5 2 ½
n5: (4, 8) 1/6 6 8 2
n6: (6, 8) 1/6 7 2 ½
18
1 1 1 1
x x i ( 2 4) 3 s2 ( x i x ) 2 ( 2 3) 2 ( 4 3) 2 2
2 2 2 1 1
242 1
V (x) Así para las otras muestras.
2 4 2
i 1
5
V ( x ) (3 5) 2 (1 / 6) (4 5) 2 (1/ 6) (5 5) 2 (1 / 6) (5 5) 2 (1 / 6) (6 5) 2 (1 / 6) (7 5) 2 (1 / 6)
3
Ejemplo 3:
En un estudio se sabe que la varianza estimada del estimador es de 0,567. Se tomó una
muestra de n = (1, 3, 5) Para un nivel de significancia del 5%, hallar el límite de error de
estimación.
Solución:
Estimación del Total Poblacional (ô): Cuando de la población se obtiene una muestra
aleatoria para estudiar una característica de la primera, uno de los parámetros a obtener es el
total poblacional de la característica. Por ejemplo a partir de un número de personas se puede
estimar el total de edad de la población, o el total de peso u otra característica.
19
Si definimos a i como la probabilidad de selección del elemento i-ésimo en una muestra
n
dada n, en el M.A.S. sin reemplazamiento i se define como: i Por otro lado el total
N
n x
poblacional es estimado por el cual esta definido como: i . Al reemplazar i
i 1 i
x n n n
i Nx i xi
por su equivalente: N Nx
i 1
n i 1 n i 1 n
N
Entonces el estimador del total poblacional esta definido como:
Nx
Análogamente el total poblacional esta dado por:
N
Varianza del Estimador: Al igual que en la estimación de , el total poblacional también
requiere identificar la bondad del estimador, para sí identificar el error del estimador.
Pero cuando NO se conoce la varianza poblacional, entonces se busca la varianza estimada del
estimador.
2
2 s N n
V ( ) V ( N x ) N
n N
Error de Estimación: Al igual que en la media, el error de estimación nos permite obtener un
intervalo de confianza con un nivel de significancia á para el total poblacional.
Se sabe que B Z (1 ) V ( ) reemplazando la varianza estimada del estimador por su
2
equivalente obtenemos:
2 s2 N n
B Z (1 )
N
2
n N
Ejemplo 1:
20
Solución:
normal para una probabilidad de 0,995 el valor de Z es de 2,575 Ahora se puede calcular el
error de estimación:
B 2,575 49.333,33 571,94
Por consiguiente el total poblacional para el tiempo dedicado a tareas administrativas estará
entre 12.000 ± 571,94; es decir esta en el intervalo: (11.428,06 - 12.571,94)
Estimación del Proporción Poblacional (P): Cuando se desea obtener la proporción de una
atributo en la población, el experimento es binomial.
1 si y i tiene atributo
yi
0 si y i no tiene atributo
N
a
Los elementos que tiene el atributo son: a y i Donde yi = 1 Entonces: P
i 1 N
Pero P (proporción poblacional) se puede estimar a partir de la muestra de tamaño n por p .
p*q
Cuando n es grande, p es aproximadamente normal, donde: E ( p ) P y V ( p )
n
Para el M.A.S. el estimador de la proporción poblacional P esta dado por:
1 n
p yi
n i 1
Varianza del Estimador: De manera similar a los casos anteriores, la varianza del estimador
esta definido por la siguiente ecuación.
21
p*q p*q N n
B Z (1 )
B Z (1 )
2 n 2 n N
Ejemplo 1:
En un estudio sobre fallas que presenta una maquina empacadora, se tomo una muestra de 120
unidades de las cuales 32 presentaron fallas de sellado. Estimar la proporción de fallas en la
maquina y el error de estimación para un nivel de significancia del 5%.
Solución:
n
1 n
32
- Según los datos del problema: a y i 32 Entonces: p yi 0 , 267
i 1 n i 1 120
La proporción estimada de fallas en la maquina es del 26,7%
22
Ejemplo 1:
Solución:
Ejemplo 1:
Una compañía que hace estudios a nivel social, desea estimar el total de ingresos de una
población de 3.000 habitantes que tienen ingresos. Por estudios realizados con anterioridad se
sabe que la varianza es $40.000 ¿Cuántas personas se deben tomar para estimar el total de
ingresos si se asume un error de estimación de $100.000 y un nivel se significancia del 5%?
Solución:
23
Para hacer el estudio con un nivel de significancia del 5% se necesitan 133 personas de dicha
población.
En una ciudad se desea realizar una encuesta para determinar la proporción de habitantes que
están de acuerdo con el consumo de cigarrillo. La ciudad cuenta con 7.500 habitantes, en
estudios previos se ha determinado que por cada 100 habitantes, 15 están de acuerdo. ¿Cual
debe ser el tamaño de la muestra para estimar la proporción poblacional P de habitantes que
apoyan el consumote cigarrillo? Con un nivel de del 1% y error de estimación de 0,05.
Solución:
15
A partir de los datos: p 0,15 Entonces q 1 p 1 0,15 0,85
100
Para un nivel del 1%, Z (1 ) Z 0,995 Para una probabilidad del 0,995 el valor de Z es 2,575
2
Teniendo los datos necesarios, hallamos el tamaño de la muestra.
Z (21
)
pqN ( 2 , 575 ) 2 ( 0 ,15 )( 0 , 85 )( 7 . 500 )
2
n 2
NB Z (21 )
pq 7 . 500 ( 0 , 05 ) 2 ( 2 , 575 ) 2 ( 0 ,15 )( 0 , 85 )
2
6340 , 535
n 323 , 57
18 , 75 0 , 8454
Para hacer el estudio sobre consumo de cigarrillo en la ciudad definida, se debe tomar una
muestra de 324 habitantes, con un nivel de significancia del 1% y un error de estimación de
0,05
24
2. Muestreo Aleatorio Estratificado
Obtenidos los estratos, en cada uno se obtiene la muestra por M. A. S. para el estudio de la
variable de interés.
La justificación de seleccionar una muestra por muestreo aleatorio estratificado más que por
muestreo aleatorio simple son entre otras.
1. Evitar la obtención de muestras erróneas, tal es el caso de escoger elementos que
podrían sesgar el muestreo, por consiguiente se puede perder representatividad de la
población.
2. Obtener información precisa de ciertos subgrupos para hacer comparaciones
3. Producir un límite de error de estimación (B) más pequeño, comparado con el obtenido
en el M.A.S. para un mismo tamaño de muestra.
4. Los costos por observación en las encuestas son más reducidos ya que se evitan
desplazamientos extremos.
5. Las estimaciones se obtienen por subgrupos así los estratos se hacen identificables.
Como los elementos de los estratos son disyuntos, entonces cada unidad de muestreo
pertenece solo a un estrato. Las muestras seleccionadas en los estratos deben ser
independientes; es decir, la elegida en un estrato no debe afectar la elección de otra muestra en
otro estrato.
Para una descripción general del muestreo aleatorio estratificado y los métodos de inferencia
asociados con este procedimiento, suponemos que la población está dividida en h
subpoblaciones o estratos de tamaños conocidos N1, N2,...,Nh tal que las unidades en cada
estrato sean homogéneas respecto a la característica en cuestión.
25
Partiendo de la población o universo U cuyo tamaño es N, se definen NL estratos.
N = N1 + N2 +…+ NL
Nl = Tamaño del estrato l.
x l j = Valor de la observación j en el Estrato l.
µl = Media poblacional en el estrato l.
ó2l = Varianza poblacional en el estrato l.
ô l = Total poblacional en el estrato l.
p l = Proporción poblacional en el estrato l.
La media poblacional del estrato, la varianza poblacional del estrato, el total poblacional del
estrato y el total poblacional, se obtiene de la siguiente manera:
1 Nl 2
Nl
( xlj l ) 2 Nl L
l ljx l l x lj l
N l j 1 j 1 Nl 1 j 1 l 1
N
1 l
En cada estrato se obtiene una muestra aleatoria por M.A.S. Si tenemos el estrato l, se puede
hacer el siguiente análisis.
nl
1
xl x lj Donde x l j son los elementos j de la muestra en el estrato l
nl j 1
2
nl
( xlj xl ) 2
s
l
j 1 nl 1
nl
1
pl x lj x lj = Elementos j de la muestra en el estrato l que tienen la característica
nl j 1
Estimación en el M.A.E.
26
para el promedio poblacional requiere conocer el total de cada estrato o en su defecto un
estimador. Si definimos est como el promedio poblacional para el muestreo estratificado y a
xest como un estimador insesgado, entonces:
1 1 L
x est N 1 x1 N 2 x 2 ... N L x L Sintetizando: x est N L xL
N N l 1
Varianza del Estimador: Para el muestreo estratificado la varianza del estimador se obtiene
a partir de la varianza poblacional del estrato l ( l2 ), pero por lo general esta no se conoce,
luego se estima por medio de la varianza muestral del estrato l ( sl2 ), así se obtiene la varianza
estimada del estimador.
1 L s 2 N n l
V ( x est ) 2 N l2 l l
N l 1 n l N l
Límite de Error de Estimación: Como en el caso del M.A.S. el límite de error de estimación
para el M.A.E. esta definido como:
B Z(1 )
V (xest )
2
Ejemplo 1:
Una fábrica de productos populares desea hacer un estudio para identificar el impacto del
producto líder en una ciudad, para lo cual se estratifico la ciudad en 3 estratos, los datos
fueron los siguientes.
SECTOR Nl nl
A 155 20 33,90 5,95
B 62 8 25,12 15,25
C 93 12 19,25 9,36
Solución:
1
a) x est 155 * 33,90 62 * 25,12 93 *19,25 27,75
310
Se estima que el promedio de consumo del producto es de 28 personas.
2 2 2
1 2 (5,95) 155 20 2 (15,25) 62 8 2 (9,36) 93 12
V ( xest ) 2
(155)
20 155 (62)
8 62 (93)
12 93
310
1
V ( xest ) 37.039,86 97.327,40 54.996,92 1,97 2 (personas)2
96.100
b) Para el sector B el tamaño muestral fue de n = 8, el cual se obtuvo por medio de M.A.S.
27
Según los datos: x B B 25,12 Entonces la cantidad media de personas que consumen
el
Producto en el sector B es de 26.
Ya sabemos la filosofía del total poblacional, para el caso de muestro aleatorio estratificado,
se debe estimar el total poblacional en cada estrato, luego se suman todos los totales estimados
y así obtener el total poblacional estimado.
N L L
L
Partiendo de: l xlj N l xl Se puede llegar a: est l N l xl
nl j 1 l 1 l 1
Varianza del Estimador: Por los mismos principios del M.A.S. la varianza para el M.A.E.
cuando se conoce la media poblacional, esta definida como: V est V N est N 2V est .
En los casos donde no se conoce la media poblacional, ésta se estima a través de la media
muestral x , lo que conlleva a obtener la varianza estimada del estimador, así:
V est V Nxest N 2V xest
Por consiguiente la varianza estimada del estimador es de la forma:
L 2
2 sl Nl nl
2
V est N V xest Nl
l 1 nl Nl
Límite de Error de Estimación: Como en el caso del M.A.S. el límite de error de estimación
para el total poblacional en el M.A.E. se calcula conociendo el nivel de significancia.
B Z(1 )
V( est )
2
28
Ejemplo 1:
Una empresa publicitaria esta interesada en identificar el tiempo que utilizan las familias en 3
ciudades que hacen parte del Distrito Especial para ver televisión. Las ciudades se han
referenciado como A, B, C, donde la ciudad A tiene 125 hogares, la ciudad B tiene 62 hogares
y la ciudad C tiene 93 hogares. Con los datos de la siguiente tabla, estimar el total de horas
que utilizan las familias del distrito especial para ver televisión y su límite de error de
estimación para el nivel de significancia del 5%..
A 35 43 36 39 28 28 29 25 38 27 26 32 29 40 35
41 37 31 45 34
B 27 15 4 41 49 25 10 30
C 8 14 12 15 30 32 21 20 37 7 11 24
Solución:
ESTRATO nL xl sl Nl
A 20 33,9 5,95 125
B 8 25,125 15,245 62
C 12 19,25 9,827 93
29
estudio. Si dividimos est en N se obtiene un estimador insesgado de la proporción
poblacional de los elementos que tienen la característica. Entonces:
1
p est N 1 p1 N 2 p 2 ... N L p L Lo que conlleva a definir un estimador para la
N
proporción poblacional.
1 L
p est N l pl
N L 1
Ejemplo 1:
Siguiendo con el estudio del Distrito Especial del ejemplo de la sección anterior, se tomaron
muestras en las tres ciudades y en cada una se identifico las personas que ven televisión.
Veamos la siguiente tabla:
Solución:
30
16 2 6
pA 0,8 p B 0,25 pC 0,50
20 8 12
En seguida calculamos la proporción estimada de la población:
1
pest 155 * 0,80 62 * 0,25 93 * 0,50 0,60
310
La proporción de personas que ven televisión en el distrito especial es del 60%.
Ahora busquemos la varianza de cada estrato para luego si hallar la varianza estimado del
estimador:
p A q A N A n A 0,8 * 0, 2 155 20
V p A 0,00733
n A 1 N A 20 1 155
p B q B N B n B 025 * 0,75 62 8
V p B 0,0233
n B 1 N B 8 1 62
p q N n C 0,8 * 0, 2 155 20
V p C C C C 0,0198
nC 1 N C 20 1 155
Varianza estimada del estimador:
1
V p est 2
(155) 2 (0,00733) (62) 2 (0,0233) (93) 2 (0,0198) 0,00455
310
Conocida la varianza del estimador, podemos hallar el error de estimación:
B Z(1 )
V( pest) 2,575 0,00455 0,174
2
la proporción de personas que ven televisión es de 60% con un límite de error de estimación
de 17,4%
A partir del estudio de la varianza, se sabe que ésta disminuye a expensas de aumentar el
tamaño de la muestra. Por lo anterior es pertinente determinar un tamaño de muestra que
permita obtener la información adecuada para estimar algún parámetro de la población.
Por la teoría de estimación se sabe que la estimación del promedio esta dentro de unidades,
con un nivel de significancia dado á. Si partimos de: B Z (1 ) V ( xest ) Para despejar n que
2
31
2
s l2
L
N l
al
n l 1
L
al Afijación definida para cada estrato.
2 2 2
N B N ls
Z 2
l 1
l
(1 )
2
Ejemplo 1:
Siguiendo con el ejemplo de las personas que ven televisión en el Distrito Especial, se
estimaron las varianzas,
ESTRATO TAMAÑO VARIANZA ESTIMADA
A 155 25
B 62 225
C 93 100
Con un límite de error de estimación de 2 personas, una afijación de 1/3 para cada estrato y un
nivel de significancia del 5%.
a-) Hallar el tamaño de la muestra total
b-) Hallar el tamaño en cada estrato.
Solución:
N l2 s l2
L
Con la ecuación
l 1
al Calculamos cada término:
n L
N 2B 2
N l s l2
Z (21 ) l 1
2
3
(155) (25) (62) (225) (93) 2 (100)
2 2
N l2 sl2 / al
l 1 1/ 3
1/ 3
1/ 3
6'991.275
N 2 B 2 (310) 2 (2) 2
100.062,474
Z2 (1.96) 2
3
2
N s l l 155 * 25 62 * 225 93 * 100 27.125
l 1
Entonces:
6 '991 . 275
n 54 ,96 54
100 . 062 , 474 27125
El tamaño de la muestra debe ser de 55 personas en las condiciones establecidas.
Ahora determinados el tamaño de cada estrato.
n A na A 54 / 3 18
n B na B 54 / 3 18
nC naC 54 / 3 18
Como la afijación es igual para cada estrato el tamaño debe ser igual, en este caso 18 personas
por estrato.
32
afijación igual para todos los estratos, pero esto no siempre es práctico. La afijación esta
influenciada por:
1. Número total de elementos en cada estrato N 1 N 2 ... N L
2. Variabilidad de las observaciones en cada estrato 12 22 ... L2
3. Costos para obtener una observación en cada estrato. C1 C 2 ... C L
Por consiguiente la afijación que minimiza los costos para valores fijos de la varianza del
estimador, se obtiene de la siguiente manera:
La ecuación deja ver que el tamaño de la muestra en el estrato l (nl) es proporcional al tamaño
de la población en el estrato l (Nl) y a la desviación estándar del mismo estrato, pero
inversamente proporcional a la raíz cuadrada del costo en dicho estrato.
La forma de calcular el tamaño de la muestra total; es decir, en todos los estratos se hace por
medio de la siguiente ecuación:
L Nk k L En este caso k = l.
Nl l Cl
Ck l 1
k 1 D = B2 / 4. Para un nivel de significancia
n L aproximadamente 5%.
N D Nl l2
2
l 1
Ejemplo 1:
Siguiendo con el caso de las personas que ven televisión en las tres ciudades del Distrito
Especial, se ha establecido que el costo de obtener una observación en cada ciudad esta
definida así: CA = 9, CB = 9 y CC = 16. Las desviaciones estándar están definidas como: óA =
5, óB = 15, óC = 10. Con estos datos determinar el tamaño de la muestra n y el tamaño de los
estratos nl que permitan estimar con un mínimo costos el promedio de las personas que ver
televisión en el distrito especial y con un límite de error de estimación de 2 personas.
Solución: L N k k L
N l l Cl
Ck
n
k 1 l 1
Primero calculemos el tamaño de la muestra. L
N 2D N l l
2
l 1
33
L
155 * 5 62 * 15 93 * 10
N
k 1
k k
Ck
9
9
16
800,83
L
N l l C l 155 * 5 * 9 62 * 15 * 9 93 * 10 * 16 8.835
l 1
L
2
N l l 155 * 25 62 * 225 93 * 100 27.125
l 1
(2) 2
N 2 D (310) 2 * 96.100
4
Reemplazando en la ecuación:
800 ,83 * 8 . 835
n 57 , 418 58
96 . 100 27 . 125
El tamaño de la muestra para todos los estratos es de 58 observaciones.
Al igual que en el caso anterior para obtener el tamaño de la muestra para estimar el total
poblacional se parte del límite de error de estimación.
sl2 N l nl
L
2
B Z (1 ) N l
2 l 1 nl N l
Haciendo un trabajo matemático de despeje, sabiendo que nl nal obtenemos:
L
N l2 s l2
n
l 1 al
B2 L
N s l2
Z2
l
l 1
Ejemplo 1:
Con el ejemplo del Distrito Especial, determinar la muestra para estimar el Total Poblacional
ô, si se establece un límite de error de estimación de 400 personas, un nivel de significancia
del 5% y una afijación igual para todos los estratos.
Solución.
34
Entonces:
L
N l2 s l2
l 1 al 6 '991 . 275
n 101 , 65 102
B2 L
2 41 . 649 , 312 27 . 125
N l sl
Z2 l 1
Como la afijación es igual, entonces el tamaño de cada estrato será: 102/3 = 34 personas por
estrato.
Para determinar la afijación en los estratos que minimizan el costo para un valor fijo de la
varianza del estimador se utiliza la siguiente ecuación:
pl ql
Nl
Cl
nl n L
Nl p*q
K 1
Cl
Ejemplo 1:
Con los datos de la tabla siguiente, calcular le tamaño de la muestra para estimar P, si se sume
un límite de error de estimación de 0,1 y un nivel de significancia del 1% a un costo mínimo.
Solución:
Para comenzar calculemos la afijación:
35
L
p*q 0,80 * 0, 20 0, 25 * 0,75 0,50 * 0,50
Nl 155 62 93 41, 245
K 1
Cl 9 9 16
p Aqa 0 ,80 * 0 , 20
Para el estrato A: N A 155 20 , 67
CA 9
pBqB 0 , 25 * 0 , 75
Para el estrato B: N B 62 8 , 95
CB 9
pC qC 0 , 50 * 0 , 50
Para el estrato C: N C 93 11 , 625
CC 16
Entonces:
20,67 8,95 11,625
n A n 0,50n --- n B n 0,22n --- n C n 0,28n
41,245 41,245 41,245
Las afijaciones son: a A 0,50 --- a B 0,22 --- a C 0,28
El tamaño de la muestra total debe ser de 92 personas y de los estratos será de 46 para el A, 20
para el B y 26 para el C, así se los costos serán mínimos.
36
3. Muestreo Sistemático
Es utilizado por algunos contadores para revisar sumas, cuentas, inventarios, etc., por ser un
método directo y económico. Consiste en seleccionar uno a uno, los elementos de la muestra
en un orden determinado, dando un inicio aleatorio. La fracción de muestreo se establece por
medio de la siguiente relación:
N N Tamaño de la población.
f Donde:
n n Tamaño de la muestra.
Ejemplo 1
De una población de 1.000 observaciones, se desea tomar una muestra de 10, cuales serían las
observaciones que harían parte de la muestra sistemática.
Solución:
N 1.000
La fracción de muestreo es: f 100
n 10
Ejemplo: Si en un hospital hay un universo de quince mil cien historias clínicas que están
numeradas interrumpidamente y se desea tener una muestra equivalente al 10%, o sea, mil
quinientas diez historias, ello significa que ha de tomarse una de cada 10, ya que (15.100 ÷
1.510 = 10). La primera historia puede seleccionarse del primer grupo de 10. Si la primera
historia seleccionada es la número 8 en la población, teniendo en cuenta que el ocho es un
número cualquiera tomado aleatoriamente; la segunda será la 18= (8+10) la tercera será la 28
= (18 + 10), la cuarta será la 38 = (28 + 10), y así sucesivamente.
Este tipo de muestreo se usa en particular cuando no se dispone de una lista detallada y
enumerada de cada una de las unidades que conforman el universo y resulta muy complejo
elaborarla. Se le denomina así debido a que en la selección de la muestra en lugar de
escogerse cada unidad se procede a tomar los subgrupos o conjuntos de unidades, a los
que se llama "conglomerados". Aunque quizá por ello se tienda a creer que es lo mismo
37
que el estratificado, ambos se diferencian en que en los conglomerados los subconjuntos se
dan en la vida real o ya están agrupados de esa manera; por ejemplo: Escuelas, tipos de
Industrias, bloques de casas y otros. En el estratificado el investigador decide las agrupaciones
que utilizará según la posible variabilidad de los fenómenos a estudiar; otra diferencia es que
en este el investigador conoce la distribución de la variable, todo lo contrario que en el
muestreo por conglomerado.
Ejemplo:
Si un analista de la secretaría de salud necesita hacer un estudio de los servicios médico-
asistenciales que reciben los trabajadores del área metropolitana, sería difícil obtener una lista
de todos los trabajadores de la población objetivo. Sin embargo podría obtenerse una lista de
las empresas y fábricas del área. Con esta lista, el analista puede tomar una muestra aleatoria
de las empresas o fábricas, que representan conglomerados de trabajadores, y obtener la
información de los servicios médicos que se les están prestando.
Los estadísticos obtenidos en una muestra son variables aleatorias, por lo cual deben tener una
distribución de probabilidad, así que la media muestral tiene una distribución.
Supongamos que se tiene una muestra aleatoria de tamaño n observaciones, tomada de una
población normal N ( , 2 ) cada observación X1 = 1, 2, 3, …, n tendrá la misma
distribución que la población de donde fue tomada la muestra.
38
Teorema:
-------------------------------------------------------------------------------------------------------
X X 2 ... X n
Sea X 1 la media de la muestra aleatoria de tamaño n, proveniente de una
n
población infinita con media y varianza 2 .
Entonces:
E( X ) 2
V (X )
n
---------------------------------------------------------------------------------------------------------
Comentario:
El caso anterior es dado para cuando la población es infinita, pero se pueden presentar los
casos donde se conoce la población; es decir, es finita. En estos casos se tiene el siguiente
teorema.
Teorema:
-------------------------------------------------------------------------------------------------------
X X 2 ... X n
Sea X 1 la media de la muestra aleatoria de tamaño n, proveniente de una
n
población finita de tamaño N con media y varianza 2 .
Entonces: E( X ) y 2 N n
V (X ) *
n N 1
---------------------------------------------------------------------------------------------------------
Comentario:
N n
Se conoce como el factor de corrección para poblaciones finitas. Cuando N es muy
N 1
grande comparado con n, la diferencia se hace despreciable lo que origina que para
poblaciones infinitas dicho factor de corrección se hace uno.
Ejemplo:
Un Colegio tiene siete profesores, la retribución por hora cátedra es la que se muestra a
continuación:
39
Salario profesores
Profesor Salario $
1 7.000
2 7.000
3 8.000
4 8.000
5 7.000
6 8.000
7 9.000
Cuadro 2.3
Solución:
Entonces:
Solución:
c). Cuál es la distribución muestral de las medias para muestras de tamaño dos?
Solución:
Para determinar la distribución muestral de las medias, se seleccionaron todas las muestras
posibles de tamaño 2, sabiendo que son sin reemplazamiento y que no interesa el orden de
selección en la población. Se calculan las medias de cada muestra y se calcula la media de las
medias maestrales.
Para saber cuantas muestras posibles se pueden tomar, se utiliza la combinatoria, por los
preceptos tomados: Sin repetición y no importa el orden.
40
7! 7! 7 x6 x5! 42
C 27 21
7 2!2! 5! x2! 5! x 2 2
El valor de 21, es el número de muestras tamaño 2 que se pueden formar de una población de
7 elementos. A continuación se indican las 21 muestras posibles y el valor de la media para
cada una de las muestras:
41
Solución:
1 N
Suma de medias muestrales
X x i
N i 1 Número total de muestras
Distribución muestral
42
La tercera propiedad del teorema central del límite se expresa: No importa que distribución
tenga la población, pero la distribución muestral de medias a partir de esa población, tiene una
distribución normal.
Ejemplo:
Z 2,40 A0,4918
Ahora, en vez de expresar la variable en términos de éxitos (X) nos referiremos, al número de
atributos en la muestra (a) y lo dividimos por el tamaño de la muestra n:
ai
p
n
43
A Ai NP Total de elementos que presentan la característica en la
población
A Ai
p P P P Proporción de elementos que presenta la característica en la
N N
población
NA
Q 1 P Proporción de elementos que no presenta la característica
N
P Q 1
2
P PQ Varianza de la proporción en la población
p PQ Desviación estándar
p PQ
p Error estándar de la proporción
n n
En muchos casos podemos utilizar la distribución normal para evaluar la distribución muestral
de proporciones, siendo:
pP p p
Z
PQ p
n
Ejemplo:
Cuarenta y seis por ciento de los sindicatos del país están en contra de comerciar con la China
Continental;¿Cuál es la probabilidad de que en una encuesta a 100 sindicatos muestre que más
del 52% tengan la misma posición?
Solución:
44
1.3.3 Distribución muestral de diferencias de dos medias
… .
Ahora, si consideramos las diferencias para cada par, la media aritmética de dichas diferencias
se simbolizará por , donde:
Se puede demostrar que la media de la diferencia de todos los pares de medias muéstrales
posibles, es igual a la diferencia entre las medias poblacionales
La desviación típica de las diferencias entre los pares de medias muéstrales se simboliza por:
Se puede considerar que la desviación típica de las diferencias entre los pares de medias
muéstrales, denominado como error estándar de las diferencias entre las medias muéstrales, es
igual a:
Siendo: ó
45
x y x y x y x y
Z
2
x y x2 y
n1 n2
2
Se puede aplicar esta distribución cuando no se conocen las varianzas poblacionales x y
y 2 , las cuales pueden ser sustituidas por varianzas muéstrales s x 2 y s y 2 siempre y cuando
que n1 y n 2 sean mayores que 30.
Ejemplo:
El rendimiento de los autos de la marca A es de 20 kilómetros por galón de gasolina, con una
desviación estándar de 6 k.p.g. las cifras comparables para los autos B son de 25 y 5,5 k.p.g.
se supone que el rendimiento de cada una de ambas marcas está normalmente distribuido.
¿cuál es la probabilidad de que en un concurso, el rendimiento medio para 10 autos de la
marca A sea mayor que el de 9 autos de la marca B?
Solución:
x = 20 y = 25 x= 6 y = 5,5 n1 = 10 n2 = 9
P( x y > 0) = ?
0 20 25 0 5 5
Z 1,90
36 30,25 3,6 3,36 6,96
10 9
Z 1,90 A0,4713
El error estándar de las diferencias entre las dos medias proporcionales estará dada por:
P1Q1 P2 Q2
P P
1 2
Cuando son valores poblacionales
n1 n2
46
Cuando n1 y n 2 corresponden a muestras grandes, es decir, ambas superiores a 30:
p1 q1 p 2 q 2
s P1 P2
n1 n2
P P P P P1 P2
1 2 1 2
La variante estadística Z, estará dada en la misma forma en que fue presentada para
diferencias entre dos medias muéstrales:
p1 p 2 P 1
P2 p 1 p 2 P1 P2
Z cuando n1 y n 2 > 30
P1Q1 P2 Q2 p1 q1 p 2 q 2
n1 n2 n1 n2
Ejemplo:
Consideremos dos máquinas que producen un determinado artículo, la primera produce por
término medio un 14% de artículos defectuosos, en tanto que otra, produce el 20% de artículos
defectuosos; si se obtienen muestras de 200 unidades en la primera y 100 unidades en la
segunda, ¿Cuál es la probabilidad que difiera A de B en 8% o más?
Solución:
p1 p 2 = 8% = 0,08
Z 2,98 A0,4986
47
aproximadamente normal (siendo la media de la distribución muestral igual a y la varianza
igual a ( 2 / n ) considerando que el tamaño de la muestra es bastante grande.
El teorema central del límite es uno de los teoremas más importantes dentro de las ciencias
estadísticas, ya que su funcionalidad es muy grande.
O sea: Z n(0,1)
Ejemplo.
Suponga que se tiene una población conformada por 5 empleados de una empresa (N = 5), y la
variable de interés es el número de años de experiencia laboral de cada empleado. Los datos
de la población son: X i 1,2,3,4,5 (Muestreo sin Reemplazamiento):
48
Solución:
1 N 1 2 3 4 5
xi 3
N i1 5
1 N
1
2 (x i )2 (1 3) 2 ( 2 3) 2 ... (5 3) 2 1.999
N i 1 5
2. Seleccione ahora todas las muestras posibles de tamaño dos, sin reemplazamiento
(poblaciones finitas):
Solución:
N! 5! 5! 5 x 4 x3!
C NN Reemplazando: C25 10
N n ! xn ! 5 2! x 2! 3!2! 3! x2
Se tiene 10 muestras posibles de tamaño dos. Las posibles muestras se indican a continuación:
49
Solución:
En la segunda y cuarta columna del cuadro 2.6 están las medias de todas las muestras
posibles, lo que se debe hacer es sumarlas y dividirlas por en número de medias.
1 .5 2 .0 2 .5 3 .0 2 .5 3 .0 3 .5 3 .5 4 .0 4 .5
X 3
10
Con la información anterior se logra demostrar el primer principio del teorema central del
límite, que consiste en que el promedio de la población es igual al promedio de la distribución
muestral de medias: X 3
Solución:
2
X
X
X
2 2
1.5 3 2.0 3 4.5 3.0
2
0.7499
n 10
N n
X Donde:
n N 1
50
1,4142 5 2
x 0,8660
2 5 1
El segundo principio del teorema central del límite para poblaciones finitas se expresa: La
desviación estándar de la distribución muestral de medias es igual al factor de corrección
poblacional multiplicada por la relación entre la desviación estándar poblacional y la raíz
cuadrada del tamaño de la muestra. Dicho principio queda demostrado con la relación
anterior.
Ejemplo:
Solución:
51
Solución:
Con lo estudiado:
1 .0 1 .5 2 .0 2 .5 4 .0 4 .5 5 .0
X 3
25
Solución:
X
X X
1 32 1.5 32 4.5 3.02 5.0 3.02 1.0
n 25
Para poblaciones no finitas, el segundo principio de teorema del límite central se expresa: La
desviación estándar de la distribución muestral de medias es igual a la desviación estándar
poblacional dividida entre la raíz cuadrada del tamaño de la muestra.
Sobre distribución muestral por proporción. Si tenemos una población conformada por 6
personas, de las cuales 3 son fumadores y 3 no fumadoras, designando a fumadores con la
letra F y a los no fumadores con F , determine:
52
e) Desviación estándar de todas las proporciones muestrales posibles (error estándar de la
proporción) ó p .
Fumador = F=1
No fumador = F= 0
Total 3 P = 1,5
p 1,5
b) = = 0,25 = 0,5 Desviación poblacional
6
p
= P • Q = P(1 - P) = 0,5(1 - 0,5) = 0,25 = 0,5
F1 F2 F3 N1 N2 N3 Nn = 62 = 36
53
1 1
P (F) = = 0,5 y P (N) = = 0,5
2 2
P (F o N) = 0,5 + 0,5 = 1
F1 F2 F3 N1 N2 N3
Proporción N°. de p- p =d (p - p )2 fi (p - p )2
p ∙ fi
Muestral p Muestras fi
0,0 9 0 0,0 - 0,5 = 0,5 0,25 2,25
0,5 18 9 0,5 - 0,5 = 0,0 0,00 0,00
1,0 9 9 1,0 - 0,5 = 0,5 0,25 2,25
Total 36 18 4,5
2
fi(p p)
p
f i
4 .5
p 0.3536
36
54
óp = Sp
El mismo resultado puede ser obtenido mediante la fórmula simplificada siguiente:
P (1 P ) P Q 0 , 5 0 , 5
p 0 ,125 0 . 3536
n n 2
ó p = 0,3536 :
También se puede calcular S p de la siguiente manera:
p 0,5
p 0,5 0,5
Sp S p 0,3536
n 2 1,4142
Observación:
óp P.Q
óp = =
n n
Con el ejemplo anterior, pero considerando las muestras extraídas sin reemplazo, se obtienen
las siguientes conclusiones:
55
1. El promedio de todas las proporciones muéstrales E(p) es igual a la proporción
poblacional P.
P (1 - P ) N -n
óp =
n N -1
N = Tamaño de la población
n = Tamaño de la muestra
P = Proporción poblacional
EJERCICIOS COMPLEMENTARIOS
1. Una población consiste en grupo edades de jóvenes con los valores siguientes:
X1 = 12 años
X2 = 12 años
X3 = 14 años
X4 = 16 años
a) Enumere todas las muestras posibles de tamaño 2 y calcule la media de cada muestra.
b) Determine el valor medio de la distribución en medias muéstrales, y la media de la
población. Compare los dos valores.
ó N -n
c) Muéstrese que ó x =
n N -1
2. Hay una población que consiste de los cinco pacientes hospitalizados en el Hospital
Rosario Pumarejo de López. El estado civil de cada uno de ellos se da a continuación.
.
Pacientes Estado Civil
Ana Rosa Casado
Álvaro Soltero
Clara Casado
David Soltero
Elkin Soltero
56
a) Determine la proporción de miembros casados de esta población
Muéstrese que
( P • Q) ( N - n)
óp =
n N -1
57
CAPITULO DOS
2. INTERVALOS DE CONFIANZA
Introducción.
En estos casos y otros similares se quiere indicar que la media verdadera se encuentra en
algún lugar entre el intervalo.
Lo anterior indica que existe la probabilidad de error en la medición y además no se puede
estar absolutamente seguro que el verdadero valor se encuentre dentro del intervalo obtenido.
Nótese que si el intervalo se hace más amplio aumenta la posibilidad que se incluya el
verdadero valor de la media.
Objetivo general.
Mostrar los diferentes métodos para calcular los intervalos de confianza, a partir de muestras
grandes y pequeñas, para estimar los parámetros poblacionales de una media y proporción, así
como para la diferencia de medias y proporciones.
Objetivos específicos.
58
asegurar con probabilidad de uno que el verdadero valor se encuentre entre estos dos límites,
lo máximo que se puede lograr es elegir un número uno menos alfa ( 1 ) que esté muy
próximo a uno (recuerde que alfa es el nivel de significación o error tipo uno) tal que la
probabilidad que el verdadero valor se encuentre entre estos dos límites inferior y superior sea
mayor o igual a uno menos alfa.
En la práctica se elige un alfa fijo (á) generalmente pequeño 0.01 o 0.05. La probabilidad que
la afirmación del intervalo incluya al parámetro sea cierta es por lo menos (1 ) ; por lo
tanto la probabilidad que la afirmación sea falsa es por lo más un alfa. Un intervalo de
confianza dado que incluya o no el verdadero valor del parámetro, esto nunca se conoce con
exactitud al menos que se conozca el parámetro, pero se sabe que se tendrá éxito en encontrar
el valor verdadero del parámetro dentro de este tipo de intervalos por lo menos en el (1 )
100% de las veces.
Los dos tipos de problemas que resuelven las técnicas estadísticas son: estimación y contraste
de hipótesis. En ambos casos se trata de generalizar la información obtenida en una muestra a
una población. Estas técnicas exigen que la muestra sea aleatoria. En la práctica rara vez se
dispone de muestras aleatorias, por la tanto la situación habitual es la que se esquematiza en la
figura.
Entre la muestra con la que se trabaja y la población de interés, o población diana, aparece la
denominada población de muestreo: población (la mayor parte de las veces no definida con
precisión) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la
generalización está amenazada por dos posibles tipos de errores: error aleatorio que es el que
las técnicas estadísticas permiten cuantificar y críticamente dependiente del tamaño muestral,
pero también de la variabilidad de la variable a estudiar y el error sistemático que tiene que
ver con la diferencia entre la población de muestreo y la población diana y que sólo puede ser
controlado por el diseño del estudio.
59
cuadrados y máxima verosimilitud. En temáticas posteriores se analizará lo referente a la
estimación
Propiedades de un estimador:
Para evaluar la calidad de un estadígrafo como un estimador este debe cumplir las siguientes
propiedades:
1. Insesgado:
2. Eficiencia:
3. Consistencia:
60
Estimación de la Media Poblacional:
E( X )
Demostración:
El valor de X indicaría muy poco sobre al menos que se evalúe la bondad del estimador, lo
que se hace por medio de la varianza del estimador, la cual nos indica el grado de variabilidad
que tiene dicho estimador, así un estimador con varianza pequeña tiene más valor que un
estimador con varianza grande.
2 N n
V (X )
n N 1
N es el tamaño de la población, n es el tamaño de la muestra, ó2 es la varianza poblacional.
Cuando no se conoce la varianza poblacional, ésta se estima por medio de la varianza muestral
S2.
1 n N
S2 ( xi x ) 2 Por definición: E ( S 2 ) 2
n 1 i 1 N 1
61
N n N
despreciar si 0,95 o cuando n
N 20
Ejemplo 1:
Sea la población compuesta por los elementos U = (2, 4, 6, 8) Hallar los parámetros µ y ó2.
Solución:
Ahora la varianza:
n
V ( x ) E ( x ) ( xi ) 2 p ( x i )
2 2
i 1
Reemplazando:
n
2 V ( x) ( xi ) 2 p( xi ) (2 5) 2 (1 / 4) (4 5) 2 (1 / 4) (6 5) 2 (1 / 4) (8 5) 2 (1 / 4)
i 1
2
V ( x) 9 / 4 1 / 4 1 / 4 9 / 4 5
Ejemplo 2:
Solución:
62
24 1 242 1
x1 3 ----- s 2 ( 2 3) 2 ( 4 3) 2 2 ----- V ( x )
2 2 1 2 4 2
Ahora si podemos calcular la media y la varianza.
4
E ( x ) xi p ( xi ) 3(1 / 6) 4(1 / 6) 5(1 / 6) 5(1 / 6) 6(1 / 6) 7(1 / 6) 5
i 1
n
V ( x ) E ( x ) 2 ( xi ) 2 p ( x i )
i 1
Reemplazando:
5
V ( x ) E ( x ) 2 (3 5) 2 ( 4 5) 2 (5 5) 2 (5 5) 2 (6 5) 2 (7 5) 2 (1 / 6)
Si
3
utilizamos la ecuación de varianza del estimador tenemos:
2 N n 542 5
V (x)
n N 1 2 3 3
Vemos que la varianza calculada por el principio de valor esperado es igual a la obtenida por
la ecuación de varianza del estimador.
Entonces, queda claro que cuando las muestras son pequeñas la distribución muestral es la
distribución t. Esta se caracteriza porque es más puntual que la distribución normal, reuniendo
mayor proporción de casos en los extremos de la curva a diferencia de la distribución normal.
63
La distribución t a medida que el tamaño de la muestra "n" aumenta, tal distribución t se va
pareciendo más a la normal, de tal modo que cuando n > 30 no existen diferencias entre la
distribución normal y la distribución t. Entonces, cuando n < 30 existe una curva diferente
para cada valor de "n".
Grados de libertad. Números de elementos en una muestra que pueden variar después de
haber seleccionado cierto número de ellas. Supóngase que existen dos elementos en una
muestra y se conoce la media. Se tiene libertad para especificar sólo uno de los dos valores, ya
que el otro queda determinado automáticamente; queda claro que el total de los dos valores es
dos veces la media.
S
X t
n
Ejemplo
Una muestra de 10 cajas de atún dio un peso neto medio de 184 gramos y una desviación
estándar de 3.0 gramos. Encontrar los límites de confianza con un 95% para el verdadero peso
promedio de todas las latas de atún.
64
Figura: Intervalo de confianza para pequeñas muestras
El intervalo de confianza para la media de peso de todas las cajas de atún esta dado por:
S 3 .0
X t 184 2.26 184 2.14
n 10
Se interpreta que las cajas de atún tienen un promedio de peso entre 181.86 y 186.14 gramos
con un nivel de confianza del 95% y expresado matemáticamente es:
( = )
Cuando las varianzas son desconocidas, se debe realizar previamente una prueba estadística
para verificar si éstas son iguales o diferentes. Para realizarlo debemos hacer uso de la
distribución F, bien sea mediante el cálculo de la probabilidad de que la muestra tomada
provenga de dos poblaciones con varianzas iguales, o mediante el uso de un intervalo de
confianza para la relación de dos varianzas, según se estudiará más adelante.
65
b) La variable aleatoria asociada con el estimador será la variable T definida como:
De nuevo, manipulando la expresión anterior en forma similar a los casos se llega al siguiente
teorema que nos define el intervalo de confianza para la diferencia entre dos medias µ1 - µ2
con varianzas desconocidas ²1 y²2, pero iguales:
Ejemplo.
La siguiente tabla presenta los resultados de dos muestras aleatorias para comparar el
contenido de nicotina de dos marcas de cigarrillos.
Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de poblaciones
normales con varianzas desconocidas, construya un intervalo de confianza del 95% para la
diferencia real de nicotina de las dos marcas.
66
Solución.
por:
Debido a que la diferencia real puede ser cero, no se puede concluir que existe una diferencia
en el contenido de nicotina de las dos marcas de cigarrillos.
Ejercicio. El gerente de una refinería piensa modificar el proceso para producir gasolina a
partir de petróleo crudo. El gerente hará la modificación sólo si la gasolina promedio que se
obtiene por este nuevo proceso (expresada como un porcentaje del crudo) aumenta su valor
con respecto al proceso en uso. Con base en experimentos de laboratorio y mediante el empleo
de dos muestras aleatorias de tamaño 12, una para cada proceso, la cantidad de gasolina
promedio del proceso en uso es de 24.6 con una desviación estándar de 2.3, y para el proceso
propuesto fue de 28.2 con una desviación estándar de 2.7. El gerente piensa que los resultados
proporcionados por los dos procesos son variables aleatorias independientes normalmente
distribuidas con varianzas iguales. Con base en esta evidencia, ¿debe adoptarse el nuevo
proceso?
67
b) La variable aleatoria asociada con el estimador será la variable T definida como:
donde
c) El intervalo de confianza esta dado por el siguiente teorema, basado en la distribución t con
n grados de libertad.
Para la construcción del intervalo de confianza para la media poblacional ì, se han fijado los
siguientes pasos:
68
1. Fijar el nivel de confianza 1 - á
Suponga por ejemplo que Ud. está dispuesto a aceptar un riesgo de error de 0.05 ;
entonces 1 0.95 , luego se trata de un intervalo de confianza del nivel 0.95. Dado que
esta probabilidad se distribuye simétricamente a los dos lados de la media, se obtiene 0.475 a
cada lado. Ahora bien, el valor de Z asociado a una probabilidad de 0.475 es de 1.96 (de
acuerdo a la tabla de la distribución normal) a la derecha de la media y de –1.96 a la izquierda,
como se puede apreciar el la siguiente grafica:
69
Recuerde que Z depende del nivel de confianza que se fije y que si la desviación estándar
poblacional es desconocida, se utiliza como estima la desviación muestral (S).
Podrá darse cuenta las semejanzas con los procedimientos utilizados para las pruebas de
hipótesis, vistas anteriormente para pruebas unilaterales y bilaterales.
Ejemplo
El contenido de proteínas de una muestra de 100 pollos criados en una determinada granja dio
una media de 20.2 gramos con una desviación estándar de 1.14 gramos. Obtener el intervalo
de confianza del 99% para el contenido medio de proteína de todos los pollos de la granja.
Solución:
Como el intervalo de confianza se distribuye simétricamente a los dos lados de la media, en
este caso a cada lado le corresponde una probabilidad de 0.495 (0.99/2 = 0.495). El valor de Z
asociado a una probabilidad de 0.795 es 2.58.
El intervalo para la media será:
1.14
X Z 20.2 2.58 20.2 0.294
n 100
Ejemplo:
Se toma una muestra al azar de 40 vasos de kumis de un lote de 500, dieron un promedio de
76 calorías por cada 100 gramos con una desviación estándar 2.9 calorías. Obtener el intervalo
de confianza del 95% para el contenido medio de calorías para todo el lote.
Solución:
Nótese que se trata de una población finita y muestreo sin reemplazamiento. El valor de Z
asociado a un nivel de confianza del 95% es 1.96 (0.95/2 = 0.475) de acuerdo a la tabla de la
distribución normal.
El intervalo de confianza en este caso está dado por:
Por tanto el contenido medio de calorías del lote esta dentro del intervalo de 75.13 y 76.87
calorías con un 95% de nivel de confianza, y expresado matemáticamente es:
70
2.3.5. Intervalo de confianza para la diferencia entre dos medias.
El intervalo de confianza para la diferencia de medias de poblaciones infinitas está dado por:
12 22
X1 X 2 Z
n1 n2
Ejemplo:
Se analizó el contenido de vitamina A de una muestra de mantequilla y de una muestra de
margarina enriquecida. En la muestra de mantequilla formada por 40 potes de 100 gramos, el
contenido medio de vitamina A fue de 4.86 unidades con una desviación estándar de 0.06. En
la muestra de margarina enriquecida formada por 50 potes de 100 gramos el contenido medio
de vitamina A fue de 5.0 unidades con una desviación estándar de 0.08 unidades. Encontrar el
intervalo de confianza del 95% para la diferencia de contenido medio de vitamina A para el
experimento en mención.
Solución:
Generalmente el mayor valor de la media se toma como X 1 .
El nivel de confianza del 95% corresponde un Z = 1.96.
12 22 0.082 0.062
X1 X 2 Z 5.0 4.86 1.96
n1 n2 50 40
Por lo tanto se puede afirmar con un nivel del 95% que la diferencia de los dos contenidos de
vitamina A de la mantequilla y la margarina enriquecida se encuentran entre 0.111 y 0.169
unidades.
2.3.6. Intervalos de confianzas para diferencias entre dos medias con muestras
relacionadas o dependientes.
Cuando se comparan las medias de dos niveles es deseable que las observaciones dentro de
cada nivel sean lo más homogéneas posibles. Si existe un efecto debido a factores externos
éstos pueden neutralizarse mediante la aplicación del principio de la aleatoriedad. Esto se
logra tomando las observaciones en pares. Se supone que las condiciones exteriores son las
mismas para cada par, pero pueden variar de un par a otro. Por ejemplo, suponga que se tiene
un grupo de personas que se someten a una dieta para reducción de peso, y para cada persona
se lleva el registro del peso, en kgs, antes de la dieta, y un tiempo razonable después de haber
empezado la dieta. En este caso, el peso de cada persona después de la dieta no es
independiente del peso de la misma persona antes de la dieta; por lo tanto estas dos variables
están correlacionadas, y si se quiere examinar el efecto de la dieta, se debe llevar el registro
del peso para la misma persona antes y después de la dieta.
71
Sean (X11, X21), (X12, X22),...(X1n,X2n) los datos consistentes de n pares; supondremos
que las variables aleatorias X1 y X2 tienen medias µ1 y µ2, y varianzas ,
respectivamente. Podemos suponer que el conjunto de datos apareados son observaciones de
un conjunto independiente de parejas de variables aleatorias provenientes de una distribución
normal bivariada (X1 X2) ~f(X1, X2), y que las diferencias D = X1 - X2 se distribuyen
normalmente con valor esperado D y varianza .
Sea Dj la diferencia entre las variables aleatorias del j-ésimo par, es decir, Dj = X1j-X2j. El
valor esperado y la varianza de la diferencia entre las variables está dado por:
Para estimar la media y la varianza de la diferencia, se debe tomar una muestra aleatoria de
tamaño n, antes y después, calcular la diferencia, y luego la diferencia promedio y la varianza
muestral de las diferencias, como se ilustra en el siguiente cuadro.
Dada la muestra aleatoria se calculan los siguientes estadísticos que servirán para estimar la
Sabemos que la siguiente variable aleatoria sigue una distribución normal estándar:
72
libertad.
Ejemplo: Se está investigando la utilidad de dos lenguajes de diseño para mejorar las tareas de
programación. Se le ha pedido a 12 programadores expertos, familiarizados con los dos
lenguajes, que codifiquen una función estándar con ambos lenguajes, y se registra el tiempo
requerido, en minutos, para realizar estas dos tareas. Los datos obtenidos son los siguientes:
Dado que la diferencia puede ser cero, se concluye que no hay evidencia para rechazar la
hipótesis de que ambos lenguajes requieren el mismo tiempo de programación, y por lo tanto
no hay preferencia por ninguno de los dos lenguajes.
73
2.3.7. Intervalo de confianza para proporciones.
PQ
PZ
n
En tanto que el intervalo de confianza para la proporción de la población finita y muestreo con
reemplazamiento está dada por:
PQ N n
PZ
n N 1
Ejemplo:
De un lote de 500 frascos de jugo se extrae una muestra de 50 frascos de los cuales 43
cumplen con las especificaciones exigidas y 7 fueron rechazados. Hallar el intervalo de
confianza del 95% para la proporción de frascos de jugo aceptados del lote de estudio.
Solución:
Para un nivel de confianza de 95% el valor de Z = 1.96 (tabla de distribución normal)
Aplicando la fórmula se tiene:
P Z
PQ N n
43
1 . 96
43 50 1 43 50 500 50
n N 1 50 50 500 1
( 0 . 86 )( 0 . 14 ) 450
0 . 86 1 . 96
50 499
0 . 86 1 . 96 0 . 049 0 . 95 0 . 86 0 . 09
Con un nivel de confianza del 95% la proporción de frascos aceptados fue de 0.77 y 0.95, es
decir el nivel de aceptación está entre 380 y 480 frascos de lujo de un lote de 500 frascos
p1q1 p2 q2
P1 P2 Z
n1 n2
74
Ejemplo:
En un supermercado se vende queso de dos marcas diferentes. En el mismo período de tiempo
se vende 380 de un total de 500 unidades de la marca A y 333 de un total de 450 unidades de
la marca B. Hallar el intervalo de confianza del 99% para la diferencia entre las proporciones
de los quesos A y B que salen al mercado y se venden.
Solución:
Aplicando la formula de la diferencia de proporciones se tiene:
(0.76)(0.24 (0.74)(0.26)
0.76 0.74 2.58 0.02 0.073
500 450
Por lo cual es de esperar con un nivel de confianza del 99% que la verdadera diferencia de
proporción de venta de los quesos A y B se encuentre entre –0.053 y 0.093. La diferencia de
proporción negativa del límite inferior del intervalo indica que en esta región la diferencia está
a favor del queso B cuya proporción de venta es menor en las muestras estudiadas.
Para ver cómo se aplica un intervalo de confianza para la varianza poblacional, suponga que
se está interesado en estimar la varianza poblacional para el mecanismo de llenado de tal
modo que la media de la cantidad de llenado sea de 16 onzas y es crítica la varianza de los
llenados. Para el efecto se toma una muestra de 20 envases llenos y se encuentra que la
varianza de las cantidades de llenado es s 2 0.0025 Sin embargo, no se puede esperar que
esa varianza que procede de una muestra de 20 envases, proporcione el valor exacto de la
varianza de la población de recipientes llenos con dicho producto. En consecuencia el interés
está es determinar un estimado de intervalo de la varianza poblacional.
Se utiliza el símbolo 2 para representar el valor de la distribución ji cuadrado que da como
resultado un área, o probabilidad, de a la derecha del valor ji cuadrado establecido. Por
ejemplo en la siguiente figura, se observa la distribución ji cuadrado con 02.025 32,8523 que
indica que el 2.5% de los valores de ji cuadrado esta a la derecha de 32,8523, y
02.975 8,90655 que indica que el 97.8% de los valores de ji cuadrado esta a la derecha de
8,90655. Consultan con la tabla del anexo “G” que hace relación a la tabla de distribución de
ji cuadrado, los resultados son iguales.
En la gráfica se puede observar que 0.95 o el 95% de los valores de la ji cuadrada están entre
02.975 y 02.025 . Significa esto que existe una probabilidad del 95% de obtener un valor de
2 tal que:
75
2 n 1S 2
0.975 2
02.025
Esta ecuación define un estimado de intervalo, porque el 95% de todos los valores posibles de
n 1S 2 se encuentran en el intervalo de 2 a 2 .
0 , 975 0.025
2
02.975
n 1S 2 2 n 1S 2
2 despejando la varianza se tiene: 02.975
Ejemplo.
76
20 10.0025 2 20 10.0025
32,8523 8,90655
En donde los valores de 2 se basan en una distribución ji cuadrado con (n-1) grados de
libertad, y en donde 1 es el coeficiente de confianza.
EJERCICIOS COMPLEMENTARTIOS
1. Una investigación efectuada a 400 familias de clase medias, reveló que un 62% de sus
ingresos anuales son utilizados para servicios de salud. Determinar los límites de
confianza del 99%
2. En una muestra de 14 observaciones que tienen una media de 34.86 y una desviación
estándar de 4.23, encuentre los límites que en el 95% de los casos permiten acertar al
afirmar que la media poblacional queda incluida entre ellos.
4. Un sondeo efectuado a 400 familias de clase media reveló un gasto trimestral promedio de
$ 374.000 en productos de salud, con desviación de $80.000.
b) ¿Cual es el máximo error, cuando se afirma que dicha media es de $374.000 con una
confianza del 99%?
77
UNIDAD DOS
78
CAPITULO TRES
3. PRUEBAS DE HIPÓTESIS
Introducción.
Una hipótesis estadística se define como un supuesto hecho sobre algún parámetro de la
población. Por ejemplo, los siguientes enunciados podrían ser tomados como hipótesis:
- El ingreso promedio de los trabajadores de la fábrica es de $X.
- El rendimiento promedio de los empleados de dos fábricas es diferente.
- El promedio de duración de las bombillas es de 1.000 horas.
- El promedio de duración de las llantas es de 100.000 kilómetros.
Ya se ha recabado en muchas ocasiones, que el objetivo es tomar muestras para extraer alguna
conclusión o inferencia sobre la población y que el único objetivo de examinar muestras, es
que las poblaciones suelen ser demasiado grandes y costosas de estudiar.
Objetivo general.
Contrastar la validez de una hipótesis o conjetura que se haya planteado en relación con una
situación determinada de la empresa, analizando errores estadísticos posibles en las pruebas de
hipótesis
Objetivos específicos.
79
5. Tomar la decisión.
Una vez planteada la hipótesis nula y la alternativa, el siguiente paso es definir el nivel de
significancia. Es la probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera.
La hipótesis nula y alternativa son entonces aseveraciones sobre la población que compiten
entre sí, en el siguiente sentido: ó la hipótesis nula (Ho) es verdadera, o lo es la hipótesis
alternativa (H1), pero no ambas. En el caso ideal, el procedimiento de prueba de hipótesis debe
conducir a la aceptación de Ho cuando sea verdadera y al rechazo de H1. Desafortunadamente
no siempre es posible puesto que como las pruebas de hipótesis se basan en la información de
80
la muestra, se debe considerar la posibilidad de cometer errores. La siguiente cuadro muestra
los dos tipos de errores que se pueden cometer:
Cuando se tiene una hipótesis esta puede ser verdadera o falsa y la decisión que se toma en la
prueba es aceptar o rechazar la hipótesis. Si la decisión que se toma está de acuerdo con la
realidad no se cometen errores, en este caso las dos buenas decisiones son: aceptar la hipótesis
nula cuando es cierta o rechazar la hipótesis nula cuando es falsa.
Pero cuando la decisión no está de acuerdo con la realidad se pueden cometer dos tipos de
errores vistos anteriormente: rechazar la hipótesis nula cuando en realidad es cierta, llamado
error tipo I representado por alfa ( ); aceptar la hipótesis nula cuando en realidad es falso,
llamado error tipo II representado por beta ( ), llamados también nivel de significancia. El
procedimiento utilizado consiste en limitarlos a un nivel preestablecido pequeño,
generalmente 0.01 ó 0.05. Este planteamiento se le denomina la potencia de la prueba y se
representa así:
Toda prueba de hipótesis determina una región de rechazo de la hipótesis llamada región
crítica, la cual depende del tipo de hipótesis que se pruebe y se determina utilizando un nivel
de significancia .
3.1.5 El p-valor
81
Sin embargo una evidencia contraria hace que la hipótesis nula sea descartada y aceptar la
única alternativa posible de declararlo culpable.
En las pruebas para la media de población de muestra grande se distingue dos situaciones:
Conocida la desviación estándar de la población.
Desconocida la desviación estándar de la población.
PRUEBA BILATERAL
El procedimiento de prueba de hipótesis para pruebas bilaterales a cerca de la media de una
población, cuando se considera el caso de muestra grande ( (n 30) , en que el teorema del
límite central permite suponer que la media de la distribución muestral de medias se puede
aproximar a una distribución normal de probabilidad, y la desviación estándar de la población
es conocida, sigue la siguiente forma general:
Muestra grande (n 30)
Planteamiento de hipótesis:
H 0 : 0
H1 : 0
Estadístico de prueba para desviación estándar poblacional conocida:
x
Z
n
Regla de rechazo a un nivel de significancia :
82
Rechazar H 0 si z -Z o si Z Z
2 2
Ejemplo
La empresa coca cola ha establecido como política general para su producción en pequeña
escala, un promedio ( ) de llenado para sus envases de 200 centímetros cúbicos con una
desviación estándar ( ) de 16 centímetros cúbicos. Dado que recientemente se han contratado
y diseñado nuevos métodos de producción, utilizando un nivel de significancia del 0.01, se
desea probar la hipótesis, que el promedio de llenado sigue siendo de 200 centímetros cúbicos.
Para tal efecto se tomó una muestra de 100 envases llenos, los cuales mostraron una media de
llenado de 203.5 centímetros cúbicos.
Solución:
Paso 1
Planteamiento de la hipótesis nula: la media poblacional es 200
Planteamiento de la hipótesis alternativa: La media poblacional es diferente a 200. Estas
hipótesis se expresan como sigue:
H 0 : 200
H 1 : 200
Esta es una prueba de dos colas, debido a que la hipótesis alternativa ( H 0 ) es planteada en
palabras de diferencia, es decir, la hipótesis no indica si la media es mayor o menor que 200.
Paso 2
El nivel de significancia es de 0.01 que es el alfa ( ), la probabilidad de cometer el error de
tipo uno, es decir la probabilidad de rechazar la hipótesis siendo verdadera. Para éste tipo de
problema se utiliza la distribución normal estandarizada en Z.
Paso 3
El valor estadístico de prueba para este tipo de problema es utilizando la distribución normal
estandarizada en Z:
X 203.5 200 3.5
Z 2.19
16 1 .6
n 100
Paso 4
La formulación de la regla de decisión consiste en hallar el valor crítico de Z con una prueba
de dos colas. En el anexo C (tabla de la distribución normal) se identifica el valor de Z
correspondiente a una probabilidad igual a 0.4950 (0.5 – 0.01/2). El valor más cercano a
0.4950 es 0.4951 que corresponde a una valor de Z igual a 2.58, que es el valor crítico para la
prueba de hipótesis. Dado que es una prueba de dos colas, se tendrán dos valores críticos, tal
como se indica en la siguiente figura:
83
Figura: Prueba de dos colas
La regla de decisión es aceptar la hipótesis nula (Ho), puesto que el valor estadístico de prueba
(2.19) ha caído en la zona de aceptación de dicha hipótesis.
Paso 5
Se concluye que el llenado de los envases cumple con las políticas generales de la empresa, y
la diferencia de promedios se atribuye a variaciones aleatorias.
PRUEBA UNILATERAL
Con anterioridad de dijo que la hipótesis alternativa indica una dirección ya sea “mayor que” o
“menor que”, la prueba es de una cola. El procedimiento para demostrar la hipótesis es por lo
general igual a la prueba de dos colas, excepto que el valor crítico es diferente. Ahora se
modificará la hipótesis alternativa del problema anterior, sobre el llenado de los envases de
una factoría de coca cola
H 0 : 200
Paso uno: H : 200
1
84
La región de rechazo para una prueba de una extremidad se ubica en la cola de la derecha, y el
valor crítico es +2.33.
Paso cinco: Igual, puesto que el valor estadístico de prueba está ubicado en la zona de
aceptación de la hipótesis nula, es decir, se está diciendo que el promedio de llenado es de
200, tal como está planteada la hipótesis nula.
A continuación se presentan un ejemplo para que Ud. lo aborde y aplique los métodos de
pruebas de hipótesis vistos anteriormente.
Ejercicio
El análisis del contenido de grasa de una muestra de 40 tarros de leche en polvo de una
determinada marca dio como resultado un contenido promedio de grasa de 27.5% en peso. Si
asume que la varianza es de 0.85 y se pide un nivel de significancia del 5%; probar la
hipótesis que el contenido promedio de grasa de la leche es de 28% contra la hipótesis:
a. El contenido de grasa es mayor que 28%.
b. El contenido de grasa es menor que 28%.
c. El contenido de grasa es diferente que 28%.
X
Sugerencia: Utilice el siguiente estadístico de prueba: Z
n
Ejemplo
Una cadena grande de almacenes expide su propia tarjeta de crédito y Ud. desea saber si los
saldos promedios por créditos de los clientes son mayores que 400 unidades monetarias. El
nivel de significancia se fija en 0.05. Una revisión aleatoria de 172 clientes, reveló que el
promedio por crédito de los clientes es de 407 unidades monetarias y la desviación estándar de
la muestra es de 38 unidades monetarias. ¿Concluye UD. que la media poblacional es mayor
que 400 unidades monetarias?
Solución:
Las hipótesis se enuncian como sigue:
H 0 : 400
H1 : 400
85
Dado que la hipótesis alternativa se enuncia “mayor que”, se aplica una cola a la derecha, y
como la muestra es grande ( n >= 30), se aplica la distribución normal estandarizada en Z.
La decisión a tomar por Ud. es que el promedio de los créditos es mayor que 400 unidades
monetarias con un grado de confianza del 95%.
En la mayor parte de los casos no se conoce la varianza o desviación estándar real de ninguna
población. En general la única información que es posible obtener se relaciona con las medias
muestrales X 1 y X 2 , las varianzas muestrales S12 yS 22 y las desviaciones estándar de las
muestras S1 yS 2 . Si se hacen las suposiciones que las muestras se obtienen de manera
aleatoria e independiente a partir de las poblaciones respectivas que tiene una distribución
normal y que las varianzas poblacionales son iguales, es decir, 12 22 , se puede utilizar
una prueba de distribución normal de varianzas combinadas para determinar si existe una
diferencia significativa entre las dos poblaciones.
86
Ejemplo
Una obra de construcción requiere un gran número de bloques de concreto. Dos empresas
abastecedoras A y B licitan para su adjudicación, y dentro del pliego de condiciones se
estipula que la resistencia mínima es de 1.000 unidades métricas a la resistencia, y el contrato
se adjudicará a la empresa que mayor resistencia presente su producto.
Solución:
Paso 1: Se plantea la hipótesis nula (Ho) que no existe diferencia entre las resistencias medias
a la compresión de los bloques de concreto. La hipótesis alternativa se plantea en términos que
hay alguna diferencia significativa entre las dos resistencias medias a la compresión.
Simbólicamente se expresa así:
H0 : A B
H1 : A B
Dado que la hipótesis alternativa no indica una dirección específica, la prueba es de dos colas
Paso 2: Se elige un nivel de significancia de 0.01. Esto equivale a cometer un error de tipo I.
Se usará una distribución normal estandarizada en Z, razón por la cual se debe seleccionar una
muestra que al menos contenga como mínimo 30 unidades de bloque, cada una de las
empresas licitantes.
X1 X 2
Z
S12 S 22
n1 n2
Suponga que Ud. seleccionó una muestra de cada una de las empresas licitantes y determinó
la resistencia a la compresión, con los siguientes resultados:
87
Paso 4
Recuérdese que se seleccionó un nivel de significancia del 0.01 y se utilizará una prueba de
dos colas. Los valores críticos y zonas de aceptación para las hipótesis se presentan en la
siguiente figura:
Figura Toma decisión para prueba de hipótesis
Paso 5
El valor Z calculado queda en el área de rechazo de la hipótesis nula, por lo tanto se concluye
que la media poblacional de la resistencia a la compresión es diferente en las dos empresas y
la diferencia no se debe al azar del muestreo, con un grado de confianza del 99%.
- El contenido medio de carbohidratos de 50 litros de leche de vaca entera cruda fue de 4.6%
con un desviación de 0.5 y el de 50 litros de leche pasteurizada fue de 3.9% con una
desviación de 0.4. Probar la hipótesis que el contenido de carbohidratos de la leche cruda es
mayor que el la leche pasteurizada con un alfa de 0.01.
Ahora veamos el caso en que las muestras son pequeñas, n 30 , pero donde la distribución
muestral del estadístico de prueba se puede aproximar a una distribución t student. Dicha
aproximación es posible cuando los valores subyacentes de la población son casi normalmente
distribuidos, y cuando intervienen poblaciones donde las desviaciones estándar, aunque
88
desconocidas, se sabe que son iguales. Habiendo estudiado pruebas para muestras grandes con
todo detalle, podemos restringirnos a ejemplos en donde se aplique este tipo de distribución.
Ejemplo
Una compañía de seguros revela que en promedio la investigación por demandas en
accidentes y todos los trámites tiene un costo promedio de 60 unidades monetarias. Este costo
se considera exagerado comparado con el de otras compañías del mismo tipo. A fin de evaluar
el costo se seleccionó una muestra aleatoria de 26 demandas recientes y se realizó el estudio
de costos. Se concluyó que el costo promedio es de 57 unidades monetaria con una
desviación estándar de 10 unidades monetarias. Con un nivel de significancia del 0.01 se
puede decir que ¿el estudio reveló un costo menor al establecido por la empresa?
Solución:
Paso 1
La hipótesis nula se plantea en el sentido que el costo promedio es de 60 unidades monetarias.
La hipótesis alternativa que el costo es menor a 60 unidades monetarias. Esto se expresa en la
H 0 : 600
siguiente forma: H : 600
1
Paso 2
Se usa un nivel de significancia del 0.01 con una distribución “t”, en consideración a que la
muestra en menor a 30, es decir, es una pequeña muestra.
Paso 3
Utilizando los datos de la muestra, se utiliza la siguiente fórmula como estadístico de prueba:
X 57 60
t 1.530
S 10
n 26
Paso 4
Los valores críticos para la distribución “t” se encuentran en la tabla correspondiente (anexo
D), con 25 grados de libertad (26 – 1), prueba de una cola a un nivel de significancia de 0.01,
correspondiendo un valor crítico de 2.485. En el siguiente figura se indica el presente
planteamiento:
89
Figura: Prueba de una cola
Paso 5
Puesto que –1.53 se encuentra en la región de aceptación de la hipótesis nula a un nivel del
1% de significancia, se concluye que los costos para los tramites de seguros de accidente no se
han disminuido y se mantiene a un nivel promedio de costo de 60 unidades monetarias.
Ejemplo
Para afrontar el problema Ud. selecciona una muestra aleatoria de 12 elementos y procede a
medir su largor con los siguientes resultados:
Solución:
Paso 1
H 0 : 43
Plantea sus hipótesis: H : 43
1
Como hipótesis nula que no se ha producido un cambio en las dimensiones del producto.
Como hipótesis alternativa que se ha producido un cambio en las características internas del
producto debido a los ajustes en las máquinas.
Paso 2
Se dispone a probar la hipótesis con un nivel de significancia del 0.02, utilizando la
distribución “t” porque es una pequeña muestra, con 11 grados de libertad aplicando el
principio de ( n- 1) y calculo para dos colar puesto que la hipótesis alternativa está planteada
desde el punto de vista de “diferente”.
90
Paso 3
X
El estadístico de prueba a utilizar es el siguiente: t S
n
X
X
498
41.5 S
X X
35
1.78
n 12 n 1 11
X 41.5 43.0
t 2.92
S 1.78
n 12
Paso 4
Para aplicar la regla de decisión, muestra en el siguiente gráfico el planteamiento anterior:
Paso 5
La hipótesis nula que la media poblacional es 43 mm se rechaza a un nivel de significancia del
0.02 y se acepta la hipótesis alternativa, concluyendo que los ajustes en las máquinas sí
causaron un cambió en la calidad de control en el largor de los diferentes elementos que se
producen.
Anteriormente se analizó ampliamente la prueba de hipótesis para cuando las muestra son
pequeñas, es decir, el tamaño de la muestra es menor a 30. A continuación se propone un
ejercicio de aplicación, para que Ud. los desarrolle atendiendo las sugerencias dadas.
Ejemplo
Un fabricante de pastas alimenticias sostiene que el contenido medio de proteínas del producto
es de 10.7. Un análisis de una muestra de 8 paquetes dio como resultado un contenido medio
de 10 con una desviación de 1. ¿Se puede aceptar como verdadera la afirmación del fabricante
a un nivel de 0.01?
91
X
Sugerencia: Utilizar el siguiente estadístico de prueba: t S
n
Solución:
H0: µ = 10,7 y H1: µ ≠10,7
Un ensayo bilateral con un nivel significativo de 0.01 el valor critico con 7 grados de libertad
es igual a 2,988 (ver tabla de t-student)
10 10,7 0,7
Según el estadístico: t 1,98
1 0,3535
8
Como el estadístico (1,98) es menor que el valor crítico (2,988) se acepta la hipótesis nula.
Una prueba que utiliza la distribución t también puede aplicarse para comparar dos medias
muestrales que tienen las siguientes características:
1. Las poblaciones deben de distribuirse normalmente.
2. Las poblaciones deben de ser independientes.
3. Las varianzas de las poblaciones deben de ser iguales.
4. Las muestras tienen menos de 30 observaciones.
5. Las desviaciones estándar de las poblaciones no se conocen.
n1 n2 2 n1 n2
Donde:
X1 y X 2 Las medias de las muestras
n 1 yn 2 Los tamaños de las muestras
2 2
S yS
1 2 Las varianzas de las muestras
G.L. Grados de libertas, igual a = n1 n2 2
Ejemplo
Se ha propuesto realizar un examen de estadística a dos grupos de estudiantes, con el
propósito de saber si los grupos tienen similares conocimientos sobre pruebas de hipótesis.
Para ello Ud. seleccionó el grupo A compuesto de 5 estudiantes de educación a distancia y el
grupo B compuesto por 6 estudiantes de educación presencial, y los sometió a la prueba,
dando como resultado los siguientes tiempos en minutos:
92
Cuadro: prueba para dos grupos
Educación a Educación
distancia presencial
2 3
4 7
9 5
3 8
2 4
3
Probar con un nivel de significacia del 0.10 si existe alguna diferencia de habilidad en los
conocimientos de los dos grupos.
Solución:
Paso 1: Las hipótesis las plantea en los siguientes términos:
Ho : 1 2
H1 : 1 2
La hipótesis nula consistente en que los dos grupos no tienen alguna diferencia en la habilidad
de conocimiento, y la hipótesis alternativa en que existe diferencia entre los grupos sobre la
habilidad en la aplicación de los conocimientos.
Paso 2: Prueba la hipótesis con un nivel de significancia del 10%, utilizando la distribución t
student porque las muestras son menores que 30, con 9 grados de libertad (5+6 – 2) y prueba
de dos colar porque la hipótesis alternativa está planteada en función de “diferente”.
Paso 3 Para el cálculo del estadístico de prueba se requiere estimar las medias de los grupos y
sus varianzas, los cuales se presentan en el siguiente cuadro:
X1 X 2 45
t 0.6620
2 2
S n1 1 S n2 1 1 1
1 2
8.55 1 4.46 1 1 1
562 5 6
n1 n2 2 n1 n2
93
Figura: Pruebas para comparación de dos medias
Paso 5: La decisión es no rechazar la hipótesis nula debido a que el valor del estadístico de
prueba –06620 ha caído en la zona de aceptación de dicha hipótesis, concluyendo que no
existe diferencia en la habilidad de aplicación de conocimientos entre los estudiantes a
distancia y los estudiantes de presencial, con un nivel de significancia del 10%.
La característica principal para aplicar este tipo de prueba, es que las muestras sean
dependientes y el tamaño de cada muestra sea inferior a 30 elementos seleccionados.
Ejemplo:
Un grupo de alumnos registra un índice de puntuación en estadística, que se considera muy
bajo para aceptarlos al siguiente nivel. Proceden a tomar un curso de nivelación, obteniendo
los siguientes registros antes y después del curso. Con un nivel de significancia del 0.05
probar si el curso de nivelación mejoró las condiciones del grupo.
Antes 128 105 119 140 98 123 127 115 122 145
Después 135 110 131 142 105 130 131 110 125 149
En estas condiciones hay un par de índices de eficiencia para cada miembro del grupo, antes y
después del curso,; éste conjunto de pares es lo que se denomina muestra por pares. La prueba
de hipótesis que se realiza para determinar si hay diferencia entre los índices antes y después
del curso de nivelación, es lo que denomina prueba de diferencia por pares. Obsérvese que las
dos muestras, una antes y una después, dependen entre sí, debido a que los mismos alumnos
están en ambas pruebas, por tanto son dependientes.
La muestra está constituida por la diferencia entre los registros de puntuación antes y después
del programa. Así, la media de las diferencias entre los registros de rendimiento, se designa
mediante d . Se presenta a continuación el procedimiento de la prueba:
94
Solución:
Ho : d 0
Paso 1: H : 0
1 d
La hipótesis nula plantea que no hay diferencia de eficiencia después del curso. La hipótesis
alternativa plantea que el programa de nivelación mejoró el nivel de los estudiantes.
Paso 2
Se usa un nivel de significancia del 5%, la muestra seleccionada es de 10 estudiantes
considerada pequeña muestra, la distribución de probabilidad a utilizar es la t-student , con
n – 1 grados de libertad.
Paso 3
d
El estadístico de prueba a utilizar es: t
Sd
n
Donde:
d :es la media de la diferencia entre las observaciones por pares.
Sd :es la desviación estándar de las diferencias entre las observaciones por pares.
n :es el número de observaciones por pares.
G.L :son los grados de libertad (n –1)
Para determinar el calculo del estadístico de prueba se requiere conocer la media de las
diferencias y su desviación estándar, para lo cual procedemos a su cálculo utilizando el
siguiente cuadro:
2
d
2
386
462
d 46 d n 10
d 4.60 Sd 4.40
n 10 n 1 10 1
95
d 4 .6
t 3.30
Sd 4 .4
n 10
Paso 4
El valor crítico de t para esta prueba de una cola a la derecha, es 1.833 que se obtiene en la
tabla de la distribución “t” (anexo D), ubicando en la columna de la izquierda 9 grados de
libertad y recorriendo a la derecha hasta la columna de una cola con 0.05 nivel de
significancia. En la siguiente gráfica se indica lo expuesto:
Paso 5
Como el valor t (3.30) está en la región de rechazo de la hipótesis nula, entonces se acepta la
hipótesis alternativa y se concluye que el programa de adiestramiento para los alumnos fue
eficaz para aumenta su eficiencia.
Para demostrar una proporción muestral se requiere cumplir con ciertos principios binomiales,
tales como:
1. Los datos recolectados son el resultado de un conteo.
2. El resultado de un experimento se clasifica en una de las dos categoría
mutuamente excluyentes: un éxito o un fracaso.
3. La probabilidad de éxito se mantiene constante.
4. Los intentos para realizar cada experimento son independientes.
5. El tamaño de la muestra debe ser tan grande para que se dé la siguiente
condición: (n)(p)>5 y (n)(1-p)>5
96
Para realizar una prueba de hipótesis a fin de evaluar la magnitud de la diferencia entre la
proporción muestral
p y la proporción poblacional ( P ), se puede usar el siguiente
estadístico de prueba:
PP
Z
P (1 P )
n
donde:
P es la proporción muestral.
P es la proporción poblacional.
n es el tamaño de la muestra.
De otra manera, en lugar de examinar la proporción de éxitos en una muestra como en el caso
anterior, es posible estudiar el número de éxitos en una muestra, para determinar el número de
éxitos esperados o hipotéticos en la población, se utiliza el siguiente estadístico de prueba:
X n p
Z
n p q
donde:
X es el número de éxitos en la muestra.
P es la proporción hipotética de éxitos.
PRUEBA UNILATERAL
Ejemplo
Suponga que para que lo elijan a Ud. como alcalde, es necesario que logre al menos el 80%
de los votos del barrio donde vive. Dado su interés decide hacer una encuesta en el barrio con
una muestra de 2.000 personas, para ver la posibilidad y 1.550 dieron respuesta favorable por
sus aspiraciones. Pruebe la hipótesis de favorabilidad, con un nivel de significancia del 0.05.
Solución:
Antes de realizar el procedimiento de los cinco pasos, veamos si cumple la condición de:
97
Paso 3
PP
El estadístico de prueba a utilizar es: Z P(1 P)
n
Donde:
P es la proporción muestral.
P es la proporción poblacional.
n es el tamaño de la muestra.
P (1 P )
P es el error estándar de la proporción poblacional.
n
1.550
0.80
PP 2.000 0.775 0.80 0.025
Z 2.80
P (1 P ) 0.80(1 0.80) 0.00008 0.0089443
n 2.000
Paso 4
La regla de decisión se toma sobra la base de un valor critico calculado a partir de la tabla de
distribución Z, con un área de 0.4500 (0.5000-0.0500)
Paso 5
Como el valor Z (-2080) está en la región de rechazo de la hipótesis nula, entonces se acepta
la hipótesis alternativa y se concluye la favorabilidad de voto es menos al 80%.
98
PRUEBA BILATERAL
Ejemplo
Probar al nivel de significancia del 0.01 la aseveración que el 55% de las familias que
planean adquirir una residencia en Melgar desean su ubicación en un condominio. Para su
estudio Ud. toma una muestra aleatoria de 400 familias que planean comprar una residencia en
Melgar, de las cuales 228 familias desean en un condominio.
Solución:
Paso 1
La hipótesis nula se plantea diciendo que el 55% de las familias desean adquirir residencia en
un condominio en Melgar.
Ho : P 0.55
H1 : P 0.55
Paso 2
La distribución de probabilidad a utilizar es la normal estandarizada en Z, con un nivel de
significancia del 1%, con dos colas.
280 0.55
PP 400 0.02
Paso 3 Z 0.80
P (1 P ) 0.55(1 0.55) 0.0248747
n 400
Paso 4
La regla de decisión se toma sobre la base del siguiente grafico:
Figura: Prueba de proporción de dos colas
Paso 5
La hipótesis nula que la proporción verdadera es del 55% no es rechazada a un nivel de
significancia del 1%, concluyendo que el 55% de las familias planean adquirir residencia
vacacional en Melgar lo desean en un condominio.
A continuación se proponen dos ejercicios para que los desarrolle aplicando las sugerencias
propuestas:
99
Ejemplo:
Se lanza una moneda 200 veces y se obtienen 105 caras. Si el nivel de significancia es de 1%
probar la hipótesis que la probabilidad de caras es de ½ contra la hipótesis:
a. Que es mayor de ½.
b. Que es menor de ½.
c. Que es diferente de ½.
X n p
np 200 1 2 100
n p q 2001 2 1 2 7.07 Z
n p q
Ejemplo
Un fabricante de un empaque para harinas garantiza que tiene una efectividad de 95% en la
protección contra la humedad durante un período de 6 meses. Se observó una muestra de 100
paquetes encontrándose resultados positivos en 85 paquetes. Comprobar si la afirmación del
fabricante es verdadera con un nivel de significancia de 0.05.
Sugerencia: Utilizar prueba de una proporción.
( P1 P2 ) P1 P2
Z
PC (1 PC ) PC (1 PC )
n1 n2
Donde:
n1 Es la cantidad seleccionada en una muestra.
n2 Es la cantidad seleccionada en la otra muestra.
X X2
PC 1 Es la media ponderada de las proporciones muestrales.
n1 n2
X1 Es la cantidad de éxitos de la primera muestra.
X2 Es la cantidad de éxitos de la segunda muestra.
P1 yP2 Proporción de éxitos de la población uno y dos respectivamente.
Ejemplo
Una fábrica de perfumes ha desarrollado un nuevo producto. Varias pruebas de comparación
indican que el perfume tiene un buen potencial en el mercado. Sin embargo el departamento
de mercadotecnia y publicidad quieren planear una estrategia de manera que el producto
llegue e impresione al sector más grande posible del público comprador. Una de las preguntas
es si prefiera el perfume una proporción mayor de mujeres jóvenes o una proporción mayor de
100
mujeres maduras. Por tanto, existen dos poblaciones: una que consta de mujeres jóvenes y otra
de damas maduras. Se usó una prueba estándar de aroma. Se seleccionaron aleatoriamente
damas y se les pidió que olieran varios perfumes, incluyendo el que suelen usar, y por
supuesto el nuevo perfume. La persona que realiza la prueba es la única que conoce el
nombre de los perfumes. Cada mujer selecciona el perfume que le agrada más.
Solución:
Paso 1
La hipótesis nula se plantea diciendo que no hay diferencia entre la proporción de mujeres
jóvenes y maduras que prefieren el nuevo perfume. La hipótesis alternativa se plantea que las
dos proporciones no son iguales.
Ho : P1 P2
H1 : P1 P2
Paso 3: Los planes son tomar una muestra al azar de 100 mujeres jóvenes designada por n1
(nsubuno) y una muestra de 200 mujeres mayores designada como n subdos. Los resultados
una vez hecha el experimento dio los siguientes resultados: de las 100 mujeres jóvenes 20
eligieron el nuevo perfume, designando este valor como X subuno; y de las 200 mujeres
maduras 100 prefirieron el nuevo perfume, designando este valor como X subdos.
X1 X 2 20 100 120
PC 0.40
n1 n2 100 200 300
20 100
P1 P2 100 200 0.30
Z 5.0
PC (1 PC ) PC (1 PC ) 0.40(1 0.40) 0.40(1 0.40) 0.06
n1 n2 100 200
Paso 4
Los valores críticos para un nivel de significancia del 5% son –1.96 y +1.96. Igual que en los
otros casos, la siguiente grafica establece la regla de decisión:
101
Figura: prueba de dos proporciones
Paso 5
El valor de Z calculado de –5.0 se encuentra en el área de rechazo de la hipótesis nula. Por
tanto, la hipótesis que las proporciones son iguales se rechaza a un nivel del 5% de
significancia.
Dos lotes de frutas conformados cada uno por 250 unidades son tratados y almacenados en
iguales condiciones salvo que el lote No 1 está a temperatura ligeramente inferior que el lote
No 2. Pasado un tiempo se encuentra que el lote No 1 hay 225 frutas sanas y en el lote No 2
hay 200 sanas. Probar la hipótesis que la temperatura más baja favorece la conservación de las
frutas al nivel de significación de 0.05.
Ho : P1 P2
Paso 1: H : P P
1 1 2
X 1 X 2 225 200
PC 0.85
n1 n2 250 250
102
Figura: Prueba de dos proporciones
Paso 5
La temperatura más baja favorece la conservación de las frutas.
Como su nombre lo indica, consiste en comparar tres o más medias de una muestra para
identificar su homogeneidad o variabilidad. esta técnica estadística, normalmente es utilizada
para analizar resultados en la investigación con diseños experimentales y cuasi-
experimentales; muchas veces necesitamos comparar dos o más distribuciones que
corresponden a variaciones de una misma variable dependiente, afectada por una o más
variables independientes.
Su utilidad radica en determinar si una población normal tiene más variación que otra
población que se considera también normal. Como ejemplo se pueden mencionar, si dos
máquinas dedicadas a producir cierto artículo de precisión pueden ser confiables en el control
de calidad, es decir, el producto tiene el mismo largor, el mismo diámetro y las variaciones
presentadas son similares.
Ejemplo 16
La tasa media de rendimiento de dos tipos de acciones se pueden apreciar en el siguiente
cuadro, se desea saber si el rendimiento promedio es diferente a un nivel de significancia del
0.10.
103
Ho : 12 22
Paso 1:
H1 : 12 22
La variación de los rendimientos promedios de las acciones es igual como la hipótesis nula.
La variación de los rendimientos de las acciones es diferente como hipótesis alternativa.
Paso 3: El valor del estadístico de prueba sigue una distribución F, con la siguiente relación:
S12 12 2
F 2 5.76
S 22 5
Se acostumbra a colocar el mayor valor en el numerador, de tal forma que la relación siempre
será por lo menos igual a uno.
Paso 4
El valor crítico se obtiene del Anexo F, para lo cual se reproduce una parte de la tabla. Debido
a que utiliza una prueba de dos colas, el nivel de significancia para cada cola será de:
0.10 0.05 .
2 2
GRADOS LIBERTAD
NUMERADOR
G.L 5 6 7 8
Denominador
1 230 234 2.7 239
2 19.3 19.3 19.4 19.4
3 9.01 8.94 8.89 8.85
4 6.26 6.16 6.09 6.04
5 5.05 4.95 4.88 4.82
6 4.39 4.28 4.21 4.15
7 3.97 3.87 3.79 3.73
8 3.69 3.58 3.50 3.44
9 3.48 3.37 3.29 3.23
10 3.33 3.22 3.14 3.07
104
Paso 5: Dado que el valor de la distribución F (5.76) se encuentra a la derecha del valor crítico
(3.87), se acepta la hipótesis alternativa y se concluye que los rendimientos promedios de las
acciones son diferentes.
EJERCICIOS COMPLEMENTARIOS
1. La secretaria de salud quiere saber si esta en lo cierto, cuando afirma que la proporción de
fumadores en su localidad, para personas mayores de 16 años es del 40%. La secretaría
lleva a cabo una muestra de 600 personas mayores de 16 años, de las cuales 210 son
fumadoras. Pruebe la hipótesis de que la proporción de fumadores mayores de 16 años es
diferente del 40%, para un nivel de significancia de 0.05.
Proporcionan estos datos evidencia suficiente que indique que la permanencia promedio
en el hospital para pacientes con la enfermedad "A" es algo diferente a la permanencia
promedio para los pacientes con la enfermedad "B"? con un nivel de significancia de 1%
Mujeres Nº 1 2 3 4 5 6 7 8
Antes x 137 130 124 138 149 140 168 152
Después y 132 121 126 130 147 141 159 147
105
3.6 Aplicaciones en Excel y SPSS.1
A. Excel
Excel dispone de funciones que permiten realizar contrastes de hipótesis de igualdad de
medias y varianzas, de independencia y ajuste de la chi – cuadrado y otros contrastes. A
continuación se presenta la sintaxis de estas funciones:
B. SPSS
Ejemplo 2.17
Un agente de seguros vende pólizas a cinco individuos todos de la misma edad. De acuerdo
con las tablas actuariales, la probabilidad de que una persona con esa edad viva 30 años más
es de 3/5. Determine la probabilidad que dentro de 30 años vivan:
a. Al menos 3 individuos.
b. Como mucho dos individuos.
Dado que la situación de cada individuo es que viva o que no viva, y una de las dos
alternativas se debe de presentar, la situación de cada individuo se ajusta a una variable de
Bernoulli con probabilidad de éxito (vivir 30 años más) igual a 3./5 = 0.6. Al considerar los 5
individuos, se esta ante una variable X Binomial con n = 5, p = 0.6. Se designa F(X) como la
función de distribución, en donde para el literal a, habrá de calcularse P(X>=3).
Para calcular la probabilidad pedida se selecciona transformar, calcular (previamente es
necesario tener cargado un fichero cualquiera en memoria como se indica en la siguiente
figura..
106
Se trata de identificar la distribución Bernoulli, que solicita la cantidad y la probabilidad para
calcular la probabilidad acumulada para los parámetros solicitados. En la figura siguiente se
detalla la función desplegada en la ayuda.
Figura: Bernoulli
107
3.6.1 Actividades de aprendizaje.
Excel contiene varias herramientas de análisis útiles para realizar contrastes de hipótesis. La
opción análisis de datos del menú herramientas le lleva al cuadro de dialogo de la siguiente
figura:
Observe que puede realizar contrastes de pruebas t para medias de dos muestras emparejadas,
para dos muestras suponiendo varianzas iguales, para dos muestras suponiendo varianzas
desiguales y prueba z para medias de dos muestras.
Es posible ejecutar una prueba T de Student de dos muestras pareadas para determinar si las
medias de las dos muestras son iguales suponiendo que las varianzas de ambos conjuntos de
datos son iguales. Esta prueba generalmente se utiliza cuando un par natural de observaciones
en las muestras, como por ejemplo, cuando un grupo de muestra se somete dos veces a prueba,
antes de un experimento y después de este. Si elige dicha opción en el cuadro de dialogo
aparece la siguiente figura:
108
Rango para la variable 1 y 2: Se introduce la referencia de celda correspondiente al primer y
segundo rango de datos que desea analizar. El rango debe constar de una única fila o una
única columna.
Diferencia hipotética entre medias: Se introduce el número cero para indicar, que según la
hipótesis, las medias de las muestras son iguales.
Rótulos: Activa la casilla si la primera fila o columna del rango de entrada contiene rótulos y
la desactiva si carece de rótulos. El programa genera los rótulos de datos correspondientes
para la tabla de resultados.
Alfa: Se introduce el nivel de significancia para la prueba, valor que debe estar comprendido
entre el rango de cero y uno. El nivel alfa es un nivel de importancia relacionado con la
probabilidad de que haya un error de tipo I (rechazar una hipótesis verdadera).
En cuanto a las opciones de salida, se presenta “En una hoja nueva” para insertar una hoja en
el libro actual y pegar los resultados comenzando por la celda A1 de la nueva hoja de cálculo.
“En un libro nuevo” para crear un nuevo libro y pegar los resultados en una hoja del libro
creado.
Se desea probar si existe alguna diferencia significativa entre las semillas. En el presente
ejemplo de muestras apareadas se tiene la opción de salida utilizando después de haber
registrado la información:
109
Figura:Resultados de prueba de muestras pareadas
De acuerdo con los resultados se rechaza la igualdad de medias para el contraste de una cola
puesto que el valor crítico de T (2,01504918) es menor que el valor del estadístico de prueba t
(2,47152458), es decir, esta ubicado en la región critica o de rechazo de la hipótesis nula.
Además, la probabilidad o p-valor (0.02821228) es menor que el nivel alfa propuesto de 0.05.
Observando los resultados para el contraste de dos colas, se acepta la igualdad de medias,
puesto que el valor crítico de t (2.57057764) es mayor que el valor del estadístico de prueba t
(2.47152458), es decir, cae fuera de la región crítica o de rechazo, además, la probabilidad o
p-valor (0.05642456) es mayor ligeramente al nivel alfa estipulado de 0.05.
En Excel es posible ejecutar una prueba t de Student en dos muestras para determinar si sus
medias son iguales suponiendo que las varianzas de ambos conjuntos de datos son
desconocidas e iguales. Esta prueba se conoce con el nombre de prueba t homocedástica. En el
cuadro de diálogo de “Análisis de datos” se elige prueba t para dos muestras suponiendo
varianzas iguales. El siguiente ejemplo permite entender el contraste, suponga que se están
utilizando ampollas de la marca A durante muchos años, pero se contempla el cambio a la
marca B debido a un mejor precio. Se afirma que la marca B es tan bueno como el A y a fin
de contrastar dicha afirmación se toman las siguientes muestras de cada una de las marcas y se
verifica el tiempo en horas de efecto y si se admite que no existe competencia entre las dos
marcas, se trata de probar la hipótesis de que el efecto en horas de las ampollas de la marca B
es igual a las de la marca A.
110
Figura: Prueba t para dos muestras
111
rechazo. Además las dos probabilidades o p-valores (0.0109339 y 0.0218678) son menores
que el alfa propuesto de 0.05.
En Excel es posible ejecutar una prueba t Student en dos muestras para determinar si sus
medias son iguales, suponiendo que las varianzas de ambos conjuntos de datos son
desconocidas y desiguales. Esta prueba se conoce con el nombre de prueba t heterocedástica.
Si en el cuadro de dialogo de “Análisis de datos” se elige la prueba t para dos muestras
suponiendo varianzas desiguales, se obtiene el siguiente cuadro de diálogo:
Para entender la prueba de t para dos muestras suponga que un ingeniero químico quiere
analizar la cantidad de nicotina de dos marcas diferentes de cigarrillos (X y Y) para lo cual
dispone de la información que se presenta junto con el cuadro de salida de la prueba:
112
En el ejemplo del contenido de nicotina para las dos marcas de cigarrillos, se rechaza la
igualdad promedio de nicotina, tanto para el contraste de una cola como para el contraste de
dos colas, puesto que ambos valores críticos de t (1.7396064 y 2.1098185) son menores que el
valor estadístico de prueba t (2.5156445), es decir, caen dentro de la región crítica o de
rechazo. Además las dos probabilidades o p-valores (0.011112 y 0.0222241) son menores que
el nivel alfa propuesto de 0.05.
En Excel también es posible ejecutar una prueba Z de la normal en dos muestras para
determinar si sus medias son iguales, suponiendo que las varianzas de ambos conjuntos de
datos son conocidas. Si en el cuadro de diálogo “Análisis de datos” se elige la opción Prueba
Z para medias de dos muestras, suponiendo que las cifras que se registran corresponden al
análisis de proteínas realizadas a una misma variedad de trigo cosechada en dos distritos
diferentes, y se desea contrastar si existe alguna diferencia significativa en la cantidad
promedio de proteína en los dos distritos, se obtiene el siguiente cuadro de diálogo:
113
En el presente ejemplo de las muestras de trigo de los dos distritos, se acepta la igualdad del
contenido promedio de proteínas, tanto para el contraste de una cola como para el contraste de
dos colas, puesto que ambos valores críticos de Z ( 1.64485348 y 1.95996279) son mayores
que el valor estadístico de prueba Z (0.19377279), es decir, cae fuera de la región crítica o de
rechazo. Además, la probabilidad o p-valor (0.42317692) es mayor que el nivel alfa
preestablecido de 0.05.
A. Excel
114
columnas del rango de salida que se haya especificado. En el cuadro de “Cantidad de números
aleatorios” introduzca el número de puntos de datos que dese ver; si no introduce algún
número el programa rellenará todas las columnas del rango de salida que haya especificado.
En el cuadro de “Distribución” haga clic en distribución estadística que desee utilizar para
crear los valores aleatorios
115
muestra de la figura 2.8. A continuación se explica la funcionalidad de todos los campos del
cuadro de diálogo de la muestra.
Rótulos: Active ésta casilla si la primer afila y la primera columna del rango de entrada
contiene rotulo. Desactive si el rango de entrada carece de rotulo.
Método de muestreo: Haga clic en el periódico o aleatorio para indicar el intervalo de
muestreo que desee.
Periodo: Introduzca el intervalo en el que desee realizar la muestra. El valor n del período del
rango de entrada y cada valor n del período siguiente se copian en la columna de resultados.
El muestreo termina cuando se llegue al final del rango de entrada.
Número de muestra: Introduzca el número de valores aleatorios que desee en la columna de
resultados. Cada valor se extrae de una posición aleatoria del rango de entrada, y puede
seleccionarse cualquier número más de una vez.
Rango de salida: Introduzca la referencia correspondiente a la celda superior izquierda de la
tabla de resultados. Los datos se escriben en una sola columna debajo de la celda. Si
selecciona “Periódico”, el número de valores de la tabla de resultados es igual al número de
valores del rango de entrada dividido por la tasa de muestreo. Si selecciona “Aleatorio”, el
número de valores de la tabla de resultados es igual al número de muestras.
116
En hoja nueva: Hace clic en ésta opción para insertar nueva hoja en e libro actual y pegar los
resultados, comenzando por la celda A1 de la nueva hoja de cálculo. Para darle un nombre a la
nueva hoja de cálculo, escríbalo en el cuadro.
En libro nuevo: Haga clic en ésta opción para crear un libro nuevo y pegar los resultados en
una hoja nueva del libro creado.
Al pulsar aceptar en la figura 2.8, se obtiene la muestra aleatoria simple con ó sin reposición.
B. SPSS
Ordenar casos
Para ordenar una variable aleatoria de un archivo en SPSS, elija en los menús: datos,
seleccionar casos como se indica en la figura:
Al hacer clic en ordenar datos aparece la siguiente figura que permite ordenar por la variable
en que se esté interesado, para el caso se ha seleccionada la edad.
Figura:
117
Seleccionar una muestra aleatoria
En la barra de menú elija datos, y selecciona casos como se indica en la figura:
Figura: Selección de casos
118
Actividades de aprendizaje.
Ejercicio
Generar 20 números aleatorios distribuidos uniformemente en el intervalo (0,1). Generar
igualmente 20 números aleatorios entre 50 y 100.
Ejercicio:
Generar 15 números aleatorios distribuidos según una variable de Poisson de media 4 y según
una binomial(40,1/10)
Desarrollo:
En el menú Herramientas de Excel elige “Análisis de datos”, a continuación selecciona
“Generación de números aleatorios” y rellena la pantalla de entrada como se indica en la
figura 2.7 y 2.8, obteniendo los resultados de la figura 2.9. Se observa que los rangos de los
dos conjuntos de números aleatorios son parecidos, puesto que una binomial (n,p) puede
aproximarse por una Poisson de parámetros np, siempre que np 5 y p 1 para el caso
10
del enunciado.
119
Figura: Ventana variable Poisson
120
Resumen
Cuando las personas toman decisiones lo hacen con base en creencias que tienen en relación a
su concepto de realidad. Cada una de estas creencias origina una hipótesis, que es una
proposición avanzada con posibilidad de ser verdadera. La prueba de hipótesis es un método
sistemático de evaluar creencias sobre la realidad que requiere de la confrontación de una
creencia con una evidencia y decidir si puede mantenerse como razonable o descartarse por
insostenible, e intervienen 5 pasos principales.
El primer paso es la formulación de dos hipótesis opuestas, la hipótesis nula simbolizada por
H 0 y la hipótesis alternativa simbolizada por H1 siendo ambas mutuamente excluyentes y
también colectivamente exhaustivas, las cuales se pueden expresar en varias formas, mientras
que la hipótesis nula puede ser expresada como exacta o inexacta, la alternativa siempre se
expresa como inexacta de dos o una cola.
El paso cuatro es la confrontación con la regla de decisión, que consiste en aceptar o rechazar
la hipótesis nula. El rechazo erróneo de una hipótesis nula que en realidad es verdadera se
llama error tipo I y ocurre con una probabilidad de . La aceptación errónea de una hipótesis
nula que en efecto es falsa se llama error tipo II y ocurre con una probabilidad . Dado el
tamaño muestral de n, cualquier cosa que reduzca hará aumentar en forma automática.
Las dos probabilidades complementarias 1 con respecto a y 1 con respecto a , se
conocen respectivamente como el nivel de confianza y la potencia de la prueba de hipótesis.
La relación entre los errores tipo I y tipo II se pueden describir con ayuda de la
correspondiente curva.
121
CAPITULO CUATRO
4. ANÁLISIS DE VARIANZA
Introducción.
En esta unidad se prosigue con el análisis de pruebas de hipótesis. Recuerde que en capítulo
anterior se examinó la teoría general de la prueba de hipótesis y se describió el caso en el que
fue seleccionada una muestra grande a partir de la población. Se empleó la distribución Z
como base para determinar si es razonable concluir que una media calculada a partir de una
muestra, proviene de una población hipotética. Además se probó si dos medias muestrales
provienen de poblaciones iguales. También se efectuaron pruebas de una y dos muestras para
relaciones proporcionales utilizando la distribución normal como entidad estadística de
prueba. Se utilizó la distribución t como entidad estadística de prueba para muestras
pequeñas (con menos de 30 observaciones)
Cuando se desea conocer la homogeneidad que existe entre tres o más medias muestrales, se
procede a determinar la variabilidad entre esas medias, técnica que se conoce como “análisis
de varianza”. Es decir, cuando productos o individuos son sometidos a tratamientos
determinados para ver cómo éstos influyen en resultados o comportamientos, lo más
aconsejable es utilizar la técnica de análisis de varianza.
El objetivo del análisis de varianza es determinar cuales son las variables independientes de
importancia en un estudio, y en qué forma interactúan y afectan la respuesta.
Objetivo general.
Objetivo específico.
4.1. Generalidades.
122
Del análisis de varianza, podemos decir que esta técnica estadística, normalmente es utilizada
para analizar resultados en la investigación con diseños experimentales y cuasi-
experimentales; muchas veces necesitamos comparar dos o más distribuciones que
corresponden a variaciones de una misma variable dependiente, afectada por una o más
variables independientes.
Un modelo de análisis de varianza es de efectos fijos cuando los resultados obtenidos sólo son
válidos para esos determinados niveles del factor estudiado y lo que ocurra a otros niveles del
factor puede ser diferente.
Un modelo es replicado si el experimento se repite varias veces para cada nivel del factor; en
caso contrario se dice que el modelo es por unidad de casilla.
H o : 1 2 ... K
H 1 : No todas las medias de la población son iguales.
La media general de las muestra, está representada por X , y es la suma de todas las
observaciones divida entre la cantidad total de las mismas, expresada de la siguiente forma:
123
K nj
X
j 1 i 1
ij
X
nt
Donde: nt n1 n2 ... nK
Si el tamaño de cada muestra es n, nT kn , la ecuación de la media general se reduce a:
K nj K nj K
X ij
X ij
j 1 i 1
j 1 i 1
n X
j 1
j
X
nt K K
En otras palabras, cuando los tamaños de muestra son iguales, la media general muestral es
justamente el promedio de las medias de las K muestras.
Ejemplo:
Suponga que una empresa tiene tres dependencias diferentes en donde produce tubos de
iluminación, y desea verificar el control de calidad en cuanto a duración se refiere de las
bombillas, y para ello toma una muestra de 6 unidades de cada factoría y las somete a desgaste
hasta que dejan de iluminar con los siguientes resultados en horas:
Solución:
La media general es igual a:
3
X
J 1
J
79 74 66 219
X 73
nJ 18 3
Se observa que se obtienen las medias para cada tratamiento (79,74,66) y una media general
(73). Para llevar a cabo la prueba de la igualdad de las medias de la población, se subdivide la
variación total en dos mediciones:
Diferencia entre los grupos.
Diferencia dentro de los grupos.
124
La varianza de la muestra total se particiona en la varianza dentro de las plantas y la varianza
entre las plantas, tal como se indica en el siguiente gráfico:
Figura 5.1 Componentes de la variación total
k n 2
2
3 6 X X 85 732 75 732 ... 71 732 75 732 ...
VT
J 1
ij
i 1
59 732 64 732 946
K n
X
j 1 i 1
ij
k n
2
Variación dentro del grupo (VDG) = X ij X j = VDG
j 1 i 1
K 2
Variación entre grupos (VEG) = n
j 1
j X j X = VEG
3 2
2 2 2
VEG n6 X X 679 73 674 73 666 73 516
J 1
125
K= es el número de grupos, niveles o tratamientos que se están comparando.
n j es el número de observaciones del grupo, nivel o tratamiento j.
X j es la media de la muestra del grupo, nivel o tratamiento j.
X es la media general o gran media.
Compruebe que la variación total sea igual a la sumatoria de la variación entre y dentro de los
grupos.
Puesto que K niveles están siendo comparados, existen (K-1) grados de libertad asociados con
la suma de cuadrados entre los grupos, niveles o tratamientos. Como cada uno de los K
niveles contribuye con ( n j 1 ) grados de libertad, existen (n–k) grados de libertad asociados
con la suma de cuadrados dentro de los grupos.
Si cada suma de cuadrados se divide entre sus grados de libertad asociados, se obtienen tras
varianzas o términos cuadráticos medios, como se indica en el siguiente cuadro:
Total k n 2 (n-1) VT
X
j 1 i 1
ij X n 1
126
A
Rechaza H 0 si Valor crítico
B
Para el caso la relación es igual a 8.99 mayor que el valor crítico 3.68, entonces se tienen
pruebas suficientes para rechazar la hipótesis nula consistente en que las medias de las tres
poblaciones son iguales. En otras palabras el análisis de varianza apoya la conclusión que las
medias para la duración de las bombillas es diferente en las tres plantas.
El gráfico para dicho planteamiento es el siguiente:
El valor de la relación es superior al valor crítico, por tal razón se rechaza la hipótesis nula
consistente en que las medias poblacionales sean iguales.
El análisis de varianza simple se presenta cuando se tiene un solo factor estudiado en sus
distintos niveles que influyen sobre una variable respuesta que mide el resultado del
experimento, y el resto de los factores conforman el error experimental influyendo sobre la
variable respuesta de manera no controlable. El factor se presenta con I niveles, y dentro de
cada nivel se analiza una serie de observaciones del experimento en control (unidades
experimentales) y su efecto sobre la variable respuesta, es decir, para cada nivel se repite el
experimento varias veces (replicación).
El análisis de varianza descompone la variabilidad del resultado de un experimento en
componentes independientes (variación total descompuesta en variaciones particulares). Como
ejemplo se puede considerar los rendimientos de un mismo cultivo en parcelas diferentes, que
aunque labradas en las mismas condiciones, producen cosechas que son distintas. La
variabilidad de rendimientos es producida por factores o tratamientos controlables (abono,
riego, etc.), donde cada factor o tratamiento puede presentar diferentes niveles (diferentes
cantidades o calidades de abono, distinta intensidad de riego); también puede ser producida
por otros factores o tratamientos no controlables (humedad relativa, clima, plagas, etc.).
127
Se representa por uij la variación causada por todos los factores no controlables (error
experimental).
X iJ i ij donde:
Entre estas tres componentes, la gran media se comprende por sí misma. El efecto i del
tratamiento o factor es la diferencia entre la gran media y la media J de la población en
tratamiento J, esto es: i J
Por consiguiente, si hay J tratamientos en un experimento, la suma de todos los J efectos de
los tratamientos debe ser igual a cero:
J J J
i J J J 0
J 1 J 1 J 1
iJ X iij j
128
Admite que los errores iJ se distribuyen independientemente tanto entre
poblaciones en tratamiento como dentro de ellas.
Acepta que la varianza 2 del error permanece constante para cada una de las
poblaciones.
Solución:
Para ajustar la información a un modelo de análisis de varianza, se considera como variable
respuesta la altura de los árboles en metros, y como único factor la variable cualitativa
especie con cinco niveles (A, B, C, D, E). Dado que se tiene un modelo de un solo factor,
se desea probar si las variadas especies de árboles tienen igual o diferente promedio de
altura con un nivel de significancia del 1%.
Primero se estiman las medias para cada una de las especies y la media total, conforme al
siguiente cuadro:
Cuadro: Registro de estadísticos para diferentes especies
Especie A Especie B Especie C Especie D Especie E Total
8.52 6.45 7.41 7.55 6.54
7.15 8.73 8.65 7.74 7.07
6.43 8.52 8.81 7.84 7.17
6.21 8.83 8.59 7.41
8.13 8.53 8.87 7.40
6.12 8.94 8.81
129
8.40
8.91
8.19
8.56
Sumas 42.56 84.06 51.14 37.94 20.78 236.48
Promedio 7.093 8.406 8.523 7.588 6.926 7.707
Observaciones 6 10 6 5 3 30
5 nj
X
j 1 i 1
ij
8.52 7.15 ... 6.45 8.76 ... 7.41 8.65 ... .... 236.48
X 7.882666
nt 30 30
k n 2
K 2
130
En el anexo “F” Tabla de Distribución F determina el correspondiente valor crítico para el
numerador (k-1= 5-1=4) y el denominador (n-K = 30-5=25), con una probabilidad de error
tipo 1 o un nivel de significancia del 1%, que corresponde a F0.01 4.18 . Para el caso la
relación es igual a 6.332 mayor que el valor crítico 4.18, entonces se tienen pruebas
suficientes para rechazar la hipótesis nula consistente en que las medias de las cinco
variedades de árboles son iguales. En otras palabras el análisis de varianza apoya la
conclusión que las medias para la altura de las diferentes especies de árboles es diferente.
Pruebas “a posteriori”
Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las posibles medias
que podría ser diferente al rechazar la hipótesis.
Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan el rango
(diferencia entre medias) de todos los pares de muestras como estadístico y dicho rango debe
superar un cierto valor llamado mínimo rango significativo para considerar la diferencia
significativa.
La principal diferencia con respecto a la t de Student radica en que usan MSE como estimador
de la varianza, es decir un estimador basado en todas las muestras.
Ejercicios
Con un nivel de significancia de .025, determine si hay una diferencia en el ausentismo entre
los diversos grados.
131
Área 1 Área 2 Área 3
8 10 32
18 16 8
14 28 16
20 25 27
12 7 17
14 17 20
15 19
16 21
20
Con un nivel de significancia de .025, determine si hay una diferencia en la rapidez con que
pagan las facturas en estas tres áreas.
3.- Un agrónomo desea estudiar el rendimiento (en libras) de cuatro variedades diferentes de
calabacitas. Se dividió una parcela en 16 lotes y se asignaron cuatro lotes al azar a cada
variedad. Los resultados del experimento (en libras) fueron
Con un nivel de significancia de .01, determine si hay una diferencia en el rendimiento de las
diferentes variedades de calabacitas.
Edad
18-24 25-29 30-39 40-59 60 y más
6.31 7.64 8.37 11.23 6.74
4.27 5.36 9.26 10.64 7.36
5.75 3.85 10.16 8.32 5.12
6.24 6.48 9.00
7.86 7.53
Con un nivel de significancia de .05, determine si hay una diferencia en la cantidad de dinero
aplicado a la compra de equipo opcional en automóviles nuevos entre los diferentes grupos de
edad.
132
5.- Los alumnos de la clase de mercadotecnia calificaron el desempeño del profesor como
excelente, bueno, malo y pésimo. Las calificaciones que dieron los estudiantes al profesor
fueron comparadas con sus calificaciones finales del curso de mercadotecnia. Lógicamente, se
pensaría que en general, los estudiantes que calificaron al profesor con excelente tendrían una
calificación final mucho más alta que los que lo calificaron como bueno, malo o pésimo. Esto
supondría también que quienes calificaron al docente como pésimo obtendrían las
calificaciones mas bajas. Se seleccionaron muestras de calificaciones finales de los alumnos
por cada tipo de calificación dada al maestro.
6.- En un esfuerzo por determinar la más efectiva manera de enseñar principios de seguridad
a un grupo de empleados de una compañía, cuatro diferentes métodos fueron tratados. Veinte
empleados fueron asignados aleatoriamente a cuatro grupos. El primer grupo recibió
instrucción programada en folletos y trabajaron a lo largo del curso a su propio paso. El
segundo grupo atendió lecturas. El tercer grupo observó presentaciones en televisión, y el
cuarto fue dividido en pequeños grupos de discusión. Al final de las sesiones, una prueba fue
aplicada a los cuatro grupos. Los resultados fueron:
Calificaciones
Instrucción Grupos de
Lecturas Televisión
programada discusión
6 8 7 8
7 5 9 5
6 8 6 6
5 6 8 6
6 8 5 5
Pruebe en el nivel de significancia de .05 si hay o no diferencia entre las cuatro medias.
7.- Una revista para consumidores esta interesada en saber si existe o no alguna diferencia en
la duración promedio de cuatro marcas diferentes de pilas para radios de transistores. Se probó
una muestra aleatoria de cuatro pilas de cada marca, con los siguientes resultados (en horas):
133
Marca 1 Marca 2 Marca 3 Marca 4
12 14 21 14
15 17 19 21
18 12 20 25
10 19 23 20
Con un nivel de significancia de .05, pruebe si hay alguna diferencia en la duración promedio
de estas cuatro marcas de pilas para radios de transistores
Con frecuencia interesa analizar los efectos de dos tipos de factores o tratamientos. Suponga
que un experimento incluye dos tipos de factores: el uno llamado C (lo que sugiere columna)
consistente en K tratamientos diferentes, y el otro, denominado F (lo que sugiere fila)
consistente en J tratamientos diferentes. Se admite que respecto al j-ésimo tratamiento de F y
el K-ésimo tratamiento de C, existen cuatro componentes así:
La varianza total de la muestra se particiona en la varianza entre las filas, varianza entre
columnas, varianzas entre la j x k, y las varianzas del error aleatorio. Para este modelo, los
cálculos del análisis de la varianza para las sumas de los cuadrados son idénticos a los
realizados en el modelo de un solo factor, tan solo que se calculan variaciones para el factor
de fila, de columna y para el error aleatorio. De manera análoga, los grados de libertad y los
cuadrados medios son los mismos. A continuación se indica el cuadro resumen para el
análisis de varianza de dos factores:
134
(i)
Error
2
de c r
r 1c 1 MCE
VE
muestre VE X ij X . j X i. X r 1c
j 1 i 1
o, E
c r 2
Total, T VT X ij X rc 1
j 1 i 1
X
j 1 i 1
ij X La sumatoria de los valores de todos los bloques y de todos los grupos,
Para contrastar los efectos de los factores en el modelo, se construye un estadístico que se
compara los cuadrados medios, que bajo la hipótesis nula sigue una distribución F.
Ejemplo:
Suponga que existen cuatro parcelas diferentes las cuales son sometidas sucesivamente a seis
tipos de insumos y se piensa que la producción es afectada por el tipo de insumo y
mantenimiento a que es sometida. Se desea probar los diferentes tratamientos afectan la
producción por parcela, y la producción es la siguiente:
135
Los totales por grupo (parcelas) y sus correspondientes promedios, los totales y los promedios
por tratamientos o bloques ( insumo y manteniendo), así como la gran media se indican en el
cuadro.
c r
X
j 1 i 1
ij
1.887
X 78,625
rc 24
Para determinar los resultados del experimento de diseños de bloques aleatorizados con fines
ilustrativos, se hacen los siguientes cálculos:
c r 2
Variación Total de Cuadrados: VT X ij X
j 1 i 1
2 2 2
VT 70 78,625 77 78,625 ... 86 78,625 2.295,63
C 2
Variación entre grupos o columnas: VEC r X . j X
j 1
2 2 2
VEC 6 77.5 78,625 66.67 78,625 ... 79.33 78,625 1.787,46
r 2
Variación entre bloques o filas: VEF c X i. X
i 11
2 2 2
VEF 4 71.75 78,625 79 78,625 ... 82.5 78,625 238,38
c r 2
Variación del error de muestreo: VE X ij X . j X i. X
j 1 i 1
2
VE 70 77.5 71.75 78,625
77 77.50 79.00 78,6252
.
.
2
86 - 79.33 - 82.50 78,625
244.79
136
VEC 1.787,46
MCA 595,82
c 1 4 1
VEF 283.38
MCB 56,676
r 1 6 1
VE 224.79 224.79
MCE 14,986
r 1c 1 6 14 1 15
Error 224.79
224.79 (6-1)(4-1)=15 VE
15
14,986
Total 2.295.63 (6)(4)-1=23
Además de los registros anteriores, en las tablas ANOVA de los diferentes paquetes de
software estadísticos, incluyen el p-valor que consiste en la probabilidad de obtener un
estadístico F igual o mayor a la obtenida dado que la hipótesis nula sea verdadera, es decir, si
el p- valor es menor que el nivel especificado de significancia , la hipótesis nula es
rechazada. Para nuestro caso se utiliza la información contenida en el cuadro anterior.
Si se desea probar las diferencias entre los rendimientos de las parcelas con un nivel de
significancia del 5%, la regla de decisión consiste en rechazar la hipótesis nula
H o : 1 2 3 4 si el valor F calculado es mayor que 3.29 (Ver anexo F con 3 grados
de libertad en el numerados y 15 grados en el denominador). Para el caso F = 39,758 es mayor
que el valor crítico 3.29, entonces se rechaza la hipótesis nula y se llega a la conclusión que
existe evidencia de una diferencia entre la producción promedio de las diferentes parcelas,
como se puede apreciar en el siguiente gráfico:
137
Figura: Región de aceptación de hipótesis
138
X ijk Valor de la k - ésima observación del nivel i del factor A t del nivel j del factor B.
Xij Suma de los valores de la celda ij (las observaciones del nivel i del factor A y del nivel j del factor B.
X i.. Suma de los valores de la hilera i del factor A.
X.j. Suma de los valores de la columna j del factor B.
GT Gran total de todos los valores en todas las hileras y columnas.
r Número de niveles del factor A.
c Número de niveles del factor B.
n ' Número de valores(replicas) para cada celda.
n Número total de observaciones del experimento (con n r.c.n '
Con fines ilustrativos se hacen planteamientos tanto conceptuales como de cálculos para la
descomposición de la variación total necesaria para el desarrollo del procedimiento de la
prueba F. Debido a la gran cantidad de cálculos se recomienda que dicho proceso sea llevado
por el paquete de software analizado más adelante.
Tabla resumen para el análisis de varianzas de dos vías con más de una observación por célula
se resume en el siguiente cuadro:
Total, T r c n
VT X ijk2
'
GT 2
rcn ' rcn ' 1
i 1 J 1 K 1
Ejemplo:
Para ilustrar el modelo factorial de dos factores, suponga que UD como dueño y propietario de
una cadena de supermercados esta interesado en saber el efecto de la colocación de los
139
estantes en la venta de un producto. Para ello estudia 4 posibles lugares distintos donde
colocar los estantes: Colocación normal entre el pasillo(A), colocación ingreso del pasillo (B),
colocación a la entrada del pasillo con impulsadora (C) y colocación normal con propaganda
(D). Se toman ventas aleatorias en las jornadas de la mañana, tarde y noche y los resultados
de las ventas semanales se resumen en la siguiente tabla:
GT 1.612
r c n'
2
X ijk 452 50 2 ... 752 111.550
i 1 j 1 k 1
r
X i2.. 4512 5392 6222
'
110.100,75
i 1 cn 42
GT 2
1.612 2
108.272.66
rcn' 342
140
Variación Total de Cuadrados:
r c
VT X ijk2
n'
GT 2 111.550 108.272.66 3.277.34
i 1 J 1 K 1 rcn '
VEAB '
i 1 j 1 n' i 1 cn
'
j 1 rn rcn '
111.292 - 110.100.75 - 109.375 108.272.66 88.91
VT X 2
GT
111.550 111.292 258
rcn '
ijk
i 1 J 1 K 1
VEGA 1.828.09
MCA 914.045
r 1 3 1
BEGB 1.102.34
MCB 367.447
c 1 4 1
VEABI 88.91
MCC 14,818
r 1c 1 3 14 1
VE 258
MCE '
21.5
rc n 1 34 2 1
141
Cuadro: Resumen de análisis de varianza de dos vías
Fuente de Suma de los Grados de Media Relación F
variación cuadrados, libertad, gl cuadrática,
SC MC
Entre grupos de
tratamiento A 1.828.09 3 1 2 914.045 42.51
Entre grupos de
tratamiento, B 1.102.34 4 1 3 367.447 17.09
Interacción entre
factores A y B. 88.91 3 14 1 6 14.818 0.69
Error de 258 342 1 12 21.5
muestreo, E
Total, T 3.277.34 342 1 23
Si utiliza un nivel de significancia del 0.05 y se prueba la diferencia entre las ventas en las
diferentes jornadas (mañana, tarde, noche), la regla de decisión es la rechazar la hipótesis
nula ( H 0 : 1 2 ... r ) si el valor calculado para F (42.51) es mayor que 3.49 (observar
anexo F para 2 grados de libertad en el numerador y 12 grados de libertad en el denominador);
se rechaza la hipótesis nula y se llega a la conclusión que existe evidencia que entre las
diferentes jornadas las ventas en promedio son diferentes.
Así mismo si utiliza un nivel de significancia de 0.05 para probar si existe alguna diferencia
entre la ubicación de los estantes, la regla de decisión es rechazar la hipótesis nula
( H 0 : 1 2 ... c ), si el valor calculado F (17.09) es mayor que 3.49 (observar anexo F
para 3 grados de libertad en el numerador y 12 grados de libertad en el denominador); se
rechaza la hipótesis nula y se concluye que existe una diferencia entre los promedios de ventas
para la colocación de los diferentes estantes en el almacén.
Finalmente se puede probar si existe algún efecto de interacción entre el factor A (ventas en
las diferentes jornadas) y el factor B (colocación de los estantes). Utilizando un nivel de
significancia del 5%, la regla de decisión es rechazar la hipótesis nula
( ABij 0, para todo i y j ), si el valor calculado F (0.69) es mayor que 3.0 (observar anexo F
para 6 grados de libertad en el numerador y 12 grados de libertad en el denominador); no se
rechaza la hipótesis nula y se concluye que no existe evidencia de un efecto de interacción
entre las jornadas del día y la colocación de los estantes.
X ij
X ij
n'
142
95 122 148
X 11. 47.5 X 21. 61.0 X 31. 74.0
2 2 2
119 147 157
X 12. X 22. 73.5 X 32. 78.5
2 2 2
136 153 171
X 13. X 23. 76.5 X 33. 85.5
2 2 2
101 117 146
X 14. 50.5 X 24. 58.5 X 34. 73.0
2 2 2
Se procede a graficar las ventas semanales promedio de cada jornada y de cada colocación de
la estantería, como se indica a continuación:
90
85
80 A
75
Ventas
70 B
65
60 C
55
50 D
45
40
Mañana Tarde Noche
Jornada
Las cuatro líneas representan las colocaciones de las estanterías aparecen apuntando casi
representando en la misma dirección, lo que significa que la diferencia en las ventas entre las
cuatro colocaciones de los estantes es virtualmente la misma para las ventas de las diferentes
jornadas. En otras palabras, no existe interacción entre los dos factores (jornada y estantería),
como claramente se evidenció en la prueba F vista anteriormente.
‘Cual es la interpretación si se presenta el efecto de interacción? En tal situación, algunos
niveles del factor A responden mejor con ciertos niveles del factor B; por ejemplo, suponga
que algunas colocaciones en los estantes fueran mejor para las jornadas. Si este fuera el caso,
las líneas de la figura no estarían apuntando en la misma dirección que las hace casi paralelas
y el efecto de interacción sería estadísticamente significativo, y por consiguiente, las
diferencias entre las diferentes localizaciones de estantes no serían las mismas para las
diferentes jornadas
Ejercicios
1.- Un psicólogo industrial querría determinar el efecto del consumo de bebidas alcohólicas
sobre la capacidad mecanográfica de un grupo de secretarias. Se asignaron en forma aleatoria
cinco secretarias a cada uno de los tres niveles de consumo y a cada una de las tres diferentes
bebidas. Se dieron a cada secretaria las mismas instrucciones para mecanografiar la misma
página. Se registró el número de errores cometido por cada secretaria con los siguientes
resultados
143
Consumo de alcohol
1 onza 2 onzas 3 onzas
Tequila Brandy Ron Tequila Brandy Ron Tequila Brandy Ron
2 3 4 7 5 9 10 8 12
5 4 4 5 6 4 6 7 5
3 4 4 6 4 8 10 8 12
6 5 4 3 4 2 12 13 11
4 5 4 9 7 11 12 10 12
2.- El gerente de menudeo de una cadena de tiendas desea determinar si la ubicación del
producto tiene o no algún efecto sobre la venta de juguetes de peluche en forma de animales.
Se van a considerar tres ubicaciones diferentes en el pasillo: frente, centro y atrás. Se
seleccionó una muestra de 18 tiendas y se hizo una asignación aleatoria en seis tiendas para
cada ubicación en el pasillo. Los juguetes estaban presentados en cuatro figuras de animales
diferentes. Al final de un periodo de prueba de una semana las ventas de los productos fueron
como sigue:
3.- El departamento de nutrición de cierta universidad lleva a cabo un estudio para determinar
si hay diferencia o no en el contenido de ácido ascórbico entre tres diferentes marcas de
concentrado de jugo de naranja. Se hacen cuatro pruebas de los tres tipos de concentrado de
jugo de naranja que fue congelado durante tres periodos de tiempo diferentes (en días). Los
resultados, en miligramos de ácido ascórbico por litro, son los siguientes:
144
TIEMPO ( DÍAS )
MARCA
0 3 7
52.6 54.2 49.4 49.2 42.7 48.8
RICA
49.8 46.5 42.8 53.2 40.4 47.6
56.0 48.0 48.8 44.0 49.2 44.0
BUENA
49.6 48.4 44.0 42.4 42.0 43.2
52.5 52.0 48.0 47.0 48.5 43.3
BARATA
51.8 53.6 48.2 49.6 45.2 47.6
Los contenidos de ácido ascórbico son diferentes debido a la interacción de las dos
variables.
4.- Se estudia el comportamiento de tres camadas de ratas bajo dos condiciones ambientales
en una prueba de laberinto. Las calificaciones de error para las 48 ratas se registran a
continuación:
Ambiente
Camada
Libre Restringido
28 22 25 36 72 25 32 93
Brillante
12 23 10 86 48 91 31 19
36 33 41 22 60 35 83 99
Mezclada
83 14 76 58 89 126 110 118
101 33 122 35 136 38 64 87
Lenta
94 56 83 23 120 153 128 140
Las calificaciones de error son diferentes debido a la interacción de las dos variables
145
Temperatura
Marca
Caliente Caliente
X 85 88 80 82 83 85
78 75 72 75 75 73
90 78 76 86 88 76
Y
92 92 76 88 76 77
85 60 70 76 74 78
Z
87 88 68 55 57 54
6.- Los puntajes obtenidos en una prueba de rendimiento motor hecha a dos grupos de
estudiantes que participan en deportes universitarios, el primer grupo está formado por
estudiantes que practicaron deporte en la preparatoria, mientras que el segundo esta formado
por estudiantes que no practicaron deporte en la preparatoria. Los puntajes obtenidos por
ambos grupos son los siguientes:
GRUPO 1 GRUPO 2
GIMNASIA FUTBOL GIMNASIA FUTBOL
55 56 59 40 58 86 48 55
63 59 58 70 58 65 54 56
50 52 52 43 51 55 42 32
69 28 77 37 79 45
60 51 45 32
7.- La asociación de egresados de la escuela “Mao Meno”, sospecha que sus miembros
reciben en promedio un sueldo inferior al ingreso de los egresados de la escuela “Much A.
Money”. Para comprobarlo se obtuvieron muestras de egresados de ambas escuelas. La
información que se obtuvo fue la siguiente: (en miles de pesos)
146
MAO MENO MUCH A. MONEY
CRIMINOLOGÍA PSICOLOGÍA CRIMINOLOGÍA PSICOLOGÍA
5.0 3.2 5.5 7.5
5.5 3.5 3.5 5.5
4.5 4.5 9.5 4.5
3.5 8.2 3.4 8.5
7.5 6.6 6.8 3.2
8.- En una secundaria se formaron al azar dos grupos de estudiantes, formados por alumnos de
todos los grados. En un grupo se utilizó un nuevo método de enseñanza. En el otro se
utilizaron los métodos tradicionales. Las calificaciones al final del curso fueron las siguientes:
A. ANOVA EN EXCEL
Siguiendo con el mismo ejercicio desarrollado anteriormente y que hace relación con
el rendimiento de las acciones, se tiene nuevamente el enunciado:
Ud. como analista financiero desea determinar si hay diferencia en la tasa promedio de
rendimiento de cuatro tipos de acciones: de servicios públicos, de comercio, de
industria y de la banca. Para ello se obtuvo la siguiente la información muestral:
147
Cuadro: Rendimientos de 4 tipos de acciones
Rendimientos Promedios por tipo de acción
Meses Servicios(A) Comercio(B) Industria(C) Banca(D)
1 94 75 70 68
2 90 68 73 70
3 85 77 76 72
4 80 83 78 65
5 88 80 74
6 68 65
7 65
Utilizando un nivel e significancia del 0.01, pruebe si existe diferencia en la tasa media de
rendimiento de los cuatro tipos de acciones.
Paso 2:En el menú de Excel haga clip en herramientas y seleccione análisis de datos.
148
Figura: Ventana de análisis de datos
Paso 5:En rango de entrada selecciona los valores registrados en la hoja de excel:
149
Figura: Registro de información
Paso 7:Seleccione un alfa de 0.01 y rango de salida en donde quiere ubicar la información:
Observe que la información aquí registrada es igual a la que se calculo en la tabla ANOVA
realizada en los cuadros anteriores:
150
El valor de la distribución F es igual a 8.99 y el valor crítico es igual a 5.09. La suma de los
cuadrados toman el nombre de “entre grupos” denominados anteriormente tratamientos. y
“dentro de los grupos” denominados anteriormente errores.
B. ANOVA en SPSS
Para obtener un análisis de varianza de un factor elija en los menú Analizar; Comparar
medias; ANOVA de un factor como se indica en la siguiente figura.
Seleccione una o más variables independientes y seleccione una sola variable de factor
independiente, como se indica en la figura. Se pretende analizar el precio actual según el
factor de titulación del estrato.
151
Haciendo clic en el botón contrastes permite dividir las sumas de cuadrados Inter. – grupos en
componentes de tendencia. En polinomio se puede contrastar la existencia de tendencia en la
variable dependiente a través de los niveles ordenados de la variable de factor. Por ejemplo se
puede contrastar si existe una tendencia lineal (creciente o decreciente) de un precio a través
de los niveles ordenados del estrato. En coeficientes se pueden elegir contrastes a priori
especificados por el usuario que serán contrastados mediante el estadístico T; si introduce un
coeficiente para cada grupo (categoría) de la variable factor y se pulsa añadir después de cada
entrada. Cada nuevo valor se añade al final de la lista de coeficientes. Para especificar
conjuntos de contrastes adicionales, pulse en siguiente para desplazarse entre los conjuntos de
contrastes.
ANOVA
Suma de Media
cuadrados gl cuadrática F Sig.
Inter- 198123,71 39624,74
5 1,148 ,335
grupos 6 3
Intra- 10144438, 34504,89
294
grupos 614 3
Total 10342562,
299
330
Actividades de aprendizaje.
152
Análisis de varianza de un factor:
Suponga que dispone de un conjunto de árboles clasificados por altura (en metros) y por
especie, según los siguientes datos:
153
Figura: Registro de información en ventana
Como el p-valor del test de Fisher (0.00115963) de igualdad de todas las medias de os niveles
es menor que 0.05, existen diferencias significativas entre las alturas medias de los árboles de
diferentes especies al 95% de confianza. Por otra parte el valor crítico (2.75871059) es menor
que el valor del estadístico F (6.33220127), lo que corrobora la aceptación de la hipótesis de
alturas medias distintas para las diferentes especies de árboles al 95% de confianza y
corrobora los mismos valores calculados en igual ejemplo visto anteriormente en análisis de
varianza de un solo factor, el cual se muestra a continuación:
154
Podrá darse cuenta que los resultados son idénticos, teniendo como ventaja el uso de la
herramienta, un ahorro considerable de tiempo y menor riesgo a equivocarse.
Suponga que existen cuatro parcelas diferentes las cuales son sometidas sucesivamente a seis
tipos de insumos y se piensa que la producción es afectada por el tipo de insumo y
mantenimiento a que es sometida. Se desea probar los diferentes tratamientos afectan la
producción por parcela, y la producción es la siguiente:
La herramienta realiza un análisis de varianza de dos factores con una sola muestra por grupo,
comprobando la hipótesis según la cual las medias de dos o más muestras son iguales
(extraídas de poblaciones con la misma media). En el cuadro de dialogo de “Análisis de
datos” elige la opción “Análisis de varianza de dos factores con una sola muestra por grupo”,
se obtiene el siguiente cuadro de dialogo:
155
Figura: Resultados sobre análisis de varianza de dos factores
El p-valor es menor a un nivel de significancia del 0.05, por tal razón los rendimientos
medios son diferentes para las parcelas como para la utilización de los diferentes tipos de
insumos. De otra parte el valor estadístico de prueba F es superior al valor crítico afirmando la
conclusión anterior. Los resultados son los mismos a los calculados anteriormente y que
nuevamente se muestran a continuación:
Error 224.79
224.79 (6-1)(4-1)=15 VE
15
14,986
Total 2.295.63 (6)(4)-1=23
Suponga que UD como dueño y propietario de una cadena de supermercados esta interesado
en saber el efecto de la colocación de los estantes en la venta de un producto. Para ello estudia
156
4 posibles lugares distintos donde colocar los estantes: Colocación normal entre el pasillo(A),
colocación ingreso del pasillo (B), colocación a la entrada del pasillo con impulsadora (C) y
colocación normal con propaganda (D). Se toman ventas aleatorias en las jornadas de la
mañana, tarde y noche y los resultados de las ventas semanales se resumen en la siguiente
tabla:
El problema se relaciona con un diseño de dos factores con medidas repetitivas o replicas de
dos veces, puesto que se toman dos muestras en cada jornada de cada una de las colocaciones
de los estantes. La variable respuesta son las ventas semanales obtenidas, y los dos factores
son la jornada y la colocación del estante. Para resolver el problema se introducen los datos tal
como se indica a continuación:
157
Pulsa aceptar y obtiene los siguientes resultados:
A la vista de los p-valores obtenidos, se concluye que es significativa la diferencia entre las
jornadas porque el p-valor (3.5787E-06) es menor que 0.05; igualmente es significativa la
diferencia entre la colocación de los estantes porque el p-valor (0.00012489) es menor que el
nivel e significancia 0.05; no es significativa la diferencia entre la interacción de los factores
porque el p-valor (0.66276957) es mayor al nivel de significancia del 0.05. Podrá darse
cuenta, que los resultados utilizando la herramienta de Excel son idénticos, a los trabajados
manualmente en el ejercicio desarrollado anteriormente, como se indica en el siguiente
cuadro:
158
Interacción 88.91 3 14 1 6 14.818 0.69
entre factores A
y B.
Error de 258 342 1 12 21.5
muestreo, E
Total, T 3.277.34 342 1 23
Cuadro elaborado manualmente en ejercicio anterior para análisis de varianza de dos factores.
Auto evaluación
Pruebe al nivel de significancia del 0.05 que no hay diferencia entre los promedios para los 4
grupos.
- Se distribuyen 3 clases de jabones: A, B y C. Las ventas mensuales en unidades monetarias
se indican en la siguiente tabla:
159
Mes Jabón A Jabón B Jabón C
Enero 7 9 12
Febrero 11 12 14
Marzo 13 11 8
Abril 8 9 7
Mayo 9 10 13
Resumen.
Se ha indicado cómo se usa el análisis de varianza para ver si existe diferencias significativas
entre las medias de varias poblaciones o tratamientos. Además se introdujo el diseño de
experimentos para un factor, el análisis de varianza de dos factores mediante el diseño de
bloques aleatorizados y finalmente el análisis de varianza de dos factores con interacción
mediante el diseño factorial. El objetivo principal de formar bloques en el diseño de bloques
aleatorizado es eliminar fuentes extrañas de variación a partir del término de error. Ese
agrupamiento da como resultado un mejor estimado de la varianza verdadera del error, y una
mejor prueba para determinar si las medias de población o tratamiento del factor difieren
apreciablemente.
160
4.6 Análisis de Covarianza
Para una muestra de n elementos , con sus correspondientes parejas de valores de datos
X 1 , Y1 , X 2 , Y2 , etc , la covarianza de la muestra se define mediante la siguiente ecuación:
Covarianza de la muestra S XY
X i
X Yi Y
n 1
Ejemplo:
Suponga que se desea comparar la cantidad de comerciales con el volumen de ventas diarias,
para lo cual se dispone de la siguiente información:
161
Figura: Diagrama de dispersión
DIAGRAMA DE DISPERSIÓN
VENTAS 80
60
40
20
0
0 2 4 6
COMERCIALES
S XY
X i
X Yi Y 99
11
n 1 10 1
Interpretación de la covarianza
162
PARTICIÓN DEL DIAGRAMA DE
DISPERSIÓN
100
VENTAS
II I
50
III IV
0
0 2 4 6
COMERCIALES
La figura es la misma del diagrama de dispersión pero con una recta vertical en X = 3 (el valor
de la X ) y una recta horizontal que corresponde a Y = 51 ( el valor de Y ). En la gráfica se
presentan cuatro cuadrantes: los puntos del cuadrante I corresponden a valores de
X i superiores a la X y a valores de Yi mayores que Y ; los puntos del cuadrante II a valores
de X i menores a la X y a valores de Yi mayores que Y , y así sucesivamente. Entonces el
valor de X i X Yi Y debe ser positivo para los puntos ubicados en el cuadrante I, negativo
para puntos del cuadrante II, positivo para del cuadrante III y negativo para los ubicados en el
cuadrante IV.
Si el valor de S XY es positivo, los puntos de máxima influencia sobre S XY deben estar en los
cuadrantes I y III. Por consiguiente un valor positivo de S XY , indica una asociación lineal
positiva entre X y Y, esto es, al aumentar el valor de X, el de Y aumenta. Sin embargo, si el
valor de S XY es negativo, los puntos de mayor influencia sobre S XY están en los cuadrantes II
y IV; por consiguiente, un valor de S XY negativo, indica una asociación lineal negativa entre
X y Y; esto es, al aumentar el valor de X, el valor de Y disminuye. Por último, si los puntos se
distribuyen uniformemente en los cuadrantes, el valor de S XY será cercano a cero, indicando
que no existe asociación lineal entre X y Y. La siguiente figura muestra los valores de S XY
que se pueden esperar con tres tipos distintos de diagrama de dispersión.
163
En la figura anterior se observa que el diagrama de dispersión sigue el patrón de la primera
figura anterior, y desde luego, se espera que el valor de la covarianza de la muestra es
positivo, con S XY 11 .
De conformidad con todo lo anterior, parecería que un valor positivo grande de la covarianza
indica una fuerte relación lineal positiva y que un valor negativo grande indica una fuerte
relación lineal negativa. Sin embargo, un problema usando la covarianza como medida de
intensidad de relación lineal, el valor de la covarianza depende de las unidades de medida de
X y Y. Por ejemplo, suponga que interesa la relación entre la altura (X) y el peso (Y) de
ciertos individuos. Cuando la altura se expresa en centímetros se obtienen valores numéricos
mucho mayores X i X que cuando se expresa en metros. Así con la altura expresada en
centímetros, se obtiene un mayor valor en el numerador expresado por X i X Yi Y y
con él una mayor covarianza, cuando de hecho no hay diferencia en la relación. Para evitar
dicha dificultad se utiliza el coeficiente de correlación, que igualmente mide la relación entre
dos variables.
Para los datos de una muestra, se define el coeficiente de correlación Pearson del momento del
producto de conformidad con la siguiente fórmula:
S
rXY XY
S X SY
En donde:
rXY Coeficient e de correlació n de la muestra.
S XY Covarianza de la muestra.
S X Desviación estándar muestral de X.
SY Desviación estándar muestral de Y.
La anterior ecuación indica que el coeficiente de correlación del momento del producto de
Pearson para datos de la muestra (que generalmente se le denomina coeficiente de correlación
de la muestra) se estima dividiendo la covarianza de la muestra entre el producto de la
desviación estándar de X por la desviación estándar de Y.
Para calcular el coeficiente de correlación de la muestra para el ejemplo que se está analizando
(ejemplo 7.2), se estima las desviaciones estándar de la muestra para las dos variables.
SX
X i X
20
1.4907
n 1 9
2
SY
Y Y
i
566
7.9303
n 1 9
164
En ocasiones cuando se dispone de calculadora, se prefiere utilizar las siguiente fórmula, en
consideración a que no es necesario calcular las desviaciones estándar, evitando cometer
errores de redondeo.
X Y
X iYi i i 220 690
rXY
n 3
2 2 2
X 2
X i Y 2 Yi 14 6 3500 90
i n i n 3
3
40
1
2 800
Se observa que el coeficiente de correlación de la muestra para este conjunto de datos es igual
a 1.
En general se puede demostrar que so todos los puntos de un conjunto de datos caen en una
línea recta con pendiente positiva, el valor del coeficiente de correlación es +1, que
corresponde a una relación lineal positiva perfecta entre las dos variables X y Y. Si los puntos
de un conjunto de datos están en una recta que tiene pendiente negativa , el coeficiente de
correlación de la muestra es de -1, que corresponde a una relación lineal negativa perfecta
entre las variables X y Y.
Suponga ahora que para cierto conjunto de datos, existe una relación lineal positiva entre X y
Y, pero que esa relación no es perfecta, el valor de rXY es menor que 1, lo que indica que los
puntos del diagrama de dispersión no están todos es una línea recta. A medida que los puntos
se desvían de una relación lineal perfecta, el valor de rXY se hace más pequeño. Un valor de
rXY igual a cero indica que no existe relación lineal entre X y Y, y los valores de rXY cercanos
a cero señalan una relación lineal muy débil.
Para el conjunto de datos del ejemplo 7.2 correspondiente a la cantidad de avisos publicitarios
y el nivel de ventas se ha obtenido un rXY = +0.93, llegando a la conclusión que existe una
relación lineal positiva entre la cantidad de anuncios comerciales y las ventas,
específicamente, un aumento en la cantidad de anuncios se asocia con un incremento en las
ventas.
A. Excel
Regresión múltiple
Ejemplo:
Se considera las variables demanda, precio, ingreso y nivel de precipitación de alcachofas, con
siguientes registros:
Demanda 11 16 11 14 13 17 14 15 12 18
Precio 20 18 22 21 27 26 25 27 30 28
Ingreso 8.1 8.4 8.5 8.5 8.8 9.0 8.9 9.4 9.5 9.9
Precipit 42 58 35 46 41 56 48 50 39 52
165
Ajustar a esta información a un modelo adecuado que ajuste la demanda en función del precio,
el ingreso y el nivel de precipitación.
Figura: Regresión
Al pulsar aceptar se obtiene la salida numérica que incluye los estadísticos de regresión,
cuadro del análisis de varianza del modelo, estimadores, contrastes de significación de F y T
con sus correspondientes p - valores asociados, intervalos de confianza para los parámetros y
para las predicciones al 95% y residuos, como se indica en la siguiente figura.
166
Figura: Resultados del análisis
En la siguiente figura se presenta el gráfico de cada variable independiente contra los residuos
que sirve para detectar problemas de no colinealidad, heterocedasticidad y autocorelación en
el modelo de ajuste. Lo ideal es que todas las gráficas presenten una estructura aleatoria de sus
puntos, como lo puede observar para las curvas de regresión pertenecientes al ingreso y al
precio, no así para la curva de la precipitación.
20
10
Demanda
0
0 20 40 60 80 Pronóstico Demanda
Precipit
20
10
Demanda
0
0 5 10 15 Pronóstico Demanda
Ingreso
167
Precio Curva de regresión ajustada
Demanda
20
10
Demanda
0
0 10 20 30 40 Pronóstico Demanda
Precio
20
10
0
0 20 40 60 80 100
Muestra percentil
En las siguientes figuras se presenta el gráfico de cada variable independiente contra los
valores predichos, que sirve para detectar problemas de heterocedasticidad. Lo ideal es que
todas las gráficas presenten una estructura aleatoria de puntos.
1
Residuos
0
-1 0 10 20 30 40 50 60 70
-2
Precipit
1
Residuos
0
-1 0 2 4 6 8 10 12
-2
Ingreso
168
Precio Gráfico de los residuales
1
Residuos
0
-1 0 5 10 15 20 25 30 35
-2
Precio
Análisis de Covarianza
Figura 7.19
COVAR Devuelve la covarianza, o promedio de los productos de las
desviaciones para cada pareja de puntos de datos definida por:
1 n
Cov x, y x j x y j j
n j 1
COEFICIENTE DE Devuelve el coeficiente de correlación entre dos rangos de celdas
CORRELACIÓN definidos por los argumentos matriz1 y matriz2 definida por:
Cov x, y
px , y
x y
Coeficiente R^2 Devuelve el cuadrado del coeficiente de correlación de momento
del producto Pearson mediante los puntos de datos de conocido y
y conocido x definido por:
n xy x y
r
2 2
n x 2 x n y 2 y
B. SPSS
Regresión múltiple
Si se continua con el ejemplo anterior para realizar el desarrollo en SPSS del modelo de
regresión lineal, a continuación se transcribe el enunciado:
Se considera las variables demanda, precio, ingreso y nivel de precipitación de alcachofas, con
siguientes registros:
Demanda 11 16 11 14 13 17 14 15 12 18
Precio 20 18 22 21 27 26 25 27 30 28
Ingreso 8.1 8.4 8.5 8.5 8.8 9.0 8.9 9.4 9.5 9.9
Precipit 42 58 35 46 41 56 48 50 39 52
Ajustar a esta información a un modelo adecuado que ajuste la demanda en función del precio,
el ingreso y el nivel de precipitación.
169
Se comienza con la introducción de la información en el editor de SPSS con los nombres de
demanda, precio, ingreso y precipitación. Para estimar el modelo ingresa a la barra de menú;
Regresión; Lineal como se aprecia en la siguiente figura.
Figura: Regresión
Hace clic en el botón guardar y rellena la ventana como se indica en la siguiente figura, para
guardar los residuos estudentizados como una nueva variable.
170
Figura: Variable estudentizado
Al pulsar aceptar la variable ser_1 que contiene los residuos se incorpora en el editor de SPSS,
como se puede observar en la siguiente figura.
Figura: Correlaciones
171
Rellenando la ventana de correlaciones vibariadas como se indica en la siguiente figura.
Figura Correlaciones
Studentized INGRES
PRECIO Residual O
PRECIO Correlación de
1 -,034 ,868(**)
Pearson
Sig. (bilateral) . ,926 ,001
N 10 10 10
Studentized Correlación de
-,034 1 -,023
Residual Pearson
Sig. (bilateral) ,926 . ,950
N 10 10 10
INGRESO Correlación de
,868(**) -,023 1
Pearson
Sig. (bilateral) ,001 ,950 .
N 10 10 10
** La correlación es significativa al nivel 0,01 (bilateral).
Ante este problema, para ajustar el modelo se utiliza el procedimiento Regresión por Mínimos
cuadrados de dos fases como se indica en la siguiente figura.
172
Figura: Análisis de regresión
Se utiliza como instrumentos la variable predictora ingresos en consideración a que los niveles
de ingreso sean usados para predecir niveles de precios. Al pulsar aceptar se obtienen las
siguientes figuras.
173
Figura: Resultados
Auto evaluación
- ¿Cuál es la forma general de una ecuación de regresión múltiple con dos variables
independientes?
- Se estudio una muestra de personas selectas viudas para determinar su grado de
satisfacción en su vida actual. Se utilizó un índice de satisfacción para medir dicha
cualidad, estudiando 6 factores: La edad en el momento del primer matrimonio ( X 1 ,
ingreso diario X 2 , número de hijos vivos X 3 , valor de los bienes poseídos X 4 , estado
de salud expresado en índice X 5 , y número promedio de actividades sociales por
semana X 6 . Suponga que la ecuación de regresión múltiple es:
Y ' 16.24 0.017 X 1 0.0028 X 2 42 X 3 0.0012 X 4 0.19 X 5 26.8 X 6
*¿Cuál es el índice estimado de satisfacción de una persona que se casó por primera
vez a los 18 años, tiene un ingreso diario de $26.500, tres hijos vivos, bienes por $150.000,
un índice de estado de salud de 14.1, y 2.5 actividades sociales por semana en
promedio?
* ¿Qué proporcionaría más satisfacción; un ingreso adicional de $10.000 al día, o
dos actividades sociales más por semana?
- Un estudio del departamento de transito a cerca de la velocidad y la distancia recorrida
para automóviles medianos arrojó los siguientes datos:
174
Velocidad 30 50 40 55 30 25 60 25 50 55
Distancia 28 25 25 23 30 32 21 35 26 25
Resumen.
El análisis de regresión múltiple es una técnica que utiliza diversas variables independientes
(en lugar de una sola) para estimar el valor de una variable dependiente; el análisis de
correlación múltiple mide la intensidad de asociación entre todas estas variable. A diferencia
del análisis de regresión simple, el análisis de regresión múltiple permite ejercer el control
estadístico sobre factores externos y determinar la influencia de cualquier variable
independiente X i en la variable dependiente (Y) para valores específicos constantes de otras
variables que pudieran afectar a Y. La técnica de regresión múltiple son extensiones sencillas
de las de regresión simple. En presencia de dos variables explicativas, se plantea una ecuación
de regresión múltiple de la siguiente forma:
Y b0 b1 X 1 b2 X 2
Los bi son los coeficiente de regresión múltiple que dan el cambio parcial en la variable
dependiente Y que esta asociada con un cambio unitario en una variable independiente cuando
la otra se mantiene constante. A partir de la ecuación de regresión múltiple de tres variables
como la citada anteriormente, se calcula el error estándar, se hacen las inferencias sobre la
base de los supuestos, también se logra probar la significancia completa de una regresión
múltiple por medio del análisis de varianza, en la cual se prueba que todos los coeficientes de
regresión reales son diferentes de cero y por tanto, las variables independientes ayudan a
explicar la variación de la variable dependiente.
En todo el contenido se usaron los resultados del paquete estadístico de Excel para llamar la
atención que los programas estadísticos de computo son un medio realista de llevar a cabo
numerosos cálculos que requiere el análisis de regresión múltiple.
Se presentó el coeficiente de determinación múltiple como medida de la bondad del ajuste de
la ecuación de regresión que termina la proporción de la variación de la variable dependiente
que se puede explicar con la ecuación de regresión. El coeficiente ajustado de determinación
múltiple es una medida parecida a la bondad de ajuste, que toma en cuenta la cantidad de
variables independientes y con ello evita sobreestimar el impacto al agregar más variable
independiente.
175
CAPITULO CINCO
5. PRUEBAS NO PARAMETRICAS
Introducción
Uno de los problemas más difíciles para el principiante y para el investigador experimentado,
es decidir cuál de las pruebas estadísticas es la más adecuada para analizar un conjunto de
datos. La aplicación de la estadística en el análisis de datos es muy amplia y las áreas en las
que se aplica son diversas, desde las ciencias exactas hasta las ciencias sociales. La selección
de la prueba estadística necesaria para el caso, depende de varios factores, en primer lugar se
debe saber cuál es la escala con la que se están midiendo los datos que se analizarán, pues no
se puede aplicar la misma prueba estadística para el caso en que la variable de interés sea el
peso de un producto que cuando lo es la profesión del usuario de un producto.
Queremos introducir en este parte la noción de pruebas no paramétricas como aquellas que no
presuponen una distribución de probabilidad para los datos, por ello se conocen también como
de distribución libre. En la mayor parte de ellas los resultados estadísticos se derivan
únicamente a partir de procedimientos de ordenación y recuento, por lo que su base lógica es
de fácil comprensión. Cuando trabajamos con muestras pequeñas (n < 10) en las que se
desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no
paramétricas, al menos para corroborar los resultados obtenidos a partir de la utilización de la
teoría basada en la normal.
Las pruebas que se mencionarán son las que se podrían necesitar con mayor frecuencia, se
mencionarán sus principales características y aplicaciones.
Objetivo general.
Contrastar la validez de hipótesis o conjetura sobre la relación entre variables y sobre las
distribuciones de probabilidad teórica que adoptan dichas variables, sin sujetarse a los
condicionamientos de la validez de supuestos paramétricos.
Objetivos específicos.
176
Realizar pruebas sobre la bondad de ajustes de variables a distribuciones de
probabilidad teórica de carácter cuantitativas.
Realizar pruebas de hipótesis para datos que se encuentran en una escala nominal u
ordinal con aplicación de la distribución chi- cuadrado.
Realizar pruebas sobre la relación entre dos y más variables poblacionales.
5.1 Generalidades
Las pruebas de hipótesis hacen inferencias respecto a los parámetros de la población, como la
media. Estas pruebas paramétricas utilizan la estadística paramétrica de muestras que
provinieron de la población que se está probando. Para formular estas pruebas, hicimos
suposiciones restrictivas sobre las poblaciones de las que extraíamos las muestras. Por
ejemplo: suponíamos que las muestras eran grandes o que provenían de poblaciones
normalmente distribuidas. Pero las poblaciones no siempre son normales.
Los estadísticos han desarrollado técnicas útiles que no hacen suposiciones restrictivas
respecto a la forma de las distribuciones de las poblaciones. Éstas se conocen como pruebas
sin distribución, o pruebas no paramétricas. Las hipótesis de una probabilidad no paramétrica
se refieren a algo distinto del valor de un parámetro de población
Ventajas de los métodos no paramétricos.
1. No requieren que hagamos la suposición de que una población está distribuida en
forma de curva normal u otra forma específica.
2. Generalmente, son más fáciles de efectuar y comprender.
3. Algunas veces, ni siquiera se requiere el ordenamiento o clasificación formal.
La prueba de chi cuadrado puede emplearse para comparar frecuencias de dos o más grupos,
como en muchas otras aplicaciones. Se utiliza en esta forma, para hacer referencia al ensayo
como prueba de chi cuadrado para la independencia. Su versatilidad es una de las razones por
la cual los investigadores usan esta prueba con tanta frecuencia.
Esta prueba se denomina como Ji-cuadrado, derivada de la letra griega mayúscula Ji que se
escribe ÷ y que se lee chi, el cuadrado se debe a que la suma de las diferencias entre los
valores observados y esperados cuyo valor sea igual a 0, por lo tanto, se hace necesario
elevarlos al cuadrado, para cuantificar la diferencias.
La distribución normal se utiliza en todos aquellos casos en que el experimento ofrece dos
resultados posibles; cuando se presentan más de dos resultados debe aplicarse la prueba de
177
chi-cuadrado, frecuentemente usada para probar hipótesis concernientes a la diferencia entre
un conjunto de frecuencias observadas de una muestra y un conjunto correspondiente de
frecuencias teóricas o esperadas.
Cuando se trabaja con variables cualitativas podemos estar interesados en saber si las dos
variables que clasifican a los individuos de una población están relacionadas o no. Por esta
razón trabajamos con una muestra representativa de la población y dos variables cualitativas
cuya relación queremos estudiar. Si al final de nuestro estudio concluimos que ambas
variables no están relacionadas, decimos con un determinado nivel de confianza previamente
fijado, que son independientes.
A menudo nos formulamos preguntas referentes a las relaciones entre dos variables
cualitativas, por ejemplo: ¿Existen diferencias en la recuperación de pacientes sometidos a
distintos tratamientos? ¿Existen diferencias entre hombres y mujeres respecto a sus hábitos
alimenticios?
Con el fin de resolver este tipo de situaciones aplicamos la prueba de chi-cuadrado ÷ 2 , que
presenta las siguientes características:
2 Ó(O - E) 2
÷ = .
E
Ejemplo:
Si un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen de una
línea de ensamblaje y él desea verificar sobre la base de los datos que siguen, los números de
llantas con defectos observadas en 200 días, si es cierto que el 5% de todos los neumáticos
tienen defecto; es decir, si el muestrea una población binomial con n = 10 y = .05
Solución:
178
2. Establecer la estadística de prueba
2
k f oi f ei
i 1 f ei
Oi = Valor observado en la i-ésimo celda.
Ei = Valor esperado en la i-ésimo celda.
K = Categorías o celdas.
m= Parámetros
g,l = k- m – 1 = (3 – 0- 1) =
5.99
2
k f oi f ei
i 1 f ei
5. Calculo de la estadística de prueba
Para poder calcular las frecuencias esperadas tenemos que calcular las probabilidades
utilizaremos la formula de la binomial
f ( x ) nx x ( 1 ) n x
Donde n = 10 = 0.05
10 0
f (0) 0.05
0 ( 1 0.05)10 0 = .599
f (1) 10 1
1 0.05 ( 1 0.05)
10 1
= .315
179
(138 119.8) 2 (53 63.0) 2 (9 17.2) 2
2
119.8 63 17.2 = 8.26
6. Como 8.26 es mayor que 5.99,se rechaza la hipótesis nula con un nivel de significancia de
0.05.
La única premisa que se necesita es que las mediciones se encuentren al menos en una escala
de intervalo. Se necesita que la medición considerada sea básicamente continua. Además
dicha prueba es aplicable cualquiera sea el tamaño de la muestra.
Compara las funciones de distribución teórica y empírica (sólo válido para variables
continuas).
Características de la prueba
La prueba de K-S de una muestra es una hipótesis de bondad de ajuste. Esto es, se interesa en
el grado de acuerdo entre la distribución de un conjunto de valores de la muestra y alguna
distribución teórica específica. Determina si razonablemente puede pensarse que las
mediciones muéstrales provengan de una población que tenga esa distribución teórica. En la
prueba se compara la distribución de frecuencia acumulativa de la distribución teórica con la
distribución de frecuencia acumulativa observada. Se determina el punto en el que estas dos
distribuciones muestran la mayor divergencia.
Se trata de un método no paramétrico sencillo para probar si existe una diferencia significativa
entre una distribución de frecuencia observada y otra frecuencia teórica. Es otra medida de la
bondad de ajuste de una distribución de frecuencia teórica.
Se basa en la comparación de distribuciones acumuladas: la distribución acumulada de los
datos observados y la distribución acumulada teórica correspondiente al modelo elegido.
Hipótesis
Ho: La distribución observada se ajusta a la distribución teórica.
F(x) = Ft(x) para todo x.
H1: La distribución observada no se ajusta a la distribución teórica.
Ft(x): es la función teórica. Esta puede ser por ejemplo la función normal con cierta media y
varianzas conocidas.
Estadístico de prueba
D = máxima
Sn(x): es la función de distribución empírica.
180
Tiene varias ventajas: es una prueba poderosa y fácil de utilizar, puesto que no requiere que
los datos se agrupen de determinada manera.
Es particularmente útil para juzgar qué tan cerca está la distribución de frecuencias observada
de la distribución de frecuencias esperada, porque la distribución de probabilidad Dn depende
del tamaño de muestra n, pero es independiente de la distribución de frecuencia esperada (Dn
es una estadística de distribución libre).
Para calcular la estadística K-S, simplemente se elige Dn (la desviación absoluta máxima
entre las frecuencias observadas y teóricas).
Una prueba K-S siempre debe ser una prueba de un extremo.
Luego se busca el valor crítico en la tabla, para las n observaciones, considerando el nivel de
significancia adoptado.
Si el valor de la tabla es mayor que el valor de Dn, entonces aceptaremos la hipótesis nula.
SUGERENCIAS:
La prueba de Kolmogorov puede usarse con muestras muy pequeñas, en donde no se
pueden aplicar otras pruebas paramétricas.
Podemos usar la prueba de Kolmogorov para verificar la suposición de normalidad
subyacente en todo análisis de inferencia.
Si bien constituye una prueba de implementación sencilla, tenga en cuenta que carga
con las desventajas de los métodos no paramétricos en general, en el sentido de producir
resultados menos precisos que los procedimientos convencionales.
Cuando trabaje con muestras pequeñas, recuerde usar la frecuencia cumulada
experimental.
El procedimiento general para realizar esta prueba para valores agrupados en
intervalos de clase es el siguiente:
181
Ejemplo.
Solución.
El valor crítico para n = 80 valores y un nivel de significancia del 5% es
Dmaxp(0.05,80) = 1.36/ = 0.152. Como la diferencia máxima observada fue de
0.0236 no hay razón para dudar que los puntajes se puedan aproximar mediante una
distribución normal.
Solución:
182
La diferencia máxima observada es Dmax(x) = 0.09 y el valor crítico para un nivel de
significancia del 1% es de 1.63/ = .163. Como Dmax(x) < D(0.01,100) no
podemos rechazar la hipótesis nula y debemos concluir que la muestra tomada del
generador de números aleatorios proviene de una distribución uniforme (0,1).
Esta prueba nos permite comparar nuestros datos con una mediana teórica. Llamemos M0 a la
mediana frente a la que vamos a contrastar nuestros datos, y sea X1, X2 .. Xn los valores
observados. Se calcula las diferencias X1-M0, X2-M0, ..., Xn-M0. Si la hipótesis nula fuera
cierta estas diferencias se distribuirían de forma simétrica en torno a cero.
Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M0| y se ordenan de
menor a mayor, asignándoles su rango (número de orden). Si hubiera dos o más diferencias
con igual valor (empates), se les asigna el rango medio (es decir que si tenemos un empate en
las posiciones 2 y 3 se les asigna el valor 2.5 a ambas). Ahora calculamos R+ la suma de
todos los rangos de las diferencias positivas, aquellas en las que Xi es mayor que M0 y R- la
suma de todos los rangos correspondientes a las diferencias negativas. Si la hipótesis nula es
cierta, ambos estadísticos deberán ser parecidos, mientras que si nuestros datos tienen a ser
más altos que la mediana M0, se reflejará en un valor mayor de R+, y al contrario si son más
bajos. Se trata de contrastar si la menor de las sumas de rangos es excesivamente pequeña para
ser atribuida al azar, o, lo que es equivalente, si la mayor de las dos sumas de rangos es
excesivamente grande.
Ejemplo
Planteamiento de la hipótesis.
183
Hipótesis nula (Ho). No existe diferencia significativa entre el grado de hiperactividad
en obesos cuando están en un programa de dieta y sin el programa de dieta, esto es
debido al azar.
Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
Sumatoria de T = 15.5
El valor T de la prueba de Wilcoxon obtenido se compara con los valores críticos de la tabla T
en pruebas de rangos señalados de pares iguales de Wilcoxon, y se puede apreciar que para ser
significativo (es decir, por debajo de 0.05, que fue el nivel de significancia), requiere que este
0.05 sea menor; por lo tanto, la probabilidad es mayor que 0.05.
tc = 15.5
tt = 8
Para dos colas = = 0.05
N= 10
tc tt rechaza Ho
Decisión.
En virtud de que la probabilidad es mayor que 0.05, se acepta Ho y se rechaza Ha.
Interpretación.
Las diferencias en el incremento o disminución de la hiperactividad en personas obesas con
dieta o sin dieta, no son significativas. Estadísticamente resultan iguales, en razón de que
pueden ser diferencias dadas al azar.
184
5.5. Prueba de Mann-Whitney para muestras independientes
La prueba de Mann-Whitney puede utilizarse para probar la hipótesis nula de que las
medianas de dos poblaciones son iguales. Se supone que las dos poblaciones tienen la misma
forma y dispersión, porque tales diferencias también podrían conducir al rechazo de la
hipótesis nula. Es necesario que los valores de las dos muestras aleatorias independientes
estén al menos en la escala ordinal.
Las dos muestras se combinan en un conjunto ordenado, en el que cada valor muestral se
identifica según el grupo muestral original. Los valores se clasifican entonces de menor a
mayor, asignando el rango 1 al menor valor muestral observado. En caso de valores iguales, se
les asigna el rango medio. Si la hipótesis nula es cierta, el promedio de los rangos de cada
grupo muestral debería ser aproximadamente igual. La estadística calculada para efectuar esta
prueba se denomina U, y puede basarse en la suma de los rangos de cualquiera de las dos
muestras aleatorias, de este modo:
Dado que n1 > 10, n2 > 10 y la hipótesis nula sea cierta, la distribución de muestreo de U
es aproximadamente normal, con los siguientes parámetros:
Por lo tanto, la estadística de prueba para probar la hipótesis nula de que las medianas de
dos poblaciones son iguales es
En situaciones en las que n1 < 10, n2 < 10 o tanto n1 como n2 < 10, la distribución normal
de probabilidad no puede emplearse en esta prueba. No obstante, en libros de texto
especializados en estadística no paramétrica se dispone de tablas especiales de la
estadística U para esas pequeñas muestras.
Ejemplo:
Suponga que queremos saber cuál es el efecto de un material con sentido sobre la memoria. Se
le pide a un grupo de seis sujetos que se aprenda de memoria un material sin sentido, y a otro
grupo de seis sujetos que se aprenda de memoria un material con sentido. La memoria se
medirá por el número de palabras recordadas y predecimos que los puntajes de recuerdo serán
más altos para la condición 2.
185
Solución:
Condición 1 Condición 2
(material sin (material con
sentido) sentido)
Puntajes Rango (1) Puntajes Rango (2)
3 3 9 11
4 4 7 9
2 1.5 5 5.5
6 7.5 10 12
2 1.5 6 7.5
5 5.5 8 10
22 T1=23 45 T2=55
Donde:
N1: Muestra 1 N1 = 6
N2: Muestra 2 N2 = 6
Tx: Mayor de total de rangos Tx = T2 = 55
Nx: Número de sujetos con el grupo de mayor total de rangos Nx = N2 = 6
Reemplazando U = 6 x 6 + ( 6 x 7)/2 – 55
= 36 + 21 – 55
= 2
El valor de U tabulado al nivel del 5% es de 7. Por lo tanto no podemos rechazar la hipótesis y
aceptar que no existe una diferencia significativa a favor de un mayor recuerdo del material
con sentido.
Cuando se tiene interés o necesidad de probar una hipótesis nula en la que se afirma que k
tratamientos son iguales o que k muestras aleatorias independientes provienen de poblaciones
idénticas, siendo k > 2, la prueba estadística que se realizaría dentro de la estadística
paramétrica sería el análisis de varianza de un sentido y para la prueba se utilizaría la
distribución F; sin embargo, cuando la escala es ordinal o se desconfía del supuesto de que las
muestras provienen de poblaciones con forma de distribución normal, se puede utilizar esta
prueba para muestras independientes. La hipótesis alternativa sería que al menos dos
poblaciones tienen una distribución diferente.
La prueba de Kruskal-Wallis sirve para probar la hipótesis nula de que varias poblaciones
tienen las mismas medianas. Así, es el equivalente no paramétrico del diseño completamente
aleatorizado de un factor de análisis de varianza. Se supone que las diversas poblaciones
tienen la misma forma y dispersión para que la hipótesis anterior sea aplicable, ya que
diferencias en forma o dispersión podrían también conducir al rechazo de la hipótesis nula. Es
186
necesario que los valores de las diversas muestras aleatorias independientes estén al menos en
la escala ordinal.
Las varias muestras son vistas primeramente como un conjunto de valores, y cada valor de
este grupo combinado se clasifica de menor a mayor. En caso de valores iguales, se les asigna
el rango medio. Si la hipótesis nula es cierta, el promedio de los rangos de cada grupo
muestral debería ser más o menos igual. La estadística de prueba calculada se denomina H y
se basa en la suma de los rangos de cada una de las varias muestras aleatorias, de la siguiente
manera:
donde N = tamaño de muestra combinado de las diversas muestras (nótese que en este caso N
no designa al tamaño de la población)
Rj . = suma de los rangos de la jésima muestra o grupo de tratamiento
nj. = número de observaciones de la jésima muestra
Dado que el tamaño de cada grupo muestral sea de al menos nj 5 y la hipótesis nula sea
cierta, la distribución de muestreo de H es similar a la distribución X2 con g1 = K - 1, donde K
es el número de tratamientos o grupos muestrales. El valor de X2 que aproxima el valor crítico
de la estadística de prueba es siempre el valor de la cola superior. Este procedimiento de
prueba es análogo a la cola superior de la distribución F que se emplea en el análisis de
varianza.
Ejemplo:
Un investigador desea probar que los directores escolares son característicamente más
autoritarios que los maestros de clase. Toma 17 maestros y los divide en tres grupos: maestros
orientados a la enseñanza (permanecerán en la enseñanza), maestros orientados hacer
directores y directores. Se les aplica una prueba de autoritarismo. Su hipótesis supone que los
tres grupos diferirán con respecto a los promedios en la escala de autoritarismo)
enseñanza Directores
96 82 115
187
128 124 149
83 132 166
61 135 147
171 177
enseñanza Directores
4 2 7
9 8 13
3 10 14
1 11 12
5 6 17
15 16
Realice los cálculos Los cálculos del estadístico H de prueba y compare este con el valor
crítico al 5% de nivel de significación.
188
conoce con absoluta certeza la verdad o falsedad de un enunciado o hipótesis, e imprecisión,
enunciados en los que se admite un rango de variación.
Entre los métodos de razonamiento aproximado se encuentran los métodos bayesianos,
basados en el conocido teorema de bayes. Todos ellos tienen en común la asignación de una
probabilidad como medida de credibilidad de las hipótesis. En este contexto, la inferencia se
entiende como un proceso de actualización de las medidas de credibilidad al conocerse nuevas
evidencias. Matemáticamente se trata de obtener las probabilidades de las hipótesis
condicionadas a las evidencias que se conocen. La actualización de las probabilidades
condicionadas hipótesis a las evidencias se fundamenta en la aplicación del Teorema de
Bayes. La diferencia entre los distintos métodos bayesianos, modelos causales y redes
Bayesiana, estriba en las hipótesis de independencia condicional entre hipótesis y evidencias.
Dichas relaciones se expresan comúnmente mediante un grafo dirigido aciclíco.
La inferencia bayesiana es una inferencia estadística en la que se utiliza la evidencia o las
observaciones para actualizar o inferir nuevamente que una hipótesis puede ser verdadera. El
nombre "bayesiano" proviene del uso frecuente del teorema de Bayes en el proceso de
inferencia. El teorema de Bayes ha sido derivado de la obra del Reverendo Thomas Bayes.
Evidencia y creencias cambiantes
La inferencia bayesiana utiliza aspectos del método científico que implica recolectar evidencia
que se considera consistente o inconsistente con una hipótesis dada. A medida que la
evidencia se acumula, el grado de creencia en una hipótesis se va modificando. Con evidencia
suficiente, a menudo podrá hacerse muy alto o muy bajo. Así, los que sostienen la inferencia
bayesiana dicen que puede ser utilizada para discriminar entre hipótesisen conflicto: las
hipótesis con un grado de creencia muy alto deben ser aceptadas como verdaderas y las que
tienen un grado de creencia muy bajo deben ser rechazadas como falsas. Sin embargo, los
detractores dicen que este método de inferencia puede estar afectado por un prejuicio debido a
las creencias iníciales que se deben sostener antes de comenzar a recolectar cualquier
evidencia.
Ejemplos de inferencia
Un ejemplo de inferencia bayesiana es el siguiente:
Durante miles de millones de años, el sol ha salido después de haberse puesto. El sol se ha
puesto esta noche. Hay una probabilidad muy alta (o 'Yo creo firmemente que' o 'es verdad
que') el sol va a volver a salir mañana. Existe una probabilidad muy baja (o 'yo no creo de
ningún modo que' o 'es falso que') el sol no salga mañana.
La inferencia bayesiana usa un estimador numérico del grado de creencia en una hipótesis aún
antes de observar la evidencia y calcula un estimador numérico del grado de creencia en la
hipótesis después de haber observado la evidencia. La inferencia bayesiana generalmente se
basa en grados de creencia, o probabilidades subjetivas, en el proceso de inducción y no
necesariamente declara proveer un método objetivo de inducción.
Definiciones formales
A pesar de todo, algunos estadísticos bayesianos creen que las probabilidades pueden tener un
valor objetivo y por lo tanto la inferencia bayesiana puede proveer un método objetivo de
inducción. (Vermétodo científico.) El teorema de Bayes ajusta las probabilidades, dada una
nueva evidencia, de la siguiente manera:
189
Donde
H0 representa una hipótesis, llamada hipótesis nula, que ha sido inferida antes de que la nueva
evidencia, E, resultara disponible.
P(H0) se llama la probabilidad a priori de H0. P(E | H0) se llama la probabilidad condicional de
que se cumpla la evidencia E dado que la hipótesis H0 es verdadera. Se llama también la
función de verosimilitud cuando se expresa como una función de E dado H0.
P(H0 | E)
Establecimiento de la Inferencia
Los estadísticos bayesianos sostienen que aun cuando distintas personas puedan proponer
probabilidades a priori muy diferentes, la nueva evidencia que surge de nuevas observaciones
va a lograr que las probabilidades subjetivas se aproximen cada vez más. Otros, sin embargo,
sostienen que cuando distintas personas proponen probabilidades a priori muy diferentes, las
probabilidades subjetivas a posteriori pueden no converger nunca, por más evidencias nuevas
que se recolecten. Estos críticos consideran que visiones del mundo que son completamente
diferentes al principio pueden seguir siendo completamente diferentes a través del tiempo por
más evidencias que se acumulen.
Multiplicando la probabilidad anterior P(H0) por el factor P(E | H0) / P(E) nunca se podrá
obtener una probabilidad superior a 1. Ya que P(E) es al menos mayor que , lo
que permite la igualdad (véase probabilidad conjunta), reemplazando
P(E) con en el factor P(E | H0) / P(E) esto dejará una probabilidad posterior de
1. TPor lo tanto, la probabilidad posterior no llegará a ser mayor que uno sólo si P(E) fuese
menor que lo que nunca es cierto.
La probabilidad de E dado H0, P(E | H0), puede ser representada como una función de su
segundo argumento, lo que puede hacerse proporcionando un valor. Tal función se denomina
función de verosimilitud; es función de H0 dado E. Una proporción de dos funciones de
verosimilitudes que se denomina proporción de verosimilitud, Ë. Por ejemplo:
190
La probabilidad marginal P(E), puede ser representada además como la suma de los productos
de todas las probabilidades de las hipótesis exclusivas mutuamente y que corresponden a
probabilidades condicionales: . Como
resultado, se puede reescribir el teorema de Bayes como:
,
Esta iteración de la inferencia bayesiana puede ser expandida con la inclusión de más
evidencias. La inferencia bayesiana se emplea en el cálculo de probabilidades en la toma de
decisión. Se emplean en las probabilidades calculadas en la teoría de cálculo de riesgos, en la
denominada función de pérdida que refleja las consecuencias de cometer un error.
191
GLOSARIO.
TABLA DE ANÁLISIS DE VARIANZA: Tabla que se usa para resumir los cálculos y
resultados del análisis de varianza. En las columnas se indican la fuente de variación, la suma
de cuadrados, los grados de libertad, el cuadrado medio y los valores F.
CUADRADO MEDIO: La suma de los cuadrados divida entre los grados de libertad
correspondientes. Esta cantidad se usa en la relación F para determinar si existe diferencias
significativas entre las medias poblacionales.
INTERACCIÓN: Efecto producido cuando los niveles de un factor interactúan con los de
otro factor, influyendo sobre la variable respuesta.
192
COEFICIENTE AJUSTADO DE DETERMINACIÓN MÚLTIPLE. Medida de bondad
de ajuste para la ecuación estimada de regresión múltiple, que ajusta teniendo en cuenta la
cantidad de variables independientes en el modelo, y en consecuencia evita sobre estimar el
impacto de agregar más variables independientes.
193
BIBLIOGRAFÍA.
PEÑA, Daniel. Estadística, Modelos y Métodos. Vol. 1. Alianza Editorial. Madrid 1.988
ROSS, Sheldon. Probabilidad y Estadística para Ingenieros. Segunda Edición. Mc Graw Hill.
México 2.001
CASAS, J.M. (1997). Inferencia Estadística. Centro de Estudios Ramón Areces, Madrid.
SARABIA, J.M. (2000). Curso Práctico de Estadística. Segunda Edición. Civitas, Madrid.
RUIZ-MAYA, L., MARTÍN PLIEGO, F.J. (2001). Estadística II: Inferencia. Segunda
Edición. AC, Madrid.
194
Sitios Web
http://www.itchihuahuaii.edu.mx/academico/CB/MEG/estadistica.htm
http://posgrado.e.ipb.upel.edu.ve/EAplicada/Estadistica%20Aplicada.htm
http://posgrado.e.ipb.upel.edu.ve/EAplicada/Curso.htm
http://www.umh.es/asignaturas/fichasignatura.asp?asi=7999
http://ice.unizar.es/uzinnova/jornadas/pdf/95.pdf
http://www.fcnym.unlp.edu.ar/catedras/estadistica/programa2002.html#2
http://aprendeenlinea.udea.edu.co/lms/moodle/mod/resource/view.php?inpopup=true&id=3
http://aprendeenlinea.udea.edu.co/portal/
http://egkafati.bligoo.com/content/view/182409/Del_como_y_porque_ensenar_estadistica.htm
l
http://metro40.edv.uniovi.es/metroweb/charlas/Estadistica.pdf
http://www.uned.es/experto-metodos-avanzados/
http://aprendeenlinea.udea.edu.co/lms/moodle/course/view.php?id=322
http://server2.southlink.com.ar/vap/PROBABILIDAD.htm
http://es.wikipedia.org/wiki/Probabilidad
http://www.terra.es/personal2/jpb00000/pprobjunio99.htm
http://www.fvet.edu.uy/estadis/probabilidad.htm
http://thales.cica.es/rd/Recursos/rd98/Matematicas/28/matematicas-28.html
http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/Estadistica/inde
x.html
195