You are on page 1of 19

Profesor: Msc.

José Zúñiga Sáenz

Administración de Empresas Estadística Inferencial Guía N° 2.


Tema: Distribuciones Muestrales y Estimación Estadística.
ERRORES MUESTRALES:

Cuando se usan valores muestrales (o estadísticos) para estimar valores poblacionales (o parámetros), pueden ocurrir dos
tipos de errores: el error muestral y el error no muestral (o sistemático). Un Error Muestral es la diferencia entre un
estadístico de la muestra y el parámetro correspondiente de la población. En general el error muestral se refiere a la
variación natural existente entre muestras tomadas de la misma población, cuando una de ellas no es copia exacta de la
población.

Ejemplo 1. Suponga que cuatro secretarias de una empresa cometen errores de transcripción diario de la siguiente manera
Ana: 3; Carmen: 6; Eva: 2 y Bertha: 5. Si se toman muestras de tamaño dos bajo un muestreo con reemplazo (es decir, el
elemento elegido se vuelve a introducir a la población antes de elegir el siguiente), y que se seleccionan muestras ordenadas
(el orden de la escogencia es importante). Halle la media poblacional, todas las muestras, la media de cada muestra y los
errores muestrales. Vuelva a repetir la operación pero ahora bajo un muestreo sin reemplazo.

Solución.
Con Reemplazamiento
Muestras Media Error
X
Ordenadas Muestral Muestral
3 (3, 3) 3 3 - 4 = -1
6 (3, 6) 4,5 4,5 - 4 = 0,5 Sin Reemplazamiento
2 (3, 2) 2,5 2,5 - 4 = -1,5 Muestras Media Error
5 (3, 5) 4 4-4=0 X
Ordenadas Muestral Muestral
Media (6, 3) 4,5 4,5 - 4 = 0,5 3 (3, 6) 4,5 4,5 - 4 = 0,5
4 (6, 6) 6 6-4=2 6 (3, 2) 2,5 2,5 - 4 = -1,5
(6, 2) 4 4-4=0 2 (3, 5) 4 4-4=0
(6, 5) 5,5 5,5 - 4 = 1,5 5 (6, 2) 4 4-4=0
(2, 3) 2,5 2,5 - 4 = -1,5 Media (6, 5) 5,5 5,5 - 4 = 1,5
(2, 6) 4 4-4=0 4 (2, 5) 3,5 3,5 - 4 = -0,5
(2, 2) 2 2 - 4 = -2
(2, 5) 3,5 3,5 - 4 = -0,5
(5, 3) 4 4-4=0
(5, 6) 5,5 5,5 - 4 = 1,5
(5, 2) 3,5 3,5 - 4 = -0,5
(5, 5) 5 5-4=1

Cuando el muestreo es con reemplazo, el número de muestras es , como es el caso del ejemplo donde resultaron 16
2
muestras: 4 = 16, mientras que si se realiza sin reemplazo, el número de muestras resultantes es M = ( ) donde resultaron

6 muestras. ( ) . Aun si se ha tenido cuidado para asegurar que dos muestras del mismo tamaño sean representativas
de una cierta población, no es de esperarse que las dos sean idénticas en todos sus detalles. El error es un concepto que
ayuda a entender mejor la naturaleza de la estadística inferencial.

Error No Muestral. En los análisis prácticos, existe la posibilidad de que aparezca un error que no esté relacionado con el
procedimiento de muestreo usado, se conocen como Errores No Muestrales ó Sistemáticos.

El Sesgo Muestral es la tendencia sistemática a favorecer la selección de ciertos elementos de una muestra en lugar de
otros. Es importante anotar que el sesgo muestral se refiere a una tendencia sistemática inherente a un método de muestreo,
lo cual produce estimaciones de un parámetro que son, en promedio, menores (sesgo negativo) o mayores (sesgo positivo),
que el parámetro real.

1
Profesor: Msc. José Zúñiga Sáenz
TECNICAS DE MUESTREO ALEATORIO

El sesgo muestral puede minimizarse, usando el Principio de Aleatorización, el cual se refiere a cualquier proceso de
selección de una muestra de la población en el que la selección es imparcial o no esta sesgada. Los tipos más comunes de
técnicas de muestreo aleatorio son: el muestreo aleatorio simple (MAS), el muestreo estratificado (ME), el muestreo por
conglomerados (MC) y el muestreo sistemático (MS).

Un procedimiento de Muestreo Aleatorio Simple (Mas) es aquel en el que todas las posibles muestras del mismo tamaño
tienen la misma probabilidad de ser escogidas. A las muestras obtenidas bajo este tipo de procedimientos se les denomina
Muestras Aleatorias Simples. El M.A.S. puede llevarse a cabo con reemplazo o sin reemplazo, introduciendo los miembros
de una población en una urna y mezclándose entre sí, para luego extraer n de ellos. No obstante, en la práctica para
poblaciones finitas, suele usarse la tabla de números aleatorios, que se presenta de tal forma que cada uno de los números
del 0 al 9 aparece en ella con una frecuencia aproximadamente igual.

Suponga que una población de N individuos puede subdividirse en K grupos mutuamente excluyentes (disyuntos), llamados
estratos. El Muestreo Estratificado es la selección de muestras aleatorias simples independientes de cada uno de los estratos
de la población.

Suponga que una población puede dividirse en unidades relativamente pequeñas y geográficamente compactas llamadas
CONGLOMERADOS (Ejemplo una ciudad dividida en distritos o barrios). En el Muestreo Por Conglomerados se
relaciona una muestra aleatoria simple de conglomerados y, a continuación, se contacta con cada individuo de los
conglomerados de la muestra, es decir, se lleva a cabo un censo completo en cada uno de los conglomerados elegidos.

El Muestreo Sistemático es una técnica de muestreo que requiere de una selección aleatoria inicial de observaciones,
seguida de otra selección de observaciones obtenida a partir de algún sistema o regla. En este muestreo la población entera
es enumerada, y los elementos son seleccionados usando un skip interval. Este procedimiento exige, numerar todos los
elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número
aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i, i+k,
i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población
entre el tamaño de la muestra: k=N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k.

Marco Muestral. Un requerimiento esencial en todo muestreo probabilístico es la existencia de un marco muestral a partir
del cual los elementos para el muestreo puedan ser seleccionados. La organización general del marco de muestreo y la
información que éste contiene acerca de los elementos de la población tienen una gran influencia sobre el diseño de la
muestra. Defectos en el marco muestral, como fallas de cubrir a todos los elementos de la población de la encuesta o incluir
elementos de más (manzanas que no tienen viviendas), pueden llegar a tener efectos negativos importantes en la muestra.
Unidad De Muestreo. Es la unidad que realmente muestreamos. Probablemente queramos estudiar individuos pero no
tendremos una lista de todas las personas en nuestra población objetivo. En lugar de ello, las viviendas sirven como
unidades de muestreo y las unidades (de observación son los individuos que residen normalmente en las viviendas.

ESTADISTICO Y SU DISTRIBUCION.

Sean X1, X2, …, Xn variables aleatorias, de tal forma que el vector aleatorio (X 1, X2, …, Xn) conforme una muestra
aleatoria extraída de alguna población. Entonces, un Estadístico Muestral para esta muestra es una función que depende
solo de las variables aleatorias X1, X2, …, Xn.

Al extraer una muestra aleatoria de una población y desea hacerse inferencia sobre ciertas características de la distribución
de la población, se basara sobre un Estadístico Muestral, es decir de alguna función particular de la información de la
muestra. Ejemplos de estadísticos: media muestral, varianza muestral, desviación estándar muestral, etc. Debido a que un
estadístico muestral también es una variable aleatoria (por ser función de variable aleatoria), entonces posee una
distribución.

La distribución de un estadístico muestral se conoce como Distribución Muestral y se define como la distribución de
probabilidad de los valores que puede tomar el estadístico a lo largo de todas las posibles muestras con el mismo número de
observaciones que pueden ser extraídas de la población.

2
Profesor: Msc. José Zúñiga Sáenz
Ejemplo 3. Suponga que un supervisor tiene a su cargo seis empleados cuyas experiencias medidas en años de trabajo, son
2, 4, 6, 6, 7 y 8. Se eligen al azar cuatro de ellos y se les asigna una nueva tarea. Fácilmente se puede determinar que el
número medio de años de experiencia para todos es de 5,5 años, sin embargo el interés se centra en la media de los cuatro a
los que se les ha asignado el cambio de tarea. Realice la distribución de muestreo de medias para este caso.
Solución.
El número de muestras que pueden ser seleccionadas es ( ) , las cuales aparecen así:
X Muestras Media Muestral
2 (2, 4, 6, 6) 4,50 Puesto que todas las posibles muestras tienen la misma probabilidad de
4 (2, 4, 6, 7) 4,75 ser seleccionada, cuyo valor es 1/15. Con esta información se puede
6 (2, 4, 6, 8) 5,00
determinar la probabilidad de cada uno de los valores de la media
6 (2, 4, 6, 7) 4,75
muestral, para ello primero se construye la tabla de frecuencias, para
7 (2, 4, 6, 8) 5,00
8 (2, 4, 7, 8) 5,25 luego con base en ella, construir la distribución de probabilidad.
Media (2, 6, 6, 7) 5,25
5,5 (2, 6, 6, 8) 5,50 Distribución de Frecuencias
(2, 6, 7, 8) 5,75 Media Muestral 4,50 4,75 5,00 5,25 5,50 5,75 6,00 6,25 6,75
(2, 6, 7, 8) 5,75 Frecuencia 1 2 2 2 1 3 1 2 1
(4, 6, 6, 7) 5,75
(4, 6, 6, 8) 6,00 Distribución de Probabilidad para la Media Muestral
(4, 6, 7, 8) 6,25 ̅ 4,50 4,75 5,00 5,25 5,50 5,75 6,00 6,25 6,75
(4, 6, 7, 8) 6,25
f(̅) 1/15 2/25 2/15 2/15 1/15 3/15 1/15 2/15 1/15
(6, 6, 7, 8) 6,75
Se puede analizar que tres de las posibles muestras tienen una media de 5,75, por lo tanto la probabilidad de que las tres
empleados seleccionados aleatoriamente tengan una media en sus años de experiencia es de 3/15.

DISTRIBUCION MUESTRAL DE LA MEDIA


MEDIA Y VARIANZA DE LAS MEDIAS MUESTRALES.

Suponga que se ha extraído una muestra de n observaciones de una población con media  y varianza 2. Antes de que la
muestra haya sido observada, habrá incertidumbre sobre los resultados, debido a que cada uno de los miembros de la
muestra es una variable aleatoria con media  y varianza 2. El objetivo es analizar la distribución muestral de la media
muestral. Un punto de partida es determinar la media ̅ y varianza ̅ de esta distribución. La desviación estándar
correspondiente se conoce como error estándar.
Teorema 1. Cuando la población en donde se hace el estudio es infinita o cuando es finita y el muestreo se hace con
reemplazo, la media ̅ de la distribución muestral de ̅ es igual a la media de la población de la que se toma la muestra, es
decir ( ̅ ) ̅ y la varianza ̅ de la distribución muestral es igual a la varianza de la población dividida por el
tamaño de la muestra, es decir ̅ . De otra parte, cuando la población es finita y el muestreo se hace sin reemplazo,
entonces, la media ̅ de la distribución muestral de ̅ es igual a la media de la población de la que se toma la muestra, es
decir ( ̅ ) ̅ , y la varianza ̅ de la distribución muestral es igual a ̅ ( )( )

Ejemplo 4. Tomando el Ejemplo 3, determine la esperanza y la varianza.


̅ f( ̅) E( ̅) V( ̅)
4,50 0,067 0,30 0,004 La media poblacional es 5,5 y la media de medias muestrales resulto 5,5 entonces
4,75 0,133 0,63 0,005 (̅ ) ̅ . La varianza poblacional es 3,9167 y la varianza de la distribución
5,00 0,133 0,67 0,002 muestral es 0,26111. Si a la varianza poblacional la dividimos entre 6 y la
5,25 0,133 0,70 0,001 multiplicamos por 2/5, se obtiene como resultado 0,26111.
5,50 0,067 0,37 0,000
5,75 0,200 1,15 0,001 El factor ( ) se denomina Factor De Corrección (De Población Finita), y se
6,00 0,067 0,40 0,001 puede pasar por alto cuando el tamaño n de la muestra es pequeño en relación con el
6,25 0,133 0,83 0,005 tamaño N de la población. Este factor se puede pasar por alto cuando la muestra
6,75 0,067 0,45 0,007 contiene menos del 5% de los elementos d ella población.
5,50 0,02611

3
Profesor: Msc. José Zúñiga Sáenz
Ejemplo 5. Suponga que  = 32 y que  = 5; también que la población tiene 1000 elementos y que se usa una muestra
aleatoria simple de 30 elementos, seleccionada de dicha población sin reemplazo. ¿Cuál es la media y el error estándar?

Se tiene que n = 30, N = 1000. Como n/N = 0,03 y es menor que 0,05, y el muestreo se hace sin reemplazo, reemplazo,

entonces ( ̅ ) ̅ ,y ̅

Teorema 2. Sea ̅ la media de una muestra aleatoria de tamaño n tomada de una población con media y varianza > 0.
Supóngase que se cumple alguna de las siguientes condiciones:
a. La población es normal y es conocida (no importa el tamaño de n)
b. La población es normal y es desconocida y n ≥ 30
c. La forma de la población es desconocida (o no normal), es conocida o desconocida y n ≥ 30

Entonces, la distribución muestral de la media muestral ̅ es normal con media ̅ y varianza ̅. Como consecuencia del
̅ ̅
teorema se puede concluir que la variable aleatoria está distribuida normalmente con media 0 y varianza 1.
̅
Además de los casos en que la varianza sea desconocida y n ≥ 30, reemplazamos la desviación poblacional  por la
desviación muestral s.
Nota: cuando se cumple la condición c, el teorema 2 se conoce como Teorema Central del Límite.

Ejemplo 6. Los tiempos requeridos para que unos trabajadores terminen cierta labor, se distribuye normalmente con media
de 30 minutos y una desviación estándar de 9 minutos. Si de la planta de trabajadores se toma una muestra aleatoria de 25 ,
encuentre la probabilidad de que la media del tiempo requerido para concluir la tarea, este entre 28 y 33 minutos.

Solución.
En este ejemplo, µ = 30,  = 9 y n = 25. Piden calcular P (28 < ̅ < 33). Como no conocemos el tamaño de la población se
supone que es infinita, entonces por el teorema 2 se tiene que: ( ̅ ) ̅ y ̅

Por consiguiente la probabilidad requerida es:
̅ ̅
( ̅ ) ( ) ( )
̅ ̅
( ) ( ) ( )

Por consiguiente la probabilidad pedida es aproximadamente de 0,82

Si la población tiene distribución normal, la distribución muestral de ̅ será normal, independientemente del tamaño de la
muestra, pero bajo la condición de que la varianza poblacional se conozca. Si, en cambio, la varianza es desconocida y el
tamaño de las muestras seleccionadas es pequeña, (menor que 30) se aplica el siguiente teorema:

Teorema 3. Si el muestreo se hace en una población normal con varianza poblacional desconocida y si las muestras son
pequeñas (n < 30), entonces la distribución muestral de la media muestral ̅ es la t de Student, con n – 1 grados de libertad.
̅
Este teorema implica que la variable aleatoria tiene distribución t con n – 1 grados de libertad.

Esta distribución al igual que la normal estándar, tiene forma de campana y una media igual a 0, alrededor de la cual es
simétrica. Su varianza en cambio es mayor que 1, lo cual hace que la distribución t sea menos aguda ene l centro y más alta
en las colas que la distribución normal estándar.

Al aumentar los grados de libertad, la distribución t se aproxima a la distribución normal. Para grados infinitos de libertad,
las dos distribuciones son idénticas.

Ejemplo 7. Una muestra aleatoria de 6 autos de un determinado modelo evidencia que cada uno de ellos consume las
siguientes cantidades en kilómetros por litro:
18,6 18,4 19,2 20,8 19,4 20,5.
Determine la probabilidad de que el consumo de gasolina medio muestral de automóviles sea menor que 17,6 kilómetros
por litro, suponiendo que la distribución de la población es normal con media 17.

4
Profesor: Msc. José Zúñiga Sáenz
Solución.
Tenemos que μ = 17 y que la muestra escogida es de tamaño n = 6. La media de la muestra dada es ̅ = 19,4833 y, con
esto, la varianza de esta muestra es s2 = 0,96. Por consiguiente, la desviación estándar de esta muestra es s = √ = 0,
98. Debido a que la población es normal con varianza desconocida y a que n < 30, entonces, la distribución muestral de la
media muestral es la t de Student con n−1 = 5 grados de libertad. Ahora, ̅ y ̅

Con esto, el valor de t5 para 17,6 es:
̅ ̅

̅
y con ayuda de la tabla t de Student con 5 grados de libertad, entonces, la probabilidad pedida será:

P(X ≤ 17, 6) = P(t5 ≤ 1,47) = 1 − P(t5 > 1,47) = 1 − 0,10 = 0,90.

DISTRIBUCION MUESTRAL DE LA DIFERENCIA DE MEDIA

En la práctica, el investigador muchas veces se concentra en dos poblaciones, pues a menudo se desea sacar inferencias
acerca de la diferencia entre dos medias poblacionales. Ejemplo un agricultor que está considerando el uso de dos
fertilizantes alternativos, por lo que se halla interesado en la diferencia de las producciones medias por hectáreas resultantes.
Para comparar las medias poblacionales en casos como este, se extrae una muestra aleatoria de las dos poblaciones y la
inferencia acerca de la diferencia entre ambas medias se basa en los resultados muestrales. El método apropiado para
analizar esta información depende del procedimiento empleado al seleccionar las muestras debiéndose considerar las dos
posibilidades siguientes:
1. Muestras Independientes. En este método se extraen 2 muestras independientes de cada una de las 2 poblaciones de
interés, de manera que los miembros de una muestra no tienen relación con los de la otra.
2. Datos Pareados (ó Muestras Dependientes). En este procedimiento, las muestras se eligen por pares, una de cada
población. La idea es que, aparte del aspecto objeto de estudio, los elementos de cada uno de estos pares deben
relacionarse, de manera que la comparación pueda ser establecida directamente.

MUESTRAS INDEPENDIENTES
Considere dos poblaciones con medias y y varianzas y respectivamente, y supongamos que se seleccionan
dos muestras aleatorias independientes de tamaños n1 y n2, con medias ̅ 1 y ̅ 2 y varianzas y , respectivamente. El
objetivo consiste en determinar la distribución muestral de ̅ ̅ . Para ello se distinguen los siguientes casos:
 Las varianzas poblacionales son conocidas o desconocidas, pero las muestras son grandes.
 Las varianzas poblacionales son desconocidas pero iguales y las muestras son pequeñas.
 Las varianzas poblacionales son desconocidas pero diferentes y las muestras son pequeñas.

PRIMER CASO: Varianzas Poblacionales Conocidas ó Desconocidas y Muestras Grandes.


Cuando las varianzas poblacionales son conocidas, la forma funcional de la distribución muestral de ̅ ̅ depende de
las poblaciones de sonde se extraen las muestras. Si ambas poblaciones están distribuidas normalmente, la distribución
muestral de ̅1 - ̅2 será normal. Pero si una población original (o ambas) no están distribuidas normalmente, la distribución
muestral de ̅ 1 - ̅ 2 estará distribuida más o menos normal-mente si n1 y n2 son grandes.
Ahora la variable aleatoria ̅ 1 - ̅ 2 tiene media
(̅ ̅ ) (̅ ) (̅ )

Y dado que las muestras son independientes, la varianza es:


(̅ ̅ ) (̅ ) (̅ )

Además se puede probar que si las dos poblaciones son normales, entonces ̅ 1 - ̅ 2 también es normal. Por lo tanto la
variable aleatoria:
(̅ ̅ ) ( )

Tiene una distribución normal estándar. Todas estas características se resumen en el siguiente teorema.

5
Profesor: Msc. José Zúñiga Sáenz
Teorema 4. Sean ̅1 y ̅2 las medias de muestras aleatorias independientes de tamaños n1 y n2 de poblaciones con medias
y varianzas y respectivamente. Supongamos que se cumple alguna de las siguientes condiciones:
a. Ambas poblaciones son normales y ambas varianzas poblacionales y son conocidas;
b. Ambas poblaciones son desconocidas o no normales, ambas varianzas poblacionales y son conocidas o
desconocidas y n1 ≥ 30 y n2 ≥ 30.
Entonces, la distribución muestral de la diferencia entre dos medias muestrales estará distribuida normalmente y tendrá una
media igual a y una varianza igual a .

Ejemplo 8. Para comparar los pesos promedios de niños y niñas de sexto grado en una escuela de instrucción media, se
usara una muestra aleatoria de 20 niños y otra igual de 25 niñas. Se sabe que, en niños y niñas, los pesos siguen una
distribución normal. En concreto, el promedio de los pesos de todos los niños de sexto grado de esa escuela es de 100 libras
y su desviación estándar es de 14,142, mientras que el promedio de los pesos de todas las niñas del sexto grado es de 85
libras y su desviación estándar es de 12,247. Encuentre la probabilidad de que el promedio de los pesos de los 20 niños sea
al menos 20 libras más grande que el de las 25 niñas

Solución.
̅ 1 representa el promedio de los pesos de 20 niños, ̅ 2, el promedio de los pesos de 25 niñas. Piden calcular
P ( ̅ 1 – ̅ 2 > 20). Como las dos poblaciones en cuestión son normales y tienen varianzas conocidas, entonces por el
Teorema 4. Se tiene:
o La distribución muestral de ̅ 1 - ̅ 2 es aproximadamente normal.
o La media de la distribución muestral de ̅ 1 - ̅ 2 es igual a = 100 – 85 15.
( ) ( )
o La varianza de la distribución muestral de ̅ 1 - ̅ es:
Entonces para determinar P ( ̅ 1 – ̅ 2 > 20) encontramos el valor de Z para una diferencia de 20 libras. O sea,
=1,25. En consecuencia, P ( ̅ 1 - ̅ 2 > 20) = P ( > 1,25) 1 - P ( ≤ 1,25) = 1 – 0,8944 = 0,1056

Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños sea al menos 20 libras mayor que el de
las niñas es 0,1056.

SEGUNDO CASO: Varianzas Poblacionales Iguales, Desconocidas y Muestras Pequeñas.


Considere el caso en que se desconocen y , pero iguales, y = Entonces la variable aleatoria ̅ ̅
tiene una media ( ̅ ̅ ) (̅ ) (̅ ) y varianza (̅
̅ ) (̅ ) (̅ )
Además se puede probar que si las dos poblaciones son normales, entonces ̅ 1 - ̅ 2 también es normal. Por lo tanto la
(̅ ̅ ) ( )
variable aleatoria:

Tiene una distribución normal estándar. Sin embargo, este último resultado no puede ser utilizado ya que la expresión dada
para Z depende de la varianza poblacional desconocida. Debido a que esta varianza es la misma para ambas poblaciones,
pueden emplearse los dos conjuntos de información muestral para estimarla. Así, el estimador es:
( ) ( )

Donde y son las dos varianzas muestrales. La cantidad se denomina Varianza Muestral Combinada, y es el
promedio ponderado de las dos varianzas muestrales, que se han obtenido al ponderar cada una por los respectivos tamaños
muestrales menos 1.

Reemplazando en la ecuación de Z, la varianza desconocida por su estimador se obtiene la variable aleatoria:


(̅ ̅ ) ( )

La cual sigue una distribución t de Student con n1 + n2 – 2 grados de libertad.

6
Profesor: Msc. José Zúñiga Sáenz
Ejemplo 9. Suponga que dos drogas, A y B, de las que se dice que reducen el tiempo de respuesta de los conejos a
determinado estímulo, se están comparando en un experimento de laboratorio. Se sabe que en las respectivas poblaciones
los tiempos de respuesta al estímulo están distribuidos normalmente. Se administra la droga A en 12 conejos y la droga B en
13 conejos. Cuando se lleva a cabo el experimento, la reducción promedio de tiempo de respuesta al estímulo por parte de
los conejos que están recibiendo la droga A es 30,45 milisegundos con una desviación estándar de 5 milisegundos. Los
datos correspondientes a la droga B son 24,9 y 6 milisegundos. ¿Cuál es la probabilidad de que la diferencia entre la
reducción promedio de tiempo de respuesta al estímulo por parte de los conejos que están recibiendo la droga A y la de los
conejos que están recibiendo la droga B sea menor o igual a la observada en el experimento? Suponga que no hay diferencia
alguna entre las dos drogas con respecto a la reducción promedio en tiempos de respuestas y que las drogas son igualmente
efectivas. Además, suponga que las poblaciones tienen distribución normal con varianzas iguales.
Solución.
Como las dos poblaciones en cuestión son normales y los tamaños de las muestras son pequeños entonces:
• La distribución muestral de ̅ A - ̅ B es aproximadamente la t de Student con nA + nB − 2 = 12 + 13 − 2 = 23 g. l.
• Debido a que no hay diferencia alguna entre las dos drogas con respecto a la reducción promedio en tiempos de
respuestas y que las drogas son igualmente efectivas, entonces, μA = μB. Por consiguiente, la media de la distribución
muestral de ̅ A - ̅ B es igual a μA − μB = 0.
( ) ( )
• Debido a que la varianza muestral combinada s2 está dada por:

Entonces, la varianza de la distribución muestral de ̅ A - ̅ B es:


(̅ ̅ ) ( )
Por demás, con base en los datos, el valor t está dado por:

Por consiguiente, P ( ̅ A - ̅ B ≤ 5,55) = P ( ≤ 2,5) = 0,99


Es decir, la probabilidad de que la diferencia entre la reducción promedio de tiempo de respuesta al estímulo por parte de
los conejos que están recibiendo las drogas A y B sea menor o igual a la que se observó en el experimento es de 0,99.

TERCER CASO: Varianzas Poblacionales Desconocidas, Diferentes y Muestras Pequeñas.


En esta situación, se supone que las poblaciones originales están distribuidas normalmente, que las varianzas poblacionales
son desconocidas y diferentes y que las muestras son pequeñas. Se utilizaran en consecuencia, las varianzas muestrales y
en vez de las varianzas poblacionales desconocidas y respectivamente.
(̅ ̅ ) ( )
Entonces la variable aleatoria:

( )
Está distribuida según la distribución t de Student con: Grados de libertad, y dado que v rara vez es
( ⁄ ) ( ⁄ )

un entero, entonces se redondea al entero más próximo.

Ejemplo 10. Tomemos el ejemplo 8 y asumamos que las varianzas poblacionales son desconocidas pero diferentes.
Solución.
Como las dos poblaciones en cuestión son normales y los tamaños de las muestras son pequeños entonces:
( )
• La distribución muestral de ̅ A - ̅ B es aproximadamente la t de Student con g.l.
( ⁄ ) ( ⁄ )

• De nuevo, como las dos medias poblacionales son iguales, entonces, μA = μB. Por consiguiente, la media de la
distribución muestral de ̅ A - ̅ B es igual a μA − μB = 0.
• La varianza muestral de la distribución muestral ̅ A - ̅ B es:

7
Profesor: Msc. José Zúñiga Sáenz
En este caso, el valor de t de Student está dado por:
(̅ ̅ ) ( )

Por consiguiente, P ( ̅ A - ̅ B ≤ 5,55) = P ( ≤ 2,52) = 0,99

Es decir, la probabilidad de que la diferencia entre la reducción promedio de tiempo de respuesta al estímulo por parte de
los conejos que están recibiendo las drogas A y B sea menor o igual a la que se observó en el experimento es de 0,99.

DATOS PAREADOS (MUESTRAS DEPENDIENTES)


Al tomar una muestra aleatoria de n pares de observaciones que se representan por (x 1, y1), (x2, y2), …, (xn, yn), procedentes
de dos poblaciones con medias . De modo que x1, x2, …, xn corresponden a las observaciones muestrales de una
población con media , mientras que y1, y2, …, yn corresponden a las observaciones muestrales de una población con
media . Ahora, si di = xi – yi, para cada i = 1, … , n, entonces, las diferencias d1, … , dn se puede pensar como una
muestra aleatoria de una población de diferencias de datos pareados. Con esto se tiene que si ̅ y ̅ son las medias de las
muestras x1, … , xn y y1, … , yn, entonces la media ̅ de las diferencias muestrales viene dada por ̅ = ̅ – ̅ , lo cual está
asociado con el estadístico ̅ definido como la diferencia de medias muestrales ̅ = ̅ – ̅ . A partir de esto, sea sd la
desviación estándar muestral para las n diferencias di = xi – yi. Entonces, la media ̅ y la varianza ̅ de la distribución
muestral de ̅ son como aparecen en la siguiente tabla.
Estadístico Media Varianza
̅ =̅–̅ ̅ ̅

El objetivo final es determinar la distribución muestral de ̅ = ̅ – ̅. Si se asume que la distribución de las diferencias es
normal, entonces la distribución muestral ̅ = ̅ – ̅ es la t de Student con n – 1 grados de libertad.
̅ ̅

Ejemplo 11. La tabla recoge los datos de consumo de gasolina correspondiente a una muestra aleatoria de 8 automóviles de
dos modelos diferentes. Se formaron pares con las dos muestras y cada elemento de un determinado par fue conducido por
la misma ruta y por el mismo piloto.
xi (auto A) 19,4 18,8 20,6 17,6 19,2 20,9 18,3 20,4
yi (auto B) 19,6 17,5 18,4 17,5 18,0 20,0 18,8 19,2
a. Determine la media y la desviación muestral de las diferencias en el consumo de gasolina
b. Suponiendo que la distribución de las diferencias poblacionales es normal con media – 0,807, encentre la probabilidad
de que el consumo promedio de gasolina del auto A sea mayor que el del auto B

Solución.
a. La siguiente tabla muestra las diferencias di entre los datos.
xi 19,4 18,8 20,6 17,6 19,2 20,9 18,3 20,4
yi 19,6 17,5 18,4 17,5 18 20 18,8 19,2 SUMA
di -0,2 1,3 2,2 0,1 1,2 0,9 -0,5 1,2 6,2
di2 0,04 1,69 4,84 0,01 1,44 0,81 0,25 1,44 10,52
Estas diferencias forman una muestra aleatoria procedente de una población cuya media es μA − μB, es decir, la diferencia
entre las medias poblacionales entre los dos modelos de autos.
La media y la varianza muestral de las diferencias en el consumo de gasolina se calculan asi:

̅

∑ ̅̅̅̅̅ ( )( )

Por lo que la desviación muestral es √

8
Profesor: Msc. José Zúñiga Sáenz
b. Tenemos que μA − μB = – 0,807. Sean ̅ A y ̅ B las variables que representan el consumo promedio de gasolina de los
autos A y B, respectivamente. Piden calcular P( ̅ A> ̅ B) o, lo que es lo mismo P( ̅ A- ̅ B>0). Hagamos ̅ = ̅ A– ̅ B.
Entonces, ̅ = – 0,27 y ̅
√ √

Entonces, con la tabla t de Student con 7 grados de libertad, encontramos que:


̅ ( )
P ( ̅ A - ̅ B > 0) = P ( ̅ >0) ( ) ( ) ( )
̅

Por consiguiente, la probabilidad de que el consume promedio de gasolina del auto A sea mayor que el del auto B es
aproximadamente de 0,025.

DISTRIBUCION MUESTRAL DE UNA PROPORCION.

Si se repite un experimento con probabilidad de éxito p, entonces, la variable aleatoria X, que representa el número total de
éxitos en las n repeticiones, sigue una distribución binomial. Por ejemplo podemos estar interesados en la proporción de
estudiantes que pierde Estadística, así entonces es natural basar la inferencia en la proporción de éxitos referida en una
muestra de la población que nos interese.

Sea X el número de éxitos en una muestra binomial de n observaciones donde la probabilidad de éxito es p. Entonces la
proporción de éxitos de la muestra ̅ recibe el nombre de Proporción Muestral.

En la mayoría de las aplicaciones el parámetro p será la proporción de individuos de una gran población que posean las
mismas características.

La media ̅ y la varianza ̅ de la distribución de la proporción muestral pueden deducirse fácilmente a partir de la


media y la varianza del número de éxitos que están dadas por E(X) = n p y V(X) = n p(1 – p)

Con esto obtenemos que:

̅ (̅) ( ) ( )

( )
̅ ( ̅) ( ) ( )

Es decir, la media de la proporción muestral de la proporción es p de éxitos en la población y su varianza es p(1 – p)/n.

La desviación típica de la proporción muestral, que es la raíz cuadrada de la varianza, recibe el nombre de Error Estándar.

Esta aplicación se hace cuando la población es infinita, pero cuando es finita, se utiliza la Corrección Por Población Finita
en la expresión de la varianza así:

( )
̅ ( )( )

Teorema 5. (Teorema de De Moivre – Laplace) Sea ̅ la proporción de éxitos en una muestra aleatoria de n observaciones.
Si se cumple alguna de las dos condiciones siguientes:
 n ≥30
 np ≥ 5 y n(1 – p) ≥ 5

Entonces, la distribución muestral de la proporción muestral ̅ se puede aproximar con una distribución normal.
̅ ̅
Este teorema implica que la variable aleatoria tiene distribución normal.
̅

9
Profesor: Msc. José Zúñiga Sáenz
Ejemplo 12. Se desea estudiar una muestra de 20 personas para saber la proporción de ellas que tiene más de 40 años.
Sabiendo que la proporción en la población es del 40%, ¿cuál es la probabilidad de que la proporción en la muestra sea
menor del 50%?

Solución.
Aquí, n = 20 y p = 0, 4. Se observa que n < 30. Pero, debido a que np = 8 ≥ 5 y n(1 − p) = 12 ≥ 5, entonces, por el teorema
de De Moivre-Laplace, la distribución de la proporción muestral será aproximadamente normal con ̅
( ) ( )( )
̅ √ √

Por consiguiente, la probabilidad pedida es:


̅
( ̅ ) ( ) ( ) ( )
̅

Por tanto, la probabilidad de que la proporción en la muestra sea menor del 50% es aproximadamente de 0,82.

DISTRIBUCION MUESTRAL DE LA DIFERENCIA DE PROPORCIONES

Para construir esta distribución es necesario tomar dos muestras aleatorias independientes que procedan de ambas
poblaciones. Suponga que una muestra de n1 observaciones, en una población con proporción p1 de éxitos, da lugar a una
proporción muestral ̅ y que, además, se obtiene una proporción muestral ̅ al examinar una muestra aleatoria
independiente de n2 observaciones procedentes de una población con proporción p2 éxito. Dado que el interés se centra en
la diferencia poblacional p1 – p2, es lógico estudiar el comportamiento de la variable aleatoria ̅ ̅ , en esta situación,
la Media es:
(̅ ̅ ) (( ̅ ) (̅ )

Y debido a que las muestras se extrajeron independientemente, la varianza se establece así:

( ) ( )
V( ̅1 - ̅2) = v( ̅1) + V( ̅2) =

Además si los tamaños muéstrales son grandes, la distribución de esta variable aleatoria es aproximadamente normal; por lo
que, si le restamos su media y la dividimos por la desviación estándar, el resultado es una variable normal estándar. Asi
pues, la variable aleatoria
(̅ ̅ ) ( )
( ) ( )

Sigue una distribución normal estándar. Además esta aproximación es válida si se cumple alguna de las dos condiciones
siguientes:
 n1 ≥30 y n2 ≥30
 n1p1 ≥ 5 y n1(1 – p1) ≥ 5; n2p2 ≥ 5 y n2(1 – p2) ≥ 5

Ejemplo 13. Los hombres y mujeres adultos radicados en una ciudad grande de cierto país difieren en sus opiniones sobre el
establecimiento de la pena de muerte para personas culpables de asesinato. Se cree que el 12% de los hombres adultos están
a favor de la pena de muerte, mientras que sólo el 10% de las mujeres adultas lo están. Si se pregunta a dos muestras
aleatorias, una de 150 hombres y otra de 100 mujeres, su opinión al respecto, determine la probabilidad de que el porcentaje
de hombres a favor sea al menos 3% mayor que el de mujeres.

Solución.
p1 = porcentaje de hombres a favor de la pena de muerte
p2 = porcentaje de mujeres a favor de la pena de muerte.
La media de la distribución muestral de las diferencias entre las proporciones muestrales es:
̅ ̅

10
Profesor: Msc. José Zúñiga Sáenz
Asimismo, el error estándar de las diferencias entre las proporciones muestrales es:
( ) ( ) ( )( ) ( )( )
̅ ̅ √ √

Entonces, el valor Z para ̅ ̅ está dado por

(̅ ̅ ) ( )
( ) ( )

Entonces la probabilidad pedida es:

( ̅ ̅ ) ( ) ( )

De este modo, se concluye que la probabilidad de que el porcentaje de hombres a favor de la pena de muerte para culpables
de asesinatos sea al menos 3% mayor que el de mujeres comprende la cantidad de 0,4013.

ESTIMACION ESTADISTICA
Suelen presentarse muchas situaciones en las que alguien desea conocer los valores de parámetros poblacionales tales como
la media, la proporción, la diferencia de medias, la diferencia de proporciones, la varianza y la razón de varianzas.

La Inferencia Estadística es el procedimiento mediante el cual se pueden sacar conclusiones acerca de una población,
partiendo de la información contenida en una muestra extraída de esa población.

El objetivo principal de la inferencia estadística es la Estimación, esto es que mediante el estudio de una muestra de una
población se quiere generalizar las conclusiones al total de la misma. Los estadísticos varían mucho dentro de sus
distribuciones muestrales, y mientras menor sea el error estándar de un estadístico, más cercanos serán unos de otros sus
valores. El campo de la inferencia estadística se divide en dos: Por un lado está El Problema De La Estimación De Los
Parámetros De Una Distribución, y por el otro, Las Pruebas De Hipótesis. En el problema de estimación se trata de elegir
el valor de un parámetro de la población, mientras que en las pruebas de hipótesis se trata de decidir entre aceptar o rechazar
un valor especificado (ejemplo, si la marca A es superior a la marca B).

A su vez el problema de la estimación se puede dividir en dos áreas: La estimación puntual, y la estimación por intervalos
de confianza. En forma similar, en el campo de las pruebas de hipótesis se pueden considerar dos áreas: Pruebas de
hipótesis sobre parámetros, para determinar si un parámetro de una distribución toma o no un determinado valor, y Pruebas
de Bondad de Ajuste, para definir si un conjunto de datos se puede modelar mediante una determinada distribución.

Criterios Para Escoger un Buen Estimador.


Considerando algún parámetro de la población y un conjunto de estadísticos ̂ ̂ que pueden ser considerados como
estimadores de . Convenimos que sea cualquier medida particular de una población porque los siguientes criterios
pueden aplicarse a cualquier estimador, por ejemplo podría ser la media de la población , entonces ̂ podría representar
la media muestral; ̂ la mediana muestral, etc. Si acordamos que ̂ represente una estimación del estimador ̂ , entonces,
el llamado error muestral e, está asociado con esa estimación es: ̂ .

Supuestamente cualquier “buen” estimador disminuiría el error tanto como fuera posible: e = 0 es lo ideal. Para cualquier
población, el parámetro es constante; en cambio, ̂ es solo uno de muchos valores posibles que el estimador ̂ podría
generar. La distribución muestral nos indicaría cuales valores de ̂ podrían ocurrir con cierta probabilidad, lo cual está
asociado con varios rangos de valores de ̂ . Intuitivamente, entonces si queremos investigar la distribución de errores e,
debemos observar la distribución muestral del estimador.

Existen tres criterios para escoger un buen estimador:

11
Profesor: Msc. José Zúñiga Sáenz
1. Insesgo.
Si el valor esperado del estadístico muestral es igual al parámetro poblacional que se estima, se dice que ese estadístico es
un estimador insesgado del parámetro poblacional. Se dice que un estimador ̂ es Insesgado, si el valor esperado del
estimador es igual al parámetro de la población que está estimando, es decir, ( ̂ ) . Evidente-mente, si ( ̂ ) , se
̂
dice que el estimador es SESGADO. Llamaremos SESGO a la diferencia entre la media del esti-mador y el parámetro ,
es decir, (̂) (̂) . Obsérvese que el sesgo de un estimador insesgado es 0. La notación de esperanzas
indica que si repetimos el proceso de muestreo muchas veces, en promedio, el valor que se obtiene de un estimador
insesgado será igual al parámetro poblacional. Algunos estadísticos que son estimadores insesgados de sus correspondientes
parámetros poblacionales son la media, la varianza y la proporción muestrales.

2. Eficiencia.
Suponga que se puede usar una muestra aleatoria simple de n elementos para obtener diferentes estimadores puntuales
insesgados del mismo parámetro poblacional. En este caso, se prefiere el estimador puntual con la menor varianza, porque
proporciona estimados más cercanos al parámetro poblacional. De este modo se dice que el estimador puntual con la menor
varianza tiene mayor eficiencia relativa que cualquier otro.

Sean ̂ y ̂ dos estimadores insesgados de obtenidos en muestras del mismo tamaño. Entonces,
(a) Se dice que ̂ es Más Eficiente que ̂ , si la varianza de la distribución muestral de ̂ es menor que la de la
distribución muestral de ̂ . Es decir, si V ( ̂ ) < V ( ̂ ).
(b) La Eficiencia Relativa de ̂ , con respecto a ̂ , es el cociente V ( ̂ )/ V ( ̂ ) de sus varianzas.

3. Consistencia
Un estimador puntual ̂ de es Consistente para si sus valores tienden a acercarse al parámetro poblacional conforme
se incrementa el tamaño de la muestra. De otro modo el estimador se llama Inconsistente.

ESTIMACIÓNPOR INTERVALOS

Existe un problema obvio relacionado con el uso de las estimaciones puntuales, aunque solo está implícito un parámetro, el
número de estimaciones es generalmente muy grande, pues una de las muestras posibles que se pueden sacar de la
población de interés arroja una estimación. Algunas estimaciones estarán más cerca del parámetro que otras, eso nos
permite desconocer que tan cerca esta nuestra estimación puntual del parámetro verdadero. Incluso, en una situación
determinada, podemos considerar sumamente improbable que la estimación puntual sea exactamente igual al parámetro,
pero no estamos en condiciones de decir en cuanto nos hemos equivocado.

Ejemplo 17. Un control realizado sobre una muestra aleatoria de piezas procedentes de un gran envío nos lleva a estimar
que el 10% de todas las piezas son defectuosas. Un gerente que se enfrenta a este dato posiblemente se hará las siguientes
preguntas: ¿puedo estar totalmente seguro de que el verdadero porcentaje de piezas defectuosas esta entre el 5% y el 15%?
¿se puede afirmar que el verdadero porcentaje de piezas defectuosas es mayor que el 8%? ¿es muy posible que entre el 9% y
el 11% de las piezas sean defectuosas? Estas preguntas requieren información que va más allá de lo que significa una
simple estimación puntual. Son preguntas que buscan conocer la fiabilidad de dicho estimador. En otras palabras se trata de
la búsqueda de un estimador por intervalos, un rango de valores entre los que posiblemente se encuentre la cantidad.

Un Estimador Por Intervalos de un parámetro poblacional es un estadístico para determinar un rango o un intervalo en el
cual posiblemente se encuentre dicho parámetro. La estimación correspondiente se denomina Estimación Por Intervalos.
Sea el parámetro que queremos estimar. La idea es encontrar, con ayuda de la información muestral, dos variables
aleatorias U y V, con U menor que V, tales que: P (U < < V) = 1 – α Para α  (0,1).
El intervalo de U hasta V es un estimador por intervalos de del (1 – α) 100%.
La fracción 1 – α recibe el nombre de Grado De Confianza, α se llama Nivel De Significación y el intervalo de U hasta V
es un Estimador Por Intervalos de del (1 – α) 100%
Si u y v representan un valor particular de U y V, respectivamente, entonces, el intervalo de u a v se denomina Intervalo de
Confianza del (1 – α) 100% para .

En conclusión, si se extraen muestras aleatorias de la población un número elevado de veces, el parámetro estará contenido
en un (1 – α) 100% de los intervalos calculados de este modo. El intervalo de confianza obtenido de esta manera se escribe
como u < < v.

12
Profesor: Msc. José Zúñiga Sáenz
INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL

El Caso De Muestras Grandes


Imaginemos que se extrae una muestra aleatoria de una distribución con media desconocida. Nuestro objetivo es hallar un
intervalo de confianza para la media poblacional suponiendo que se cumple alguna de las siguientes condiciones:
• La población es normal con varianza conocida. Aquí no importa el tamaño de la muestra.
• La población es normal con varianza desconocida y el tamaño de la muestra es grande.
• La forma de la población es desconocida (o no normal), su varianza es conocida o desconocida y el tamaño de la
muestra es grande.
Entonces el intervalo de confianza de (1 – α ) 100% para µ es: ⁄ ⁄
√ √

Siendo ⁄ el valor de a la derecha del cual se tiene un área de α/2 en la distribución normal.

Ejemplo 18. Un fabricante produce bolsas de arroz. El peso del contenido de estas bolsas tiene una distribución normal con
desviación estándar 15 gramos. A su vez, los contenidos de una muestra aleatoria de 25 bolsas tienen un peso medio de 100
gramos. Calcúlese un intervalo de confianza del 95% para el verdadero peso medio de todas las bolsas de arroz producidas
por el fabricante.

Solución.
Como buscamos un intervalo de confianza del 95%, tenemos que 1 − α = 95%, por lo que α = 5% = 0, 05. El intervalo de
confianza del 95% para la media poblacional μ es: ⁄ ⁄ √ √
De la tabla normal estándar, encontramos que ⁄ = ,96 porque P(Z > 1,96) = 0,025. Con esto y debido a que =
( )( ) ( )( )
100, σ = 15 y n = 25, el intervalo buscado es
√ √
o bien

Por lo tanto, podemos concluir que, con una confianza del 95%, el verdadero peso medio de todas las bolsas de arroz
producidas por el fabricante está entre 94,14 y 105,88 gramos.

El Caso de Muestras Pequeñas

Sean y s2 la media y la varianza de una muestra aleatoria de tamaño n < 30, tomadas de una población normal con media
µ y varianza 2 desconocida. Entonces, el intervalo de confianza de (1 – α) 100% para µ es: ⁄ ⁄ √ √

Siendo ⁄ el valor de a la derecha del cual se tiene un área de α/2 en la distribución t de Student con n – 1 grados


de libertad.

Ejemplo 19. Una muestra aleatoria de seis autos colombianos de un determinado modelo consumen las siguientes cantida-
des de gasolina en kilómetros por litro: 18,6; 18,4; 19,2; 20,8; 19,4 y 20,5. Calcule el intervalo de confianza del 90% para el
consumo de gasolina medio poblacional de los autos de este modelo, suponiendo que la distribución de la población en
cuestión es normal.

Solución.
En este caso, n = 6, = 19,48, y s = 0,98 kilómetros por litro. Debido a que ⁄ = = 2,015 con n – 1 grados de libertad,
( )( ) ( )( )
el intervalo buscado comprende la siguiente operación:
√ √
O bien,

Por lo tanto, podemos afirmar, con una confianza del 90% que el consumo de gasolina medio poblacional se encuentra entre
18,67 y 20,29 kilómetros por litro.

13
Profesor: Msc. José Zúñiga Sáenz
INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE DOS MEDIAS POBLACIONALES

En muchas situaciones prácticas es de gran interés obtener un intervalo de confianza para la diferencia de dos medias
poblacionales. Ya se estudió el componente correspondiente a las distribuciones muestrales apropiadas para la construcción
de intervalos de confianza referidas a la diferencia entre medias de población, teniendo en cuenta dos casos diferentes: para
muestras independientes o para muestras dependientes o datos pareados.

Intervalos De Confianza Para La Diferencia De Dos Medias Poblacionales. (Muestras Independientes)

Sea X1,X2, . . . ,Xn una muestra aleatoria de tamaño n de una población normal con valor esperado μ 1 y varianza 21 y Y1,
Y2, . . . , Ym una muestra aleatoria de tamaño m de una población normal con valor esperado μ2 y varianza 22.
Las dos poblaciones son estadísticamente independientes. Los casos que se presentan a continuación corresponden a los
supuestos que se hacen sobre las varianzas poblacionales (y los tamaños muestrales):
 Varianzas poblacionales conocidas o desconocidas y muestras grandes.
 Varianzas poblacionales iguales, desconocidas y muestras pequeñas.
 Varianzas poblacionales diferentes, desconocidas y muestras pequeñas.

PRIMER CASO: Varianzas Poblacionales Conocidas ó Desconocidas y Muestras Grandes


Sean y las medias de muestras aleatorias independientes de tamaños n1 y n2 de poblaciones con medias μ1 y μ2 y
varianzas 21 y 22, respectivamente. Supongamos entonces que se cumple alguna de las siguientes condiciones:
a. Ambas poblaciones son normales y ambas varianzas poblacionales 21 y 22 son conocidas.
b. Ambas poblaciones son desconocidas o no normales, ambas varianzas poblacionales 21 y 22 son conocidas o
desconocidas y n1 ≥ 30, n2 ≥ 30.
Entonces, un intervalo de confianza de (1 – a) 100% para μ1 - μ2 Es:

( ) ⁄ √ ( ) ⁄ √

( ) ( )
Donde ⁄ el valor de a la derecha del cual se tiene un área de α/2 en la distribución normal. Para el

caso en que las varianzas poblacionales son desconocidas, utilizamos las desviaciones muestrales respectivas como
estimación de las correspondientes desviaciones poblacionales.

Ejemplo 20. Para una muestra aleatoria de 321 fumadores, el número medio de horas de absentismo laboral al mes fue de
3,01 y la desviación estándar fue de 1,09 horas al mes. Para una muestra aleatoria independiente de 94 trabajadores que
nunca han fumado, el número medio de horas fue de 2,88 y la desviación estándar muestral fue de 1,01 horas al mes.
Calcule un intervalo de confianza del 95% para la diferencia entre las dos medias poblacionales.

Solución.
Dado que los tamaños muestrales son grandes, podemos utilizar las varianzas muestrales en lugar de las varianzas
poblacionales desconocidas de la siguiente manera: ( ) ⁄ √ ( ) √
Siendo,
n1 = 321, = 3,01, s1 = 1,09; n2 = 94 , = 2,88, s2 = 1,01.

Y dado que, para un intervalo de confianza del 95%,se tiene que ⁄ = ,96. Entonces, el intervalo es:

( ) ( ) ( ) ( )
( ) ( )√ ( ) ( )√

O bien,

Así, entonces como el cero está dentro del intervalo de confianza, no hay suficiente evidencia en los datos para rechazar la
idea de que ambas poblaciones tienen la misma media.

14
Profesor: Msc. José Zúñiga Sáenz
SEGUNDO CASO: Varianzas Poblacionales Iguales, Desconocidas y Muestras Pequeñas
Sean y las medias de dos muestras aleatorias independientes de tamaños n1 < 30 y n2 < 30 de poblaciones con medias
μ1 y μ2 y varianzas 21 y 22 iguales y desconocidas. Entonces, un intervalo de confianza de (1 – a) 100% para μ1 - μ2 Es:

( ) ⁄ √ ( ) ⁄ √

( ) ( ) ( ) ( )
Donde Es la varianza muestral combinada y ⁄ el valor de a la derecha del

cual se tiene un área de α/2 en la distribución t de Student con v = n1 + n2 g.l.

Ejemplo 21. En un estudio sobre los efectos de la planificación en el rendimiento financiero de los bancos, se extrajo una
muestra aleatoria de seis instituciones financieras que contaban con un sistema de planificación formal, comprobándose que
el porcentaje medio anual de crecimiento de los ingresos netos en dicha muestra era de 9,972 con una desviación estándar
de 7,470. La media de dicho crecimiento, en otra muestra aleatoria independiente de nueve bancos que no recurrían a la
planificación fue de 2,098 con una desviación estándar de 10,834. Suponiendo que las dos poblaciones son normales y
tienen la misma varianza, calcule un intervalo de confianza del 90% para la diferencia de medias.

Solución.
Los datos muestrales son n1 = 6, = 9,972, s1 = 7,470; n2 = 9, = 2,098, s2 = 10,834

Claramente, podemos verificar que se cumplen los supuestos del teorema. Además, debido a que el valor de la varianza
muestral combinada es:
( )( ) ( )( )

y a que ⁄ = ,771 es el valor de una variable aleatoria que tiene distribución t de Student con ν = n1 + n2 − 2 = 13
grados de libertad, entonces, el intervalo de confianza del 90% para la diferencia de los incrementos medios porcentuales es:

( ) ( )√ ( ) ( )√

O bien, −1, 161 < μ1 − μ2 < 16, 909.

Como el intervalo incluye el cero, no existe evidencia suficiente en la muestra para rechazar la idea de la igualdad de
medias entre ambas poblaciones.

TERCER CASO: Varianzas Poblacionales Diferentes, Desconocidas Y Muestras Pequeñas


Sean y las medias de dos muestras aleatorias independientes de tamaños n1 < 30 y n2 < 30 de poblaciones con medias
μ1 y μ2 y varianzas 21 y 22 desconocidas y diferentes.

Entonces, un intervalo de confianza de (1 – a) 100% para μ1 - μ2 Es:

( ) ⁄ √ ( ) ⁄ √

2
 S12 S 22 
con   
n n 2 
   1

S12 n1 2
S2 n
 2 2
 2
 
n1  1 n2  1
Grados de libertad, y dado que v rara vez es un entero, entonces se redondea al entero más próximo.
( ) ( )
Y ⁄ el valor de a la derecha del cual se tiene un área de α/2 en la distribución t de Student

15
Profesor: Msc. José Zúñiga Sáenz
Ejemplo 22. El departamento de zoología de cierto instituto llevó a cabo un estudio para estimar la diferencia en la cantidad
de cierta sustancia química medida en dos estaciones diferentes de un río. La sustancia se mide en miligramos por litro,
reuniéndose 15 muestras de la estación 1 y 12 muestras de la estación 2. Las 15 muestras de la estación 1 tuvieron un
contenido promedio de sustancia química de 3,84 miligramos por litro y una desviación estándar de 3,07 miligramos por
litro, mientras que las 12 de la estación 2 tuvieron un contenido promedio de 1,49 miligramos por litro y una desviación
estándar de 0,80. Encuentre un intervalo de confianza del 95% para la diferencia en el contenido promedio real de sustancia
en estas dos estaciones. Suponga que las observaciones vienen de poblaciones normalmente distribui-das con varianzas
diferentes.

Solución.
Tenemos que
n1 = 15, = 3,84, s1 = 3,07;
n2 = 12, = 1,49, s2 = 0,80

Como las varianzas poblacionales se suponen diferentes, sólo podemos encontrar un intervalo de confianza de 95%
aproximado basado en la distribución t de Student con
( ) ( )
[ ]

( )⁄ ( )⁄
( ) ( )
[ ]

Grados de libertad. Y, debido a que ⁄ = ,120 para ν = 16 grados de libertad, entonces, el intervalo buscado es

0, 60 < μ1 − μ2 < 4, 10

Por todo ello, tenemos una confianza del 95% en que el intervalo de 0,60 a 4,10 miligramos por litro contiene la diferencia
de los contenidos promedio reales de sustancia para estos dos lugares y, como el 0 no está incluido en el intervalo, podemos
afirmar que estos dos contenidos promedios son diferentes.

Intervalos De Confianza Para La Diferencia De Dos Medias Poblacionales (Muestras Dependientes ó Pareadas)

Al tomar una muestra aleatoria de n pares de observaciones que se representan por (x 1, y1), (x2, y2), …, (xn, yn), procedentes
de 2 poblaciones con medias 1 – 2. De modo que x1, x2,…, xn corresponden a las observaciones muestrales de una
población con media 1, mientras que y1, y2, …, yn corresponden a las observaciones muestrales de una población con
media 2. di = xi – yi, para cada i = 1,., n, entonces, las diferencias d 1,.. dn se puede pensar como una muestra aleatoria de
una población de diferencias de datos pareados. Con esto se tiene que si ̅ y ̅ son las medias de las muestras x1,…, xn y
y1,…, yn, entonces la media ̅ de las diferencias muestrales se da por ̅ = ̅ – ̅ , lo cual está asociado con el estadístico ̅
definido como la diferencia de medias muestrales ̅ = ̅ – ̅. A partir de esto, sea sd la desviación estándar muestral para
las n diferencias di = xi – yi. Entonces, la media ̅ y la varianza ̅ de la distribución muestral de ̅ son así:
Estadístico Media Varianza
̅= ̅–̅ ̅ = 1 – 2
2
̅ =sd /n

Entonces, un intervalo de confianza de (1 – α) 100% para ̅ es:


⁄ ⁄
√ √
̅ ̅
Y ⁄ el valor de a la derecha del cual se tiene un área de α/2 en la distribución t de Student
̅

Ejemplo 23. Se compararon por pares los niños matriculados en un jardín infantil de cierta escuela, siguiendo un cotejo
cuidadoso de criterios tales como la inteligencia, la edad cronológica, el estado socio-económico de los padres y el estado de
salud. Un miembro de cada par (seleccionado al azar) se asignó a una clase del jardín cuya profesora contaba con tres
auxiliares. Al final del año, se le administró a cada niño una prueba de habilidad de lectura y se obtuvieron los resultados
que aparecen en la siguiente tabla:

16
Profesor: Msc. José Zúñiga Sáenz
Par 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Con Auxiliar (xi) 25 36 27 39 38 36 24 29 26 28 31 33 30 36 34 32 31 26 30 29 39 33 25 30 35
Sin Auxiliar (yi) 32 29 21 32 27 33 25 22 33 33 22 24 28 24 30 27 31 23 31 20 33 30 22 28 33
Suponiendo que la población de diferencias promedio entre los puntajes de habilidad en lectura está normalmente
distribuida, construya un intervalo de confianza del 95% para esta diferencia promedio de puntajes.

Solución.
Sea di = xi −yi las diferencias muestrales entre los puntajes de habilidad en lectura de ambos grupos (con y sin auxiliar).
Además, sean d y s2 de la media y varianza de las diferencias di (compárese con las notaciones de la sección 1.6). Tomando
los datos de la muestra, hallamos las diferencias di como se muestra en la siguiente tabla:
Con lo anterior, = 3,56, sd2= 26,0067 y = 5,10. Por consiguiente, teniendo en cuenta los supuestos correspondientes, el
intervalo pedido se halla de acuerdo con: ⁄ √ ⁄ √

Par 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
di -7 7 6 7 11 3 -1 7 -7 -5 9 9 2 12 4 5 0 3 -1 9 6 3 3 2 2

Siendo ⁄ = ,0639 el valor de una variable aleatoria que tiene distribución t de Student con n − 1 = 24 grados de
libertad y = μ con auxiliar – μ sin auxiliar.
Reemplazando, luego, los datos calculados, encontramos que 1, 45 < < 5, 67.
Por lo tanto, podemos afirmar con una confianza del 95% que hay una diferencia significativa entre los puntajes de
habilidad en lectura de ambos grupos.

Intervalo De Confianza Para La Proporción Poblacional


Sea ̅ la proporción de éxitos en una muestra aleatoria de tamaño n, procedente de una población con proporción p éxitos.
Supongamos que se cumple una de las condiciones siguientes:
 n ≥30
 np ≥ 5 y n(1 – p) ≥ 5

Entonces, un intervalo de confianza aproximado de (1 – α) 100% para p es:


( ) ( )

√ ⁄

̅ ̅
Donde ⁄ es el valor de , con un área de α/2 a la derecha de la distribución normal.
̅

Ejemplo 24. Hay empresas especializadas en ayudar a otras a ubicar y asegurar talento para la alta gerencia. Tales firmas
son responsables de la ubicación de muchos de los mejores directores ejecutivos de la nación. Una reconocida revista
reportó que: “uno de cada cuatro directores ejecutivos es una persona con más de 35 años de edad”. Si en una muestra
aleatoria de 350 compañías de cierto país, 77 tienen directores ejecutivos con más de 35 años de edad, ¿un intervalo de
confianza del 99% apoyaría la afirmación?

Solución.
Tenemos que n = 350 y que . Debido a que n ≥ 30 y a que ⁄ , entonces, un intervalo
de confianza para la proporción poblacional p es:

( )( ) ( )( )
( )√ ( )√

O bien,
0, 163 < p < 0, 277
Por consiguiente, con una confianza del 99%, se puede afirmar que aproximadamente entre el 16,3% y el 27,7% de las
empresas del país tienen directores ejecutivos con más de 35 años de edad. Y, en conclusión, la afirmación está apoyada por
tales descubrimientos, ya que el 25% está contenido dentro del intervalo.

17
Profesor: Msc. José Zúñiga Sáenz
Intervalo De Confianza Para La Diferencia De Proporciones Poblacionales

En muchas ocasiones se requiere construir intervalo de confianza para dos proporciones, por ejemplo, podríamos buscar la
proporción de jugadores de futbol que siguen activos a los 35 años con relación a la de atletas que tiene este atributo.
Sea ̅ la proporción de éxitos observada en una muestra aleatoria de tamaño n1, procedente de una población con
proporción p1 de éxitos. Al mismo tiempo, sea ̅ la proporción de éxitos observada en una muestra aleatoria independiente
de tamaño n2, procedente de una población con proporción p2 de éxitos. Suponga que se cumple alguna de las dos
condiciones siguientes:
 n1 ≥30 y n2 ≥30
 n1p1 ≥ 5 y n1(1 – p1) ≥ 5; n2p2 ≥ 5 y n2(1 – p2) ≥ 5

Entonces, un intervalo de confianza aproximado de (1 – α) 100% para p1 – p2 es:

( ) ( ) ( ) ( )
( ) ⁄
√ ( ) ⁄

(̅ ̅ ) ( )
Donde ⁄ es el valor de ( ) ( )
, con un área de α/2 a la derecha de la distribución normal.

Ejemplo 25. Se extrajeron dos muestras aleatorias independientes de estudiantes universitarios de estadística con base en el
sexo. De 120 hombres, 107 esperaban disfrutar un trabajo de tiempo completo en un máximo de 6 años. En tanto que, de
141 mujeres encuestadas, 73 tenían esta esperanza. Hállese un intervalo de confianza del 95% para la diferencia entre las
proporciones poblacionales.

Solución.
Los datos muestrales son: n1 = 120 y que , n2 = 141 y que .
Debido a que se cumplen las condiciones expuestas, n1 ≥ 30 y n2 ≥ 30, y a que ⁄ , entonces, un
intervalo de confianza para la diferencia entre las proporciones poblacionales p1 – p2 es:

( )( ) ( )( ) ( )( ) ( )( )
( ) ( )√ ( ) ( )√

O bien,
0, 275 < p1 − p2 < 0, 473.
Como el cero no se encuentra en este intervalo, podemos afirmar, con una confianza del 95%, que la proporción de hombres
que esperan trabajar a tiempo completo en un máximo de 6 años es mayor que la de las mujeres.

Determinación del Tamaño de la Muestra


El valor de n está incluida en la fórmula de transformación. Una variación pequeña de la misma puede ser utilizada para
determinar el tamaño de muestra necesario por adelantado.
Por lo tanto, necesitamos conocer:
1) El nivel de confianza deseado que el resultado de la muestra caerá dentro de cierto rango (resultado  error muestral)
de los valores verdaderos de la población.
2) Estimar la desviación estándar objetivamente, a partir de un estudio anterior o de una muestra piloto).
3) Establece cuál es la tolerancia (error muestral) aceptable, esto es, que tanta exactitud se desea en la medición de la
variable deseada.
Otros factores que afectan el tamaño de la muestra:
 La importancia de la decisión a tomar
 La naturaleza de la investigación
 El número de variables
 La naturaleza del análisis estadístico a realizar
 El tamaño de la muestra usado en otros estudios.
 Porcentaje de respuesta
 Recursos disponibles

18
Profesor: Msc. José Zúñiga Sáenz
Si conocemos el nivel de confianza, la desviación estándar y la tolerancia, se puede utilizar la siguiente fórmula:
s
y  1.96
n
z2 s 2
y  tolerancia , Por lo tanto, tolerancia  z s Si despejamos n
n (tolerancia) 2

Así, la fórmula para calcular el tamaño de muestra requerido para problemas que involucran la estimación de una media es
Z 2S 2
la siguiente: n 
E2
Dónde:
Z = nivel de confianza expresado en errores estándar.
S = desviación estándar de la población.
E = cantidad aceptable de error muestral o margen de error (tolerancia).
Z y E debe ser fijados por el investigador.

El nivel de confianza y la cantidad de error se determina en gran medida por criterios estadísticos, pero también por criterios
administrativos y financieros.

¿Cómo podemos conocer la desviación estándar de la población antes de seleccionar la muestra?


1. Resultados de investigaciones previas.
2. Levantar encuesta piloto.
3. Usar datos secundarios.
4. Juicio.
Z 2 P1  P 
Para muestras que implican la estimación de proporciones: n 
E2
Cuando se conoce el tamaño de la población, entonces la fórmula que nos permitirá determinar el tamaño muestral es la
N  Z 2 / 2  P  (1  P)
siguiente, n
( N  1)  e 2  Z 2 / 2  P  (1  P)

Donde, Z  / 2 correspondiente al Z con el nivel de confianza elegido, P es la proporción de una categoría de la variable, e es
el error máximo, y N es el tamaño de la población.

19