You are on page 1of 31

CAPITULO 7

Estimaci
on

Contenido

1.1 Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Medidas estadsticas . . . . . . . . . . . . . . . . . . . . . . 6
1.3 An
alisis exploratorio de datos . . . . . . . . . . . . . . . . 9
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
7.1 Estimaci
on puntual 2

Objetivos del captulo


1. Desarrollar los conceptos de estimacion estadstica, estimador y estimacion puntual y
de intervalos.
2. Desarrollar estimaciones de intervalos de confianza para la media, proporci
on, diferen-
cia de dos medias, diferencia de dos proporciones, varianza y razon de dos varianzas.
3. Determinar el tama
no de la muestra necesario para obtener un intervalo de confianza
deseado.

Empleo de la estadstica
Una compa na es un distribuidor grande de plomera al mayoreo en un suburbio
de una ciudad de cierto pas. En un esfuerzo por mantener el control interno de
las ventas, la compa na ha numerado las facturas que incluyen una orden de salida
del almacen que debe acompa nar a cada venta, Los bienes no deben salir dicha
orden autorizada. Al final de cada mes se selecciona una muestra de las facturas
para determinar lo siguiente:
La cantidad promedio asentada en las facturas de venta para el almacen
en ese mes.
La frecuencia con que suceden diversos tipos de errores que violan las
polticas de control interna del alamacen. Estos errores pueden incluir no
usar la orden de salida de almacen, no adjuntar un duplicado de la factura
al artculo que se env a, no incluir el n
umero de cuenta del cliente correcto
y enviar artculos de plomera equivocados.

7.1 Estimaci
on puntual
7.1.1 Introducci
on
Se presentan muchas situaciones en las que alguna persona (el que toma una decisi on,
un planificador de programa o un investigador) desea conocer los valores de parametros
poblacionales tales como la media, la proporci
on, la diferencia de medias, la diferencia
de proporciones, la varianza y la raz
on de dos varianzas como las que se muestran a
continuacion:

Un criminalista desea conocer que proporci


on de personas convictas de un crimen
sufren de alguna desviaci
on mental.

Un funcionario de salud p
ublica podra estar interesado en conocer la edad prome-
dio en que empezo a adquirir el habito de fumar alguna poblacion de fumadores.

Un sociologo podra interesarse en saber si la proporci


on de j
ovenes que se edu-
can en un hogar con solo uno de los padres, es diferente en dos poblaciones de
delicuentes juveniles.

Tal vez un sic ologo quiera saber si el tiempo promedio para que unos ratones
queden aturdidos es diferente en dos poblaciones de ratones que difieren en cuanto
a la clase de estmulo recibido.
7.1 Estimaci
on puntual 3

En los captulos anteriores hemos visto que la informaci on de este tipo las obtenemos
generalmente de muestras, y no de las mismas poblaciones, por medio de la inferencia es-
tadstica. En el presente captulo nuestro estudio es mas especfico, porque mostraremos
la forma de asignar las magnitudes de tales parametros por medio de un procedimiento
de inferencia estadstica llamado estimaci on. Pero antes de seguir adelante hagamos un
repaso breve de los puntos principales que hemos visto hasta el momento.

Los conceptos y tecnicas que hemos estudiado desde el comienzo del texto hasta el
captulo ??, nos dan una base teorica y tecnica para hacer inferencias estadsticas. En
este captulo vamos a fusionar por primera vez las ideas sobre medidas descriptivas,
probabilidades variables aleatorias discretas y continuas, distribuciones conjuntas y dis-
tribuciones muestrales.

Recordemos como hemos definido el concepto de estadstica inferencial en el captulo ??.

Definicion 7.1.1 La inferencia estadstica se define como el procedimiento


mediante el cual se pueden sacar conclusiones acerca de una poblacion partiendo
de la informaci
on contenida en una muestra que se ha sacado de esa poblaci
on.

En ese captulo senalamos la necesidad de sacar inferencias estadsticas debida al hecho


de que por m ultiples razones puede resultar impractico o imposible examinar totalmente
una poblaci on. La poblaci on puede ser demasiado grande o la acci on de tomar medidas
puede resultar destructiva. En estos casos solamente se puede examinar adecuadamente
una muestra de la poblaci on. Cuando se busca informaci on acerca de una poblacion,
pero solo disponemos de datos sobre una muestra, se necesitan algunos medios para uti-
lizar los datos de una muestra y sacar conclusiones acerca de la poblacion. Los conceptos
y tecnicas que satisfacen esta necesidad constituyen lo que se conoce con el nombre de
inferencia estadstica.

Hay dos tipos de inferencia estadstica: la estimaci on y la prueba de hip otesis. En


este captulo vamos a estudiar los conceptos y tecnicas fundamentales de la estimacion
y en el captulo ?? analizaremos los principios fundamentales de la prueba de hipotesis.

7.1.2 Estimaci
on puntual
Es importante recalcar que cualquier inferencia que hagamos sobre la poblaci on tendra
que basarse necesariamente en estadsticos muestrales, es decir, en funciones de la in-
formacion muestral. La elecci on apropiada de estos estadsticos dependera de cual sea
el parametro de interes de la poblaci
on. El verdadero parametro sera desconocido y un
objetivo sera estimar su valor.
7.1 Estimaci
on puntual 4

Definicion 7.1.2 La estimacio n estadstica es el proceso mediante el cual in-


tentamos determinar el valor de un par ametro de la poblaci
on, sin hacer un censo,
a partir de la informaci
on de una muestra. Una estimacion es el valor numerico
que creemos que tiene el par
ametro, y el estimador es el estadstico de la muestra,
utilizado para hacer una estimaci
on.

Para clarificar la distinci


on entre los terminos estimador y estimaci
on, consideremos el
siguiente ejemplo.

Ejemplo 7.1.3 Supongamos que queremos estimar el ingreso medio de las familias de un
barrio en base a una muestra de 20 familias. Parece razonable basar nuestras conclusiones
en el ingreso medio muestral, por tanto, diremos que el estimador de la media muestral es la
media muestral X. Supongamos que habiendo tomado la muestra, hallamos que el promedio
x de los ingresos de las familias de la muestra es de $335.250. Entonces, la estimacion de la
media de la poblacion es $335.250. Hemos hecho esta distincion antes al utilizar diferente
notacion: hemos utilizado la variable aleatoria X para designar al estimador y a x para
designar un valor particular de X.

Para estudiar la estimaci


on de un parametro desconocido, debemos considerar dos tipos
de estimaciones: estimaci on puntual y estimaci
on por intervalos. En el primero, se cal-
cula, en base a los datos de la muestra, un valor como representativo o como el mas
representativo. La estimaci on de $335.250 para el ingreso medio de las familias de un
barrio, es un ejemplo de este primer tipo. En el segundo tipo, se intenta encontrar un
intervalo o rango, en el cual estemos casi seguros de que esta el verdadero parametro.
En esta secci
on consideraremos el primer tipo de problema de estimacion. La estimaci on
por intervalos se estudiara en la secci
on 7.2.

Definicion 7.1.4 Un estimador puntual de un par ametro poblacional es una


funci
on de la muestra que da como resultado un u
nico valor. Un valor en particular
de un estimador puntual se llama una estimacio n puntual del par ametro.

Ejemplo 7.1.5 En el ejemplo del ingreso medio de las familias (vease el ejemplo 7.1.3),
el parametro que se quiere estimar es la media poblacional. El estimador puntual que se
utiliza es la media muestral y la estimacion puntual resultante es $335.250.

7.1.3 Pautas para escoger un estimador


Consideremos alg un parametro1 de la poblaci b1,
on y un conjunto de estadsticos
b2, . . . que pueden ser consideradas como estimadores de . Dejamos que sea cualquier

medida particular de una poblaci on porque los criterios que comentaremos deben apli-
carse a cualquier estimador. Por ejemplo,

podra ser la media de la poblaci b1 podra representar la media muestral;


on,
b2, la mediana muestral y
b3, la moda muestral.
1 b se lee theta tilde
es la letra griega theta y
7.1 Estimaci
on puntual 5

b1
O podramos tomar como la varianza 2 poblacional y, luego, considerar
2 b
como la varianza muestral s ; 2 como el rango de la muestra, etc.

Si dejamos que b represente una estimaci b1, entonces, el llamado


on del estimador
1
error muestral e asociado con esa estimaci
on es
b .
e= 1

Supuestamente, cualquier buen estimador disminuira ese error tanto como fuera posi-
ble; e = 0 es lo ideal.

Para cualquier poblaci on dada, el parametro es una constante. Sin embargo, b es


1
solo uno de muchos valores posibles que el estimador b1 podra generar. La distribuci
on
b
muestral nos indicara cuales valores de 1 podran ocurrir con cierta probabilidad, la
b . Intuitivamente, si queremos inves-
cual esta asociada con varios rangos de valores de 1
tigar la distribuci
on de errores e, debemos observar la distribuci
on muestral del estimador.

Que propiedades de la distribucion muestral de un estimador b son deseables para


estimar el parametro de la poblaci
on . Para responder esta pregunta, presentamos tres
criterios para escoger un buen estimador: insesgo, eficiencia y consistencia.

Insesgo
Si el valor esperado del estadstico muestral es igual al parametro poblacional que se
estima, se dice que ese estadstico es un estimador insesgado del parametro poblacional.

Definicion 7.1.6 Se dice que un estimador b es insesgado, si el valor esperado


del estimador es igual al par
ametro de la poblaci
on que est
a estimando, es decir,
b b
E() = . Evidentemente, si E() 6= , el estimador se dice que es sesgado.
LLamaremos sesgo a la diferencia entre la media del estimador b y el par
ametro
, es decir,
b = E()
Sesgo () b .

Observese que el sesgo de un estimador insesgado es 0.

La notaci
on de esperanzas indica que si repetimos el proceso de muestreo muchas veces,
en promedio, el valor que se obtiene de un estimador insesgado sera igual al parametro
poblacional.

Parece razonable afirmar que la propiedad de ser insesgado es una propiedad deseable
para los estimadores puntuales. La figura 7.1 describe los casos de estimadores puntuales
insesgado y sesgado. En la ilustracion del estimador insesgado (figura 7.1a), la media
de la distribuci
on muestral es igual al valor del parametro poblacional. Los errores de
muestreo se compensan en este caso, porque a veces el valor del estimador puntual b
puede ser menor que y otras veces mayor. En el caso de un estimador sesgado, la
media de la distribuci
on muestral es menor que, o mayor que el valor del parametro
b > ; entonces, el estadstico de muestra tiene una gran
poblacional. En la figura, E()
7.1 Estimaci
on puntual 6

probabilidad de sobrestimar el valor del parametro poblacional. La cantidad de sesgo se


indica en la figura 7.1b.

(a) Estimador insesgado. (b) Estimador sesgado

Fig. 7.1: Ejemplos de estimadores puntuales insesgado y sesgado

Algunos estadsticos que son estimadores insesgados de sus correspondientes parametros


poblacionales son la media, la varianza y la proporci
on muestrales.

Ejemplo 7.1.7 En el captulo ?? vimos que

E(X) = , E(s2 ) = 2 , E(p) = p.

Por tanto, la media, la varianza y la proporci on muestrales son estimadores insesgados de


los correspondientes par ametros poblacionales. Es por esta razon, por la que al definir la
varianza muestral dividimos la suma de los cuadrados de las discrepancias por n 1 en
lugar de n. En el primer caso se obtiene un estimador insesgado, mientras que en el segundo
no. La media de la desviacion tpica muestral no es la desviacion tpica poblacional. Por
tanto, la desviacion tpica muestral no es un estimador insesgado de la desviacion tpica
poblacional.

Sin embargo, hay estadsticos que no son estimadores insesgados del parametro pobla-
cional correspondiente, como se muestra en el siguiente

Ejemplo 7.1.8 Debido a que la media de la desviacion tpica muestral s no es la desviacion


tpica poblacional , es decir, debido a que E(s) 6= , entonces, la desviacion tpica muestral
no es un estimador insesgado de la desviacion tpica poblacional.

Eficiencia
Suponga que se puede usar una muestra aleatoria simple de n elementos para obtener
diferentes estimadores puntuales insesgados del mismo parametro poblacional. En este
caso, preferiramos usar el estimador puntual con la menor desviaci
on estandar porque
tiende a proporcionar estimados mas cercanos al parametro poblacional. Se dice que el
7.1 Estimaci
on puntual 7

estimador puntual con la menor desviaci


on estandar tiene una mayor eficiencia relativa
que el otro.

Definici b1 y
on 7.1.9 Sean b2 dos estimadores insesgados de , obtenidos en mues-
tras del mismo tama
no. Entonces,
b1 es ma
(a) Se dice que s eficiente que b2, si la varianza de la distribuci
on
b
muestral de 1 es menor que la de la distribuci b
on muestral de 2. Es decir,
b1) < V(
si V( b2).
b2 )
V(
b2 con respecto a
(b) La eficiencia relativa de b1 es el cociente de sus
b1 )
V(
varianzas.

b1
En la figura pueden verse las distribuicones muestrales de dos estimadores insesgados
b2. Claramente,
y b1 es mas eficiente que b2.

b1 y
Fig. 7.2: Funciones de densidad de dos estimadores insesgados, b2, en donde
b
1 es mas eficiente

Ejemplo 7.1.10 Sea X1 , X2 , . . . , Xn una muestra aleatoria de una distribucion normal con-
media y varianza 2 . La media muestral X es un estimador insesgado de la media de la
poblacion con varianza
2
V(X) = .
n
Podramos utilizar como un estimador alternativo la mediana de las observaciones. Puede
probarse que este estimador tambien es insesgado para y que su varianza es

2
V(Mediana) = 1, 57V(X).
2 n
Por consiguiente, al tomar muestras de una poblacion de una poblacion normal, la media
muestral es mas eficiente que la mediana. La eficiencia relativa de la media con respecto a
la mediana es
V(Mediana)
Eficiencia relativa = = 1, 57.
V(X)
7.1 Estimaci
on puntual 8

Es decir, la varianza de la mediana muestral es un 57% mayor que la de la media muestral.


Para obtener una mediana con la misma varianza que la media debe tomarse una muestra
con un 57% m as de observaciones. En el captulo ??, comentamos que una ventaja de la
mediana sobre la media es que da mucho menos peso a observaciones extremas. Ahora
vemos, observando la eficiencia relativa, una desventaja potencial de utilizar la mediana
muestral como medida de centralizacion.

En algunos problemas de estimaci on, puede encontrarse el estimador puntual con la


menor varianza posible dentro de un grupo de estimadores insesgados. En relativamente
pocos casos, puede encontrarse el mas eficiente de todos los estimadores insesgados de
un parametro.

on 7.1.11 Si
Definici b es un estimador insesgado de y no hay ning un otro esti-
b
mador insesgado que tenga menor varianza, entonces, se dice que es el estimador
insesgado ma s eficiente o de mnima varianza de .

Ejemplo 7.1.12 Algunos ejemplos de estimadores insesgados de mnima varianza son:


1. La media muestral cuando la muestra proviene de una distribucion normal.
2. La varianza muestral cuando la muestra proviene de una una distribucion normal.
3. La proporci
on muestral binomial.
Las propiedades de los estimadores insesgados de mnima varianza los hace muy atractivos,
pero lamentablemente no siempre es posible encontrar un estimador de este tipo.

Consistencia
Una ultima propiedad asociada con los buenos estimadores puntuales es la consistencia,
propiedad que se puede definir en terminos generales como se indica a continuaci
on:

Definicion 7.1.13 Un estimador puntual b de es consistente para si sus


valores tienden a acercarse al par
ametro poblacional conforme se incrementa el
tamano de la muestra. De otro modo, el estimador se llama inconsistente.

De manera informal, lo que esto significa es que si utilizamos un estimador consis-


tente con una muestra infinita, obtendremos el resultado correcto. Por el contrario, un
estimador inconsistente, no llegara al resultado correcto, aunque este basado en una
muestra infinita. Por esta razon, la inconsistencia no es deseable para un estimador
puntual.

Es importante recalcar que no todos los estimadores insesgados son consistentes y de


ninguna manera todos los estimadores consistentes son insesgados, como se ilustra en
el siguiente ejemplo.

Ejemplo 7.1.14 Al muestrear de una poblacion normal, la desviacion tpica muestral es


consistente para la desviacion tpica poblacional (esto tambien es cierto para el caso de
7.1 Estimaci
on puntual 9

la media y la varianza para sus correspondientes par ametros poblacionales). Tambien la


proporci
on muestral es consistente para la proporci
on poblacional.

7.1.4 Elecci
on de un estimador puntual
El problema que surge a menudo en la practica de como elegir un estimador puntual
apropiado para un parametro poblacional, no es en absoluto sencillo de resolver. De
hecho, involucra una complejidad matematica que supera el objetivo de este texto. As
que s
olo haremos algunos comentarios sobre esta cuesti
on.

En la secci on 7.1.3 vimos que una buena opci on es elegir el estimador mas eficiente
de todos los insesgados o, tal vez, el mas eficiente dentro de una clase amplia de es-
timadores insesgados. Sin embargo, por dos razones, este enfoque no proporciona un
criterio suficiente en todos los casos que aparecen en la practica.

En primer lugar, a pesar de que a igualdad de todos los demas factores, el hecho de ser
insesgados es una propiedad deseable para un estimador puntual. En muchas ocasiones
no pueden mantenerse todos los factores iguales. Existen problemas de estimaci on para
los cuales no hay un estimador insesgado que sea satisfactorio. En este tipo de problemas
hay mucho que ganar a cambio del sacrificio de aceptar un peque no sesgo. Una me-
dida de la aproximidad esperada de un estimador b al parametro es su error cuadratico.

Definicion 7.1.15 El error cuadra tico de un estimador puntual b al par


ametro
es la esperanza del cuadrado de la diferencia entre el estimador y el parametro, es
decir,
ECM() b = E[( b )2].

Puede probarse e que


b = V()
ECM() b + [Sesgo]2.

De esta expresi
on puede deducirse que, en ocasiones, se puede obtener un error cuadratico
medio mas peque no pasando de un estimador insesgado a otro sesgado, si esto permite
conseguir una reduccion suficiente en la varianza del estimador. Es tentador pensar que
una buena forma de elegir un estimador, es buscar aquel con mnimo error cuadratico
medio. Si embargo, este enfoque es impracticable, ya que el error cuadratico medio
dependera del valor real de , que es desconocido. En algunos casos se puede probar
que un estimador tiene menor error cuadratico medio que otro para todos los valores
posibles del parametro. En este caso se dice que el estimador inferior es inadmisible.
La comparaci on de estimadores puntuales de esta forma ha sido, en ocasiones, u til para
elegir procedimientos mejores de estimaci on.

Definicion 7.1.16 Decimos que un estimador es inadmisible si tiene menor error


cuadr
atico medio que otro para todos los valores posibles del par
ametro.

Una segunda dificultad en seleccionar estimadores insesgados de mnima varianza, es


7.2 Intervalos de confianza 10

que muchas veces sera imposible determinar estos estimadores. De hecho, en un gran
n
umero de problemas, no es posible encontrar expresiones para la media y la varianza
de los posibles estimadores para muestras finitas. En estos casos, el sesgo y la eficiencia
para comparar estimadores no es factible.

Puede resultar sorprendente pero a pesar de que sea difficil caracterizar la distribuci
on
muestral de un estimador puntual para una muestra con un n umero finito de observa-
ciones, en muchos casos es mas sencillo caracterizar la distribucion cuando el n
umero de
observaciones tiende a infinito. Este hecho ha provocado que los estadsticos se preocu-
pen por el comportamiento de los estimadores cuando el n umero de observaciones de
la muestra tiende a infinito y, en especial, a tener en cuenta los estimadores consistentes.

En muchos problemas de estimaci on sera posible encontrar diferentes estimadores con-


sistentes y necesitaremos un criterio para seleccionar alguno de ellos. En algunos casos,
puede demostrarse que, para un estimador consistente, cuando el n umero de observa-
b
ciones de la muestra tiende a infinito, la distribuci on de n( ) tiende a la dis-
tribuci
on normal. Entonces, haciendo un paralelo con los comentarios sobre eficiencia
de la secci on 7.1.3, es natural buscar un estimador que sea consistente y que su dis-
tribuci
on lmite tenga mnima varianza. Un estimador con estas caractersticas diremos
que es el mejor asinto ticamente normal. De hecho, existe un procedimiento
conocido como maxima verosimilitud para encontrar estimadores puntuales que, bajo
condiciones muy generales, se puede probar que son los mejores asint oticamente nor-
mal. Este metodo es, en general, muy facil de aplicar y dadas sus buenas propiedades es
probablemente el mas extendido para atacar nuevos problemas de estimaci on. A pesar
de que no vamos a profundizar en este tema, muchos de los estimadores que hemos
utilizado en otros captulos son estimadores de maxima verosimilitud o aproximaciones
a estimadores de maxima verosimilitud.

Estas consideraciones no agotan en absoluto las posibilidades con las que cuentan los
estadsticos cuando se encuentran con un problema de estimaci on. Por ejemplo, en
algunos casos, es importante proteger al estimador de la influencia de posibles observa-
ciones atpicas o extremas; este es un punto que ya discutimos en el captulo ?? cuando
hablamos de las ventajas de utilizar la mediana en lugar de la media como medida de
localizacion.

7.2 Intervalos de confianza


Existe un problema obvio relacionado con el uso de las estimaciones puntuales. Aunque
s
olo esta implcito un parametro, el n
umero disponible de estimaciones es generalmente
muy grande. Cada una de las muestras posibles que se pueden sacar de la poblaci on que
interesa arroja una estimaci on. Para el estudio de las distribuciones muestrales realizadas
anteriormente, sabemos que algunas estimaciones estaran mas cerca del parametro que
se esta calculando que otras. Sin embargo, no sabemos que tan cerca esta nuestra
u
nica estimaci on puntual del parametro verdadero. En una situaci on determinada pode-
mos considerar sumamente improbable que la estimaci on puntual sea exactamente igual
al parametro, pero no estamos en condiciones de decir en cuanto nos hemos equivocado.
7.2 Intervalos de confianza 11

Ademas, en la mayora de los problemas practicos, un estimador puntual por s s


olo
es inadecuado, como se puede ilustrar en el siguiente ejemplo:

Ejemplo 7.2.1 Supongamos que un control realizado sobre una muestra aleatoria de piezas
procedentes de un gran envo nos lleva a estimar que el 10% de todas las piezas son defec-
tuosas. Un gerente que se enfrenta a este dato posiblemente se har
a preguntas del tipo:
Puedo estar totalmente seguro de que el verdadero porcentaje de piezas defectuosas
esta entre el 5% y el 15%?
Se puede afirmar que el verdadero porcentaje de piezas defectuosas mayor que el 8%?
Es muy posible que entre el 9% y el 11% de las piezas sean defectuosas?

Esta clase de preguntas requiere informaci on que va mas alla de lo que significa una
simple estimaci
on puntual. Son preguntas que buscan conocer la fiabilidad de dicho
estimador. En otras palabras se trata de la b
usqueda de un estimador por intervalos, un
rango de valores entre los que posiblemente se encuentre la cantidad.

En general, para tratar de resolver los problemas de las estimaciones puntuales (como los
mencionados anteriormente), construimos una estimaci on por intervalos del parametro
de interes de tal manera que podemos establecer el grado de confianza que tenemos en
que el intervalo incluya dentro de sus puntos limtrofes el parametro que se esta esti-
mando.

Definicion 7.2.2 Un estimador por intervalos de un par ametro poblacional


es un estadstico para determinar un rango, o un intervalo, en el cual posiblemente
se encuentre dicho par ametro. La estimaci
on correspondiente se denomina esti-
macio n por intervalos.

Hasta ahora hemos dicho que los estimadores por intervalos contienen posiblemente
o muy posiblemente el verdadero, aunque desconocido, parametro poblacional. Para
formalizar estas afirmaciones, es necesario expresarlas en terminos probabilsticos. Sea
el parametro que queremos estimar. La idea es encontrar, con ayuda en la informaci on
muestral, dos variables aleatorias U y V, con U menor que V, tales que

P(U < < V) = 1 ,

para un (0, 1). El intervalo de U hasta V es un estimador por intervalos de del


(1 )100%. De acuerdo con el concepto de probabilidad, podemos interpretar estos
intervalos as:

Teorema 7.2.3 Si se extraen repetidamente muestras de la poblaci on y se calculan


los intervalos de esta manera, entonces, el (1 )100% de los intervalos contendran
el par
ametro desconocido.
7.3 Intervalos de confianza para la media poblacional 12

Definicion 7.2.4 Sea un par


ametro desconocido. Supongamos que con ayuda de
la informaci
on muestral, podemos encontrar dos variables aleatorias U y V, con U
menor que V, tales que P(U < < V) = 1 , para un (0, 1). Entonces,

(a) La fracci
on 1 recibe el nombre de grado de confianza , se llama
nivel de significancia y el intervalo de U hasta V es un estimador por
intervalos de del (1 )100%.

(b) Si u y v representan a un valor particular de U y V, respectivamente, entonces,


el intervalo de u a v de denomina intervalo de confianza del (1 )100%
para .

Si se extraen muestras aleatorias de la poblaci


on un n
umero elevado de veces, el par
ametro estar
a
contenido en un (1 )100% de los intervalos calculados de este modo. El intervalo de confianza
obtenido de esta manera se escribe u < < v.

En las siguientes secciones, desarrollaremos e ilustraremos con ejemplos procedimientos


para hallar intervalos de confianza en varios tipos de problemas comunes de estimaci
on.

7.3 Intervalos de confianza para la media poblacional


En la secci
on 7.1 mostramos que el valor de la media muestral x da como resultado
estimados puntuales de la media poblacional . Como los estimados puntuales se basan
en una muestra de la poblacion, no se espera que sean iguales al parametro poblacional
correspondiente. En esta secci
on mostraremos c omo se elaboran estimados de intervalo
de la media, para proporcionar informacion sobre la precisi
on de un estimado. Para ello,
dividiremos el estudio teniendo en cuenta dos casos: el caso de tener muestras grandes
y el de tener muestras pequenas.

7.3.1 El caso para muestras grandes


Imaginemos que se extrae una muestra aleatoria de una distribuci
on con media descono-
cida. Nuestro objetivo es hallar un intervalo de confianza para la media poblacional
suponiendo que se cumple alguna de las siguientes tres condiciones:

La poblaci
on es normal con varianza conocida.

La poblaci
on es normal con varianza desconocida y el tama
no de la muestra es
grande.

La forma de la poblaci
on es desconocida (o no normal), su varianza es conocida
o desconocida y el tamano de la muestra es grande.

Consideremos ahora que tengamos una situaci on en donde se cumple la primera condici
on,
es decir, que la poblaci 2
on es normal con varianza conocida. Este problema resulta poco
2
Es suficiente con analizar este primera condici
on porque, si el tama
no de la muestra es grande,
ninguno de los requisitos de esta primera condici on resulta muy restrictivo. En este caso, por el
7.3 Intervalos de confianza para la media poblacional 13

realista ya que rara vez (probablemente ninguna) se conoce la varianza poblacional


siendo la media desconocida. Sin embargo, a veces s se da el caso en que habiendose
extrado anteriormente y con frecuencias muestras de la poblaci on, la varianza de la
poblacion de interes puede suponerse conocida aproximadamente basandonos en dicha
experiencia pasada. Ademas, como veremos mas adelante, si se dispone de una muestra
suficientemente grande, el metodo desarrollado para este caso, en el cual la varianza
poblacional es conocida, puede ser utilizado si se estima una exposici
on clara y sencilla
de los procedimientos empleados a la hora de hallar intervalos de confianza.

Teorema 7.3.1 Sea x la media de una muestra aleatoria de tamano n tomada de


una poblacion con media y varianza 2 > 0. Supongamos que se cumple alguna
de las siguientes condiciones:

on es normal y 2 es conocida (no importa el tama


(a) La poblaci no de n);

on es normal, 2 es desconocida y n 30;


(b) La poblaci

on es desconocida (o no normal), 2 es conocida o des-


(c) La forma de la poblaci
conocida y n 30.

Entonces, el intervalo de confianza de (1 )100% para es



x Z/2 < < x + Z/2 ,
n n
X
siendo Z/2 el valor de Z =
/ n
a la derecha del cual se tiene un a
rea de /2 en
la distribuci
on normal.

Si la poblaci
qon es finita de tama
no N y el muestreo se hace sin reemplazo, se reemplaza
Nn
por n N1 . Adem
as, en los casos en que la varianza sea desconocida y n 30,
n
reemplazamos la desviaci on muestral s.
on poblacional por la desviaci

Ejemplo 7.3.2 Un fabricante produce bolsas de arroz. El peso del contenido de estas
bolsas tiene una distribucion normal con desviacion tpica 15 gramos. Los contenidos de
una muestra aleatoria de 25 bolsas tienen un peso medio de 100 gramos. Calcular un
intervalo de confianza del 95% para el verdadero peso medio de todas las bolsas de arroz
producidas por el fabricante.
SOLUCION:
Como buscamos un intervalo de confianza del 95%, tenemos que 1 = 95%, por lo que
= 5% = 0, 05. Obseverse que se cumplen las condiciones que aparecen en la parte (a) del
teorema 7.3.1. Por consiguiente, por ese mismo teorema, el intervalo de confianza del 95%
teorema central del lmite, los intervalos de confianza que encontremos para la media siguen siendo
aproximadamente v alidos incluso cuando la poblaci on no es normal. Adem as, cuando el tamano de
la muestra es grande, la desviaci on est
andar muestral sera un estimador lo suficientemente bueno de
la desviaci
on est
andar poblacional como para permitirnos emplear el primero en lugar del segundo
sin afectar seriamente el contenido probabilstico de los intervalos. As, podemos calcular intervalos
de confianza exactamente del mismo modo que se describe a continuaci on, sustituyendo la desviaci
on
est
andar poblacional por la muestral.
7.3 Intervalos de confianza para la media poblacional 14

para la media poblacional es



x Z/2 < < x + Z/2 .
n n

De la tabla normal estandar, encontramos que Z/2 = Z0,025 = 1, 96 porque P(Z > 1, 96) =
0, 025. Con esto y debido a que x = 100, = 15 y n = 25, el intervalo buscado es

(1, 96)(15) (1, 96)(15)


100 < < 100 + o bien 94, 14 < < 105, 88.
25 25
Por lo tanto, podemos concluir que, con una confianza del 95%, el verdadero peso medio
de todas las bolsas de arroz producidas por el fabricante se encuentra entre 94,12 y 105,88
gramos.

Ejemplo 7.3.3 Un biologo desea hacer una estimacion con un intervalo de confianza del
95% de la cantidad promedio de agua que consume cierta especie animal en condiciones
experimentales. De alguna manera, el investigador logra determinar que la poblacion de
valores de consumo diario de agua esta distribuida normalmente. Una muestra aleatoria de
36 animales arroja una media de 16,5 gramos con una desviacion estandar de 2 gramos.
SOLUCION:
Debido a que 1 = 95%, entonces, = 5% = 0, 05. Obseverse que se cumplen las
condiciones que aparecen en la parte (b) del teorema 7.3.1. Debido a que la varianza pobla-
cional es desconocida y el tamano de la muestra es mayor que 30, entonces, utilizaremos a la
desviacion muestral s como aproximacion de la desviacional poblacional . Por consiguiente,
por el teorema 7.3.1, el intervalo de confianza del 95% para la media poblacional es
s s
x Z/2 < < x + Z/2 .
n n

De la tabla normal estandar, encontramos que Z/2 = Z0,025 = 1, 96 porque P(Z > 1, 96) =
0, 025. Con esto y debido a que x = 165, s = 2 y n = 36, el intervalo buscado es

(1, 96)(2) (1, 96)(2)


16, 5 < < 16, 5 + o bien 15, 8 < < 17, 5.
36 36
El biologo puede afirmar con una confianza del 95% que la verdadera cantidad promedio de
agua que consume diariamente la especie animal en condiciones experimentales se encuentra
entre 164,35 y 165,65 gramos.

Ejemplo 7.3.4 Resuelva nuevamente el ejemplo 7.3.3 pero utilizando un grado de confianza
del 99%. Compare los resultados encontrados en ambos ejemplos.
SOLUCION:
En este caso, Z/2 = Z0,005 = 2, 57. Por consiguiente, en este caso, el intervalo buscado es

(2, 57)(2) (2, 57)(2)


16, 5 < < 16, 5 + o bien 15, 64 < < 17, 35.
36 36
Comparando el intervalo encontrado en el ejemplo 7.3.3 y el encontrado en este ejemplo,
observamos que, si no se modifican los datos muestrales, entonces, a medida que aumenta
el grado de confianza, aumenta el tama
no del intervalo.
7.3 Intervalos de confianza para la media poblacional 15

7.3.2 El caso para muestras peque


nas
El siguiente teorema nos sugiere utilizar la distribuci
on t de Student para derivar interva-
los de confianza para la media de una poblaci on normal cuando la varianza poblacional
es desconocida (o no normal) y el tama no de la muestra es peque no (n < 30).

Teorema 7.3.5 Sean x y s2 la media y varianza de una muestra aleatoria de tama


no
n < 30 tomada de una poblaci 2
on normal con media y varianza desconocida.
Entonces, el intervalo de confianza de (1 )100% para es
s s
x t/2 < < x + t/2 ,
n n
x
siendo t/2 el valor de t = s/ a la derecha del cual se tiene un a
n
rea de /2 en la
distribuci
on t de Student con n 1 grados de libertad.
q
Si la poblaci
on es finita de tama
no N, se reemplaza s por s Nn
. Es importar enfa-
n n N1
tizar que cuando la forma de la distribuci
on de la poblaci
on es desconocida o es no normal,
entonces, no hay ning
un metodo general para establecer una estimaci
on de intervalo de la media
poblacional .

A continuaci on, ilustramos con ejemplos el uso de la distribuci


on t de Student a la hora
de hallar intervalos de confianza para la media de una poblaci on normal cuando solo se
dispone de un n umero moderado de datos.

Ejemplo 7.3.6 Los contenidos de 7 recipientes similares de acido sulf urico son 9,8; 10,2;
10,4; 9,8; 10,0; 10,2 y 9,6 litros. Encuentre un intervalo de confianza del 95% para la media
de todos los recipientes, suponiendo que la poblacion de valores tiene distribucion normal.
SOLUCION:
Tenemos que n = 7. Ademas, la media y desviacion de los datos dados son x = 10, 0
y s = 0, 283 litros, respectivamente. Facilmente, podemos verificar que las hipotesis del
teorema 7.3.5 se cumplen. Debido a que t/2 = t0,025 = 2, 447, el intervalo buscado sera

(2, 447)(0, 283) (2, 447)(0, 283)


10, 0 < < 10, 0 + o bien 19, 74 < < 10, 26.
7 7
Es decir, con una confianza del 95%, podemos afirmar que la media de todos los recipientes
se encuentra entre 9,74 y 10,26 litros.

Ejemplo 7.3.7 Una muestra aleatoria de seis autos colombianos de un determinado modelo
consumen las siguietnes cantidades en kilometros por litro: 18,6; 18, 4; 19,2; 20,8; 19,4 y 20,5.
Calcule un intervalo de confianza del 90% para el consumo de gasolina medio poblacional
de los autos de este modelo, suponiendo que la distribucion de la poblacion en cuesti on es
normal.
SOLUCION:
En este caso, n = 6, x = 19, 48 y s = 0, 98 kilometros por litro. Por el teorema 7.3.5 y
debido a que t/2 = t0,05 = 2, 015 con n 1 = 5 grados de libertad, el intervalo buscado
sera
(2, 015)(0, 98) (2, 015)(0, 98)
19, 48 < < 19, 48 + o bien 18, 67 < < 20, 29.
6 6
7.4 Intervalos de confianza para la proporci
on 16

Por lo tanto, con una confianza del 95%, podemos afirmar que el consumo de gasolina medio
poblacional se encuentra entre 18,67 y 20,29 kilometros por litro.

7.4 Intervalos de confianza para la proporci


on
Supongamos que estamos interesados ahora en la proporcion de miembros de la poblacion
que poseen un determinado atributo. Por ejemplo, podramos querer estimar la pro-
porci
on de individuos mayores de edad que van a votar por cierto candidato presidencial.
Si se toma una muestra aleatoria, un estimador puntual razonable de la proporci on
poblacional es la proporcion muestral. El siguiente teorema muestra como construir
intervalos de confianza para la proporci
on poblacional.

Teorema 7.4.1 Sea p es la proporci on de exitos en una muestra aleatoria de


tamano n, procedente de un poblacion con proporci on p exitos. Supongamos que
se cumple alguna de las dos siguientes condiciones:

(a) n 30;

(b) np 5 y n(1 p) 5.

Entonces, un intervalo de confianza aproximado de (1 )100% para p es


r r
p(1 p) p(1 p)
p Z/2 < p < p + Z/2
n n
donde Z/2 es el valor de Z = q pp con un a
rea de /2 a la derecha de la
p(1p)
n
distribuci
on normal.

Algunas observaciones al respecto son las siguientes:


1. Cuando n es peque no y se cree que la proporci on desconocida p se acerca a 0 o a 1, el
procedimiento establecido aqu para el intervalo de confianza no es confiable y, por lo tanto,
no debe ser utilizado.
q
p(1p)
2. Para el caso de una poblaci on finita de tama no N, debemos reemplazar n
por la
q q
p(1p) Nn
cantidad n N1
.

Ejemplo 7.4.2 En una muestra aleatoria de 85 soportes para la pieza de un motor de


automovil, 10 tienen un peque no defecto. Calcule un intervalo de confianza del 95% para la
proporcion p de piezas de motor en la poblacion que tienen un peque no defecto.
SOLUCION:
Debido a que n = 85, entonces, una estimacion puntual de la proporci on de piezas de motor
en la poblacion que tienen un peque no defecto es p = 10
85 = 0, 12. Debido a que las hipotesis
del teorema se cumplen y a que Z/2 = Z0,025 = 1, 96, entonces, un intervalo de confianza
para p es
r r
(0, 12)(0, 88) (0, 12)(0, 88)
0, 12 (1, 96) < p < 0, 12 (1, 96)
85 85
7.5 Intervalos de confianza para la diferencia de dos proporciones 17

o bien
0, 05 < < 0, 19.
Es decir, con una confianza del 95%, podemos afirmar que la verdadera proporci on de piezas
de motor en la poblacion que tienen un peque
no defecto esta entre el 5% y el 19%.

Ejemplo 7.4.3 Las empresas de b usqueda de ejecutivos se especializan en ayudar a las


empresas a ubicar y asegurar talento para la alta gerencia. Tales firmas son responsables
de la ubicacion de muchos de los mejores directores ejecutivos de la nacion. Una reconocida
revista reporto que uno de cada cuatro directores ejecutivos es una persona con m as de
35 anos de edad. Si en una muestra aleatoria de 350 compa nas de cierto pas, 77 tienen
directores ejecutivos con m as de 35 a
nos de edad, un intervalo de confianza del 99% apoyara
la afirmaci
on?
SOLUCION:
77
Tenemos que n = 350 y que p = 350 = 0, 22. Debido a que se cumplen las condiciones del
teorema 7.4.1 y a que Z/2 = Z0,005 = 2, 58, entonces, un intervalo de confianza para la
proporcion poblacional p es
r r
(0, 22)(0, 78) (0, 22)(0, 78)
0, 22 (2, 58) < p < 0, 22 + (2, 58)
350 350
o bien
0, 163 < < 0, 277.
Por consiguiente, con una confianza del 99%, se puede afirmar que entre el 16,3% y el 27%
de las empresas del pais tienen directores ejecutivos con mas de 35 anos de edad. Por lo
tanto, la afirmaci
on esta apoyada por tales descubrimientos, ya que el 25% esta contenido
dentro del intervalo.

7.5 Intervalos de confianza para la diferencia de dos pro-


porciones
En la secci
on 7.4, construimos intervalos de confianza para una u nica proporci
on pobla-
cional. En muchas ocasiones, estamos interesados en comparar dos proporciones. Por
ejemplo, podramos querer comparar la proporci on de jugadores de f utbol que siguen
activos a los 35 anos con la de atletas que tienen ese atributo. El siguiente teorema
muestra como construir intervalos de confianza para la diferencia entre dos proporciones
poblacionales cuando se toman dos muestras aleatorias independientes procedentes de
ambas poblaciones.
7.5 Intervalos de confianza para la diferencia de dos proporciones 18

Teorema 7.5.1 Sea p1 la proporci on de exitos observada en una muestra aleatoria


de tamano n1, procedente de una poblaci
on con proporci on p1 de exitos, y sea p2 la
proporci
on de exitos observada en una muestra aleatoria independiente de tama no
n2, procedente de una poblacion con proporci on de exitos p1. Supongamos que se
cumple alguna de las siguientes dos condiciones:

(a) n1 30 y n2 30;

(b) n1p1 5, n1(1 p1) 5, n2p2 5 y n2(1 p2) 5.

Entonces, un intervalo de confianza aproximado de (1 )100% para p1 p2 es

s
p1(1 p1) p2(1 p2)
(p1 p2) Z/2 + < p1 p2
n1 n2
s
p1(1 p1) p2(1 p2)
< (p1 p2) + Z/2 +
n1 n2

(p p2 ) (p1 p2 )
donde Z/2 es el valor de Z = r 1 con un a
rea de /2 a la derecha
p 1 (1p 1 ) p (1p )
n
+ 2 n 2
1 2
de la distribuci
on normal.

Los siguientes dos ejemplos ilustran la aplicaci


on del teorema anterior.

Ejemplo 7.5.2 Se extrajeron dos muestras aleatorias independientes de estudiantes uni-


versitarios de estadstica de sexo masculino y femenino. De 120 hombres, 107 esperaban
disfrutar de un trabajo de tiempo completo en un m aximo de 6 anos. De 141 mujeres
encuestadas, 73 tenan esta esperanza. Hallar un intervalo de confianza del 95% para la
diferencia entre las proporciones poblacionales.
SOLUCION:
Los datos muestrales son
107 73
n1 = 120, p1 = = 0, 892, n2 = 141, p2 = = 0, 518.
120 141
Debido a que las condiciones del teorema 7.5.1 se cumplen (observe que n1 > 30 y n2 > 30)
y a que Z/2 = Z0,025 = 1, 96, entonces, un intervalo de confianza para la la diferencia entre
las proporciones poblacionales p1 p2 es
r
(0, 892)(0, 108) (0, 518)(0, 482)
(0, 892 0, 518) (1, 96) + < p1 p2
120 141
r
(0, 892)(0, 108) (0, 518)(0, 482)
< (0, 892 0, 518) + (1, 96) +
120 141
o bien
0, 275 < p1 p2 < 0, 473.
El hecho de que el cero no se encuentra en este intervalo, podemos afirmar con una confianza
del 95% que la proporci on de hombres que esperan trabajar como tiempo completo en un
maximo de 6 a
nos es mayor que la de las mujeres.
7.6 Intervalos de confianza para la diferencia de dos medias 19

Ejemplo 7.5.3 Considerese el proceso de fabricaci on de soportes para piezas de motores


descrito en el ejemplo 7.4.2. Supongase que se hace una modificacion al proceso de acabado
de la superficie y que, de manera subsecuente, se toma una segunda muestra aleatoria
de 85 ejes. Si el n
umero de soportes defectuosos en esta segunda muestra es 8, calcule un
intervalo de confianza del 95% para la diferencia en la proporci
on de los soportes defectuosos
producidos por ambos procesos.
SOLUCION:
En este caso, tenemos que
10 8
n1 = 85, p1 = = 0, 12, n2 = 85, p2 = = 0, 09.
85 85
Debido a que las condiciones del teorema 7.5.1 se cumplen (observe que n1 = n2 > 30) y a
que Z/2 = Z0,025 = 1, 96, entonces, un intervalo de confianza para la diferencia entre las
proporciones poblacionales p1 p2 es
r
(0, 12)(0, 88) (0, 09)(0, 91)
(0, 12 0, 09) (1, 96) + < p1 p2
85 85
r
(0, 12)(0, 88) (0, 09)(0, 91)
< (0, 12 0, 09) + (1, 96) +
85 85
o bien
0, 06 < p1 p2 < 0, 12.
Ese intervalo de confianza incluye al cero, as que, con base en los datos muestrales, parece
poco probable que los cambios hechos en el proceso de acabado de la superficie hayan
reducido el n
umero de soportes defectuosos para piezas producidos por el proceso.

7.6 Intervalos de confianza para la diferencia de dos me-


dias
En muchas situaciones practicas es de gran interes obtener un intervalo de confianza
para la diferencia entre dos medias poblacionales. En la secci on ?? estudiamos las
distribuciones muestrales apropiadas para la construccion de intervalos de confianza
para la diferencia entre medias de poblaci
on en una diversidad de situaciones. En esta
secci
on vamos a estudiar separadamente dichas situaciones.
7.6 Intervalos de confianza para la diferencia de dos medias 20

7.6.1 Primer caso: varianzas poblacionales conocidas o desconoci-


das y muestras grandes

Teorema 7.6.1 Sean x1 y x2 las medias de muestras aleatorias independientes de


nos n1 y n2 de poblaciones con medias 1, 2 y varianzas 21, 22, respectiva-
tama
mente. Supongamos que se cumple alguna de las siguientes condiciones:

(a) Ambas poblaciones son normales y ambas varianzas poblaciones 21 y 22 son


conocidas;

(b) Ambas poblaciones son desconocidas o no normales, ambas varianzas pobla-


cionales 21 y 22 son conocidas o desconocidas y n1 30, n2 30.

Entonces, un intervalo de confianza de (1 )100% para 1 2 es


s s
21 22 21 22
(x1 x2) Z/2 + < 1 2 < (x1 x2) + Z/2 + ,
n1 n2 n1 n2

donde Z/2 es el valor de

(x1 x2) (1 2)
Z= q 2
1 22
n1 + n2

que deja un area de /2 a la derecha de la distribuci


on normal. En el caso en que
las varianzas poblacionales son desconocidas, utilizamos las desviaciones muestrales
repectivas como estimacion de las correspondientes desviaciones poblacionales.

Ejemplo 7.6.2 Para una muestra aleatoria de 321 fumadores, el n umero medio de horas
de absentismo laboral al mes fue de 3,01 y la desviacion tpica muestral fue de 1,09 horas al
mes. Para una muestra aleatoria independiente de 94 trabajadores que nunca han fumado,
el n
umero medio de horas fue de 2,88 y la desviacion tpica muestral fue de 1,01 horas al
mes. Calcular un intervalo de confianza del 95% para la diferencia entre las dos medias
poblacionales.
SOLUCION:
Dado que los tama nos muestrales son grandes, podemos utilizar las varianzas muestrales en
lugar de las varianzas poblacionales desconocidas de la siguiente manera:
s s
s21 s22 s21 s2
(x1 x2 ) Z/2 + < 1 2 < (x1 x2 ) + Z/2 + 2,
n1 n2 n1 n2

siendo
n1 = 321, x1 =3,01, s1 = 1, 09;
n2 = 94, x2 =2,88, s2 = 1, 01

y para un intervalo de confianza del 95%, se tiene que Z/2 = Z0,025 = 1, 96. Por consi-
guiente, el intervalo es
q q
(1,09)2 (1,01)2 2
(1,01)2
(3, 012, 88)(1, 96) 321 + 94 < 1 2 < (3, 012, 88)+(1, 96) (1,09)
321 + 94
7.6 Intervalos de confianza para la diferencia de dos medias 21

o bien
0, 11 < 1 2 < 0, 37.
Dado que el cero esta dentro del intervalo de confianza, no hay suficiente evidencia en los
datos como para rechazar la idea de que ambas poblaciones tienen la misma media.

Ejemplo 7.6.3 Se llevan a cabo pruebas de resitencia a la tensi on sobre dos diferentes
clases de tubos de aluminios utilizados en la fabricacion de alas de aeroplanos comerciales.
De la experiencia pasada con el proceso de fabricaci on de tubos y del procedimiento de
prueba, se supone que las desviaciones estandar de las resitencias a la tensi
on son conocidas.
Los datos obtenidos son como se muestran a continuacion:
Clase de Tamano de Media de la resistencia Desviacion
tubo la muestra on (kg/mm2 )
a la tensi estandar (kg/mm2 )
Tubo 1: n1 = 10, x1 = 87, 6, s1 = 1, 09;
Tubo 2: n2 = 12, x2 = 74, 5, s2 = 1, 5

Si 1 y 2 representan los promedios verdaderos de las resistencias a la tensi


on para las dos
clases de tubos, encuentre un intervalo de confianza del 90% para la diferencia de las medias
1 2 .
SOLUCION:
En este caso, las varianzas poblacionales son conocidas. Por tanto, el intervalo pedido es
q q
(1,0)2 (1,5)2 2
(1,5)2
(87, 674, 5)(1, 64) 10 + 12 < 1 2 < (87, 674, 5)+(1, 64) (1,0) 10 + 12

o bien
12, 22 < 1 2 < 13, 98.
Observese que el intervalo no incluye al cero, lo que implica que la resistencia promedio 1
del aluminio de clase 1 es mayor que la resistencia promedio 2 del aluminio de clase 2. De
hecho, puede afirmarse que se tiene una confianza del 90% de que la resistencia promedio a
la tensi
on del aluminio de clase 1 es mayor que la del alumino de clase 2 por una cantidad
que oscila entre 12, 22 y 13, 98 mm2 .

7.6.2 Segundo caso: varianzas poblacionales iguales, desconocidas


y muestras peque
nas
Tratamos ahora el caso en el cual los tama nos muestrales no son grandes y se requiere
un intervalo de confianza para la diferencia de medias de dos poblaciones normales. De
hecho, cuando las varianzas poblacionales son desconocidas, este problema resulta difcil
de abordar de forma general. Sin embargo, en los casos especiales en los que se pueda
asumir que las varianzas poblacionales son iguales3 , se puede utilizar el siguiente
3
En el captulo ?? se estudiar
an las tecnicas para corroborar esta hip
otesis.
7.6 Intervalos de confianza para la diferencia de dos medias 22

Teorema 7.6.4 Sean x1 y x2 las medias de muestras aleatorias independientes de


tama nos n1 < 30 y n2 < 30 de poblaciones normales con medias 1, 2 y varianzas
21, 22 iguales y desconocidas. Entonces, un intervalo de confianza de (1 )100%
para 1 2 es
s s
s2 s2 s2 s2
(x1 x2) t/2 + < 1 2 < (x1 x2) + t/2 + ,
n1 n2 n1 n2

donde
(n1 1)s21 + (n2 1)s22
s2 =
n1 + n 2 2
es la varianza muestral combinada y t/2 es el valor de

(x1 x2) (1 2)
t= q
s2 s2
n1 n2

que deja un area de /2 a la derecha de la distribuci


on t de Student con =
n1 + n2 2 grados de libertad.

Ejemplo 7.6.5 En un estudio sobre los efectos de la planificaci on en el rendimiento fi-


nanciero de los bancos, se extrajo una muestra aleatoria de seis instituciones financieras que
contaban con un sistema de planificaci on formal, y se comprobo que el porcentaje medio
anual de crecimiento de los ingresos netos en dicha muestra era de 9,972 con una desviacion
tpica de 7,470. La media de dicho crecimiento en otra muestra aleatoria independiente
de nueve bancos que no recurran a la planificaci
on fue de 2,098 con una desviacion tpica
de 10,834. Suponiendo que las dos poblaciones son normales y tienen la misma varianza,
calcular un intervalo de confianza del 90% para la diferencia de medias.
SOLUCION:
Los datos muestrales son
n1 = 6, x1 = 9, 972, s1 = 7, 470;
n2 = 9, x2 = 2, 098, s2 = 10, 834.
Claramente podemos verificar que se cumplen los supuestos del teorema 7.6.4. Debido a que
el valor de la varianza muestral combinada es
(6 1)(7, 470)2 + (9 1)(10, 834)2
s2 = 93, 7
6+92
y a que t/2 = t0,05 = 1, 771 es el valor de una varianble aleatoria que tiene distribucion t
de Student con = n1 + n2 2 = 13 grados de libertad, entonces, el intervalo de confianza
del 90% para la diferencia de los incrementos medios porcentuales es
r r
93, 7 93, 7 93, 7 93, 7
(9, 9722, 098)(1, 771) + < 1 2 < (9, 9722, 098)+(1, 771) +
6 9 6 9
o bien
1, 161 < 1 2 < 16, 909.
El intervalo incluye el cero, lo cual sugiere que no existe evidencia suficiente en la muestra
como para rechazar la idea de la igualdad de medias entre ambas poblaciones.
7.6 Intervalos de confianza para la diferencia de dos medias 23

Ejemplo 7.6.6 Un biologo deseaba estudiar los efectos de ciertas drogas sobre el consumo
de agua en una especie particular de animales de laboratorio. La droga A que contiene un
agente que produce sed, se administro a una muestra aleatoria simple de nA = 25 animales.
La droga B que no contiene tal agente, se administro a una muestra aleatoria independiente
de nB = 22 animales similares. El biologo registr o la cantidad de agua consumida por
cada animal durante un periodo de tiempo determinado despues de la administraci on de
las drogas. Las cantidades promedio de agua consumida por animal en cada uno de los dos
grupos fueron respectivamente de xA = 50 mililitros (ml) y xB = 25 ml y las desviaciones
tpicas de sA = 5, 3 ml y de sB = 5, 6 ml. Construya un intervalo de confianza del 95% para
1 2 suponiendo que las poblaciones en cuestion son normales con varianzas iguales.
SOLUCION:
En este caso, tenemos

nA = 25, xA = 50, sA = 5, 3;
nB = 22, xB = 25, sB = 5, 6.

Claramente podemos verificar que se cumplen los supuestos del teorema 7.6.4. Debido a que
el valor de la varianza muestral combinada es
(25 1)(5, 3)2 + (22 1)(5, 6)2
s2 = 29, 6
25 + 22 2
y a quefootnotePara encontrar este valor, se puede utilizar la tabla normal. t/2 = t0,025 =
2, 0141 es el valor de una varianble aleatoria que tiene distribucion t de Student con =
nA + nB 2 = 45 grados de libertad, entonces, el intervalo de confianza del 90% para la
diferencia de los incrementos medios porcentuales es
r r
29, 6 29, 6 29, 6 29, 6
(50 25) (2, 0141) + < A B < (50 25) + (2, 0141) +
25 22 25 22
o bien
22 < A B < 28.
Podemos afirmar, con una confianza del 95% , que la diferencia verdadera entre las medias
poblacionales esta comprendida entre 22 y 28 ml.

7.6.3 Tercer caso: varianzas poblacionales diferentes, desconocidas


y muestras peque nas
El siguiente muestra como se puede construir un intervalo de confianza para la difer-
encia de medias de dos poblaciones normales, cuando las varianzas poblacionales son
desconocidas y diferentes y los tama
nos muestrales no son grandes.
7.6 Intervalos de confianza para la diferencia de dos medias 24

Teorema 7.6.7 Sean x1 y x2 las medias de muestras aleatorias independientes de


tama nos n1 < 30 y n2 < 30 de poblaciones normales con medias 1, 2 y varianzas
21, 22 diferentes y desconocidas. Entonces, un intervalo de confianza de (1)100%
para 1 2 es
s s
s21 s22 s21 s2
(x1 x2) t/2 + < 1 2 < (x1 x2) + t/2 + 2,
n1 n2 n1 n2
donde t/2 es el valor de

(x1 x2) (1 2)
t= q 2
s1 s22
n1 + n2

que deja un a
rea de /2 a la derecha de la distribuci
on t de Student con
 2
s21 s22
n1 n2
=
(s21 /n1 )2 (s22 /n2 )2
n1 1 + n2 1

grados de libertad. Dado que rara vez es un entero, se redondea al entero m


as
cercano.

Ejemplo 7.6.8 El departamento de zoologa de cierto instituto llevo a cabo un estudio para
estimar la diferencia en la cantidad de cierta sustancia qumica medida en dos estaciones
diferentes de un ro. La sustancia se mide en miligramos por litro. Se reunieron 15 muestras
de la estaci
on 1 y 12 muestras de la estaci on 2. Las 15 muestras de la estacion 1 tuvieron
un contenido promedio de sustancia qumica de 3,84 miligramos por litro y una desviacion
estandar de 3,07 miligramos por litro, mientras que las 12 muestras de la estaci
on 2 tuvieron
un contenido promedio de 1,49 miligramos por litro y una desviacion estandar de 0,80
miligramos por litro. Encuentre un intervalo de confianza del 95% para la diferencia en el
contenido promedio real de sutancia en estas dos estaciones. Suponga que las observaciones
vienen de poblaciones normalmente distribuidas con varianzas diferentes.
SOLUCION:
Tenemos que

n1 = 15, x1 = 3, 84, s1 = 3, 07, n2 = 12, x2 = 1, 49, s2 = 0, 80.

Como las varianzas poblacionales se suponen diferentes, solo podemos encontrar un intervalo
de confianza de 95% aproximado basado en la distribucion t de Student con
h i2
(3,07)2 (0,80)2
15 12
= ((3,07)2 /15)2 ((0,80)2 /12)2
= 16, 3 16
151 + 121

grados de libertad. Debido a que t/2 = t0,025 = 2, 120 para = 16 grados de libertad,
entoces, el intervalo buscado es
q q
(3,07)2 (0,80)2 2 2
(3, 841, 49)(2, 12) 15 + 12 < 1 2 < (3, 841, 49)+(2, 12) (3,07)
15 + (0,80)
12
7.7 Intervalos de confianza para la varianza 25

o bien
0, 60 < 1 2 < 4, 10.
Por ello tenemos una confianza del 95% de que el intervalo de 0,60 a 4,10 miligramos por
litro contiene la diferencia de los contenidos promedio reales de sustancia para estos dos
lugares. Como el 0 no esta incluido en el intervalo, podemos afirmar que estos dos contenidos
promedios son diferentes.

7.7 Intervalos de confianza para la varianza


Hay problemas practicos en donde se requieren estimaciones por intervalos para la var-
ianza de la poblaci
on. Como se podra intuir, tales estimaciones estan basadas en la
varianza muestral como se muestra en el siguiente

Teorema 7.7.1 Si s2 es la varianza de una muestra aleatoria de tamano n, tomada


de una poblacion distribuida normalmente con media y varianza 2, entonces, un
intervalo de confianza de (1 )100% para 2 es

(n 1)s2 2 (n 1)s2
< < ,
2 21
2 2

donde 2 y 21 son los valores de una variable aleatoria que deja un a


rea de /2
2 2
y 1 on 2 con n 1 grados de
2 , respectivamente, a la derecha de la distribuci
libertad.

Ejemplo 7.7.2 Una muestra aleatoria de tabletas para el dolor de estomago tiene una
desviacion tpica de 0,8% en la concentraci
on del ingrediente activo. Hallar un intervalo de
confianza del 90% para la varianza y para la desviacion poblacional.
SOLUCION:
Tenemos que n = 15 y s = 0, 8. Debido a que 2 = 20,05 = 23, 68 y 21 = 20,95 = 6, 57
2 2
con = n 1 = 14 grados de libertad, por el teorema 7.7.1, el intervalo de confianza del
90% para la varianza poblacional viene dado por

(15 1)(0, 8)2 (15 1)(0, 8)2


< 2 < ,
23, 68 6, 57
de donde
0, 378 < 2 < 1, 364.
Por consiguiente, con una confianza del 90%, la varianza poblacional de la concentraci on
del ingreso activo esta entre 0,378 y 1,364. Dado que la desviacion tpica es igual a la
raz cuadrada, podemos obtener un intervalo de confianza del 90% para la desviacion tpica
poblacional tomando races cuadradas. El resultado es

0, 61 < < 1, 17.

Por tanto, nuestro intervalo de confianza del 90% para la desviacion tpica poblacional de
la concentraci
on porcentual del ingrediente activo de estas tabletas va del 61% al 117%.
7.8 Intervalos de confianza para la raz
on de dos varianzas 26

Ejemplo 7.7.3 Un fabricante de detergente lquido esta interesado en la uniformidad de


la maquina utilizando para llenar las botellas. De manera especfica, es deseable que la
desviacion estandar del proceso de llenado sea menor que 0,5 onzas de lquido. De otro
modo, existe un porcentaje mayor del deseable de botellas con un contenido menor de
detergente. Supongase que la distribucion del volumen de llenado es aproximadamente
normal. Al tomar una muestra aleatoria de 20 botellas, se obtiene una varianza muestral
s2 = 0, 00153 (onzas de fluido)2 . Calcule un intervalo de confianza del 90% para .
SOLUCION:
Debido a que 2 = 20,05 = 23, 68 y 21 = 20,95 = 10, 117 con = n 1 = 19 grados de
2 2
libertad, por el teorema 7.7.1, el intervalo de confianza del 90% para la varianza poblacional
2 viene dado por

(20 1)(0, 0153) (20 1)(0, 0153)


< 2 < ,
30, 144 10, 117
de donde
0, 0096 < 2 < 0, 0287.
Por consiguiente, un intervalo de confianza del 90% para la desviacion tpica poblacional es

0, 098 < < 0, 17.

Por consiguiente, debido a que < 0, 17, con una confianza del 95%, podemos decir que los
datos no apoyan la afirmacion de que la desviacion estandar del proceso es menor que 0,5
onzas de lquido.

Es importante hacer enfasis sobre el peligro de seguir este procedimiento cuando la


distribuci
on de la poblaci
on no es normal. La validez del estimador por intervalos para la
varianza depende en mayor medida de la hip otesis de normalidad que el correspondiente
a la media poblacional.

7.8 Intervalos de confianza para la raz


on de dos varian-
zas
Ya hemos explicado en captulos anteriores que la raz on s21/s22 entre las dos varianzas
muestrales s21 y s22 proporciona un estimador puntual de 21/22 que es la raz on entre
dos varianzas poblacionales. Hay muchas situaciones en que uno quisiera saber si las
varianzas poblacionales son iguales o no. Un camino para determinar este hecho es
construyendo un intervalo de confianza para la raz on de las dos varianzas poblacionales
y ver si el 1 se encuentra o no en el intervalo. El siguiente teorema nos muestra como
construir tales intervalos.
7.8 Intervalos de confianza para la raz
on de dos varianzas 27

Teorema 7.8.1 Si s21 y s22 son las varianzas de muestras aleatorias independientes
no n1 y n2 tomadas de poblaciones normales con varianzas 21 y 22, respec-
de tama
21
tivamente, entonces, un intervalo de confianza de (1 )100% para 22
es

s21 1 21 s21
< < F (2, 1),
s22 F 2 (1, 2) 2 s22 2

rea de
donde F 2 (1, 2) es el valor de una variable aleatoria que deja un a 2 a la
derecha de la distribucion F con 1 = n1 1 y 2 = n2 1 grados de libertad.

Ejemplo 7.8.2 En el ejemplo 7.6.8 se construyo un intervalo de confianza para la diferencia


en el contenido medio de sustancia qumica, que se mide en miligramos por litro, en dos
estaciones sobre un ro mediante la suposici
on de que poblaciones en cuestion son normales
con varianzas diferentes. Justifique esta suposici
on mediante la construcci
on de un intervalo
de confianza del 98% para 1 /2 , donde 1 y 2 son las desviaciones poblacionales del
contenido de sustancia qumica en las estaciones 1 y 2, respectivamente.
SOLUCION:
Del ejemplo 7.6.8 se tiene que

n1 = 15, x1 = 3, 84, s1 = 3, 07, n2 = 12, x2 = 1, 49, s2 = 0, 80.

Para un intervalo de confianza del 98%, = 0, 02. Por tanto, al interpolar en la tabla
de la distribucion F que aparece en el apendice, encontramos que F0,01 (14, 11) 4, 30 y
F0,01 (11, 14) 3, 87. Por tanto, el intervalo de confianza del 98% para 21 /22 es

(3, 07)2 1 21 (3, 07)2


< < (3, 87),
(0, 80)2 4, 30 22 (0, 80)2

de donde
21
3, 425 < < 56, 991.
22
Al calcular las races cuadradas de los lmites de confianza, encontramos que un intervalo
de confianza de 98% para 1 /2 es
1
1, 851 < < 7, 549.
2
Como este intervalo no permite la posibilidad de que 1 /2 sea igual a 1, es correcto suponer
que 1 6= 2 o 21 6= 22 en el ejemplo 7.6.8

Ejemplo 7.8.3 Una compa na fabrica propulsores para uso en motores de turbina. Una
de las operaciones consiste en esmerilar el terminado de una superficie particular con una
aleacion de titanio. Pueden emplearse dos procesos de esmerilado, y ambos pueden producir
partes que tienen la misma rigurosidad superficial promedio. Al ingeniero de manufactura
le gustara seleccionar el proceso que tenga la menor variabilidad en la rigurosidad de la
superficie. Para ello toma una muestra de n1 = 12 partes del primer proceso, la cual tiene
una desviacion estandar muestral de s1 = 5, 1 micropulgadas, y una muestra aleatoria de
n2 = 15 partes del segundo proceso, la cual tiene una desviacion estandar muestral de
s2 = 4, 7 micropulgadas. Se desea encontrar un intervalo de confianza del 90% para el
cociente de las dos varianzas 21 /22 . Supongase que los dos procesos son independientes y
7.9 Determinaci
on del tama
no de una muestra 28

que la rigurosidad de la superficie esta distribuida normalmente.


SOLUCION:
Para un intervalo de confianza del 90%, = 0, 1. Por tanto, F0,05 (14, 11) 2, 564 y
F0,05 (11, 14) 2, 74. Por tanto, el intervalo de confianza del 90% para 21 /22 es

(5, 1)2 1 21 (5, 1)2


< < (2, 74),
(4, 7)2 2, 564 22 (4, 70)2

de donde
21
0, 46 < < 3, 23.
22
Puesto que este intervalo de confianza incluye a la unidad, no es posible afirmar que las
desviaciones estandar de la rigurosidad de la superficie de los dos procesos sean diferentes
con un nivel de confianza del 90%.

7.9 Determinaci
on del tama
no de una muestra
Hasta ahora hemos desarrollado metodos para construir intervalos de confianza para un
parametro poblacional, basandonos en la informacion contenida en una muestra determi-
nada. Siguiendo este proceso, un investigador puede creer que el intervalo de confianza
resultante es demasiado amplio, enfrentandose as a un grado de incertidumbre poco de-
seable. Normalmente, la u nica manera de reducir esta incertidumbre consiste en tomar
una muestra con tama no mayor.

En algunas situaciones, el investigador puede ser capaz de fijar por adelantado la ampli-
tud del intervalo de confianza, eligiendo un tamano muestral lo suficientemente grande
como para garantizar dicha amplitud. En esta secci on, se
nalaremos c omo el tama no de
la muestra puede elegirse de este modo para dos problemas de estimaci on. Se pueden
emplear metodos similares para tratar otros problemas de estimaci on.

Tama
no muestral de los intervalos de confianza para la media
Hemos visto que el intervalo de confianza del (1 )100% proporciona una precisi on
de la exactitud de la estimaci
on puntual. En el caso de la media poblacional, si es
realmente el valor central del intervalo, entonces, la media muestral x estima a sin
error. Sin embargo, la mayor parte de las veces x no sera exactamente igual a y
la estimaci
on puntual es err
onea. El tama no de este error sera el valor absoluto de la
diferencia entre y x y se puede tener una confianza del (1 )100% de que esta

diferencia no excedera a Z/2/ n.
7.9 Determinaci
on del tama
no de una muestra 29

Teorema 7.9.1 Sea x la media de una muestra aleatoria de tama no n tomada de


una poblacion con media y varianza 2 > 0. Supongamos que se cumple alguna de
las hip
otesis del teorema 7.3.1. Si se utiliza x como una estimaci
on de , entonces,
se puede tener una confianza de (1 )100% de que el error |x | no exceder a
Z/2 n . Es decir,

|x | Z/2 .
n
En los casos en que la varianza 2 sea desconocida y n 30, reemplazamos la desviaci
on poblacional
on muestral s.
por la desviaci

Con frecuencia, se desea saber que tan grande debe ser una muestra para asegurar que
el error en la estimaci
on de sera menor que una cantidad especfica e. Por el teorema
7.9.1, esto significa que se debe seleccionar una n tal que Z/2 n = e. Al resolver esta
ecuacion se obtiene la siguiente f
ormula para n.

Teorema 7.9.2 Sea x la media de una muestra aleatoria de tama no n tomada de


on con media y varianza 2 > 0. Si se utiliza x como una estimaci
una poblaci on
de , entonces, se puede tener una confianza de (1 )100% de que el error |x |
no exceder
a una cantidad especfica e cuando el tama
no de la muestra es
 2
Z/2
n= .
e

En los casos en que la varianza 2 sea desconocida, se toma una muestra preliminar de tama
no
n 30, se calcula la desviaci
on muestral s (para proporcionar una estimaci
on de la desviaci
on
poblacional ) y reemplazamos por s. Cuando se resuelve la ecuaci
on anterior para n, todos
los valores decimales obtenidos se redondean al entero m
as cercano. Si este principio se tiene en
a por debajo de (1 )100%.
cuenta, puede asegurarse que el grado de confianza nunca est

Ejemplo 7.9.3 La longitud de barras de metal producidas por una cadena es una variable
aleatoria con distribucion normal y desviacion estandar 1,8 milmetros. Basandose en una
muestra aleatoria de 9 observaciones, se calcuo el siguiente intervalo del 99% para la longitud
media poblacional:
194, 65 197, 75.
Supongamos que un director de producci on cree que el intervalo es demasiado amplio, y
exige un intervalo con el mismo nivel de confianza, pero cuya longitud a cada lado de la
media muestral no sea superior a 0,5 milmetros. Cu antas observaciones debe tener la
muestra para construir tal intervalo?
SOLUCION:
Tenemos que e = 0, 50, = 1, 8 y Z/2 = Z0,005 = 2, 575. Por tanto, el tama no muestral
exigido es
   2
Z/2 2 (2, 575)(1, 8)
n = = = 85, 93.
e 0, 5
As pues, para satisfacer la peticion del director, se necesita una muestra aleatoria de al
menos 86 observaciones. Este gran incremento en el tama no muestral representa el costo
7.9 Determinaci
on del tama
no de una muestra 30

adicional de conseguir una mayor precision en la estimacion de la verdadera media, reflejada


en un intervalo de confianza m
as corto.

Tama
no de la muestra para estimar proporciones poblacionales
En el caso de la proporci
on poblacional p, si p es realmente el valor central de intervalo
de confianza del (1 )100%, entonces, la proporci on muestral p estima a p sin error.
Sin embargo, la mayor parte del tiempo p no sera exactamente igual a p y la estimaci on
puntual es err
onea. El tamano de este error sera el valor absoluto de la diferencia entre
p y p ypse puede tener una confianza del (1 )100% de que esta diferencia no excedera
a Z/2 p(1 p)/n.

Teorema 7.9.4 Si se utiliza p como una estimaci on de p, entonces, se


p puede tener
una confianza de (1 )100% de que el error |p p| no exceder
a Z/2 p(1 p)/n.
Es decir, r
p(1 p)
|p p| Z/2 .
n

Pero, en muchas ocasiones, se desea saber que tan grande debe ser una muestra para
asegurar que el error en la estimaci
on de p sera menor que una cantidad espec
q fica e. Por
p(1p)
el teorema 7.9.4, esto significa que se debe seleccionar una n tal que Z/2 n = e.
Al resolver esta ecuaci
on se obtiene la siguiente formula para n.

Teorema 7.9.5 Si se utiliza p como una estimacion de p, entonces, se puede tener


una confianza de (1 )100% de que el error |p p| no exceder a una cantidad
especfica e cuando el tama
no de la muestra es

Z2/2p(1 p)
n= .
e2
En la pr
actica, si el tama
no N de la poblaci
on de donde se va a tomar la muestra es bastante
grande, de modo que n resulte suficientemente peque
na como para que n/N sea menor o igual a
0,05, podemos utilizar la ecuaci
on anterior, aunque la poblaci
on sea finita y el muestreo se haga sin
reemplazamiento. .

Cuando no se dispone de una estimaci on p de p con base a estudios anteriores o similares


y cuando es imposible o impractico tomar una muestra piloto, podemos obtener el valor
maximo de n, mediante la ecuaci on anterior, haciendo p = 0, 5.
7.9 Determinaci
on del tama
no de una muestra 31

Teorema 7.9.6 Si se utiliza p como una estimaci on de p y p se desconoce, en-


tonces, se puede tener una confianza de (1 )100% de que el error |p p| no
exceder
a una cantidad especfica e cuando el tama
no de la muestra es

(0, 25)Z2/2
n= .
e2

Ejemplo 7.9.7 Supongase que, basado en 142 observaciones, se ha construido el siguietne


intervalo de confianza del 95% para la proporci
on de directores de recursos humanos que
consideraban que el expediente academico era muy importante en la evaluacion de un can-
didato:
0, 533 p 0, 693.
Supongamos ahora que queremos construir un intervalo de confianza del 95% cuya longitud
a cada lado de la proporcion muestral no sea superior a 0,06. Cu antas observaciones
necesitamos?
SOLUCION:
Tenemos que e = 0, 06 y Z/2 = Z0,025 = 1, 95. Debido a que desconocemos la estimaci on p
de p, aplicaremos el teorema 7.9.6 para hallar el tama no muestral exigido. Reemplazando,
obtenemos
(0, 25)Z2/2 (0, 25)(1, 96)2
n = 2
= = 266, 78.
e (0, 06)2
Por consiguiente, un n umero mnimo de 267 observaciones garantiza un intervalo de con-
fianza con la longitud exigida.