Professional Documents
Culture Documents
Estadstica Inferencial
Estadstica Inferencial
El presente documento es una gua para el curso de inferencia
estadstica impartido en el Instituto Nacional de Estadstica
Geografa e Informtica (INEGI), en el edificio de capacitacin;
y no tiene ms que esa finalidad. La seccin de ejercicios ser
presentada por el instructor de acuerdo a su preferencia,
adems de agregar los temas que l considere pertinentes.
La parte inicial es una ubicacin terica que presenta algunos
de los conceptos ms importantes y resultados que sern
utilizados en la parte formal. En ningn momento deber
seguirse al pie de la letra la secuencia de exposicin, el
instructor tomar la secuencia que considere trascendental en
su imparticin.
La segunda parte es todo el curso que se debe impartir, y se
tocan los temas pero desde un punto de vista ms informal, y
el tema de estimacin ya nada ms se revisa en su formalidad
detallada en la primera parte.
La razn de la estructura de este documento es que
normalmente la persona que lo elabor1, imparte la parte terica
para generalizar el objetivo y la ubicacin de la inferencia
estadstica y resultados importantes que sern formalmente
utilizados por aquellos interesados en la formulacin
estadstica- matemtica.
Estadstica Inferencial
PARTE UNO
El objetivo de la estadstica es hacer inferencia con respecto a
la poblacin basndose en la informacin contenida en una
muestra.
Las poblaciones se describen mediante medidas numricas
denominadas parmetros y el objetivo de la mayora de las
investigaciones estadsticas es hacer inferencia con respecto a
uno o ms parmetros de la poblacin.
El proceso de obtener un resultado observado de un fenmeno
fsico es denominado un experimento.
Suponga que el resultado de un experimento es una variable
aleatoria x, y f ( x, ) representa la funcin de densidad la cual
refleja la distribucin de las medidas de los individuos en la
poblacin.
Aunque el experimento no permite especificar completamente a
f ( x, ) , y esto es posible si se puede asumir que f ( x, ) es un
miembro de alguna familia conocida de distribucin y que es
un parmetro no conocido tal como la media o la varianza de la
poblacin. El objetivo de la estimacin puntual es asignar un
valor apropiado a basado sobre las observaciones de la
poblacin, es decir, se asume que un conjunto de n variables
independientes x1 , x 2 ,..., x n cada una con f ( x, ) observada de
un conjunto de datos x1 , x 2 ,..., x n el cual puede representarse
como
f ( x1 , x 2 ,..., x n : ) = f ( x1 , ) f ( x 2 , )... f ( x n , )
Se asume que la distribucin de la poblacin de inters puede
ser representada por un miembro de alguna familia especifica
conocida f ( x, ) , indexada por el parmetro . En algunos
casos el parmetro puede ser un vector y se denota por .
Se denotara por como el espacio paramtrico que denota el
conjunto de todos los posibles valores que el parmetro
puede asumir. Si es un vector entonces ser un
subconjunto del espacio euclidiano de la misma dimensin y la
Estadstica Inferencial
dimensin de va a corresponder al nmero de parmetros
reales no conocidos.
Se asume que x1 , x 2 ,..., x n es una muestra aleatoria de f ( x, ) y
que ( ) es una funcin de .
Definicin
Un estadstico T = ( x1 , x 2 ...x n ) que es usada para estimar el
valor de ( ) es denominado un estimador de ( ) y un valor
observado de el estadstico t = ( x1 , x 2 ,..., x n ) es denominado
una estimacin de ( ) .
Equivalentemente se puede abusar y decir que un estimador es
una regla que establece cmo calcular una estimacin basada
en las mediciones contenidas en una muestra.
Es posible obtener varios estimadores (reglas para la
estimacin) diferentes para un mismo parmetro poblacional.
Esto nos lleva a tratar de definir cuales son buenos o malos en
la aproximacin.
Para ello debemos recordar algunos conceptos tericos que se
utilizaran.
Definicin.
Sea g (Y1 , Y2 ,..., Yn ) una funcin de las variables aleatorias
Y1 , Y2 ,..., Yn que tienen una funcin de probabilidad
p ( y1 , y 2 ,..., y n ) . Entonces el valor esperado de g (Y1 , Y2 ,..., Yn ) es
E ( g (Y1 , Y2 ,..., Yn )) = ... g ( y1 , y 2 ,..., y n ) p ( y1 , y 2 ,..., y n )
y n y n 1
y2
y1
... g (y , y
1
y n y n 1
y 2 y1
Estadstica Inferencial
Teorema
Teorema
Sean g (Y1 , Y2 ) una funcin de las variables aleatorias Y1 ,Y2 , y
sea c una constante. Entonces E (cg (Y1 , Y2 )) = cE ( g (Y1 , Y2 ))
Teorema
Sea Y1 ,Y2 dos variables aleatorias con la funcin de densidad
conjunta f ( y1 , y 2 ) y sea g 1 (Y1 , Y2 ), g 2 (Y1 , Y2 )...g k (Y1 , Y2 ) funciones
de Y1 ,Y2 . Entonces
E ( g1 (Y1 , Y2 ) + g 2 (Y1 , Y2 ) + ... + g k (Y1 , Y2 )) =
xi
que se usa como una
i =1 n
estimacin de la media poblacional = E (x) , para X 1 , X 2 ,..., X n
variables aleatorias, y la funcin
usualmente se denota con
x =
Estadstica Inferencial
n
Permite obtener S 2 =
ambos y 2 .
(x
i =1
1 x)
n 1
como estimador de 2 , y
1. E (x) =
2. E ( S 2 ) = 2
Despus de verificar la afirmacin se tiene que los parmetros
son insesgados , el espacio paramtrico asociado es un
subconjunto de dos dimensiones del espacio euclidiano. En
particular es el producto cartesiano = (, ) x(0, ) , para
y 2.
En pocas palabras nos gustara que la media del valor
esperado de la distribucin de las estimaciones fuera igual al
punto estimado, es decir, E () =
Definicin
El sesgo B de un estimador puntual est dado por
B = E () .
(a)
(b)
Estadstica Inferencial
Dados dos estimadores insesgados de un parmetro
seleccionamos el estimador con la menor varianza,
permaneciendo constante en todas las condiciones restantes.
Algo que se utiliza en lugar del sesgo y la varianza para
describir la bondad de un estimador puntual es el valor
esperado de ( ) 2 .
Definicin
Sea X 1 , X 2 ,..., X n una muestra aleatoria de tamao n de
f ( x; ) . Un estimador T * de ( ) es denominado un estimador
insesgado uniforme de mnima varianza de ( ) s
1. T * es insesgado para ( )
2. Para cualquier otro estimador insesgado T de ( ) ,
nE ( ln f ( x; ))
Definicin
La media del cuadrado del error de un estimador puntual y se
define como el valor esperado de ( ) 2 , es decir, E ( ) 2 .
La media del cuadrado del error de un estimador , MCE () es
una funcin al mismo tiempo de su varianza y sesgo
MCE () = V () + B 2
Estadstica Inferencial
E ()
2
n
pq
n
Y1 Y2
1 2
1 2
+
n1
n2
p1 p 2
p1 p2
p1q1 p2 q2
+
n1
n2
Parmetro
objetivo
Tamao de La(s)
muestra(s)
Estimador
puntual
p =
1 2
n1 y
p1 p2
n1
n2
y n2
Y
n
Definicin
El error de estimacin es la distancia entre un estimador y
su parmetro objetivo, es decir, =| | .
Estadstica Inferencial
Eficiencia relativa
Definicin
Dados dos estimadores insesgados 1 y 2 , de un parmetro
, con varianzas V( ) y V( ), respectivamente, entonces la
1
Consistencia
Definicin
El estimador n es un estimador consistente de si para
cualquier nmero positivo se tiene que lim P(| n | ) = 1 o
n
Teorema
El estimador insesgado n para es un estimador consistente
de s lim V ( ) = 0
n
Suficiencia
En seguida se presentan algunos mtodos para encontrar
estadsticos que en cierto sentido resumen toda la informacin
en una muestra con respecto a un parmetro objetivo, y tales
estadsticos tienen la propiedad de la suficiencia.
Definicin
Sean y1 , y2 ,..., yn observaciones muestrales para las variables
aleatorias correspondientes Y1 , Y2 ,..., Yn . Entonces si Y1 , Y2 ,..., Yn
son variables aleatorias discretas, la verosimilitud (factibilidad)
de la muestra, L = L( y1 , y2 ,..., yn ) se define como la probabilidad
conjunta de y1 , y2 ,..., yn . Si Y1 , Y2 ,..., Yn son variables aleatorias
10
Estadstica Inferencial
continuas, la verosimilitud L( y1 , y2 ,..., yn ) se define como la
densidad conjunta evaluada en y1 , y2 ,..., yn .
El siguiente teorema relaciona la propiedad de suficiencia con la
verosimilitud.
Teorema
Sea U un estadstico basado en una muestra aleatoria
Y1 , Y2 ,..., Yn . Entonces U es un estadstico suficiente para la
estimacin de un parmetro si y slo si la verosimilitud L se
puede factorizar en dos funciones no negativas
L( y1 , y2 ,..., yn ) = g (u, )h( y1 , y2 ,..., yn ) en donde g (u , ) es una
funcin solamente de u y , y h( y1 , y2 ,..., yn ) no es una funcin
de .
En general se desea encontrar un estadstico suficiente que
reduzca los datos en la muestra hasta donde sea posible. Los
estadsticos que cumplen con se objetivo se denominan
estadsticos de mnima suficiencia.
Suficiencia mnima y estimacin insesgada de mnima
varianza
Tales estadsticos fueron desarrollados por Lehmann y Scheff.
Suponga que Y1 , Y2 ,..., Yn representa una muestra aleatoria de
una funcin de probabilidad p ( y ) , o una funcin de densidad
f(y) con un parmetro desconocido . El conjunto de variables
Y1 , Y2 ,..., Yn puede tomar varios valores, supongamos que
y1 , y2 ,..., yn y x1 , x2 ,..., xn son dos conjuntos de valores posibles,
el mtodo utiliza la razn de verosimilitudes evaluadas en esto
L( x1 , x2 ,..., xn )
dos puntos
. Varias veces es posible encontrar
L( y1 , y2 ,..., yn ) n
11
Estadstica Inferencial
Mtodo de los momentos
Ya que el mtodo de anterior no siempre es aplicable, el
siguiente mtodo es uno de los ms antiguos, aunque el ms
sofisticado el de mxima verosimilitud.
Para ello recuerde que el k-simo momento de una variable
aleatoria, tomando con respecto al origen, es ' k = E (Y k ) , el
correspondiente k-simo momento de la muestra es el
1 n k
promedio m'k = Yi .
n i =1
Mtodo de los momentos: Elija estimaciones aquellos valores
de los parmetros que son soluciones de las ecuaciones
' k = mk ' , con k=1,2,...,t en donde t es igual al nmero de
parmetros.
12
Estadstica Inferencial
PARTE DOS
1. Introduccin
Todas las herramientas estadsticas con las que se cuenta
hasta ahora, tales como tablas, grficos y clculo de medidas
descriptivas se podran englobar en el trmino Estadstica
Descriptiva, puesto que ellas esencialmente permiten describir,
presentar y resumir informacin que ha sido recolectada de
alguna forma.
Sin embargo las tcnicas de la Estadstica Descriptiva no
permiten responder interrogantes que pueden surgir cuando no
se dispone de la informacin sobre todos los individuos de la
poblacin de inters sino slo de una parte de ella, es decir,
que los datos provienen de una muestra de individuos de la
poblacin bajo estudio. Ejemplos de esta situacin son:
13
Estadstica Inferencial
(Poblacin Objetivo Figura 1). Hay, por supuesto muchas
formas de obtener una muestra no representativa. Una obvia
falta de representatividad ocurre cuando la muestra se toma de
la poblacin equivocada. Por ejemplo, se quiere conocer la
proporcin de personas que consumen un determinado
producto y la muestra se obtiene de los clientes de un solo
supermercado.
An cuando se est seguro que la muestra se obtiene de la
apropiada poblacin, otra fuente potencial de error en el
muestreo, especialmente en las encuestas de opinin son las
respuestas sesgadas. Cuestionarios mal redactados o
tcnicas de entrevistas inadecuadas pueden dar lugar a
respuestas que no reflejan la realidad que se quiere evaluar.
Por otra parte, en muchas ocasiones no es posible obtener la
muestra a partir de todos los individuos que definen la poblacin
objetivo, sino slo a partir de una subpoblacin que es
accesible al investigador en el momento de hacer la seleccin
de los individuos de la muestra y ella recibe el nombre de
poblacin muestreada (Figura 1).
Poblacin objetivo
Poblacin muestreada
Para hacer inferencias estadsticas
de la muestra a la poblacin
muestreada se requiere que la
muestra sea aleatoria
Muestra
14
Estadstica Inferencial
elecciones de 1980 entre Carter y Reagan. La ABC invit a sus
televidentes a llamar (por larga distancia) para dar a conocer
sus preferencias presidenciales. En vez de lograr una muestra
del sentir real de los electores, la ABC obtuvo una muestra de
las preferencias de los votantes que estaban suficientemente
interesados en desviar el resultado del sondeo como para
invertir en las llamadas telefnicas de larga distancia. Es claro
que la ABC no realiz un muestreo aleatorio de la poblacin de
posibles votantes. Ms demcratas hicieron las llamadas de
larga distancia, y la ABC pronostic as una victoria electoral de
Carter. Antes de extender cualquier conclusin, es necesario
evaluar qu factores selectivos y sesgos distinguen a la
poblacin realmente muestreada (todos los votantes que
hicieron las llamadas de larga distancia) de la poblacin objetivo
(todos los posibles votantes).
Los mtodos de la Inferencia Estadstica permiten generalizar
los resultados de la muestra slo a los individuos que
componen la poblacin muestreada y la generalizacin hacia la
poblacin objetivo est fuera del alcance de la Estadstica. Sin
embargo, si es posible suponer que la poblacin muestreada es
similar a la poblacin objetivo no se cometera un error grande
en generalizar los resultados hacia la poblacin objetivo.
An cuando se est seguro que la muestra se obtiene de la
poblacin apropiada, es igualmente importante que la muestra
se saque de una manera objetiva e insesgada.
Muestras casuales o muestras seleccionadas sobre la base de
que es fcil de recolectar, son raramente representativas de la
poblacin. Hay varios mtodos adecuados para seleccionar una
muestra que permiten evitar los sesgos, y la mayora tiene
como base el concepto de muestra aleatoria o probabilstica,
en la cual cada individuo en la poblacin de inters es
seleccionado (o no) a travs del uso de mecanismos aleatorios
descriptos claramente. Por ejemplo, el caso ms simple, es el
denominado esquema de muestreo aleatorio simple en el
cual cada posible muestra es igualmente probable, lo que
implica que cada individuo tiene igual probabilidad de ser
seleccionado para pertenecer a la muestra. Ms adelante se
tratar con ms detalle los distinto tipos de muestreo.
En cualquier estudio, los investigadores deben escribir de
manera completamente explcita la manera en la cual las
muestras han sido elegidas y cuando se escribe o se lee
cualquier trabajo de investigacin uno debera hacerse las
siguientes preguntas:
15
Estadstica Inferencial
16
Estadstica Inferencial
medidas (media, proporcin) pueden usarse para hacer
inferencias respecto a los parmetros poblacionales.
La inferencia estadstica involucra dos reas principales:
Estimacin y Prueba de Hiptesis, pero antes de tratar estos
importantes temas es necesario manejar el concepto de
Distribucin en el Muestreo o Distribucin Muestral que es la
base para comprender los mtodos y herramientas de la
inferencia estadstica.
1. Distribucin muestral
Un objetivo que se presenta frecuentemente en las
investigaciones de diferentes reas es conocer el promedio de
alguna caracterstica cuantitativa o la proporcin de individuos
que poseen determinada caracterstica cualitativa. Por ejemplo,
la edad media de las mujeres de una dada regin que usan
determinado servicio (Poblacin Objetivo); o la proporcin de
egresados universitarios de un pas (Poblacin Objetivo) que
hacen una carrera de postgrado. En general, las caractersticas
de inters en un estudio se denominan parmetros
poblacionales. En los ejemplos dados los parmetros
poblacionales son la media y la proporcin y generalmente se
denotan con a lamedia y con a la proporcin.
Para determinar los parmetros poblacionales se requiere
conocer los valores de la variable para todos los individuos de
la poblacin, por ejemplo para determinar la edad media se
requiere conocer la edad de todas las mujeres que usan el
servicio. Sin embargo, no siempre es posible obtener la
informacin de todos los individuos que componen la poblacin
por razones de costo en tiempo y dinero, y cuando eso ocurre
se hace necesario recurrir a una muestra de la poblacin.
Luego, a partir de los datos de la muestra se busca una manera
de combinar la informacin de la muestra para obtener la
caracterstica de inters.
En el ejemplo donde el parmetro de inters es la edad media,
se toma una muestra de n (tamao de la muestra) mujeres de
la poblacin y se calcula el promedio de las edades en la
muestra. Surge entonces el interrogante a cerca de cual medida
de promedio se usar (media aritmtica o mediana). Cualquiera
sea la medida que se use, cada una de ellas recibe el nombre
de estimador o estadstico. Si se conviene en usar la media
17
Estadstica Inferencial
aritmtica, o sea, la media muestral x , ella es en este caso el
estimador de la media poblacional
Se debe observar que para obtener el valor de x se debe
combinar los valores observados en la muestra (suma de los
datos divida en el nmero de observaciones) y esto ocurre con
cualquier estadstico o estimador de una parmetro, de manera
que formalmente se puede dar la siguiente definicin:
Definicin 1: Un estadstico o estimador es una funcin de
los valores observados en los individuos que componen la
muestra, es decir, es la expresin matemtica que indica la
forma de combinar los datos.
La Tabla 1 muestra los smbolos de los parmetros y sus
respectivos estimadores de uso ms frecuentemente.
Tabla 1: Smbolos usuales para parmetros y estadsticos
Caractersticas
Media
Desviacin
estndar
Varianza
Correlacin
Proporcin
s
s2
2
r
p
18
Estadstica Inferencial
De esta manera, las estimaciones dependen de la particular
muestra con que estemos trabajando.
En resumen, Si se est interesado en conocer algn parmetro
de una poblacin de inters (media, proporcin, coeficiente de
correlacin, etc.), y no es posible observar o medir a todos los
individuos de la poblacin para obtener el valor de dicho
parmetro, entonces, una posibilidad es obtener una muestra
de tamao n y conseguir una estimacin de parmetro usando
un estimador del parmetro.
Por otra parte, si se pudiera extraer todas las posibles muestras
del mismo tamao (n) de la poblacin de inters y con cada una
de ellas se calcula el valor del estimador o estadstico
correspondiente, se obtendra todas las estimaciones posibles
del parmetro. Luego a partir de ellos se podra construir la
distribucin de probabilidad del estadstico, tal distribucin
de probabilidad que recibe el nombre de distribucin muestral
del estadstico de inters.
Cabe preguntarse por qu es tan importante el concepto de
distribucin muestral, la respuesta es simple, cuando se quiere
estimar un parmetro poblacional (caracterstica de la
poblacin) a partir de una muestra surgen otros interrogantes
como:
19
Estadstica Inferencial
la poblacin? Para responder esta pregunta se debe tener en
cuenta que la distribucin muestral del estadstico depende de:
20
Estadstica Inferencial
notable variabilidad en el llenado. Para analizar este problema
se lleva a cabo un estudio donde se define que la variable de
inters X ser la cantidad de bebida que contienen las botellas.
Supongamos que la distribucin de probabilidad de X es tal que
la media poblacional es = 1,2 litros de bebida, con un
desviacin estndar = 0,2 litros. Supongamos ahora, que se
desconoce esta informacin y se quiere estimar la media
poblacional tomando una muestra aleatoria de tamao n=100
de la poblacin de botellas. La media aritmtica calculada a
partir de la muestra dio un valor x =1,22 litros.
Para hacer afirmaciones sobre la precisin de la estimacin que
d algn grado de confianza en el valor encontrado a travs de
la muestra, se necesita conocer la distribucin muestral de x.
Las propiedades de la distribucin muestral de x son la base
para uno de los teoremas ms importantes de la teora
estadstica, llamado Teorema del Lmite Central, que se
enuncia a continuacin sin mucha formalidad.
Dada una poblacin con media x y desviacin estndar x
(finita), la distribucin muestral de la media basada en muestras
aleatorias repetidas de tamao n (grande) tiene las siguientes
propiedades:
1. La media de la distribucin muestral de x, es decir,
el valor esperado x = E( x) de la distribucin de
probabilidad de x, es igual a la media x de la
distribucin de probabilidad de la variable X.
2. La desviacin estndar en la distribucin muestral de
21
Estadstica Inferencial
Teorema del lmite central:
Independiente de la distribucin que tenga la variable aleatoria
X, siempre que tenga media y varianza 2 finitas, al hacerse
lo bastante grande el tamao de muestra n, entonces la
distribucin del estadstico
Z =
(1)
/ n
DISTRIBUCIN DE LA POBLACIN DE X
DESVO
ESTNDAR
NORMAL CON
MEDIA
DESVO
ESTNDAR
ERROR ESTNDAR
x1
M1
x2
M2
x3
x4
M3
M4
...
/ n
+/ n
.
X
Mm
POBLACIN DE X
xm
POBLACIN DE X
MUESTRAS DE TAMAO n
Observacin:
Aunque siempre hay excepciones, tamaos de muestras de n =
30, o ms, en la gran mayora de los casos aseguran la validez
del teorema del lmite central, es decir, la distribucin muestral
22
Estadstica Inferencial
para x tendr aproximadamente una distribucin normal para n
30 si es conocido.
En el ejemplo, y de acuerdo a lo enunciado, la distribucin
muestral de x ser aproximadamente normal con media x =
1,20 litros y con un error estndar dado por
SE( x) = SEM =
0.2
=
= 0.2/10 = 0.02.
n
100
23
Estadstica Inferencial
En el caso en que sea desconocido, l debe ser estimado
usando los datos de la muestra. Un estimador razonable para ,
como ya se vio en las unidades previas, es la desviacin
estndar de la muestra
xi x
S = i =1
n 1
n
(2)
X
t=
S/ n
2. Estimacin
En esta Seccin se dar algunas propiedades que debera
cumplir un estimador para conseguir estimaciones confiables
del parmetro de inters. Se considerar diferentes formas de
estimacin y se estudiar una manera de medir la precisin en
la estimacin.
24
(3)
Estadstica Inferencial
En el ejemplo de la embotelladora es claro que el inters no es
conocer la cantidad de bebida promedio en el grupo particular
de botellas que pertenecen a la muestra, sino en toda la
poblacin. Por otra parte, la media calculada a partir de los
datos de la muestra es slo una estimacin de la cantidad
de bebida media en la poblacin de botellas. Cabe preguntarse
ahora cules son las propiedades de que debera tener un
estimador (media, mediana) para que sea considerado como
bueno y que nos facilite la eleccin entre un estadstico y otro.
Es claro que al obtener una estimacin puntual su valor
depender de la muestra que se haya seleccionado y que el
valor encontrado puede cambiar de muestra en muestra. De
esta manera, las propiedades deseables seran que cada
estimacin no se encuentre muy alejada del verdadero valor del
parmetro, y por otra parte, que no haya demasiada variabilidad
entre los valores del estadstico, obtenidos de muestra en
muestra. Esto se puede formalizar definiendo algunas
propiedades a tener en cuenta de los estadstico, a saber:
1. Insesgado: Informalmente esto significa ausencia de error
sistemtico. De una manera ms formal, un estadstico
cualquiera q se dice insesgado si la media de su
correspondiente distribucin muestral es igual al parmetro
de inters Q, es decir, E[q] = Q.
2. Eficiente: Significa que las estimaciones obtenidas para
distintas muestras varan poco entre ellas. De una manera
ms formal, el estimador ms eficiente dentro de un
conjunto de estimadores insesgado ser aquel que tiene la
menor varianza.
3. Consistente: Informalmente, un estadstico Q se dice
consistente si su variabilidad disminuye cuando aumenta el
tamao de muestra.
Se puede demostrar que la media aritmtica es un estimador
insesgado y eficiente de la media poblacional.
Si la variabilidad de las estimaciones se mide a travs de la
desviacin estndar, sta desviacin estndar recibe el nombre
de error estndar del estimador (SE).
25
Estadstica Inferencial
Observaciones:
1. No debe confundirse desviacin estndar de la distribucin
de la poblacin (variabilidad entre los individuos) con error
estndar del estimador que es la desviacin estndar de la
distribucin muestral (variabilidad entre las estimaciones de
las muestras).
2. Es muy probable que el estadstico insesgado ms eficiente
no estime el parmetro poblacional con exactitud, esto se
debe a que en realidad cuando realizamos la estimacin
slo tomamos una muestra, y obtenemos uno de los
posibles valores del estadstico que en general no tiene
porque coincidir con el valor del parmetro que se quiere
estimar.
26
Estadstica Inferencial
Para encontrar estos intervalos debemos conocer la distribucin
muestral de cada estimador, que como ya se vio esto depende
del parmetro de inters y del estadstico que se elija para
estimar dicho parmetro. Sin embargo es posible dar la forma
general que adopta un intervalo de confianza en cualquier caso.
En general, si que se quiere estimar un parmetro Q de la
poblacin a travs del estadstico q, y si el error estndar de la
distribucin de q, que se lo denotar con SE(q), entonces un
intervalo de confianza para Q con una confianza del 95%
(IC95%) viene dado por la expresin:
IC95% = [q k1SE(q) , q + k2SE(q)] (4)
donde k1 y k2 dependen de la forma de la distribucin muestral
de q.
Ejemplo 3: En el ejemplo de la embotelladora un intervalo de
confianza para el parmetro poblacional Q = , con una
confianza del 95%, correspondiente a una estimacin de
q = x = 1.22 litros,
calculada a partir de la muestra de tamao n = 100, y
suponiendo que se conoce la desviacin estndar de la
poblacin, es decir, = 0.2 litros, est dado por:
IC95% = [ x k1SE( x) , x + k2SE( x)]
X
partir de la distribucin muestral de
, que como se vio en
/ n
la Seccin anterior ella N(0, 1). Por lo tanto,
z 2
(5)
27
Estadstica Inferencial
o bien
z 2
n
x +
z 2
n
donde
n = tamao de la muestra
10.31
28
(6)
Estadstica Inferencial
estadstico S. En este caso la primera expresin de (6) adopta
la forma
t( n1), / 2 S
(7)
xi x
, dando en este caso el valor S = 0,24,
S = i =1
n 1
entonces, reemplazando este valor en la expresin (7), donde
adems se reemplaza z(/2) por t(n-1), /2. Luego, el valor
estimado del error estndar ser,
SE (x ) =
S
0.24
=
= 0.034
n
50
Observaciones:
1. El valor de kiSE(q) del intervalo de confianza para el
parmetro q se lo puede entender como cota para el error
de estimacin. En el ltimo ejemplo se tiene entonces, que
esta cota es 1.96x0.034=0,07. Esto se interpreta como que
la probabilidad de que el error sea menor a 0,07 es 0,95.
As, la cota para el error de estimacin, 7%, proporciona una
medida de la exactitud para la estimacin efectuada por la
empresa de investigaron de mercado.
29
Estadstica Inferencial
Actividad 2:
1. Se relaciona muchas veces un incremento en la proporcin
de ahorros de los consumidores a una falta de la confianza
en la economa, y se dice que ello es un indicador de una
tendencia de recesin econmica. Una muestra aleatoria de
n=200 cuentas de ahorro en una comunidad local, mostr un
incremento medio en los valores de las cuentas de 7,2% en
los ltimos 12 meses y una desviacin estndar de 5,6%.
a) Estime el intervalo de confianza para el aumento
porcentual promedio en las cuentas de ahorro en lo
ltimos 12 meses, para ahorradores de la comunidad.
b) Obtenga una cota para su error de estimacin.
2. Escriba la expresin para el IC para el parmetro de la
distribucin binomial cuando n es mayor de 30.
30
Estadstica Inferencial
para el producto europeo la media es de 16500, y el SD es de
2000.
Un lote de esas lmparas de origen desconocido es ofrecido a
un precio muy conveniente. Para que la industria sepa si hace o
no una oferta ella necesita saber cual es el pas que produjo
tales lmparas. El comercio que ofrece tales lmparas afirma
que ser divulgada la vida til media de una muestra de 25
lmparas del lote antes de la oferta. Que regla de decisin
deben usar los responsables de la industria para decir que las
lmparas son de procedencia americana o europea?.
Una respuesta que surge inmediatamente es la de considerar
como pas productor aquel en la cual la media de la muestra se
aproxima ms a la media de la poblacin. As, la decisin sera
si x 16000 (el punto medio entre 15500 y 16500) diremos que
es de procedencia americana; en caso contrario diremos que es
de procedencia europea.
Suponga que en el da de la licitacin se inform que, de
acuerdo con la regla de decisin diramos que las lmparas son
de origen americano. Podemos estar herrados en esa
conclusin?. O en otras palabras, es posible que una muestra
de 25 lmparas de origen europeo presente una media de
15800? Si, es posible. Entonces, para un mejor entendimiento
de la regla de decisin adoptada, es interesante estudiar los
tipos de errores que podemos cometer y las respectivas
probabilidades de cometer esos errores.
Los tests de hiptesis consisten en confrontar dos hiptesis,
una llamada hiptesis nula que denotamos con Ho y otra
llamada hiptesis alternativa denotada con H1. En el ejemplo
las hiptesis que se plantean son:
En el ejemplo las hiptesis consideradas son
Ho Las lmparas son de origen europeo, esto equivale a
decir que la vida til X de cada lmpara sigue una
distribucin con media =16500 horas y un SD=2000
horas.
H1; Las lmparas son de origen americano, es decir la
media poblacional = 15500 horas con un SD=1200
horas.
31
Estadstica Inferencial
Bajo este planteo un test de hiptesis estadstica no es otra
cosa que un procedimiento para tomar una decisin, bajo
incertidumbre, sobre la validez de la hiptesis nula usando la
evidencia de los datos. Puesto que trabajamos bajo
incertidumbre es claro que cualquiera sea la decisin que
tomemos siempre existe una probabilidad de cometer error. A
fin de clarificar esto podemos presentar el siguiente esquema:
Realidad sobre Ho
Cierta
Falsa
Rechazar Ho
Error Tipo I
Decisin correcta
No rechazar Ho
Decisin correcta
Error Tipo II
32
Estadstica Inferencial
RC={X 16000}. El valor 16000 se denomina punto crtico y
se denotar como xc.
10000
12000
14000
Regin de Aceptacin de H0
16000
18000
20
Regin de Rechazo
H0
Figura 3: Valores posibles del estadstico del test
Con las notaciones indicadas arriba, la probabilidad de cometer
cada uno de los errores puede ser escrita del siguiente modo:
P[Error Tipo I] = P[ X pertenezca a RC | H0 es
verdadera] = .
P[Error Tipo II] = P[ X no pertenezca a RC | H0 es
falsa ] =
Ejemplo 7: En el ejemplo 6, cuando H0 es verdadera, es decir,
las lmparas son de origen europea, sabemos del teorema
central del lmite que x , o sea la media de las muestras de
tamao 25, tendrn distribucin aproximadamente normal con
2000
media 16500 y =
= 400 , es decir X N( , 2 ).
25
Entonces,
P[Error Tipo I] = P[ X RC | H0 es verdadera] =
= P[ X 16000 | X N(16500, 16000)] = P[ Z
(16000 16500)/ 400]
= P[ Z -1.25] = 0.106 = 10.6%.
Para cada regla de decisin adoptada, es decir, para cada valor
crtico xc se obtiene un valor de probabilidad de error tipo 1. Por
otra parte, si xc se elige menor que 15000 disminuye pero
aumenta.
Sin embargo, se puede proceder de manera inversa, es decir,
fijado encontramos la regla de decisin que corresponder a
una probabilidad de error 1 igual a .
33
Estadstica Inferencial
Ejemplo 8: Si se toma = 5%, y se procede a encontrar la
regla de decisin correspondiente:
5%= P[Error Tipo I]= P[ X xc | X N(16500, 16000)] =
P[Z < -1.645],
pero se sabe que, para una distribucin normal estndar
1.645 =
xc 16500
400
34
Estadstica Inferencial
AMERICANO
EUROPEO
5%
7.93%
15500
15842 16500
35
Estadstica Inferencial
de la probabilidad del error Tipo I que brindan las salidas de
tales paquetes de programas, denominado P-value o
simplemente P. Este procedimiento lo podemos resumir en los
siguientes pasos:
1. Suponer que Ho es cierta.
2. Para confrontar esta suposicin con la informacin
(parcial) que proveen los datos sobre la realidad de
Ho, se forma una especie de indicador de
concordancia, denominado estadstico del test, el
cual es funcin del de los datos.
3. Como el estadstico depende de la informacin de los
datos, con cada muestra posible hay asociado un
valor de este estadstico y en consecuencia se genera
una nueva variable aleatoria. Asociada a esta variable
hay una cierta distribucin de probabilidad, a partir de
la cual se determina la probabilidad de que la
informacin de los datos concuerde con la hiptesis
nula, denominado P-value. De esta manera, el Pvalue representara la probabilidad de cometer un
error cuando se toma la decisin de rechazar Ho.
4. Es claro que si de antemano se fija que la mxima
probabilidad de error al rechazar Ho debe ser igual a
, otra manera de tomar la decisin es comparar el
valor del P- value con .
36
Estadstica Inferencial
Desde el punto de vista prctico se puede tener inters en
contrastar la hiptesis nula H0: = 0, contra la alternativa de
que el parmetro poblacional es mayor que 0, o sea H1: > 0.
En esta situacin, se rechazar H0 cuando sea grande, o sea
cuando el estadstico del test sea mayor que un cierto valor
llamado valor crtico, que separa las regiones de rechazo y no
rechazo del test (Ver Figura 3).
La probabilidad de rechazar la hiptesis nula cuando es cierta
ser igual al rea bajo la curva de la distribucin muestral del
estadstico del test sobre la regin de rechazo. En el caso que
estemos trabajando con una distribucin normal, y un = 0,05,
se rechaza la hiptesis nula cuando se encuentre a ms de
1,645 a la derecha de 0. De esta manera, se puede definir
como
Una prueba estadstica de una cola o unilateral es
aquella en la que la regin de rechazo se localiza
solamente en una cola o extremo de la distribucin
muestral del estadstico del test.
Para detectar > 0, se sita la regin de rechazo en la
extremidad de valores superiores a . Para detectar < 0 se
ubica la regin de rechazo en la extremidad izquierda de la
distribucin de , o sea para valores inferiores a .
Si hay que detectar diferencias mayores o menores de 0, la
hiptesis alternativa ser
H1: 0
es decir
> 0
o bien
< 0
37
Estadstica Inferencial
3.3.3. Casos particulares de pruebas de hiptesis
1) Caso 1: Prueba de hiptesis para la media de una
poblacin
Sea una poblacin con media y desviacin estndar , y se
tiene inters de ver si la media poblacional es un dado valor
0. Se toma una muestra aleatoria de tamao n de esta
poblacin. Por lo que el procedimiento a seguir ser:
a) Hiptesis nula H0: = 0
b) Estimador puntual de la media poblacional x . Por el
teorema del lmite central, el cual, en esencia, establece
que bajo ciertas condiciones, cualquiera la distribucin de
X, la variable aleatoria X tiene una distribucin
aproximadamente normal con media y desviacin
estndar
para el tamao de muestra grande.
n
c) Hiptesis alternativa
Prueba de una cola
Prueba de dos
colas
H1: 0
x 0 x 0
,
=
x
n
(11)
38
x 0
s
n
(12)
Estadstica Inferencial
que tiene una distribucin t,(n-1) con (n-1) grados de
libertad, bajo la hiptesis nula.
f) Regin de rechazo
Prueba de una cola
z > z 2 o z < z 2
t > t
2
, ( n 1)
o t < t
2
, ( n 1)
x 0 871 880
=
= 3.03
21
50
n
39
Estadstica Inferencial
Observacin:
1. Si el estadstico del test es Z como el definido en (1) y donde
= 0, entonces, si Z es menor que 1,96, entonces
decimos que se rechaza la hiptesis nula al nivel del 5%.
2. El intervalo de confianza de 100(1-)% del parmetro
(parmetro poblacional de inters), est relacionado con una
prueba de hiptesis estadstica, de dos colas, del parmetro
poblacional, con nivel . En el ejemplo, el intervalo
x 1,96
871 5 ,82 es de tal manera que en un
n
muestreo repetitivo, el 100(1-)% = 95% de los intervalos
contendrn al verdadero valor de la media poblacional.
Como el valor 880 no cae dentro de este intervalo, entonces
nos inclinamos a rechazar la hiptesis de que = 880.
Actividad 3:
Un vendedor de coches nuevos calcula que su compaa tiene
un 4,8% de ganancias promedio en la venta de los autos
nuevos asignados. El gerente de venta aprob los precios para
producir ese porcentaje de ganancias. El dueo de la compaa
quiere estar razonablemente seguro de que la decisin es
correcta, para ello se toma una muestra aleatoria de 30 coches
en la cual se obtiene una media y una desviacin estndar del
porcentaje de ganancia de 4,5% y 3,9% respectivamente.
a)
b)
c)
d)
40
Estadstica Inferencial
(Sugerencia: use uno de estos valores para el estadstico
seleccionado Z(0.005) = 2.58 y t 0.005,(301) = 2.7564 )
e)
H1: (1 2 ) D0
41
Estadstica Inferencial
z=
(x
x 2 ) D0 (x1 x 2 ) D0
,
=
(x1 x 2 )
12 22
+
n1
n2
(13)
( x1 x2 ) D 0
1 1
+
n1 n2
(14)
(15)
( x1 x2 ) D0
sp
1 1
+
n1 n2
Observacin:
1. En la situacin en que no se puede o no se desea hacer la
suposicin de que las dos poblaciones con varianzas
iguales tengan distribucin normal, la prueba t de varianzas
iguales es robusta (es decir, no sensible) con respecto a las
violaciones moderadas de la suposicin de normalidad,
siempre y cuando el tamao de muestra sea grande. En tal
situacin, el test t de varianza conjunta puede utilizarse sin
que se vea seriamente afectado en su potencia. Por otro
42
(16)
Estadstica Inferencial
lado, si el tamao de muestra es pequeo y no se puede o
no se desea hacer la suposicin de normalidad de las
poblaciones, se tiene dos alternativas: (a) llevar a cabo
alguna transformacin normalizante de los datos, por
ejemplo tomar el logaritmo de los datos, y luego aplicar el
test t a los datos transformados; (b) o bien aplicar a los
datos originales un test de distribucin libre o test no
paramtrico como por ejemplo el test de rangos de
Wilcoxon.
4. En el caso en que no se pueda o no se desee
hacer la suposicin de que las poblaciones,
normalmente distribuidas, tienen varianzas iguales
y si las desviaciones estndares son
desconocidos, entonces el estadstico del test
tiene la forma
t =
(x 1 x 2 ) D 0 ,
(17)
s12 s 22
+
n1 n 2
(s
(s
2
1
2
1
n1 + s22 n2
) (
2
n1
s2 n
+ 2 2
n1 1
n2 1
(18)
43
Estadstica Inferencial
d) Regin de rechazo
Prueba de una cola
z > z 2 o z < z 2
Para el caso 3
Para el caso 3
t > t 2 o t < t 2
Para el caso 4
Para el caso 4
t > t 2 o t < t 2
Observaciones:
1. El uso del estadstico t y t requiere que las muestras sean
independientes y tengan distribucin normal
2. El uso del estadstico t requiere que las poblaciones
tengan distribucin normal.
3. Un intervalo de confianza del 100(1-)% para (1 2 ) en el
caso 1 est dado por
12 22
IC95% = (x1 x 2 ) z 2
+
n1
n2
(19)
1
1
IC95% = (x1 x 2 ) t 2 s p
+
n1 n 2
44
(20)
Estadstica Inferencial
5. Un intervalo de confianza del 100(1-)% para (1 2 ) en el
caso 4 est dado por
s1 s 2
+
IC 95% = (x 1 x 2 ) t 2
n
n2
1
(21)
45
Estadstica Inferencial
x1 = $31083
x 2 = $29745
s1 = $2312
s 2 = $2569
H 1 : 1 2
es decir
H 1 : ( 1 2 ) 0
(x
x2 ) 0
2
1
2
2
s
s
+
n1 n 2
(31083 29745) 0
(2312)2 + (2569)2
40
= 2,45
40
46
Estadstica Inferencial
Empresa
Estadstica muestral
Tamao
30
30
Media
264
199
Desviacin estndar
157
111
47