You are on page 1of 8

ESTIMACIÓN los cuales la elección apropiada de un estimador puntual no resulta tan

evidente.
La estadística inferencial toma como base las relaciones existentes entre las
muestras y la población, para inferir acerca de ésta a partir de las muestras, es Estimador Insesgado: Se dice que θ̂ es un estimador insesgado del
decir, hace generalizaciones con base en dichas muestras. parámetro θ si:
Cualquier inferencia que se haga sobre la población tendrá que basarse
E( θ̂) = θ
necesariamente en estadísticos muestrales, es decir, en funciones de la
información muestral. El verdadero parámetro será desconocido, y un objetivo
será estimar su valor. La media y la proporción muestral son estimadores insesgados de los
correspondientes parámetros poblacionales. La varianza muestral también es
Un estimador de un parámetro poblacional es una variable aleatoria que insesgada si la población es grande, y la desviación típica muestral no es un
depende de la información muestral y cuyas realizaciones proporcionan estimador insesgado de la desviación típica poblacional.
aproximaciones al valor desconocido del parámetro. Se llama estimación a una
realización específica de esta variable aleatoria. El sesgo de θ̂ se define como la diferencia su media y θ , es decir,

ESTIMACIÓN PUNTUAL Sesgo ( θ̂) = E( θ̂) - θ

Un estimador puntual de un parámetro poblacional es una función de la De aquí se deduce que el sesgo de un estimador insesgado es 0.
muestra que da como resultado un único valor. La correspondiente realización
se llama estimación puntual del parámetro. La notación para parámetros Estimador Eficiente: Sean θ̂1 y θ̂2 dos estimadores insesgados de θ ,
poblacionales, estimadores puntuales y estimaciones más comunes es:
obtenidos en muestras del mismo tamaño, entonces se dice que θ̂1 es más
Medida Parámetro Estimador eficiente que θ̂2 si: V( θ̂1) < V( θ̂2). La eficiencia relativa de un estimador
Estimación con respecto al otro es el cociente de sus varianzas, es decir:
Media µ X
x V (θˆ2 )
Varianza σ 2
S2 Eficiencia relativa =
s2 V (θˆ )
1
Desviación típica σ S
s Puede demostrarse que la mediana también es un estimador insesgado para la
Proporción p P media de la población y que su varianza es:

π σ X2 1,57σ X2
PROPIEDADES DE LOS ESTIMADORES: No hay un único criterio para V (M e ) = ⋅ ≈
seleccionar el mejor estimador puntual para todas las circunstancias. Sólo se
2 n n
dispone de un conjunto de criterios bajo los cuales pueden evaluarse distintos
estimadores. En casi todos los casos, la media, la varianza, la desviación típica El resultado indica que la media muestral es más eficiente que la mediana. La
y la proporción muestrales son estimadores satisfactorios para los eficiencia relativa de la media con respecto a la mediana es:
correspondientes valores poblacionales. Sin embargo, existen problemas para
V (M e )
n( X − µX )
Eficiencia relativa = ≈ 1,57
V (X )
∼ n(0,1) ,entonces,
σX
La varianza de la mediana muestral es un 57% mayor que la media muestral.
Para obtener una mediana con la misma varianza que la media, debe tomarse
una muestra con un 57% más de observaciones.  n( X − µ X ) 
P − zα / 2 < < zα / 2  = 1 − α
 σX 
Si θ̂ es un estimador insesgado de θ , y no hay ningún otro estimador
insesgado que tenga menor varianza, entonces se dice que θ̂ es el estimador
 σ σ 
insesgado más eficiente o de mínima varianza de θ . P − zα / 2 X < X − µ X < zα / 2 X  = 1 − α
 n n
Estimador Consistente: Si para cualquier ε positivo, no importando lo
pequeño que sea, si P[| θ̂n-θ | <ε ] tiende a uno cuando n tiende a infinito,  σ σ 
se dice que el estimador es consistente. De manera informal, lo que esto P − X − zα / 2 X < − µ X < − X + zα / 2 X  = 1 − α
significa es que si se utiliza un estimador consistente con una muestra infinita,  n n
se obtendrá el resultado correcto.
 σ σ 
P X − zα / 2 X < µ X < X + zα / 2 X  = 1 − α
 n n
ESTIMACIÓN POR INTERVALOS
Dada una muestra particular con media x , entonces un intervalo de confianza
Un estimador por intervalos de un parámetro poblacional es una variable al 100(1-α )% para µ con σ 2 conocido, viene dado por:
aleatoria basada en información muestral para determinar un rango, o un
intervalo, en el cual posiblemente se encuentre dicho parámetro. La estimación σX σ
correspondiente se denomina estimación por intervalos. Basados en la x − zα / 2 < µ X < x + zα / 2 X
información muestral, se pueden encontrar variables aleatorias A y B tales que: n n
P(A<θ < B) = 1-α
El intervalo también se puede notar como:
Una realización particular de A y B es notada por a y b, entonces al intervalo
(a,b) se le denomina como “un” intervalo de confianza al 100(1-α )% para θ .  σ σ 
IC ( µ )100 (1−α )% =  x − zα / 2 , x + tα 
A α se le conoce como el nivel de significancia y a 1-α como el nivel de  n n
confianza o confiabilidad
σ
IC ( µ)100 (1−α )% = x ± zα / 2
INTERVALO DE CONFIANZA PARA LA MEDIA n

a. Varianza poblacional conocida: Se cuenta con una muestra aleatoria de n Si las muestras son grandes, el intervalo sirve aún si la población no es normal.
observaciones con media muestral X procedente de una población normal Asumir que en un estudio se conoce la varianza poblacional, es en la mayoría
con varianza conocida σ 2. La deducción del intervalo parte del principio que de los casos un supuesto irreal, por esto, es necesario contar con la alternativa
de intervalos que no tenga este supuesto tan fuerte.
P(-zα / 2 < Z < zα / 2 ) = 1- α , y sabiendo que el estadístico:

2
b. Varianza poblacional desconocida: Se cuenta con una muestra aleatoria de s
n observaciones procedentes de una distribución normal, con media y IC ( µ)100 (1−α )% = x ± t ( n −1,α / 2 )
n
desviación típica muestrales X y S2 respectivamente. Dado que no se
conoce la varianza, se hace una estimación de ella a partir de S2, y para deducir Si la muestra es superior a las 60 unidades, la distribución t es muy aproximada
el intervalo se parte del estadístico: a la normal estándar, por tanto el intervalo se puede construir usando la tabla de
la normal estándar, aún cuando los datos muestrales no sean normales. Así
n( X − µX ) pues:
∼ t(n-1)
SX s
IC ( µ)100 (1−α )% = x ± zα / 2
n
Por procedimiento similar al anterior:
Ejemplo: Un fabricante de cigarrillos afirma que el contenido de
n( X − µX )
nicotina en sus cigarrillos es de 1,7 mg. Se toma una muestra de 20
 
P − t ( n −1,α / 2 ) < < t ( n −1,α / 2 )  = 1 − α cigarrillos y se encontró que el contenido era 2,2 con una desviación
 SX  estándar de 0,8 mg. Evaluar la afirmación del fabricante con base en
un intervalo de confianza del 95%.

 S S   s 
P − t ( n −1,α / 2 ) X < X − µ X < t ( n −1,α / 2 ) X  = 1 − α IC ( µ) 95 % =  x − t (19 , 0, 025 )
s
; x + t (19 , 0, 025 )
 n n 
 n n
 0,8 0,8 
 S S  = 1,7 − 2,0930 ; 1,7 + 2,0930 
P − X − t ( n −1,α / 2 ) X < −µ X < − X + t ( n −1,α / 2 ) X  = 1 − α  20 20 
 n n = (1,7 − 0,3744 ; 1,7 + 0,3744 )
= (1,8 ; 2,6)
 S S 
P X − t ( n −1,α / 2 ) X < µ X < X + t ( n −1,α / 2) X  = 1 − α
 n n
Ejemplo: El gerente de un hospital afirma que el tiempo de espera de
atención a los pacientes en urgencias es de 21 minutos. El director del
Dada una muestra particular con media x y varianza s , entonces un intervalo
2
departamento de control de calidad de una organización de salubridad
de confianza al 100(1-α )% para µ con σ 2 desconocido, viene dado por: desea evaluar esta afirmación y para ello toma una muestra aleatoria
s s de 25 pacientes de un libro de citas y encontró que el tiempo
x − t ( n −1,α / 2 ) < µ < x + t ( n −1,α / 2 )
n n promedio era de 25,5 minutos con una desviación típica de 7 minutos.
El cálculo de un intervalo de confianza al 95% es:
El valor t(n -1, α /2) es un valor de la distribución t de Student con n-1 grados de
libertad, tal que P(t(n) > t(n-1 , α )) = α . Otras notaciones apropiadas para el
intervalo son:

 s s 
IC ( µ)100 (1−α )% = 
 x − t ( n −1,α / 2 ) , x + t ( n −1,α / 2 ) 

 n n

3
 s s  Entonces si n es grande (n≥ 40), un intervalo de confianza del 100(1-α )%
IC ( µ ) 95% =  x − t ( 24 , 0, 025 ) , x + t ( 24 , 0, 025 )  para la proporción poblacional se deduce como:
 n n
 7 7   
=  25,5 − 2,0639 , 25,5 + 2,0639   
 25 25  P −π
P− zα / 2 < < zα / 2  =1 −α
 π(1 −π) 
= ( 25,5 − 2,8895 , 25,5 + 2,8895 )  
 n 
= ( 22,61 , 28,39 )
 π (1 − π ) π (1 − π ) 
P
 − P − zα / 2 < −π < −P + zα / 2  = 1 −α
El resultado también se puede ilustrar como IC(µ )95% = 25,5 ± 2,8895. Se  n n 
concluye con una confiabilidad del 95% que el verdadero tiempo de espera está
 π (1 − π ) π (1 − π ) 
entre 22,61 y 28,39 minutos. Con esa confianza se afirma que la afirmación del P P − zα / 2 < π < P + zα / 2  = 1 −α
gerente no es cierta. Si la confiabilidad fuera del 99% y del 90% los intervalos  n n 
tomarían el siguiente valor respectivo:
El intervalo quedaría en función del parámetro desconocido π , pero al
IC ( µ) 99 % = (21,58 , 29 ,42 ) = 25 ,5 ± 3,92 reemplazar este por el estimador P, la aproximación normal del estadístico
base sigue siendo válida, luego:
IC ( µ) 90 % = ( 23 ,1 , 27 ,9) = 25 ,5 ± 2,4
 PQ PQ 
P P − zα / 2 < π < P + zα / 2  = 1 −α

Claramente se ve que si se quiere tener más confiabilidad de cobijar el n n
 
parámetro desconocido con el intervalo, este se amplía. Sobre el tamaño que
han de tomar los intervalos se puede concluir lo siguiente:
Si p̂ es una realización particular de P, entonces un intervalo de confianza al
a. Los intervalos de µ están centrados con respecto a la media muestral. 100(1-α )% de p viene dada por:
pˆ (1 − pˆ ) pˆ (1 − pˆ )
pˆ − zα / 2 < π < pˆ + zα / 2
b. Entre mayor confianza se requiera para que el intervalo contenga a µ , el n n
intervalo será más amplio.
Otras notaciones apropiadas para el intervalo son:
c. Entre más variable sea la muestra, el intervalo será más amplio.
 pˆ (1 − pˆ ) pˆ (1 − pˆ ) 
d. Si el tamaño de muestra es grande, más angostos serán los intervalos, IC ( p )100 (1−α)% = 
 p − zα / 2
ˆ , pˆ + zα / 2 

aunque ello no asegura consistentemente que los intervalos sean angostos,  n n 
pues si la población es muy variable la varianza será grande y por tanto
también los intervalos.
pˆ (1 − pˆ )
IC ( p )100 (1−α )% = pˆ ± zα / 2
n
INTERVALO DE CONFIANZA PARA LA PROPORCIÓN
POBLACIONAL Ejemplo: En una encuesta donde se preguntó a 400 personas sobre la
preferencia por un candidato, se encontró que el 28% votaría por él en
Sea P la proporción muestral de éxitos en una muestra aleatoria de n las siguientes elecciones. Un intervalo de confianza del 95% para
observaciones procedentes de una población con una proporción π de éxitos. estimar la proporción verdadera viene dado por:

4
 0, 28 (1 − 0, 28 ) 
0, 28 (1 − 0, 28 ) DOS POBLACIONES
IC ( p ) 95 % = 
0, 28 −1,96 , 0, 28 + 1,96 
 = ( 0, 236 , 0,324 ) = 0.28 ± 0.044
 400 400 
INTERVALO DE CONFIANZA PARA EL COCIENTE DE
VARIANZAS
Se concluye con una confiabilidad del 95% que la verdadera
proporción de personas que votará por el candidato en las próximas Dadas dos muestras aleatorias independientes provenientes de poblaciones
elecciones está entre el 23,6% y el 32,4%. normales, entonces sabiendo que:

P ( f ( nX −1 , nY −1 , 1−α / 2 ) < F ( n X −1; nY −1) < f ( nX −1 , nY −1 , α / 2 ) ) = 1 −α


INTERVALO DE CONFIANZA PARA LA VARIANZA
POBLACIONAL  S 2 / σ X2 
P f ( nX −1, nY −1,1−α / 2 ) < X2 < f ( nX −1 , nY −1, α / 2 )  = 1 − α
Sea S 2 la varianza muestral de una muestra aleatoria de n observaciones  SY / σ Y 2

procedentes de una población normal. Entonces un intervalo de confianza del
100(1-α )% para la varianza poblacional se deduce como: Despejando el cociente de varianzas poblacionales:

 ( n − 1) S 2   S X2 S Y2 σ2 S X2 S Y2 
P χ (2n −1,1−α / 2 ) < < χ (2n −1,α / 2 )  = 1 − α P < X2 <  = 1 −α
 σ 2
 f σY f ( nX −1, nY −1, 1−α / 2) 
 ( nX −1, nY −1, α / 2 ) 
 χ (2n −1,1−α / 2 ) 1 χ (2n −1,α / 2 )  s X2 sY2 S X2 S Y2
P < <  = 1 −α Si y son realizaciones particulares de y
 ( n − 1) S 2 σ 2 (n − 1) S 2  respectivamente, entonces un intervalo de confianza al 100(1-α )% para el
 
cociente de varianzas poblacionales es:
 (n − 1) S 2 (n − 1) S 2 
P 2 <σ2 < 2  = 1 −α  σ X2   s X2 sY2 s X2 sY2 
χ χ ( n −1,1−α / 2 )  IC   =  ; 
 ( n −1,α / 2 )  σ2   
 Y 100 (1−α )%  f ( nX −1, nY −1, α / 2 ) f ( nX −1, nY −1,1−α / 2) 
Si s2 es una realización particular de S2, entonces un intervalo de confianza
del 100(1-α )% para σ 2 es:
INTERVALO DE CONFIANZA PARA LA DIEFERNCIA DE MEDIAS
 ( n −1) s 2 ( n −1) s 2 
IC (σ )100 (1−α %)
2
= 2 ; 2 
χ 
 ( n −1,α / 2 ) χ( n −1,1−α / 2 ) 
MUESTRAS INDEPENDIENTES: Sean dos muestras aleatorias
independientes de tamaños nX y nY, procedentes de poblaciones normales
con medias µ X yµ Y y varianzas σ X2 y σY2 respectivamente.

a. Varianzas poblacionales conocidas: El intervalo se deduce sabiendo


que:

5
 σ2 σ2  S S S S
X − Y ≈ n µ X − µ Y ; X + Y  P X − Y − t ( nX + nY −2 , α / 2 ) + < µ X − µY < X − Y + t ( nX + nY −2, α / 2 ) +
n X nY   nX nY nX nY

P ( − zα / 2 < Z < zα / 2 ) = 1 − α Si x y y son observaciones particulares de X y Y respectivamente y


s es una observación particular de S, entonces un intervalo de confianza al
100(1-α )% para la diferencia de medias poblacionales es:
 
 
 X − Y − ( µ X − µY )  s s
P − zα / 2 < < zα / 2  = 1 −α IC ( µ X − µY ) 100 (1−α )% = ( x − y ) ± t ( nX +nY −2, α / 2 ) ⋅ +
 σ X σY
2 2
 nX nY
 + 
 n X nY 
Si no se puede suponer que las varianzas poblacionales sean iguales,
despejando la diferencia de medias poblacionales: entonces para la deducción del intervalo en cuestión se toma como base el
estadístico:
 σ X2 σ Y2 σ X2 σ Y2 
P  X − Y − zα / 2 + < µ X − µ Y < X − Y + zα / 2 + = 1−α X − Y − ( µ X − µY )
 n n n n 
 X Y X Y 
S X2 S Y2 ∼ t(v)
+
Si x y y son observaciones particulares de X y Y respectivamente, n X nY
entonces un intervalo de confianza al 100(1-α )% para la diferencia de
medias poblacionales es:
con v=
(s 2
X n X + sY2 nY )
2

IC ( µ X − µ Y ) 100 (1−α )% = ( x − y ) ± zα / 2
σ X2 σ Y2
+ (s 2
X n X ) (n X − 1) + ( sY2 nY ) (nY − 1)
2 2

nX nY
Si x y y son observaciones particulares de X y Y y s X2 y sY2
b. Varianzas poblacionales desconocidas: Si las varianzas no son
realizaciones particulares de S X2 y S Y2 respectivamente, entonces un
conocidas, entonces se suponen que las poblaciones tienen una varianza
común, la cual se estima por medio de una varianza muestral S2 donde: intervalo de confianza al 100(1-α )% para la diferencia de medias
poblacionales es:
(n X − 1) ⋅ S X2 + (nY − 1) ⋅ S Y2
S2 = s X2 s2
n X + nY − 2 IC ( µ X − µY ) 100 (1−α )% = ( x − y ) ± t ( v ,α / 2 ) + Y
  n X nY
 
 X −Y −( µX − µY ) 
P−t ( nX +nY −2, α / 2 ) < < t ( nX +nY −2, α / 2 )  =1 −α si las muestras son grandes el valor t(v, α /2) puede aproximarse por la normal
 S S 
 +  estándar, así:
 n X nY 

6
s X2 s2 6,685 6,685
IC ( µX − µY )100 (1−α)%
IC ( µ X − µ Y ) 100 (1−α )% = ( x − y ) ± zα / 2 + Y == (19 ,4 −18 ,9) ± 2,12
8
+
10
n X nY
= 0,475 ± 2,6
Ejemplo: = ( −2,125 ; 3,075 )

Se están ensayando dos procedimientos distintos de fabricación de El intervalo incluye el cero, lo cual sugiere que existe evidencia en
cables de acero. Dadas dos muestras, una para cada procedimiento, las muestras como para afirmar que las medias poblacionales sean
construir un intervalo de confianza al 95% para la diferencia de diferentes.
medias poblacionales. Asumir normalidad en los datos.
xi = {26, 17, 18, 19, 20, 16, 18, 21}
yi = {17, 21, 19, 18, 16, 21, 20, 22, 16, 19} MUESTRAS PAREADAS: Se cuenta con una muestra aleatoria de n pares
de observaciones (X1,Y1), (X2,Y2), ..., (Xn,Yn) procedentes de poblaciones con
x = 19,4 s X = 3,1 medias µ X y µ Y respectivamente. Si las diferencias de cada par di= Xi -Yi se
distribuyen normalmente, entonces, un intervalo de confianza al 100(1- α )
y = 18,9 sY = 2,1 % para la diferencia de medias poblacionales viene dado por:

Primero se prueba si es razonable creer si las varianzas sd


poblacionales son o no iguales: IC ( µ X − µY ) 100 (1−α )% = d ± t ( n −1,α / 2 )
n

 σ X2   s X2 sY2 s X2 sY2   3,12 2,12Ejemplo 10: Se2 tomaron las diferencias del crecimiento de la carga
3,12 2en 
,1 toneladas
IC  2  =  ; = transportada
;  = (0,519
de 17;10
empresas
,5 ) de carga que se habían
   4,197 fusionado
 σY 95%  f ( nX −1 , nY −1 , 0, 025 ) f ( nX −1 , nY −1 ,1− 0, 025 )   0 , 207
con otras que no se fusionaron. Las diferencias se tomaron
en empresas con locaciones y tamaños similares, la media y
desviación típica fueron d =0,105 y sd = 0,44. Un intervalo de
Como el intervalo incluye el uno, se dice que las diferencias en las
varianzas no son significativas y asumir como iguales las varianzas confianza del 95% para µ X - µ Y es:
poblacionales. Por tanto:
0,44
IC ( µ X − µY ) 100 (1−α)% = 0,015 ± 2,12 = 0,015 ± 0,226 = ( −0,121 ;
s 2
s 2 17
IC ( µX − µY ) 100 (1−α)% = ( x − y ) ± t ( n x +nY −2 ; 0 , 025 ) +
nX nY
Como el intervalo incluye el cero, se concluye que los datos no
contradicen seriamente la conclusión de que no existe diferencia
Pero significativa en las medias de crecimiento de la carga entre
(n X − 1) ⋅ S + ( nY − 1) ⋅ S Y2 (8 − 1) ⋅ 3,12 + (10 − 1) ⋅ 2,12
2 empresas fusionadas y no fusionadas.
s2 = X
= = 6,685
n X + nY − 2 8 + 10 − 2
INTERVALO DE CONFIANZA PARA LA DIEFERNCIA DE
PROPORCIONES

Se cuenta con dos muestras aleatorias grandes, independientes, provenientes


de poblaciones con parámetros desconocidos pX y pY y con proporciones
7
muestrales PX y PY. Dado que la diferencia de proporciones tiene para estimar una proporción se calcula poniendo una condición sobre la
distribución normal estándar, entonces se puede deducir que un intervalo de magnitud que determina la longitud del intervalo de confianza:
confianza al 100(1-α )% para la diferencia de proporciones poblacionales
viene dado por: pˆ ⋅ qˆ
L = zα / 2
n
pˆ X ⋅ qˆ X pˆ Y ⋅ qˆ Y
IC ( π X − π Y ) 100 (1−α )% = ( pˆ X − pˆ Y ) ± zα / 2 +
nX nY zα2 / 2 ⋅ pˆ ⋅ qˆ
despejando n=
L2
Ejemplo: De una muestra aleatoria de 100 personas de la región A, el
29% afirma que votará por el candidato conservador y en una muestra ˆ ⋅ qˆ es máximo cuando p
ˆ = 0,5 así n será máximo si:
el valor p
aleatoria independiente de 200 personas de la región B el 15%. Un
intervalo de confianza al 95% para la diferencia de proporciones es:
zα2 / 2 ⋅ 0,25
0,29 (0,71 ) 0,15 (0,85 )
n=
IC ( p X − pY )100 (1−α)% = (0,29 − 0,15 ) ±1,96 + L2
100 200
= 0,14 ± 0,102 Ejemplo: Para averiguar por la preferencia de votación de un
= (0,038 ; 0,242 ) candidato, se desea que la distancia del intervalo sea del 3% con una
confianza del 95%.
Como la diferencia no cobija el cero entonces se dice con una
confianza del 95% que la preferencia entre electores de la región A 1,96 2 (0,25 )
n= = 1.067 ,1 ≈ 1.068
y B es significativamente diferente. 0,03 2

La confianza para obtener un error del 3% en la estimación del


TAMAÑO DE MUESTRA PARA ESTIMAR UNA PROPORCIÓN parámetro es del 95%. Se afirma que n es suficiente para que la
estimación p̂ esté alejada de la verdadera proporción poblacional
El tamaño de muestra de una investigación se determina eligiendo el p en 0,03 con una probabilidad del 95%. Abreviadamente se afirma
máximo tamaño de muestra necesario para estimar cada uno de los en los medios que la proporción tendrá un margen de error del 3%.
parámetros de incertidumbre del estudio. El tamaño de muestra necesario