Professional Documents
Culture Documents
.
.
.
.......
..
3.1.
43.2.
4 3.3.
3.4.
3.5.
3.6.
Introduccin ......................................................
Mtodo de los momentos ........................................
3.2.1. Propiedades de los estimadores obtenido por el mtodo de los momentos ......................................
Mtodo de la mxima verosimilitud ............................
3.3.1. Propiedades de los estimadores de mxima verosimilit ud ................ .
.......................................
Mtodo de la mnima 2 2 ..........................................
Estimadores lineales insesgados .................................
3.5.1. Mtodo de la mnima vananza ..........................
Mtodo de los mnimos cuadrados ...............................
~$OCAPITULO
DE
.................................................................
4.
CON-
FIANZA
4.1.
4.2.
4.3.
Introduccin ......................................................
Mtodos de construccin de intervalos de confianza ..........
4.2.1. Mtodo pivotal ...........................................
4.2.2. Mtodo general de Neyman .............................
Intervalos de confianza en poblaciones normales ..............
4.3.1. Intervalo de confianza para la media de una poblacin
normal ....................................................
4.4.
4.5.
4.6.
4.7.
4.3.2. Intervalo de confianza para la varianza de una poblacin normal.. . . . .. .... .. . .. .. .. . .... . . .. . . . .. .. .. . .. .. . .. .
4.3.3. Intervalo de confianza para la diferencia de medias en
poblaciones normales: muestras independientes.. .. . .. .
4.3.4. Intervalo de confianza para la diferencia de medias en
poblaciones normales: muestras apareadas.. . ... .. .. . ..
4.3.5. Intervalo de confianza para el cociente de varianzas en
poblaciones normales ...... ..............................
Intervalos de confianza en poblaciones no necesariamente normales. . . .. . . ... .. . .. . .. .. . . . . . . . . . .. ... .. . .. . . .. .. . . . .. .. . . ... .. . .
4.4.1. Aplicacin de la desigualdad de Chebychev para la obtencin de intervalos de confianza ..................... .
4.4.2. Intervalos de confianza para muestras grandes.. .. . . . .
4.4.2.1. Intervalos de confianza para muestras grandes a partir de un estimador de mxima vero. ..
similitud.. . . .. .. .. .. .. .. .. .. .. .. .. . . .. .. .. .. . . .. .
4.4.2.2. Intervalo de confianza para muestras grandes
aplicando el Teorema Central del Lmite.. . . .
Intervalo de confianza de una proporcin.. .. . . ... .. .. . .. .. . . . .
4.5.1. Intervalo de confianza de una proporcin para muestras pequeas.'.. . .. . . . . .. . .. .. ... . . .. . . . .. .... . . . . . . .. ... .
4.5.2. Intervalo de confianza de una proporcin para muestras grandes. ........... ..... ..............................
Intervalo de confianza para la diferencia de proporciones.. . .
Estimacin del tamao muestra1 .......... ..... ... ............ ..
4.7.1. Tamao de muestra para estimar la media ~r de una
poblacin normal con u conocida.. . . . .. ..... . . . .. .. . .. .
4.7.2. Tamao de muestra para estimar la media ~r de una
poblacin normal con u desconocida.. . . . .. .. ... .. .. . ..
4.7.3. Tamao de muestra para estimar la proporcin p de
una poblacin.. . .. . .. .. ... . . . . . ... .. .. . . . . . ... .. . .. .. . ..
Regiones de confianza.. .. ... .. .. .. . . . . . . . . . ... .. .. . .. .. ... .. ... . .
4.8.1. Regin de confianza para la media y varianza de una
poblacin normal.. . .. .. .. . .. . . .. .. . . . .. .. . .. .. . .. . .. .. . ..
Cuadro resumen de intervalos de confianza.. . .. . .. .. . .. . . . ... .
4.8.
4.9.
. .: CAP~TULO5.
CONTRASTE DE H I P ~ T E S I S ..
. . .. .. . .. ..
. .. . . . .. . .
. .. . .. . . . . . . . .. . .. .. . . . .. ... . . .. . . .. .. . .
... .. .. . . . .. .. ... . . .. .. . . . . . . . . . . . .. ... .. .. . ..
de aceptacin.. . .. ... .. .. . .. . . . .. . .. ... .
<
(9
3
472
474
479
482
488
S
.
547
630
631
640
10.1.
10.2.
10.3.
10.4.
683
~NDTCE
C A P ~ T U L O11. D E C T S I ~ N
BAJO INCERTIDUMBRE .............
11.1. Introduccin .....................................................
11.2. El problema de decisin bajo incertidumbre ..................
11.3. Criterios de decisin bajo incertidumbre ......................
11.3.1. Criterio mximax .... : .................................
11.3.2. Criterio mximin o de Wald ..........................
11.3.3. Criterio mnimax .......................................
11.3.4. Criterio de Hurwitz ....................................
11.3.5. Criterio de Laplace o de equiprobabilidad ...........
11.3.6. Criterio de Savage .....................................
11.4. Eleccin de un criterio de decisin bajo incertidumbre .......
15
723
723
723
725
726
727
728
729
733
734
736
Captulo 1
MUESTREO Y DISTRIBUCIONES
EN EL MUESTREO
_-__
cial que los dife-ncie de los restantes, representando, por tanto, a toda la
inferir o extender
pblaci6n. Las co~clusionessacadas de la muestra se
a-Ia
total. As por ejemplo, supongamos que deseamos conocer el
precio medio o valor medio de las viviendas en una zona de Madrid en el ao
1994. Para conocer la caracterstica precio de la vivienda en esa zona, necesitaramos saber el precio de venta de cada una de las viviendas vendidas durante ese perodo de tiempo y el precio por el cual cada propietario vendera la
suya. Esta lista completa de viviendas con sus precios, constituye la poblacin
en la que estamos interesados, cuya caracterstica, precio medio de la vivienda
en esta y e n otrasmuchassituao mediaqoblaciongl, deseamos..conocer.~~ero,
cknes prcticas no ser posible 0 no ser fa$, por diversas razones el obtener
la poblacin ente& en la cual_estamos inte-sados. Sin embargo, si podemos
obtener la informacin necesaria, precio de la vivienda, para una muestra representativa de la poblacin y a p a r t i r de la cual inferir y obtener conclusiones
para toda la poblacin total.
La muestra debe de ser representativa de toda la poblacin y, por tanto,
tendr caractersticas similares a las que se observaran en la poblacin entera,
de tal manera que si observando los precios de las viviendas que han sido
incluidas en la muestra resulta que el precio medio de las viviendas de la
muestra, media-muestra1 i ,ha ~ s u l t a d oser 8.970.540 ptas. podremos inferir
que la mepiaeeblac;i6a'r;pFecio medio de la vivienda entoda la poblacin o
zona que estamos considerando e s e n torno a-8.970.540 ptas:
La razn principal para investigar una muestra en lugar de la poblacin
para toda la poblacin d a r a completa es q u e l a recogida de la. -inforniacidn
~
.
lugar
a
un
coste
muy
elevado
tanto
en
recursos
ecodmicos como en tiempo.
.. I n ~ l u s o ~ ~ c i e rcasbsen
t .o s~. que los.recursos
fueran
suficientes para investigar la
~.
p-iblacin completa,guede ser preferib1e:linveStigar s61o una muestra muy
represent&a, concentrando sobre ella un mayor esfuerzo para obtener medidas ms precisas
de~.
las caractersticas que nos interesen. De esta forma se
. .~
p d e evitar lo que algunas veces ocurre en las grandes operaciones censales,
por ejemplo, en el censo decena1 de poblacin de los Estados Unidos, en donde
se investig toda la poblacin, se observ que ciertas caractersticas y grupos
poblacionales estaban muy poco representados, lo cual era debido a la problemtica que lleva consigo una gran operacin censal, tanto por el volumen de
cuestionarios como por la cantidad de informacin.
~
~~
Cuando se selecciona una muestra de una poblacin, un objetivo fundamental es el poder hacer inferencias sobre caractersticas poblacionales u obtener conclusiones que sean vlidas para toda la poblacin. Por tanto, es muy
importante que la muestra sea representativa de la poblacin; as pues la calidad de la inferencia o conclusin obtenida a partir de la muestra, sobre las
21
S -
1
reemplazamiento contina siendo -, ya que el nmero de elementos de la
N
poblacin sigue siendo N, pero en el muestreo sin reemplazamiento el tamao
de la poblacin es N - 1, pues el primer elemento seleccionado no se devuelve
a la poblacin y entonces la probabilidad de seleccionar un elemento concreto
1
lidad de seleccionar uno a uno los n elementos de la muestra permanece constante y en el muestreo sin reemplazamiento no sucede lo mismo ya qe en cada
extraccin no se devuelve el elemento a la poblacin y esta va disminuyendo a
medida que se selecciona la muestra, siendo los tamaos poblacionales N,
N - l , N 2 ,..., N - ( n - 1 ) .
Luego, la probabilidad de seleccionar una muestra concreta de n elementos
ser:
n.'
l."
2.a
extraccin extraccin ... extraccin
1
N
1
N
1
N
... .
1
N
1
N-1
23
Cada observacin X icorrespondiente a la repeticin i-sima del experimento es una variable aleatoria cpy~dhtribucin
...,
de-probabilidad es idntica a
i = 1, 2, ..., n.
la-de la pobki* de
la
caracterstica
X,
para
todo
..
..~
. .
Si la poblacin consta de un nmero
finito de elementos,
por ejemplo,
.-- _.~.
.
personas, viviendas, establecimientos comerciales, etc., y realizamos un muestreo aleatorio con reemplazamiento, es decir, se selecciona aleatoriamente un
elemento de la poblacin, se observa la caracterstica medible que estamos
investigando y esta observacin sera la X ,.Se devuelve el elemento a la poblacin, despuks se selecciona un segundo elemento y observando la caracterstica
medible tendnamos la observacin X,. Reiterando el proceso n veces tendramos las n observaciones:
~
' Se puede demostrar que aunque la seleccin de las observaciones muestrales se hace sin
reemplazamiento, la funcin de probabilidad no condicionada de las observaciones X,, es idgntica
a la funcin de probabilidad de la poblacin, para i = 1, 2, ..., n.
observaciones
.
no son independientes como ocurra en el caso del muestre0
aleatorio con 6 e m p l a z a m i e n ~ , , j k %tanto,
r
no constituyen una muestra alea-- . . ~ .
tona simple.
En-consecuencia, .apartir de ,&ora_nos vamos. a.referir ~ p o b l a c i ~ ~ s &
t a ~ ~ i n f i n i t o o ~ u y _ . g r a n dde
e st,a l mane- que no haremos distincin ni '
referencjaalguna a que el muestreo sea con.reemplazamiento o sin reemplazamiento pues la diferencia existente entre ambos ser irrelevante para nuestro
.estudio. No obstante hemos de tener en cuenta que si el tamao N de la poblaci6n es finito y realizamos un muestreo con reemplazamiento entonces le daremos el mismo tratamiento que si la poblacin fuese de tamao infinito, pues
como hemos visto tambin dan lugar a un conjunto de variables aleatorias
independientes e idnticamente distribuidas, es decir, a muestras aleatorias simples..Unamues~aaleatoria simple de tamao n de una...poblacin Xest constituida por un conjunto de n-variabres a l e i t o r i a s l ~_.Xn
~ , ~ independientes e idnX,
,es
decir
est constituida
un
ticamente
distribuid&a
l
a
poblacin
,.
conjunio~.observacionesmuestrales independientes e idnticamente distribuidas.
Cuando el experimento se realiza, a cada una de las variables aleatorias se
le a s n a r un valor numkrico. Es decir, tendremos la realizacin de la muestra
Columna
Fila
1
2
3
4
5
6
7
8
9
10
10
2034
8849
8915
6989
5093
7940
9808
5667
0644
4153
5600
5451
2894
0682
8880
3305
7499
7590
2848
0293
2400
8504
5638
0085
3466
1183
9925
8599
7347
0882
7583
3811
4436
5906
0212
8918
0695
5032
7161
9755
1104
0132
9692
8542
9475
4397
4721
3042
6813
5109
8422
8635
8061
6884
4957
3167
7597
3666
8276
1484
9868
1732
4665
5719
8474
7342
0922
1160
8175
4798
7768
4345
9252
5081
8580
7780
4715
3413
6534
8039
2512
9047
6729
8779
9572
6745
6821
2050
6107
3593
9575
0199
9605
9071
6770
4688
2259
1796
8350
6369
25
TABLA1.1. (Continuacin)
Columna
Fila
1
10
Estos nmeros entran a formar parte de la muestra aleatoria simple. Observemos que es un muestre0 sin reemplazamiento.
En este caso estamos suponiendo que N es como mximo 9999 pues los nmeros aleatorios aparecen agrupados en bloques de cuatro dgitos, pero se podan haber agrupado en bloques de cinco dgitos como ocurre en la Tabla A.12
de nmeros aleatorios, que aparece en el anexo A de tablas.
Ejemplo 1.1
Edad
Alumno
Edad
Alumno
Edad
Alumno
Edad
27
TABLA1.2. (Continuacin)
Alumno
Edad
Alumno
Edad
Alumno
Edad
Alumno
Edad
Muestra aleatoria
Valores observados
de las variables aleatorias
x,,
...y
Xz
--
'e/,''#
-,i,
':-'S/.
Como en este ejemplo estamos interesados en la edad del estudiante, consideramos la variable aleatoria
X: edad del estudiante seleccionado
Anlogamente se podra hacer para las variables aleatorias estatura, peso,
etctera.
La distribucin de probabilidades de la variable aleatoria X, edad del estudiante, viene dada en la Tabla 1.3, en donde se dan los diferentes valores de la
variable X y sus probabilidades.
TABLA1.3. Distribucidn de probabilidades de la variable aleatoria X , edad del estudiante, correspondiente a la poblaci6n de 100 estudiantes.
Probabilidades P ( X = x )
29
19
20
21
22
0,46
0.41
0,ll
0,02
8x..
..., x,) =
F<xi>
Cl.11
i=1
'
i = 1 , 2 ,..., r
En la mayora de los modelos probabilsticos nos encontraremos parmetros cuyos valores tendremos que fijar para especificar completamente el modelo y poder calcular las probabilidades deseadas5. De manera ms concreta podemos decir que uno de los problamas centrales en estadstica se nos
presenta cuando deseamos estudiar una poblacin con funcin de distribucin
F(x,O), donde la forma
----.d& f u n c i n . ~ ~ ~ d i s t ~ ~ u c i n , . e s ~ c o , n ~depende
cida,pero
d w a r m e t r o 6' desconocid?<
.,
ya que si 0 fuese conocido tendramos totalmente es<eciT;c'acadaTa funcin de distribucin. Si el parmetro 6' no se conoce
entonces se selecciona una muestra aleatoria simple (X,, ..., X,) de tamaiio n de
la poblacin, y se calcula para las observaciones de la muestra el valor de
alguna funcin g(x,, ..., x,), que representa o estima el parmetro desconocido
O. El problema es determinar qu funcin ser la mejor para estimar el parmetro O, lo cual ser resuelto en el captulo dedicado a la estimacin.
A continuaci6n exponemos el concepto de estadstico que es fundamental
para estimar los parmetros poblacionales, pues los estimaremos mediante estadsticos definidos a partir de las observaciones de una muestra aleatoria.
(X,
X)2
+ ... + (X"
En la Estadistica clsica un parmetro se puede considerar como una constante fija cuyo
valor se desconoce.
es decir, como una funcin g de las observaciones muestrales, que a su vez ser&
tambikn una variable aleatoria, pues para cada muestra el estadstico T tomar
un valor diferente, as pues para una muestra concreta (x,, ..., xJ el estadstico
tomar el valor:
T = g(x,,
..., x,,)
y a medida que vamos tomando muestras diferentes se obtienen distintos valores del estadstico, resultando que efectivamente el estadstico T es tambin
una variable aleatoria y por consiguiente tendr su correspondiente distribucin, a la que llamaremos distribucin muestra1 del estadstico, como veremos
-. .
. . -. -.
_ _.
posteriormente.
~
,~
~-
Vemos pues que un parmetro y un estadstico son conceptos muy diferentes, pues el parmetro es una constante y cuando se conoce determina completamente el modelo probabilstico, sin embargo el estadstico es una variable
aleatoria cuyo valor depender de las observaciones muestrales.
En diferentes ocasiones se han estudiado medidas numkricas correspondientes a conjuntos de datos, as pues estudiamos, entre otras, la media y
la desviacin tpica. Ahora vamos a distinguir
entre medidas numkricas calcu..
ladas
- -- con conjuntos d e ~ t o p o b l a c i o n a l e sy las calculadas con datos mues;
trales. ~ & m e s-si
,..Ia~iiEdida
numrica_se calcula para el conjunto de datos
.
.
&blacionales .. le
. .namaremos .valor. del parmetro poblacional y si se calcul-.a para
-. -ei ..conjunto ,de datos muestrales, le llamaremos valor del estadstico.
muestra-
.-
S Seguiremos como norma general el utilizar letras maysculas para indicar las variables aleatorias, para los estadsticos, estimadores y para representar una muestra aleatotia general, y utilizaremos letras minsculas para los valores concretos que puedan tomar las variables aleatorias, las
estimaciones y la realizacin de una muestra o muestra concreta.
33
1
1
I
En una poblacin finita de tamano N los parmetros poblacionales
media, varianza y proporcin poblacional vienen dados por7:
X
p = -N
=
C1.61
Para una muestra aleatoria simple de tamao n, ( X , , ..., X,) los estadsticos media, varianza y proporcin muestral se definen como:
~1.91
~*
'
En efecto para ver la equivalencia de la expresin r1.81 con la [1.10], consideramos el numerador de la C1.81 y tendremos:
Si en lugar de considerar las n variables aleatorias, independientes e idnticamente distribuidas (X,,..., X,), que constituyen la muestra aleatoria simple,
consideramos una muestra concreta (x,,..., x,) entonces los valores de estos
estadsticos muestrales son:
Luego vemos que efectivamente el estadstico es una funcin de las observaciones muestrales, y en estos casos asigna a cada muestra observada la media de los valores, la vananza o la proporcin, respectivamente8.
35
Ejemplo 1.2
Dada una muestra aleatoria formada por las observaciones muestrales
(3,8, 5, 4, 5). Obtener la funcin de distribucin emprica y su correspondiente
representacin grfica.
Solucin:
N@)
<3, o
63, 1
3
4
5
8
~ 4 2,
<5, 4
<8,
0,o
02
0,4
0,s
1,o
I(
lfm P[
"-U
sup
I F.(x) - F(X)1 3 6 1 = o
- L < l < + s ~
37
rrc
~~~
~.
-__
_-
__,
Ejemplo 1.3
Tiendas
Valores de X
viene
!
39
Muestras
x;
Estadstico media
muestra1 x
.
X
2.
Funcin de probabilidad
P ( i )=P(X =i )
Ejemplo 1.4
X: nmero de dias que ha faltado al trabajo un empleado elegido aleatoriamente de la plantilla total.
41
La variable aleatoria X, puede tomar los valores 1, 2 6 3, y como la seleccin se hace de manera aleatoria, todos los trabajadores tendrn la misma
probabilidad de ser seleccionados, luego la distribucin de probabilidad de la
variable aleatoria X viene dada en la Tabla 1.9, y ser la distribucin de probabilidad de la poblacin.
r,
:~
TARLA
1.9. Distribucidn de prohabilidad de la variable aleatoria X .
Valores de la variable aleatoria X
Ii ~
Probabilidades P ( X = x ) = P(x)
l
l
11
A partir de esta distribucin de probabilidad tenemos que la media ser:
y la varianza
a2 = Var (X)= E[(X - p
)']
1 (xi- p)'.
P(X = xi)
= (1 -
1,6)'(0,5)
+ ( 2 - 1,6)'(0,4) + (3 - 1,6)'(0,1)
= 0,44
X,:variable aleatoria correspondiente al nmero de das que falta el primer trabajador seleccionado.
X , : variable aleatoria correspondiente al nlmero de das que falta el segundo trabajador seleccionado.
Ambas variables aleatorias X , y X, tienen la misma distribucin de probabilidad que la de la variable aleatoria X,correspondiente a la poblacin.
l
l
I
Pero como nos interesa obtener la distribucin de probabilidad de estadstico media muestral:
I
l
I
TABLA1.10.
Muestras de
tamao dos
(x,.
~3
S'
43
P(X = 1) = P(Xl = 1, X ,
=
P(X,
1)
1).P(X,
1)
= (0,5)(0,5)= 0,25
P(X,
=
=
1, X,
1, X ,
=
=
2) 6 (X,
2) + P(X,
= P(X, = 1).P(X, = 2)
2, X,
2, X,
l)]
1)
= (0,5)(0,4)+ (0,4)(0,5)
= 0.20
+ 0,20 = 0,40
Probabilidades
P(% =i )=~ ( i )
0.25
f la
2.
--
1
[(1 - 1,5)2+ (2- 1,5)2]= 0,5
2-1
0.0
OS
2,o
Probabilidades
P(S2= s2)=P(s2)
0,42
0,48
0,lO
45
1(0,25)
= 1,60
a?
= Var ( y ) = E[@
X
=
c (Xi
1,60)2.P(X
= Xi)
5. Teniendo en cuenta la distribucin de probabilidad del estadstico media muestral %, Tabla 1.11, se tiene:
6. Teniendo en cuenta la distribucin de probabilidad del estadstico vananza muestral, S', dada en la Tabla 1.12, y procediendo de manera anloga a
como lo hemos hecho para el estadstico media muestral, tendremos
(S;
E[S2])']
0,44)P(S2 = S?)
Con este ejemplo, se pone de manifiesto que incluso para muestras de tamao pequeo y estadsticos con pocos valores posibles se hace pesado el
obtener la distribucin de probabilidad de los estadsticos muestrales. Para
evitar esto en los siguientes apartados daremos algunos resultados que simplifican estos problemas.
[ f= lE r a ,
Var (x)
2 '
47
TABLA1.13. Media y varianza poblacional y de los estadisticos media y uariunzu muestral del ejemplo 1.4, para n = 2.
Estadstico
media muestra1
Estadstico
varianza muestra1
E [ X ] = 1,6
px = E [ X ] = 1,6
p,, = E [ S 2 ] = 0,44
Var ( X ) = 0,44
a$ = Var
Poblacional
Media
p =
Varianza
<i2=
(2)= 0,22
Estos resultados no slo se verifican para este ejemplo sino que se verifican
en general, como veremos en los siguientes teoremas.
Teorema 1.1
Si ( X , , ..., X , ) es una muestra aleatoria simple de tamao n procedente de una poblacin, descrita por la variable aleatoria X , con media
E [ X ] = p y varianza Var ( X ) = a2,entonces la esperanza de la media muestral es igual a la media de la poblacin,-3; y la Varianza.de la
media muestral.es.igua1 a la varianza poblacional, n2, dividida por n, es
decir,
- .
_,,
Demostracin.
Var (X,)
Luego si tenemos en cuenta las propiedades de los valores esperados, resulta que la media o esperanza matemtica del estadstico media muestral
ser:
1
n2
= - (Var (X,)
~~
2 se lejlama errar
__a
2 =-
C1.171
49'
resulta que cuanto mayor sea el tamao muestral n menor ser la ~ a r ( X )es
,
decir, menor ser la dispersin de x en torno a la media poblacional p, y el
valor observado del estadstico 2 estar ms prximo a p, lo cual nos permite
decir que el estadstico media muestral puede ser considerado como un buen
estimador de la media poblacional p.
En el Grfico 1.4 se indica la distribucin muestral del estadstico media
muestral, 2,para muestras de tamao n = 25 y n = 110 procedentes de una
poblacin normal N(100, 6), en donde se observa que cada distribucin muestral est centrada sobre la media poblacional, pero cuando el tamao muestral
aumenta la distribucin muestral del estadstico media muestral est ms concentrada en torno a la media de la poblacin. En consecuencia el error estndar de la media muestral es una funcin decreciente del tamao n de la muestra, y la probabilidad de que la media muestral difiera de la media poblacional
en una cantidad fija, disminuye cuando el tamao de la muestra crece.
Luego, si el tamao de la muestra aumenta, la precisin de la media muestral para estimar la media de la poblacin tambin aumenta. Por ejemplo, si se
toma una muestra aleatoria de tamao n = 16, entonces:
error estndar de la media muestral
= -- -
~ 1 6 - 4
J6
un momento que aunque el tamao de la muestra siga aumentando la precisin prcticamente no aumenta. En efecto, supongamos una poblacin con
o = 12 y calculamos la desviacin estndar del estadstico 2 para diferentes
valores de n, obteniendose la Tabla 1.14.
TABLA1.14. Difrrentes tialores de la desviacidn estndar de
n = 5 . 10, 20, 30, ...
cuando u = 12 para
Valores de n
70
10
20
30
40
50
60
80
90
100
Desviacibn esindar - 5,38 3,79 2,68 2,19 1,89 1,69 1,55 1.43 1,34 1,26 1,20
Jn
Observando los valores de la Tabla 1.14 y su correspondiente representacin grfica, Grfico 1.5, se observa que la desviacin estndar de % disminuye sustancialmente a medida que n aumenta, pero cuando n pasa de 40 esta
disminucin se reduce hasta tal extremo que cuando n sigue creciendo y toma
prcticmente no
valores superiores a 80 6 90 la desviacin estndar de
disminuye. En consecuencia, podemos decir que si utilizamos el estadstico
media muestra1 2 para tener conocimiento o hacer inferencias sobre el parmetro media poblacional p no es conveniente tomar muestras de tamao
demasiado grande pues el aumento del coste no compensa con la escasa
disminucin de la precisin.
51
N-n
Al trmino -se le suele llamar factor de correccin de poblacin finita.
N-1
Teorema 1.2
Si (X,, ..., X,) es una muestra aleatoria simple de tamao n, procedente de una poblacin, descrita por la variable aleatoria X, con varianza, Var(X) = a', entonces la esperanza de la varianza muestral SZ
es igual a la varianza poblacional u2 y la varianza de la varianza muestral es funcin del momento central de orden cuatro, es decirlo:
'O
(S') =
304
-
3-n
+o4
n(n 1)
-
=(3nn4
n(n
1)
2.9
11
i1
E[S2]
E[-
1
-
"
1i=i
(X, - p)'
n
n-1
(Y - p)']
--
II
53
l
N
11
La segunda parte no la demostraremos, pues aunque no presenta dificultad los desarrollos son algo pesados".
1.7. DISTRIBUCIONES DE ESTAD~STICOSMUESTRALES
D E POBLACIONES NORMALES
"
I l
54
CASAS-SANCHEZ,
J. M.
Teorema 1.3
Sea (X,, ..., X , ) una muestra aleatoria simple de tamaiio n, procedente de una poblacin N ( p , a). Entonces la distribucin del estadstico
media muestral tendr una distribucin normal, es decir:
Demostraci6n12:
gx(t) = E [ e t X ] = e
10 +-tic=
y como las variables X i son independientes y todas tienen la misma distribucin N ( b a), entonces la funci6n generatriz de momentos del estadstico media muestral ser:
'' Ver CASAS y SANTOS (1995). Introduccin a la Esfadstica para Ecunomri y Adminislrocin
de Empresa, cap. 12. La demostracin es una consecuencia inmediata de la propiedad 1 de la
1
55
que es la funcin generatriz de momentos de una variable aleatoria distribuida segn una N
Luego, teniendo en cuenta la unicidad de la funcin generatriz de momento, resulta que:
siempre que el tamao muestral sea grande, n > 30. Este resultado es una
consecuencia
Teorema
Central del LmiteI3.
.-.---.--.p... inmediata del
. . ...~
.
~
" En el Teorema Central del Lmite no importa la distrihucin que siguen las variables aleatorias, pero si era necesario que las variables X,, ..., X., fuesen identicamente distribuidas, con media
y varianza finibas.
1.
2. Distribucin muestral de
para
para
n=5
3. Distribucin muestral de
n = 15
GRFICO
1.6.
57
Teorema 1.4
..., X,) una muestra aleatoria simple de tamao n, procedente de una poblacioin N(P, u). Entonces las variables aleatorias
Ejemplo 1.5
El nmero de libros encuadernados diariamente por una mquina automtica sigue una variable aleatoria cuya distribucin no se conoce, con una
desviacin tpica de 16 libros por da. Si se selecciona una muestra aleatoria
de 49 das, determinar la probabilidad de que el nmero medio de libros
encuadernados durante esos das (la media muestral) se encuentre a lo sumo
a 3 libros de la verdadera media poblacional.
. ,).
A?.
Solucin:
: '-4Ci.
Y
Ejemplo 1.6
Reftnindonos al ejemplo 1.5. Determinar el tamaiio de la muestra para
que la media muestra1 se encuentre a lo sumo a 3 libros de la media poblacional con una probabilidad del 0,95.
Soluci6n:
pues
59
0,187
1,96
Hasta ahora estbamos admitiendo que se conoce la varianza de la poblacin de la que se extrae la muestra, pero esta no ser la situacin general, sino
que la mayorz de las veces no conocemos la varianza de la poblacin,entona i e a t otamao
. r j n, podemos,
ces i 6 ~ ~ ~ 0 n i ~ d ~ I ~ Z m ~ e s t r a .simple~de
calcular la varianza muestral SZy-utilizarla en lugar de la vananza poblacional
a2
desconocida,- pues
es,-como-~remos despus, un..buen.esti,madarded
.
. -SZ
-Al hacer esta sustitucin si el tamao de la muestra, n es grande, es decir,
n 2 30 la distribucin del estadstico:
- .d.---
%-
S/&
sigue siendo.aproximadamente una N(0, 1).
-
" El estadlstico W. S. Gosset trabajaba en una empresa cervecera Idandesa, la cual prohiba
que sus empleados difundieran los resultados de sus investigaciones, y para eludir esta prohibicin
61 publicaba sus trabajos bajo el seudnimo de Student, y de aqu el nombre de la distribucin
t-Student.
60
CASAS-SANCHEZ,
J. M.
Teorema 1.5
,,
Si (X ..., X,) es una muestra aleatoria simple, de tamao n, procedente de una poblacin N(p, u) con u desconocida, entonces el estadstico
-
'
T= - + t-Student con n
si&
- 1 grados
de libertad
Demostraci6n:
Sabemos que
.f se tiene:
1,
61
(n -
a2
( n - l)S2
"-2
me-
2 y S2 son independientes.
2. El estadstico
X2
con n
1 grados de libertad.
3. El estadstico
-p
---
t,- 1
S/&
Sigue una distribucin t-Student con n - 1 grados de libertad.
+
62
CASAS-sh~cHEz.
J. M.
Demostracin:
rr
F y X i- 2 son independientes, y en consecuencia tambitn son independientes 2 y 1 ( X i - 2)' y por tanto 2 y S2 son independientes1'.
i=1
' V o m o la muestra es aleatoria simple las observaciones son independientes, y tanto Xicomo
1 X,son normales, luego bastara tener presente la funcin generatriz de momentos de la distribu-
;*,
...
cin normal.
"
"
1 (Xi n 1 <=,
-
63
(n - l ) S Z
a2
sigue una
x:-,,
[ ( X , - r ) 2- 2 ( X , - p)(X
p)
+ (2- p)']
i=1
"
=
( X ; - p)2
n(X
p)2
i=l
y de aqu se tiene:
partimos
o bien:
C1.241
i=1
SU
propiedad re-
pues tenemos una suma de variables aleatorias N(0, 1) independientes y elevadas al cuadrado.
Anlogamente:
(x)2
son
indeaendientes, teniendo en cuenta la propiedad reproductiva de la distribucin x', resulta que como:
r ( y ,
:)
(n - 1 ) s
ser la correspondienu2
.C":"]
( n - 1)
(n - 1)s'
IR
Yo
diente a la variable aleatoria x : , .
n(X-""
(n
1)s'
o2
es la correspon-
De aqu, tenemos:
65
',;)es:
de donde deducimos:
Veamos qu significado tiene el trmino grados de libertad. Para ello consideramos el estadstico vananza muestra S2:
1
" (Xi - X)"
S2 = -n - 1 i=i
"
X),po-
a-m=o
i=1
se deduce que
67
Solucin:
1 ) tenemos:
=P
( x : ~< 24kJ
Luego
p(s2
l
1
< 0,5770')
0,05
Es decir, existe una probabilidad del 0,05 de que la varianza muestral sea
inferior o igual al 57,7 % de la varianza poblacional.
Analogamente calculamos el valor k2 de manera que:
= P(xt4
> 24k2)
o bien
0,95 = P(xi4 < 24k2)
d,
69
Teorema 1.7
Sean ( X , , ..., X,) e (Y,, ..., Y,) dos muestras aleatorias simples e independientes de tamaiios n, y n,, procedentes de las poblaciones N(px, u,) y
N(p,, u,) respectivamente. Entonces la distribucin muestral de la diferencia de medias Y - Y,tendr'" una distribucin normal cpn media y
desviacin tpica:
es decir
De donde el estadstico
Demostracin:
l9 Si las distribuciones no son normales y los tamaflos muestrales n, y n, son grandes, mayores
o iguales que 33 enonces por el Teorema Central del Lmite la aproximacin normal para la
distribucin de X - Y es muy b e n a . Sin embargo si n, y n, son pequeos entonces la forma de la
distribucin muestral de X - Y depender de la naturaleza de la poblacin muestreada.
70
CASAS-SANCHEZ, J. M.
Y ser&
o bien, si
CT*
u:
p,, entonces'
71
Ejemplo 1.8
Analizando los salarios de los trabajadores de dos Comunidades Autnomas se deduce que en la Comunidad A el salario medio es de 129.000 ptas. con
una varianza de 2.500 ptas.', y en la Comunidad B el salario medio es de
128.621 ptas. con una varianza de 3.000 ptas.2. Si tomamos una muestra aleatoria de 36 personas en la Comunidad A y de 49 personas en la Comunidad B,
determinar la probabilidad de que la muestra procedente de la Comunidad A
tenga un salario medio que sea al menos 400 ptas. superior al salario medio de
la Comunidad B.
Solucin:
Observamos que no hemos dicho que las poblaciones, de partida son normales, pues no es necesario ya que como los tamaaos muestrales n, = 36 y
n, = 49, son mayores o iguales que 30, la aproximacin a la distribucin normal dada por la expresin [1.26] es muy buena, sin necesidad de que las
poblaciones de partida sean normales.
LUinformacin que tenemos es:
Poblacin A: p,
Poblacin B: p,
=
=
129.000, a
: = 2.500
128.621, a
: = 3.000
n, = 36
n, = 49
Este resultado nos dice que la probabilidad, de que la media de una muestra aleatoria de 36 salanos de la Comunidad A exceda en 400 o ms pesetas a
la media de una muestra aleatoria de 49 salarios de la Comunidad B, es 0,0336.
1.7.5. DISTRIBUCTN D E LA DIFERENCIA DE MEDIAS
MUESTRALES CUANDO N O SE CONOCE LA VARIANZA
POBLACIONAL
En general, en situaciones reales las varianzas poblacionales no suelen ser
conocidas. As pues, ahora queremos obtener la distribucin de la diferencia de
medias muestrales X - Y cuando el muestro se realiza sobre dos poblaciones
normales, independientes y con varianzas desconocidas.
Es decir, consideramos dos poblaciones normales e independientes,
N(px, a,) y N(&, a,) y seleccionamos una muestra aleatona simple de tamao
n, de la primera poblacin y otra muestra aleatona simple de tamaiio n,,
independiente de la anterior, y procedente de la segunda poblacin, entonces
pueden presentarse dos situaciones:
a) a, = o,
h) a, # a,
73
X2
con n,
X2
1y
resulta
+ n,
- 2 grados de libertad.
En este caso encontrar una distribucin de la diferencia de medias poblacionales que nos pueda ser til despuks para la obtencin de un intervalo de
confianza, no es fcil, y se le conoce con el nombre de problema de BehrensFisher. Bajo condiciones especiales se puede encontrar alguna distribucin,
pero el obtener una solucin general no es sencillo, nosotros proporcionaremos algunas aproximaciones.
Si las varianzas poblacionales son distintas y desconocidas utiljzamos las
varianzas muestrales S: y S: como estimadores de u: y u:.
Cuando los tamaos muestrales son grandes, es decir, n, 2 30 y n, 2 30,
entonces el estadstico
75
a) p, y py conocidas.
b) p, y p, desconocidas.
a) Las medias poblacionales son conocidus
Al ser conocidas las medias poblacionales 11, y py las podemos utilizar para
el clculo de las varianzas muestrales S I y S; y como las muestras son independientes y ademis proceden de distintas poblaciones, entonces los estadsticos:
Al ser desconocidas las medias poblacionales, que ser lo que casi siempre
ocurra, y ser las muestras independientes y adems procedentes de distintas
poblaciones, entonces los estadsticos:
xi-%
nl
(n,
1)s: = 1 ( X i - 2)' *
i=1
ny
(n, -
1)s; = C
i= 1
(Yj - Y)'
(n, - 1)S2
3
0
,
'
i=1
i= 1
u.
que ser el valor que toma la funcin de distribucin de una F-Snedecor con
n,
1 y n,
a=
5
v.
0
,
b,
y py desconocida
desconocida y p, conocida
77
,y
que tomar diferentes valores para cada una de las posibles muestras, as pues
para una muestra concreta (x,,..., x,) el valor del estadstico proporcin muestral ser:
'O Lo cual nos permite decir, cmo veremos en el capitulo siguiente que el estadstico proporcin muestral P es un estimado insesgado de la proporcin poblacional.
[1.36]
GRAFTCO
1.9. Representacidn grfica de las funciones de densidad del estadstico proporcidn mueslral para muestras de tamao n = 81 y n = 361, de una poblucidn cuya proporcin poblacional es p
= 0.6.
79
Ejemplo 1.9
= 0,3 y
de la expreX
sin C1.341 resulta que el estadstico proporcin muestral P = - sigue una
n
X
1." Si notamos por ?j = - el estadstico proporcin muestral, desearemos
encontrar:
Ejemplo 1.10
Examinados los incrementos salariales de los altos ejecutivos de un amplio
grupo de empresas se observa que se distribuyen segn una distribucin normal de media 12,l % y de desviacin tpica 3,5 "/o. Se toma una muestra aleaton a de 16 observaciones de la poblacin de incrementos salariales. Determinar
la probabilidad de que la media muestral sea igual o inferior al 10 %.
Solucin:
Sabemos que:
la media poblacional p = 12.1
la desviacin tpica poblacional u = 3,5
tamao n = 16
81
es decir,
Captulo 2
ESTIMACI~NPUNTUAL
Sabemos que una poblacin puede ser caracterizada por los valores de
algunos parmetros poblacionales, por ello es lgico que en muchos problemas
estadsticos se centre la atencin sobre esos parmetros poblacionales. Por
ejemplo, supongamos la poblacin de tubos fluorescentes, en donde la caracterstica que estamos investigando es el tiempo de duracin del tubo y nos
interesa conocer la duracin media, es decir el parmetro poblacional p. El
valor de este parmetro poblacional p poda ser calculado utilizando cada
tubo fluorescente de la poblacin, anotando su tiempo de duracin y calculando la media de todos los tiempos de duracin de todos los tubos de la poblacin. Pero, evidentemente, no sera posible calcular el valor de p de esta forma,
pues el proceso de observar el tiempo de duracin de cada tubo de la poblacin es destructivo, y no quedaran tubos fluorescentes para la venta. Un mtodo alternativo sera, seleccionar una muestra de tubos fluorescentes, observar
el tiempo de duracin de cada uno y calcular su media, la cual sera la estimacin o valor aproximado de p. En este caso el estadstico media muestral %,
funcin de las observaciones muestrales, o variables aleatonas de la muestra
X,, X,, ..., X,, es el utilizado para la estimacin del parmetro poblacional p.
Como despus veremos, el estadstico media muestral es el mejor estadstico
para estimar la media poblacional p.
Vemos pues que en muchos casos no ser posible determinar el valor de un
parmetro poblacional analizando todos los valores poblacionales, pues el
proceso a seguir para determinar el valor del parmetro puede ser destructivo,
como en el ejemplo anterior, o nos puede costar mucho tiempo o mucho dine-
85
E S T I M A C I ~ NPUNTUAL
Poblacin
F(x; 0)
m M ~ e ~ t ~ e o ~ T l ' i
Espacio muestra1 R,
(X1,x2. ..., Xn)
Parmetro
GRAFICO
2.1. Esquema de inferencia estadstica sobre el parmetro B.
Por ejemplo, supongamos que estamos interesados en el parmetro varianza poblacional o'. El estadstico muestral que utilizaremos para obtener la
inferencia sobre 02 es la varianza muestral S', es decir
en donde las observaciones ( x , , x,, ..., x,) corresponden a los valores de una
muestra aleatoria determinada por las variables muestrales X,, X,, ..., X,.
Un esquema grfico aparece en el grfico 2.2, en donde el parmetro poblacional se nota por 0 2 .
Poblacin
Muestreo
F(x; irZ)
Espacio muestra1 R,
( X , , XZ, ..., X")
Estimador
GRAFICO 2.2. Esquema de inferencia estadstica sohrr el parmetro varianza poblacional a
'
.
Cualquier inferencia o conclusin obtenida de la poblacin, necesariamente, estar basada en un estadstico muestral, es decir, en la informacin
proporcionada por la muestra2. La eleccin del estadstico apropiado depender de cul sea el parmetro poblacional que nos interese. El valor verdadero
del parmetro ser desconocido y un objetivo sera estimar su valor, por lo que
tal estadstico se denomina estimador.
Las inferencias sobre el valor de un parmetro poblacional O se pueden
obtener bsicamente de dos maneras: a partir de estimacin o bien a partir de
la contrastacin de hiptesis.
En la estimacin, basta seleccionar un estadstico muestral cuyo valor se
utilizar como estimador del valor del parmetro poblacional.
En la contrastacin de hiptesis, se hace una hiptesis sobre el valor del
parmetro 8 y se utiliza la informacin proporcionada por la muestra para
decidir si la hiptesis se acepta o no. Por ejemplo, supongamos que estamos
interesados en el parmetro proporcin poblacional, es decir la proporcin de
personas que no piensan votar en las prximas Elecciones Generales. Hacemos
una hiptesis previa que podra ser: que el valor de la proporcin poblacional
p ser 0,40 o mayor, p > 0,40. Se toma una muestra aleatoria de votantes de la
poblacin total, y la proporcin muestral fi de aquellos electores que no piensan votar se utilizan para decidir si la hiptesis formulada era razonable o no.
Ambos mtodos de inferencia estadstica utilizan las mismas relaciones tericas entre resultados muestrales y valores poblacionales. As pues, una muestra es sacada de la poblacin y un estadstico muestral es utilizado para hacer
inferencias sobre el parmetro poblacional. En estimacin, la informacin
muestral es utilizada para estimar el valor del parmetro 8. En el contraste de
hiptesis, primero se formula la hiptesis sobre el valor de 8 y la informacin
muestral se utiliza para decidir si la hiptesis formulada debera ser o no rechazada.
Pero cuando se utiliza la inferencia para estimar un parmetro poblacional
debemos decir cmo de buena es esa inferencia, osea debemos de dar una
medida de su bondad. Para ello ser necesario conocer la diferencia existente
entre la estimacin del parmetro poblacional, calculada a partir de una muestra especfica de tamao n, y el valor verdadero del parmetro poblacional. En
el contraste de hiptesis la bondad de la inferencia se mide por la probabilidad
de que la decisin de rechazar o no rechazar el valor dado en la hiptesis sobre
parmetro poblacional sea correcta.
En este captulo nos ocuparemos de la estimacin estadstica y ms concretamente de la estimacin puntual y dejaremos para captulos posteriores la
estimacin por intervalos y la contrastacin de hiptesis.
' Formalmente definimos un estadistico como una funcin de las observaciones muestrales.
87
E S T I M A C I ~ NPUNTUAL
Muestreo
Estimacin puntual
I
GRAFICO 2.3. Esquema de estimacidn puntual del parmetro 0 compuesta por las n uariables aleatorias X,.X,,..., X,.
El estimador del parametro poblacional O es una funcin de las variables
aleatorias u observaciones muestrales y se representa por
Q = g(x1, x,,
..., x,)
Vemos pues que existe diferencia entre estimador y estimacin. Utilizaremos el termino estimador cuando nos referimos a la funcin de las variables
aleatorias muestrales X , , X,, ..., X,, y los valores que toma la funcin estimador para las diferentes realizaciones o muestras concretas sern las estimaciones. El estimador es un estadstico y, por tanto, una variable aleatoria y el
valor de esta variable aleatoria para una muestra concreta ( x , , x,, ...,x,) ser la
estimacin puntual.
Diferentes realizaciones
de una muestra
de tamaiio n
Distribucin m_uestralde
e
Parmetro poblacional
GRAFTCO
2.4. Representacin grfica de la distribuci<in muestral del estimador
8.
Para seleccionar el estadstico que utilizaremos como estimador del parmetro poblacional tendremos en cuenta las propiedades de la distribucin
muestral del estadstico. Generalmente nosotros trataremos de obtener un estimador cuyos valores para diferentes realizaciones de una muestra, esten concentrados alrededor del verdadero valor del parmetro O. As, por ejemplo,
supongamos que consideramos dos estadsticos muestrales, O, y O,, cuyas distribuciones muestrales aparecen en el grfico 2.5, como estimadores del parmetro O.
89
E S T I M A C I ~ NPUNTUAL
Espacio muestral R.
(Xl,..., X")
Distribuci6n muestral de
8,
f ( x ; B,)
~ [ i=,0]
&
E[$,]
GRAFICO
2.5. Distrihucirin muestra1 de los estadsticos
8, y g2.
Evidentemente seleccionaremos el estadstico 6, como estimador del parmetro 9, pues los valores del estadstico 8, para las diferentes realizaciones
pues el esestn ms prximas al parmetro 9, que los del estadstico
tadstico 6,, presenta menor varianza que el estadstico 8, como se observa
en el grfico 2.5.
4,
90
CASAS-SNCHEZ,
TABLA2.1.
J. M.
Parmetro
poblacional
Estimador
Media p
C xt
; =- x = e L
Varianza a2
1 "
gz = sz = __
(X;- X)=
Proporci6n p
X
= Px =
-li=,
Nmero de xitos
de pruebas
= Nmero
X=-
s2=-
Xi
i=l
1 "
1(xi - X)I
n-liGI
x
i=px=
Ejemplo 2.1
Las ventas de una muestra aleatoria de diez grandes establecimientos comerciales de Espaa, el da 5 de enero de 1996, fueron respectivamente: 16, 10,
8, 12, 4, 6, 5, 4, 10, 5 millones de pesetas, respectivamente. Obtener estimaciones puntuales de la venta media, de la varianza de las ventas de todos los
establecimientos comerciales y de la proporcin de estos cuyas ventas fueron
superiores a 5 millones de pesetas.
Solucin:
Las expresiones de las tres estimaciones puntuales que nos piden, aparecen
cn la ltima columna de la Tabla 2.1. As pues la estimacin puntual de la
media poblacional es la media muestral i,dada por:
E S T I M A C I ~ NPUNTUAL
91
Para la eleccin de estos estimadores puntuales nos hemos basado, principalmente en la intuicin y en la posible analoga de los parmetros poblacionales
con sus correspondientes valores muestrales, pero ste no ser el mtodo ms
adecuado para la obtencin de estimadores puntuales, aunque en este caso se
obtienen estimadores satisfactorios para los parmetros poblacionales. En general, el problema de obtener estimadores puntuales no ser tan sencillo, por
ello tendremos que dar propiedades que seran deseables que se cumplieran
por los diferentes estimadores puntuales obtenidos. Pero no existe un mecanismo o metodo nico que nos permita obtener el mejor estimador puntual en
todas las circunstancias.
Nuestro objetivo ahora ser doble:
En primer lugar, daremos algn criterio y propiedades deseables de los
estimadores puntuales, con el fin de poder conocer la bondad de los mismos,
pues cuantas mas propiedades verifiquen los estimadores puntuales mejores
sern.
En segundo lugar, daremos varios metodos de obtencin de estimadores
puntuales.
que como sabemos es un estadstico y, por tanto, una variable aleatoria que
tendr su correspondiente distribucin muestral, su media y su varianza. Pero
nos interesa encontrar un estadstico g ( X , , ..., X,) que nos proporcione el mejor estimador del parmetro desconocido O, para lo cual tendremos que utilizar
alguna medida que nos permita dar algn criterio para seleccionar el mejor
estimador. Esta medida ser el error cuadrtico medio del estimador.
92
CASAS-SANCHEZ,
J. M.
6.
Definimos el error cuadrtico medio del estimador 8, que lo notaremos por ECM (8),como el valor esperado del cuadrado de la diferencia
entre el estimador 8 y el parmetro O, es decir
E[$'
288
+ 8'1
E[$]
2 B ~ [ 8+
] 02 = (sumando y restando
E[8']
( ~ ~ 6 1+) '(E[$])'
= Var
(~~81)')
2 8 ~ [ 8 ] 8'
C2.21
93
E S T I M A C I ~ NPUNTUAL
Resulta, por tanto, que la utilizacin del error cuadrtico medio para la
eleccin de un buen estimador es insuficiente, siendo necesario dar otros cnterios, de tal manera que la eleccin de un buen estimador puntual depender de
otras propiedades que satisfaga ese estimador.
Ejemplo 2.2
Sea X , , X,, X , una muestra aleatoria simple de tamaiio 3, cuyos valores
son siempre positivos y procedentes de una poblacin con media p y varianza
az = 25. Consideramos como posibles estimadores de p los estadsticos
fi
=-
( X , + 2X2 + X,)
1
2-5
+ 2X, + X,)
fi,
--(X,
luego
Sesgo ( f i , ) = E[fi,]
(X,
-p =p -p =O
+ 2X2 + X,)
Var(;,)
+ (sesgo (i,))2
i,:
luego
(X,
1
+ 2X2 + X,)
- - (Var (X,)
25
+ 4 Var (X,)
1+
Var (X,))
Var(b,)
+ (sesgo(C,))'
E S T I M A C I ~ NPUNTUAL
95
luego si
y el estimador
fi,
fi,,
pero si
resultando que el estimador {, ser mejor que el estimador fi,. Este resultado
confirma lo indicado anteriormente, siendo por ello necesario dar otros criterios o propiedades adicionales para la seleccin de un buen estimador puntual. As pues estudiaremos la insesgadez, eficiencia, consistencia y suficiencia
que darn lugar a los estimadores puntuales: insesgados, eficientes, consistentes y suficientes.
2.3.1. ESTIMADOR INSESGADO
Hemos definido el sesgo del estimador
Sesgo (8)= ~
6 como:
[ 8-] 6
C2.41
Definicin 2.2.
Estimador insesgado.
..
E[$]
O + b(6) = O
+ sesgo (O)
P.61
O = sesgo($)
El sesgo del estimador, sesgo (O), puede ser positivo, negativo e incluso
nulo, as pues si es positivo entonces se dice que el estimador sobreestima el
valor del parmetro desconocido y si es negativo lo infraestima, siendo por
tanto, deseable que sea nulo para que sea insesgado.
El grfico 2.6 muestra la representacin grfica de las distribuciones muestrales de dos estimadores del parmetro, uno sesgado 6, y otro insesgado G2.
Parilmetro poblacional
GRAFICO
2.6. Representacrn grdfiifira de las funciones dp densidab f(x:
dos estimadores, uno sesgado 8, y otro insesyado O,.
Algunos estimadores para parmetros poblacionales se obtienen intuitivamente por analoga. Por ejemplo, parece 16gico utilizar el estadstico media
97
ESTIMACIN PUNTUAL
2,como
muestral
poblacional p y la vananza muestral, S', como estimador de la vananza poblacional .'u La misma intuicin nos vale para seleccionar un estimador puntual
de la diferencia de dos parmetros poblacionales. Asf pues, el estimador puntual de la diferencia de los parmetros medias poblacionales px - p,, ser la
diferencia de medias muestrales 2,- 2, y anlogamente el estimador de la
diferencia entre proporciones poblacionales ( p , - p,) ser la diferencia entre
las proporciones muestrales ( P , - P,).
Estos cinco estadsticos o estimadores 2,6,S', 2 - 2 y 6, - 6, son funciones de las observaciones muestrales X , , X , , ...,X,, cuyos respectivos valores
esperados y varianzas aparecen en la Tabla 2.2.
TABLA
2.2. Algunos parmetros poblacionales, sus estimadores puntuales insesgados. media y i>arianzaJ.
Parmetro
poblacional
Estimador
puntual insesgado
X{
~ =
n
Media I<
Varianza402
,y =
Proporcin p
P=Px=;
Diferencia de
medias px py
p x p y =- x -x
Diferencia de
proporcin
Px - PY
Valor
esperado de
D
(,yI- X)z
lj=l
=-
Varianza de
a2
P4
3-n
-+-a4
n
n(n - 1 )
P4
n
X
Px-&y=--nx
Px
PY
-o;+ - a:
"x
"Y
Y
"Y
Los cinco estimadores puntuales que aparecen en la Tabla 2.2 son insesgados, pues teniendo en cuenta lo estudiado en el captulo anterior, se comprueba fcilmente que:
Ejemplo 2.3
Dado el estadstico
aunque algunos autores le llaman a esta expresin cuasivarianza muestra1 y la representan por S:.
Estos autores cuando el denominador es n entonces utilizan el trmino varidnza muestral.
99
ESTIMACIN PUNTUAL
"
1
[(X; - p)Z + (2- p)2 - 2(X; - p)(Y - p)]
n
1
=-
i=1
=![i
[ f (xi
[f
=
( ~ ~ - ~ ~ ~ + ~ ( ~ (- x, r pp )~ - - ~ )
i=i
i=1
i = ~
P)2
(Xi - ,).
n i=1
1 "
=(Xi - p)2
n i=l
=
+n
( -~
+ a(% - ,y
-
2 ( -~p ) ( n l - np)
2n(2 - ,'i2
(2- p)2
La varianza muestral:
n-l
a2
n-1
n
=--
= a2
Ejemplo 2.4
Sea una poblacin formada por los elementos (1, 2, 3). Obtener E [ S 2 ] y E [ a .
Total
18
(x,
i)I
+ (x,
6,OO
- i)=
= 2,
S2
"
C ( X ~ - ~ ) S=,,@
~
=2 - 1i=i
6,OO
5,66
E S T I M A C I ~ NPUNTUAL
101
=-
3'
resultando que:
E[S]
= 0,6288 f
0,8164 = u
~ [ 6=] ~ [ n e +, (1 - A)&]
=
no + ( I - n)e = s
= A E [ ~ , ] (1 - L)E[&]
~2.71
0 y ECM
[e] =
<~
a(8)r
103
E S T I M A C I ~ NPUNTUAL
Sea ( X , , X , , ..., X , ) una muestra aleatoria simple de tamafio n, obtenida de una poblacin cuya funcin de densidad o de cuanta es . f ( x ; O).
Designamos la funcin de densidad conjunta de la muestra7 por:
L(x,, ..., x,; O) = d F,(x,, ..., x,; B)
verificndose que
= f,(x,,
lRn
bfix,,
y sea
8 = g ( X , , X , , ..., X J
o bien, si las variables aleatorias son independientes e idnticamente distribuidas con funcin de densidad o de cuanta j'(x; O), entonces:
o incluso
..., x.;
O) = dF,(x,,
Existen otras condiciones de regularidad como, por ejemplo, las dadas por Cramer o por Fisz
pero son mis complicadas.
e) Se verifica que
alndF,(x,, x,, ..., x,; O)
).]>
ao
O, para
eD
Admitimos que el estimador O(x,, ..., x,) es insesgado, y por tanto, se verifica:
,,
-1(8
O)d F" = O
derivando respecto de B:
a
0=gk(8^-o)dFn=(pord)=
J.
[(8-O)drn]=
Al decir para casi todo x. queremos decir para todo x excepto para un conjunto cuya probabilidad sea nula.
'" Se pueden intercambiar la operacin de derivacin respecto de 0 y la integracin (o suma en
el caso discreto) respecto de x.
105
ESTIMACT~N
PUNTUAL
de donde se tiene:
de donde
v a r (6) >
1
alndF,(x,, x,,
ao
..., x,;
1'
9)
"
106
CASAS-SANCHEZ, J. M.
.[j1;(
.f(xi;
O))'] +
E[;j
"
Sabemos que
J,
dF.
O))] =
1, derivando respecto de O:
l.
J f ( x ; 0)
-
ao
dx ..f(x; 0 ) d x =
107
E S T I M A C I ~ NPUNTUAL
d lnf(x; 8)
;=i
Si el estimador
ECO] = O + b(8)
en donde b(8)es el sesgo del estimador, entonces la cota de Frechet-CramerRao tiene la forma:
v a r (8)2
[l + b'(8)lZ
( x , x , . x,,; O)]'
r2.121
ae
siendo
En el supuesto de haber considerado una poblacin de tipo discreto, bastara sustituir la funcin de densidad por la correspondiente funcin de
cuanta, obteniendo resultados anlogos.
La cota o desigualdad de Frechet-Cramer-Rao nos da un lmite inferior para
la varianza del estimador 8, pero esto no implica que la varianza de un estimador UMVUE tenga que ser igual al lmite inferior de la varianza dado por la
cota de F-C-R. Es decir, se puede obtener un estimador insesgado 8 que tenga su
varianza ms pequea que la de todos los dems estimadores insesgados de O,
pero mayor que el lmite inferior dado por la cota de F-C-R. Un estimador que
verifique lo anterior seguir siendo un estimador UMVUE del parmetro O.
ESTIMACINPUNTUAL
GRAFICo
109
Luego, para que un estimador sea el ms eficiente ser necesario que sea
insesgado y que tenga menor varianza que cualquierotro estimador insesgado,
as pues, del grfico 2.7 se deduce que el estimador O, es el ms eficiente de los
tres, pues es insesgado y tiene menor varianza que el estimador fl,.
Anteriormente ya indicbamos la importancia que tena la varianza de un
estimador y aqu se pone de manifiesto otra vez que la varianza de un estimador insesgado es una medida muy importante para decidir sobre si es o no
apto para estimar un parmetro O.
Definicin 2.4. Estimador eficiente.
o bien
" Pues esta cota se obtiene cuando el estimador es insesgado, y posible nos da el valor mnimo
de la varianza.
(4
a2
A
-var(8,)
Var(O,)
eff. (8,)
eff. (O,)
C2.161
"
111
ESTIMACIN PUNTUAL
v a r (6,)
=l
i
->
Var(01)
Ejemplo 2.5
Sea (X,, ..., X,) una muestra aleatoria simple procedente de una poblacin
N(p, u). Utilizando la media muestral 2 y la mediana muestral X , como
estimadores de la media poblacional p. Estudiar su eficiencia relativa.
Solucin:
Sabemos que los estadsticos media muestral y mediana muestral son estimadores insesgados de la media poblacional, pues la poblacin de partida es
normal y, por tanto, simtrica, coincidiendo la media, la mediana y la moda".
Se demuestra que la mediana muestral X , tiende a distribuirse segn una distribucin norn a2
mal de media p y varianza - -, es decir, X ,
N
2 n
112
casas-~ANCHEZ,
J. M.
La eficiencia relativa del estimador mediana muestral X, al estimador media muestral 2 ser:
e& relativa (X,,
var(2)
2)= Var(X,)
a2/n - 1
-1,57a2/n 1,57
de donde
Var (X,)
1,57 v a r ( 2 ) = 1,57
oZ
-
113
ESTIMACI~NPUNTUAL
2)
m
f ( xu;ex,)
r a de la mediana
Proposicin 2.2
Dada una poblacin N ( p , a) se verifica que la media muestral
estimador eficiente de la media poblacional p.
2 es un
Demostracin:
Sabemos que la funci6n de densidad de una distribucin N ( h a), de parmetro p, desconocido, es:
En efecto:
(z)=
u2
Se pide:
1. Comprobar que los estimadores
8, y 0,
son o no insesgados.
115
ESTIMACT~N
PUNTUAL
Solucin:
1.
E[$] = O
En este ejemplo, se conoce que:
, i=l,2,3
E[X,]=p
Luego
(Xl
Para el estimador
+ X, + X3)
8, se tiene:
+ X, + X , )
1
9
1
4
1
+ -91 Var (X,) + Var (X,)
16
= - (Var (X,)
= - Var (X,)
coincide exactamente con la media muestral 2,y segn hemos visto el estadstico media muestra], 2,en una poblacin N(p, o)es un estimador eficiente
de Ia media poblacional p.
Luego el estimador
Teorema 2.1
Si un estimador
si se verifica:
ESTIMACI~NPUNTUAL
117
Teorema 2.2
Si 8 es un estimador eficiente, entonces se verica que
1
Var (O) = A(O)
Demostracin:
1
A'(o)E[~ - O]'
1
AZ(0)Var (O)
A
Luego
1
Var (O) = A(O)
C2.171
"'m
" No obstante debemos tener en cuenta que la cota tambien depende del tamano muestral. lo
cual puede ocasionar algn problema en algn caso aislado (como podran ser el caso de los
estimadores sper-eficientes).
1 , VO
[2.18]
n-m
E S T I M A C I ~ NPUNTUAL
119
Esta consistencia que hemos definido es una consistencia simple o consistencia en probabilidad ya que se basa en la convergencia en probabilidad, por eso
tambien se suele decir que una sucesin de estimadores {On}es consistente si
converge en probabilidad hacia el valor del parmetro O, a medida que el
tamaiio de la muestra aumenta. Lo cual implica que la distribucin del estimador consistente estar ms concentrada entorno al valor del parmetro O y,
por tanto, la varianza del estimador consistente debe disminuir cuando n
aumenta, tendiendo a cero cuando n + m. Situacin que representamos en el
grfico 2.10.
C2.191
E[(fin -
C2.201
que tender a cero si ambos sumandos tienden a cero, pues ambos sumandos
son no negativos.
Luego para ver si un estimador es consistente en media cuadrtica bastar
con demostrar que la varianza y el sesgo del estimador tienden a cero cuando
n+co.
Teorema 2.3
Si un estimador es consistente en media cuadrtica tambin es consistente en probabilidad, pero no necesariamente se verifica al revs.
Demostracin:
entonces
IR
E S T I M A C I ~ NPUNTUAL
121
Diremos que una sucesin de estimadores {O,) es consistente casi seguro para 6' cuando se verifica:
'9 Tambidn podiamos haber dicho que la demostracin es inmediata ya que como sabemos la
convergencia en media cuadrtica implica la convergencia en probabilidad.
Tipificando tenemos:
2 0 ~
Var ( S 2 )= -0
- 1 "-m
Luego como el sesgo y la varianza del estimador, S2, tiende a cero cuando
n -r m, resulta que el estimador S2 es un estimador consistente de la varianza
poblacional .'u
'
1
123
E S T I M A C I ~ NPUNTUAL
Definicin 2.10.
lm P(I&- O1
<E)
= 1,
V%
"+m
8 es
consistente para
"-m
2.3.5. SUFICIENCIA
Hasta ahora, y como indicbamos al final del apartado 2.2, la eleccin de
los estimadores la hacemos basndonos en la intuicin y en la analoga de los
parmetros poblacionales con sus correspondientes valores muestrales. Tambikn, en algunas ocasiones nos interesa que el estimador tenga alguna propiedad concreta, por ejemplo, que sea insesgado, o que cumpla cualquier otra
propiedad. Pero como el estimador era simplemente un estadstico y por tanto
funcin de las observaciones muestrales, resulta que utilizamos las observaciones muestrales para obtener los estimadores de los parmetros poblacionales,
de tal manera que se resume la informacin que proporciona la muestra sobre
los padmetros poblacionales en los valores (o estimaciones) que toman sus
estimadores, pudiendo producirse una posible pkrdida de la informacin que
contiene la muestra cuado se sustituyen las observaciones individuales por el
valor del estadstico. As pues, supongamos que queremos estimar los parmetros media, p, y varianza, a', poblacional con la ayuda de una muestra aleatoria, utilizando para ello los estimadores insesgados media muestral, f,y varianza muestral, S'. Las estimaciones correspondientes, de los parmetros
poblacionales sern los valores que toman los estimadores % y SZ para las n
observaciones de la muestra aleatoria, resultando que la informacin de las n
observaciones muestrales se resume o se reduce a los dos valores de los estimadores % y S'. En consecuencia, nos surge la pregunta: en este proceso de
resumen o reduccin de la informacin (pues pasamos a tener slo los valores
de % y S'), que nos proporcionan las n-observaciones muestrales sobre los
parmetros poblacionales p y o, se mantiene o se ha perdido informacin
respecto a los parmetros p y o?
En este apartado daremos algunos mtodos para obtener estadsticos o
estimadores tales que utilicen toda la informacin contenida en la muestra con
respecto al parmetro poblacional a estimar. Tales estadsticos o estimadores
los llamaremos suficientes, pues contienen toda la informacin relevante contenida en la muestra con respecto al parmetro que nos interesaz0.
2.3.5.1.
Estimador suficiente
T=
1 Xi
i=1
en donde
Xi =
T=
i= 1
'O Sabemos que el estimador es una funcin de las observaciones muestrales y, por tanto, sera
un estadstico, de aqul que algunos autores utilizan de manera indiferente los t6rminos estimador y
estadfstico.
125
E S T I M A C I ~ NPUNTUAL
x,, ..., X ,
x,/T
px'
-
..., X , = x , , T = t )
P(X, =x,,
P(T = t )
=
x,,
..., X ,
pt.(l - p)"-'.P(T =
-
t)=
t/X,
= x ,,..., X , =
x,)
..., X ,
= x,)
x,)
''
Ejemplo 2.8
Sea una muestra aleatoria ( X , , X , , X , ) procedente de una distribucin
B(1, p), y sean los estadsticos:
TI = X ,
+X, +X,
T,
+ 2X, + X ,
X,
2.
Solucidn:
El estadstico
T,
X,
+X, +X,
es suficiente, pues es un caso particular del ejemplo anterior, as pues, sustituyendo en la expresin C2.231 tenemos:
1
( x , , x,, x,)
P(Xl
= x,,
X,
x,, X ,
x,/T,
2) =
E S T I M A C I ~ NPUNTUAL
127
TI= X 1 + X, + X,
toma los valores O, 1,2, 3 sin prdida de ninguna informacin sobre el parmetro p. Sin embargo, el estadstico
T2= X l + 2X2 + X 3
toma los valores O, 1, 2, 3, 4 perdiendo informacin sobre el parmetro p.
Esta definicin de estadstico suficiente nos permite comprobar si efectivamente el estadstico o estimador T es o no suficiente pero no nos dice cmo se
puede encontrar un estadstico o estimador suficiente.
Un mtodo que, adems de decirnos si un estadstico es o no suficiente, nos
permite tambin obtener un estadstico suficiente, es el teorema de factorizacin de Fisher-Neyman.
2.3.5.2. Teorema de Factorizacin de Fisher-Neyman
Sea (X,,
..., X,)una muestra aleatoria simple de una poblacin con
funcin de distribucin F(x;6) y sea la funcin de cuanta de la muestra:
en donde g(T,O) es una funcin que depende solamente de O y de la muestra a travs del estadstico T(X,,..., X,), y h(x,, ..., x,,) no depende de 6.
Demostracin:
..., X ,
t)
h ( x l , ..., x,) = P ( X 1 = x , ,
..., X ,
t)
x,, ..., X ,
x,)
= g(T(x,,
Veamos ahora la situacin inversa, es decir, si se verifica el criterio de factorizacin entonces el estadstico T ser suficiente. En efecto:
P,(X, = x,, ..., X ,
P,(X,
= x,/T(xl,
..., x,)
t)
t)=
, si T ( x , , ..., x,)= t
129
E S T I M A C I ~ NPUNTUAL
1O
P,(X,
si
x,,
P&"(x,,
=
t)
T(x,,
..., x,)
#t
, si T ( x l , ..., x n ) = t
Evidentemente si
T ( x l , ..., x n )
+t
x,, ..., X ,
Luego
P,(X, = x ,,..., X , = x,,/T(x,,..., x , ) = t ) =
-
T(X,.
Sea una muestra aleatoria ( X , , ..., X.) de una distribucin B(1; p). Comprobar utilizando el teorema de factonzacin que el estadstico T =
1 Xi es
i= 1
130
CASAS-~ANCHEZ,J. M.
Solucin:
1
= Xl,
= P"'(l -
..., X ,
x,)
Haciendo
Por tanto, el nmero de xitos es un estadstico suficiente para el parrnetro p (probabilidad de xito en una distribucin binomial).
Ejemplo 2.10
Sea (X,, ..., X,) una muestra aleatoria procedente de una distribucin
ESTIMACTON PUNTUAL
131
Solucibn:
T(xl,
..., x,) =
xi
i=l
entonces se tiene:
Lo cual indica que pueden existir varios estadsticos suficientes para un mismo
parmetro.
Otro resultado interesante que se ha puesto de manifiesto en el ejemplo
anterior, lo recogemos en el siguiente Teorema, que es una consecuencia inmediata del teorema de factorizacin de Fisher-Neyman.
Teorema 2.4
ESTIMACI~NPUNTUAL
133
Teorema 2.5
Si los estadsticos T , y T2 son suficientes para el parmetro 0 entonces
T , y T2 estn relacionados funcionalmente.
1
II
11
Teorema 2.6
Los estadsticos T , = T , ( X , , ..., X,) y T2 = T 2 ( X l ,...,X,) son conjnntamente suficientes para los parmetros O,, y 0 , si y solamente si la funcin
de probabilidad o la funcin de densidad de la muestra se puede descomponer factorialmente de la siguiente forma:
Ejemplo 2.11
Sea una muestra aleatoria (X,,
..., X,) de una poblacin N(p, a). Obtener
dos estadsticos que sean conjuntamente suficientes para los parmetros poblacionales p y a.
Solucin:
La funcin de densidad conjunta de la muestra ser:
J2;;).
<a
rl'
( ,=1
-
2"'
' 1U
134
CASAS-SANCHEZ, J. M.
E S T I M A C I ~ NPUNTUAL
135
Haciendo
y si podemos encontrar una funci6n g(x,, ..., x,) tal que la razn de funciones
de verosimilitud no dependa de O si y solamente si
g(x1, ..., x,) = g b , , ..., Y.)
~"0
x ) , para
para
1, ..., k
1, ..., k
1 X i era sufii= 1
ciente.
137
E S T I M A C I ~ NPUNTUAL
que como vemos depende del parmetro, y nicamente no depender del par&metro p si y s61o si
Ejemplo 2.13
Sea una muestra aleatona (X,, ..., X,) procedente de una distnbuci6n N ( h 1).
Obtener un estimador minimal suficiente del parmetro p.
n
2
i=1
para el parmetro p.
Solucin:
u y 1 , ..., y"; P )
=e
- Y"
.
-~ 1 '
IYi
- PY
Xi -
z=2
Y,)
,=i
"
1X , ,
i=1
Ejemplo 2.14
Sea una muestra aleatoria ( X , , ..., X,) procedente de una poblacin cuya
funcin de densidad es:
E S T I M A C I ~ NPUNTUAL
139
..., Xn) e
( Y l , ..., Y")
que ya habamos visto que eran conjuntamente suficientes, resultan ser conjuntamente minimal suficientes para los parmetros p y a.
de donde:
Ejemplo 2.15
Sea (X,, ..., X,,) una muestra aleatoria simple procedente de una poblacin
con distribucin de Poisson de parmetro A, en donde el parmetro A se estima
a partir de la media 2 de la muestra aleatoria del tamao n. Obtener:
1.O
Un estimador eficiente.
Solucin:
Segn la definicin 2.4 para que un estimador i sea eficiente se tiene que
verificar que la varianza del estimador coincida con la cota de Frechet-Cramer-Rao.
Var (i) =
- In (x!) -
1
=-Var(X)
l2
= - A.
E"
1
-
E[T]= A
y como:
,
1
i
I
E[a U;?.)]':
1.
y como
= Var (2)
= Var
Var (l)
1
nZ
= -Var(X,
+ ... + X,)
2. Obtengamos ahora un estimador suficiente para el parmetro 1. Aplicando el criterio de factorizacin de Fisher-Neyman, tendremos que probar:
21
-e-<..xl!
AX*e - "
x'!
143
E S T I M A C I ~ NPUNTUAL
1 xi;A
g
(i:l
"
X i es un estimador suficiente para el parmetro L. Pero
y el estadstico
i= 1
como el estadstico
2,pues
i=1
"
1 X i = nX,y
i=1
estadstico
2.3.5.5.
~ 8 1 ~ 1
se verifica:
1 . g ( T ) es un estadstico y es funcin del estadstico suficiente.
2. E [ g ( T ) ] = O.
3
Var ( g ( T ) )6 ~ a r ( 8 ) .
:' llnilc,rrnl) niininium-\ariancc uiihiaced c<liinarors ilJ3lVl. t,. Eiiirn~dorinsscgado uniforI ' \ I i ' l l r & I . I.er:I pr~lcr~hle
a cu-llqi~~er
i>rr<)
rncrncnie <Icr n i n i r n ~\ari.<n/d. Si c\i\rc iin c~iini.tJ~>r
estimador insesgado de 8, ya que sus valores prescntan menos varianza que la de cualquier otro
estimador insesgado.
Este teorema, que no demostraremos aqu, nos indica que dado un estimador insesgado y un estadstico suficiente, este estadstico suficiente lo podemos
utilizar para encontrar otro estimador g(T) insesgado y de menor varianza que
el primero. Ahora bien, no se puede asegurar que el estimador g(T) sea de
mnima varianza, es decir, UMVUE. Para ello recurrimos al teorema de
Lehmann-Scheff que veremos posteriormente.
Corolario
Si existe un estimador UMVUE, entonces debe ser funcin del estadstico mnima1 suficiente para el parmetro O, el cual es UMVUE.
2.3.6. COMPLETITUD
En la seccin anterior hemos estudiado la suficiencia y veamos que mediante este concepto podamos resumir la informacin contenida en la muestra
sobre un parmetro desconocido de manera ms eficiente y sin prdida de
informacin sobre el parmetro. Ahora mediante el nuevo concepto de completitud, veremos que cuando se verifica para un estadstico suficiente entonces
obtenemos mejores estimadores.
Definicin 2.14.
Familia completa
implica que:
P(h(x) = 0 ) = 1
145
ESTTMACION PUNTUAL
Ejemplo 2.16
Dada la familia de distribuciones binomiales {B(n,p)}comprobar si es completa.
Teniendo en cuenta la definicin 2.14, vemos que para cualquier real h(x)
de una variable aleatoria X + B(n,p) las identidad
E[h(X)] =
x=o
(:)
h(x)pll
p r - . = O, Vp
(O. 1 )
h ( x ) = O , V x = O , 1,..., n
ya que la expresin
es un polinomio en p de grado n, y para que tome el valor cero para todo valor
del parmetro p es necesario que todos sus coeficientes, h(x), sean nulos.
Luego
P(h(x) = 0) = 1
, V p E (O, 1)
y la familia es completa.
Ejemplo 2.17
Supongamos una muestra aleatoria (X,, ..., X,) procedente de una poblacin B ( l , p ) , y sea el estadstico
Solucin:
Sabemos que la distribucin binomial es reproductiva respecto al parmetro n, y hemos visto en el ejemplo 2.16 que la familia de distribuciones bino-
Luego el problema de encontrar un estimador UMVUE ha quedado reducido a la obtencin de un estimador insesgado 6 y a calcular el valor esperado
g ( T ) = ~[Bln
''
Este teorema debido a Rasu nos facilita la demostracin de la independencia de los estadsticos media y varianza muestra1 de una distribucidn normal.
147
ESTTMACI~N
PUNTUAL
B(0)h(~)e~(~'~~~'
C2.271
donde
f(x; 0)
Distribucin
Binomial (1, p)
px(l -
Binomial (n, p)
Geomitrica
B(0)
hx)
e(@)
R(x)
1-P
In 1-p
(1 - P)"
~ ( -1 PY
ir
e-i
-
x2
Normal (O, a)
Normal (p. 1)
1
-e 2c'
c&
o&
(1 - 14)*
JIe
x!
e-A
x!
In(1-p)
1.11-p)
y:-')
Binomial negativa
Poisson
In i.
--
x2
202
-f
-xz
-a
Gamma
Exponencial
aeKm1
1 R(xi)
i=1
distribucin que pertenece a la familia exponencial. La demostracin la haremos s61o para el caso discreto, pues en el caso continuo se tendra que hacer
una transformacin de una integral mltiple.
149
E S T I M A C I ~ NPUNTUAL
ser:
P(T; 0 ) = P
( 1:
R(xi) = t
B"(0)
XR(x,)=t
n"
P(X,
x , , ..., X ,
x,)
XRi,,
h(xi).e
QiSi-Rir,)
1 RixJ
,=>
i=1
= b(0)H(t)e'Qi8)
en donde
Diremos que una familia de distribuciones es exponencial ic-paramtrica si est formada por todas aquellas distribuciones cuyas funciones de
cuanta o de densidad, se expresan de la siguiente forma:
f ( x ; O,,
donde:
1 . B(0,, ..., O,) y Q,(O,, ..., O,) son funciones reales de 0 ,... O,.
Ejemplo 2.18
La distribucin N ( p ,u) pertenece a la familia exponencial de distribuciones
bi-parametricas.
Solucin:
Sabemos que la funcin de densidad de la N ( p ,o) es
y haciendo:
ESTIMACIN PUNTUAL
151
Diremos que un estimador 8 es invariante, si se verifica que el estimador de una funcin del parmetro 8, es igual a la funcin del estimador
del parmetro, es decir cuando se verifica que:
Ejemplo 2.19
2.
La varianza muestral.
Y, + Y, .
, siendo
4. El estadstico 2
Y,
min (X,,
..., X,)
Y, = mx (X,,
..., X,)
5. El coeficiente de correlacin lineal.
Solucin:
1.
H(x,,..., x,)= X
entonces:
Luego no es invanante.
2. El estimador es:
1
"
0(X,,..., X,)= SZ = - C
A
n - 1i=1
(xi- 2)'
entonces
= S2
Luego es invariante.
@x1,..., X")
153
E S T I M A C I ~ NPUNTUAL
3. Anlogamente el estimador desviacin tpica muestra1 tambien es invariante, por serlo S'.
4.
El estimador es:
A
+ mx(X,,
..., X,)
entonces:
+ mx (X ,, ..., X,)
+ mx (X,,
..., X,)
Luego no es invariante.
5. El coeficiente de correlacin lineal si que es invariante frente a cambios
de origen, en efecto:
E S T I M A C I ~ NPUNTUAL
155
Captulo 3
MTODOS DE OBTENCIN DE ESTIMADORES
x2.
Este mtodo consiste en igualar tantos momentos muestrales como parmetros haya que estimar, a los correspondientes momentos poblacionales, que
son funciones de los parmetros desconocidos, y resolviendo el sistema de
ecuaciones resultante tendramos los estimadores de los parmetros'.
Veamos ahora, de manera formal, como se desarrolla este mktodo.
Sea una poblacin con funcin de probabilidad P(x,; O , , ..., O,) o con funcin de densidad f ( x ; O , , ..., O,), segn que se trate de una distribucin de tipo
discreto o de tipo continuo, respectivamente, en las cuales aparecen k parmetros desconocidos que pretendemos estimar con la ayuda de una muestra aleatoria de tamao n, ( X , , ..., X,). Designamos por u,, ..., u, los k-primeros momentos respecto al origen de la poblacin:
m
xi P(X
xi) =
1 X!
i= 1
i=1
caso continuo
En general u,, ser una funcin de los k-parmetros O,, ..., O,:
uj(O,,..., O,),
j=1,
..., k
Igualando los k primeros momentos poblacionales, u,, a los correspondientes momentos muestrales, a,, tenemos un sistema de k ecuaciones con k-incgnitas O,, ..., O,:
' K . Pearson, para desarrollar este metodo se bas6 en el teorema de Khintchine, el cual asegura,
bajo condiciones muy generales. la convergencia en probabilidad de los momentos muestrales
respecto a los correspondientes momentos poblacionales.
159
. On..
01,
-3
..., O,.
Si los parmetros desconocidos y que pretendemos estimar son momentos poblacionales (la media de la distribucin normal, el parmetro p de
la distribucin de Bernoulli, el parmetro 1. de la distribucin de Poisson,
etc.), entonces los estimadores obtenidos por este metodo son insesgados.
Demostracin:
- 01,
TI. Consistencia
il
'
Demostracin:
Como los parmetros a estimar son los momentos poblacionales, a,, que
para una muestra aleatoria simple (X,, ..., X,) son:
y siendo @a,, a,) una funcin continua en (a,, m,) entonces se cumple que B,(a,,a,) es un estimador
consistente de O,@,, m,), es decir
$,(a,, a,)
& ( a , , 0,)
5
5
O,(a,,
2,)
O,(a,, a,)
1
1
161
varianza:
Var
(n'')
=n12 Var(Xj)
Var
(;:.1 n')
-
Luego aplicando el Teorema Central del Limite, para muestras suficientemente grandes, tenemos que el estimador ij= a j sigue una distribucin
Consistentes.
Asntoticamente normales.
1
I
Ejemplo 3.1
Sea ( X , , ..., X,) una muestra aleatoria obtenida de una poblacin que sigue
una distribucin de Poisson de parmetro l., desconocido. Obtener un estimador del parmetro L utilizando el mktodo de los momentos.
Solucin:
163
Luego igualando
",(A) = a,
resulta que el estimador por el mtodo de los momentos de ;1es:
Sea ( X , , ...,X,) una muestra aleatoria procedente de una B(l, p). Obtener el
estimador del parmetro p, utilizando el mtodo de los momentos.
Solucin:
"
y si hacemos X
1 Xi
i=1
Ejemplo 3.3
Sea (X,, ..., X,) una muestra aleatona procedente de una poblacin con
distribucin T(p, a). Obtener los estimadores de p y de a utilizando el mtodo
de los momentos.
1
Solucin:
165
Ejemplo 3.4
Sea una muestra aleatoria formada por las observaciones (1,2; 2,6; 4,4; 3,4;
0,6; 2,2) procedente de una poblacin cuya funcin de densidad es:
0-1
O
, O<x<B
, en el resto
Para aplicar el mtodo de los momentos tendremos que calcular los momentos de orden uno, respecto al origen, tanto para la poblacin como para la
muestra e igualarlos; con lo cual tendremos:
tendremos el estimador
ser:
MTODOS D E O B T E N C I ~ ND E ESTIMADORES
167
Ejemplo 3.5
2. Comprobar si es insesgado.
3. Comprobar si es consistente.
Solucidn:
1. El momento de orden uno respecto al origen en la poblacin es:
luego
~ ( 8- ,01 < E ) =
"*m
o bien
= E[@
nos queda:
P [ I-~E [ ~ I<I E]- " - m I
ii
169
I !
11:
1' I
(iInxi+
1 i
' 1
ii
,
: 1
;)
= Var - -
,
3
(:1
= Var -
=-
Xi
i:l
l
8
Var (X)
! j
i
1
Luego
P [ I -~ e < E ]
"+m
I
1
6 es consistente.
!~
I,
ii
e) =m;
e), ..., f ( ~ , O)
; =
n f(xi; 8 )
i=1
n f(xi; e)
C3.31
i=1
Vemos que la funcin de verosimilitud L(x,, ...,x,; O) es funcin de la muestra observada y por tanto sera una funcin aleatoria dependiente del parmetro O, pues para cada muestra aleatoria tomar un valor.
El valor que toma la funcin de verosimilitud para una muestra dada y
concreta ( x , , ..., x,) recibe el nombre de elemento de verosimilitud o verosimilitud de la muestra:
y slo depende del parmetro O, ya que ( x , , ..., x,) son valores concretos.
'
8) =
n P(x,; 8)
i=,
171
Antes de exponer el metodo de la mxima verosimilitud, de manera general, veamos un ejemplo que nos ilustrar el fundamento a seguir en el m6todo.
Ejemplo 3.6
Sea una urna que contiene bolas blancas y negras, y designamos por p la
probabilidad de extraer bola blanca cuando se realiza una extraccin al azar.
Asociado a este experimento aleatorio tenemos la variable aleatoria X que
puede tomar los valores:
X
= O:
Pero como nos interesa saber, cul de los tres valores de p considerados
0,65,
P(B, B, N , B; p)
para p
0,73,
para p
0,82,
Lo cual nos dice que la aparicin de la muestra (5,B, N, B) es ms probable cuando el parmetro poblacional p = 0,73 que para los otros dos valores,
con lo cual admitimos que la poblacin de partida es B(1; 0,73), con ms
seguridad que p = 0,65 o p = 0,82. Adems, observamos que este resultado
est de acuerdo con el sentido comn, pues si p = 0,73, nos dice que aproximadamente casi 314 de bolas son blancas y algo ms de 114 son negras, siendo por
tanto esta composicin (este valor de p) la que hace ms verosimil la aparicin
de la muestra (B, B, N, B), entre las consideradas.
Si ahora consideramos la muestra aleatoria simple ( X , , X,, X,, X4), como
las variables aleatorias X i son independientes y toman los valores O o 1 con
distribucin B(1; p), resulta que la distribucin de probabilidad asociada a
cada X i sern:
P(x,; p) = P(X
x,)
= pXx(l-
p)'-"~
x,
P(x,; p)
P(X
x,)
= pX.(l -
p)'-"* ;
x,
P(x,; p)
x,
x,
=o, 1
= o, 1
= o, 1
= o, 1
y hemos elegido como estimacin del parmetro p aquel valor (entre los tres
que estabamos considerando) que hace mximo el elemento de verosimilitud o
simplemente la verosimilitud de la muestra (B, B, N, B).
Por tanto, en general poemos dar la siguiente definicin:
Definicin 3.2. Metodo de la mxima verosimilitud.
El metodo de la mxima verosimilitud consiste en elegir como estimador del parmetro desconocido O aquel valor G(x,, ...,X,) que hace mxima la funcin de verosimilitud y x , , ..., xn; U). Es decir, consiste en encontrar aquel valor &,,..., X,) tal que
L(x,, ..., x,; O) = mx y x , , ..., x.; O)
D.41
R E ~7
Continuando con la interpretacin instuitiva del ejemplo 3.6, y si consideramos slo el caso discreto, vemos que la funcin de verosimilitud de la muestra ser:
y para una muestra concreta esta expresin depender slo de O, por eso tambin podramos haherla notado poniendo L(O). Entonces el mtodo de la mxima verosimilitud lo que hace es elegir aquel valor del parmetro O para el cual
la expresin [3.5] es mxima para la muestra en cuestin, lo cual equivale a
que la muestra considerada es la ms probable, como suceda en el ejemplo 3.6,
y adems coincide con el comportamiento lgico, siendo ese valor del parmetro O el que se hace ms verosmil con la aparici6n de la muestra considerada.
En resumen el valor de la funcin de verosimilitud L(xl, ..., x,; O) para una
muestra concreta nos da la verosimilitud o plausibilidad de que el parmetro O
tome un cierto valor, tomando como informacin la proporcionada por la
muestra. As pues si L(x,, ..., x,; O,) > L(x,, ..., x,; O,) esto nos indica que la
verosimilitud de que el parmetro 0 tome el valor O,, es mayor que la verosimilitud de que el parmetro tome el valor U,, dado que se ha obtenido la muestra
considerada.
..., x,;
O) = mx y x , ,
BE
..., x,,; O)
"
In f ( x i ; O)
C3.61
i= 1
..., x,;
gen
In f ( x i ; O)
C3.71
i=1
ae
O) =
C dln f ( x i ; 8) = o
i= 1
a0
175
a ln L(x,,
a 0,
alnf(x,; O,,
a O1
alnf(x,; O,,
..., 8,)
i=,
a 8,
... O,)
=o
=o
y tendramos:
o,
o;(X,,
..., X")
que seran los estimadores de mxima verosimilitud de los parmetros (O,, ..., O,).
Cualquier solucin no trivial de las ecuaciones [3.8] o [3.9] ser un estimador de mxima verosimilitud. Ahora bien si la solucin es nica diremos que se
trata de un estimador de mxima verosimilitud en sentido estricto, dando lugar
al mximo absoluto de la funcin de verosimilitud. Sin embargo, cuando hay
ms de una solucin (no incluimos la trivial) entonces diremos que tenemos
estimadores de m4xima verosimilitud en sentido amplio.
Generalmente la ecuacin o sistema de ecuaciones de verosimilitud se puede resolver sin grandes dificultades, no obstante en algunas ocasiones hay que
recurrir a mtodos iterativos de clculo numerico.
Ejemplo 3.7
Sea una poblacin distribuida segn una B(10, p). Obtener el estimador de
mxima verosimilitud utilizando una muestra aleatoria (X,, X,, X,, X,).
Solucin:
Obtendremos el estimador de mxima verosimilitud para el parmetro p,
resolviendo la ecuacin:
ln
"5,x,,
x,, x4; p)
=
i=,
ln ( l o )
xi
x, (in p )
;=l
+ (40 - iE
x ) i n (1 - p )
= 1
Ejemplo 3.8
Sea ( X , , ..., X,) una muestra aleatoria simple procedente de una poblacin
B(1, p), en donde p es desconocido. Obtener el estimador de mxima verosimilitud del parmetro p.
177
Solucin:
Sabemos que la funcin de probabilidad es:
n" m i ; p)
i=1
a l n ~ ( x , ,..., x,; P) - i =
ap
P
a2ln L
Calculando la -tenemos:
a p2
1
( l1
1
i -C
xi Inp + n
xi
(i:l
n-
i=l
1-P
xi ln(1
p)
xi-np
- i=1
~ ( -1 P)
=o
y particularmente para p
2, se tiene:
Ejemplo 3.9
02
para n
30 y
E
i= 1
(xi - 20)'
3.0M)
Solucidn:
1. Tenemos que resolver la ecuacin:
alnL(x,,
..., x,;
0')
a a2
y para ello calculamos:
n
n
In L(x,, ..., x,; a2) = - 1n (a2)- In ( 2 4
2
2
-
1(xi - 20)2
i=1
-
2oZ
179
de donde se tiene
20
Ejemplo 3.10
Una compaa de seguros, despues de analizar su fichero de siniestros sobre roturas de lunas de establecimientos comerciales, llega a la conclusin de
que el nmero de siniestros mensuales se ajusta a una distribucin de Poisson.
Tomando una muestra aleatoria de 8 meses, se observ que se produjeron 310
siniestros. Obtener una estimacin mximo-verosmil del parmetro A.
1 "
=-
C (Xi
i=i
=a
'
.
En efecto:
Solucin:
+ ln A
i=1
i=1
8, es
E xi - 1 ln (x,!)
181
Ejemplo 3.11
Suponiendo que la cotizacin de una determinada accin se distribuye segn una N ( p , a), seleccionamos una muestra aleatoria de 20 das de cotizacin
de esa accin, obteniendo que
20
20
i=1
i=1
E xi = 35.700 ptas.;
E ( x i - 2)2
40.500
Obtener estimadores mximo-verosimiles para p y a , y sus correspondientes estimaciones para la muestra dada.
Solucicin:
n
1 "
ln (2n) - ( x i - p)'
2
2a2 i = l
- n ln a - -
182
CASAS-SANCHEZ, J.
M.
n
a
--
"
=O
n aZ =
i=1
(x, - X)'
i= 1
i=1
Xi
35.700
!J=
20 y
- 1.785 ptas.
r
20
'2
o -
6=
1(xi - x ) 2
i = ~
20
- 40.500
20
2.025 ptas.
+ 45 ptas
Ejemplo 3.12
Sea (X,, ..., X,) una muestra aleatoria de una poblacin que se distribuye
segn una T(p, a), con ambos parmetros desconocidos. Obtener los estimadores mximo-verosimiles.
Solucidn:
183
Para resolver este sistema de ecuaciones empezamos obteniendo el parmetro a de la segunda ecuacin:
P
7
~ T ( P+)1
" lnxi=O
T(P) 8~ i = i
n
Sea ( X , , ..., X,) una muestra aleatoria procedente de una poblacin uniforme, U ( 0 , O). Obtener el estimador mximo-verosimil del parmetro O.
Solucidn:
La funcin de densidad de la U ( 0 , 0) es:
-
( O , en el resto
Observemos que aqu no se verifica la condicin de que el campo de variacin de la variable X sea independiente del parmetro O.
La funcin de verosimilitud ser:
tomando In se tiene:
In U x , , ..., x,; O) =
- nln
n
O
- - E
y no existe ningn valor de O para el cual la derivada de la funcin de verosimilitud es igual a cero, pues el nico valor sera O = infinito, pero esto no es
posible pues entonces f ( x ) = O, V x.
Luego vemos que en este caso no podemos aplicar el proceso anterior de
derivar el In de la funcin de verosimilitud, y sin embargo si podemos encontrar el estimador de mxima verosimilitud; en efecto:
maximizar L(x,, ..., x,; O)
minimizar O
185
pero el mnimo valor de O ser superior al mx {xJ que ser el valor de x que
i
ms se aproxime a 8
mx {xi)
I
Ejemplo 3.14
Dada una poblacin cuya funci6n de densidad es:
186
CASAS-SANCHEZ,
J. M.
nf
(xi; O)
i= 1
"
E In x j
i=1
MAXJMA
1. Consistencia
vo
C3.101
"-m
11. Insesgadez
En general los estimadores de mxima verosimilitud no son insesgados. Pero si no son insesgados entonces son asintoticamente insesgados.
Si el estimador 8 de mxima verosimilitud no es insesgado, como resulta
que si es consistente y verifica la expresin C3.101, entonces el estimador 9
converge al parmetro O, y en el lmite coincide con su valor medio que es O,
siendo por tanto asintoticamente insesgado.
111. Eficiencia
H + N(O, JGG)
en donde ~ a r ( Hcoincide
)
con la cota de Frechet-Cramer-Rao, es decir:
VI. Suficiencia
Si i es un estimador suficiente del parmetro 0, entonces el estimador
de mxima verosimilitud de 0, si es nico, es funcin del estimador suiiciente 6.
VII. Invarianza
Los estimadores mximo-verosmiles son invanantes frente a transformaciones biunvocas. Es decir, si 8 es el estimador de mxima verosimilitud del parmetro 9 y g(6') es una funcin con inversa nica, entonces
se verifica que g(4, es el estimador de mxima verosimilitud de g(@).
De las propiedades 1, IV y V se deduce que los estimadores de mxima v
verosimilitud son estimadores ptimos asntoticamente normales (0.A.N).
Ejemplo 3.15
Sea una poblacin cuya funcin de densidad es:
O-' e - i , x > O
, en el resto
y consideremos una muestra aleatoria ( X , , ..., X,). Se pide
1. Estimador mximo-verosmil del parmetro O.
189
ae
i=i
2 xi
O = -i=1
n
= X-
que:
E[X] = 0
Var (X) = O2
Luego
"1'
o bien
Var (6)=
pi = 1
i=,
Para estimar los parmetros desconocidos O,, ..., O, tomamos una muestra
aleatoria de tamao n, cuyas observaciones han sido ordenadas en forma de
distribucin de frecuencias, de tal manera que el nmero de observaciones
que pertenecen a cada uno de los subconjuntos S,, ..., S, ser n,, ..., n,, siendo
ni = n. Es decir tendramos la siguiente distribucin de frecuencias:
i=1
Campo de variacin
Frecuencias absolutas
ni
Frecuencia relativa
ni/n
entonces obtenemos una medida de la desviaci6n cuyas propiedades son relativamente fciles y de cierto interes para estudiar la desviacin entre ambas
distribuciones. As pues sustituyendo ci; por su valor en la expresi6n C3.121, y
designndola por X 2 , tenemos:
XS-k-i
pues hay k
Entonces el mtodo de la mnima x2 escoge los estimadores de los parmetros Oi de modo que el estadstico X' dado por la expresin C3.131 sea mnimo.
Para minimizar el estadstico ,y2, tendremos que derivar respecto de
B,fi = 1 , ..., k ) e igualar a cero:
facilitndose su resolucin.
Este nuevo mtodo de estimacin obtenido con esta simplificacin recibe el
aombre de mtodo modificado de la mnima x', y por sencillez ser el que
utilizaremos.
Los estimadores obtenidos por ambos mtodos son asntoticamente equivalentes, y coincide con el estimador obtenido por el mtodo de la mxima
verosimilitud. En efecto:
El sistema C3.151 equivale a:
n i =cl
a p i ( o 1 , ..., 6,)
aoj
a
aoj = ,
194
CASAS-SANCHEZ, J. M.
puesto que
=o
en donde
y.;
n, lnp,(O,,
a u,
n,
..., O,)
..., e,)
+ ... + n,lnp,(O,,
1
api(O1. ..., 0,)
pl(O1, ..., O,)
a oj
..., O,)
+ ... t
donde los coeficientes u, toman diferentes valores segn los parmetros a estimar.
Llamaremos clase de los estimadores lineales insesgados de una cierta funcin q(O) a la familia de todos los estimadores insesgados de g(O) que son
funciones lineales de las observaciones muestrales.
Con frecuencia nos interesa saber si entre la clase de todos los estimadores
lineales insesgados existe uno que tenga varianza mnima, y a ese estimador le
llamaremos estimador lineal insesgado de mnima varianza.
195
Proposicin 3.1
"
entonces
i ser:
+ ... + a,X,)
Var (X,) + . . . + a: Var (X,)
Var(i) = Var(a,X,
= a:
= a:02
+ ... + ano2
pero como la Var(j) ha de ser mnima, entonces los valores a,, ..., a, deben de
ser tales que sea
"
Var ( i ) = o2
a;
mnima
i=1
con la restriccin
a;
+ A.
i=,
ai = 1, resulta:
pero
i= l
de donde
1 +multiplicados de Lagrange
197
Proposicin 3.2
y varianza c2,entonces un estimador lineal insesgado y de mnima varianza para el coeficiente de regresin viende dado por
Demostracin:
Como el estimador
+ ... + c,,Yn]
= ci
+ . . . + c.
E[Y,]
E[Y,,]
b ser:
var(b) = Var(c,Y,
= c:
+ ... + c
Var(Y,)
= c:oz
, ~
)
n
+ . .. + c i Var(Y,)
+ ... + c,202
199
de donde:
y despejando A,:
200
CASAS-SANCHEZ, J. M.
b ser'":
$0
i=,
i=,
Solucin:
X,)
11u2
= - Var (X,)
X es una variable observable que tomar valores conocidos, a y b son parmetros desconocidos, y e una variable aleatoria o error''.
y se admite:
E[e,]
Var (e,) = .
'
a
= 0.
&a, h) =
1 e? = E (Y, - a - hX,)'
i=1
i=1
de donde se tiene:
Captulo 4
ESTIMACI~NPOR INTERVALOS
D E CONFIANZA
y una medida que nos refleje la conlianza que tenemos acerca de que el verda.
dero valor del parmetro 0 se encuentre dentro del intervalo.
Observemos que los extremos del intervalo variarn de manera aleatoria de
una muestra a otra, pues dependen de las observaciones de la muestra, luego
tanto los extremos del intervalo como la longitud del intervalo sern cantidades aleatorias y, por tanto, no podremos sabcr con seguridad si el valor del
parmetro O se encuentre dentro del intervalo obtenido cuando se selecciona
una sola muestra. El objetivo que se pretende con los intervalos de confianza
es obtener un intervalo de poca amplitud y con una alta probabilidad de que cl
parmetro O se encuentra en su interior. As pues, elegiremos probabilidades
cercanas a la unidad, que se representan por 1 - r y cuyos valores ms frecuentes suelen ser 0,90, 0,95 y 0,99.
Luego si deseamos obtener una estimacin por intervalo del parmetro poblacional
O desconocido, tendremos que obtener dos estadsticos O(X,, ...,X,) y
O(X,, ..., X,) que nos darn los valores extremos del intervalo, t i e s que
-
1-a
~4.1
I
2."
3.'
..., x,)
=a
ya que no tiene sentido alguno, pues a, b y O son tres valores constantes. Sin
embargo, una vez seleccionada la muestra y calculados, los valores:
a
gx,,..., x,)
la probabilidad es 1 si ti
[a, b]
la probabilidad es O si O
4 [a, b]
207
a = O ( x l ,..., x,)
b = O ( x l ,..., x,)
entonces se obtendr que aproximadamente en el 10q1 - a)% de los intervalos resultantes estar en su interior el valor del parmetro O, y en el 100u%
restante no estar en su inters el valor del parmetro O, y en consecuencia al
intervalo (a, b) se le llama intervalo de confianza al nivel de confianza del
lOO(1 - a)%.
Una ilustracin grfica la tenemos en el grfico 4.1 que nos muestra grficamente la obtencin de los 100 intervalos construidos para la media 1 de una
poblacin N ( p , a), con a conocida, y que como posteriormente veremos tiene
la forma
en donde
O(X,, ..., X") = X - ,z,,
-
u
-
Jn
a
X + z,/, -
J"
' Vease ARNAIZ, pig. 581, aparece un ejemplo muy sencillo en donde se pone de manifiesto la
diferencia existente entre coeficiente de confianza y probabilidad.
GRAFICO
4.1.
209
Bsicamente daremos dos metodos para la obtencin de intervalos de confianza de parmetros. El primero, el metodo pivotal o mtodo del pivote basado
en la posibilidad de obtener una funcin del parmetro desconocido y cuya
distribucin muestra1 no dependa del parmetro. El segundo, el mtodo general
de Neyman, est basado en la distribucin de un estimador puntual del parmetro.
Tambin veremos cmo se obtiene un intervalo de confianza cuando no se
conoce la distribucin de la poblacin de partida. Por ltimo, basndonos en
las propiedades asintticas de los estimadores, obtendremos intervalos de confianza para muestras grandes.
Ejemplo 4.1
Sea (X,, ..., X,) una muestra aleatoria procedente de una poblacin N ( p , a),
con a conocida. Deseamos obtener un intervalo de confianza al nivel del
100(1 - a) % para el parmetro poblacional p.
Solucin:
es desconocido.
.kj
p, - , en donde el parmetro p
v
Pero el estadstico
211
E S T I M A C T ~ POR
N
INTERVALOS DE CONFIANZA
Podemos encontrar dos valores simetricos - z,,, y z,,,, tales que nos proporcionen el siguiente intervalo:
a)%
Posteriormente y a lo largo de este captulo utilizaremos este mtodo pivotal junto con las distribuciones muestrales para obtener, en algunos casos,
intervalos de confianza.
La dificultad de este mtodo surge porque no siempre es posible obtener
una cantidad pivotal con esas condiciones, que d lugar a un intervalo de
confianza2.
213
en donde suponemos que las funciones h,(O) y h,(O) son funciones continuas y
montonas de 8.
Tambien se pueden determinar h,(O) y h,(O) de manera que:
Luego los valores de las funciones h,(B) y h,(O) para cualquier valor de 8 se
obtienen a partir de las expresiones C4.51 y [4.6], haciendo:
= -,
menor longitud.
En lodo el razonamiento hemos utilizado h,(B) y h,(B) en lugar de h,(o,; U) y h,(a,; O), pues facilita
la notacin.
h,(O) = fio
h,(B) = O,,
h ; '(&)
h;'(&)
=.
(e, 8) al
las representamos grficamente como se indica en el Grfico 4.2, y supongamos que para una muestra de tamao n el valor que toma el estimador O es O,;
por este punto O, de ordenadas trazamos una paralela al eje de abscisas que
cortar a las curvas h,(O) y h,(O) en los puntos A y B que pueden proyectarse
sobre el eje de abscisas O obteniendo los valores 8, y O, que seran los extremos
del intervalo de confianza [O,, O,] al nivel de confianza del 100(1 - u)%.
215
la recta horizontal AB trazada por el valor del estimador i0 cortar a la vertical CD, trazada por O', entre los puntos C y D, limitadas por ambas curvas, de
manera que el segmento aleatorio AB cuya proyeccin es [O,, O,], incluye el
verdadero valor del parmetro O'. En consecuencia, la confianza que tenemos
de que el intervalo [U,, O,], construido por este mtodo, incluya a 8', ser
1 - a.
Del grfico 4.2 deducimos que los extremos del intervalo para el parmetro
U sern los puntos O , y O, tales que
Luego resolviendo estas ecuaciones resultar que las races sern los extremos del intervalo de confianza [O,, O,] con un coeficiente de confianza del
1 - a.
Ejemplo 4.2
Dada una poblacin N@, a), con a conocida. Obtener, aplicando el mtodo
general de Neyman, un intervalo de confianza para la media poblacional p,
Solucin:
Aplicando el mktodo general de Neyman, tendremos que obtener dos funciones h l ( p ) y h2(p) tales que
PCh,(p) < 2 < h2(p)] = 1 - a
o bien
Haciendo el cambio:
resultar que
Y -r N(0, 1)
217
y designando por:
Al = ~ I ( P0)- P , E.,
hZ(P) - fl
0
tendremos:
en donde
Al = -%,2
12 =
z,,
que representan dos rectas paralelas a la bisectriz del primer cuadrante, siendo
el intervalo de confianza:
Ejemplo 4.3
;/
f(x; 0) =
(0
B x ) , O<x<B
(
, en el resto
ESTIMACI~N
POR INTERVALOSDE CONFIANZA
219
y tendremos:
Para obtener el intervalo de confianza al nivel de confianza del 95 %, obtendrermos h,(8) y h,(B) tales que:
220
CASAS-SANCHEZ. J. M.
Si hacemos la representacin grfica como aparece en el Grfico 4.4 el intervalo de confianza se obtiene fcilmente.
ESTTMACI~N
POR INTERVALOS DE CONFIANZA
22 1
4.3.
1.
Ya habiamos considerado este caso en el ejemplo 4.1. pero aqu lo veremos de forma ms
completa.
El estadstico Z como funcibn de p, es monbtona.
que se distribuye segn una N(0, l), pues sabemos que el estadstico media
muestra1
de donde se deduce:
multiplicando por
-1
que es equivalente a
y en consecuencia al intervalo:
Teniendo en cuenta el mtodo de los multiplicadores de Lagrange, tendremos que hacer mnima la expresin:
de donde se deduce:
-J.,,
Para derivar una integral respecto al lmite superior de integracin tendremos en cuenta:
-.(f
an,
= fO.2)
Para el limite inferior A,, se cambian los lmites cambiando de signo la integral, pues
donde ,z.
es tal que
Y + z.
41
- Jn_l
[X
L
i.
u
7 +m)
;
J.
En general los intervalos de confianza se deberan expresar siempre en la forma de la expresin [4.11] pero en algunas ocasiones y por dar mayor clandad se puede utilizar tambi6n la forma
de la expresin 14.121.
lI
225
Ejemplo 4.4
16 y el nivel de confianza es
64.
3.0
4."
16, 1 - a = 0,95 y a = 6.
Solucin:
1." La expresin r4.121 nos da el intervalo de confianza que nos piden:
2." Para:
= 25, a = 6, n = 64 y 1 -
c(
0,90
3." Para
4."
Para
X = 25, u = 6, n
16 y 1 - m = 0,95
b) Cuando aumenta la desviacin tpica u, aumenta la amplitud del intervalo y, por tanto, disminuye la precisin.
c) Cuando aumenta el nivel de confianza, aumenta la amplitud del intervalo y, por tanto, disminuye la precisin.
227
2-p
T=--
S"-
1
n-1
la varianza muestral.
-t"-'
'
<=,
(X<-
x)Z
228
CASAS-S~NCHEZ,J. M.
sujeto a la condicin dada por C4.141 que tambin podemos expresarla, teniendo en cuenta la funcin de densidad de una t-Student con n - 1 grados de
libertad. como:
q5 = (t, - t,) -
J"
derivando respecto a
t,
t,
+y
[k (
tenemos:
t - I I - u )
~4.111
t , = - t,,
Luego haciendo:
t, = to/2
tendremos:
Sustituyendo en el intervalo dado por la expresin C4.151, tenemos el intervalo de confianza para la media p de una poblacin N(p, u) con u desconocida:
1-
x - t,,, -$ p $ x
Jn
+ t,,,
1;
1 grados de
Ejemplo 4.5
Un fabricante de una determinada marca de vehculos de lujo sabe que el
consumo de gasolina de sus vehculos se distribuye normalmente. Se selecciona
una muestra aleatona de 6 coches y se observa el consumo cada 100 km,
obteniendo las siguientes observaciones
231
Solucicin:
El intervalo de confianza para la media poblacional cuando a es desconocida tiene la forma dada por la expresin [4.19]
-
x - t,,, - 6 p 6 i
Jn
+ t,,,
Jn
Para 1 - a = 0,90, utilizando la Tabla A.10 del Anexo A de tablas estadsticas, que corresponde a la t-Student, tenemos:
P[t5 > t
,,,,] = 0,05
t,
= 2,015
Para 1 - a = 0,95
P[t5 > t,,,,,]
Para 1 - a = 0,99
= 0,025
,,,,,= 2,571
Para 1 - a = 0,95
Para 1
a = 0,99
GRAFICO 4.6. Representacin grfica de los interualos de confianza del ejemplo 4.5.
E S T I M A C ~ ~POR
N INTERVALOS DE CONFIANZA
233
"
siendo
la varianza muestral
2
"
o bien
~i-~,
x 2" - ~ ,
se obtienen en la distribucin
xZ
!
"
Supongamos una muestra aleatoria de n observaciones de una distribucin N ( p , a). Si a es desconocida y la varianza muestral observada es
s2, entonces el intervalo de confianza para la varianza poblacional a*, al
nivel de confianza del 100(1 - u) % viene dado por:
donde 1;-
es tal que:
X2
de Pearson con
En este caso tal estadstico (cantidad pivotal o pivote) que dependa del
parmetro a 2 y cuya distribucin muestral no dependa de a2 ser:
que para cada valor fijo de a2 sigue una distribucin ,y2 de Pearson con n
grados de libertad, pues al ser la media p conocida no hay que estimarla y el
nmero de grados de libertad es n.
Razonando anlogamente al caso anterior, en donde p era desconocida,
llegamos a obtener el intervalo de confianza:
236
CASAS-SANCHEZ,
J. M.
Ejemplo 4.6
El precio de un determinado artculo perecedero en los comercios de alimentacin de una ciudad sigue una distribucin normal. Se toma una muestra
aleatoria de 8 comercios y se observa el precio de ese artculo, obteniendo las
siguientes observaciones:
1. El intervalo de confianza para la media poblacional cuando <r es desconocido y 1 - a = 0,95 viene dado por:
237
4.3.3.
Sean dos poblaciones normales e independientes, N(p,, a,) y N(&, o,), dfe
las cuales se extraen dos muestras aleatorias, que sern independientes entre s,
( X , , ..., X,J e (Y,, ..., Y,), respectivamente. Siendo los estadsticos muestrales
correspondientes:
entonces el estadstico (cantidad pivotal o pivote) que depende de los parmetros p, y y y de sus estimadores y cuya distribucin muestra1 no depende de
los parimetros ser:
ESTTMACI~N
POR INTERVALOS DE CONFIANZA
239
Si los tamafios muestrales n, y n, son grandes, entonces una buena aproximacin al intervalo de confianza para p, - p, se obtiene reemplazando las varianzas poblacionales en la expresin C4.241 por las correspondientes varianzas
muestrales observadas S: y S:. Resultando que para muestras grandes, n > 30,
esta aproximacin ser adecuada incluso si las distribuciones poblacionales no
son normales.
Medias desconocidas y desviaciones tipicas iguales y conocidas
El razonamiento es el mismo, nicamente tendremos que:
o = ay
o conocida
o.
Teniendo en cuenta el apartado 1.7.5, en donde estudibamos la distribucin de la diferencia de medias muestrales cuando no se conoce la varianza
poblacional, expresin [1.30], aqu podemos utilizar como estadstico (cantidad pivotal o pivote) que dependa de los parmetros p, y 4 y de sus estimadores cuya distribucin muestra1 no dependa de ellos, el estadstico:
T=
(n,
1)s:
-d nx
+ (n,
o=
Y.
1)s;
(n,
n,
2)
iz - v -
/(n,
1)s:
P,)
+ (n, - 1)s: .
+ tn,+n,-2
+ n,
C4.261
2 grados de libertad.
E)%
24 1
0,)
siendo o, # o,.
El estadstico (cantidad pivotal o pivote) que dependa de los parmetros p,
y p, y de sus estimadores y cuya distribucin muestra1 no dependa de ellos,
ser el estadstico
que segn la expresin C1.321 y C1.331 sigue una distribucin t-Student con v
grados de libertad, siendo
Supongamos dos muestras independientes de tamailo n, y n, procedentes de poblaciones normales N(px, a x ) y N(py, ay),respectivamente. Si
las medias para las muestras observadas son i e j,entonces un intervalo
de confianza, al nivel de confianza del 100(1 - a) %, para la diferencia de
medias poblacionales p, - p, viene dado por:
C(
y la variable alea-
=-
C(
=-
y v viene dado
E S T ~ M A C ~POR
~ N INTERVALOS DE CONFIANZA
243
Ejemplo 4.7
En un estudio sobre los prstamos realizados por dos entidades financieras
a sus clientes se toma una muestra aleatoria de 6 prstamos de la primera
entidad observando que el importe medio es de 9.972.000 ptas. y una desviacin tpica de 7.470.000 ptas. Una muestra aleatoria, independiente de la anterior, de tamafo 9, de prt?stamos de la segunda entidad muestra un importe
medio de 2.098.000 ptas. y una desviacin tpica de 10.834.000 ptas. Admitiendo que las dos distribuciones poblacionales de prstamos son normales con la
misma varianza, obtener al nivel del 95 % un intervalo de confianza para la
diferencia entre sus medias poblacionales.
Ejemplo 4.8
Supongamos que una mquina automtica de envasado de un producto
qumico est preparada para depositar 8 C.C. de producto en cada frasco de la
cadena de envasado. Antes de proceder a una revisi6n y ajuste de la mquina
se toma una muestra aleatoria de 4 frascos observando que la cantidad, medica
en C.C.,depositada de producto qumico en cada frasco ha sido:
245
Solucin:
Se trata de obtener un intervalo de confianza para la diferencia de medias
poblacionales cuando las varianzas son distintas y desconocidas. Utilizaremos
la expresin C4.351:
"
247
E[D]
E[Xi
Y,] = E[XJ
E[YJ
px
...,D,) proce-
P,
siendo
o.
1 grados de libertad
de donde se tiene:
o bien
1 grados de
Ejemplo 4.9
249
Modelo X
Modelo Y
Diferencias di
Solucin:
=-(250
8
S, =
9.4)=26,75
5,17
en donde tElt lo obtenemos utilizando la Tabla A.10 del Anexo A, correspondiente a la distribucin t-Student.
Teniendo en cuenta el apartado 1.7.6, en donde estudibamos la distribucin del cociente de varianzas cuando las medias poblacionales eran desconocidas, entonces, aqu podemos utilizar como estadstico (cantidad pivotal o
pivote) que dependa de los parmetros desconocidos a: y a: y de sus estimadores y cuya distribucin muestra1 no dependa de los parmetros, el estadstico:
1 y n, - 1 grados de libertad.
251
"
PF
F,,
J = or
&
siendo
ti)%
0:
para el cociente de varianzas 2
viene
dado por:
siendo
m..
253
Ejemplo 4.10
Supongamos que la distribucin de las notas en la asignatura de estadstica
en segundo curso de la licenciatura de econmicas sigue una distribucin normal en los dos grupos existentes. Seleccionada una muestra aleatoria de 21
alumnos del primer grupo y otra de 26 alumnos del segundo grupo, ambas
independientes, se obtiene como varianzas 1.250 y 900, respectivamente. Obtener un intervalo de confianza para el cociente de las varianzas poblacionales al
nivel de confianza del 90 %.
Solucin:
Como este valor no viene en las tablas aplicamos la propiedad de reciprocidad y tenemos:
4.4.
Hasta ahora hemos considerado que las poblaciones de partida eran normales y se han obtenido intervalos de confianza para distintos parmetros.
Pero en muchas situaciones nos podemos encontrar con poblaciones cuya distribucin no es conocida, no siendo de aplicacin los criterios dados anteriormenteL6,y por eso daremos aqu otros mtodos de obtencin de intervalos de
confianza que, en general, sern aplicables a cualquier tipo de poblacin, aunque no se conozca su distribucin.
P [ X
~ [ x ]<lk ] a 1
Var (2)
a2
1 -kZ
nkz
'90
el apartado 4.2 dbamos el mitodo piuofal y mdtodo qeneral de Neyman para la obtencidn
de intervalos, en donde era necesario conocer la funcidn de distribuciiin de la poblacin, pero no es
necesario que las distribuciones sean normales.
" La desigualdad de Chebycheu para cualquier variable aleatona X se puede expresar como:
255
de donde
P[IB- p G
z]
o
LI
de aqu que:
Ejemplo 4.11
En una central telefnica se seleccionan 150 llamadas telefnicas, observndose que el tiempo medio que tardan en descolgar el telefono los receptores de
esas llamadas era de 2 segundos, con una desviacin tpica de 0,6 segundos. Se
pide, para un nivel de confianza del 99 %:
2. Suponiendo que la poblacin de llamadas telefnicas sigue una distribucin normal con desviacin tpica 0,6, obtener un intervalo de confianza para el tiempo medio que tardan los usuarios en descolgar el
telefono.
3. fdem al caso anterior pero sin conocer la desviacin tpica de la poblacin.
257
y Z
-+
N(0, 1).
3. Como la distribucin de partida es normal y no conocemos la desvicin tpica de la poblacin, entonces utilizaremos la expresin [4.19]
+ - 1 grados de li-
De la Tabla A.10 correspondiente a la distribucin t-Student con 149 grados de libertad, se tiene, aproximadamente, puesto que utilizamos el valor 150,
que:
P[t,,, > to,oo51= 0,005
to,oo5 = 2,609
259
lo podemos utilizar como cantidad pivotal o pivote, pues depende del parmetro y de su estimador y su distribucin es independiente del parmetro, pues
para n grande es aproximadamente N(0, 1).
En consecuencia para el nivel de confianza del 100(1 - N) %, se puede obtener un intervalo de confianza aproximada para el parmetro B a partir de la
expresin:
I,
[e
&@
- zmi2
8 + zZl2 JVarlejl
~4.441
plitud, es decir, son ms precisos que los obtenidos a partir de cualquier otro
estimador.
Este procedimiento general para construir intervalos de confianza para
muestras grandes lo podemos resumir en los siguientes pasos:
1. Se determina el estimador de mxima verosimilitud
6 del parmetro O.
,
o utilizando la cota de Frechet2. Se obtiene la ~ a r ( 6 ) directamente
Cramer-Rao.
si aparece el parmetro O se sustituye por
3. En la expresin de la
su estimador de mxima verosimilitud, 6.
4. Se construye el intervalo de confianza al nivel de confianza del
100( 1 - u ) % utilizando la expresin:
Ejemplo 4.12
Obtener el intervalo de confianza al nivel de confianza del 90 % para el
parmetro a utizando una muestra de tamao 144, procedente de una distribucin
0)
Solucin:
La funcin de densidad de la
;=y
'
2. La Var(6) ser:
Var(X) aZ
Var (a) = Var (X) = --= n
n
1, - .
X 2 25
Var (6) = - = n
144
4. Aplicando la expresin C4.451 tendremos el intervalo:
~,=~a-z,.,,$ii$j
a + z,,,,
siendo ,z.
tal que
Ejemplo 4.13
De los exmenes correspondientes a una oposicin realizada a nivel
nacional, se extrae una muestra de 75 ejercicios correspondientes a mujeres y
otra de 50 ejercicios correspondientes a hombres, siendo la calificacin media
de la muestra de mujeres 82 puntos con una desviacin tpica muestra1 de 8,
mientras que para los hombres la calificacin media fue de 78 con una desviacin tpica de 6. Obtener el intervalo de confianza al nivel de confianza del
95 % para la diferencia de la puntuacin media de las mujeres y la puntuacin media p, de los hombres.
Como las muestras son suficientemente grandes, pues son mayores que 30 y
las poblaciones no son normales podemos obtener un intervalo de confianza
aproximado utilizando la expresin 14.481 en donde sustituimos las varianzas
poblacionales por las varianzas muestrales, obteniendo el intervalo:
X
=-
P,$
< p;) =
(;x)p)n.ii
-p
x=o
y si j
= p,,
ff
y n x <2
fi = -,
n
cartesiano (i,p) vendrn representadas por dos puntos uno inferior p; y otro
superior p,. Uniendo los puntos inferiores, por una parte, y los puntos superioX
'' Cuando queremos estimar el pariirnetro p en la B(1, p), utilizamos la cantidad & = Y = -,n
siendo X el nmero de exitos en n pruebas, que sigue una B(n, p). Ahora para obtener la distribuX
cidn de Y consideramos Y = g(X) = - que es una aplicacin de uno en uno, luego tenemos:
n
(0
en el resto
266
CASAS-SANCHEZ, J.
M.
res correspondientes, por otra, se obtiene una curva inferior y otra superior
para cada n y 1 - u considerados. As pues, para un nivel de confianza del
95 % y para distintos valores de n tenemos el conjunto de curvas o bacos
que aparecen en el grfico 4.9. Existen tablas en las cuales aparecen grficos
de este tipo para cada valor del nivel de confianza. En la Tabla A.13 del
Anexo A de tablas estadsticas se dan grficas para los niveles de confianza
del 95 y 99 %.
GRAFICO4.9.
267
Ejemplo 4.14
De una muestra aleatoria de 20 votantes para la eleccin de un candidato
A, resulta que 6 tienen intencin de votar al candidato A. Obtener un intervalo
de confianza para el parmetro p, proporcin de votantes del candidato A, al
nivel de confianza del 95 %.
20 se obtiene que x
6 y, por tanto, la
Para obtener los lmites de confianza para p al nivel del 95 O/o nos situamos
en el punto j = 0,30 del eje de abscisas (eje O;) del Grfico 4.9, se levanta una
vertical hasta cortar las curvas correspondientes a n = 20, y se proyectan los
dos puntos resultantes sobre el eje de ordenadas (eje Op) que nos daran los
valores p, = O,11 y p = 0,54.
Luego el intervalo para el parmetro p ser:
entonces este valor de ;= 0,70 lo buscaramos en el eje O'; superior y proyectaramos sobre el eje O'p de la derecha, as pues obtendramos el intervalo
:=;=
en donde:
269
n+m.
En consecuencia este estadstico Z lo podemos utilizar como cantidad pivotal o pivote, pues depende del parmetro y de su estimador y su distribucin
es independiente del parmetro p, pues se trata de una N(0, 1). Por tanto,
podremos obtener un intervalo de confianza para el parmetro p al nivel del
100(1 - a)% a partir de la expresin
y multiplicando por
- 1,
restado despus a
se tiene:
P [ Z > z,,,]
=-
Observando la expresin C4.521 podemos decir que si la estimacin j ocupa el lugar central o punto medio del intervalo de confianza, entonces j estima
puntualmente, sin error, el valor del parmetro proporcin poblacional p, pero
generalmente esto no suceder y se cometer un error en la estimacin que
vendr dado por la diferencia positiva entre el verdadero valor del parmetro p
y la estimacin j, y ademas tendremos la confianza del 100(1 - a) % de que
este error a lo sumo ser
Algunos autores consideran que la aproximacin es buena cuando np > 5 y n > 30.
27 1
error
Ejemplo 4.15
Var ( j ,
j Y ) = Var (j,)
+ Var (P,)
ESTIMACT~N
POR INTERVALOS DE CONFIANZA
273
Adems, sabemos que si los tamaos de muestras son grandes, la distribucin de esta variable aleatoria (ix - P,) es aproximadamente normal, es decir:
de donde llegaremos a:
y como los extremos de esta expresin dependen de los parmetros desconocidos px y p y los reemplazaremos por sus estimaciones que para unas muestras
concretas sern:
y nos quedar:
donde z,/,
es tal que
Ejemplo 4.16
En una ciudad A se toma una muestra aleatoria de 98 cabezas de familia,
de los cuales 48 han sido poseedores de acciones de Telefnica. Mientras que
en otra ciudad B se selecciona otra muestra aleatoria de tamao 127 cabezas
de familia, de los cuales 21 han sido poseedores de acciones de Telef6nica.
Obtener un intervalo de confianza al nivel del 95 % para la diferencia entre las
proporciones de cabezas de familia que han sido poseedores de ese tipo de
acciones en ambas ciudades.
275
Solucidn:
De la informacin del enunciado se deduce:
Como el 0 est fuera del rango del intervalo, esto nos indica que es bastante
ms probable que un cabeza de familia de la ciudad A haya tenido acciones de
Telefnica que un cabeza de familia de la ciudad B.
Si, previamente, se fija la longitud del intervalo L y deseamos conocer el tamao de la muestra para obtener ese intervalo al nivel de confianza del
100(1 - M)%, bastar despejar n de la expresin [4.59], pues L, ,z, y a son
conocidos, y tendremos que el tamao de la muestra ser:
Ejemplo 4.17
La longitud de los tornillos fabricados por una determinada mquina se
distribuye segn una distribucin normal con desviacin tpica a = 2 mm. Con
el fin de obtener un intervalo al 99 % de confianza para la longitud media de
los tornillos producidos durante un da determinado se toma una muestra
aleatoria de 10 tornillos cuya longitud media result ser de 96 mm. Calcular el
correspondiente intervalo de confianza con estos datos y determinar el tamao
de muestra necesario para construir un intervalo al 99 % de confianza para la
longitud media de esos tornillos, con una longitud de 2 mm.
277
Solucin:
278
CASAS-SANCHEZ.
J. M.
1 grados de libertad
en donde sZ sino se conoce se estimar de una muestra piloto o con informacin indirecta.
Ejemplo 4.18
279
resultando que necesitaramos una muestra de 52 viajes para obtener el intervalo indicado, es decir hay que tomar 40 observaciones (viajes) aleatorias para
completar la muestra previa de tamao 12.
Tambien podramos hacer el siguiente razonamiento, cuando o sea conocido, como lo hacen algunos autores, si la media p fuera el valor central del
intervalo, entonces i estimana puntualmente a p sin error alguno,
I
+
error
Observemos que el error e es la mitad de la amplitud o precisin del intervalo L, luego las expresiones C4.601 y C4.631 son equivalentes a las expresiones
C4.651 y C4.661, respectivamente.
4.7.3. TAMANO DE MUESTRA PARA ESTIMAR
LA P R O P O R C I ~ N
p DE UNA POBLACI6N
Sabemos que el intervalo al nivel de confianza del 100(1 - a ) % para la
proporcin poblacional p es:
Expresin que utilizaremos para determinar el tamao de la muestra necesario para obtener un intervalo de confianza para la proporcin poblacional p
al nivel de confianza del 100(1 - a)% y, con una longitud L.
e=
28 1
que es equivalente a C4.671, pues all est multiplicado por 4, como veremos en
el ejemplo 4.19.
El valor del estimador
l.B
A partir de una muestra previa.
p4 = j ( 1 - j),que
se
p = 0,s
y entonces el valor mximo de 64 ser:
(1 - p) = 64 = 0,25
Ejemplo 4.19
El Departamento de Estadstica de una Universidad pretende estimar la
proporcin de licenciados matriculados en los estudios de doctorado con un
error mximo del 0,05 y un nivel de confianza del 90 %. Determinar:
1. El tamao de la muestra necesario si se tiene como informacin complementaria que la proporcin como mximo es 0,40.
Solucidn:
1. Aplicando la expresin C4.681
2. Como la precisin es equivalente a la amplitud del intervalo, tendremos que aplicar la expresin C4.671
y vemos que efectivamente coincide con la solucin anterior, como ya indicbamos en el apartado 4.7.2.
3. Como no se tiene informacin alguna sobre el parmetro p tomaremos
el valor ms desfavorable, es decir el valor de p que nos d mximo tamao de
muestra n, y ese ser el valor de p que hace mximo el producto ;y, luego
aplicando la expresin C4.641 o directamente la expresin C4.691 tendremos:
283
P [ ( O , , ..., O,)
R ( X , , ..., X,)]
1-u
,,
"
GRAFICO4.10.
( n - l)SZ
-' X n u2
285
siendo
E' =
fi
podemos encon-
Por otra parte, como los dos sucesos son independientes, la probabilidad
conjunta ser:
" Los valores c, y c , son los que aparecen en la expresin 14.201, es decir:
C,
=%:~,.a,,?
Ci =x:-1.
1 a,,2
Ji-.
Es decir la regin, Grfico 4.11, est limitada por el arco de parbola, cuya
ecuacin es:
o2
n ( 2 - p)'
2
Za.12
GRAFICO4.11.
Ejemplo 4.20
Construir la regin de confianza al nivel del 90 % para los parmetros ir y
una poblacin normal, con la ayuda de una muestra aleatoria tamao
n = 30, en la cual i= 10 y la varianza muestra1 s2 = 9.
02 de
Solucin:
A partir de la expresin C4.753
287
ESTIMACI~N
POR INTERVALOS DE CONFIANZA
ya que
z ~ , ~ 2 5=6 1395
.-,,
2
y para calcular x 2
e,2 y x,-~. l-.,z,
tendremos en cuenta la expresin
C4.731, segn la cual grficamente equivale a:
8,93
de
11,07
confianza
para 11
289
0)
N(P 0)
Desconocida
N(A u)
N(P,
,=,
u
(n - 1)s' =
i=,
1 (x, - i)'
1
,=,
#.
n - 1 ,=,
1 "
(x>- $2
1
"
__
1(x, - X)2
"
1
"
0.2 = s2 = __
(x, n- 1
= s2 =
1
= '2 = -
,=i
.,
02
"
"
1 "
i = i = -
i = s = -1 " x
n L=I
Estimaciones puntuales
A6
P? 0
Parmetros
desconocidos
gp gX
+ z,,,
I-.!z
1.-i
~cJz<r
~!2
=-
(n - 1)s'
1.-1,
a
=-
, P[t,-,>t,,,l=~
t-t,-,
a
2
PCY:-, 1:-,,,-e[2 ] = l - - 2 ' P [ X ~ 1 -
n grande
n pequea
Intervalos de confianza
N(& o)
N ( A <,o)
N(& o)
Poblacin
Parmetros
<,
.w-
li, o
desconocidos
"
i=i
E (xi - d2
ni=,
-3
lxi - p)2
(X;
i=i
1 '
=-
s*2 = -1 '
1 '
6 2 = s*Z = -
z,
"
Estimaciones puntuales
n grande
<
$ oZ
l-
.SZ
1
1z 1 2
(xi - riIZ
[l
N(0,l)
+ zei2
2
-
X.,
oiz
(1;
-
d2
<
=-
1 - z.12
, P [ Z > z,;,]
81
<a
s * ~
C
<U2$;=l
i-,izl= 1 - 2
X.,
2
;= l
a
=-
/$]
sZ
1 - %,2
[l+%.
P[XI <Y;,
n pequea
n grande
Intervalos de confianza
u,)
.VP, o,)
N P , , oJ
N ( p x 9a x )
CCz
ax = uy
OZ?u,.
Px. &
CCx - LCy
Pz, P?
Parmetros
desconocidos
"=
n,
'r
"
1
(xi -
1 i = l (.vi
= --
"y
xj
Yi
xi
1 yi
ny i = 1
=n, - 1 i = ,
;,=y=-
nx i = i
b x = X =y
6 2 = S;
C".
&=y=- 1
"" i = l
i=,
1 '=
,i,=i=;C
Estimaciones puntuales
y)2
i)I
=-
<flX-Py<
P[tnz+np-2> tz,21 = 2
n,+n,-2
N ( 0 , 1 ) , P [ Z > z,,,]
tnx+np-2
n,, n, pequefias
Intervalos de confianza
N(@,>03
N(Pp oJ
Desconocidas
Poblacin
+ 0"
Fx - P,
ox
0- by
'fin 4
Fx - P,
ay
ay
(iX=
0,
Iln Pv
Parmetros
desconocidos
6:
0;
"S
ny-li=l
2)"
(Y; - .?S
1 (x;
1 j=i
=
-
n,
= --
Estimaciones puntuales
+ zz/2
.d
n,, n, pequeas
< (2
n,, n, grandes
n,
-
1)s:
+ (n,
n,
+ n,
r JF]
1)s:
Inter~alosde confianza
PX)
B(1, P Y )
Bit, P )
N ~ P , 0? , )
N(py, a y )
Poblacin
P x -PY
P.?? PY
axa
Parmetros
desconocidos
p = - x=
6;
"
i ~ -i
pJ2
C (Y- pJ2
ny i = l
=-
1 '
i=i
C
nx
py = -Y
P, =
$2 = ,*2 = x
Estimaciones puntuales
z + N(0, 1)
< 0, - 6,)
, P [ Z > z,,,]
=-
< Px - Pr <
1 ) , P [ Z z z,,,] = -
+ zn,2
+ N(0,
(CX - i y ) - zc,z
n pequeo
Intervalos de confianza