Professional Documents
Culture Documents
Yves Till
Groupe de Statistique, Universit de Neuchtel
Espace de lEurope 4, Case postale 1825, 2002 Neuchtel , Suisse
email : yves.tille@unine.ch
18 de enero de 2005
ndice general
1. Poblacin, diseo muestral, y estimacin 4
1.1. Poblacin nita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Plan de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. El estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Estimacin de N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5. Mala propiedad del estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . . . . 6
1.6. El problema de los elefantes de Basu (1971) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2. Muestreo simple 7
2.1. Muestreo simple sin reemplazamiento (o muestro aleatorio simple m.a.s.) . . . . . . . . . . . . 7
2.2. La varianza del plan simple sin reemplazamiento . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3. Algoritmo de seleccin-rechazo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4. Planes simples con reemplazamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5. Comparacin de los planes simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3. Estraticacin 11
3.1. Poblacin y estratos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.2. Muestra, probabilidad de inclusin , estimacin . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.3. Probabilidad de inclusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4. Plan estraticado con ajacin proporcional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.5. Plan estraticado ptimo para el total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.6. Nota sobre la optimalidad en estraticacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.7. Optimalidad y coste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.8. Tamao de muestra mnimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4. Planes con conglomerados, multi-etpicos, y multi-fases 18
4.1. Planes con conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1.1. Notacin y denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.1.2. Seleccin de los conglomerados con probabilidades iguales . . . . . . . . . . . . . . . . 20
4.1.3. El plan sistemtico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2. Plan bietpico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2.1. Poblacin, unidades primarias y secundarias . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2.2. El estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2.3. Seleccin de las unidades primarias con probabilidades iguales . . . . . . . . . . . . . . 25
4.2.4. Plan bietpico autoponderado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.3. Planes multi-etpicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.4. Muestreo en dos fases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5. Muestreo con probabilidades desiguales 29
5.1. Informacin auxiliar y probabilidades de inclusin . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2. Clculo de las probabilidades de inclusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.3. Muestreo con probabilidades desiguales con reemplazamiento . . . . . . . . . . . . . . . . . . 30
5.4. Plan de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.5. Muestreo de entropa mxima con tamao jo . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.6. El diseo muestral sistemtico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1
5.7. El mtodo de escisin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.7.1. Escisin en dos partes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.7.2. Escisin en M partes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.7.3. Plan con un soporte mnimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.7.4. Escisin en planes simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.7.5. El mtodo del pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
5.7.6. Mtodo de Brewer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.8. Varianza en planes con probabilidades desiguales . . . . . . . . . . . . . . . . . . . . . . . . . 36
6. Muestreo equilibrado 37
6.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.2. Representacin por un cubo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.3. Muestras equilibradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4. La martingala equilibrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.5. Implementacin de la fase de vuelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.6. Mtodo simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.7. Implementacin de la fase de aterrizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.8. Varianza en un plan equilibrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7. Estimacin con informaciones auxiliares y planes simples 42
7.1. Postestraticacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
7.1.1. El problema y la notacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
7.1.2. El estimador postestraticado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.1.3. Propiedad del estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.2. Estimacin de calibracin sobre mrgenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7.2.1. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7.2.2. Calibracin sobre mrgenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
7.2.3. Estimacin de calibracin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.3. La variable auxiliar es cuantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.3.1. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.3.2. Notacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
7.3.3. Estimacin de diferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.3.4. Estimacin de razn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.3.5. Precisin del estimador de razn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.3.6. Estimacin de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.3.7. Discusin de los tres mtodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.3.8. Comparacin del estimador de diferencia y del estimador de Horvitz-Thompson . . . 52
7.3.9. Comparacin del estimador de razn y del estimador de Horvitz-Thompson . . . . . . 52
7.3.10. Comparacin del estimador de razn y del estimador de diferencia . . . . . . . . . . . 52
7.3.11. Comparacin del estimador de regresin con los otros estimadores . . . . . . . . . . . 52
8. Estimacin con informaciones auxiliares y planes complejos 54
8.1. El problema y la notacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8.2. El estimador de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8.2.1. Otra presentacin del estimador de regresin . . . . . . . . . . . . . . . . . . . . . . . 55
8.2.2. Calibracin del estimador de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.2.3. Estimacin de razn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.2.4. Plan simple y estimacin de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
8.3. Estimacin de calibracin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
8.3.1. El mtodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
8.3.2. Eleccin de la pseudo-distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.3.3. El mtodo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
8.3.4. El mtodo del raking ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8.3.5. El mtodo logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
8.3.6. El mtodo lineal truncado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2
9. Estimacin de la varianza por linealizacin 65
9.1. Orden de magnitud en probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
9.2. Aproximacin de la varianza por linealizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
9.2.1. Linealisacin de una funcin de totales . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
9.3. Estimacin de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
9.4. Linealizacin por etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
9.5. Descomposicin en etapas de la linealizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
9.6. Linealizacin del estimador de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
10.Referencias 74
3
Captulo 1
Poblacin, diseo muestral, y estimacin
1.1. Poblacin nita
El objetivo es estudiar una poblacin nita
U = {1, . . . , N}
de tamao N.
La variable de inters y toma el valor y
k
, k U.
Vamos a estudiar una funcin de inters de los y
k
,
= f(y
1
, . . . , y
k
, . . . , y
N
).
El total y la media
Y =
kU
y
k
, e Y =
1
N
kU
y
k
.
La varianza
2
y
=
1
N
kU
(y
k
Y )
2
.
La cuasivarianza
S
2
y
=
1
N 1
kU
(y
k
Y )
2
.
1.2. Plan de muestreo
Una muestra s es un subconjunto de la poblacin
s U.
Un diseno muestral p(s) es una distribucin de probabilidad sobre todas las muestras posibles
sU
p(s) = 1.
La muestra aleatoria S toma el valor s con la probabilidad
Pr(S = s) = p(s).
Las variables indicadoras son denidas por :
I
k
=
_
1 si la unidad k S
0 si la unidad k / S
4
La probabilidad de inclusin
k
= E(I
k
) = Pr(k S) =
sk
p(s).
La probabilidad de inclusin de segundo orden:
k
= E(I
k
I
) = Pr(k y S) =
sk,
p(s).
Adems
k
= Cov(I
k
, I
)
_
k
(1
k
) si k =
k
k
si k =
Si el diseo muestral es de tamao jo, entonces
kU
k
= n
k
= n
k
(con )
kk
=
k
.
1.3. El estimador de Horvitz-Thompson
El estimador de Horvitz-Thompson viene dado por
kS
y
k
k
,
e
=
1
N
kS
y
k
k
.
El estimador de Horvitz-Thompson es insesgado, si
k
> 0, k U,
E
_
_
= E
_
kS
y
k
k
_
= E
_
kU
y
k
k
I
k
_
=
kU
y
k
k
E (I
k
)
=
kU
y
k
k
=
kU
y
k
= Y.
La varianza del estimador de Horvitz-Thompson es
V ar
_
_
=
kU
y
2
k
2
k
k
(1
k
) +
kU
U
=k
y
k
y
k
. (1.1)
Se puede demostrar que con un tamao jo de muestra
V ar
_
_
=
1
2
kU
U
=k
_
y
k
_
2
k
. (1.2)
5
La varianza puede estimarse por
V ar
_
_
=
kS
y
2
k
2
k
(1
k
) +
kS
S
=k
y
k
y
kl
. (1.3)
Si el plan es de tamao jo,
V ar
_
_
=
1
2
kS
S
=k
_
y
k
_
2
k
. (1.4)
1.4. Estimacin de N
Como N es un total
N =
kU
1,
podemos estimar N por el estimador de Horvitz-Thompson
kS
1
k
.
1.5. Mala propiedad del estimador de Horvitz-Thompson
El estimador de Horvitz-Thompson tiene una mala propiedad, cuando la variable es constante, y
k
= C
=
1
N
kS
y
k
k
=
1
N
kS
C
k
= C
1
N
kS
1
k
= C
N
1.6. El problema de los elefantes de Basu (1971)
The circus owner is planning to ship his 50 adult elephants and so he needs a rough estimate of the total
weight of the elephants. As weighing an elephant is a cumbersome process, the owner wants to estimate the
total weight by weighing just one elephant. Which elephant should he weigh ? So the owner looks back on his
records and discovers a list of the elephants weights taken 3 years ago. He nds that 3 years ago Sambo the
middle-sized elephant was the average (in weight) elephant in his herd. He checks with the elephant trainer
who reassures him (the owner) that Sambo may still be considered to be the average elephant in the herd.
Therefore, the owner plans to weigh Sambo and take 50 y (where y is the present weight of Sambo) as an
estimate of the total weight Y = Y1 + Y2 + . . . + Y50 of the 50 elephants. But the circus statistician is
horried when he learns of the owners purposive samplings plan. How can you get an unbiased estimate of Y
this way ? protests the statistician. So, together they work out a compromise sampling plan. With the help
of a table of random numbers they devise a plan that allots a selection probability of 99/100 to Sambo and
equal selection probabilities 1/4900 to each of the other 49 elephants. Naturally, Sambo is selected and the
owner is happy. How are you going to estimate Y?, asks the statistician. Why ? The estimate ought to be
50y of course, says the owner. Oh! No! That cannot possibly be right, says the statistician, I recently read
an article in the Annals of Mathematical Statistics where it is proved that the Horvitz-Thompson estimator
is the unique hyperadmissible estimator in the class of all generalized polynomial unbiased estimators.
What is the Horvitz-Thompson estimate in this case? asks the owner, duly impressed. Since the selection
probability for Sambo in our plan was 99/100, says the statistician, the proper estimate of Y is 100y/99
and not 50y. And, how would you have estimated Y, inquires the incredulous owner, if our sampling
plan made us select, say, the big elephant Jumbo? According what I understand of the Horvitz-Thompson
estimation method, says the unhappy statistician, the proper estimate of Y would then have been 4900y,
where y is Jumbos weight. That is how the statistician lost his circus job (and perhaps became teacher of
statistics!).
6
Captulo 2
Muestreo simple
2.1. Muestreo simple sin reemplazamiento (o muestro aleatorio sim-
ple m.a.s.)
Denicin 1 Un diseo muestral es aleatorio simple si todas las muestras de mismo tamao tienen la
misma probabilidad de ser seleccionadas.
Existe solamente un solo plan simple de tamao jo.
p(s) =
_
_
_
_
N
n
_
1
si #s = n
0 en caso contrario ,
donde
_
N
n
_
=
N!
n!(N n)!
.
k
=
sk
p(s) =
sk
_
N
n
_
1
=
_
N 1
n 1
__
N
n
_
1
=
n
N
, para todo k U.
Probabilidades de inclusin del segundo orden :
k
=
sk,
p(s) =
sk,
_
N
n
_
1
=
_
N 2
n 2
__
N
n
_
1
=
n(n 1)
N(N 1)
,
para todos k = U. Luego tenemos,
k
=
_
k
k
=
n(n 1)
N(N 1)
n
2
N
2
=
n(N n)
N
2
(N 1)
si k =
k
(1
k
) =
n
N
_
1
n
N
_
=
n(N n)
N
2
si k = .
(2.1)
=
1
N
kS
y
k
k
=
1
N
kS
y
k
N
n
=
1
n
kS
y
k
.
kS
y
k
k
=
kS
y
k
N
n
=
N
n
kS
y
k
= N
.
7
2.2. La varianza del plan simple sin reemplazamiento
V ar
_
_
=
1
2
kU
U
=k
_
y
k
_
2
k
(2.2)
=
1
2
kU
U
=k
_
y
k
N
n
y
N
n
_
2
n(N n)
N
2
(N 1)
(2.3)
=
N(N n)
n
1
2N(N 1)
kU
U
=k
(y
k
y
)
2
(2.4)
= N
2
N n
N
S
2
y
n
. (2.5)
Teorema 1 En un m.a.s., la cuesivarianza de la poblacin es
S
2
y
=
1
N 1
kU
(y
k
Y )
2
,
y puede estimarse por
s
2
y
=
1
n 1
kS
(y
k
Y
)
2
Demostracin
E(s
2
y
) = E
_
1
n 1
kS
(y
k
Y
)
2
_
= E
_
_
1
2n(n 1)
kS
S
=k
(y
k
y
)
2
_
_
=
1
2n(n 1)
kU
U
=k
(y
k
y
)
2
E (I
k
I
)
=
1
2n(n 1)
kU
U
=k
(y
k
y
)
2
n(n 1)
N(N 1)
=
1
2N(N 1)
kU
U
=k
(y
k
y
)
2
= S
2
y
.
2
2.3. Algoritmo de seleccin-rechazo
Fan, Muller y Rezucha (1962)y Bebbington (1975)
2.4. Planes simples con reemplazamiento
Seleccin con reemplazamiento de manera independiente
S las unidades de la muestra son
y
1
, ..., y
i
, ..., y
m
8
Algortmo 1
Cuadro 2.1: Mtodo de seleccin-rechazo
Si u <
n j
N k
seleccionar la unidad k + 1;
j = j + 1;
sino pasar la unidad k + 1;
k = k + 1.
Los y
i
son m variables aleatorias de varianza
2
y
=
1
N
kU
(y
k
Y )
2
.
Se puede estimar Y sin sesgo por
Y
CR
=
1
m
m
i=1
y
i
=
1
m
S
y
k
.
La varianza de
Y
CR
es
V ar(
Y
CR
) =
1
m
2
m
i=1
V ar( y
i
) =
1
m
2
m
i=1
2
y
=
2
y
m
. (2.6)
y puede estimarse por
s
2
y
=
1
m1
m
i=1
( y
i
Y
CR
)
2
.
La varianza del estimador de la media puede estimarse por
V ar(
Y
CR
) =
s
2
y
m
.
9
2.5. Comparacin de los planes simples
Cuadro 2.2: Planes simples
Plan simple Sin reemplazamiento Con reemplazamiento
Tamao de la muestra n m
Estimador de la media
Y
SR
=
1
n
kS
y
k
Y
CR
=
1
m
S
y
k
Varianza del estimador V ar
_
Y
SR
_
=
(N n)
nN
S
2
y
V ar
_
Y
CR
_
=
2
y
m
Esperanza de la varianza E
_
s
2
y
_
= S
2
y
E
_
s
2
y
_
=
2
y
Estimador de la varianza
V ar
_
Y
SR
_
=
(N n)
nN
s
2
y
V ar
_
Y
CR
_
=
s
2
y
m
Ejercicio 1
Seleccione una muestra de tamao 4 en una poblacin de tamao 10 segn un plan simple sin reemplazamiento
con el mtodo de seleccin-rechazo. Use las realizaciones siguientes de una variable aleatoria uniforme [0, 1]
:
0, 375489 0, 624004 0, 517951 0, 0454450 0, 632912
0, 246090 0, 927398 0, 32595 0, 645951 0, 178048.
10
Captulo 3
Estraticacin
3.1. Poblacin y estratos
Poblacin U = {1, ..., k, ..., N} dividida en H subconjuntos, U
h
, h = 1, .., H, llamados estratos
H
_
h=1
U
h
= U y U
h
U
i
= , h = i.
Siendo N
h
el tamao del estrato U
h
.
H
h=1
N
h
= N.
El objetivo es estimar
Y =
kU
y
k
=
H
h=1
kU
h
y
k
=
H
h=1
Y
h
,
donde
Y
h
=
kU
h
y
k
.
Y =
1
N
kU
y
k
=
1
N
H
h=1
kU
h
y
k
=
1
N
H
h=1
N
h
Y
h
,
donde Y
h
es la media calculada en el estrato h
Y
h
=
1
N
h
kU
h
y
k
.
Adems,
2
yh
representa la varianza del estrato h
2
yh
=
1
N
h
kU
h
_
y
k
Y
h
_
2
y S
2
yh
la cuasivarianza
S
2
yh
=
N
h
N
h
1
2
yh
.
La varianza total
2
y
se logra por
2
y
=
1
N
kU
(y
k
Y )
2
=
1
N
H
h=1
N
h
2
yh
+
1
N
H
h=1
N
h
(Y
h
Y )
2
. (3.1)
Esta igualdad es la descomposicin clsica de la varianza, que se escribe
2
y
=
2
y(intra)
+
2
y(inter)
11
donde
2
y(intra)
es la varianza intra-estratos
2
y(intra)
=
1
N
H
h=1
N
h
2
yh
y
2
y(inter)
es la varianza inter-estratos
2
y(inter)
=
1
N
H
h=1
N
h
(Y
h
Y )
2
.
3.2. Muestra, probabilidad de inclusin , estimacin
Un diseo muestral es estraticado si,
- en cada estrato, se selecciona una muestra simple aleatoria de tamao jo n
h
- la seleccin de una muestra en un estrato es independiente de seleccin de las muestras de los otros estratos.
S
h
representa la muestra aleatoria seleccionada en el estrato h con el plan p
h
(.), donde p
h
(s
h
) = Pr(S
h
= s
h
).
La muestra aleatoria total es
S =
H
_
h=1
S
h
.
Adems, de manera general s representa un valor posible de S donde
s =
H
_
h=1
s
h
.
Figura 3.1: Plan estraticado
1
1
h
U U
s
s
s
U
H
H
h
El diseo muestral global es p(.) donde
p(s) = Pr(S = s).
Por la independencia de las selecciones en cada estrato, tenemos
p(s) =
H
h=1
p
h
(s
h
), s =
H
_
h=1
s
h
.
n
h
representa el tamao de la muestra en el estrato h, tenemos
H
h=1
n
h
= n,
donde n es el tamao de la muestra.
12
3.3. Probabilidad de inclusin
Si la unidad k est en el estrato h,
k
=
n
h
N
h
, k U
h
.
Para calcular las probabilidades de inclusin de segundo orden, tenemos que separar dos casos :
En el caso donde las unidades k y estn en el mismo estrato
k
=
n
h
(n
h
1)
N
h
(N
h
1)
, k y U
h
.
Si dos individuos k y estn en dos estratos distintos,
k
=
n
h
n
i
N
h
N
i
, k U
h
y U
i
.
Se logra
k
=
_
_
n
h
N
h
N
h
n
h
N
h
si = k, k U
h
n
h
(N
h
n
h
)
N
2
h
(N
h
1)
si k y U
h
, k =
0 si k U
h
y U
i
, h = i.
(3.2)
El -estimador
Y
estrat
=
kS
y
k
k
=
H
h=1
N
h
n
h
kS
h
y
k
=
H
h=1
Y
h
,
y
Y
strat
=
1
N
kS
y
k
k
=
1
N
H
h=1
N
h
n
h
kS
h
y
k
=
1
N
H
h=1
N
h
Y
h
.
donde
Y
h
es el estimador del total del estrato h
Y
h
=
N
h
n
h
kS
h
y
k
.
e
Y
h
es la media de la muestra en el estrato h
Y
h
=
1
n
h
kS
h
y
k
.
Como la selecciones son independientes entre los estratos y que los planes son simples en los estratos :
V ar
_
Y
strat
_
= V ar
_
H
h=1
Y
h
_
=
H
h=1
V ar
_
Y
h
_
=
H
h=1
N
h
N
h
n
h
n
h
S
2
yh
. (3.3)
La varianza de este estimador puede estimarse sin sesgo por
V ar
_
Y
strat
_
=
H
h=1
N
h
N
h
n
h
n
h
s
2
yh
, (3.4)
donde
s
2
yh
=
1
n
h
1
kS
h
(y
k
Y
h
)
2
, h = 1, ..., H.
13
3.4. Plan estraticado con ajacin proporcional
Un plan estraticado tiene una ajacin proporcional, si
n
h
N
h
=
n
N
, h = 1, ..., N.
Suponemos que n
h
= nN
h
/N son enteros. El estimador del total es
Y
prop
=
H
h=1
Y
h
=
N
n
kS
y
k
,
y el estimador de la media
Y
prop
=
1
N
H
h=1
N
h
Y
h
=
1
n
kS
y
k
,
donde
Y
h
es la media de la muestra en el estrato h e
Y
h
es el estimador del total en el estrato h
Y
h
=
1
n
h
kS
h
y
k
.
La varianza del estimador del total se simplica
V ar(
Y
prop
) =
N n
n
H
h=1
N
h
S
2
yh
, (3.5)
y la varianza del estimador de la media viene dada por :
V ar(
Y
prop
) =
N n
nN
2
H
h=1
N
h
S
2
yh
. (3.6)
Si N es grande, S
2
yh
2
yh
.
V ar(
Y
prop
)
N n
nN
2
H
h=1
N
h
2
yh
=
N n
N
2
y(intra)
n
. (3.7)
Comparacin del plan estraticado con el muestro aleatorio simple.
V ar(
Y
srs
)
N n
N
2
y
n
. (3.8)
La varianza del estimador de la media puede estimarse por :
V ar(
Y
prop
) =
N n
nN
2
H
h=1
N
h
s
2
yh
, (3.9)
donde
s
2
yh
=
1
n
h
1
kS
h
(y
k
Y
h
)
2
, h = 1, ..., H.
3.5. Plan estraticado ptimo para el total
Neyman (1934)
Se busca la ajacin para los tamaos en la muestra n
1
, ..., n
h
, ..., n
H
que maximiza la varianza del estimador
de Horvitz-Thompson para un tamao de muestreo jo.
Tenemos que minimizar
V ar(
Y
strat
) =
H
h=1
N
h
N
h
n
h
n
h
S
2
yh
, (3.10)
14
en n
1
, ..., n
h
, ..., n
H
sujeta a que
H
h=1
n
h
= n. (3.11)
Podemos escribir la ecuacin de Lagrange
L(n
1
, ..., n
H
, ) =
H
h=1
N
h
N
h
n
h
n
h
S
2
yh
+
_
H
h=1
n
h
n
_
.
Anulamos las derivadas parciales respecto a los n
h
e a , se logra
L
n
h
=
N
2
h
n
2
h
S
2
yh
+ = 0, h = 1, ..., H, (3.12)
y
L
=
H
h=1
n
h
n = 0. (3.13)
Luego
n
h
=
N
h
S
yh
, h = 1, ..., H. (3.14)
y
H
h=1
n
h
= n =
H
h=1
N
h
S
yh
.
Obtenemos
H
h=1
N
h
S
yh
n
. (3.15)
y nalmente
n
h
=
nN
h
S
yh
H
h=1
N
h
S
yh
, h = 1, ..., H. (3.16)
Nota
Hay un problema de redondeo,
Se puede obtener n
h
> N
h
.
3.6. Nota sobre la optimalidad en estraticacin
Sea una poblacin dividida en dos estratos H = 2 donde queremos estimar la diferencia D = Y
1
Y
2
.
El estimador
D =
Y
1
Y
2
.
Como las selecciones de las muestras son independientes entre los estratos
V ar
_
D
_
= V ar
_
Y
1
_
+V ar
_
Y
2
_
=
N
1
n
1
n
1
N
1
S
2
y1
+
N
2
n
2
n
2
N
2
S
2
y2
. (3.17)
Se minimiza (3.17) sujeta a que n
1
+n
2
= n y se logra
n
h
=
S
yh
, h = 1, 2,
donde es el multiplicador de Lagrange. Como n
1
+n
2
= n, se logra
n
h
=
nS
yh
S
y1
+S
y2
, h = 1, 2.
15
3.7. Optimalidad y coste
El problema es estimar un total Y para un coste jado C. Minimizamos la expresin (3.10) sujeta a que
H
h=1
n
h
C
h
= C,
donde C
h
es el coste de la entrevista en el estrato h.
Obtenemos
_
_
n
h
=
N
h
S
yh
C
h
, h = 1, ..., H,
H
h=1
n
h
C
h
= C,
donde es el multiplicador de Lagrange, y
n
h
=
CN
h
S
yh
C
h
H
=1
N
S
y
.
3.8. Tamao de muestra mnimo
Otra manera de abordar el problema es buscar la ajacin que da el tamao de muestra mnimo para una
varianza jada.
Sea
a
h
= n
h
/n, h = 1, ..., H,
entonces
H
h=1
a
h
= 1.
De (3.10),
V ar(
Y
strat
) =
H
h=1
N
h
N
h
na
h
na
h
S
2
yh
. (3.18)
Buscamos entonces un valor mnimo de (3.18) en a
1
, ..., a
H
, para un valor jado V ar(
Y
strat
) representado
por V . Sustituyendo (3.18) en V ar(
Y
strat
) por V , se logra
V =
1
n
H
h=1
N
2
h
a
h
S
2
h
H
h=1
N
h
S
2
h
,
lo que se puede escribir
n =
H
h=1
N
2
h
a
h
S
2
h
V +
H
h=1
N
h
S
2
h
. (3.19)
Entonces minimizamos
n =
H
h=1
N
2
h
a
h
S
2
h
V +
H
h=1
N
h
S
2
h
. (3.20)
en a
1
, ..., a
H
, sujeta a que
H
h=1
a
h
= 1,
y despus de algunos clculos, tenemos
a
h
=
N
h
S
yh
H
=1
N
S
y
. (3.21)
16
Se logra el mismo tipo de ajacin . Finalmente se puede jar el tamao de la muestra
n
=
_
H
h=1
N
h
S
yh
_
2
V +
H
h=1
N
h
S
2
yh
.
Ejercicio 2
Queremos estimar medias para las empresas de un departamento. Las empresas son clasicadas segn el
volumen de negocios y son clasicadas en tres clases. Los datos de un censo son los siguientes :
Volumen de negocios Nmero de empresas
de 0 a 1 1000
de 1 a 10 100
de 10 a 100 10
Se quiere seleccionar una muestra de 111 empresas. Si se supone que la distribucin es uniforme en cada
estrato, calcule la varianza del estimador de la media del volumen de negocios para un plan con representacin
proporcional y para un plan estraticado ptimo.
17
Captulo 4
Planes con conglomerados,
multi-etpicos, y multi-fases
4.1. Planes con conglomerados
4.1.1. Notacin y denicin
La poblacin U = {1, ..., k, ..., N} se divide en M subconjuntos, U
i
, i = 1, .., M, llamados conglomerados
M
_
i=1
U
i
= U y U
i
U
j
= , i = j.
El nmero N
i
de unidades del conglomerado i se llama el tamao del conglomerado :
M
i=1
N
i
= N,
donde N es el tamao de la poblacin U. El total puede escribirse
Y =
kU
y
k
=
M
i=1
kU
i
y
k
=
M
i=1
Y
i
y la media
Y =
1
N
kU
y
k
=
1
N
M
i=1
kU
i
y
k
=
1
N
M
i=1
N
i
Y
i
,
e Y
i
es el total del conglomerado i e Y
i
la media del conglomerado i :
Y
i
=
kU
i
y
k
, i = 1, ..., M,
Y
i
=
1
N
i
kU
i
y
k
, i = 1, ..., M.
Adems,
2
yi
representa la varianza del conglomerado i
2
yi
=
1
N
i
kU
i
_
y
k
Y
i
_
2
y S
2
yi
la varianza corregida
S
2
yi
=
N
i
N
i
1
2
yi
.
Un plan es por conglomerados si
18
se selecciona una muestra de conglomerados s
I
con un plan p
I
(s
I
), S
I
representa la muestra aleatoria
tal que Pr(S
I
= s
I
) = p
I
(s
I
) y m = #S
I
, el nmero de conglomerados seleccionados.
Todas las unidades de los conglomerados seleccionados son observadas :
Figura 4.1: Plan con conglomerados
M-2 M-1 M
U U U
U U U U U
1 2 3 4 5
U U U
i-1 i i+1
La muestra aleatoria completa viene dada por
S =
_
iS
I
U
i
.
El tamao de S es
n =
iS
I
N
i
.
El tamao de la muestra es generalmente aleatorio.
La probabilidad de seleccionar un conglomerado es
Ii
=
s
I
i
p
I
(s
I
), i = 1, ..., M,
La probabilidad de seleccionar dos conglomerados distintos es
Iij
=
s
I
i,j
p
I
(s
I
), i = 1, ..., M, j = 1, ..., M, i = j.
Si la unidad k est en el conglomerado i, tenemos
k
=
Ii
, k U
i
.
Para las probabilidades de inclusin del segundo orden hay que separar dos casos :
Si k y estn en el mismo conglomerado i,
k
=
Ii
, k y U
i
.
Si k y no estn en el mismo conglomerado respectivamente i y j,
k
=
Iij
, k U
i
y U
j
, i = j.
Las condiciones de Sen-Yates-Grundy no se verican.
En efecto, si k y U
i
, entonces
k
=
2
Ii
Ii
=
Ii
(1
Ii
).
El estimador de Horvitz-Thompson del total y de la media son
iS
I
Y
i
Ii
,
19
y
=
1
N
iS
I
N
i
Y
i
Ii
.
La varianza
V ar(
) =
M
i=1
Y
2
i
Ii
(1
Ii
) +
M
i=1
M
j=1
j=i
Y
i
Y
j
Ii
Ij
(
Iij
Ii
Ij
). (4.1)
Si el nmero de conglomerados es jo,
V ar(
) =
1
2
M
i=1
M
j=1
j=i
_
Y
i
Ii
Y
j
Ij
_
2
(
Ii
Ij
Iij
). (4.2)
Estimacin de la varianza
V ar(
)
1
=
iS
I
Y
2
i
2
Ii
(1
Ii
) +
iS
I
jS
I
j=i
Y
i
Y
j
Ii
Ij
Iij
Ii
Ij
Iij
. (4.3)
Cuando el nmero de conglomerados seleccionados es jo, se puede construir otro estimador de esta varianza
mediante (4.2)
V ar(
)
2
=
1
2
iS
I
jS
I
j=i
_
Y
i
Ii
Y
j
Ij
_
2
Ii
Ij
Iij
Iij
.
Una aproximacin practica (pero sesgada) es
V ar(
)
3
=
iS
I
c
Ii
2
Ii
_
Y
i
Y
i
_
2
, (4.4)
donde
i
=
Ii
jS
c
Ij
Y
j
/
Ij
jS
c
Ij
,
y donde
c
Ii
= (1
Ii
)
m
m1
.
En los planes por conglomerados, el estimador de Horvitz-Thompson tiene una mala propiedad.
Si la variable es constante (y
k
= C, para todos k U), se logra
= C
1
N
iS
I
N
i
Ii
.
En este caso, es preferible usar el razn de Hjek :
Y
R
=
_
iS
I
N
i
Ii
_
1
_
iS
I
Y
i
Ii
_
.
4.1.2. Seleccin de los conglomerados con probabilidades iguales
Un plan clsico es seleccionar los conglomerados por un m.a.s. de tamao m.
Ii
=
m
M
, i = 1, ..., M,
y
Iij
=
m(m1)
M(M 1)
, i = 1, ..., M.
20
El tamao de la muestra es aleatorio. Su esperanza es
E (n
S
) = E
_
iS
I
N
i
_
=
iU
I
N
i
m
M
=
Nm
M
,
lo que permite construir el estimador de Horvitz-Thompson del total :
Y =
M
m
iS
I
Y
i
y de la media
=
M
Nm
iS
I
N
i
Y
i
.
La varianza es
V ar(
Y ) =
M m
M 1
M
m
M
i=1
_
Y
i
Y
M
_
2
, (4.5)
y puede estimarse sin sesgo por
V ar(
Y ) =
M m
m1
M
m
iS
I
_
Y
i
Y
M
_
2
. (4.6)
4.1.3. El plan sistemtico
El plan sistemtico puede verse como un plan con conglomerados donde se selecciona un solo conglom-
erado.
4.2. Plan bietpico
4.2.1. Poblacin, unidades primarias y secundarias
Sea la poblacin U = {1, ..., k, ..., N} compuesta de M subpoblaciones, U
i
, i = 1, ..., M, llamadas unidades
primarias. Cada unidad U
i
se compone de N
i
unidades secundarias , tenemos
M
i=1
N
i
= N,
donde N es el tamao de la poblacin U.
De manera general, un plan bietpico se dene de la manera siguiente :
Una muestra de unidades primarias es seleccionada con un plan p
I
(s
I
). S
I
representa la muestra
aleatoria tal que Pr(S
I
= s
I
) = p
I
(s
I
) y m = #S
I
;
Si una unidad primaria U
i
se selecciona en la primera etapa U
i
, se selecciona una muestra s
i
de unidades
secundarias con el plan p
i
(s
i
). S
i
representa la muestra aleatoria de unidades primarias seleccionadas
de manera que Pr(S
i
= s
i
) = p
i
(s
i
) y n
i
= #S
i
.
Los planes bietpicos tienen que tener las dos propiedades de invarianza y de independencia. La in-
varianza signica que los planes p
i
(s
i
) de la segunda etapa no dependen de lo que pas en la primera
etapa, entonces Pr(S
i
= s
i
) = Pr(S
i
= s
i
|S
I
). La independencia signica que las selecciones de la
segunda etapa son independientes las unas de las otras (como en estraticacin).
La muestra aleatoria viene dada por
S =
_
iS
I
S
i
.
Para la variable y, el total se escribe
Y =
kU
y
k
=
M
i=1
kU
i
y
k
=
M
i=1
Y
i
,
21
Figura 4.2: Plan bietpico
M-2 M-1 M
U U U
U U U U U
1 2 3 4 5
i-1 i i+1
U U U
donde Y
i
es el total calculado en la unidad primaria i
Y
i
=
kU
i
y
k
, i = 1, ..., M.
Del mismo modo, la media calculada en la poblacin se escribe
Y =
1
N
kU
y
k
=
1
N
M
i=1
kU
i
y
k
=
1
N
M
i=1
N
i
Y
i
,
donde Y
i
es la media calculada en la unidad primaria i
Y
i
=
1
N
i
kU
i
y
k
, i = 1, ..., M.
2
yi
es la varianza en U
i
2
yi
=
1
N
i
kU
i
_
y
k
Y
i
_
2
,
y S
2
yi
la varianza corregida
S
2
yi
=
N
i
N
i
1
2
yi
.
La muestra aleatoria total est formada par :
S =
_
iS
I
S
i
.
El tamao de S es
n =
iS
I
n
i
.
El tamao de S es generalmente aleatorio.
Podemos denir
-
Ii
: La probabilidad de seleccionar la unidad primaria U
i
.
-
Iij
, La probabilidad de inclusin del segundo orden para dos unidades primarias U
i
y U
j
.
Estas probabilidades vienen del plan p
I
(s
I
). Al nal, tenemos
Iij
=
_
Iij
Ii
Ij
si i = j
Ii
(1
Ii
) si j = i.
(4.7)
-
k|i
, la probabilidad de seleccionar la unidad k dado que i ha sido seleccionada
-
k|i
la probabilidad de seleccionar conjuntamente k y dado que i ha sido seleccionada.
k|i
=
_
k|i
k|i
|i
si k =
k|i
(1
k|i
) si k =
, i = 1, ..., M. (4.8)
La probabilidad de inclusin de la unidad es
k
=
Ii
k|i
, k U
i
.
Para las probabilidades de inclusin del segundo orden, hay que separar dos casos :
22
Si dos unidades k y estn en la misma unidad primaria U
i
,
k
=
Ii
k|i
.
Si dos unidades k y estn en dos unidades primarias distintas , U
i
y U
j
,
k
=
Iij
k|i
|j
.
4.2.2. El estimador de Horvitz-Thompson
El estimador de Horvitz-Thompson del total es
iS
I
kS
i
y
k
Ii
k|i
=
iS
I
Y
i
Ii
,
donde
Y
i
es el estimador de Horvitz-Thompson de Y
i
Y
i
=
kS
i
y
k
k|i
,
y el estimador de Horvitz-Thompson de la media por
=
1
N
iS
I
kS
i
y
k
Ii
k|i
.
Teorema 2 En un plan bietpico
V ar(
) = V
UP
+V
US
,
donde V
UP
es la parte que se reere a las unidades primarias
V
UP
=
M
i=1
M
j=1
Y
i
Y
j
Ii
Ij
Iij
,
V
US
es la parte que se reere a las unidades secundarias
V
US
=
M
i=1
V ar(
Y
i
)
Ii
,
y
V ar(
Y
i
) =
kU
i
U
i
y
k
y
k|i
|i
k|i
, i = 1, ..., M. (4.9)
Demostracin
La varianza se divide en dos partes :
V ar
_
_
= V arE
_
|S
I
_
+EV ar
_
|S
I
_
.
La varianza de la esperanza condicional es
V arE
_
|S
I
_
= V arE
_
iS
I
Y
i
S
I
_
.
Por la propiedad de invarianza
E
_
iS
I
Y
i
S
I
_
=
iS
I
E
_
Y
i
S
I
_
=
iS
I
E
_
Y
i
_
=
iS
I
Y
i
Ii
.
Luego
V arE
_
|S
I
_
= V ar
_
iS
I
Y
i
Ii
_
=
M
i=1
M
j=1
Y
i
Y
j
Ii
Ij
Iij
.
23
La esperanza de la varianza condicional es
EV ar
_
|S
I
_
= EV ar
_
iS
I
Y
i
Ii
S
I
_
.
Por las propiedades de invarianza y de independencia
V ar
_
iS
I
Y
i
Ii
S
I
_
=
iS
I
V ar
_
Y
i
Ii
S
I
_
=
iS
I
V ar
_
Y
i
_
2
Ii
.
Luego,
EV ar
_
|S
I
_
= E
_
_
iS
I
V ar
_
Y
i
_
2
Ii
_
_
=
M
i=1
V ar
_
Y
i
_
Ii
,
donde V ar
_
Y
i
_
es dado en (4.9). 2
Teorema 3 En un plan bietpico
V ar
1
(
) =
V
UP
+
V
US
es un estimador insesgado de V ar(
), donde
V
UP
es la parte de la varianza que se reere a las unidades
primarias
V
UP
=
iS
I
jS
I
Y
i
Y
j
Ii
Ij
Iij
Iij
,
(con
Iii
=
Ii
,)
V
US
es la parte de la varianza que se reere a las unidades secundarias
V
US
=
iS
I
V ar(
Y
i
)
Ii
,
y
V ar(
Y
i
) =
kS
i
S
i
y
k
y
k|i
|i
k|i
k|i
,
con
kk|i
=
k|i
.
Demostracin
Como
E
_
Y
i
Y
j
|S
I
_
=
_
V ar(
Y
i
) +Y
2
i
si i = j
Y
i
Y
j
si i = j,
E[
V
UP
] = EE
_
_
iS
I
jS
I
Y
i
Y
j
Ii
Ij
Iij
Iij
S
I
_
_
= E
_
_
iS
I
jS
I
Y
i
Y
j
Ii
Ij
Iij
Iij
+
iS
I
V ar(
Y
i
)
2
Ii
(1
Iij
)
_
_
=
M
i=1
M
j=1
Y
i
Y
j
Ii
Ij
Iij
+
M
i=1
V ar(
Y
i
)
_
1
Iij
1
_
.
24
De otra parte
E[
V
US
] = EE
_
iS
I
V ar(
Y
i
)
Ii
S
I
_
= E
_
iS
I
V ar(
Y
i
)
Ii
_
=
M
i=1
V ar(
Y
i
)
=
M
i=1
V ar(
Y
i
)
Ii
+
M
i=1
V ar(
Y
i
)
_
1
1
Ii
_
.
Entonces tenemos
E[
V
UP
] +E[
V
US
] = V ar[
].
2
Es importante ver que
V
UP
es un estimador sesgado de V
UP
y que
V
US
es un estimador sesgado de V
US
. El
estimador
V
UP
sobrestima V
UP
y prcticamente
V
UP
es a veces ms grande
V
US
.
De nuevo, hay un estimador ms prctico, pero sesgado
V ar
2
(
) =
iS
I
c
Ii
2
Ii
_
Y
i
i
_
2
+
iS
I
1
Ii
kS
i
c
k|i
2
k|i
_
y
k
y
k
_
2
, (4.10)
donde
i
=
Ii
jS
c
Ij
Y
j
/
Ij
jS
c
Ij
,
c
Ii
= (1
Ii
)
m
m1
,
k
=
k|i
kS
i
c
k|i
y
k
/
k|i
kS
i
c
k|i
,
c
k|i
= (1
k|i
)
n
i
n
i
1
.
4.2.3. Seleccin de las unidades primarias con probabilidades iguales
En las dos etapas se usa un plan simple.
Las probabilidades de inclusin para la primera etapa
Ii
=
m
M
, i = 1, ..., M
y
Iij
=
m(m1)
M(M 1)
, i = 1, ..., M, j = 1, ..., M, i = j.
Para la segunda etapa n
i
, La probabilidad de inclusin para todo el diseo muestral
k
=
mn
i
MN
i
.
El estimador de Horvitz-Thompson es
=
M
m
iS
I
kS
i
N
i
y
k
n
i
,
y su estimador de varianza se simplica
V ar(
) = M
2
M m
Mm
s
2
I
+
M
m
iS
I
N
2
i
N
i
n
i
n
i
N
i
s
2
i
,
25
donde
s
2
I
=
1
m1
iS
I
_
Y
i
M
_
2
,
y
s
2
i
=
1
n
i
1
kS
i
_
y
k
Y
i
N
i
_
2
.
Se puede coger tamaos de muestras de unidades secundarios proporcionales a los tamaos de la poblacin
n
i
= n
0
N
i
N
,
Se logra
k|i
=
n
0
N
, k U
i
.
Al nal, la probabilidad de inclusin para todo el diseo muestral
k
=
n
0
mN
i
MN
.
Este plan tiene problemas importantes. El tamao de la muestra n
S
es aleatorio, y es de media
E (n
S
) = E
_
kS
I
n
i
_
= E
_
kS
I
n
0
N
i
N
_
=
kU
I
n
0
N
i
N
m
M
=
mn
0
N
i
N
.
4.2.4. Plan bietpico autoponderado
En la primera etapa, se selecciona las unidades primarias con probabilidades de inclusin proporcionales al
tamao de las unidades primarias
Ii
=
N
i
N
m,
Se supone
Ii
< 1.
En la segunda etapa se selecciona unidades secundarias segn un plan aleatorio simple sin reemplazamiento
con un tamao de muestra n
i
= n
0
constante (en cada unidad primaria).
k|i
=
n
0
N
i
.
La probabilidad de inclusin es
k
=
Ii
k|i
=
N
i
N
mn
0
N
i
=
mn
0
N
, k U
i
.
Las probabilidades de inclusin son constantes para todas las unidades primarias de la poblacin.
El plan es de tamao jo.
El estimador de Horvitz-Thompson del total es :
=
N
n
kS
y
k
.
4.3. Planes multi-etpicos
Suponemos que tenemos M unidades primarias y que el primer diseo muestral consiste en seleccionar m
unidades primarias con probabilidades de inclusin
Ii
para i = 1, ..., M. Tambin S
I
representa la muestra
aleatoria de unidades primarias seleccionadas. Suponemos que en cada unidad primaria, se puede calcular el
estimador de Horvitz-Thompson
Y
i
del total Y
i
para las m unidades primarias seleccionadas. El estimador
de Horvitz-Thompson del total viene dado por
kS
I
Y
i
Ii
.
26
Usando exactamente el mismo desarrollo que por los planes bietpicos, la varianza del estimador de Horvitz-
Thompson es
V ar(
) =
M
i=1
M
j=1
Y
i
Y
j
Ii
Ij
Iij
, +
M
i=1
V ar(
Y
i
)
Ii
,
y puede estimarse sin sesgo por
V ar
1
(
)
2
=
iS
I
jS
I
Y
i
Y
j
Ii
Ij
Iij
Iij
+
iS
I
V ar(
Y
i
)
Ii
o por
V ar
2
(
)
2
=
iS
I
c
Ii
2
Ii
_
Y
i
i
_
2
+
iS
I
V ar(
Y
i
)
Ii
,
donde
i
=
Ii
jS
c
Ij
Y
j
/
Ij
jS
c
Ij
,
y donde
c
Ii
= (1
Ii
)
m
m1
.
Conclusin : la expresin es recursiva
El estimador de Horvitz-Thompson y su estimador de varianza se escribe como una funcin del estimador
del total y del estimador de la varianza calculada al nivel inferior.
= T
_
Y
i
,
Ii
, i S
I
_
,
y
V ar(
) = Q
_
Y
i
,
V ar(
Y
i
),
Ii
, i S
I
_
.
El estimador
V ar(
Y
i
) puede igualmente escribirse como una funcin de las etapas inferiores.
4.4. Muestreo en dos fases
- En la primera fase, se selecciona una muestra con cualquier plan p
I
(S
a
) de tamao n (eventualmente con
un plan multi-etpico).
- En la segunda fase, se selecciona una muestra S
b
segn otro diseo muestral en S
a
con un plan p(s
b
|S
a
) =
Pr(S
b
= s
b
|S
a
).
El plan de segundo etapa puede depender de lo que pas en la primera etapa. Tenemos
ak
= Pr (k S
a
) ,
ak
= Pr (k y S
a
) , k = , con
akk
=
ak
,
ak
=
_
ak
ak
a
, k =
ak
(1
ak
), k =
adems
bk
= Pr (k S
b
|S
a
) ,
bk
= Pr (k y S
b
|S
a
) , k = , con
bkk
=
bk
,
bk
=
_
bk
bk
b
, k =
bk
(1
bk
), k =
Los
bk
,
bk
y
bk
son variables aleatorias que dependen de S
a
.
La probabilidad de inclusin de la unidad k es
k
=
ak
E(
bk
).
27
Pero esta probabilidad no puede ser calculada. Se estima el total por
Y
E
=
kS
b
y
k
ak
bk
,
que no es el estimador de Horvitz-Thompson, en efecto no se divide los y
k
por las probabilidades de inclusin.
Este estimador se llama : estimador por expansin. Es insesgado. En efecto,
E
_
Y
E
_
= EE
_
kS
b
y
k
ak
bk
S
a
_
= E
_
kS
b
y
k
ak
_
.
La varianza del estimador por expansin Srndal y Wretman (1987).
Teorema 4
V ar
_
Y
E
_
=
kU
U
y
k
y
ak
ak
+E
_
kS
a
S
a
y
k
y
ak
bk
bk
_
,
Esta varianza puede estimarse por
V ar
a
_
Y
E
_
=
kS
b
S
b
y
k
y
ak
ak
ak
bk
+
kS
b
S
b
y
k
y
ak
bk
bk
bk
. (4.11)
28
Captulo 5
Muestreo con probabilidades desiguales
Brewer y Hanif, 1983, Gabler, 1990
5.1. Informacin auxiliar y probabilidades de inclusin
Variable auxiliar x conocida sobre U.
x es aproximadamente proporcional a y.
Seleccin de las unidades con probabilidades de inclusin proporcional a x.
Varianza
V ar
_
_
=
1
2
kU
U
=k
_
y
k
_
2
(
k
k
). (5.1)
5.2. Clculo de las probabilidades de inclusin
Calculamos
k
=
x
k
n
U
x
, para todo k U.
Algunos de los
k
pueden tener
k
> 1.
Estas unidades son incluidas en la muestra con una probabilidad 1.
Se vuelve a empezar el clculo sobre las unidades que quedan.
Al nal, tenemos dos grupos :
- un primer grupo de unidades con probabilidades de inclusin iguales a 1
- un segundo grupo con probabilidades de inclusin 0 <
k
< 1 y proporcional a x
k
.
El problema es seleccionar n unidades con probabilidades de inclusin jadas con
0 <
k
< 1, para todo k U, tal que
kU
k
= n. (5.2)
Ejemplo 1. Si N = 6, n = 3, x
1
= 1, x
2
= 9, x
3
= 10, x
4
= 70, x
5
= 90, x
6
= 120, tenemos
X =
kU
x
k
= 300,
y entonces
nx
1
X
=
1
100
,
nx
2
X
=
9
100
,
nx
3
X
=
1
10
,
nx
4
X
=
7
10
,
nx
5
X
=
9
10
,
nx
6
X
=
6
5
> 1.
La unidad 6 es seleccionada (con una probabilidad 1). Luego, volvemos a calcular las probabilidades de
inclusin
kU\{6}
x
k
= 180,
29
y entonces
(n 1)x
1
U\{6}
x
=
1
90
,
(n 1)x
2
U\{6}
x
=
1
10
,
(n 1)x
3
U\{6}
x
=
1
9
,
(n 1)x
4
U\{6}
x
=
7
9
,
(n 1)x
5
U\{6}
x
= 1.
Las probabilidades de inclusin son
1
=
1
90
,
2
=
1
10
,
3
=
1
9
,
4
=
7
9
,
5
= 1,
6
= 1.
Dos unidades son seleccionadas con una probabilidad 1. El problema es reducido a la seleccin de una unidad
en una subpoblacin de tamao 4.
5.3. Muestreo con probabilidades desiguales con reemplazamiento
Hansen y Hurwitz (1943).
Sea
p
k
=
x
k
U
x
, k U,
y
v
k
=
k
=1
p
, con v
0
= 0.
- u es una variable continua, uniforme en [0, 1[
- se selecciona la unidad k tal que v
k1
u < v
k
.
- esta operacin es repetida m veces de manera independiente.
y
i
es la isima unidad seleccionada en la muestra
Y es estimado por el estimador de Hansen-Hurwitz
Y
HH
=
1
m
m
i=1
y
i
p
i
.
Como
E
_
y
i
p
i
_
=
kU
y
k
p
k
p
k
= Y,
Y
HH
es un estimador insesgado Y . En efecto,
E
_
Y
HH
_
=
1
m
m
i=1
E
_
y
i
p
i
_
=
1
m
m
i=1
Y = Y.
Varianza :
V ar[
Y
HH
] =
1
m
_
kU
y
2
k
p
k
t
2
y
_
=
1
m
kU
p
k
_
y
k
p
k
Y
_
2
, (5.3)
y puede estimarse por
V ar[
Y
HH
] =
1
m(m1)
m
i=1
_
y
i
p
i
Y
yHH
_
2
.
30
5.4. Plan de Poisson
Cada unidad de U es seleccionada de manera independiente con una probabilidad de inclusin
k
.
k
=
k
k
=
k
k
= 0, para todos k = .
El diseo muestral viene dado por
p(s) =
_
ks
k
_
_
_
_
kU\s
(1
k
)
_
_
_
, para todos s U. (5.4)
En un plan de Poisson,
k
= 0 cuando k = ,
la varianza del estimador puede ser calculada simplemente
V ar
_
_
=
kU
k
(1
k
)y
2
k
2
k
, (5.5)
y puede estimarse por
V ar
_
_
=
kSe
(1
k
)y
2
k
2
k
. (5.6)
5.5. Muestreo de entropa mxima con tamao jo
Buscamos un diseo muestral con la entropa mxima sobre el conjunto de todas las muestras de U de
tamao jo n.
S
n
= {s|#s = n}.
El problema es maximizar
I(p) =
sS
n
p(s) log p(s),
sujeta a que
sk
sS
n
p(s) =
k
, y
sS
n
p(s) = 1. (5.7)
Existe una solucin pero es complicada.
p(s) =
exp
ks
sS
n
exp
ks
k
Un algoritmo (ver Chen y Dempster, y Deville) permite calcular los
k
a partir de los
k
.
5.6. El diseo muestral sistemtico
Madow (1949)
Mtodo con tamao jo.
Tenemos 0 <
k
< 1, k U con
kU
k
= n.
Sea
V
k
=
k
=1
1
= 0, 2,
2
= 0, 7,
3
= 0, 8,
4
= 0, 5,
5
=
6
= 0, 4,
V
1
= 0, 2, V
2
= 0, 9, V
3
= 1, 7, V
4
= 2, 2, V
5
= 2, 6, V
6
= 3.
u = 0, 3658,
Las unidades 2, 3 y 5 son seleccionadas.
Figura 5.1: Muestreo sistemtico
0
u
1
2 3
1.7 2.2 2.6
0,9 0.2
+1
+2
u
u
El algoritmo puede tambin ser presentado de la manera siguiente :
Primero, se selecciona la unidad k tal que los intervalos [V
k1
u, V
k
u[ contienen un nmero entero.
Algoritmo de muestreo sistemtico
b = a;
a = a +
k
;
si a = b seleccionar k.
El problema es que la mayora des las probabilidades de inclusin son iguales a cero.
La matriz de probabilidades de inclusin viene dada por :
_
_
0 0, 2 0, 2 0 0
0 0, 5 0, 2 0, 4 0, 3
0, 2 0, 5 0, 3 0, 4 0, 2
0, 2 0, 2 0, 3 0 0, 3
0 0, 4 0, 4 0 0
0 0, 3 0, 2 0, 3 0
_
_
5.7. El mtodo de escisin
5.7.1. Escisin en dos partes
La tcnica bsica es muy simple : cada
k
se separa en dos partes
(1)
k
y
(2)
k
que verican :
k
=
(1)
k
+ (1 )
(2)
k
; (5.9)
0
(1)
k
1 y 0
(2)
k
1, (5.10)
kU
(1)
k
=
kU
(2)
k
= n, (5.11)
donde puede elegirse libremente con 0 < < 1. El mtodo consiste en seleccionar n unidades con proba-
bilidades desiguales
_
(1)
k
, k U, con una probabilidad
(2)
k
, k U, con una probabilidad 1 .
32
_
1
.
.
.
k
.
.
.
N
_
H
H
H
H
H
H
H
H
Hj
_
(1)
1
.
.
.
(1)
k
.
.
.
(1)
N
_
_
_
(2)
1
.
.
.
(2)
k
.
.
.
(2)
N
_
_
1
Figura 5.2: Escisin en dos partes
El problema es reducido a otro problema de muestreo con probabilidades desiguales. Si la escisin es tal
que uno o algunos de los
(1)
k
y de los
(2)
k
son iguales a 0 o 1, el problema de muestreo ser ms simple en
la prxima etapa porque la escisin es aplicada a una poblacin ms pequea.
5.7.2. Escisin en M partes
El mtodo puede ser generalizado a una tcnica de escisin en M vectores de probabilidades de inclusin.
Primero, construimos los
(j)
k
y los
j
de manera que
M
j=1
j
= 1,
0
j
1 (j = 1, ..., M),
M
j=1
(j)
k
=
k
,
0
(j)
k
1 (k U, j = 1, ..., M),
kU
(j)
k
= n (j = 1, ..., M).
El mtodo consiste en seleccionar uno de los vectores
(j)
k
con probabilidades
j
(j = 1, ..., M). De nuevo,
los
(j)
k
son tales que el problema de muestreo ser ms simple en la prxima etapa.
5.7.3. Plan con un soporte mnimo
(
(1)
, ...,
(k)
, ...,
(N)
) representa el vector de probabilidades de inclusin. Luego, denimos
= mn{1
(Nn)
,
(Nn+1)
},
(1)
(k)
=
_
0 si k N n
1 si k > N n,
33
_
1
.
.
.
k
.
.
.
N
_
H
H
H
H
H
H
H
H
Hj
?
_
(1)
1
.
.
.
(1)
k
.
.
.
(1)
N
_
_
_
(i)
1
.
.
.
(i)
k
.
.
.
(i)
N
_
_
_
(M)
1
.
.
.
(M)
k
.
.
.
(M)
N
_
1
j
M
. . . . . .
Figura 5.3: Escisin en M partes
(2)
(k)
=
_
(k)
1
if k N n
(k)
1
if k > N n.
Ejemplo 1. Suponemos que N = 6, n = 3,
1
= 0,07,
2
= 0,17,
3
= 0,41,
4
= 0,61,
5
= 0,83,
6
= 0,91. En este caso, la solucin se encuentra en 4 etapas. El vector de probabilidades de inclusin se
separa en dos partes dadaos en las columnas 2 y 3 de la Tabla 1. Con la probabilidad = 0,59, la muestra
{4, 5, 6} es seleccionada y con probabilidad 1 = 0,41, otro diseo muestral se aplica con probabilidades
de inclusin dadas por (0.171, 0.415, 1, 0.049, 0.585, 0.780). En la etapa 2, la escisin se aplica al vector y,
en 4 etapas la muestra es seleccionada. El diseo muestral es el siguiente p({4, 5, 6}) = 0, 59; p({3, 5, 6}) =
Cuadro 5.1: Plan con soporte mnima
Etapa 1 Etapa 2 Etapa 3 Etapa 4
k
= 0, 59 = 0, 585 = 0, 471 = 0, 778
0, 07 0 0, 171 0 0, 412 0 0, 778 1 0
0, 17 0 0, 415 0 1 1 1 1 1
0, 41 0 1 1 1 1 1 1 1
0, 61 1 0, 049 0 0, 118 0 0, 222 0 1
0, 83 1 0, 585 1 0 0 0 0 0
0, 91 1 0, 780 1 0, 471 1 0 0 0
(1 0, 59) 0, 585 = 0, 24; p({2, 3, 6}) = (1 0, 59 0, 24) 0, 471 = 0, 08; p({1, 2, 3}) = (1 0, 59 0, 24
0, 08) 0, 778 = 0, 07; p({2, 3, 4}) = 1 0, 59 0, 24 0, 08 0, 7 = 0, 02.
El diseo muestral viene dado por p({4, 5, 6}) = 0,59, p({3, 5, 6}) = (10,59)0,585 = 0,24, p({2, 3, 6}) =
(1 0,59 0,24) 0,471 = 0,08, p({1, 2, 3}) = (1 0,59 0,24 0,08) 0,778 = 0,07, p({2, 3, 4}) =
(1 0,59 0,24 0,08 0,7) = 0,02.
34
5.7.4. Escisin en planes simples
Este mtodo permite separar el vector de probabilidades de inclusiones en dos partes. Denimos
= mn
_
(1)
N
n
,
N
N n
(1
(N)
)
_
, (5.12)
y calculamos, para k U,
(1)
(k)
=
n
N
,
(2)
(k)
=
k
n
N
1
.
Si =
(1)
N/n, entonces
(2)
(1)
= 0; si = (1
(N)
)N/(N n), entonces
(2)
(N)
= 1. En la prxima etapa, el
problema se reduce en la seleccin de una muestra de tamao n 1 o n en una poblacin de tamao N 1.
En N 1 etapas, el problema es reducido.
Ejemplo 2 Con los mismos
k
que en el ejemplo 1, el resultado del mtodo viene dado en la Tabla 2. El
Cuadro 5.2: Descomposicin en planes simples
Etapa 1 Etapa 2 Etapa 3 Etapa 4 Etapa 5
k
= 0, 14 = 0, 058 = 0, 173 = 0, 045 = 0, 688
0, 07 0, 5 0 0 0 0 0 0 0 0 0
0, 17 0, 5 0, 116 0, 600 0, 086 0, 5 0 0 0 0 0
0, 41 0, 5 0, 395 0, 600 0, 383 0, 5 0, 358 0, 667 0, 344 0, 5 0
0, 61 0, 5 0, 628 0, 600 0, 630 0, 5 0, 657 0, 667 0, 656 0, 5 1
0, 83 0, 5 0, 884 0, 600 0, 901 0, 5 0, 985 0, 667 1 1 1
0, 91 0, 5 0, 977 0, 600 1 1 1 1 1 1 1
problema consiste nalmente en seleccionar uno de los 6 planes simples denidos en las columnas de la Tabla
3.
1
= 0,14,
2
= (1 0,14) 0,058 = 0,050,
3
= (1 0,14) (1 0,058) 0,173 = 0,14,
4
= (1 0,14)
(10,058) (10,173)0,045 = 0,03,
5
= (10,14)(10,058) (10,173)(10,045) 0,688 = 0,44,
6
= (1 0,14) (1 0,058) (1 0,173) (1 0,045) (1 0,688) = 0,200.
Cuadro 5.3: Escisin en N planes simples
k
1
= 0, 14
2
= 0, 050
3
= 0, 14
4
= 0, 03
5
= 0, 44
6
= 0, 200
1 0, 5 0 0 0 0 0
2 0, 5 0, 6 0, 5 0 0 0
3 0, 5 0, 6 0, 5 0, 667 0, 5 0
4 0, 5 0, 6 0, 5 0, 667 0, 5 1
5 0, 5 0, 6 0, 5 0, 667 1 1
6 0, 5 0, 6 1 1 1 1
5.7.5. El mtodo del pivote
Solamente dos probabilidades de inclusin son modicadas : i y j.
Si
i
+
j
> 1, entonces
=
1
j
2
i
j
,
(1)
k
=
_
_
_
k
k U\{i, j}
1 k = i
i
+
j
1 k = j,
(2)
k
=
_
_
_
k
k U\{i, j}
i
+
j
1 k = i
1 k = j.
35
Por otra parte, si
i
+
j
< 1, entonces
=
i
i
+
j
,
(1)
k
=
_
_
_
k
k U\{i, j}
i
+
j
k = i
0 k = j,
(2)
k
=
_
_
_
k
k U\{i, j}
0 k = i
i
+
j
k = j.
5.7.6. Mtodo de Brewer
Brewer y Hanif, 1983, mtodo 8, p. 26.
Brewer, 1975.
draw by draw procedure
j
=
_
N
z=1
z
(n
z
)
1
z
_
1
j
(n
j
)
1
j
.
Luego, calculamos
(j)
k
=
_
_
_
k
(n 1)
n
j
si k = j
1 si k = j.
La validez del mtodo se deriva del resultado siguiente :
Teorema 5
N
j=1
(j)
k
=
k
,
para todo k = 1, . . . , N,
5.8. Varianza en planes con probabilidades desiguales
Aproximacin de la varianza
V ar(
) =
kU
b
k
2
k
(y
k
y
k
)
2
.
con
y
k
=
k
U
b
U
b
b
k
=
N
k
(1
k
)
(N 1)
.
Estimacin de la aproximacin de la varianza
V ar(
) =
kS
c
k
2
k
(y
k
y
k
)
2
.
con
y
k
=
k
S
c
S
b
c
k
=
n
k
(1
k
)
(n 1)
.
36
Captulo 6
Muestreo equilibrado
6.1. Introduccin
Thionet (1953)
Royall y Herson (1973)
Deville, Grosbras y Roth (1988),
Ardilly (1991),
Hedayat y Majumdar (1995)
Brewer (1999)
Denicin 2 Un diseo muestral p(s) es equilibrado sobre las variables x
1
, ..., x
p
, si verica las ecuaciones
de equilibrio dadas por
= X, (6.1)
lo que se puede tambin escribir
ks
x
kj
k
=
kU
x
kj
,
para toda s S tal que p(s) > 0, y para todos j = 1, ..., p, o con otras palabras
V ar
_
_
= 0.
Ejemplo 3. Un muestreo de tamao jo es equilibrado sobre la variable x
k
=
k
, k U. En efecto,
kS
x
k
k
=
kS
1 =
kU
k
= n.
Ejemplo 4. Un plan estraticado es equilibrado sobre las variables
kh
=
_
1 si k U
h
0 si k / U
h
.
Ejemplo 5. N = 10, n = 7,
k
= 7/10, k U,
x
k
= k, k U.
kS
k
k
=
kU
k,
lo que da que
kS
k = 55 7/10 = 38,5,
ES IMPOSIBLE: Problema de redondeo.
37
6.2. Representacin por un cubo
Representacin geomtrica de un diseo muestral.
s = (I[1 s] ... I[k s] ... I[N s])
,
donde I[k s] toma el valor 1 si k s y 0 sino.
Geomtricamente, cada vector s es un vrtice de un N-cubo.
E(s) =
sS
p(s)s = ,
donde = [
k
] es el vector de probabilidad de inclusin.
(000) (100)
(010)
(011)
(111)
(101)
(110)
Figura 6.1: Muestras posibles en una poblacin de tamao N = 3
6.3. Muestras equilibradas
Mtodo del cubo
1. fase de vuelo,
2. fase de aterrizaje.
Las ecuaciones de equilibrio (6.1) pueden tambin ser escritas
kU
a
k
c
k
=
kU
a
k
k
(6.2)
c
k
{0, 1}, k U,
donde a
k
= x
k
/
k
, k U. (6.2) dene un subespacio en R
N
de dimensin N p.
El problema
Se elige un vrtice del N-cubo (una muestra) que queda en el subespacio Q.
Si C representa el N-cubo en R
N
. Los vrtices del N-cubo son las muestras de U, la interseccin entre
C y Q es no-vacio, porque es en el interior de C y pertenecen a Q.
La interseccin entre el N-cubo est un subespacio lineal dene un poliedro convexo K que es denido
por
K = C Q =
_
[0, 1]
N
(+ Ker A)
_
y tiene la dimensin N p.
38
Ejemplo 6.
1
+
2
+
3
= 2.
x
k
=
k
, k U y
kS
c
k
= 2.
(101)
(000) (100)
(010) (110)
(011)
(111)
Figura 6.2: Plan de tamao jo
Ejemplo 7.
6
2
+ 4
3
= 5.
x
1
= 0, x
2
= 6
2
y x
3
= 4
3
.
6c
2
+ 4c
3
= 5.
(101)
(000) (100)
(010) (110)
(011)
(111)
Figura 6.3: Los vrtices de K no son vrtices del cubo
Ejemplo 8.
1
+ 3
2
+
3
= 4.
39
(110)
(000) (100)
(010)
(011)
(111)
(101)
Figura 6.4: Algunos vrtices de K son vrtices del cubo y otros no le son
x
1
=
1
, x
2
= 3
2
y x
3
=
3
.
c
1
+ 3c
2
+c
3
= 4.
6.4. La martingala equilibrada
Denicin 3 Un proceso aleatorio discreto (t) = [
k
(t)], t = 0, 1, ... en R
N
se llama una martingala
equilibrada para un vector de probabilidades de inclusin y para las variables auxiliares x
1
, ..., x
p
, si
1. (0) = ,
2. E [(t)|(t 1), ...., (0)] = (t 1), t = 1, 2, ...
3. (t) K =
_
[0, 1]
N
(+ Ker A)
_
, donde A es una matriz pN dada por A = (x
1
/
1
. . . x
k
/
k
. . . x
N
/
N
) .
6.5. Implementacin de la fase de vuelo
Primero, inicializamos por (0) = . Luego, En la etapa t = 1, ...., T,
1. Denimos un vector u(t) = [u
k
(t)] = 0 tal que
(i) u(t) es en el ncleo (kernel)de la matriz A,
(ii) u
k
(t) = 0 si
k
(t) es entero.
2. Calculamos
1
(t) y
2
(t), el valor ms grande tal que
0 (t) +
1
(t)u(t) 1,
0 (t)
2
(t)u(t) 1.
3. Elegimos
(t) =
_
(t 1) +
1
(t)u(t) con una probabilidad q
1
(t)
(t 1)
2
(t)u(t) con una probabilidad q
2
(t),
donde
q
1
(t) =
2
(t)/{
1
(t) +
2
(t)}
q
2
(t) =
1
(t)/{
1
(t) +
2
(t)}.
40
6.6. Mtodo simple.
Denimos un vector v(t) = [v
k
(t)].
u
k
(t) =
_
_
v
k
(t) a
k
_
_
U
t1
a
_
_
U
t1
a
(t) k U
t1
0 k / U
t1
,
donde U
t
= {k U|0 <
k
(t) < 1} y
_
U
t1
a
es una generalizacin de
U
t1
a
.
6.7. Implementacin de la fase de aterrizaje
Sea T la ultima etapa de la fase 1,
y notamos por
= [
k
] = (T). Sea tambin U
= {k U|0 <
k
< 1} ,
El problema es buscar un plan de muestreo que da una muestra s U tal que
ks
a
k
kU
a
k
k
=
kU
a
k
k
,
lo que es equivalente a buscar un diseo muestral que da una muestra s
tal que
ks
a
k
kU
a
k
k
,
donde s
= U
s.
Como q = #U
es inferior o igual a p,
Solucin
Aplicacin del algoritmo del smplex sobre el programa lineal,
mn
p(.)
C(s
)p(s
),
sujeto a que
U
p(s
) = 1,
k
p(s
) =
k
, k U,
0 p(s
) 1, s
U,
donde C(s
Y
bal
_
= V ar
_
E
poiss
_
=
N
N p
kU
E
2
k
2
k
k
(1
k
) ,
donde
E
k
= y
k
x
k
B.
41
Captulo 7
Estimacin con informaciones auxiliares
y planes simples
Un estimador de La clase de los estimadores lineales es de la forma
Y
w
= w
0
(S) +
kS
w
k
(S)y
k
, (7.1)
donde los pesos w
k
(S) pueden depender de la informacin auxiliar disponible y de los datos observados.
7.1. Postestraticacin
7.1.1. El problema y la notacin
Holt y Smith (1979), Jagers (1986); Jagers, Oden y Trulsson (1985).
La variable auxiliar es cualitativa y puede coger H valores distintos.
Particin de la poblacin U = {1, ..., k, ..., N} en H subconjuntos, U
h
, h = 1, .., H, llamados postestratos, tal
que
H
_
h=1
U
h
= U y U
h
U
i
= , h = i.
El nmero de elementos del postestrato es N
h
.
H
h=1
N
h
= N.
El total en la poblacin puede escribirse :
Y =
kU
y
k
=
H
h=1
kU
h
y
k
=
H
h=1
N
h
Y
h
,
y la media :
Y =
1
N
kU
y
k
=
1
N
H
h=1
kU
h
y
k
=
1
N
H
h=1
N
h
Y
h
,
donde Y
h
representa la media del postestrato h
Y
h
=
1
N
h
kU
h
y
k
, h = 1, .., H.
Adems,
2
yh
representa la varianza del postestrato h
2
yh
=
1
N
h
kU
h
_
y
k
Y
h
_
2
,
42
y S
2
yh
la varianza corregida
S
2
yh
=
N
h
N
h
1
2
yh
.
La varianza total
2
y
se obtiene a partir de la formula clsica de descomposicin de varianza.
2
y
=
1
N
kU
(y
k
Y )
2
=
1
N
H
h=1
N
h
2
yh
+
1
N
H
h=1
N
h
(Y
h
Y )
2
. (7.2)
7.1.2. El estimador postestraticado
Se selecciona en la poblacin una muestra aleatoria S con un muestreo aleatorio simple .
Las frecuencias de los postestratos n
h
son variables aleatorias que tienen una distribucin geomtrica.
Como
k
= n/N, k U, el estimador de Horvitz-Thompson de Y viene dado por
=
N
n
kS
y
k
=
N
n
H
h=1
n
h
>0
n
h
Y
h
;
donde
Y
h
es la media de la muestra en el postestrato h
Y
h
=
1
n
h
kS
h
y
k
.
El estimador postestraticado se dene por :
Y
post
=
H
h=1
n
h
>0
N
h
Y
h
.
Es necesario el conocimiento de las frecuencias de la poblacin N
h
para calcular este estimador .
Los postestratos tienen que ser bastante grandes
n
N
h
N
30,
lo que hace que sea muy improbable tener n
h
nulos.
7.1.3. Propiedad del estimador
E(
Y
post
|n
h
, h = 1, ..., H) =
H
h=1
n
h
>0
N
h
E(
Y
h
|n
h
, h = 1, ..., H)
=
H
h=1
n
h
>0
N
h
Y
h
= Y
H
h=1
n
h
=0
N
h
Y
h
. (7.3)
El sesgo se escribe
EE(
Y
post
|n
h
, h = 1, ..., H) = E
_
_
_Y
H
h=1
n
h
=0
N
h
Y
h
_
_
_
= Y
H
h=1
N
h
Y
h
Pr[n
h
= 0].
43
Como los n
h
tienen una distribucin geomtrica,
Pr[n
h
= r] =
_
N
h
r
__
N N
h
n r
_
_
N
n
_ , r = 0, ..., n,
se obtiene
Pr[n
h
= 0] =
(N N
h
)
[n]
N
[n]
,
donde
N
[n]
=
N!
(N n)!
= N (N 1) ... (N n + 2) (N n + 1),
lo que da nalmente
E(
Y
post
) = Y
H
h=1
N
h
Y
h
(N N
h
)
[n]
N
[n]
Y.
La varianza
V ar(
Y
post
) = V arE(
Y
post
|n
h
, h = 1, ..., H)
+ EV ar(
Y
post
|n
h
, h = 1, ..., H).
Por (7.3),
V arE(
Y
post
|n
h
, h = 1, ..., H) 0,
y entonces
V ar(
Y
post
) EV ar(
Y
post
|n
h
, h = 1, ..., H). (7.4)
Condicionalmente a los n
h
, el plan es m.a.s. en cada postestrato.
La varianza condicional es entonces la misma que para un plan estraticado
V ar(
Y
post
|n
h
, h = 1, ..., H) =
H
h=1
n
h
>0
N
h
N
h
n
h
n
h
S
2
yh
. (7.5)
La varianza no-condicional es
V ar(
Y
post
) = E
_
_
H
h=1
n
h
>0
N
h
N
h
n
h
n
h
S
2
yh
_
h=1
N
h
_
N
h
E
_
1
n
h
_
1
_
S
2
yh
. (7.6)
Tenemos que calcular la esperanza de n
1
h
. Si
= 1
n
h
E(n
h
)
= 1
Nn
h
nN
h
,
tenemos
E
_
1
n
h
_
=
1
E(n
h
)
E
_
1
1
_
.
Cuando n es grande, podemos considerar que est cerca de cero y usar un desarrollo en serie.
E
_
1
n
h
_
1
E(n
h
)
E(1 + +
2
).
Como
E(n
h
) = n
N
h
N
y V ar(n
h
) = n
N
h
N
N N
h
N
N n
N 1
,
44
se obtiene
E
_
1
n
h
_
1
E(n
h
)
E
_
1 +
_
1
n
h
N
nN
h
_
+
_
1
n
h
N
nN
h
_
2
_
=
N
N
h
n
_
1 + 0 +
N
2
V ar(n
h
)
n
2
N
2
h
_
=
N
N
h
n
+
(N N
h
)N
N
2
h
N n
n
2
(N 1)
. (7.7)
Usando el resultado (7.7) en la expresin (7.6),
V ar(
Y
post
)
N n
n
H
h=1
N
h
S
2
yh
+
(N n)N
2
n
2
(N 1)
H
h=1
N N
h
N
S
2
yh
. (7.8)
Esta varianza se compone de dos partes. La primera es igual a la varianza del estimador de Horvitz-Thompson
para el plan estraticado con ajacin proporcional.
V ar(
Y
post
)
V ar(
Y
prop
)
=
_
N n
n
H
h=1
N
h
S
2
yh
_
1
_
N n
n
H
h=1
N
h
S
2
yh
+
(N n)N
2
n
2
(N 1)
H
h=1
N N
h
N
S
2
yh
_
= 1 +
N
n(N 1)
_
H
h=1
N
h
N
S
2
yh
_
1
H
h=1
N N
h
N
S
2
yh
= 1 +O(n
1
).
7.2. Estimacin de calibracin sobre mrgenes
7.2.1. El problema
Sean dos variables auxiliares cualitativas.
La primera variable permite dividir la poblacin en H subconjuntos U
1.
, ..., U
h.
, ..., U
H.
, y
la segunda en I subconjuntos U
,1
, ..., U
.i
, ..., U
.I
.
U
11
. . . U
1i
. . . U
1I
U
1.
.
.
.
.
.
.
.
.
.
.
.
.
U
h1
. . . U
hi
. . . U
hI
U
h.
.
.
.
.
.
.
.
.
.
.
.
.
U
H1
. . . U
Hi
. . . U
HI
U
H.
U
,1
. . . U
.i
. . . U
.I
U
N
hi
= #U
hi
, h = 1, ..., H, i = 1, ..., I, (desconocidos)
N
h.
= #U
h.
, h = 1, .., H, (conocidos)
N
.i
= #U
.i
, i = 1, ..., I, (conocidos)
Sea una muestra aleatoria simple de tamao jo.
El objetivo es entonces estimar el total
Y =
kU
y
k
. (7.9)
El estimador lineal es
Y
w
=
kS
w
k
(S)y
k
, (7.10)
donde los pesos w
k
(S) dependen de los n
hi
y de los totales marginales de la poblacin N
h.
y N
h.
.
45
Cuadro 7.1: Frecuencias segn dos variables
n
11
. . . n
1i
. . . n
1I
n
1.
.
.
.
.
.
.
.
.
.
.
.
.
n
h1
. . . n
hi
. . . n
hI
n
h.
.
.
.
.
.
.
.
.
.
.
.
.
n
H1
. . . n
Hi
. . . n
HI
n
H.
n
,1
. . . n
.i
. . . n
.I
n
Estimador calado sobre los mrgenes.
Idea de calibracin
N
h.
=
kU
z
k
,
donde z
k
es igual a 1 si k U
h.
y 0 sino.
El estimador
N
h.
Se dice que es de calibracin sobre N
h.
si
N
h.
=
kS
w
k
(S)z
k
= N
h.
.
7.2.2. Calibracin sobre mrgenes
Deming y Stephan (1940) y Stephan (1942). Frielander, (1961), Ireland y Kullback, (1968), Fienberg, (1970),
Thionet, (1959 et 1976), Froment y Lenclud, (1976) y Durieux y Payen, (1976).
mtodo iterativo del cociente
Iterative Proportional Fitting Procedure (IPFP).
calibracin sobre mrgenes
Calibracin, tabla de partida
a
11
. . . a
1i
. . . a
1I
a
1.
.
.
.
.
.
.
.
.
.
.
.
.
a
h1
. . . a
hi
. . . a
hI
a
h.
.
.
.
.
.
.
.
.
.
.
.
.
a
H1
. . . a
Hi
. . . a
HI
a
H.
a
,1
. . . a
.i
. . . a
.I
a
..
Buscamos una tabla que est prxima a la tabla de los a
hi
Con las mrgenes b
h.
, h = 1, ..., H, y b
.i
, i = 1, ..., I.
Inicializacin
b
(0)
hi
= a
hi
, h = 1, ..., H, i = 1, ..., I.
Luego se repite los dos ajaciones siguientes para j = 1, 2, 3, ....
b
(2j1)
hi
= b
(2j2)
hi
b
h.
b
(2j2)
h.
, h = 1, ..., H, i = 1, ..., I,
b
(2j)
hi
= b
(2j1)
hi
b
.i
b
(2j1)
.i
, h = 1, ..., H, i = 1, ..., I,
donde
b
(2j2)
h.
=
I
i=1
b
(2j2)
hi
, h = 1, ..., H,
y
b
(2j1)
.i
=
H
h=1
b
(2j1)
hi
, h = 1, ..., H.
46
El algoritmo puede verse como un problema de optimizacin donde se minimiza la entropa.
Se busca la tabla de los b
hi
que minimiza
H
h=1
I
i=1
b
hi
log
b
hi
a
hi
,
sujeta a que
I
i=1
b
hi
= b
h.
, h = 1, ..., H, (7.11)
y
H
h=1
b
hi
= b
.i
, i = 1, ..., H. (7.12)
Tenemos la ecuacin de Lagrange
L(b
hi
,
h
,
i
)
=
H
h=1
I
i=1
b
hi
log
b
hi
a
hi
+
H
h=1
h
_
I
i=1
b
hi
b
h.
_
+
I
i=1
i
_
H
h=1
b
hi
b
.i
_
.
Anulando las derivadas de L con respecto a los b
hi
, tenemos :
log
b
hi
a
hi
+ 1 +
h
+
i
= 0, (7.13)
Si
h
= exp(1/2
h
) y
i
= exp(1/2
i
), de (7.13), podemos escribir
b
hi
= a
hi
i
, h = 1, ..., H, i = 1, ..., I. (7.14)
7.2.3. Estimacin de calibracin
Estimador de calibracin
Y
C
=
H
h=1
I
i=1
N
Chi
Y
hi
,
donde
Y
hi
=
1
n
hi
kS
hi
y
k
y S
hi
= U
hi
S.
El estimador es entonces linear y puede escribirse
Y =
kS
w
k
(S)y
k
,
donde
w
k
(S) =
N
Chi
n
hi
, k U
hi
.
Los pesos w
k
(S) son funciones no-lineales de los n
hi
y de los mrgenes conocidos.
47
7.3. La variable auxiliar es cuantitativa
7.3.1. El problema
Supongamos que el total X de la variable auxiliar x es conocido,
X =
kU
x
k
,
donde x
1
, ..., x
k
, ..., x
N
son los N valores tomados por la variable x sobre las unidades de U. Queremos
estimar
Y =
kU
y
k
,
7.3.2. Notacin
X = N
1
X y Y = N
1
Y representan las medias de las variables x y y en la poblacin. Las varianzas
corregidas son
S
2
y
=
1
N 1
kU
(y
k
Y )
2
y
S
2
x
=
1
N 1
kU
(x
k
X)
2
.
y
S
xy
=
1
N 1
kU
(x
k
X)(y
k
Y ),
la covarianza entre las dos variables.
En un plan simple, los estimadores de Horvitz-Thompson s de los totales son
=
N
n
kS
y
k
= N
Y ,
y
=
N
n
kS
x
k
= N
X,
donde
Y =
1
n
kS
y
k
y
X =
1
n
kS
x
k
.
Tenemos igualmente
s
2
y
=
1
n 1
kS
(y
k
Y )
2
,
s
2
x
=
1
n 1
kS
(x
k
X)
2
y
s
xy
=
1
n 1
kS
(x
k
X)(y
k
Y ).
48
7.3.3. Estimacin de diferencia
El estimador de diferencia viene dado por
Y
D
=
Y
+X
X
.
Es un estimador linear con :
w
k
(S) = N/n, k U, y
w
0
(S) = X
X
.
El estimador de diferencia verica :
E(
Y
D
) = E(
) +E(X) E(
) = Y +X X = Y.
Como este estimador es insesgado, su error cuadrtico medio es igual a su varianza
V ar(
Y
D
) = V ar(
) +V ar(
) 2Cov(
)
=
N(N n)
n
_
S
2
y
+S
2
x
2S
xy
_
.
Esta varianza puede estimarse sin sesgo por
V ar(
Y
D
) =
N(N n)
n
_
s
2
y
+s
2
x
2s
xy
_
.
7.3.4. Estimacin de razn
El estimador de razn (en ingles ratio estimator) es denido mediante
Y
regr
=
X
.
Este estimador es lineal con
w
k
(S) =
XN
n
.
Para calcular el sesgo, tenemos que calcular la esperanza de
Y
R
Y = X
Y = X
,
donde
r =
Y
X
.
Si
=
X
X
X
,
se puede escribir
Y
R
Y =
Y
1 +
.
Con un desarrollo de
Y
R
Y , se logra
Y
R
Y = (
)(1 +
2
3
+...)
(
)(1 )
(
)
_
1
X
X
_
. (7.15)
49
Si se supone que es pequeo cuando n es grande, se logra una aproximacin del sesgo de este estimador
E(
Y
R
Y ) E(
)
_
1
X
X
_
E(
E
_
X)
_
rE
_
X)
_
X
rV ar(
) Cov(
)
X
N(N n)
n
rS
2
x
S
xy
X
.
La esperanza del estimador de razn es entonces dada por
E(
Y
R
Y ) +Y Y +
N n
n
rS
2
x
S
xy
X
.
El sesgo es despreciable cuando n es grande.
7.3.5. Precisin del estimador de razn
ECM(
Y
R
) = E(
Y
R
Y )
2
.
En una primera aproximacin, por (7.15),
ECM(
Y
R
) E(
)
2
E
_
(
Y ) r(
X)
_
2
V ar(
) +r
2
V ar(
) 2rCov(
N(N n)
n
_
S
2
y
+r
2
S
2
x
2rS
xy
_
.
Este error cuadrtico medio puede estimarse por
ECM(
Y
R
) =
N(N n)
n
_
s
2
y
+ r
2
s
2
x
2 rs
xy
_
,
donde
r =
Y
.
7.3.6. Estimacin de regresin
El estimador de regresin viene dado por
Y
regr
=
Y
b(X
X
),
donde
b =
s
xy
s
2
x
,
s
xy
=
1
n 1
kS
(x
k
X)y
k
.
El estimador es linear con w
0
(S) = 0 y
w
k
(S) =
N
n
+
1
n 1
(X
X
)
(x
k
X)
s
2
x
, k U.
50
No es posible calcular exactamente la esperanza matemtica y la varianza del estimador de regresin. Pero,
Y
regr
=
Y
+b(X
X
) + (
b b)(X
X
), (7.16)
donde
b =
S
xy
S
2
x
.
Si se suprime el ltimo termino de la expresin (7.16),
Y
regr
Y
+b(X
X
).
Tenemos entonces
E(
Y
regr
) E
_
+b(X
X
)
_
Y
y
ECM(
Y
regr
) E
_
+b(X
X
) Y
_
2
N(N n)
n
_
S
2
y
2bS
xy
+b
2
S
2
x
_
N(N n)
n
S
2
y
_
1
2
_
,
donde
=
S
xy
S
x
S
y
.
Este error cuadrtico medio puede estimarse por
ECM(
Y
regr
) =
N(N n)
n
s
2
y
_
1
2
_
,
donde
=
s
xy
s
x
s
y
.
La estimacin de regresin puede ser generalizada al uso de varias variables auxiliares
7.3.7. Discusin de los tres mtodos
Cuadro 7.2: Mtodos de estimacin
Estimador Denicin
_
N(Nn)
n
_
1
ECM
estimador HT
Y
=
N
n
kS
y
k
S
2
y
de diferencia
Y
D
=
Y
+X
X
S
2
y
+S
2
x
2S
xy
de razn
Y
regr
=
Y
X/
S
2
y
+r
2
S
2
x
2rS
xy
de regresin
Y
RY
=
Y
b(X
X
) S
2
y
_
1
2
_
51
7.3.8. Comparacin del estimador de diferencia y del estimador de Horvitz-
Thompson
V ar(
) V ar(
Y
D
)
=
N(N n)
n
S
2
y
N(N n)
n
_
S
2
y
+S
2
x
2S
xy
_
=
N(N n)
n
_
2S
xy
S
2
x
_
.
El estimador de diferencia es entonces mejor que el estimador de Horvitz-Thompson cuando
2S
xy
S
2
x
> 0;
lo que puede escribirse de la forma
b >
1
2
.
7.3.9. Comparacin del estimador de razn y del estimador de Horvitz-Thompson
ECM(
) ECM(
Y
regr
)
N(N n)
n
S
2
y
N(N n)
n
_
S
2
y
+r
2
S
2
x
2rS
xy
_
N(N n)
n
_
2rS
xy
r
2
S
2
x
_
.
El estimador de razn es generalmente mejor que el estimador de Horvitz-Thompson cuando
2rS
xy
r
2
S
2
x
> 0,
es decir, cuando
b >
r
2
si r > 0 y b <
r
2
si r < 0.
7.3.10. Comparacin del estimador de razn y del estimador de diferencia
ECM(
Y
D
) ECM(
Y
regr
)
N(N n)
n
(S
2
y
+S
2
x
2S
xy
)
N(N n)
n
_
S
2
y
+r
2
S
2
x
2rS
xy
_
N(N n)
n
_
2(1 r)S
xy
(1 r
2
)S
2
x
_
.
El estimador de razn es generalmente preferible cuando
2(1 r)S
xy
(1 r
2
)S
2
x
> 0,
es decir cuando
2(1 r)b > (1 r
2
).
7.3.11. Comparacin del estimador de regresin con los otros estimadores
ECM(
) ECM(
Y
regr
)
2
ECM(
) 0,
52
ECM(
Y
D
) ECM(
Y
RY
)
N(N n)
n
(S
2
y
+S
2
x
2S
xy
)
N(N n)
n
(1
2
)S
2
y
N(N n)
n
(S
x
S
xy
S
x
)
2
0,
y
ECM(
Y
R
) ECM(
Y
RY
)
N(N n)
n
(S
2
y
+r
2
S
2
x
2rS
xy
)
N(N n)
n
(1
2
)S
2
y
N(N n)
n
(rS
x
S
xy
S
x
)
2
0.
53
Captulo 8
Estimacin con informaciones auxiliares
y planes complejos
8.1. El problema y la notacin
El objetivo es siempre estimar el total
Y =
kU
y
k
,
La informacin auxiliar viene dada por : J variables auxiliares
x
1
, ..., x
j
, ..., x
J
.
El valor tomado por la variable x
j
sobre la unidad k es x
kj
.
x
k
= (x
k1
, ..., x
kj
, ..., x
kJ
)
kU
x
kj
= y X
j
=
kU
x
kj
, j = 1, ..., J,
o
X =
1
N
kU
x
k
= y X =
kU
x
k
.
El vector X es conocido sobre la poblacin total.
Dos estimadores
El estimador de regresin :
Srndal, Swensson y Wretman (1992).
Calibracin
Deville y Srndal (1992) y Deville, Srndal y Sautory (1993).
Estimadores de la clase de los estimadores lineales
Y
G
=
kS
w
k
(S)y
k
.
8.2. El estimador de regresin
Si existe una relacin lineal entre los x
k
e y
k
, se busca el vector de coecientes de regresin b R
J
que
minimiza:
kU
c
k
(y
k
x
k
b)
2
, (8.1)
donde c
k
es un coeciente de ponderacin estrictamente positivo que permite dar una importancia particular
a cada unidad. Anulando la derivada de (8.1) con respecto a b, buscamos
kU
c
k
x
k
(y
k
x
k
b) = 0,
54
lo que da
kU
c
k
x
k
y
k
=
kU
c
k
x
k
x
k
b.
Si
T =
kU
c
k
x
k
x
k
y
t =
kU
c
k
x
k
y
k
y que suponemos que T es inversible, logramos el coeciente de regresin :
b = T
1
t.
Como T y t son totales podemos estimarlos por estimadores de Horvitz-Thompson :
T =
kS
c
k
x
k
x
k
y
t =
kS
c
k
x
k
y
k
k
,
que no tienen sesgo para T y t. Luego se estima b por
b =
T
1
t.
Atencin
b no es insesgado para b.
El estimador de regresin :
Y
greg
=
Y
+ (X
X
b. (8.2)
8.2.1. Otra presentacin del estimador de regresin
Y
greg
es un estimador lineal
Y
greg
=
kS
w
k
(S)y
k
,
donde
w
k
(S) =
1
k
_
1 + (X
X
T
1
c
k
x
k
_
.
Otra presentacin viene dada por
Y
greg
= X
b +
Y
b
= X
b +
kS
e
k
k
,
donde
e
k
= y
k
x
b.
Los e
k
son los residuos : las diferencias entre los valores observados y los valores predichos. En algunos casos
kS
e
k
k
es nulo; el estimador de regresin tiene entonces una forma ms simple.
Teorema 6 Una condicin suciente para que
kS
e
k
k
= 0,
es que existe un vector tal que
x
k
=
1
c
k
, para todo k U.
55
Demostracin
kS
e
k
k
=
kS
1
k
_
y
k
x
b
_
=
kS
1
k
_
y
k
c
k
x
k
x
b
_
=
Y
kS
c
k
x
k
x
T
1
t
=
Y
kS
c
k
x
k
y
k
k
=
Y
= 0.
2
En el caso donde la condicin suciente del teorema 6 es vericada, el estimador de regresin puede escribirse
simplemente
Y
greg
= X
b.
8.2.2. Calibracin del estimador de regresin
Un estimador se llama de calibracin sobre un total de una variable auxiliar si es exactamente igual a este
total. Suponemos que calculemos el estimador de regresin para la variable auxiliar x
j
. El coeciente de
regresin es
b =
_
kS
c
k
x
k
x
k
_
1
kS
c
k
x
k
x
kj
k
= (0 . . . 0 1 0 . . . 0)
.
El estimador es
X
j,greg
=
X
j
+ (X
X
b =
X
j
+ (X
j
X
j
) = X
j
.
8.2.3. Estimacin de razn
El estimador de razn se logra usando una sola variable auxiliar y cogiendo x
k
= x
k
, c
k
= 1/x
k
. Tenemos
b =
kS
y
k
/
k
kS
x
k
/
k
=
Y
,
y por (8.2)
Y
greg
=
Y
+ (X
X
)
Y
= X
, (8.3)
que es el estimador de razn.
8.2.4. Plan simple y estimacin de regresin
El estimador de regresin en el m.a.s. se logra cogiendo
k
= n/N, c
k
= 1, y x
k
= (1, x
k
)
. Luego tenemos
T =
_
_
N
X
N
n
kS
x
2
k
_
_,
T
1
=
n
N
2
s
2
x
(n 1)
_
_
N
n
kS
x
2
k
N
_
_,
56
t =
_
N
n
kS
x
k
y
k
_
_,
T
1
t =
n
N
2
s
2
x
(n 1)
_
_
N
n
kS
x
2
k
X
N
n
kS
x
k
y
k
N
2
s
xy
_
_
,
donde
s
2
x
=
n
n 1
_
1
n
kS
x
2
k
X
2
N
2
_
,
y
s
xy
=
n
n 1
_
1
n
kS
x
k
y
k
N
2
_
.
Como X
X
x
= (0, X
X
, tenemos nalmente
Y
greg
=
Y
+
_
X
X
T
1
t =
Y
+
_
X
X
_
s
xy
s
2
x
,
que es el estimador de regresin clsico.
8.3. Estimacin de calibracin
8.3.1. El mtodo
Deville y Srndal (1992) y Deville, Srndal y Sautory (1993).
La informacin auxiliar usada es un vector de totales conocidos X.
El mtodo de calibracin consiste en buscar nuevos coecientes de ponderacin.
Estimador lineal que se escribe
Y
G
=
kS
w
k
(S)y
k
,
donde los w
k
(S), k S son los pesos que dependen de la muestra.
Propiedad de calibracin
X =
kS
w
k
x
k
= X. (8.4)
Como existe une innidad de pesos w
k
que verican la relacin (8.4), vamos a buscar pesos prximos a los
pesos
1
k
del estimador de Horvitz-Thompson , lo que va dar un pequeo sesgo.
Denimos
d
k
=
1
k
, k S,
El objetivo consiste entonces en la bsqueda a los pesos w
k
prximos de los d
k
que verican la calibracin.
Pseudo-distancia G
k
(w
k
, d
k
), (la simetra no es requerida.)
G
k
(w
k
, d
k
) es positiva, derivable con respecto a w
k
estrictamente convexa, tal que G
k
(d
k
, d
k
) = 0.
Los pesos w
k
, k S, se logran minimizando
kS
G
k
(w
k
, d
k
)
q
k
sujeto a que la calibracin sea vericada.
q
k
coecientes de ponderacin
L(w
k
, k S,
j
, j = 1, ..., J)
=
kS
G
k
(w
k
, d
k
)
q
k
j=1
j
_
kS
w
k
x
kj
X
j
_
,
57
donde los
j
son los multiplicadores de Lagrange.
L(w
k
, k S,
j
, j = 1, ..., J)
w
k
=
g
k
(w
k
, d
k
)
q
k
j=1
j
x
kj
= 0, (8.5)
donde
g
k
(w
k
, d
k
) =
G
k
(w
k
, d
k
)
w
k
.
Como G
k
(., d
k
) es estrictamente convexo y positivo y
G
k
(d
k
, d
k
) = 0,
g
k
(., d
k
) es estrictamente creciente y g
k
(d
k
, d
k
) = 0.
Los pesos
w
k
= d
k
F
k
_
_
J
j=1
j
x
kj
_
_
, (8.6)
donde d
k
F
k
(.) es la funcin inversa de g
k
(., d
k
)/q
k
.
La funcin F
k
(.) es estrictamente creciente y F
k
(0) = 1, y F
k
(.) la derivada de F
k
(.) es entonces estrictamente
positiva.
Adems, suponemos que F
k
(0) = q
k
.
Ecuaciones de calibracin :
kS
d
k
x
kj
F
k
_
J
i=1
i
x
ki
_
= X
j
, j = 1, ..., J, (8.7)
que permite obtener los
j
.
Con una escritura matricial
kS
d
k
x
k
F
k
_
x
_
= X, (8.8)
donde = (
1
, ...,
j
, ...,
J
)
.
Al nal,una vez calculado , podemos calcular el estimador de calibracin :
Y
CAL
=
kS
d
k
y
k
F
k
_
x
_
. (8.9)
8.3.2. Eleccin de la pseudo-distancia
G
(w
k
, d
k
) =
_
_
w
k
d
1
k
+ ( 1)d
k
w
k
( 1)
R\{0, 1}
w
k
log
w
k
d
k
+d
k
w
k
= 1
d
k
log
d
k
w
k
+w
k
d
k
= 0.
Si derivamos G
(w
k
, d
k
) con respecto a los w
k
, logramos
g
(w
k
, d
k
) =
_
_
1
( 1)
_
w
1
k
d
1
k
1
_
R\{1}
log
w
k
d
k
= 1.
La inversa de g
(w
k
, d
k
)/q
k
con respecto a w
k
es :
d
k
F
k
(u) =
_
d
k
1
_
1 +q
k
u( 1) R\{1}
d
k
expq
k
u = 1.
Segn los diferentes valores de , logramos varias pseudo-distancias. Les distancias ms usadas son los casos
= 2 (khi-cuadrado) y = 1 (entropa).
58
Cuadro 8.1: Pseudo-distancias para la calibracin
G
(w
k
, d
k
) g
(w
k
, d
k
) F
k
(u) Tipo
2
(w
k
d
k
)
2
2d
k
w
k
d
k
1 1 +q
k
u Khi-cuadrado
1 w
k
log
w
k
d
k
+d
k
w
k
log
w
k
d
k
exp(q
k
u) Entropa
1/2 2(
w
k
d
k
)
2
2
_
1
_
d
k
w
k
_
(1 q
k
u/2)
2
Distancia de Hellinger
0 d
k
log
d
k
w
k
+w
k
d
k
1
d
k
w
k
(1 q
k
u)
1
Entropa Inversa
1
(w
k
d
k
)
2
2w
k
_
1
d
2
k
w
2
k
_
/2 (1 2q
k
u)
1/2
Khi-cuadrado inverso
8.3.3. El mtodo lineal
Un caso particular importante se logra usando como pseudo-distancia una funcin de tipo chi-cuadrado (caso
= 2) :
0 10 20 30 40
0
5
10
15
20
25
Figura 8.1: Mtodo lineal : funcin G(w
k
, d
k
) con q
k
= 1 y d
k
= 10
G
2
(w
k
, d
k
) =
(w
k
d
k
)
2
2d
k
,
obtenemos una funcin lineal
F
k
(u) = 1 +q
k
u.
Las ecuaciones de calibracin son
X
j
=
kS
x
kj
d
k
_
1 +q
k
J
i=1
i
x
ki
_
, j = 1, ..., J,
o, con escritura matricial,
X =
X
kS
d
k
x
k
q
k
x
donde
= (
1
, ...,
j
, ...,
J
). Si la matriz
kS
d
k
x
k
q
k
x
k
es inversible, podemos calcular :
=
_
kS
d
k
x
k
q
k
x
k
_
1
_
X
X
_
. (8.10)
59
0 10 20 30 40
-1
0
1
2
3
Figura 8.2: Mtodo lineal: funcin g(w
k
, d
k
) con q
k
= 1 y d
k
= 10
-4 -2 0 2 4
-4
-2
0
2
4
6
Figura 8.3: Mtodo lineal: funcin F
k
(u) con q
k
= 1
Luego, podemos calcular los w
k
mediante
w
k
= d
k
_
_
1 +q
k
J
j=1
j
x
kj
_
_
= d
k
_
1 +q
k
x
k
_
= d
k
_
_
_
1 +q
k
_
X
X
kS
d
k
x
k
q
k
x
k
_
1
x
k
_
_
_
.
Al nal, el estimador se escribe
Y
L
=
kS
w
k
y
k
=
Y
+
_
X
X
kS
d
k
x
k
q
k
x
k
_
1
kS
x
k
d
k
q
k
y
k
.
Si cogemos q
k
= c
k
, k U.
8.3.4. El mtodo del raking ratio
El mtodo del raking ratio que incluye el estimador de calibracin sobre mrgenes se logra usando una
pseudo-distancia de tipo Entropa (caso = 1) :
G
1
(w
k
, d
k
) = w
k
log
w
k
d
k
+d
k
w
k
.
Obtenemos
F
k
(u) = expq
k
u.
60
0 10 20 30 40
2
4
6
8
10
12
14
Figura 8.4: Raking ratio": funcin G(w
k
, d
k
) con q
k
= 1 y d
k
= 10
-5 0 5 10 15 20 25 30
-6
-5
-4
-3
-2
-1
0
1
Figura 8.5: Raking ratio": funcin g(w
k
, d
k
) con q
k
= 1 y d
k
= 10
-4 -2 0 2 4
0
10
20
30
40
50
60
70
Figura 8.6: Raking ratio": funcin F
k
(u) con q
k
= 1
Los pesos son siempre positivos.
El estimador viene dado por
w
k
= d
k
exp
_
_
q
k
J
j=1
j
x
kj
_
_
,
donde les
j
son calculados por la ecuacin
kS
d
k
x
kj
exp
_
q
k
J
i=1
i
x
ki
_
= X
j
, j = 1, ..., J.
Caso particular : la calibracin sobre mrgenes.
En este caso, los x
ki
son iguales a 1 o 0 segn que la unidad i est o no en la subpoblacin U
i
U. Si,
adems, q
k
= 1, k U, tenemos
w
k
= d
k
i|U
i
k
i
61
donde
j
= exp
j
. Los
j
son calculados mediante la ecuacin
kS
d
k
x
kj
i|U
i
k
i
= X
j
, j = 1, ..., J.
8.3.5. El mtodo logit
0 10 20 30 40
0.5
1
1.5
2
Figura 8.7: Mtodo logstico: funcin G(w
k
, d
k
) con q
k
= 1, d
k
= 10, L = 0, 2 y H = 3
0 10 20 30 40
-0.1
0
0.1
0.2
0.3
0.4
0.5
Figura 8.8: Mtodo logstico: funcin g(w
k
, d
k
) con q
k
= 1, d
k
= 10, L = 0, 2 y H = 3
-4 -2 0 2 4
0
0.5
1
1.5
2
2.5
3
Figura 8.9: Mtodo logstico : funcin F
k
(u) con q
k
= 1, L = 0, 2, y H = 3
A veces se quiere que los w
k
no sean demasiado variable.
Es posible imponer que los pesos w
k
se encuentren entre dos valores Ld
k
y Hd
k
(L < 1 < H) usando una
funcin de tipo logit
G(w
k
, d
k
)
=
_
a
k
log
a
k
1 L
+b
k
log
b
k
H 1
1
A
Ld
k
< w
k
< Hd
k
en otro caso,
62
donde
a
k
=
w
k
d
k
L, b
k
= H
w
k
d
k
, A =
H L
(1 L)(H 1)
.
Obtenemos
F
k
(u) =
L(H 1) +H(1 L) exp(Aq
k
u)
H 1 + (1 L) exp(Aq
k
u)
.
Tenemos F
k
() = L, F
k
() = H. Los pesos obtenidos estan entonces siempre en el intervalo [Ld
k
, Hd
k
].
8.3.6. El mtodo lineal truncado
Ms simplemente, para restringir el intervalo de soluciones, podemos usar una funcin del tipo
0 10 20 30 40
5
10
15
20
25
Figura 8.10: Mtodo lineal truncado : funcin G(w
k
, d
k
) con q
k
= 1, d
k
= 10, L = 0, 2 y H = 3
0 10 20 30 40
-1
0
1
2
3
Figura 8.11: Mtodo lineal truncado: funcin g(w
k
, d
k
) con q
k
= 1, d
k
= 10, L = 0, 2 y H = 3
-4 -2 0 2 4
0
0.5
1
1.5
2
2.5
3
Figura 8.12: Mtodo lineal truncado: funcin F
k
(u) con q
k
= 1, L = 0, 2, y H = 3
G(w
k
, d
k
) =
_
_
_
(w
k
d
k
)
2
d
k
Ld
k
< w
k
< Hd
k
sino.
63
Obtenemos una funcin lineal truncada
F
k
(u) =
_
_
_
1 +q
k
u si (L 1)/q
k
u (H 1)/q
k
H si u > (H 1)/q
k
H
L si u < (L 1)/q
k
L
64
Captulo 9
Estimacin de la varianza por
linealizacin
Las funciones de inters estimadas por muestreo son a veces funciones mas complejas que simples totales,
por ejemplo coecientes de regresin, de correlacin, varianza, ndices de desigualdades. Adems, se usa
generalmente una informacin auxiliar para la calibracin de los estimadores, lo que da una forma mas
compleja a los estimadores.
Es posible aproximar la varianza por las tcnicas de linealizacin para estimar la precisin de estos
estimadores. Las tcnicas de linealizsacin han sido introducida por Woodru (1971). Las aplicaciones en la
teora de muestreo han sido desarrolladas por Binder (1983), Binder y Patak (1994), Wolter (1985), Deville
(1999).
9.1. Orden de magnitud en probabilidad
Las tcnicas de linealizacin estn basadas en los mtodos de desarrollo en Serie de Taylor. El desarrollo
se hace con respeto a una variable aleatoria. Para tratar estos problemas vamos a introducir los ordenes de
magnitud en probabilidad
Denicin 4 Una sucesin de nmeros f
n
, n = 1, 2, ... es dice que es de orden de magnitud inferior a
h
n
> 0, n = 1, 2, ..., si
lm
n
f
n
h
n
= 0.
Se escribe
f
n
= o (h
n
) .
Denicin 5 Una sucesin de nmeros f
n
, n = 1, 2, ... est acotada por h
n
> 0, n = 1, 2, ..., si existe M > 0
tal que
| f
n
| Mh
n
,
para todo n = 1, 2, .... Se escribe
f
n
= O(h
n
) .
Se puede tambin denir el orden de magnitud en probabilidad.
Denicin 6 Una sucesin de variables aleatorias X
n
converge en probabilidad hacia una variable aleatoria
X si, para todo > 0,
lm
n
Pr [| X
n
X |> ] = 0.
Se escribe
p lm
n
X
n
= X,
o mas simplemente
X
n
P
X.
65
La convergencia en probabilidad permite introducir la nocin de orden de magnitud aleatoria :
Denicin 7 Sea X
n
una sucesin de variables aleatorias, X
n
se dice que es inferior en probabilidad a
h
n
> 0, si
p lm
n
X
n
h
n
= 0.
Se escribe
X
n
= o
p
(h
n
) .
Denicin 8 Sea X
n
una sucesin de variables aleatorias, X
n
se dice que est acotada por h
n
> o en
probabilidad por h
n
> 0 si para todo > 0, existe un nmero M
h
n
] ,
para todo n = 1, 2, 3, ... se escribe
X
n
= O
p
(h
n
) .
Teorema 7 Sean X
n
y Y
n
dos sucesiones de variables aleatorias, tales que
X
n
= o
p
(h
n
) e Y
n
= o
p
(g
n
),
si a es un real > 0, entonces
(i) aX
n
= o
p
(h
n
),
(ii) | X
n
|
= o
p
(h
n
),
(iii) X
n
Y
n
= o
p
(h
n
g
n
),
(iv) X
n
+Y
n
= o
p
(max(h
n
, g
n
)) .
Demostracin
(i) Si X
n
= o
p
(h
n
) e Y
n
= o
p
(g
n
), entonces
lm
n
Pr
_
X
n
h
n
>
_
= 0, (9.1)
y
lm
n
Pr
_
Y
n
g
n
>
_
= 0.
para todo > 0. Lo que implica que
aX
n
= o
p
(h
n
).
(ii) Como
Pr
_
X
n
h
n
>
_
= Pr
_
X
n
h
n
>
_
,
se obtiene | X
n
|
= o
p
(h
n
).
(iii) Luego, tenemos que, para todo > 0,
Pr
_
X
n
h
n
>
_
+Pr
_
Y
n
g
n
>
_
Pr
_
X
n
h
n
> donde
Y
n
g
n
>
_
Pr
_
X
n
Y
n
h
n
g
n
>
2
_
,
lo que implica que
lm
n
Pr
_
X
n
Y
n
h
n
g
n
>
2
_
= 0,
y
X
n
Y
n
= O
p
(h
n
g
n
).
(iv) Al nal, X
n
+Y
n
= o
p
(max(h
n
, g
n
)) es obvio. 2
66
Teorema 8 Sean X
n
y Y
n
los dos sucesiones de variables aleatorias, tales que
X
n
= O
p
(h
n
) e Y
n
= O
p
(g
n
),
si a es un real y > 0,
aX
n
= O
p
(h
n
),
| X
n
|
= O
p
(h
n
),
X
n
Y
n
= O
p
(h
n
g
n
),
X
n
+Y
n
= O
p
(max(h
n
, g
n
)) .
Los demostraciones son similares a la precedente. 2
Teorema 9 Desigualdad de Bienaym-Tchebychev (caso discreto) Sean > 0 y X una variable
aleatoria discreta tal que E[X
.
Demostracin
Si se nota X
1
, ..., X
i
, ..., X
I
, a los valores posibles X, se puede escribir
E [| X A |
] =
I
i=1
| X
i
A |
Pr[X = X
i
]
=
I
i=1
|X
i
A|<
| X
i
A |
Pr[X = X
i
]
+
I
i=1
|X
i
A|
| X
i
A |
Pr[X = X
i
]
i=1
|X
i
A|
Pr[X = X
i
]
=
Pr [| X A | ] .
2
Teorema 10 Sea X
n
una sucesin de variables aleatorias tal que
E
_
X
2
n
= O(h
n
),
entonces X
n
= O
p
(
h
n
).
Demostracin
Como E
_
X
2
n
= O(h
n
) entonces existe un M
A
> 0 tal que
E
_
X
2
n
M
A
h
n
para todo n. Por otro lado, con = 2, A = 0, y =
M
B
h
n
, por la desigualdad de Bienaym-Tchbichev,
se tiene
Pr
_
| X
n
|
_
M
B
h
n
_
E
_
X
2
n
M
B
h
n
.
Si tomamos, M
B
M
A
, se tiene
E
_
X
2
n
M
B
h
n
=
M
A
M
B
,
lo que da
Pr
_
| X
n
|
_
M
B
h
n
_
,
y entonces X
n
= O
p
(
h
n
). 2
67
Teorema 11 Sea X
n
una sucesin de variables aleatorias tales que
E
_
(X
n
E[X
n
])
2
= O(h
n
),
y que
E [X
n
] = O(
_
h
n
),
entonces X
n
= O
p
(
h
n
)
Demostracin
Como
E
_
X
2
n
= E
_
(X
n
E[X
n
])
2
+E[X
n
]
2
= O(h
n
),
el resultado viene del teorema 11. 2
Ejemplo 9. Sea X
1
, ..., X
n
, n variables independientes con la misma distribucin de media y con desviacin
tipica . La variable
X
n
=
1
n
n
i=1
X
n
tiene varianza
V ar
_
X
n
=
2
n
,
y entonces
X
n
= O
p
(n
1/2
).
Teorema 12 Sea X
n
una sucesin de variables aleatorias tales que X
n
= x
0
+ O
p
(h
n
), f(x) una funcin
derivable veces con derivadas continuas en el punto x = x
0
, y h
n
una sucesin de nmeros positivos tales
que lm
n
h
n
= 0,
f(X
n
) = f(x
0
) +
1
i=1
(X
n
x
0
)
i
f
(i)
(x
0
)
i!
+O
p
(h
n
),
donde f
(i)
(x
0
) es la i-sima derivada de f(x) calculada en el punto x = x
0
.
Demostracin
Con un desarrollo en Serie de Taylor, tenemos
f(X
n
) = f(x
0
) +
1
i=1
(X
n
x
0
)
i
f
(i)
(x
0
)
i!
+ (X
n
x
0
)
f
()
(b)
!
,
donde b varia entre x
0
y X
n
. Puesto que f
()
(.) es una funcin continua, f
()
(b) est acotado, en probabilidad,
i.e. f
()
(b) = O
p
(1). Se obtiene
(X
n
x
0
)
f
()
(b)
!
= O
p
(h
n
).
2
Teorema 13 Sean X
1n
, ..., X
jn
, ..., X
pn
, p sucesiones de variables aleatorias tales que X
jn
= x
j0
+O
p
(h
n
), j =
1, ..., p, f(x
1
, ..., x
p
) una funcin continua cuyas derivadas parciales existen y son continuas en los puntos
x
j
= x
j0
, y h
n
una sucesin de nmeros positivos tales que lm
n
h
n
= 0, entonces
f(X
1n
, ..., X
pn
) = f(x
10
, ..., x
p0
)
+
p
j=1
(X
jn
x
j0
)
f(x
1
, ..., x
p
)
x
j
x
j
=x
j0
+ O
p
(h
2
n
).
68
Demostracin
Aplicando un desarrollo en Serie de Taylor, se logra
f(X
1n
, ..., X
pn
)
= f(x
10
, ..., x
p0
)
+
p
j=1
(X
jn
x
j0
)
f(x
1
, ..., x
p
)
x
j
x
j
=x
j0
+
p
j=1
p
i=1
(X
jn
x
j0
)(X
in
x
i0
)
2!
2
f(x
1
, ..., x
p
)
x
j
x
i
x
j
=b
j
,
donde los b
j
estn entre X
jn
y x
j0
. Como en el teorema precedente, (X
jn
x
j0
)(X
in
x
i0
) = O
p
_
h
2
n
_
que
multiplica una cantidad acotada en probabilidad. 2
9.2. Aproximacin de la varianza por linealizacin
9.2.1. Linealisacin de una funcin de totales
El objetivo es estimar la varianza de una funcin de p totales cuyas derivadas existen y son continuas
hasta el orden dos
= f(Y
1
, ..., Y
j
, ...Y
p
).
Para estimar esta funcin, se utiliza el estimador por substitucin
= f(
Y
1
, ...,
Y
j
, ...
Y
p
),
donde los
Y
j
son los estimadores (eventualmente sesgados) de los Y
j
. Generalmente los
Y
j
son los estimadores
de Horvitz-Thompson, pero pueden tambin ser estimadores de razn, de regresin o ms complejos.
Denicin 9 Si N
] es de grado 2.
En muestreo, no existe una teora asinttica general. Existen resultados particulares para los planes
simples (Madow, 1948) y para algunos planos con probabilidades desiguales (Rosen, 1972a, 1972b). Vamos
a suponer que los
Y
j
verican las condiciones siguientes :
1. Los
Y
j
son lineales homogneos, es decir que pueden ser escritos de la manera siguiente
Y
j
=
kS
w
k
(S)y
kj
, j = 1, ..., p, (9.2)
donde y
kj
es el valor tomado por la j-isima variable sobre la unidad k. El caso ms simple viene dado
por el estimador de Horvitz-Thompson donde w
k
(S) = 1/
k
.
2.
Y
j
Y
j
N
= O
p
_
1
n
_
, j = 1, ..., p.
3. Tenemos un estimador de la varianza de cada uno de los
Y
j
que se nota por
V ar
_
Y
j
_
.
4. Las
V ar
_
Y
j
_
1/2
_
Y
j
Y
j
_
tienen una distribucin normal centrada reducida.
Estas cuatro hiptesis son bastante simple y son vericadas para los planes simples y los planes estrati-
cados (si el numero de estratos es n) y para los planes con conglomerados (si el numero de conglomerados
crece con n).
69
Denicin 10 La variable
v
k
=
p
j=1
y
kj
f(a
1
, ..., a
p
)
a
j
a
1
=Y
1
,...,a
p
=Y
p
, k U, (9.3)
es llamada la variable linearizada de = f(Y
1
, ..., Y
p
).
Teorema 14 Sea v
k
, k U, la variable linealizsada de una funcin de inters de grado estimada por
,
sobre los dos primeras condiciones, entonces
N
= N
+N
V V
_
+O
p
_
1
n
_
,
donde
V =
kU
v
k
,
V =
kS
w
k
(S)v
k
,
y los w
k
(S) estn denidos de la misma manera que en (9.2).
Demostracin
Si se nota
Y
j
=
Y
j
/N, tenemos
N
= N
f(
Y
1
, ...,
Y
j
, ...,
Y
p
) = N
f(N
Y
1
, ..., N
Y
j
, ..., N
Y
p
).
La condicin 2 implica que
Y
j
= y
j
+O
p
(n
1/2
) y con el teorema 13, tenemos
N
= N
f(N
Y
1
, ..., N
Y
j
, ..., N
Y
p
)
= N
f(Ny
1
, ..., Ny
j
, ..., Ny
p
)
+N
j=1
_
Y
j
y
j
_
f(Na
1
, ..., Na
p
)
a
j
a
1
=y
1
,...,a
p
=y
p
+O
p
_
1
n
_
= N
+N
j=1
_
Y
j
Y
j
_
f(a
1
, ..., a
p
)
a
j
a
1
=Y
1
,...,a
p
=Y
p
+O
p
_
1
n
_
= N
+N
V V
_
+O
p
_
1
n
_
.
2
Observar que N
V V
_
= O
p
(n
1/2
). La varianza del estimador de la funcin de inters puede ser
aproximada simplemente. En efecto,
V ar
_
N
_
= V ar
_
N
+N
V V ) +O
p
_
1
n
__
= V ar
_
N
V
_
+ 2E
_
N
V V ) O
p
_
1
n
__
+E
_
O
p
_
1
n
_
2
_
= V ar
_
V
N
_
+EO
p
_
1
n
3/2
_
.
Considerando que EO
p
_
n
3/2
_
es despreciable, se puede construir una aproximacin de la varianza
AV ar[
] = V ar
_
V
_
.
70
9.3. Estimacin de la varianza
Para estimar la varianza, no se puede usar directamente los v
k
, porque los v
k
dependen de los totales de
la poblacin Y
j
quienes son desconocidos. Se aproximan los v
k
combinado los totales desconocidos por los
estimadores, y v
k
es la aproximacin de la variable linealizsada. Deville (1999) ha probado que si el nmero
de totales a estimar en v
k
no crece con n, entonces la aproximacin de la varianza lograda con los v
k
es
vlida para grandes tamaos de muestra.
Al nal, para estimar la varianza de
, se usa un estimador de la varianza. Si los
Y
j
son estimadores de
Horvitz-Thompson, se puede usar de manera general el estimador de la varianza de Horvitz-Thompson :
V ar
_
_
=
kS
v
2
k
2
k
(1
k
) +
kS
S
=k
v
k
v
k
k
k
.
Ejemplo 10. El problema ms clsico consiste en estimar la razn R = Y/X y la varianza en un plan
simple. Primero, se dene f(a
1
, a
2
) = a
1
/a
2
y entonces
R = f(Y, X).
El estimador viene directamente dado par
R = f(
Y,
X) =
Y
X
.
Luego, se calculan las derivadas parciales
f(a
1
, a
2
)
a
1
a
1
=Y,a
2
=X
=
1
X
f(a
1
, a
2
)
a
2
a
1
=Y,a
2
=X
=
Y
X
2
y por (9.3), se obtiene
v
k
=
y
k
X
Y
X
2
x
k
=
1
X
(y
k
Rx
k
) . (9.4)
La varianza aproximada se escribe
AV ar
_
R
_
= N
N n
n
S
2
v
,
donde
S
2
v
=
1
N 1
kU
_
v
k
V
N
_
2
=
1
X
2
_
S
2
y
2RS
xy
+R
2
S
2
x
_
.
Para estimar la varianza de
R, se empieza a estimar los v
k
por
v
k
=
1
X
_
y
k
Rx
k
_
,
y, como
V =
N
n
kS
v
k
= 0,
se obtiene el estimador de la varianza
V AR
_
R
_
= N
N n
n
1
n 1
kS
v
2
k
= N
N n
n
1
X
2
_
s
2
y
2
Rs
xy
+
R
2
s
2
x
_
.
71
Ejemplo 11. En un plan complejo con probabilidades de inclusin de segundo orden positivas, se quiere
estimar la varianza del vector de coecientes de regresin
b =
_
kS
c
k
x
k
x
k
_
1
kS
c
k
x
k
y
k
k
.
La funcin de inters a estimar es
b =
_
kU
c
k
x
k
x
k
_
1
kU
c
k
x
k
y
k
.
Si se nota por
T =
kU
c
k
x
k
x
k
,
el vector de las variables linealizsadas es egual a
v
k
= T
1
c
k
x
k
y
k
T
1
c
k
x
k
x
k
T
1
kU
c
k
x
k
y
k
= T
1
x
k
c
k
(y
k
x
k
b) .
Si se nota por e
k
= y
k
x
k
b, tenemos
v
k
= T
1
x
k
c
k
e
k
. (9.5)
Al nal, se estima v
k
por
v
k
=
T
1
x
k
c
k
e
k
,
donde
T =
kS
c
k
x
k
x
k
,
y
e
k
= y
k
x
b.
9.4. Linealizacin por etapas
9.5. Descomposicin en etapas de la linealizacin
La tcnica de linealizacin puede ser aplicada por etapas. Suponemos que = f(Y
1
, ..., Y
j
, ..., Y
p
, )
donde es tambin una funcin de totales de la qual conocemos la variable linealizada u
k
, entonces es fcil
demostrar que la linealizada de puede escribirse de la forma
v
k
=
p
j=1
y
kj
f(a
1
, ..., a
p
, )
a
j
a
1
=Y
1
,...,a
p
=Y
p
+u
k
f(Y
1
, ..., Y
p
, z)
z
z=
.
Ejemplo 12. Para un plan con probabilidades de orden 1 y 2 conocidas, queremos calcular la varianza del
cuadrado del estimador de razn de Hjek dado por
Y
H
=
_
kS
1
k
_
1
kS
y
k
k
.
Se observa que la linealizada para la media y = Y/N se deduce de la linealizada de un razn (9.4) :
u
k
=
1
N
(y
k
y) .
72
Aplicando el mtodo de linealizacin por etapas, la linealizada de y
2
es
v
k
= 2yu
k
=
2y
N
(y
k
y) .
Se estima v
k
por
v
k
=
2
Y
H
N
_
y
k
Y
H
_
.
9.6. Linealizacin del estimador de regresin
El estimador de regresin se deni en (8.2) :
Y
greg
=
Y
+ (t
x
t
x
)
b.
Podemos escribirlo de la forma
Y
greg
= f(
t
x
,
b).
Este estimador depende de dos totales
Y
,
t
x
, y de
b del cual conocemos la linealizada (9.5). Si se usa la
tcnica de linealisacin por etapas f(Y, t
x
, b), se obtiene
u
k
= y
k
x
k
b + (t
x
t
x
)
v
k
= y
k
x
k
b (9.6)
= e
k
,
donde v
k
es la linealizada de b que no interviene en la linealizada de u
k
. El estimador de la linealizada es
entonces
u
k
= e
k
= y
k
x
b.
La varianza puede ser estimada simplemente mediante el residuo de la regresin.
73
Captulo 10
Referencias
Ardilly, P. (1994), Les Techniques de Sondage, Paris, Technip.
Ardilly, P. (1991), Echantillonnage reprsentatif optimum probabilits ingales, Annales dEconomie y de Statistique,
23, 91-113.
Arora, H.R. y Brackstone, G.J. (1977), An investigation of the properties of raking ratio estimator : I with simple
random sampling, Survey Methodology, 3, 62-83.
Basu, D. (1958), On sampling with and without replacement, Sankhy a, 20, 287-294.
Basu, D. (1964), Recovery of ancillary information, Sankhy a, A26, 3-16.
Basu, D. (1969), Role of the suciency and likelihood principles in sample survey theory, Sankhy a, A31, 441-454.
Basu, D. (1971), An essay on the logical foundations of survey sampling,in Godambe, V.P. y Sprott, D.A. ds.,
Foundations of Statistical Inference, Toronto, Holt, Rinehart and Winston, pp. 203-233.
Basu, D. y Ghosh, J.K. (1967), Sucient statistics in sampling from a nite universe, Proceedings of the 36th Session
of International Statistical Institute, 850-859.
Bebbington, A.C. (1975), A simple method of drawing a sample without replacement, Applied Statistics, 24, 136.
Bellhouse D.R. (1988), A brief history of random sampling methods,in Krishnaiah, P.R. y Rao, C.R. ds., Handbook
of Statistics, Vol 6 (Sampling), New York, Elsevier Science Publishers, pp. 1-14.
Berger, Y. (1996), Asymptotic variance for sequential sampling without replacement with unequal probabilities, Vari-
ance asymptotique pour un plan squentiel sans remise probabilits ingales, Survey Methodology, Techniques
denqute, 22,167-173.
Berger, Y. (1998a), Comportements asymptotiques des plans de sondage probabilits ingales pour un modle de
population xe, Ph.D., Universit Libre de Bruxelles.
Berger, Y. (1998b), Variance estimation using list sequential scheme for unequal probability sampling, Journal of
Ocial Statistics, 14, 315-323.
Berger, Y. (1998c), Rate of convergence for asymptotic variance for the Horvitz-Thompson estimator, Journal of
Statistical Planning and Inference, 74, 149-168.
Berger, Y., El Haj Tirari, M., Till, Y. (2000), Optimal generalised regression estimation under complex sampling
designs, Document de travail, Rennes, CREST-ENSAI.
Bethlehem, J.G. y Keller J.W. (1987), Lineal weighting of sample survey data, Journal of Ocial Statistics, 3,
141-153.
Bethlehem, J.G. y Schuerho, M.H. (1984), Second-order inclusion probabilities in sequential sampling without
replacement with unequal probabilities, Biometrika, 71, 642-644.
Binder, D.A. y Patak, Z. (1994), Use of estimating functions for estimation from complex surveys, Journal of the
American Statistical Association, 89, 1035-1043.
Binder, D.A. y Theberge, A. (1988), Estimating the variance of raking-ratio estimators, Canadian Journal of Statistics,
16 supplement, 47-55.
Brackstone, G.J. y Rao, J.N.K. (1979), An investigation of raking ratio estimators, Sankhy a, C41, 97-114.
Brewer, K.R.W. (1963), Ratio estimation in nite populations : some results deductible from the assumption of an
underlying stochastic process, Australian Journal of Statistics, 5, 93-105.
Brewer, K.R.W. (1975), A simple procedure for pswor, Australian Journal of Statistics, 17, 166-172.
Brewer, K.R.W. y Hanif, M. (1983), Sampling with Unequal Probabilities, New York, Springer-Verlag.
Blher, W. y Deutler, T. (1975), Optimal stratication and grouping by dynamic programming, Metrika, 22, 161-175.
Caron, N. (1996), Les principales techniques de correction de la non-rponse, y les modles associs, Document de
74
travail n