You are on page 1of 23

Recomposición

Capítulo 7
Recomposición
Recomposición Recomposición
1. Principios y objetivos
2. Información auxiliar categórica. Caso diseño simple
2 1 Postestratificación 2.1 Postestratificación
2.2 Método del Raking Ratio
3. Información auxiliar cuantitativa. Caso diseño simple 
3.1 estimador de cociente (o de ratio)
3.2 estimador de regresión
3 3 i d dif i 3.3 estimador por diferencia
1. Principios
Recomposición
Recomposición
p
Una vez realizada la encuesta:
• se han producido perturbaciones (no respuestas, cuestionarios perdidos, etc.);
• diversas variables habrán sido recogidas: facilitan información sobre la muestra
Se utiliza entonces una información auxiliar “exterior” al muestreo y se busca “calibrar”
la muestra de manera que se respete dicha información (en general una distribución)
conocida.
En general, información “agregada” bajo la forma de totales (o de medias/
proporciones). Se nota X el total de la variable auxiliar conocido sobre toda la población. p p ) p
Se puede conocer el total de varias variables.
Recomposición
Recomposición
échantillon information auxilair muestra
Información auxiliar
estimador
estimateur estimateur
"brut" "redressé"

estimador
“bruto”
estimador
“recompuesto”

Recomposición y pesos
Recomposición
Recomposición
La recomposición modifica los pesos de las observaciones a posteriori
Los métodos que veremos conducirán a estimadores que serán estimadores
lineales, es decir, que se expresan de la siguiente forma:
( ) ( )
i
i
i
y w w T
ˆ
·
¿
+ = s s
0
Métodos clásicos
Recomposición
Recomposición
Información auxiliar categórica vs Información auxiliar cuantitativa:
• Información auxiliar cualitativa: Recomposición mediante post‐
estratificación
• Información auxiliar cuantitativa: Recomposición por cociente y regresión
2 R i ió ti d i f ió t ó i
Recomposición
Recomposición
2. Recomposición a partir de información categórica
2.1 Postestratificación
Procedimiento:
1. se descompone el universo en estratos pero a posteriori 1. se descompone el universo en estratos pero a posteriori
2. se conocen los efectivos poblacionales (las proporciones poblacionales) de
cada estrato, pero no la pertenencia de cada individuo a un estrato
t concreto
3. se efectúan estimaciones por estratos antes de concatenarlas todas para
obtener una estimación global g
Se observa UNA muestra (ASSR) que, A POSTERIORI, se divide en H submuestras
Recomposición
Recomposición
Muestra global
(ASSR)
Submuestra h
formada a posteriori
n n
h
(aleatorios)
Y
ˆ
T
ˆ
T
ˆ
h
Y
ˆ
h
T
T
2
h
s
2
s
En la muestra, se observa el valor de y pero también el valor de x (= estrato)
N 1
( )
H H H
N N
ˆ
1
Recomposición
Recomposición
( )
h
h
i , h
n N
N
s w
1
· =
( )
¿
·
¿
=
¿¿
=
¿
=
= e = e =
H
h
i , h
s i
i , h i , h
h
H
h s k
h
h
H
h
h
POST
y s w y
n N
N
y
N
N
Y
h h
1 1 1
1
Sesgo: sin sesgo, excepto cuando estratos vacíos
Varianza del estimador
( )
(
(
¸
(

¸

¿
|
.
|

\
|
÷
÷
+
÷
~
¿
h
S
N
N
n
f
S
N
N
n
f
Y
ˆ
V
h
h
h
h
h
POST
2
2
2
1
1 1
Estimación de la varianza del estimador:
( )
(
(

¿
|
|

|
÷
+
÷
=
¿
s
N f
s
N f
Y
ˆ
V
ˆ
h h
2 2
1
1 1
( )
(
(
¸

¸
¿
|
.

\
÷ + =
¿
h
s
N
n
s
N n
Y V
h h
h
POST
2
1
Recomposición
Recomposición
La práctica
• El criterio elegido para estratificar a posteriori debe estar correlacionado con la
variable de interés (o las variables de interés) para que la técnica sea eficaz.
E i l l f i d l (l N ) id d • Es esencial que los efectivos de los estratos (los N
h
) sean conocidos de manera
precisa, y sobre todo reciente
• Es preferible no hacer correcciones demasiado importantes de las p p
ponderaciones: una regla empírica sugiere evitar que la tasa de corrección más
alta sea más de cinco veces mayor que la más baja. Se desaconseja también
estratificar a posteriori en estratos demasiado poco numerosos (evitar los
estratos tales que Nh/N < 10 %) estratos tales que Nh/N < 10 %).
Problema  
En una región agrícola se desea estimar el área media (por empresa agrícola) que En una región agrícola, se desea estimar el área media (por empresa agrícola) que
corresponde a cultura de cereales (variable y: área cultivada con cereales). Hay
N=2010 empresas agrícolas. Se observa una muestra ASSR de n=100 empresas
agrícolas.
Además, se sabe que hay 1580 empresas de menos de 160 hectáreas (post‐estrato
1) y 430 empresas con más de 160 hectáreas (post‐estrato 2).
Así una vez observada la muestra se conoce: Así, una vez observada la muestra se conoce:
- 30 70
2 1
= = n n
- 63 51 4 19
2 1
. y . y = =
922 312
2 2
¿Cuál es el estimador post‐estratificado de la media de y? ¿es diferente de la media
simple?
Den la expresión del estimador de la varianza del estimador post‐estratificado
- 922 312
2 2
2 1
= =
y y
s s
Den la expresión del estimador de la varianza del estimador post estratificado
Calculen una estimación de la varianza del estimador post‐estratificado
Den un IC (95%) para la media
2.2 Postestratificación a partir de varios criterios
Recomposición
Recomposición
El método del raking‐ratio
Este método se emplea cuando se trata de ajustar la muestra a varios criterios
sin que se conozca la distribución conjunta asociada: por ejemplo se ajusta a sin que se conozca la distribución conjunta asociada: por ejemplo, se ajusta a
la distribución de hogares por tamaño, y también a la distribución según el
nivel de instrucción del jefe de hogar.
Se ajusta la muestra a una de las distribuciones, modificando las
ponderaciones de los cuestionarios (es decir, multiplicando la ponderación de
todas las unidades de cada “porción” de la distribución por el mismo
coeficiente, para que resulte el número de unidades conocido coeficiente, para que resulte el número de unidades conocido
“exteriormente” de la “porción”). Se modifican luego las ponderaciones para
ajustarse a la otra distribución. Se repite el reajuste respecto de la primera
distribución y después de un cierto número de iteraciones, se obtienen las
d i d fi i i ponderaciones definitivas.
Este método puede adoptarse en el caso de un muestreo aleatorio simple o de
un diseño muestral más complejo donde las probabilidades de inclusión p j p
finales de las unidades sean iguales y la muestra de tamaño fijo
3. Información auxiliar cuantitativa
Recomposición
Recomposición
Principio: se ajusta para « satisfacer » un valor total/ medio
Se conoce el verdadero total T
X
de una variable auxiliar X
Recomposición
Recomposición
3 métodos:
‐ estimador de cociente (o de ratio)
estimador de regresión ‐ estimador de regresión
Principio: se ajusta para « satisfacer » un valor medio.
Se selecciona una muestra para estudiar una variable y pero se observa también una
X
Se selecciona una muestra para estudiar una variable y, pero se observa también una 
variable auxiliar x. De esta variable x, se conoce la media poblacional  
b l d b d b l
X
Se observa la media        obtenida sobre la muestra y se compara con    
Se ajusta la estimación por un coeficiente corrector que, aplicado a x estima su media  
(o su total) sin error
x
X
3.1 Estimación por cociente (o por el ratio)
+ = u x R y
Recomposición
Recomposición
Se supone que  y e x varían proporcionalmente 
¿
=
+
eU
u
u x . R y
o
o
o o o
0
-R, coeficiente de proporcionalidad,  , p p ,
-u
o
, pequeño para todo o, no controlado, desviación a la proporcionalidad perfecta, 
residuo
L id i ól i Los residuos se compensan, si y sólo si
X
Y
R =
X R Y · =
X
X R Y
Por lo tanto, siempre se puede escribir:
, u x
X
Y
y
o o o
+ =
0 =
¿
eU
u
o
o
X
X 1
Recomposición
X y
ˆ
Recomposición
i
S i
Q
y
x
X
n
Y
ˆ
·
¿
=
e
1
peso: depende de la
x
X
y X
x
y
Y
ˆ
Q
= =
Sesgo: pequeño, de orden 1/n
Varianza del estimador
peso: depende de la 
muestra entera
( )
2
1
1
u Q
S
n N
n
Y
ˆ
V
|
.
|

\
|
÷ =
con
¿
÷
=
eU
u
u
N
S
o
o
2 2
1
1
dado que (E(U)=0)  se puede calcular así:
y x Y , X x y u
S S R S R S S µ 2
2 2 2 2
÷ + =
Estimación de la varianza del estimador:
2
1
1
u Q
s
n N
n
Y V
ˆ
ˆ
ˆ
|
.
|

\
|
÷ = |
.
|

\
|
. \
y x Y X x y u
s s R s R s s
,
ˆ
ˆ ˆ
µ 2
2 2 2 2
÷ + =
i i i
x R
ˆ
y uˆ ÷ =
Recomposición
Recomposición
Notas
• si la variable auxiliar x y la variable estudiada y son aproximadamente proporcionales, la 
varianza del estimador de cociente resulta inferior a la del estimador simple
• Como el orden de magnitud de la desviación típica es “dominante” frente al del sesgo, el Como el orden de magnitud de la desviación típica es  dominante  frente al del sesgo, el 
estimador por cociente resulta entonces interesante. 
Recomposición
Problema
En una región agrícola, se desea estimar el área media (por empresa agrícola) que corresponde a
cultura de cereales (variable y: área cultivada con cereales). Hay N=2010 empresas agrícolas. Se
observa una muestra ASSR de n=100 empresas agrícolas.
Además, se conoce el total de la variable auxiliar X, superficie total cultivada.
Así, una vez observada la muestra se conoce:
1. ha y ha x ha X 07 29 25 131 32 118 . . . = = =
2. 57 0 708 9173
2 2
.
ˆ
= = = µ
y x
s s
3. Den la expresión de la correlación poblacional µ y de la correlación muestral µ
ˆ
. Digan si
µ
ˆ
es sesgado.
4. Den la expresión del estimador de la varianza del estimador de ratio.
5. Muestren que el estimador de ratio de Y es más preciso que la media simples si y sólo si
( ) x V C
ˆ
ˆ
1
> µ donde V C
ˆ
significaestimador del coeficientedevariación
( ) y V C
ˆ
2
> µ , donde V C significaestimador del coeficiente de variación.
6. Calculen el estimador de cociente (=de ratio) de Y por punto y por intervalo (nivel de
confianza igual a 95% )

3.2 Estimación por la regresión
Recomposición
Recomposición
u x b a y + +
Se supone que las variables entretienen una relación del siguiente tipo:
Se impone: u
o
pequeños, no
o o o
u x . b a y + + =
Se impone: u
o
pequeños, no 
relacionados con x
o
, que 
verifican; 
0 =
¿
eU
u
o
o
Entre las elecciones posibles de a y b verificando la ecuación de arriba y las 
constricciones sobre u:
( )( )
S
Y y X x
¿
÷ ÷ ( )( )
( )
2
2
sy
U
S
S
X x
Y y X x
b =
¿
÷
¿
÷ ÷
=
e o
o o
d d
o o o
u x . b a y + + =
( )
x
U
¿
e o
o
X b Y a · ÷ =
siempre verdad si se 
calculan a y b así
En la población
Recomposición
Recomposición
X b a Y . + =
En la muestra, se considera que los residuos se compensan. Así:
x b a y . + ~
x b X b y Y ÷ ~ ÷ .
ˆ
( ) x X b
x b X b y Y
÷ · ~
~ .
Es entonces natural aproximar  por:
( ) x X b y Y ÷ · + ~
~
Y
En lugar de aplicar  una “regla de 3” como en el caso 
del estimador de cociente, se corrige mediante un  g
coeficiente que tiene la forma de una diferencia
Recomposición
Recomposición
Pero desconocido…
b
Se estima a partir de la muestra:
( )( )
( )
2
2
y , x
S i
i i
s
y y x x
b
ˆ
=
¿
÷ ÷
=
e
Estimador sesgado 
de
d á
b
( )
2
2
x
S i
i
s x x
¿
÷
e
b
ˆ
ˆ
También      :     
a
Error cuadrático 
medio de orden 1/n
x b y a · ÷ =
Estimador por la regresión:
( ) x X b y Y
REG
÷ · + =
ˆ
ˆ
Estimador por la regresión:
no interviene 
en la expresión
a
ˆ
Notas
Recomposición
Recomposición
son los parámetros verdaderos pero desconocidos de la “mejor”
recta (con el criterio mínimo‐cuadrático) ajustada a partir de (x
o
,y
o
) con o
barriendo toda la población
b y a 1.
son los parámetros de la “mejor” recta (con el criterio mínimo‐
cuadrático) ajustada a partir de (x
i
,y
i
) con i barriendo toda la muestra
b y a
ˆ
ˆ
22.
Si se utiliza el estimador por la regresión calibrado sobre x para estimar 
X
( )( )
1 =
¿
÷ ÷
=
eS i
i i
x x x x
b
ˆ
( )
1
2
=
¿
÷
=
eS i
i
x x
b
( ) X x X x X
reg
= ÷ · + = 1
ˆ
Peso de los individuos
( ) 1
Recomposición
Recomposición
( ) ( )
i
s i
i reg
y s w x X b
ˆ
y Y
ˆ
·
¿
= ÷ · + =
e
( ) ( )
( )
( )
¿
÷
÷
· ÷ + =
es i
i
i
i
x x
x x
x X
n
s w
1
Sesgo pequeño, de orden 1/n, de expresión muy compleja
Sesgo, precisión 
Varianza del estimador
2
1
1
u reg
S
n N
n
Y V |
.
|

\
|
÷ = |
.
|

\
|
ˆ
bx a y u
( )
2 2 2 2
1
1
S u S
¿
µ
o o o
bx a y u ÷ ÷ =
Estimación de la varianza del estimador:
( ) 1
1
S u
N
S
U
u
· ÷ =
¿
÷
=
e
µ
o
o
( ) s
n n
2 2
2
1
1
µˆ
ˆ
ˆ
÷
| | | |
| |
( )
n
s
N
n
s
n N
n
Y V
y
u reg
2
1
1
1
1
µ
ˆ
ˆ
|
.
|

\
|
÷ =
|
.
|

\
|
÷ = |
.
|

\
|
x b
ˆ
aˆ y uˆ
b
ˆ
b
ˆ
ˆ
¿
2
1
2 2 2 2 2
i i i
x b a y u ÷ ÷ =
y , x x y
s i
i uˆ
s b s b s u
n
s · ÷ · + =
¿
÷
=
e
2
1
2 2 2 2 2