You are on page 1of 16

Seccin sobre Mtodos de Investigacin de Encuestas

Sharon, Lohr (2007). Desarrollos recientes en encuestas de marcos mltiples


Departamento de Matemticas y Estadstica, Universidad Estatal de Arizona, Tempe AZ
85287-1804

Con la creciente diversidad demogrfica y tecnolgica, es cada vez ms difcil para una
sola muestra seleccionada de una sola trama de muestreo para representar adecuadamente
la poblacin. Se utilizan cada vez ms encuestas de marcos mltiples en situaciones en
las que varios marcos de muestreo pueden proporcionar una mejor cobertura o
rentabilidad para estimar la poblacin con cantidades de inters. Los ejemplos incluyen
combinar un marco de lista de viviendas con un marco de rea o utilizar dos marcos de
muestra en los hogares de telefona fija y los celulares. Revisamos la historia de las
Encuestas de marcos mltiple incluyendo algunos de los muchos de JNK Rao y sus
contribuciones al tema. A continuacin, discutimos algunos de sus trabajos ms recientes
sobre la consistencia interna y los estimadores eficientes para tres o ms marcos, y
mtodos de re-muestreo para estimacin de la varianza en encuestas con marcos
mltiples. Conexiones entre encuestas de marco mltiple y las contribuciones de Rao a
otras reas de la estadstica tambin se discuten.

Palabras clave: Bootstrap, Encuesta compleja, encuesta de marco mltiple, Jackknife,


muestreo para eventos raros, encuestas de varianza y estimacin.

1 Introduccin

Es un privilegio ser invitado a participar en esta sesin en honor a las contribuciones de


JNK Rao a las estadsticasen ocasin de su cumpleaos 70. La tarea ms difcil para m
fue decidir en un tema en el cual enfocarse, ya que l contribuy a tantas reas de la
estadstica que yo decid hablar de sus contribuciones a las encuestas de marcos mltiples,
en parte porque tengo conocimiento directo de sus contribuciones en esta rea, y en parte
porque su trabajo en encuestas de marcos mltiples va mucho ms all del tema. Como
muchos de los aportes de Rao a las estadsticas, su trabajo sobre encuestas de marcos
mltiples y sus aplicaciones a muchas reas, incluyendo diseo de encuestas,
estimaciones para reas pequeas, probabilidad emprica, inferencia intensiva en el uso
de computadoras, errores de clasificacin, calibracin, errores de medicin, y la
imputacin.

En primer lugar, qu es una encuesta de marco mltiple?


Una muestra probabilstica se toma del marco, y las probabilidades de inclusin en el
diseo de muestreo se pueden utilizar para hacer inferencias sobre la poblacin en el
marco de muestreo. y i una medida sobre la unidad i en la poblacin de N unidades,
donde S sea el conjunto de unidades en la muestra, y sea i =

Grfica 1: El fotograma B es un subconjunto del fotograma A.


P ( la unidad i est incluida en la muestra). Entonces el estimador Horvitz-Thompson de la

N
poblacin total Y = y i es:
i =1

Y = w y i i
i S

Donde w i = 1 / i es el peso de muestreo.


En muchos casos, sin embargo, un marco que cubre toda la poblacin es muy costoso, un
marco alterno puede estar disponible aunque no cubra la totalidad de la poblacin, pero
es ms barato de probar. Por ejemplo en una encuesta agrcola sobre el arroz, un marco
que cubriera todos los sitios que producen arroz sera muy caro para muestrear, adems,
relativamente son pocas las explotaciones productoras de arroz (Fecso et al., 1986).
Una lista de marco proporcionando la informacin de contacto para el arroz de
productores conocidos, ser ms barato para la muestra, pero la mayora probablemente
no incluye todas las fincas que producen arroz. En una encuesta de doble marco, las
muestras de probabilidad independientes son tomadas del marco A (el marco de rea) y
el cuadro B (el cuadro de lista); esto se representa en la Grfica 1.
Las poblaciones raras a menudo se pueden muestrear de manera ms eficiente utilizando
una muestra de marco mltiple (Kalton y Anderson, 1986). En un estudio epidemiolgico,
por ejemplo, el marco A podra ser el utilizado para una encuesta general de salud de la
poblacin, mientras que el marco B podra ser un marco de la lista de clnicas
especializadas en una cierta enfermedad.
En otras situaciones, todos los marcos son incompletos; por ejemplo,- el marco A en la
Figura 2 podra ser un marco de telfonos de lnea fija y el cuadro B puede consistir en
telfonos celulares (Tucker et al., 2007). Se desconoce si un miembro de la familia es
muestreado con un marco, tambin pertenece al otro marco (Brick et al., 2006).
Grfica 2: Marcos superpuestos para telfonos mviles.
Tucker et al. estim que el 46,4% de los hogares tienen slo telfonos fijos, el 6% slo
tienen telfonos celulares, 42,2% tienen ambos y el 5,4% nunca han tenido.
Grfica 3: Superposicin de marcos A y B y tres dominios-

La situacin general de dos marcos superpuestos es mostrada en la Grfica 3. Hay tres


dominios: dominio a consiste en unidades en el marco A pero no en el marco B, dominio
b consta de unidades en el marco B pero no en el marco A, y el dominio ab consta de
unidades en ambos marcos.
Tambin se pueden emplear ms de dos cuadros, como se muestran en la Grfica 4 para
una encuesta de tres cuadros en la que todos los marcos estn incompletos. En esta
situacin, hay siete dominios dan un ejemplo de una encuesta de tres cuadros utilizada
para muestrear a la poblacin desamparada, donde el marco A es una lista de cocinas
populares, el B es una lista de refugios, y el cuadro C consta de localizacin de calles.
Para permitir una estimacin fiable de las caractersticas de los- residentes de California
vietnamitas o coreanos y su etnia, para la Encuesta de Entrevistas de Salud de California.
Una muestra aleatoria con muestras de listas de hogares con apellidos que pertenezcan a
esos grupos tnicos (Cervantes y Brick, 2007).
Con el objetivo al analizar los datos de una encuesta de marco mltiple es frecuente para
estimar el total de la poblacin Y, utilizando informacin procedente de muestras de
marcos independientes
En una encuesta de doble marco, podemos escribir
Y = Ya + Yab + Yb ,

Donde Ya a es el total de las unidades de poblacin en el dominio a, Yab es el total de las


unidades de poblacin en el dominio Yb es el total de las unidades de poblacin en el
dominio b .
Grfica 4: Los marcos A, B y C estn todos incompletos y superpuestos
Un caso especial de esto es estimar el tamao de la poblacin

N = N a + N ab + N b ,

Como se discuti en Haines y Pollock (1986). Como las encuestas de marco mltis
frecuentes, sin embargo, los objetivos se amplan para incluir la estimacin de las
caractersticas de la poblacin en general, con modelos de ajuste pensados para describir
la sper-poblacin, y empleando encuestas de marco mltiple en la . En las Secciones 2
y 3 revisamos los usos tempranos y estimadores puntuales para encuestas de doble marco.
En la Seccin 4, se discute la estimacin de la varianza, y se introducen los dos mtodos
bootstrap-desarrollados en la investigacin conjunta con Rao-para construir estimaciones
de intervalos de encuestas de marco mltiple. La seccin 5 describe algunas conexiones
entre encuestas de marco mltiple y otros problemas en estadstica.

2. Algn historial de encuestas de marco mltiple

Hansen, Hurwitz y Madow (1953) describen lo que es considerado ms frecuente uno de


los primeros ejemplos de una encuesta de doble marco. La Muestra de la Encuesta de
Tiendas Minoristas fue conducida por la oficina de censo de los EEUU en 1949. En esta
encuesta, con una muestra probabilstica de unidades primarias de muestreo, (psus).
Dentro de cadaun censo al por menor de Empresas en una lista compilada a partir de los
registros de la poblacin de mayor edad y la Oficina de Seguros de Sobrevivientes fue
tomada; y en un rea se tomaron muestras de empresas que no figuran en la lista. En este
caso, se utiliz un diseo de doble marco de seleccin dentro de cada psu seleccionada,
as llamada porque las unidades en el marco de lista estaban diseadas fuera del rea antes
del muestreo. Por lo tanto, el estimador de las ventas totales sum en esencia los dos
estimadores dentro de cada psu-, una encuesta de doble marco de una muestra
estratificada, en la que el marco A es un estrato y el marco B es el segundo estrato. Que
yo sepa, Rao no particip en el diseo de esta encuesta.
Sin embargo, Rao ha estado involucrado con muchos de los desarrollos subsecuentes en
encuestas de marcos mltiples. Rao complet su doctorado en estadsticas en 1961 en la
Universidad Estatal de Iowa con su asesor HO Hartley. Hartley trabaj a travs de la
teora de los estimadores de doble marco durante ese tiempo con Rao y Jack Graham,
dibujando cuidadosamente diagramas de Venn en el pizarrn con el gis rojo. en (1962)
propuso estimadores para el marco general doble situacin mostrada en la Grfica 3, con
los resultados de la Grfica 1 seguida como un caso especial. Utiliz un promedio
ponderado de los estimadores en el dominio de superposicin ab, con
Y ( ) = YaA + YabA + (1 - )YabB + YbB , (1)

Donde YaA es el total estimado de la poblacin de unidades en el dominio a, YabA es el


total estimado de la poblacin en el dominio ab utilizando la muestra del marco A, YabB
es el total estimado de la poblacin en el dominio ab utilizando la muestra del marco
B, YbB es el total estimado de la poblacin en el dominio b, y 0 1.

Hartley (1962, 1974) propuso la eleccin de en (1) para minimizar la varianza de


YH ( ). Debido a que los marcos son muestras independientes de la varianza de YH ( )
es
V [Y ( )] = V [Ya + YabA ] + V [(1 - )YabB + YbB ].

Por lo tanto, para los diseos generales de la encuesta, el valor de la varianza


minimizada de es

V (YabB ) + Cov(YbB , YabB ) - Cov(YaA , YabA )


opt = (2)
V (YabA ) + V (YabB )

Observe que si una de las covarianzas en (2) es grande, es posible que opt sea menor que
0 o mayor que 1. Cuando el marco A y el marco B son los mismos, es decir, sus dominios
a y b estn vacos, sin embargo, opt est entre 0 y 1. Hartley (1974) se refiri varias
veces a una comunicacin de Rao, que obtuvo la mxima verosimilitud de los estimadores
para encuestas de doble marco utilizando la escala de enfoque de carga que fue pionera
en Hartley y Rao (1968). Vea a Rao (1983) para una breve descripcin de estos mtodos,
que l ha presentado en el Instituto Internacional de Estadstica en 1973 en una reunin
en Viena. Rao en (1983) deriv el estimador
Y = Na ya + Nb yb + Nab yab

A
Donde yab es la media de nab + nabB - d unidades distintas y d Es el nmero de unidades
en ambas muestras, usando la mxima probabilidad. Tambin mostr que Y es el valor
esperado posterior bajo una distribucin previa no informativa.

De hecho, Rao, como co-editor de Sankhy Serie C en 1974, fue la persona que anim a
Hartley a presentar el papel a Sankhy en 1974 basado en su trabajo en encuestas de marcos
mltiples. El artculo de Hartley de (1974) se reimprimi posteriormente en la
Conmemoracin del Jubileo de IASS en el Volumen de los Papeles de Referencia en
Encuestas Estadsticas como uno de los diecinueve artculos seleccionados para su
publicacin en ese volumen. (Otro de los Papeles de Referencia fue el de Rao y Scott
(1981), A lo que volveremos en la Seccin 5).
Se puede argumentar que Rao ha trabajado en encuestas de doble marco toda su carrera.
Uno encuentra ideas de doble marco temprano en el trabajo de Rao. Rao y Graham (1964)
desarrollaron estimadores compuestos para una muestra de rotacin, su estimador para la
media poblacional de una caracterstica de inters para el mes actual es
y0= Q( y-
1 + d ) + (1 - Q) y0 ,

Donde y
0 es el estimador para el mes actual, d es- la diferencia estimada entre el tiempo

actual y el tiempo en meses utilizando unidades medidas en ambas ocasiones, y y -1 es el


estimador compuesto para el mes anterior. Usted puede ver las caractersticas bsicas de
un estimador de doble marco aqu:
Dos marcos son los del mes actual y los meses anteriores y la superposicin se utiliza
para mejorar la estimacin de la media de la poblacin de inters. Rao en (1968) estudi
una encuesta de doble marco con los productores de ganado de carne, donde se establece
una lista de personas y los productores que se combinaron con un marco de rea. Uno de
los problemas con el marco de lista es que algunas de las personas estaban en asociacin
con otras personas de la lista; en las que tales asociaciones tenan una mayor probabilidad
de ser seleccionadas. Se pidi a los encuestados que enumeraran todas las personas en
una operacin, y se re ponderarn para reflejar la multiplicidad. Graham y Rao (1978), en
un volumen de la MAA destinado a introducir a los matemticos en aspectos importantes
de las estadsticas, escribi un documento que resuma el estado de las encuestas de
muestreo. Se discutieron encuestas de marcos mltiples en la Seccin- 9 sobre la
evolucin reciente del muestreo y su potencial para mejorar la prctica de la encuesta.
Este papel fue uno de los primeros documentos de revisin a tomar nota de la importancia
de las encuestas de marcos mltiples que presagiaban un nmero de desarrollos
posteriores en la zona.

3. Estimacin de las cantidades de poblacin


Se han propuesto muchos estimadores para estimar los totales de la poblacin y otras
cantidades. En esta seccin, nos fijamos en los estimadores ptimos y luego el pseudo-
estimador de mxima verosimilitud desarrollado por Rao y colaboradores.
3.1 Estimadores ptimos

El estimador de Hartley (1962, 1974) es ptimo entre todos los estimadores de la forma
YaA + YbB + YabA + (1 - )YabB . Fuller y Burmeister (1972) propusieron modificar la
estimacin de Hartley incorporando informacin adicional sobre la estimacin de N ab .
El estimador es:
YFB ( ) = YaA + YbB + 1YabA + (1 - 1 )YabB + 2 ( N abA - N ab
B
) (3) .

Rao (1983) y Skinner (1991) mostraron que YFB puede derivarse de los principios de mxima
verosimilitud cuando se toma una muestra aleatoria simple en cada marco .
Como con el estimador
de Hartley, donde los parmetros 1 y 2 se eligen para minimizar la varianza de
YFB ( ) ; los valores ptimos son:
1,opt
-1
YabA - YabB Cov(YaA YbB YabB , YabA - YabB )
A B
A B B A B
-Cov (4)
2,opt N ab - N ab Cov(Ya Yb Yab , N ab - N ab )

En la prctica, las covarianzas utilizadas en (2) y (4) son desconocidas, por lo que los
valores ptimos de los parmetros a partir de los datos estimados. Sea opt el estimador
de opt que resulta cuando las estimaciones de las covarianzas se sustituyen en (2).

Rao ha visto durante mucho tiempo los estimadores de la encuesta en trminos de peso y,
de hecho, su enfoque de la estimacin de doble marco a travs de las modificaciones de
peso es una reminiscencia de su trabajo en el clculo de la diferencia de los estimadores
de la varianza de jackknife y bootstrap se da modificando los vectores de peso. y Rao
(1996) escribieron los estimadores ptimos en trminos de modificaciones de peso,
adems de la representacin como combinaciones lineales de los totales estimados del
dominio. peso de cada unidad muestreada en el dominio de interseccin se reduce para
compensar la multiplicidad. Sea i (a) = 1 si la unidad i est en el dominio a y 0 en caso
contrario, y define i (ab) y i (b) de manera similar. Los pesos ajustados para el mtodo
de Hartley son:
~ A = (a)wA + (ab)wA
w i ,H i i opt i i

~ B = (b)w B + (1 - ) (ab)w B
wi,H i i opt i i

3.2 Estimacin de Pseudo-Mxima Probabilidad

Skinner y Rao (1996) sealaron que puesto que opt depende de las covarianzas de la
respuesta particular estudiada, los ajustes de peso pueden diferir para cada respuesta
estudiada. Esto puede llevar a inconsistencias entre los estimados. Por ejemplo,
supongamos que Y1 (opt,1) calcula los gastos mdicos totales en la poblacin mayor de
65 aos, Y2 (opt,2) calcula los gastos mdicos totales en la poblacin de 65 aos o
menos, y Y3 (opt,3) calcula los gastos mdicos totales en toda la poblacin. Si las
encuestas tienen un diseo complejo, es probable que Y1 (opt,1) + Y2 (opt, 2 ) Y3 (opt,3 )

Skinner y Rao (1996) propusieron modificar el estimador de muestras aleatorias para


obtener un pseudo-mximo- de probabilidad (PML) para un diseo complejo. Los
estimadores PML utilizan el mismo conjunto de pesos para todas las variables de
respuesta y tiene la forma de:

N A - N ab
PML
( ) A N B - N ab
PML
( ) B N ab
PML
( )
YPML ( ) =
Y +
Y + [YabA + (1 - )YabB ]. (5)
N aA a
N bB b
N ab + (1 - ) N abB
A
Donde N ab
PML
( ) es la menor de las races de la ecuacin cuadrtica

[ / N B + (1 - ) / N A ]x 2 + N abA + (a - ) N ab
B
- [1 + N abA / Nb + (1 - ) N ab
B
/ N a ]x = 0.

Skinner y Rao (1996) sugirieron usar el valor p que minimiza la varianza asinttica de
N ab
PML
( ) :

N a N BV ( N ab
B
)
P = (6)
N a N BV ( N ab ) + Nb N AV ( N abA )
B

El estimador en (5) ajusta los estimadores de los tres totales de dominio Ya , Yab , y Yb
por el estimador ptimo de N ab .

En la prctica, N a , N B , V ( N abA ), y V ( N abB ) se calculan a partir de los datos de modo que


un estimador p de p se sustituye en (5). Los pesos ajustados son

PML
N A - N ab (p) A
wi if i a
~
NaA
w A
PML
N ab (p)
i, p
p wiA if i ab
A
pN ab (1 - p) N ab
B

PML
N B - N ab (p) B
wi if i b
~B N b
B
w PML
N ab (p)
i, p
(1 p ) wiB if i ab
A
pN ab (1 - p) N ab
B

Aunque p depende de las varianzas estimadas del tamao del dominio de


superposicin, y no depende de las covarianzas de otras variables de repuesta. Los usos
del estimador PML en el mismo conjunto de pesos para cada variable de respuesta. Lohr
extendieron el enfoque de PML a ms de dos marcos. Rao y Skinner encontraron que el
estimador PML tiene un pequeo error en el cuadrado medio y funciona bien en una
amplia variedad de diseos de encuestas.

4. Estimacin de la varianza

Para la seleccin de encuestas de doble marco, la estimacin de la varianza es sencilla:


mtodos estndar para muestras estratificadas pueden usarse para estimar las varianzas.
estimacin de la varianza puede ser ms complicada para otros estimadores. El ajuste de
pesos adecuados para el estimador Hartley de la poblacin opt, , que es una funcin de la
estimacin de la covarianza de ambos marcos. Funciones de totales, y otras estadsticas
como los percentiles, tambin se basan en un complejo mtodo en los estimadores de
ambas muestras. Varios mtodos pueden utilizarse para estimar las varianzas de las
cantidades de poblacin en general en encuestas de marco mltiple. Estos mtodos
incluyen tcnicas de linealizacin de Taylor, Jackknife y bootstrap.
4.1 Linealizacin y Mtodos Jackknife

Los mtodos de linealizacin de Taylor y Jackknife, discutidos en Lohr y Rao (2000),


suponen que las caractersticas de una poblacin de inters puede expresarse como
funcin doblemente diferenciable continuamente de la poblacin para los totales de los
marcos. Para la linealizacin de Taylor, derivadas parciales de esta funcin se utilizan
conjuntamente con la matriz de covarianza estimada de los totales de la poblacin
estimada a partir del fotograma A, y la covarianza estimada de la matriz de los totales de
poblacin estimados a partir del marco B, para dar un estimador linealizado de la varianza
del estimador Mayor , por ejemplo Y / X puede ser el radio de una relacin de dos
totales de poblacin de una encuesta de doble marco, con

1
Y 1 1
YaA YabA YabB YbB

2 2 2 ,
1 1 1
X X a X ab X ab X b
A A B B

2 2 2

1 1
para Y y X cmo se define en (1). Los totales estimados del marco A son
2 2
A A A A

Ya , Yab , X a , X ab con estimados de la matriz de varianza S A , y los totales estimados del

marco B son Y B , Y B , X B , X B
b ab b ab
con covariacin estimada de la matriz S ElB
estimador de linealizacin de la varianza es entonces:

g TA S A g A g BT S B g B ,

1

Donde g TA g BT X (1 / 2) (1,1 / 2,, / 2)T A para este ejemplo proviene del vector de
derivados utilizado en la Bajo condiciones de regularidad, Skinner y Rao (1996)
demostraron que el estimador de linealizacin de la varianza es consistente. Sin embargo,
se requiere que derivados se calculen por separado para cada estimador que se considere.
Demnati et al. estimadores de linealizacin derivados de la varianza tomando derivados
de una funcin de los pesos ms que de las medianas, estos son similares al marco de
linealizacin en Demnati y Rao (2004), pero permiten mltiples marcos, el estimador
jackknife de la varianza se basa en las propiedades que las muestras independientes se
toman de los dos marcos. (Lohr y Rao, 2000). Supongamos que una muestra estratificada
cerrada se toma del marco A, y una muestra cerrada e independiente se toma del marco
B.
El jackknife del estimador de la varianza lleva a cabo el jackknife separadamente en los
marcos A y B. (Ahi) de la misma forma que cuando las observaciones de la muestra psu
del estrato i del marco h De la muestra A del marco se omite de los datos.
Similarmente, sea (Ahi) el estimador de la misma forma que cuando las observaciones
de la muestra psu j del estrato l de la muestra del marco B se omite. Entonces, si n~ A es h
el nmero de unidades de muestreo primarias en el estrato h de la muestra en el cuadro
A, y n~lB el nmero de unidades de muestreo primarias en el estrato l de la muestra en el
cuadro B, el estimador jackknife de la varianza es

~A ~B
n~hA 1 nh ~ A ~ 2 L n~lB 1 nl ~ B ~ 2
vj() ~ A ( hi ) ~ B (lj )
H
(7)
h 1 nh i 1 l 1 nl j 1

El estimador jackknife de la varianza es consistente para funciones suaves de los medios


de poblacin. El estimador jackknife de la varianza tiene muchas ventajas, pero no
necesariamente se puede utilizar para estadsticas tales como medianas. Un intervalo de
confianza para una cantidad de poblacin se calcula utilizando el jackknife como
t vj() . Adems, el nmero de pesos de repeticin necesario para el jackknife se
fija en n~ A + n~ B Si uno de los diseos es un simple al azar o estratificado
h h l l

aleatorioejemplo, el nmero de repeticiones necesarias para el Jackknife puede ser muy


grande.

4.2 Bootstrap

Un estimador bootstrap de la varianza puede ser ms flexi y el nmero de iteraciones de


bootstrap es determinado por el usuario. En una encuesta de un solo cuadro, el bootstrap
de Rao y Wu (1988) funciona de la siguiente manera: Superposicin del estrato h como
n~h . unidades primarias de muestreo. Muestra mh = n~h - 1 psu de la psu en el estrato h
mediante muestreo aleatorio simple con reemplazo. Sea mhi (b) el nmero de veces que
psu i del estrato h se selecciona en la muestra de bootstrap b . Entonces los pesos de
arranque para la unidad k dentro del estrato h y psu i para la muestra bootstrap b son

n~h
whik (b) = whik m (b)
mh hi

En esta seccin, presentamos dos mtodos de bootstrap para encuestas de marco mltiple
que se han desarrollado en una investigacin conjunta con Rao: un bootstrap separado,
en el que se aplica por separado a las muestras de los marcos A y B, y un bootstrap
combinado, en el que los psu de ambos marcos son re muestreados juntos. Presentamos
aqu los mtodos para encuestas de doble marco; el bootstrap funciona de manera similar
con ms de dos marcos.
En primer lugar, vamos a definir los pesos bootstrap para los marcos. En el marco A,
para la muestra bootstrap b se muestra n~hA - 1 con sustitucin del estrato h y definen:
w A (b) = [n~ A /( n~ A - 1)]m A (b) w A , donde w A (b) es el numero de veces psu i del estrato h se
hik h h hi hik hi

selecciona en la muestra bootstrap. De forma similar, para el marco B muestreamos n~lB - 1


psu con reemplazo del estrato l y definimos w (b) = [n ~ B -1)]mB (b)wB .
~ B /( n
B
ljk l l lj ljk
Podemos expresar el estimador como una funcin de los pesos para las muestras de los
marcos A y B

Para facilitar la notacin, escribimos w A para ser el vector de los pesos whik
A
del marco A
y w B el vector de los pesos wljkB del marco B. Tenga en cuenta que w A y w B son los pesos
originales para los dos cuadros, antes de cualquier ajuste para la multiplicidad esbozada
en la Seccin 3. Despus de Demnati y Rao (2004), quienes consideraron la varianza de
los estimadores de linealizacin en funcin de los pesos, expresados
=h(w A , w B )
como una funcin h de los dos pesos de los vectores. Para calcular las estimaciones
finales del bootstrap, entonces, sustituimos los pesos del bootpara la iteracin b para el
vector original de los pesos.

Consideramos tres estimadores de bootstrap: * A (b) y *B (b) reemplazan los pesos


originales por los pesos de bootstrap para slo uno de los marcos, mientras que * (b)
reemplaza ambos conjuntos de pesos.

* A (b) = h( w A (b), w B )
*B (b) = h( w A , w B (b))
* (b) = h( w A (b), w B (b))

Para usar el jackknife para estimar la varianza, tuvimos eliminar una psu a la vez de cada
marco. empleado en el re-muestreo, permiti ms flexibilidad. Nosotros proponemos dos
estimadores bootstrap en el arranque separado del estimador similar en forma al jackknife,
pero formando el bootstrap en cada muestra por separado y luego combinando los
trminos de varianza:

B B
1 1 1 2
vs = ( *A (b) - ) 2 + ( *B (b) - ) 2 (8)
B1 b=1 B2 b=1
Con el estimador bootstrap separado, el nmero de iteraciones pueden diferir para los
dos marcos.
El estimador bootstrap combinado para ambos cuadros simultneamente:

1 B *
vc = ( (b) - )2 (9)
B b=1
.
Esto tiene la ventaja de reducir a la mitad la cantidad de los estimadores replicados
necesarios para el bootstrap. Si una agencia libera pesos de repeticin en un uso pblico
de datos, el archivo de bootstrap combinado reduce el nmero de pesos duplicados de
columnas necesarias. Si los pesos de repeticin son realizados por separado para los datos
del bootstrap o el jackknife, los usuarios pueden descubrir fcilmente cules son las
observaciones mismo marco. Si uno de los marcos es pequeo, como en los EE.UU para
la Encuesta de las Finanzas del Consumidor, donde el marco B consiste en seleccionar
los hogares ricos que puedan poseer activos, los bonos exentos, la identificacin del
marco podra aumentar de seguro el riesgo. El bootstrap combinado, con cada bootstrap.
El re-muestreo de iteracin de ambos cuadros, ayuda a mantener la confidencialidad del
marco.
Ambos estimadores bootstrap son asintticamente equivalentes al estimador de la
varianza de linealizacin cuando es una funcin suave de la poblacin significa, bajo
condiciones de regularidad en los diseos de muestreo. Adems, al igual que el estimador
bootstrap de marco nico estudiado por Shao y el bootstrap es consistente para estimar la
variacin de algunas estadsticas no lisas tales como la mediana.
El cuadro 1 presenta los resultados parciales de un estudio de simulacin comparando los
estimadores de varianza y los estimadores de intervalos. Se utiliz un diseo factorial con
factores: (1) dos o tres marcos en una muestra aleatoria simple o muestra de grupo en (2).
Cuadro 1: Resultados de la simulacin con dos marcos estimando la poblacin total,
estimando el total poblacional Y, el tamao de poblacin N, y la mediana de la poblacin
m, cuando Cl = S, un clster de la muestra se extrajo del marco A. Bsep 100 se refiere al
Bootstrap separado con 100 iteraciones de arranque en cada marco; Bc 500 se refiere al
arranque combinado con 500 iteraciones de arranque de sesgo relativo.

Sesgo Relativo
n A
Cl ? n B
JK Bsep Bsep Bc Bc
100 500 100 500
100 No 100 Y 2.2 2.0 1.8 1.8 2.1
N -2.3 -1.8 -2.0 -2.3 -2.3
m 11.4 5.8 11.6 6.3
200 No 100 Y -1.8 -1.9 -2.2 -2.2 -2.3
N -2.0 -2.2 -2.0 -1.9 -1.8
m 16.1 10.9 16.5 11.3
200 Si 100 Y -0.3 -1.0 -0.2 -1.4 -0.8
N -2.6 -2.8 -1.8 -2.7 -1.8
m 10.4 7.1 10.3 7.1

Marco A, (3) tamaos de muestra de 100 o 200 para cada cuadro. El tamao de la
poblacin se fij en 10.000 en cada dominio. Para el bootstrap, usamos 100 o 500
iteraciones.
Se realizaron cinco mil repeticiones para cada simulacin corridas en R en la versin
2.1.1. Examinamos lo relativo a la tendencia, calculado como 100 (estimacin media de
la varianza -EMSE) / EMSE con EMSE la estimacin Monte Carlo del error cuadrtico
medio, y la desviacin estndar relativa de la varianza calculada como (desviacin
estndar de la varianza estimada)/ EMSE , para cada ajuste de la simulacin y los
factores de diseo. El sesgo relativo para todos los mtodos es bastante pequeo para
estimar el total de la poblacin y su tamao. Es algo mayor y generalmente positivo,
para estimar la poblacin mediana. Este sesgo s disminuye ms iteraciones de arranque
que son Se encontr que B = 500 Funciona bien para estimar la varianza de Y y N ,
pero que B = 1000 tiene mejores resultados para estimar la varianza de la mediana.

1.96 v .

Tambin podemos reducir el sesgo relativo mediante la interpolacin valores para la


poblacin y medianas de la muestra.
Los intervalos de confianza para el mtodo de Jackknife, y ambos bootstrap se pueden
calcular como

Si se desea, un valor crtico t, utilizando el menor valor de grados de libertad de los


marcos, puede ser sustituido por 1.96 para obtener un intervalo ms conservador. Este
intervalo se basa en la normalidad aproximada de la estadstica Se basa en la normalidad
aproximada de la estadstica . .
El bootstrap combinado permite intervalos de confianza formados directamente a partir
de la distribucin de bootstrap, ya sea el percentil bootstrap o el mtodo bootstrap t.
Todos los intervalos de confianza son consistentes, y en nuestros estudios de simulacin
en los que los datos se generaron a partir de una distribucin normal, se realiz de manera
similar. En toda la cobertura emprica las probabilidades para intervalos nominales del
95% fueron entre 0.93 y 0.97, y las longitudes promedio de los intervalos fueron del
mismo para todos los mtodos. Haba una gran diferencia en la estabilidad dependiendo
del nmero de iteraciones,- sin embargo, el bootstrap con 500 iteraciones fue ms estable
que el bootstrap con 100 iteraciones.

5. Conexiones

En este trabajo, he destacado algunas de las contribuciones de Rao a las encuestas de


marco mltiple y se les muestra cmo enlazan con los resultados relacionados con el
muestreo de encuestas y otras reas de las estadsticas, como los mtodos de varianza de
replicacin. Las conexiones van mucho ms all de las mencionadas aqu, sin embargo,
Lu (2007) examin recientemente el problema del chi cuadrado en pruebas de encuestas
de marcos mltiples. Ella estim las proporciones de poblacin utilizando pseudo-
mxima-verosimilitud y de pruebas derivadas de chi-cuadrado basadas en pruebas de
aproximaciones de Wald y Rao-Scott (1981). Hiptesis de inters en la dualidad de los
marcos de las encuestas incluyen hiptesis sobre las probabilidades, as como las relativas
a las probabilidades de la poblacin en su conjunto. Lu (2007) encontr que un marco
dual con enfoque permite a veces probar hiptesis que son flexibilidad en el modelado de
los mecanismos de datos faltantes en la estimacin de reas pequeas, en la que se desea
para los subgrupos de poblacin en los que el tamao de la muestra es pequeo, como
seala Rao (2003), en las encuestas de marco mltiple pueden utilizarse para mejorar la
precisin de las estimaciones de reas pequeas en subgrupos de inters. y Rao y Wu
(2007) muestran cmo los mtodos empricos de verosimilitud pueden utilizarse en la
formacin de estimaciones a partir de encuestas de marco mltiple proporcionando un
vnculo con el trabajo en esa rea.
Bellhouse (2001) revis algunas de las contribuciones de Rao al muestreo de encuestas
hasta ese punto, y dio una lnea de tiempo esbozando los temas principales de su obra. Se
puede pensar en las publicaciones de Rao sobre encuestas de marco mltiples como un
marco fuera de muchos; estos se superponen con los marcos de su publicacin estimacin
de las pequeas superficies, con probabilidad emprica, en los mtodos de re muestreo en
el muestreo, en la desigualdad del muestreo probabilstico, la estimacin de relacin, y
las fundaciones de las muestras las pruebas de chi-cuadrado y muchas otras . Todo el
trabajo de Rao se ha compilado para resolver problemas reales, lo cual es parte de la razn
por la que ha sido tan influyente en la disciplina del muestreo para encuestas.

Expresiones de gratitud
Este trabajo fue apoyado parcialmente por la Fundacin Nacional Cientfica en virtud de
la concesin 0604373. Tambin me gustara agradecer a JNK Rao por nuestra
colaboracin; algunos de los resultados de esa colaboracin se examinan en este
documento, y los estimadores bootstrap presentados de la varianza aqu se desarrollaron
en el trabajo conjunto con l. Rao frecuentemente se refiere a HO Hartley como su "gur".
De acuerdo con www.thefreedictionary.com, un gur es "un maestro y gua en asuntos
espirituales y filosficos; un consejero y asesor de confianza; un mentor; un reconocido
lder en un campo". Es claro desde esta definicin que Rao Grfica 5: y su trabajo de Rao
en el muestreo, la probabilidad emprica, los marcos mltiples, el reas pequeas, re
muestreo, son cimientos, de Rao-Scott y muchos ms. El mismo ha sido un gur para
muchos, muchos estadsticos. yo he tenido el privilegio de contarme entre ellos.

Referencias Bibliogrficas

Bellhouse, D. (2001). J.N.K. Rao: An Appreciation of His Work," in Proceedings of the Survey Methods
Section, Statistical Society of Canada.

Brick, J. M., Dipko, S., Presser, S., Tucker, C., and Yuan, Y. (2006). Nonresponse Bias in a Dual Frame
Survey of Cell and Landline Numbers," Public Opinion Quarterly 70, 780-793.

Cervantes, I. F. and Brick, J. M. (2007). California Health Interview Survey: Sample Design, CHIS
Methodology Series, Report 1, www.chis.ucla.edu/pdf/CHIS2005method1.pdf.

Demnati, A. and Rao, J. N. K. (2004). Linearization Variance Estimators for Survey Data," Survey
Methodology, 30, 17-26.

Demnati, A., Rao, J. N. K., Hidiroglou, M. A., and Tambay, J.-L. (2007). Linearization Variance Estimators
for Dual Frame Survey Data," Paper presented at the Joint Statistical Meetings, Salt Lake City.

Fecso, R., Tortora, R. D., and Vogel, F. A. (1986). Sampling Frames for Agriculture in the United States,"
Journal of Official Statistics, 2, 279-292.

Fuller, W. A., and Burmeister, L. F. (1972). Estimators for Samples Selected From Two Overlapping
Frames," in ASA Proceedings of the Social Statistics Section, 245-249.
Graham, J. E. and Rao, J. N. K. (1978). Sample Surveys: Theory and Practice," in Studies in Statistics, ed.
R. V. Hogg, Washington, D.C.: Mathematical Association of America, 107-167.

Haines, D. E. and Pollock, K. H. (1998). Combining Multiple Frames to Estimate Population Size and
Totals," Survey Methodology, 24, 79-88.

Hansen, M. H., Hurwitz, W. N. and Madow, W. G. (1953). Sample Survey Methods and Theory, Volume 1.
Wiley, New York.

Hartley, H. O. (1974). Multiple Frame Methodology and Selected Applications," Sankhya, Ser. C, 36, 99-
118.

Hartley, H. O. (1962). Multiple Frame Surveys," Proceedings of the Social Statistics Section, American
Statistical Association, 203-206.

Hartley, H. O., and Rao, J. N. K. (1968). A New Estimation Theory for Sample Surveys," Biometrika, 55,
547-557.

Iachan, R. and Dennis, M. L. (1993). A Multiple Frame Approach to Sampling the Homeless and
Transient Population," Journal official Statistics, 9, 747-764.

Kalton, G., and Anderson, D. W. (1986). Sampling Rare Populations," Journal of the Royal Statistical
Society, Ser. A, 149, 65-82.

Lohr, S. L. and Rao, J. N. K. (2000). Inference in Dual Frame Surveys," Journal of the American Statistical
Association, 95, 271-280.

Lohr, S. L. and Rao, J. N. K. (2006). Estimation in Multiple-frame Surveys," Journal of the American
Statistical Association, 101, 1019-1030.

Lu, Y. (2007). Longitudinal Estimation in Dual Frame Surveys," Ph.D. Dissertation, Arizona State
University.

Rao, J. N. K. (1968). Some Nonresponse Sampling Theory when the Frame Contains an Unknown
Amount of Duplication," Journal of the American Statistical Association, 63, 87-90.

Rao, J. N. K. (1983). H.O. Hartley's Contributions to Sample Survey Theory and Methods," The American
Statistician, 37, 344-350.

Rao, J. N. K. (2003). Small Area Estimation, New York: Wiley.

Rao, J. N. K. (2006). Empirical Likelihood Methods for Sample Survey Data: An Overview," Austrian
Journal of Statistics, 35, 191-196.

Rao, J. N. K. and Graham, J. E. (1964). Rotation Designs for Sampling on Repeated Occasions," Journal of
the American Statistical Association, 59, 492-509.

Rao, J. N. K. and Scott, A. J. (1981). The Analysis of Categorical Data from Complex Sample Surveys: Chi-
square Tests for Goodness of Fit and Independence in Two-way Tables," Journal of the American
Statistical Association, 76, 221-230.

Rao, J. N. K., and Skinner, C. J. (1999). Dual Frame Surveys: Pseudo Maximum Likelihood and Single
Frame Estimators," in Statistical Inference and Design of Experiments, ed. U.J. Dixit and M.R. Satam, New
Delhi: Narosa Publishing House, 63-71.

Rao, J. N. K., and Wu, C. F. J. (1988). Resampling Inference With Complex Survey Data " Journal of the
American Statistical Association, 83, 231-241.
Rao, J. N. K., and Wu. C. (2007). Empirical Likelihood Methods," to appear in Sample Surveys: Theory,
Methods and Inference, Handbook of Statistics, Vol. 29, ed. D. Pfeffermann and C. R. Rao, Amsterdam:
North Holland.

Shao, J. and Chen, Y. (1998). Bootstrapping Sample Quantiles Based on Complex Survey Data under Hot
Deck Imputation," Statistica Sinica, 8, 1071-1086.

Skinner, C. J. (1991). On the Efficiency of Raking Ratio Estimation for Multiple Frame Surveys," Journal
of the American Statistical Association, 86, 779-784.

Skinner, C. J., and Rao, J. N. K. (1996). Estimation in Dual Frame Surveys With Complex Designs," Journal
of the American Statistical Association, 91, 349-356.

Tucker, C., Brick, J. M., and Meekins, B. (2007).Household Telephone Service and Usage Patterns in the
United States in 2004: Implications for Telephone Samples," Public Opinion Quarterly, 71, 3-22.

You might also like