Professional Documents
Culture Documents
Con la creciente diversidad demogrfica y tecnolgica, es cada vez ms difcil para una
sola muestra seleccionada de una sola trama de muestreo para representar adecuadamente
la poblacin. Se utilizan cada vez ms encuestas de marcos mltiples en situaciones en
las que varios marcos de muestreo pueden proporcionar una mejor cobertura o
rentabilidad para estimar la poblacin con cantidades de inters. Los ejemplos incluyen
combinar un marco de lista de viviendas con un marco de rea o utilizar dos marcos de
muestra en los hogares de telefona fija y los celulares. Revisamos la historia de las
Encuestas de marcos mltiple incluyendo algunos de los muchos de JNK Rao y sus
contribuciones al tema. A continuacin, discutimos algunos de sus trabajos ms recientes
sobre la consistencia interna y los estimadores eficientes para tres o ms marcos, y
mtodos de re-muestreo para estimacin de la varianza en encuestas con marcos
mltiples. Conexiones entre encuestas de marco mltiple y las contribuciones de Rao a
otras reas de la estadstica tambin se discuten.
1 Introduccin
Y = w y i i
i S
N = N a + N ab + N b ,
Como se discuti en Haines y Pollock (1986). Como las encuestas de marco mltis
frecuentes, sin embargo, los objetivos se amplan para incluir la estimacin de las
caractersticas de la poblacin en general, con modelos de ajuste pensados para describir
la sper-poblacin, y empleando encuestas de marco mltiple en la . En las Secciones 2
y 3 revisamos los usos tempranos y estimadores puntuales para encuestas de doble marco.
En la Seccin 4, se discute la estimacin de la varianza, y se introducen los dos mtodos
bootstrap-desarrollados en la investigacin conjunta con Rao-para construir estimaciones
de intervalos de encuestas de marco mltiple. La seccin 5 describe algunas conexiones
entre encuestas de marco mltiple y otros problemas en estadstica.
Observe que si una de las covarianzas en (2) es grande, es posible que opt sea menor que
0 o mayor que 1. Cuando el marco A y el marco B son los mismos, es decir, sus dominios
a y b estn vacos, sin embargo, opt est entre 0 y 1. Hartley (1974) se refiri varias
veces a una comunicacin de Rao, que obtuvo la mxima verosimilitud de los estimadores
para encuestas de doble marco utilizando la escala de enfoque de carga que fue pionera
en Hartley y Rao (1968). Vea a Rao (1983) para una breve descripcin de estos mtodos,
que l ha presentado en el Instituto Internacional de Estadstica en 1973 en una reunin
en Viena. Rao en (1983) deriv el estimador
Y = Na ya + Nb yb + Nab yab
A
Donde yab es la media de nab + nabB - d unidades distintas y d Es el nmero de unidades
en ambas muestras, usando la mxima probabilidad. Tambin mostr que Y es el valor
esperado posterior bajo una distribucin previa no informativa.
De hecho, Rao, como co-editor de Sankhy Serie C en 1974, fue la persona que anim a
Hartley a presentar el papel a Sankhy en 1974 basado en su trabajo en encuestas de marcos
mltiples. El artculo de Hartley de (1974) se reimprimi posteriormente en la
Conmemoracin del Jubileo de IASS en el Volumen de los Papeles de Referencia en
Encuestas Estadsticas como uno de los diecinueve artculos seleccionados para su
publicacin en ese volumen. (Otro de los Papeles de Referencia fue el de Rao y Scott
(1981), A lo que volveremos en la Seccin 5).
Se puede argumentar que Rao ha trabajado en encuestas de doble marco toda su carrera.
Uno encuentra ideas de doble marco temprano en el trabajo de Rao. Rao y Graham (1964)
desarrollaron estimadores compuestos para una muestra de rotacin, su estimador para la
media poblacional de una caracterstica de inters para el mes actual es
y0= Q( y-
1 + d ) + (1 - Q) y0 ,
Donde y
0 es el estimador para el mes actual, d es- la diferencia estimada entre el tiempo
El estimador de Hartley (1962, 1974) es ptimo entre todos los estimadores de la forma
YaA + YbB + YabA + (1 - )YabB . Fuller y Burmeister (1972) propusieron modificar la
estimacin de Hartley incorporando informacin adicional sobre la estimacin de N ab .
El estimador es:
YFB ( ) = YaA + YbB + 1YabA + (1 - 1 )YabB + 2 ( N abA - N ab
B
) (3) .
Rao (1983) y Skinner (1991) mostraron que YFB puede derivarse de los principios de mxima
verosimilitud cuando se toma una muestra aleatoria simple en cada marco .
Como con el estimador
de Hartley, donde los parmetros 1 y 2 se eligen para minimizar la varianza de
YFB ( ) ; los valores ptimos son:
1,opt
-1
YabA - YabB Cov(YaA YbB YabB , YabA - YabB )
A B
A B B A B
-Cov (4)
2,opt N ab - N ab Cov(Ya Yb Yab , N ab - N ab )
En la prctica, las covarianzas utilizadas en (2) y (4) son desconocidas, por lo que los
valores ptimos de los parmetros a partir de los datos estimados. Sea opt el estimador
de opt que resulta cuando las estimaciones de las covarianzas se sustituyen en (2).
Rao ha visto durante mucho tiempo los estimadores de la encuesta en trminos de peso y,
de hecho, su enfoque de la estimacin de doble marco a travs de las modificaciones de
peso es una reminiscencia de su trabajo en el clculo de la diferencia de los estimadores
de la varianza de jackknife y bootstrap se da modificando los vectores de peso. y Rao
(1996) escribieron los estimadores ptimos en trminos de modificaciones de peso,
adems de la representacin como combinaciones lineales de los totales estimados del
dominio. peso de cada unidad muestreada en el dominio de interseccin se reduce para
compensar la multiplicidad. Sea i (a) = 1 si la unidad i est en el dominio a y 0 en caso
contrario, y define i (ab) y i (b) de manera similar. Los pesos ajustados para el mtodo
de Hartley son:
~ A = (a)wA + (ab)wA
w i ,H i i opt i i
~ B = (b)w B + (1 - ) (ab)w B
wi,H i i opt i i
Skinner y Rao (1996) sealaron que puesto que opt depende de las covarianzas de la
respuesta particular estudiada, los ajustes de peso pueden diferir para cada respuesta
estudiada. Esto puede llevar a inconsistencias entre los estimados. Por ejemplo,
supongamos que Y1 (opt,1) calcula los gastos mdicos totales en la poblacin mayor de
65 aos, Y2 (opt,2) calcula los gastos mdicos totales en la poblacin de 65 aos o
menos, y Y3 (opt,3) calcula los gastos mdicos totales en toda la poblacin. Si las
encuestas tienen un diseo complejo, es probable que Y1 (opt,1) + Y2 (opt, 2 ) Y3 (opt,3 )
N A - N ab
PML
( ) A N B - N ab
PML
( ) B N ab
PML
( )
YPML ( ) =
Y +
Y + [YabA + (1 - )YabB ]. (5)
N aA a
N bB b
N ab + (1 - ) N abB
A
Donde N ab
PML
( ) es la menor de las races de la ecuacin cuadrtica
[ / N B + (1 - ) / N A ]x 2 + N abA + (a - ) N ab
B
- [1 + N abA / Nb + (1 - ) N ab
B
/ N a ]x = 0.
Skinner y Rao (1996) sugirieron usar el valor p que minimiza la varianza asinttica de
N ab
PML
( ) :
N a N BV ( N ab
B
)
P = (6)
N a N BV ( N ab ) + Nb N AV ( N abA )
B
El estimador en (5) ajusta los estimadores de los tres totales de dominio Ya , Yab , y Yb
por el estimador ptimo de N ab .
PML
N A - N ab (p) A
wi if i a
~
NaA
w A
PML
N ab (p)
i, p
p wiA if i ab
A
pN ab (1 - p) N ab
B
PML
N B - N ab (p) B
wi if i b
~B N b
B
w PML
N ab (p)
i, p
(1 p ) wiB if i ab
A
pN ab (1 - p) N ab
B
4. Estimacin de la varianza
1
Y 1 1
YaA YabA YabB YbB
2 2 2 ,
1 1 1
X X a X ab X ab X b
A A B B
2 2 2
1 1
para Y y X cmo se define en (1). Los totales estimados del marco A son
2 2
A A A A
Ya , Yab , X a , X ab con estimados de la matriz de varianza S A , y los totales estimados del
marco B son Y B , Y B , X B , X B
b ab b ab
con covariacin estimada de la matriz S ElB
estimador de linealizacin de la varianza es entonces:
g TA S A g A g BT S B g B ,
1
Donde g TA g BT X (1 / 2) (1,1 / 2,, / 2)T A para este ejemplo proviene del vector de
derivados utilizado en la Bajo condiciones de regularidad, Skinner y Rao (1996)
demostraron que el estimador de linealizacin de la varianza es consistente. Sin embargo,
se requiere que derivados se calculen por separado para cada estimador que se considere.
Demnati et al. estimadores de linealizacin derivados de la varianza tomando derivados
de una funcin de los pesos ms que de las medianas, estos son similares al marco de
linealizacin en Demnati y Rao (2004), pero permiten mltiples marcos, el estimador
jackknife de la varianza se basa en las propiedades que las muestras independientes se
toman de los dos marcos. (Lohr y Rao, 2000). Supongamos que una muestra estratificada
cerrada se toma del marco A, y una muestra cerrada e independiente se toma del marco
B.
El jackknife del estimador de la varianza lleva a cabo el jackknife separadamente en los
marcos A y B. (Ahi) de la misma forma que cuando las observaciones de la muestra psu
del estrato i del marco h De la muestra A del marco se omite de los datos.
Similarmente, sea (Ahi) el estimador de la misma forma que cuando las observaciones
de la muestra psu j del estrato l de la muestra del marco B se omite. Entonces, si n~ A es h
el nmero de unidades de muestreo primarias en el estrato h de la muestra en el cuadro
A, y n~lB el nmero de unidades de muestreo primarias en el estrato l de la muestra en el
cuadro B, el estimador jackknife de la varianza es
~A ~B
n~hA 1 nh ~ A ~ 2 L n~lB 1 nl ~ B ~ 2
vj() ~ A ( hi ) ~ B (lj )
H
(7)
h 1 nh i 1 l 1 nl j 1
4.2 Bootstrap
n~h
whik (b) = whik m (b)
mh hi
En esta seccin, presentamos dos mtodos de bootstrap para encuestas de marco mltiple
que se han desarrollado en una investigacin conjunta con Rao: un bootstrap separado,
en el que se aplica por separado a las muestras de los marcos A y B, y un bootstrap
combinado, en el que los psu de ambos marcos son re muestreados juntos. Presentamos
aqu los mtodos para encuestas de doble marco; el bootstrap funciona de manera similar
con ms de dos marcos.
En primer lugar, vamos a definir los pesos bootstrap para los marcos. En el marco A,
para la muestra bootstrap b se muestra n~hA - 1 con sustitucin del estrato h y definen:
w A (b) = [n~ A /( n~ A - 1)]m A (b) w A , donde w A (b) es el numero de veces psu i del estrato h se
hik h h hi hik hi
Para facilitar la notacin, escribimos w A para ser el vector de los pesos whik
A
del marco A
y w B el vector de los pesos wljkB del marco B. Tenga en cuenta que w A y w B son los pesos
originales para los dos cuadros, antes de cualquier ajuste para la multiplicidad esbozada
en la Seccin 3. Despus de Demnati y Rao (2004), quienes consideraron la varianza de
los estimadores de linealizacin en funcin de los pesos, expresados
=h(w A , w B )
como una funcin h de los dos pesos de los vectores. Para calcular las estimaciones
finales del bootstrap, entonces, sustituimos los pesos del bootpara la iteracin b para el
vector original de los pesos.
* A (b) = h( w A (b), w B )
*B (b) = h( w A , w B (b))
* (b) = h( w A (b), w B (b))
Para usar el jackknife para estimar la varianza, tuvimos eliminar una psu a la vez de cada
marco. empleado en el re-muestreo, permiti ms flexibilidad. Nosotros proponemos dos
estimadores bootstrap en el arranque separado del estimador similar en forma al jackknife,
pero formando el bootstrap en cada muestra por separado y luego combinando los
trminos de varianza:
B B
1 1 1 2
vs = ( *A (b) - ) 2 + ( *B (b) - ) 2 (8)
B1 b=1 B2 b=1
Con el estimador bootstrap separado, el nmero de iteraciones pueden diferir para los
dos marcos.
El estimador bootstrap combinado para ambos cuadros simultneamente:
1 B *
vc = ( (b) - )2 (9)
B b=1
.
Esto tiene la ventaja de reducir a la mitad la cantidad de los estimadores replicados
necesarios para el bootstrap. Si una agencia libera pesos de repeticin en un uso pblico
de datos, el archivo de bootstrap combinado reduce el nmero de pesos duplicados de
columnas necesarias. Si los pesos de repeticin son realizados por separado para los datos
del bootstrap o el jackknife, los usuarios pueden descubrir fcilmente cules son las
observaciones mismo marco. Si uno de los marcos es pequeo, como en los EE.UU para
la Encuesta de las Finanzas del Consumidor, donde el marco B consiste en seleccionar
los hogares ricos que puedan poseer activos, los bonos exentos, la identificacin del
marco podra aumentar de seguro el riesgo. El bootstrap combinado, con cada bootstrap.
El re-muestreo de iteracin de ambos cuadros, ayuda a mantener la confidencialidad del
marco.
Ambos estimadores bootstrap son asintticamente equivalentes al estimador de la
varianza de linealizacin cuando es una funcin suave de la poblacin significa, bajo
condiciones de regularidad en los diseos de muestreo. Adems, al igual que el estimador
bootstrap de marco nico estudiado por Shao y el bootstrap es consistente para estimar la
variacin de algunas estadsticas no lisas tales como la mediana.
El cuadro 1 presenta los resultados parciales de un estudio de simulacin comparando los
estimadores de varianza y los estimadores de intervalos. Se utiliz un diseo factorial con
factores: (1) dos o tres marcos en una muestra aleatoria simple o muestra de grupo en (2).
Cuadro 1: Resultados de la simulacin con dos marcos estimando la poblacin total,
estimando el total poblacional Y, el tamao de poblacin N, y la mediana de la poblacin
m, cuando Cl = S, un clster de la muestra se extrajo del marco A. Bsep 100 se refiere al
Bootstrap separado con 100 iteraciones de arranque en cada marco; Bc 500 se refiere al
arranque combinado con 500 iteraciones de arranque de sesgo relativo.
Sesgo Relativo
n A
Cl ? n B
JK Bsep Bsep Bc Bc
100 500 100 500
100 No 100 Y 2.2 2.0 1.8 1.8 2.1
N -2.3 -1.8 -2.0 -2.3 -2.3
m 11.4 5.8 11.6 6.3
200 No 100 Y -1.8 -1.9 -2.2 -2.2 -2.3
N -2.0 -2.2 -2.0 -1.9 -1.8
m 16.1 10.9 16.5 11.3
200 Si 100 Y -0.3 -1.0 -0.2 -1.4 -0.8
N -2.6 -2.8 -1.8 -2.7 -1.8
m 10.4 7.1 10.3 7.1
Marco A, (3) tamaos de muestra de 100 o 200 para cada cuadro. El tamao de la
poblacin se fij en 10.000 en cada dominio. Para el bootstrap, usamos 100 o 500
iteraciones.
Se realizaron cinco mil repeticiones para cada simulacin corridas en R en la versin
2.1.1. Examinamos lo relativo a la tendencia, calculado como 100 (estimacin media de
la varianza -EMSE) / EMSE con EMSE la estimacin Monte Carlo del error cuadrtico
medio, y la desviacin estndar relativa de la varianza calculada como (desviacin
estndar de la varianza estimada)/ EMSE , para cada ajuste de la simulacin y los
factores de diseo. El sesgo relativo para todos los mtodos es bastante pequeo para
estimar el total de la poblacin y su tamao. Es algo mayor y generalmente positivo,
para estimar la poblacin mediana. Este sesgo s disminuye ms iteraciones de arranque
que son Se encontr que B = 500 Funciona bien para estimar la varianza de Y y N ,
pero que B = 1000 tiene mejores resultados para estimar la varianza de la mediana.
1.96 v .
5. Conexiones
Expresiones de gratitud
Este trabajo fue apoyado parcialmente por la Fundacin Nacional Cientfica en virtud de
la concesin 0604373. Tambin me gustara agradecer a JNK Rao por nuestra
colaboracin; algunos de los resultados de esa colaboracin se examinan en este
documento, y los estimadores bootstrap presentados de la varianza aqu se desarrollaron
en el trabajo conjunto con l. Rao frecuentemente se refiere a HO Hartley como su "gur".
De acuerdo con www.thefreedictionary.com, un gur es "un maestro y gua en asuntos
espirituales y filosficos; un consejero y asesor de confianza; un mentor; un reconocido
lder en un campo". Es claro desde esta definicin que Rao Grfica 5: y su trabajo de Rao
en el muestreo, la probabilidad emprica, los marcos mltiples, el reas pequeas, re
muestreo, son cimientos, de Rao-Scott y muchos ms. El mismo ha sido un gur para
muchos, muchos estadsticos. yo he tenido el privilegio de contarme entre ellos.
Referencias Bibliogrficas
Bellhouse, D. (2001). J.N.K. Rao: An Appreciation of His Work," in Proceedings of the Survey Methods
Section, Statistical Society of Canada.
Brick, J. M., Dipko, S., Presser, S., Tucker, C., and Yuan, Y. (2006). Nonresponse Bias in a Dual Frame
Survey of Cell and Landline Numbers," Public Opinion Quarterly 70, 780-793.
Cervantes, I. F. and Brick, J. M. (2007). California Health Interview Survey: Sample Design, CHIS
Methodology Series, Report 1, www.chis.ucla.edu/pdf/CHIS2005method1.pdf.
Demnati, A. and Rao, J. N. K. (2004). Linearization Variance Estimators for Survey Data," Survey
Methodology, 30, 17-26.
Demnati, A., Rao, J. N. K., Hidiroglou, M. A., and Tambay, J.-L. (2007). Linearization Variance Estimators
for Dual Frame Survey Data," Paper presented at the Joint Statistical Meetings, Salt Lake City.
Fecso, R., Tortora, R. D., and Vogel, F. A. (1986). Sampling Frames for Agriculture in the United States,"
Journal of Official Statistics, 2, 279-292.
Fuller, W. A., and Burmeister, L. F. (1972). Estimators for Samples Selected From Two Overlapping
Frames," in ASA Proceedings of the Social Statistics Section, 245-249.
Graham, J. E. and Rao, J. N. K. (1978). Sample Surveys: Theory and Practice," in Studies in Statistics, ed.
R. V. Hogg, Washington, D.C.: Mathematical Association of America, 107-167.
Haines, D. E. and Pollock, K. H. (1998). Combining Multiple Frames to Estimate Population Size and
Totals," Survey Methodology, 24, 79-88.
Hansen, M. H., Hurwitz, W. N. and Madow, W. G. (1953). Sample Survey Methods and Theory, Volume 1.
Wiley, New York.
Hartley, H. O. (1974). Multiple Frame Methodology and Selected Applications," Sankhya, Ser. C, 36, 99-
118.
Hartley, H. O. (1962). Multiple Frame Surveys," Proceedings of the Social Statistics Section, American
Statistical Association, 203-206.
Hartley, H. O., and Rao, J. N. K. (1968). A New Estimation Theory for Sample Surveys," Biometrika, 55,
547-557.
Iachan, R. and Dennis, M. L. (1993). A Multiple Frame Approach to Sampling the Homeless and
Transient Population," Journal official Statistics, 9, 747-764.
Kalton, G., and Anderson, D. W. (1986). Sampling Rare Populations," Journal of the Royal Statistical
Society, Ser. A, 149, 65-82.
Lohr, S. L. and Rao, J. N. K. (2000). Inference in Dual Frame Surveys," Journal of the American Statistical
Association, 95, 271-280.
Lohr, S. L. and Rao, J. N. K. (2006). Estimation in Multiple-frame Surveys," Journal of the American
Statistical Association, 101, 1019-1030.
Lu, Y. (2007). Longitudinal Estimation in Dual Frame Surveys," Ph.D. Dissertation, Arizona State
University.
Rao, J. N. K. (1968). Some Nonresponse Sampling Theory when the Frame Contains an Unknown
Amount of Duplication," Journal of the American Statistical Association, 63, 87-90.
Rao, J. N. K. (1983). H.O. Hartley's Contributions to Sample Survey Theory and Methods," The American
Statistician, 37, 344-350.
Rao, J. N. K. (2006). Empirical Likelihood Methods for Sample Survey Data: An Overview," Austrian
Journal of Statistics, 35, 191-196.
Rao, J. N. K. and Graham, J. E. (1964). Rotation Designs for Sampling on Repeated Occasions," Journal of
the American Statistical Association, 59, 492-509.
Rao, J. N. K. and Scott, A. J. (1981). The Analysis of Categorical Data from Complex Sample Surveys: Chi-
square Tests for Goodness of Fit and Independence in Two-way Tables," Journal of the American
Statistical Association, 76, 221-230.
Rao, J. N. K., and Skinner, C. J. (1999). Dual Frame Surveys: Pseudo Maximum Likelihood and Single
Frame Estimators," in Statistical Inference and Design of Experiments, ed. U.J. Dixit and M.R. Satam, New
Delhi: Narosa Publishing House, 63-71.
Rao, J. N. K., and Wu, C. F. J. (1988). Resampling Inference With Complex Survey Data " Journal of the
American Statistical Association, 83, 231-241.
Rao, J. N. K., and Wu. C. (2007). Empirical Likelihood Methods," to appear in Sample Surveys: Theory,
Methods and Inference, Handbook of Statistics, Vol. 29, ed. D. Pfeffermann and C. R. Rao, Amsterdam:
North Holland.
Shao, J. and Chen, Y. (1998). Bootstrapping Sample Quantiles Based on Complex Survey Data under Hot
Deck Imputation," Statistica Sinica, 8, 1071-1086.
Skinner, C. J. (1991). On the Efficiency of Raking Ratio Estimation for Multiple Frame Surveys," Journal
of the American Statistical Association, 86, 779-784.
Skinner, C. J., and Rao, J. N. K. (1996). Estimation in Dual Frame Surveys With Complex Designs," Journal
of the American Statistical Association, 91, 349-356.
Tucker, C., Brick, J. M., and Meekins, B. (2007).Household Telephone Service and Usage Patterns in the
United States in 2004: Implications for Telephone Samples," Public Opinion Quarterly, 71, 3-22.