Professional Documents
Culture Documents
RESUMEN
Este documento propone un nuevo sistema para seleccionar
muestras probabilsticas utilizando muestreo sistemtico con intervalo
de muestreo variable. Para ello, se define formalmente el procedimiento clsico de seleccin, utilizando intervalo de muestreo constante. Se incluye un ejemplo, resuelto con hoja de clculo, con datos
sencillos para comprender mejor el procedimiento. Despus se introduce, en trminos similares, el procedimiento propuesto de seleccin
con intervalo de muestreo variable. Entroncando con ciertos procedimientos de seleccin existentes en la literatura sobre Muestreo en
Poblaciones Finitas, se realiza una aplicacin de diferentes mtodos
al marco de la Encuesta de Hoteles en la Comunidad Autnoma de
Cantabria, bajo la perspectiva de los denominados modelos de superpoblacin. Por ltimo, se hace una referencia a un nuevo programa de ordenador, POSDEM(1), que hemos realizado, entre otros fines, para auxiliar en el proceso de diseo de encuestas por muestreo
probabilstico en poblaciones finitas.
(1) Programa para Optimizar la Seleccin en el Diseo de Encuestas por Muestreo. En su
versin Windows este programa se ha desarrollado en colaboracin entre Alberto Lezcano y el
autor de este artculo.
ESTADSTICA ESPAOLA
// 1 2 3 // // 4 5 6 //
// 7 8 9 // // 10 11 12 //
ESTADSTICA ESPAOLA
= 2.16
V( x sr ) = 1
N n
N n
Donde
S2st =
n k
1
xij x j
n(k 1) j = 1i = 1
(2)
10
ESTADSTICA ESPAOLA
11
12
ESTADSTICA ESPAOLA
13
Figura 1
En primer lugar vamos a obtener los valores de los parmetros y del trmino de
error que mejor se ajustan a la poblacin que estamos estudiando. As tendremos:
Xi= a0 + a1 i1+ a2 i2+ a3 i3 + ei
donde
i representa las unidades de la poblacin y en este caso toma los valores de 1
a 264.
ai con i=1,2, y 3 son los parmetros de la ecuacin calculados inicialmente por
mnimos cuadrados, pero que pueden ser definidos con otros procedimientos.
ei es el trmino de error aleatorio que en este modelo se ha definido distribuido
normal con parmetros: media cero y desviacin tpica dos.
14
ESTADSTICA ESPAOLA
Em(ei) = 0; Em(ei2) =2; Em (ei ej ) = 0 el operador Em denota la esperanza respecto del modelo.
Con esta ecuacin podemos simular un conjunto de poblaciones finitas similares
a la poblacin original y calcular para cada una de ellas el error cuadrtico medio
del estimador para cada mtodo de seleccin utilizado. En la siguiente tabla tenemos la esperanza sobre el modelo del error cuadrtico medio calculado sobre un
conjunto de doscientas poblaciones finitas generadas mediante una ecuacin
polinmica de grado tres y un componente aleatorio distribuido normal.
Tabla 1
ESPERANZA DEL ERROR CUADRTICO MEDIO
n=2
n=3
n=4
n=12
n=22
n=44
n=66
n=132
M_St_nh=1
226,603.50
378.20 101.20
52.70
16.00
S_isc
313.20
70.70
S_isv
87.90
39.60
14.70
3,613.90
1,786.54
376.80
241.70 112.30
99.70
70.70
12,411.80
3,545.70
1,680.67
329.00
165.40
79.40
46.70
14.70
53,339.20
14,426.60
5,934.09
398.90
184.10
74.40
44.50
12.60
Equilibrado
123,466.20
63,178.00
8,698.90
396.40
176.10
75.70
46.40
14.70
Modificado
123,466.20
144.20
37.40
C_isc
12,264.60
C_isv
Corr_extr.
277.50
Dejamos para ms adelante el comentario de los mtodos equilibrado y modificado. En los grficos siguientes observamos como el mtodo centrado de Madow
(para k par) y el mtodo corregido de Yates presentan un comportamiento diferente
segn el tamao de muestra: para muestras pequeas C_isc es preferible a
Corr_extr. y cuando la muestra aumenta esta relacin se invierte. Aqu destacamos como el mtodo C_isv se ajusta en cada caso al mejor de los dos.
15
Grfico 1
ESPERANZA RESPECTO DEL MODELO DEL ERRROR CUADRTICO MEDIO
En segundo lugar vamos a observar la varianza respecto del modelo del error
cuadrtico medio. En la siguiente tabla tenemos el error cuadrtico medio obtenido
en cada poblacin finita, su valor esperado, su varianza y un indicador de la cota
superior del error que hemos definido como la esperanza mas dos veces la desviacin respecto del modelo.
Tabla 2
ESPERANZA Y VARIANZA DEL ERROR CUADRTICO MEDIO PARA UNA DESVIACIN DE LA PERTURBACIN ALEATORIA IGUAL A DOS Y UN TAMAO DE
MUESTRA IGUAL A CUATRO
E
I=E+2*D
Pf1
Pf2
...
Pf200
C_isc
1,786.54 2,579.44
4,998.67
1,534.43
984.14
...
1,971.18
C_isv
1,680.67 2,800.78
5,027.78
1,234.21
248.46
...
3,734.82
6,940.80
6,379.52
6,781.69
...
5,578.48
Corr_extr. 5,934.09
253.36
16
ESTADSTICA ESPAOLA
Grfico 2
ERROR CUADRTICO MEDIO SOBRE UN CONJUNTO DE 200 POBLACIONES
FINITAS REALIZADAS ALEATORIAMENTE CON LA MISMA ESTRUCTURA POBLACIONAL BASADA EN UN MODELO POLINMICO DE GRADO TRES
17
Grfico 3
POBLACIN HIPOTTICA DE HOTELES SEGN CAPACIDAD ORDENADOS
POR NMERO DE HABITACIONES
Aqu podemos observar como a pesar de que el valor esperado respecto del
modelo permite definir como preferibles los mtodos centrados al mtodo de Yates,
si bien la varianza respecto del modelo de los primeros provoca que en un gran
nmero de poblaciones el error cuadrtico medio del estimador obtenido este por
encima del obtenido con el mtodo de Yates. En la siguiente tabla podemos observar estos valores.
Tabla 3
ESPERANZA Y VARIANZA DEL ERROR CUADRTICO MEDIO PARA UNA DESVIACIN DE LA PERTURBACIN ALEATORIA IGUAL A SIETE, HETEROCEDSTICIDAD Y UN TAMAO DE MUESTRA IGUAL A CUATRO
E
C_isc
C_isv
Corr_extr.
74.27154
69.72824
81.82519
V
5014.4383
4525.6562
216.88261
I=E+2*D
215.89694
204.27424
111.27906
Pf1
1.975495
13.19773
89.037626
Pf2
132.91205
151.38329
109.44578
...
...
...
...
Pf200
75.702003
73.30413
106.28774
18
ESTADSTICA ESPAOLA
Grfico 4
ERROR CUADRTICO MEDIO SOBRE UN CONJUNTO DE 200 POBLACIONES
FINITAS GENERADAS ALEATORIAMENTE CON LA MISMA ESTRUCTURA POBLACIONAL BASADA EN UN MODELO POLINMICO DE GRADO TRES, TRMINO DE
ERROR ALEATORIO DE DESVIACIN SIETE Y HETEROCEDASTCIDAD 0.01
19
Grfico 5
DISTINTOS MODELOS DE SUPERPOBLACIN AJUSTADOS
Nm. De
plazas entre 10
y 150
Hoteles
Tabla 4
COEFICIENTES ESTIMADOS PARA CADA MODELO
a0
Modelo 1
Modelo 2
Modelo 3
-4.19E+00
+2.07E+01
+7.39E-00
a1
+3.91E-01
-1.71E-01
+4.28E-01
a3
+2.12E-03
-3.51E-03
a4
+1.42E-05
Hemos comprobado los clculos que lleva a cabo el proceso de simulacin con
POSDEM mediante las ecuaciones siguientes:
Los resultados obtenidos al aplicar estos modelos en la generacin de poblaciones aleatorias pueden comprobarse, para el caso lineal, con los siguientes resultados tericos:
1) Muestreo sistemtico:
Em Vp ( x sis ) = a1 2 (k2 - 1)/12 + 2
con 2 = 2 (k - 1)/nk
20
ESTADSTICA ESPAOLA
21
Tabla 5
ESPERANZA RESPECTO DE DIFERENTES MODELOS -P1,P2 Y P3- DEL ERROR
CUADRTICO MEDIO
P1
n=2
n=3
n=4
n=12
n=22
n=44
n=66 n=132
113,315
34,216 14,837
833
252
86
48
16
M_St_nh=1
224,661 100,024 56,408 6,510 2,019
525 233
56
S_isc
219,633
94,081 50,352 1,611
184
75
45
15
S_isv
2,057
1,430
1,049
373
200
116
81
56
C_isc
1,994
1,320
1,008
288
147
71
45
15
C_isv
2,649
1,477
1,055
326
163
68
39
15
Corr_extr.
1,975
12,238
967
300
158
72
45
15
Equilibrado
1,975
12,307
978
311
167
68
40
15
Modificado
P2
n=2
n=3
n=4
n=12 n=22 n=44
n=66 n=132
M_St_nh=1
S_isc
S_isv
C_isc
C_isv
Corr_extr.
Equilibrado
Modificado
173,327
54,556
231,284 101,451
227,090
96,966
11,312
2,944
11,301
3,023
47,951
10,421
122,912
13,849
122,912
11,929
23,809
56,998
52,508
1,670
1,620
3,891
8,527
29,671
1,184
6,567
3,012
361
292
357
410
3,467
305
2,007
249
220
191
171
180
1,079
93
540
77
120
73
80
78
292
50
246
45
95
48
49
45
154
16
55
16
55
16
15
16
29
En esta tabla podemos observar que los mtodos equilibrado y modificado son
sensibles a las especificaciones del modelo, tanto al orden del polinomio como a si
el tamao de muestra es par o impar. Los resultados para un modelo de ajuste
polinmico de grado tres se han presentado en la tabla 1. La principal conclusin
de este apartado es que, para este ejemplo con datos del marco de la encuesta de
establecimientos hoteleros, el muestreo centrado con intervalo de seleccin variable reduce el error cuadrtico medio, en trminos generales, frente a otros mtodos
sistemticos considerados. Esta reduccin se lleva a cabo con robustez sobre
parmetros que influyen decisivamente en el comportamiento de los otros mtodos
como son: el tamao de muestra, el nmero de grupos en la poblacin y sobre si
estos son pares o impares.
Tambin hemos observado en este apartado la relacin acusada entre el trmino de error aleatorio del modelo y el comportamiento errtico del mtodo centrado.
Por ello se ha propuesto un indicador de la cota superior del error, que incorpora la
informacin relativa a la representatividad del valor esperado, mediante la desviacin respecto del modelo del error cuadrtico medio.
22
ESTADSTICA ESPAOLA
23
24
ESTADSTICA ESPAOLA
Figura 2
DOS PANTALLAS DE LA APLICACIN POSDEM(4)
(4) La aplicacin POSDEM tiene ms de cien opciones diferentes. Aqu slo se representan dos
de las pantallas ms significativas.
25
En resumen y desde esa triple ptica, este programa ser de utilidad: a alumnos de un curso de teora y prctica de muestreo en poblaciones finitas en sus dos
posibles versiones de bsico o avanzado; a profesores que deseen disponer de un
instrumento para la investigacin emprica del rea de las encuestas por muestreo;
y a empresas, oficinas centrales de estadstica o profesionales de investigaciones
por muestreo que deseen disear encuestas con una seleccin ptima de las
unidades muestrales. Este instrumento, la aplicacin POSDEM, permite realizar
diseos de una manera personalizada a cada investigacin e incorpora el conocimiento que el experto en muestreo tiene, no siendo necesario que la persona que
efectivamente realiza el diseo tenga estos conocimientos.
Vamos a resumir lo que permite hacer POSDEM:
1. El programa permite trabajar con bases de datos procedentes de ficheros
externos en formatos Dbase, Paradox, Foxpro y Acces. Tambin permite generar
variables definidas a medida y generar poblaciones aleatorias bajo una amplia
gama de posibilidades: aleatoriedad, dispersin, heterocedastcidad, tendencia y
ciclo. De forma que es posible modelar una gran variedad de poblaciones que se
pueden encontrar en la prctica de las encuestas por muestreo. Esta posibilidad se
utiliza sobre todo dentro del enfoque de modelos de superpoblacin.
2. El programa tiene incorporados diecisiete mtodos de seleccin y veinte
mtodos de estimacin distintos. Una vez elegido el mtodo y obtenidas las muestras, calcula para cada muestra, el estimador del total, de la media, o de la proporcin, segn se trate de datos cualitativos o cuantitativos; la varianza del estimador,
su desviacin tpica, los lmites de confianza al 95% y el coeficiente de variacin.
Calcula tambin, para ciertas opciones, los momentos de segundo, tercer y cuarto
orden. Todos estos clculos se realizan para cada muestra obtenida, y se pueden
listar bajo diferentes formatos, con salidas a pantalla, a impresora, a disco o al
portapapeles de Windows. Para una poblacin tipo de 800 unidades, calcula como
resultado final y en una sola realizacin, sin tener en cuenta procesos intermedios o
clculos definidos especficamente, un total de 11.298 estimaciones diferentes.
Dispone adems de cien opciones especficas, todas ellas accesibles desde men.
Las ms utilizadas dispuestas en teclas de funcin y teclas abreviadas (combinacin de ctrl+letra). Presenta tambin una ayuda en lnea de cada pantalla con su
correspondiente glosario y ejemplos. Esta ayuda se presenta en formato hipertexto.
3. De los procedimientos de seleccin que utiliza la aplicacin, tenemos un primer grupo con doce procedimientos que tienen en comn que la seleccin se
realiza con probabilidades iguales, y un segundo grupo de tres mtodos con
probabilidades desiguales, proporcionales al valor de una variable auxiliar,
generalmente el tamao.
26
ESTADSTICA ESPAOLA
4. Las muestras obtenidas se utilizan a su vez para calcular el error de muestreo. Esto es, el programa calcula la varianza, desviacin tpica, coeficiente de
variacin y lmites de confianza para todos los estimadores calculados en cada
muestra. As, tenemos la posibilidad de estudiar la varianza de la media y tambin
la varianza de la varianza o la varianza del momento de cuarto orden, entre otros
parmetros. Hay que destacar tambin que con este procedimiento, en la lnea de
los procedimientos bootstrap es posible calcular la varianza para estadsticos ms
sofisticados que la media o el total, como por ejemplo una componente principal.
5. La aplicacin utiliza por defecto variables cuantitativas, aunque tambin
permite procesar datos cualitativos. Y en cuanto a estimadores, utiliza por defecto,
cuando el mtodo de seleccin es con probabilidades iguales, el estimador de la
media y, cuando se refiere a mtodos con probabilidades desiguales el estimador
del total. Esto se ha mantenido as por similitud con los textos de muestreo. No
obstante, es posible elegir el tipo de estimador que vamos a utilizar: la media de
simple expansin, el total, la proporcin, el total de clase o incluso, si se dispone de
la informacin adecuada, es posible utilizar estimadores mejorados de regresin y
de razn.
6. Dentro de la filosofa del programa, un punto bsico es poder realizar comparaciones entre diferentes mtodos de seleccin, para poder elegir el ms conveniente a cierta estructura poblacional. El programa permite estudiar los resultados de cada experimento en forma de listados o grficamente. En cuanto a la
estructura de poblacin, esta puede estar definida por una poblacin ficticia, una
poblacin natural observada en la prctica, o una superpoblacin producto de un
modelo.
7. Los modelos de superpoblacin es uno de los puntos fuertes del programa
puesto que permite definir modelos complejos, por tramos, con distintas formas y
caractersticas en cuanto a trmino de error, heterocedasticidad, concavidad,
convexidad o componente cclico.
8. Permite tambin realizar los clculos necesarios para representar grficamente el coeficiente de correlacin intraclsica y la varianza, mediante un correlograma, definiendo los lmites inferior y superior del tamao de muestra. A su vez
permite realizar una descomposicin de la varianza, distinguiendo por fuente de
variacin entre muestras o dentro de muestras.
9. Para anlisis de tipo multivariante, se ha incorporado un mdulo de componentes principales que permite obtener la componente de un determinado conjunto de variables para su utilizacin en el diseo de la encuesta, bien como variable de estudio, bien como variable auxiliar o de ordenacin, en funcin del diseo
que se este realizando.
27
10. Permite, por ltimo realizar diseos polietpicos. As, en primer lugar es
posible obtener las unidades que formarn la muestra de unidades primarias sobre
las que a su vez se realizar un nuevo muestreo, hasta conseguir determinar las
unidades ltimas de estudio. La aplicacin tiene implementado un procedimiento
para obtener el error de muestreo en diseos bietpicos.
7. CONCLUSIONES
En primer lugar se propone un nuevo mtodo de seleccin sistemtico con intervalo de muestreo variable. Este mtodo elimina la tendencia resultado de la
ordenacin de las unidades poblacionales, presenta el caso de varianza cero para
poblaciones hipotticas Xi=i con i=1,2,3...N cuando se verifica la condicin de que
el tamao de muestra es igual a la raz cuadrada de la poblacin. En este caso
28
ESTADSTICA ESPAOLA
CVSM
(6)
13%
18%
12%
LIM.
S (5)
7,93
8,81
8,43
0,71
1,33
0,71
0,92
0,09
0,29
32%
1,51
0,33
2,17
MED
(1)
6,25
6,50
6,75
6,50
0,04
0,20
3%
6,91
6,09
6,50
1 5 9 10
2 6 7 11
3 4 8 12
1)
2)
3)
VALOR ESPERADO
VARIANZA
DESVIACION
COEF.VAR
LIMITE SUPERIOR
LIMITE INFERIOR
POBLACION (Orden aleatorio)
3,35
0,00
0,00
0%
3,35
3,35
3,45
3,35
3,35
3,35
DES
(8)
15,00
0,00
0,00
0%
15,00
15,00
13,00
15,00
15,00
15,00
CUA
(9)
3,87
0,00
0,00
0%
3,87
3,87
3,61
3,87
3,87
3,87
CUD
(10)
4,61
0,13
0,36
8%
5,33
3,89
1,21
0,95
0,02
0,15
16%
1,24
0,65
1,47
0,84
1,15
0,84
8,39
0,13
0,36
4%
9,11
7,67
1,10
11,88
1,32
1,15
10%
14,17
9,58
11,92
3,44
0,03
0,17
5%
3,78
3,10
3,45
3,56
3,20
3,56
DES
(8)
15,83
2,35
1,53
10%
18,90
12,77
13,00
16,92
13,67
16,92
CUA
(9)
3,97
0,04
0,20
5%
4,37
3,58
3,61
4,11
3,70
4,11
CUD
(10)
61%
0%
4%
6%
69%
54%
55%
66%
57%
61%
CVS
(11)
54,17
8,43
2,90
5%
59,97
48,36
54,17
51,7
52,5
58,2
M2 (12)
54,17
112,89
10,62
20%
75,42
32,92
54,17
41,50
53,50
67,50
M2 (12)
tercer
.
(14) M4
cuarto
15%
0%
2%
16%
19%
10%
23%
12,69
10,25
12,69
VAR
(7)
61%
1%
8%
13%
76%
45%
55%
70%
60%
52%
CVS
(11)
11,25
0,00
0,00
0%
11,25
11,25
11,92
Unidades
de cada
muestra
14%
0%
2%
13%
17%
10%
23%
N de muestra
8,23
0,67
0,82
10%
9,87
6,60
1,10
0,75
0,00
0,00
0%
0,75
0,75
2,17
6,50
0,67
0,82
13%
8,13
4,87
6,50
VALOR ESPERADO
VARIANZA
DESVIACION
COEF.VAR
LIMITE SUPERIOR
LIMITE INFERIOR
POBLACION (Orden aleatorio)
4,77
0,67
0,82
17%
6,40
3,13
1,21
11,25
11,25
11,25
16%
13%
12%
7,23
8,23
9,23
3,77
4,77
5,77
0,87
0,87
0,87
0,75
0,75
0,75
5,50
6,50
7,50
1 4 7 10
2 5 8 11
3 6 9 12
1)
2)
3)
0,87
0,00
0,00
0%
0,87
0,87
1,47
VAR
(7)
CVSM
(6)
LIM.
S (5)
LIM.I
(4)
DES
M (3)
MED
(1)
Unidades
de cada
muestra
N de muestra
Anexo 1
507,00
2888,00
53,74
11%
614,40
399,50
507,00
463,7
474,5
582,7
M3 (13)
507,00
17472,67
132,18
26%
771,37
242,63
507,00
352,00
494,00
675,00
M3 (13)
5059,17
774433,00
880,02
17%
6819,20
3299,13
5059,17
4296,75
4588,50
6292,25
M4 (14)
5059,17
2695043,56
1641,66
32%
8342,48
1775,85
5059,17
3164,50
4844,50
7168,50
M4 (14)
29
30
ESTADSTICA ESPAOLA
Anexo 2
Se incluye un ejemplo con una poblacin un poco mayor que la utilizada en la
ilustracin de la hoja de clculo para comprender mejor el mtodo propuesto:
Tamao de poblacin N = 21. Tamao de muestra n = 7. Nmero aleatorio para
la primera seleccin i = 2. Tamao de los grupos para la seleccin k = 3
A continuacin tenemos la poblacin y los valores muestrales seleccionados
con este mtodo:
ndice de cada
unidad de la
poblacin
Nmero
aleatorio
Correlativo
Nmero
Lmite
del
grupo
j.k
0 (*)
2+(1-1)(3+1)-(0)(3)= 2
2+(2-1)(3+1)-(0)(3)= 6
1 (**)
2+(3-1)(3+1)-(1)(3)= 7
10
11
12
12
2+(4-1)(3+1)-(1)(3)= 11
13
14
15
15
2+(5-1)(3+1)-(1)(3)= 15
16
17
18
18
2 (***)
2+(6-1)(3+1)-(2)(3)= 16
19
20
21
21
2+(7-1)(3+1)-(2)(3)= 20
31
REFERENCIAS
AZORIN, F. Y SNCHEZ-CRESPO RODRIGUEZ, JL. (1986) Mtodos y aplicaciones del
muestreo. Alianza Universidad Textos. Madrid
BELLHOUSE,D.R.&RAO, J.N.K. (1975);Systematic sampling in the presence of a
trend;Biometrika 62, 694-697;
COCHRAN, W.G. (1977): Sampling Techniques, 3rd edition, New York: Wiley
MURTHY, M.N. Sampling theory and Methods (1967). Statistical Publishing Society, Calcutta
IACHAN, RONALDO (1982) : Systematic Sampling: A critical Review International
Statistical Review, 50, pp 293-303
KRISHNAIAH, P.R.
Holland.
Key words: Systematic sampling. Variable sampling interval. Computer application: POSDEM. Superpopulation model.
AMS classification: 62D05