You are on page 1of 54

TCNICAS DE MUESTREO

TCNICAS DE MUESTREO
2
I. CONCEPTOS GENERALES DE MUESTREO
El objetivo de la teora de muestras es proporcionar una serie de tcnicas que permitan
conocer caractersticas o valores referidas al total de unidades de un conjunto,
estudiando slo una parte de las unidades del conjunto.
Poblacin o Universo es el conjunto total de unidades de las que se desea informacin o
conjunto total de unidades objeto de estudio:
{ } P u u u
N

1 2
, ,...,
Muestra es una parte de la poblacin sobre la que se mide la informacin:
{ }
S u u u
j j j j
n

1 2
, ,...,
Tamao de la poblacin es el nmero de unidades N que forman la poblacin. Tamao
de la muestra es el nmero de unidades n seleccionadas para la muestra.
El trmino muestreo se refiere al conjunto de tcnicas utilizadas para seleccionar una
muestra de una poblacin. Representamos por Y
i
el valor numrico de una caracterstica
o variable en la unidad u
i
. Esta variable y se denomina variable de estudio.
Valor poblacional es una expresin ( ) y que sintetiza los valores de la variable en
estudio en las N unidades de la poblacin completa:
Total Y Y
i
i
N

1
Media Y
Y
N

Valor muestral es una estimacin


!
( ) s del valor poblacional que se calcula a partir de
las n unidades de la muestra.
El valor poblacional es una constante, en general desconocida, que depende slo de los
N valores Y
i
. La estimacin es un valor calculado y nico en cada muestra particular,
pero el valor vara de muestra a muestra.
TCNICAS DE MUESTREO
3
Si dado un procedimiento de muestreo podemos definir el conjunto de muestras posibles
o espacio muestral y la seleccin de la muestra se hace de acuerdo a una funcin de
probabilidad P definida sobre el espacio muestral, diremos que el muestreo es
probabilstico. Es decir, para cada muestra posible, S
j
, est definida una probabilidad
P(S
j
) > 0 con P( S
j
j

) 1, y la seleccin de la muestra respeta esta probabilidad.


En el muestreo probabilstico la estimacin
!
se convierte para una muestra particular
en el valor observado de una variable aleatoria
!
( ) S
j
que se llama estimador cuya
funcin de probabilidad corresponde a la definida en el espacio muestral, es decir
[ ]
P S P( S
j j
!
( ) )
Esta funcin de probabilidad del estimador sobre el espacio muestral se denomina
distribucin de muestreo del estimador y corresponde, por tanto, al conjunto de
estimaciones de todas las muestras posibles con su probabilidad de materializarse.
En la prctica podemos asignar probabilidades de seleccin a las N unidades de la
poblacin. En tal caso la probabilidad de seleccin de una muestra ser:
P( S P( u P( u u P( u u u u
j j j j j j j j
n n
) ) ) , ,..., )
1 2 1 1 2 1
De esta forma en el muestreo probabilstico, cada unidad de la poblacin tiene una
probabilidad conocida y no nula de ser seleccionada.
El muestreo probabilstico es sin reposicin o sin reemplazamiento si toda muestra S
j
est formada por n unidades distintas, es decir, las muestras con alguna unidad repetida
tienen probabilidad cero de ser seleccionadas. En caso contrario, si en la muestra puede
haber unidades repetidas, se dice que el muestreo es con reposicin o con
reemplazamiento.
La seleccin con reposicin responde al hecho fsico de hacer n selecciones sucesivas de
elementos, restituyendo a la poblacin cada unidad elegida antes de proceder a la
siguiente seleccin.En la seleccin sin reposicin cada unidad elegida no se restituye a
la poblacin y, por tanto, una misma unidad slo puede estar presente en la misma
muestra una sola vez. En lo que sigue nos referiremos siempre al muestreo sin
reemplazamiento.
TCNICAS DE MUESTREO
4
Suele hablarse de muestra aleatoria cuando todas las unidades de la poblacin tienen la
misma probabilidad de ser seleccionadas. En ste caso todas las posibles muestras son
tambin equiprobables.
Trataremos de aclarar algunos de los conceptos anteriores con un ejemplo. Sea una
poblacin de N=6 elementos en los que la variable y , objeto de estudio, toma los
valores { } Y
i
8311147 , , , , , .La media poblacional es Y
+ + + + +

8 3 1 11 4 7
6
57 , . En
una muestra aleatoria, la media muestral es un estimador de la media poblacional, as, si
nuestra muestra, de tamao 3, estuviera formada por los valores (3,11,4) la media
muestral sera y 60 , . Seleccionemos todas las muestras posibles de tamao 3
calculando para cada una la media muestral. Los resultados se muestran en el siguiente
grfico:
media muestral vs media poblacional
4,0
7,3
5,0
6,0
6,7
4,3
5,3
7,7
8,7
6,3
5,0
2,7
3,7
6,0
7,0
4,7
5,3
6,3
4,0
7,3
2,0
3,0
4,0
5,0
6,0
7,0
8,0
9,0
(
8
,
3
,
1
)
(
8
,
3
,
1
1
)
(
8
,
3
,
4
)
(
8
,
3
,
7
)
(
8
,
1
,
1
1
)
(
8
,
1
,
4
)
(
8
,
1
,
7
)
(
8
,
1
1
,
4
)
(
8
,
1
1
,
7
)
(
8
,
4
,
7
)
(
3
,
1
,
1
1
)
(
3
,
1
,
4
)
(
3
,
1
,
7
)
(
3
,
1
1
,
4
)
(
3
,
1
1
,
7
)
(
3
,
4
,
7
)
(
1
,
1
1
,
4
)
(
1
,
1
1
,
7
)
(
1
,
4
,
7
)
(
1
1
,
4
,
7
)
muestra
m
e
d
i
a
muestra
poblac.
Sobre el eje de abscisas se sealan los componentes de cada una de las posibles 20
muestras aleatorias de tamao 3, todas equiprobables, es decir la probabilidad de tomar
una muestra cualquiera es 1/20. En el eje de ordenadas se seala para cada una de las
muestras la media muestral correspondiente. Tambin se indica la media poblacional
que es constante e igual a 5,7, de acuerdo al clculo anterior.
TCNICAS DE MUESTREO
5
El grfico refleja cmo el valor poblacional (la media) es una constante pero su
estimador (la media muestral) presenta valores diferentes segn las unidades que
componen la muestra, es decir, el valor del estimador, estimacin, vara de muestra a
muestra. Puede observarse tambin como las distintas estimaciones se sitan alrededor
del verdadero valor que se quiere estimar.
Puesto que cada muestra en el ejemplo tiene una probabilidad de 1/20 de ser
seleccionada, cada uno de los 20 valores muestrales tiene tambin una probabilidad de
1/20 de ser obtenido, es decir, denotando por y la media muestral (el estimador) resulta
( ) ( ) ( ) P y P y P y 27 37 87 120 , , , " . Este conjunto de posibles valores del
estimador junto con la probabilidad de obtener cada valor constituye la distribucin en
el muestreo del estimador. En base a esta distribucin puede calcularse la probabilidad
de que el estimador tome valores en un cierto intervalo; as, el intervalo (4,5; 6,5)
comprende 9 de las 20 muestras. Es decir, la probabilidad de que la media muestral
tome valores comprendidos entre 4,5 y 6,5 es de 9/20.
Siendo el estimador una variable aleatoria pueden estudiarse distintas caractersticas del
mismo, como son su media o esperanza matemtica, la varianza y su raiz cuadrada o
desviacin tpica, y el coeficiente de variacin, esto es, el cociente entre la desviacin
tpica del estimador y su esperanza matemtica. En particular, la desviacin tpica del
estimador se llama error de muestreo o error estndar.
Sobre el ejemplo anterior fcilmente podemos comprobar que el promedio de las 20
estimaciones es 5,7 que coincide con la media poblacional. Esto no es casualidad, es
debido a que en el muestreo aleatorio de unidades elementales la media muestral es un
estimador insesgado de la media poblacional, es decir, la esperanza matemtica del
estimador coincide con el verdadero valor que se quiere estimar: ( ) E y Y . En caso
contrario el estimador se dice sesgado y a la diferencia entre la esperanza matemtica o
valor medio del estimador y el valor a estimar se le llama sesgo. En ocasiones puede ser
preferible la utilizacin de un estimador sesgado si ello implica una sensible reduccin
del error de muestreo y el tamao del sesgo es pequeo respecto al error estndar. En
TCNICAS DE MUESTREO
6
caso de estimadores sesgados es deseable la propiedad de consistencia que se cumple
cuando el sesgo tiende a cero al aumentar el tamao de la muestra.
Calculemos a continuacin la desviacin tpica del estimador en nuestro ejemplo.
Recordemos que dado un conjunto de valores x x x
n 1 2
, , , " , la desviacin tpica se
define como la raiz cuadrada de la varianza, es decir
( )

x x
n
i
n
2
1
donde x
x
n
i


es el valor medio. En nuestro caso x
i
son las 20 estimaciones del
grfico y x es su valor medio por lo que
( ) ( ) ( )

+ + +

27 57 37 57 87 57
20
15
2 2 2
, , , , , ,
,
"
As pues, el error de muestreo en el ejemplo es 1,5 y nos da una medida de la
variabilidad de las estimaciones individuales alrededor de su media. La desviacin tpica
se expresa en la misma unidad de medida que la variable en estudio, por lo que,
dividiendo por la media se obtiene el coeficiente de variacin, que es una medida
relativa de la variabilidad, sin unidad de medida. En nuestro caso el coeficiente de
variacin de las estimaciones sera
CV
15
57
0264 264
,
,
, , %
El coeficiente de variacin del estimador se denomina error de muestreo relativo.
Veremos posteriormente que no es necesario tomar todas las posibles muestras para
calcular el error de muestreo, lo cul en la prctica sera irrealizable.
II. POBLACIN, MARCO Y MUESTRA. UNIDADES DE
MUESTREO
TCNICAS DE MUESTREO
7
Conviene distinguir entre unidad elemental y unidad de muestreo. La unidad elemental
o unidad de estudio es todo elemento o individuo miembro de la poblacin objetivo. Las
variables objeto de estudio en una investigacin por muestreo se miden sobre las
unidades elementales.
Las unidades de muestreo son aquellas que forman parte del proceso de seleccin de la
muestra. La unidad de muestreo puede coincidir con la unidad elemental, en cuyo caso
hablamos de muestreo de unidades elementales, o puede referirse a un conjunto de
unidades elementales, que se denominan conglomerados. As, para seleccionar una
muestra de la poblacin espaola para estudiar cualquier caracterstica, por ejemplo la
talla, podemos seleccionar la muestra a partir de una lista de todos los individuos. Aqu
la unidad de muestreo es la persona fsica y coincide con la unidad elemental. Pero si no
disponemos de la lista de individuos sino slo de una lista de viviendas, podemos
seleccionar una muestra de viviendas y recoger informacin de todos los individuos que
habitan en las viviendas seleccionadas. En este caso la unidad elemental sigue siendo el
individuo pero la unidad de muestreo es la vivienda, formada por un conjunto de
unidades elementales.
El concepto de poblacin establecido anteriormente como conjunto total de unidades de
las que se desea informacin, se refiere a la poblacin objetivo y constituye un modelo
ideal. En la prctica, la muestra se selecciona a partir de un material soporte,
denominado marco, que coincide en mayor o menor grado con la poblacin objetivo. En
sentido estricto, el marco de muestreo se define como la lista de unidades de muestreo a
partir de la cual se selecciona la muestra. Es decir que el marco equivale a la poblacin
que va a ser muestreada y por tanto el marco o poblacin marco ser tanto mejor
cuanto mas equivalga a la poblacin objeto de estudio. Como idea intuitiva, un marco
sera aceptable cuando obteniendo a partir de l informacin exhaustiva (del 100% de
las unidades del marco), sta cubriese aceptablemente los objetivos propuestos.
En sentido amplio, el marco de muestreo comprende no solo listas de unidades de
muestreo, sino que incluye todo el material e informacin previa que disponemos sobre
la poblacin y su agrupacin en unidades de muestreo, y que es til para la
estratificacin y formacin de estimadores.
TCNICAS DE MUESTREO
8
Dada la importancia del marco en una investigacin por muestreo, hay que pretender
trabajar con marcos perfectos, es decir marcos en los que todas las unidades de la
poblacin objetivo estn incluidas una sola vez y slo incluya unidades de la poblacin.
El muestreo de unidades elementales aunque tiene gran inters terico, no es muy
utilizado en la prctica por dos graves inconvenientes:
a) Imposibilidad prctica en muchas ocasiones de obtener una lista de unidades
elementales en la cul basar la seleccin de la muestra.
b) La seleccin de unidades elementales proporciona en general una muestra muy
esparcida de unidades a entrevistar con el consiguiente incremento de coste y tiempo.
Para evitar estos inconvenientes surge, de forma natural, el muestreo de conglomerados,
agrupando las unidades elementales prximas en un conglomerado que se constituye en
la nueva unidad de muestreo, ms grande que la unidad elemental. Los conglomerados
deben estar perfectamente definidos, lo cul significa que no haya solapamiento entre
ellos (una unidad elemental pertenece slo a un conglomerado) y que el conjunto de
todos los conglomerados contiene a la poblacin objeto de estudio.
La agrupacin de unidades elementales en unidades de muestreo mas amplias tiene
ventajas e inconvenientes. Entre las ventajas podemos citar el ahorro de coste y tiempo,
y la mayor facilidad de preparar listas (slo se necesitan para los conglomerados de la
muestra). De los inconvenientes hay que destacar la menor precisin derivada de una
mayor homogeneidad de las unidades elementales dentro de un conglomerado respecto a
la caracterstica de estudio.
Si en el proceso de muestreo investigamos todas las unidades elementales contenidas en
los conglomerados seleccionados en la muestra, el muestreo se denomina en una etapa o
monoetpico. Ahora bien, para evitar el inconveniente apuntado (homogeneidad dentro
del conglomerado) podemos investigar no todas las unidades elementales del
conglomerado, sino seleccionar a su vez una muestra probabilstica de las mismas.
Estaramos as ante un muestreo en dos etapas: las unidades de primera etapa o
TCNICAS DE MUESTREO
9
unidades primarias de muestreo seran los conglomerados y las unidades de segunda
etapa seran las unidades elementales.
Este proceso puede generalizarse llevndonos as al muestreo multietpico o
polietpico. Obsrvese que en muestreo por etapas se definen distintas unidades de
muestreo y que la lista de unidades de muestreo en una etapa dada, slo es necesario
disponerla para las unidades seleccionadas en la etapa inmediatamente anterior. Se
constituye as una jerarqua entre las distintas unidades de muestreo de acuerdo a las
etapas del proceso.
Para precisar mejor las ideas anteriores, consideremos la seleccin de una muestra de
individuos de la poblacin espaola. En un muestreo de unidades elementales
necesitamos disponer de una lista de todas las personas. Podemos optar por un muestreo
de conglomerados y tomar como unidad de 1 etapa la seccin censal, con lo cual solo
necesitamos la lista de secciones. Podemos tomar como unidad de 2 etapa las
manzanas, para lo cual necesitamos una lista de manzanas de las secciones previamente
seleccionadas. Finalmente en una 3 etapa podemos tomar como unidad de muestreo la
vivienda, necesitando una lista de viviendas de las manzanas seleccionadas en la 2
etapa.
III. MUESTREO PROBABILSTICO Y OTROS TIPOS DE
MUESTREO
Al estudiar una poblacin la primera posibilidad es obtener la informacin necesaria de
todas y cada una de las unidades que forman la poblacin. Estaramos as ante un
estudio censal o censo. El censo se caracteriza por obtener informacin de toda la
poblacin, mientras que en el muestreo se estudia una parte de la poblacin.
En general hay tres principales ventajas en el muestreo respecto a la investigacin total
de la poblacin o censo:
1) Menor coste, derivado de obtener informacin solo de una parte de la poblacin.
2) Mayor rapidez, por el mismo motivo anterior.
TCNICAS DE MUESTREO
10
3) Mayor calidad. Al reducirse el volumen de trabajo se puede emplear personal
especialista mejor preparado y entrenado. Igualmente los procesos de supervisin y
proceso de datos estn mejor controlados, lo que redunda en una mejor calidad de
trabajo y una disminucin de errores (no de muestreo) respecto al censo total.
Ya hemos indicado que el muestreo probabilstico se caracteriza porque cada unidad de
la poblacin tiene una probabilidad no nula y conocida de ser seleccionada en la
muestra. El conocimiento de esta probabilidad permite calcular errores de muestreo, y
los sesgos de seleccin, no respuesta y estimacin pueden ser virtualmente eliminados o
contenidos dentro de lmites conocidos.
Un muestreo probabilstico se lleva a cabo con un plan estadstico de seleccin
totalmente rgido y fijado de antemano de acuerdo a esas probabilidades y donde ni los
entrevistadores ni otras personas que intervengan en el muestreo toman decisin alguna
sobre qu unidad elegir para la muestra. Tambin hay que notar que los procedimientos
para formar estimadores estn fijados de antemano como parte del diseo muestral y no
dependen de la muestra particular que se ha seleccionado.
En las muestras que denominamos intencionales o de juicio (judgment samples segn
Deming), el procedimiento de seleccin no es probabilstico y, en consecuencia, los
errores de muestreo y posibles sesgos no pueden ser calculados, sino que son
determinados por el buen juicio y experiencia del investigador que disea y calcula los
resultados muestrales.
En una muestra intencional las unidades muestrales se seleccionan de forma que a juicio
del diseador las unidades sean tpicas o representativas respecto a la informacin
que se desea obtener. Un ejemplo tpico de muestreo intencional es el muestreo por
cuotas, donde se fija de antemano, de acuerdo a caractersticas poblacionales conocidas,
los porcentajes o cuotas de las unidades muestrales que deben reunir esas caractersticas.
El entrevistador deber seleccionar las unidades de la muestra de forma que el conjunto
de unidades seleccionadas verifiquen las cuotas que se le han fijado.
TCNICAS DE MUESTREO
11
En una muestra por cuotas los porcentajes muestrales de las caractersticas
poblacionales fijadas como cuotas pueden corresponder exactamente a las proporciones
poblacionales, lo que lleva a decir que la muestra es perfectamente representativa
transversalmente. Sin embargo, ello no evita el riesgo de sesgos en la representacin de
las caractersticas que se van a medir en la muestra, no coincidentes con las establecidas
como cuotas. nicamente una muestra probabilstica evita estos riesgos.
Si la experiencia y el conocimiento de la poblacin a muestrear es importante en un
muestreo intencional, no lo es menos en muestreo probabilstico. Este conocimiento de
la poblacin, particularmente en aspectos relacionados con variables objeto de estudio
deben ser utilizados de la mejor manera posible en el diseo de muestras probabilsticas.
Por ejemplo, nos puede ayudar a definir el tamao y el tipo de las unidades de muestreo
en distintas etapas, en la formacin de estratos y en el uso de variables auxiliares
conocidas en la poblacin que ayuden a mejorar las estimaciones, en el establecimiento
de las propias probabilidades de seleccin de las unidades muestrales, etc. No hay lmite
a la cantidad de informacin que puede utilizarse en un proceso probabilstico de
muestreo. El nico lmite que existe es que la seleccin sea matemtica, respetando las
probabilidades asignadas.
IV. LA HIPTESIS DE NORMALIDAD
Admitiremos que una poblacin finita sigue una distribucin normal si su distribucin
de frecuencias se ajusta a las correspondientes frecuencias tericas de la distribucin
normal.
Si el estimador est formado por una combinacin lineal de variables cuya poblacin
base es normal, sabemos que el estimador tiene una distribucin normal en el muestreo.
Si la poblacin base no es normal, est demostrado que en condiciones muy generales,
un estimador lineal sigue una distribucin convergente a la normal a medida que
aumenta el tamao de la muestra. El error de muestreo, que indica en que forma las
estimaciones procedentes de muestras de igual tamao y diseo se distribuyen alrededor
del verdadero valor poblacional (estimador insesgado), en el supuesto de que tuviramos
TCNICAS DE MUESTREO
12
miles de tales muestras, corresponde a la desviacin tpica de la distribucin normal del
estimador.

Es importante recalcar que el error estndar no nos dice nada acerca del tamao o
direccin de la diferencia entre nuestras estimaciones y el valor verdadero. Cuando
estamos ante una muestra en particular, no sabemos en que parte de la distribucin de
frecuencias de las estimaciones nos encontramos (no sabemos si estamos cerca o lejos
del verdadero valor, que por otra parte no conocemos). Sin embargo las propiedades de
la distribucin normal, nos permiten la construccin de intervalos de la forma
( )
!
,
!
+ E E dentro del cual y con un determinado nivel de confianza (probabilidad),
se encuentra el verdadero valor. E se calcula a partir del error estndar en la forma
( ) E k ee . . . El multiplicador k del error estndar nos proporciona el nivel de confianza
que deseemos y se puede obtener a partir de unas tablas de la normal. Hay que indicar
que el e.e. est definido por el tamao y el diseo de la encuesta. Conocido su valor, el
usuario de los datos de una encuesta puede manejarlos con el nivel de confianza que
desee. Algunos valores tpicos de k y su confianza asociada son:
k nivel de confianza
0.6745 50%
1 68.26%
1.6 89.04%
2 95.44%
3 99.73%
!

TCNICAS DE MUESTREO
13
En la prctica, es habitual encontrarse con poblaciones normales o muy simtricas en su
distribucin de frecuencias, por lo que la hiptesis de normalidad de los estimadores es
razonable incluso para tamaos de muestra moderados. Pero tambin es muy frecuente
encontrarse con poblaciones muy asimtricas, con una gran concentracin de
frecuencias en valores moderados de la variable y una marcada cola a la derecha
correspondiente a frecuencias bajas de valores muy altos de la variable. En estos casos
debe tenerse en cuenta que cuanto mayor sea la asimetra de la poblacin, mayor es el
tamao de la muestra requerido para admitir la distribucin normal del estimador. Si el
tamao de la muestra no es suficiente, la distribucin del estimador muestra cierta
asimetra por la derecha, tanto mayor cuanto menor es el tamao de la muestra:

Los tamaos muestrales que se utilizan en la prctica suelen ser lo suficientemente
grandes para admitir la hiptesis de normalidad sin mayores problemas. Adems, la
prctica, muy frecuente en muestreo, de incluir con certeza en la muestra las unidades
muy grandes contribuye a facilitar la validez de la aproximacin normal, ya que la
eliminacin de las unidades extremas de la poblacin a muestrear, adems de reducir la
variabilidad de la muestra y aumentar la precisin de los estimadores, reduce la
asimetra y mejora la aproximacin normal.
Como ejemplo de la aproximacin normal a la distribucin del estimador vamos a
considerar una poblacin de N=2959 supermercados de 400 m
2
y ms de superficie de
venta que presentan la distribucin por superficie que refleja el grfico:
DISTRIBUCIN DE SUPERMERCADOS POR SUPERFICIE
DE VENTA (%)
!

TCNICAS DE MUESTREO
14
Superficie
400-
599
600-
799
800-
999
1000-
1499
1500-
2499
2500-
4999
5000-
9999
10000
y m as
1,7
2,5
7,2
2,4
13,6
12,2
22,7
37,7
La superficie media poblacional es de Y 1165
2
m , con una desviacin tpica de
1793m
2
. De este Universo de supermercados se han seleccionado 100 muestras
aleatorias de tamao n=100, calculndose la superficie media de cada muestra. El
siguiente grfico muestra la distribucin de medias muestrales obtenida:
DISTRIBUCIN DE MEDIAS MUESTRALES DE 100 MUESTRAS
ALEATORIAS (n=100)
TCNICAS DE MUESTREO
15
5
11
28
33
4
19
3
12
27
32
19
7
< 900 1050-1200 1350-1500
superficie m edia estim ada
frec. obs.
frec. teor.
J unto a la distribucin observada de medias muestrales aparece la distribucin terica
que se obtendra de acuerdo a la hiptesis de distribucin normal del estimador. Puede
observarse como la distribucin de medias muestrales est muy prxima a la
distribucin normal terica, a pesar del alto grado de asimetra de la distribucin
original de superficies de venta.
V. PRINCIPALES FASES DEL DISEO DE UNA ENCUESTA
POR MUESTREO
1. Establecer los objetivos. Es clave establecer unos objetivos claros y precisos de la
encuesta. Esta fase puede incluir una revisin de la informacin existente en relacin
con los objetivos perseguidos y un anlisis de la utilidad final de la encuesta, con el fin
de revelar que la informacin a recoger sea realmente necesaria.
2. Definir la poblacin a ser muestreada. Las definiciones deben ser claras de forma
que los inspectores de Campo no tengan dificultad para decidir si una unidad pertenece
o no a la poblacin. La definicin de la poblacin incluye el marco de muestreo y la
divisin del mismo en unidades de muestreo.
3. Cuestionario. Se incluye aqu la lista de datos que deben ser recogidos, la forma de
medicin y la estructura y organizacin de todo ello en un cuestionario. Establecer un
TCNICAS DE MUESTREO
16
primer plan de tabulacin puede ser de ayuda tambin en el diseo del cuestionario,
sobre todo para eliminar preguntas que no se van a utilizar. Debe tenerse presente que el
cuestionario puede ser fuente de errores y sesgos y causa de falta de cooperacin de los
entrevistados. Un cuestionario demasiado largo puede bajar la calidad de las respuestas,
tanto a las preguntas importantes como a las de poca importancia.
Entre los aspectos a tener en cuenta al preparar el cuestionario citaremos:
-Forma de presentar las preguntas.
-Redaccin correcta de las mismas.
-Orden de las preguntas.
-Evitar preguntas tendenciosas.
4. Nivel de precisin - coste y seleccin de la muestra. Ser til disponer de diseos
muestrales alternativos que muestren los costes aproximados para distintos grados de
precisin, que ayuden a tomar la decisin sobre el grado de precisin y tamaos
muestrales. Debe tenerse presente que el coste de una encuesta por muestreo est muy
relacionado con el tamao de muestra.
5. Elaboracin de instrucciones de campo y planes de supervisin. Deben ser claras e
inteligibles por la gente que va a trabajar. Los objetivos de la encuesta ayudarn a
entender mejor las instrucciones. Debe incluirse el calendario de realizacin de la
encuesta y planes de envo a la central.
6. Encuesta piloto o prueba. Sirve para testar sobre el terreno el cuestionario y los
mtodos de campo a pequea escala. Puede resultar en mejoras del cuestionario y
soluciones de otros problemas, que descubiertos a mayor escala, podran incluso
invalidar la encuesta.
7. Preparacin de planes de inspeccin de resultados, anlisis de datos y tabulacin.
Inspeccin de datos, depuracin de errores. Primeros resultados para datos importantes
basados en una submuestra. Planes para manejar la no respuesta. Los mtodos de
control de calidad utilizados en la industria pueden aplicarse en la encuesta para
determinar la calidad del trabajo de campo y de otras operaciones realizadas en la
oficina.
TCNICAS DE MUESTREO
17
8. Interpretacin y publicacin de resultados finales. Es una buena prctica la de
informar de los errores de muestreo esperados para las estimaciones mas importantes.
VI. MUESTREO DE UNIDADES ELEMENTALES CON
PROBABILIDADES IGUALES
Tambin llamado muestreo aleatorio simple, corresponde al caso de seleccionar las
unidades elementales o de estudio con igual probabilidad. La probabilidad de que la
unidad u
i
est en la muestra es n/N y el nmero de muestras posibles corresponde a las
combinaciones de N elementos tomados de n en n, siendo todas las muestras
equiprobables. Antes de entrar en el estudio de estimadores y errores de muestreo vamos
a recordar el concepto de varianza, ya apuntado anterormente.
Sea una poblacin
{ } P u u u
N

1 2
, ,..., y sean
{ } Y Y Y
N 1 2
, ,..., los valores de la variable en
estudio. La media y el total poblacional vienen dados por :
Y
Y
N
i
N

1
Y Y
i
N

1
El promedio de los cuadrados de las desviaciones de cada valor individual a la media es
la varianza:
( )

2
2
1

Y Y
N
i
N
Su raiz cuadrada,
( )

Y Y
N
i
N
2
1
, se denomina desviacin tpica o estndar y es
una medida de la dispersin o variabilidad de los valores individuales alrededor de su
media: cuanto mayor es la desviacin tpica mayor variabilidad, es decir, menos
concentrados estan los valores alrededor de la media. En cualquier distribucin, al
menos el 75% de los valores, se encuentran comprendidos entre la media y t dos veces
la desviacin tpica.
TCNICAS DE MUESTREO
18
Tanto la media como la desviacin estndar se expresan en la misma unidad de medida
que la variable en estudio, es decir, si estamos considerando ventas de empresas,
tendremos una venta media por empresa expresada en pesetas y su correspondiente
desviacin tpica expresada tambin en pesetas. En la prctica es frecuente utilizar como
medida de dispersin el coeficiente de variacin, que es el cociente entre la desviacin
tpica y la media: C V
Y
.

, y en el cul la unidad de medida de la variable desaparece
al dividir por la media: el CV es la desviacin estandar en trminos relativos (expresable
en % sin mas que multiplicar por 100) y es comparable para distintas variables y
poblaciones.
Con frecuencia estaremos interesados en conocer el nmero de unidades que cumplen
una condicin o poseen una caracterstica (% de votantes de un determinado partido, %
de personas que han visto un cierto programa de televisin, etc). En este caso la variable
Y
i
toma el valor 1 si la unidad posee la caracterstica y el valor 0 si no la posee. Se dice
que estamos estudiando una variable cualitativa o de atributos.Llamaremos C al nmero
total de elementos de la poblacin que poseen el atributo o caracterstica en estudio. C
se denomina total de clase y P
C
N
es la proporcin de clase, expresable en %. En este
caso tenemos:
Y
u C
u C
i
i
i

'

1
0
si
si
por lo que
C Y
i
N

1
P Y
Y
N
C
N
i
N

1
corresponden al total y la media de una variable cualitativa. Hay que indicar que todas
las frmulas que se obtienen para varibles cuantitativas Y
i
son igualmente vlidas para
variables cualitativas o dicotmicas.De ah que no siempre se obtengan las frmulas en
el caso dicotmico. Como ejemplo, para la varianza tenemos
TCNICAS DE MUESTREO
19
( ) ( )
( )

2
2
1
2
1
2 2
2

Y Y
N
Y P
N
Y PY P
N
i
N
i
N
i i
( )
+
+

Y P Y NP
N
P P P P P P P PQ
i i
2 2
2 2 2
2
2 1
dnde se ha tenido en cuenta que
Y
N
Y
N
P
i i
2


VI.A. Estimadores y varianzas
Designaremos por y Y
i
n

1
el total muestral correspondiente a una muestra de tamao
n. La media muestral
y
y
n
Y
n
i
n

1
es el estimador insesgado de la media poblacional Y , mientras que para el total
poblacional Y, el estimador insesgado es
!
Y N y
N
n
Y
N
n
y
i
n

1
De la misma forma la proporcin muestral p
Y
n
i
n

1
y
!
C N p son los estimadores
insesgados de la proporcin poblacional P y del total de clase C respectivamente.
La relacin f
n
N
se llama fraccin de muestreo y expresa la relacin que existe entre
el tamao de la muestra y el de la poblacin. Su inverso
N
n
se llama factor de
expansin, factor por el que se multiplica cada valor muestral para obtener la estimacin
del total.
TCNICAS DE MUESTREO
20
La varianza de la media muestral es
( ) ( ) V y
N n
N n
N n
N
S
n
f
S
n




1
1
2 2 2

dnde
( )
S
N
N
Y Y
N
i
N
2 2
2
1
1 1

es la cuasivarianza poblacional. A partir de aqu se obtiene


( )
( ) V Y N V y
!

2
( ) V p
N n
N
PQ
n


1
( )
( ) V C N V p
!

2
La raiz cuadrada de las varianzas de los estimadores son su desviacin tpica o error de
muestreo. Puede comprobarse cmo en la poblacin del ejemplo del epgrafe I, resulta
S
2
=13,47 y el error estndar es ( ) 1 05
1347
3
15 ,
,
, , coincidente con el all calculado
a partir de todas las muestras posibles.
El problema prctico con las frmulas anteriores es que en las mismas intervienen los
parmetros poblacionales
2
o S
2
, en general desconocidos, por lo que necesitan ser
estimados. Como estimador insesgado de S
2
se toma la cuasivarianza muestral
( )
s
Y y
n
i
n
2 1
1

que, para el caso de proporciones, resulta en


s
n
n
pq
2
1

En consecuencia los estimadores insesgados de las varianzas de los estimadores son


( ) ( )
!
V y f
s
n
1
2
( )
( )
! ! !
V Y N V y
2
TCNICAS DE MUESTREO
21
( ) ( )
!
V p f
pq
n

1
1
( )
( )
! ! !
V C N V p
2
En la prctica, si exceptuamos el caso de proporciones, suele trabajarse con errores de
muestreo relativos, que se obtienen al dividir los valores absolutos por el valor de los
estimadores. Tambin en la prctica la fraccin de muestreo n/N suele ser prxima a
cero y se prescinde del factor (1-f), llamado factor de correccin por poblacin finita.
Con ello el error estndar en trminos relativos resulta
ee
K
n
r

dnde K
s
y
es el coeficiente de variacin estimado a partir de los datos muestrales.
Para calcular el tamao de muestra necesario para obtener un determinado error estndar
no hay mas que despejar n, obtenindose
n
K
ee
r
0
2
2

En el caso de que la fraccin de muestreo no sea prxima a cero, se tiene


ee f
K
n
r
1
( )
n
n
n N

+
0
0
1
En el caso de proporciones si se sustituye K por pq se obtiene una aproximacin al
error estndar en trminos absolutos. Si no se tiene ninguna idea aproximada del valor
de P, puede utilizarse p=q=0,50 ya que en ste caso pq es mximo y estamos ante el
caso mas desfavorable. Al trabajar con errores absolutos en proporciones debe tenerse
presente que, por ejemplo, 1 punto de error para P=50% es un 2% de error relativo y se
convierte en un 10% de error si P=10%.
Conviene notar que el error estndar es inversamente proporcional a la raiz cuadrada del
tamao de muestra. Esto significa, por ejemplo, que para reducir el error estndar a la
mitad es necesario tomar un tamao de muestra cuatro veces superior. El siguiente
TCNICAS DE MUESTREO
22
grfico relaciona el coeficiente de variacin de la poblacin, el error estndar y el
tamao de muestra:
Tamao de muestra segn CV y error estndar
2025
1600
1225
900
625
400
225
100
1111
900
711
544
400
278
178
625
506
400
306
225
0
500
1000
1500
2000
2500
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2
COEFICIENTE DE VARIACION
T
A
M
A

O

D
E

M
U
E
S
T
R
A
2%
3%
4%
err. est
Ya se ha mencionado la influencia del error estndar en el tamao de muestra. El grfico
revela tambin la influencia del coeficiente de variacin de la poblacin en el tamao de
muestra: cuanto ms homognea sea la poblacin tanto menor ser el tamao de muestra
requerido. De ah la importancia que tiene el conocimiento de la poblacin a muestrear
para tratar de reducir la variabilidad original de la misma. Existen dos principales
tcnicas de muestreo con ste objetivo: el muestreo estratificado y la tcnica del
estimador de razn.
VII. MUESTREO ESTRATIFICADO
VII.A. Definicin y objetivos
El muestreo estratificado consiste en :
1) Dividir la poblacin de N unidades en un cierto nmero de subpoblaciones llamadas
estratos, de forma que las unidades que componen cada estrato sean lo ms homogneas
TCNICAS DE MUESTREO
23
posibles en cuanto a la variable objeto de estudio. Cada unidad de la poblacin ha de
pertenecer a uno y slo uno de los estratos formados. El nmero de unidades que
pertenecen a un estrato dado es el tamao del estrato.
L =nmero de estratos
N
h
tamao del estrato h. N N
h
h
L


W
N
N
h
h
=tamao relativo del estrato h (peso del estrato h)
2) Seleccionar una muestra probabilstica en cada estrato. La muestra de cada estrato es
independiente de la muestra de cualquier otro estrato. Si la muestra en cada estrato es
una muestra aleatoria simple (probabilidades iguales) tenemos el muestreo aleatorio
estratificado que es el que vamos a estudiar (sin reemplazamiento).
n
h
=tamao de la muestra en el estrato h
n =tamao de la muestra total: n n
h
h
L

f
n
N
h
h
h
=fraccin de muestreo en el estrato h
f
n
N
fraccin de muestreo global o total
Los principales objetivos del muestreo estratificado son:
a) Ganancia en precisin respecto al muestreo no estratificado. Es el objetivo
fundamental y en poblaciones muy asimtricas pueden conseguirse excelentes
resultados. Para precisar mas la idea vamos a considerar la poblacin de supermercados
de 400 m
2
y ms de superficie de venta citada anteriormente. Tomaremos como variable
de estudio el personal empleado. Los datos del Universo son:
Nmero de establecimientos: N =2959
Personal medio por establecimiento: Y 298 ,
Coeficiente de variacin poblacional: CV=2,16
TCNICAS DE MUESTREO
24
Vamos a dividir el Universo en tres estratos tomando como variable de estratificacin la
superficie de venta, que, intuitivamente, debe estar correlacionada con el personal. Los
resultados que se obtienen son:
estrato1
>=2500m
2
estrato2
1000-2500 m
2
estrato3
400-1000 m
2
Nm. establ (N
h
) 195 615 2149
media person.
( )
Y
h
216.3 30.8 12.6
coefic. de variac. 0.70 0.68 0.72
Fijmonos como el coeficiente de variacin del personal, que en la poblacin global es
de 2,16, se reduce a la tercera parte, alrededor de 0,70 en cada estrato. Si recordamos la
frmula del error estndar resulta intuitivo que ste experimentar sensibles reducciones
al tomar muestras independientes en cada estrato.
sta es la clave de la estratificacin: formar estratos que reduzcan la variabilidad de la
poblacin original. Cuanto ms reduzcamos la variabilidad dentro de cada estrato
respecto a la variabilidad total de la poblacin, mayor ser la ganancia en precisin ( o al
revs, menor muestra necesitaremos para una precisin prefijada).
b) Posibilidad de obtener estimadores separados para cada estrato o agrupacin de
estratos, lo que proporciona una informacin mas rica y detallada.
c) Ms eficacia en la organizacin administrativa, al poder considerar como variables de
estratificacin provincias o regiones geogrficas, que permiten una mayor
descentralizacin de la organizacin de Campo y de tareas administrativas.
d) Los problemas de muestreo pueden diferir marcadamente en diferentes partes de la
poblacin. Al ser el proceso de muestreo independiente en cada estrato, pueden
aplicarse mtodos diferentes de muestreo por estrato de acuerdo a la informacin de que
se disponga.
Respecto a las variables o criterios de estratificacin, su nmero y el nmero de estratos,
dependen de los objetivos concretos de cada caso, de la informacin disponible y de la
TCNICAS DE MUESTREO
25
estructura de la poblacin; las variables utilizadas en la estratificacin, debern estar
correlacionadas con las variables objeto de investigacin, aunque tambien pueden
incluirse criterios administrativos (regiones geogrficas).
En general, un nmero moderado de variables de estratificacin y de estratos es
suficiente para obtener ganacias de precisin; sta es, en general, decreciente al
aumentar el nmero de estratos.
Puesto que en cada estrato vamos a seleccionar una muestra aleatoria simple de
unidades, recordemos que la media muestral y es estimador insesgado de la media
poblacional, con varianza, ( ) V y f
S
n
( ) 1
2
, estimada por ( ) ( )
!
V y f
s
n
1
2
y
varianza relativa estimada = ( ) ( )
!
V x f
k
n
r
y
1
2
.
VII.B. Estimadores insesgados y varianzas
La formacin de estimadores se basa en la seleccin independiente de muestras
aleatorias en cada estrato. Ello lleva a elegir el correspondiente estimador insesgado en
cada estrato y, posteriormente, mediante combinaciones lineales adecuadas de los
estimadores insesgados de cada estrato, obtener el estimador insesgado global de toda la
poblacin. Para el clculo de varianzas de los estimadores no hay mas que tener en
cuenta la regla de aditividad de varianzas de combinaciones lineales de variables
aleatorias (en este caso estimadores) independientes.
Sean:
Y
hi
valor de la variable de estudio en la unidad i del estrato h
Y
Y
N
Y
N
h
hi
i
N
h
h
h
h

media poblacional del estrato h


Y N Y
h h h
total poblacinal del estrato h
Y Y
h
h
L

total poblacional
TCNICAS DE MUESTREO
26
Y
Y
N
N Y
N
W Y
h
h
L
h h
h
L
h h
h
L


media poblacional
( )
S
Y Y
N
h
hi h
i
N
h
h
2
2
1

cuasivarianza poblacional del estrato h


Los estimadores y sus varianzas son ya inmediatos de obtener:
Media:
!
Y W y
st h h

( )
( ) E Y W E y W Y Y
st h h
h
L
h h
h
L
!


( )
( ) ( ) V Y W V y W f
S
n
st h h
h
L
h h
h
h h
L
!


2 2
2
1
( )
( ) ( )
!
!
!
V Y W V y W f
s
n
st h h
h
L
h h
h
h h
L


2 2
2
1
dnde
( )
s
Y y
n
h
hi h
i
n
h
h
2
2
1

es la cuasivarianza muestral del estrato h.


Total:
!
!
!
Y NY N W y N y Y
st st h h
h
L
h h
h
L
h
h
L


( )
( )
( )
( )
V Y N V Y N V y V Y
st st h h
h
L
h
h
L
!
!
!


2 2
( )
( )
( )
! ! !
!
V Y N V Y N f
s
n
st st h h
h
h h
L

2 2
2
1
Proporcin:
En este caso estamos ante una variable cualitativa que slo toma los valores, Y
hi
=1 si la
unidad u
hi
posee la caracterstica en estudio, y Y
hi
=0 si no la posee. Tenemos:
!
P W p
st h h
h
L

TCNICAS DE MUESTREO
27
( )
( ) V P W V p W
N n
N
P Q
n
st h h
h
L
h
h h
h
h h
h h
L
!


2 2
1
( )
( ) ( )
! ! !
V P W V p W
N n
N
p q
n
W f
p q
n
st h h
h
L
h
h h
h
h h
h h
L
h h
h h
h h
L


2 2 2
1
1
1
Total de clase:
! !
C NP
st st

( ) ( )
V C N V P
st st
! !

2
( ) ( )
! ! ! !
V C N V P
st st

2
Debe observarse que el clculo de estimadores de la varianza, requiere al menos dos
unidades en la muestra por cada estrato.
VII.C. Afijacin
Se denomina afijacin al mtodo de distribuir las n unidades de la muestra total entre los
diferentes estratos. Supondremos que el tamao de muestra total, n, est dado. En
principio, el tamao de muestra en cada estrato puede fijarlo el diseador a su buen
juicio y criterio. Esta forma de distribucin de la muestra entre estratos puede
denominarse afijacin subjetiva. Sin embargo, en la prctica es habitual utilizar algn
criterio formulable para hacer la afijacin. Los tipos de afijacin ms comunes son:
1. Afijacion proporcional. Consiste en repartir la muestra proporcionalmente a los
tamaos de los estratos:
n n
N
N
h
h
, h =1,2, ...., L ;
n
N
n
N
h
h
; f
h
=f
Las fracciones de muestreo resultan idnticas en todos los estratos y cada unidad de la
poblacin tiene la misma probabilidad de pertenecer a la muestra, originando una
muestra autoponderada en la que los factores de expansin por estrato para la
TCNICAS DE MUESTREO
28
estimacin de totales son todos iguales. Ello se traduce en una notable simplificacin en
el clculo de estimaciones y sus varianzas.
2. Afijacin ptima. Introducimos una funcin de coste de la forma C c c n
h h
h
L
+
0
,
dnde c
0
representa un costo general, mientras que c
h
correspondera a un coste por
unidad de muestreo en el estrato h. La afijacin ptima proporciona la mnima varianza
del estimador para un coste prefijado. La frmula que se obtiene es
n n
N S c
N S c
h
h h h
h h h
h

y utilizando los coeficientes de variacin por estrato K


S
X
S K X
h
h
h
h h h
, se
obtiene
n n
Y K c
Y K c
h
h h h
h h h
h

Resulta, pues, que la muestra en cada estrato es proporcional a la variabilidad del estrato
(S
h
) e inversamente proporcional a la raiz cuadrada del coste por unidad.
Si no se consideran costes o c
h
es igual por estrato se obtiene
n n
N S
N S
n
Y K
Y K
h
h h
h h
h
h h
h h
h


Si adems S
h
es igual por estrato se obtiene la afijacin proporcional, mientras que si K
h
es igual por estrato se obtiene una afijacin proporcional a la importancia que tiene en
cada estrato la variable en estudio.
Obsrvese que en las frmulas anteriores pueden utilizarse los valores absolutos de N
h
,
Y
h
o los relativos
N
N
h
,
Y
Y
h
(no habra mas que dividir numerador y denominador por N
y Y respectivamente). Los valores relativos pueden utilizarse tambin en forma de
porcentaje. Los valores de S
h
o Y
h
debern ser, en la prctica, estimados a partir de la
TCNICAS DE MUESTREO
29
informacin disponible. Alguna de las variables de estratificacin, correlacionada con la
de estudio puede ser de utilidad.
La eficiencia de la estratificacin nos indica en qu medida la varianza del estimador se
reduce con la estratificacin respecto al muestreo aleatorio simple. Ya hemos visto que
la afijacin ptima coincide con la proporcional si S
h
es igual por estrato; dado que la
afijacin ptima produce la mnima varianza del estimador se deduce que sta ser tanto
mejor respecto a la afijacin proporcional cuanto ms difieran las S
h
entre estratos. Al
comparar la afijacin proporcional con el muestreo aleatorio simple se llega a la
conclusin de que la estratificacin es tanto ms eficiente cuanto mas difieran entre si
las medias por estrato Y
h
.
VII.D. Ejemplo
Sigamos con la poblacin de supermercados de 400 m
2
y ms de superficie de venta,
con los estratos sealados anteriormente segn la superficie de venta. Nuestra variable
de estudio ser el personal. El siguiente cuadro resume los valores poblacionales:
TOTAL Estrato 1 Estrato 2 Estrato 3
UNIVERSO >=2500m
2
1000-2500 400-1000
N
h
2.959 195 615 2.149
Y
h
29,8 216,3 30,8 12,6
Y 88.174 42.173 18.959 27.042
S
h
64,4 150,9 20,9 9,1
K
h
2,16 0,7 0,68 0,72
c
h
4 2 1
Para una muestra de tamao 100 las dos afijaciones consideradas proporcionaran la
siguiente distribucin muestral:
Afijacin Estrato 1 Estrato 2 Estrato 3
Proporcional 6 21 73
ptima 34 21 45
TCNICAS DE MUESTREO
30
Con los datos anteriores estamos ya en situacin de calcular el error estndar del
estimador de la media. Los resultados se resumen a continuacin (se prescinde del factor
1-f):
Tipo de muestreo Tamao de
muestra
Varianza del
estimador
error de
muestreo
error relativo
de muestreo
muestra aleatoria 100 41,47 6,4 21,6%
m. estr. proporcional 100 17,98 4,2 14,2%
m. estr. ptima 100 4,78 2,2 7,3%
Vemos que el muestreo estratificado con afijacin ptima produce una sensible
disminucin del error de muestreo, a la tercera parte, respecto al muestreo aleatorio
simple, y tambin respecto a la afijacin proporcional debido a los diferentes valores de
S
h
, segn se apunt anteriormente. En forma grfica se tiene:
COMPARACIN DE ERRORES ESTNDAR (n = 100)
21,6%
14,2%
7,3%
mtra aleat m. estr. prop. m. estr. pt.
Otra forma de ver los resultados anteriores es comparar los tamaos de muestra que para
los distintos diseos muestrales proporciona el mismo nivel de error estndar, segn
muestra el grfico siguiente:
TCNICAS DE MUESTREO
31
TAMAOS DE MUESTRA PARA IGUAL ERROR ESTNDAR
876
350
100
mtra aleat m. estr. prop. m. estr. pt.
Resulta notable el incremento de muestra necesario, casi 9 veces, para tener el mismo
nivel de error estndar con una muestra aleatoria, que con una muestra estratificada con
afijacin ptima. Los dos grficos anteriores ilustran el grado de eficiencia que se puede
conseguir con la estratificacin respecto al muestreo aleatorio y, a su vez, con la
afijacin ptima respecto a la proporcional, cuando estamos ante poblaciones muy
asimtricas como es la del ejemplo.
En el ejemplo se ha considerado en los tres casos un tamao de muestra n=100, lo que
proporciona una fraccin de muestreo global de 100/2959 =3,4%. Esta es tambin la
fraccin de muestreo en cada estrato con afijacin proporcional. Sin embargo con la
afijacin ptima la fraccin de muestreo difiere de estrato a estrato: la muestra tiende a
concentrarse ms en los estratos con mayor S
h
. La fraccin de muestreo es de 34/195 =
17,4% en el estrato1, de 21/615 =3,4% en el estrato 2 y de 45/2149 =2,1% en el estrato
3. Suponiendo que la media muestral en cada estrato es similar a la media poblacional el
total de personas empleadas en los establecimientos de la muestra sera de
34 2163 21 308 45 126 8568 + + , , ,
que sobre los 88174 empleados en todo el Universo supone un 9,7%. Este es el concepto
de fraccin muestral ponderada: qu parte del total de la variable en estudio se mide en
TCNICAS DE MUESTREO
32
las unidades muestrales. Tanto en muestreo aleatorio como en muestreo estratificado
con afijacin proporcional la fraccin muestral ponderada es similar o igual a la fraccin
de nmero. Pero con la afijacin ptima, con un 3,4% de muestra se est observando
el 9,7% de la variable en estudio, siendo sta ltima, con frecuencia, un mejor indicador
del tamao de muestra que el simple nmero n.
Hay que destacar tambin que siendo el factor de expansin el inverso de la fraccin de
muestreo, la afijacin ptima origina factores de expansin diferentes por estrato, tanto
menores cuanto mayor es la varianza del estrato: obsrvese que el factor de expansin
ms pequeo corresponde a las unidades muestrales ms grandes.
VIII. ESTIMADOR DE RAZON
El estimador de razn trata de mejorar la precisin de un estimador utilizando la
informacin que se posee, para la poblacin investigada, de una variable auxiliar que se
supone correlacionada con la variable de estudio. Sea Y
i
la variable de estudio y sea X
i
la variable auxiliar conocida para el Universo o poblacin en estudio.
Supongamos que se desea estimar la produccin de trigo mediante una muestra aleatoria
de explotaciones agrarias, y poseemos informacin sobre la superficie cultivada:
explotacin prod. trigo (Y
i
) superf. cultivada (X
i
)
1 Y
1
X
1
2 Y
2
X
2
...... ....... ......
n Y
n
X
n
total muestral y x
El estimador insesgado lineal de la produccin de trigo es
!
Y
N
n
Y
N
n
y
i
n

1
TCNICAS DE MUESTREO
33
Puesto que poseemos informacin de la superficie cultivada X
i
y conocemos su total
poblacional X, podemos, adems, estimarlo con los datos de la muestra

!
X
N
n
X
N
n
x
i
n

1
El cociente
X
X
!
constituye una cierta medida de la representatividad de la muestra: si
X
X
!
> 1 , indicara que en la muestra hay una mayor representacin de explotaciones
pequeas, mientras que si
X
X
!
< 1 , tendramos una mayor representacin de
explotaciones grandes. Habiendo correlacin entre ambas variables parece lgico
utilizar la desviacin
X
X
!
, cometida en la estimacin de la variable conocida para
corregir la estimacin de Y. Esto nos lleva al estimador
! !
!
!
!
!
Y Y
X
X
Y
X
X RX
R

!
!
!
R
Y
X
y
x
, se llama estimador de razn,
!
Y
R
es el estimador del total por el mtodo
de razn.
!
Y
R
lo podemos escribir como

!
Y
N
n
y
X
N
n
x
X
x
Y
R i
n


1
es decir, el estimador del total por razn equivale a la expansin de los datos muestrales
mediante el factor X x , relacin entre el valor poblacional y el valor muestral de la
variable auxiliar X
i
, en lugar de utilizar la expansin N/n de nmero o expansin
simple. Al factor X x le llamamos factor-X.
La media Y se estima por
!
!
! !
Y
Y
N
R
X
N
RX
R
R
.
La razn R
Y
X
Y
X
se llama razn poblacional, y su estimador
!
R es sesgado, es
decir, la esperanza matemtica de
!
R o media sobre todas las posibles muestras no
coincide con R. Una acotacin para el sesgo
( )
B E R R
!
viene dada por
TCNICAS DE MUESTREO
34
B
X
C
K
n
x
x
x
x


que expresa que la razn del sesgo al error estandar de x es menor o igual al coeficiente
de variacin C
x
o error de muestreo relativo de la media muestral x . En la prctica si
C
x
es menor de 0,20 el sesgo puede ignorarse. Tambin se observa que la razn del
sesgo al error de muestreo es del orden de magnitud de 1 n y, por tanto, disminuye
con el tamao de muestra. En el caso particular de que la lnea de regresin poblacional
de y respecto a x sea una recta que pasa por el origen, el estimador de razn
!
R es
insesgado.
La varianza del estimador de razn es
( ) ( )
V R
f
nX
S R S RS
y x yx
!


+
1
2
2
2 2 2
con
( )( )
S
Y Y X X
N
yx
i i
N

1
1
y se estima sustituyendo los valores poblacionales por los muestrales:
( ) ( )
! ! ! !
V R
f
nX
s R s Rs
y x yx


+
1
2
2
2 2 2
Para el total
! !
Y RX
R
y la media
!
!
Y RX
R
, la varianza es
( ) ( )
! ! ! !
V Y X V R
R

2
( )
( )
!
!
! !
V Y X V R
R

2
Al comparar
( )
V Y
R
!
con la varianza del total en muestreo aleatorio simple,
( )
( )
V Y
N f
n
S
as y
!


2
2
1
resulta que
( ) ( )
V Y V Y
R as
! !
< si se verifica
>
1
2
C
C
x
y
dnde
( )( )
( )

Y Y X X
N S S
S
S S
i i
N
y x
yx
y x
1
1
es el coeficiente de correlacin entre Y
i
y X
i.
TCNICAS DE MUESTREO
35
Se deduce entonces, que el estimador de razn puede ser ms o menos preciso que el de
simple expansin dependiendo del tamao del coeficiente de correlacin entre Y
i
, X
i
y
de la relacin de sus coeficientes de variacin. Si C
x
>2C
y
el estimador de razn es
siempre menos preciso ya que no puede ser superior a 1. Cuando X
i
es el valor de Y
i
en alguna ocasin previa, C
x
y C
y
pueden ser aproximadamente iguales y el estimador de
razn es superior si > 05 , . Siendo X
i
el valor de Y
i
en alguna ocasin anterior, es
frcuente que R 1 y S S
x y
, con lo cul tenemos
( )
( )
( )
( )
( ) ( ) V Y
N f
n
S S S
N f
n
S V
R y y y y as
!


+


2
2 2 2
2
2
1
2
1
21 21
( ) 21 indica la ganacia en precisin respecto al estimador de simple expansin. As,
si 08 , , ( ) V Y V
R as
04 , , ( ) V Y V
R as
063 , . Vemos que con correlaciones altas
se obtienen reducciones importantes en el error de muestreo.
En el muestreo estratificado la variabilidad de la poblacin se reduce por la formacin
de estratos relativamente homogneos. Con el estimador de razn la variabilidad se
reduce por medio de la correlacin existente entre la variable de estudio y, y la variable
auxiliar x. Resulta entonces, que la utilizacin de muestreo estratificado junto con
estimador de razn puede producir importantes aumentos en la precisin de los
estimadores.
IX. MUESTREO DE CONGLOMERADOS SIN SUBMUESTREO.
El muestreo de unidades elementales tiene dos principales inconvenientes de tipo
prctico:
a) Imposibilidad en muchas ocasiones de obtener una lista de unidades elementales en la
cul basar la seleccin de la muestra.
b) La seleccin de unidades elementales proporciona, en general, una muestra muy
esparcida de unidades a entrevistar con el consiguiente incremento de coste y tiempo.
Para evitar estos inconvenientes surge de forma natural la idea de agrupar unidades
elementales prximas entre si en una unidad mayor que se denomina conglomerado,
TCNICAS DE MUESTREO
36
constituyndose el conjunto de conglomerados en las nuevas unidades de muestreo. Los
conglomerados deben estar perfectamente definidos, lo cul significa que no haya
solapamiento entre ellos -una unidad elemental pertenece slo a un conglomerado- y
que el conjunto de todos los conglomerados contiene a la poblacin objeto de estudio.
As pues, en el muestreo de conglomerados se selecciona una muestra de
conglomerados. Si posteriormente, investigamos todas las unidades elementales
contenidas en los conglomerados seleccionados en la muestra, el muestreo se dice de
conglomerados sin submuestreo o muestreo en una etapa, que es el que vamos a estudiar
aqu.
Se denomina tamao del conglomerado al nmero de unidades elementales que
contiene. Supondremos que todos los conglomerados son de igual tamao M .
Supondremos tambin que la seleccin de la muestra se hace con probabilidades iguales
y sin reemplazamiento (muestreo aleatorio simple):
N =nmero de conglomerados en la poblacin.
M NM
0
=nmero total de unidades elementales en la poblacin.
n =nmero de conglomerados en la muestra.
nM =nmero de unidades elementales en la muestra.
Para la variable en estudio tenemos:
Y
ij
valor de y en la unidad j del conglomerado i.
Y Y
i ij
j
M

total del conglomerado i.


Y Y Y
i
i
N
ij
j
M
i
N


total general.
Y
Y
M
i
i
media por elemento del conglomerado i.
Y
Y
N
i
i
N

total medio de conglomerados, es decir, media de los totales de


conglomerados (media entre conglomerados).
TCNICAS DE MUESTREO
37
Y
Y
NM
Y
NM
Y
M
Y
N
ij
j
M
i
N
i
i
N
i
i
N



media general por elemento.
La media muestral por elemento puede expresarse por :
y
y
nM
Y
nM
Y
nM
ij
j
M
i
n
i
i
n



y es un estimador insesgado de la media poblacional por elemento Y con varianza
dada por
( )
V y
f
nM
S
b

1
2
dnde
( )
( )
S
Y Y
N
M Y Y
N
b
i
j
M
i
N
i
i
N
2
2
2
1 1



es decir, la varianza de la media muestral por elemento proviene en su totalidad de la
varianza de las medias por elemento entre los conglomerados, lo cul es lgico ya que
dentro de cada conglomerado de la muestra no hay submuestreo: todas las unidades
elementales del conglomerado seleccionado forman parte de la muestra. Si hubiera
submuestreo, habra que aadir un componente de variabilidad debido al submuestreo
dentro de cada conglomerado.
Si consideramos una muestra aleatoria simple de nM elementos, la varianza de la
media muestral sera:
( )
( )
( )
V y
NM nM
NM nM
Y Y
NM
f
nM
S V y
as
ij
j
M
i
N


1
1
1
2
2
La relacin entre ambas puede aproximarse por
( ) ( ) ( )
[ ]
V y V y M
as
+ 1 1 (1)
dnde
TCNICAS DE MUESTREO
38
( )( )
( )
( )
( )( )
( )( )








Y Y Y Y
M Y Y
Y Y Y Y
M NM S
ij ik
j k
M
i
N
ij
j
M
i
N
ij ik
j k
M
i
N
1
1 1
2
2
define la correlacin existente entre todos los posibles pares de unidades distintas dentro
de cada conglomerado. se denomina coficiente de correlacin intraconglomerados y
constituye una medida de la homogeneidad existente entre las unidades elementales
dentro de cada conglomerado.
A la razn
( ) ( )
V y V y
as
entre la varianza del estimador en un diseo particular y la
varianza del estimador en una muestra aleatoria simple, con el mismo tamao muestral
en unidades elementales, se denomina efecto de diseo. En el caso de muestreo por
conglomerados, el efecto de diseo es ( ) 1 1 + M , y corresponde al factor por el que
hay que multiplicar la varianza del estimador por usar conglomerados en lugar de una
muestra aleatoria simple de unidades elementales.
As pues, siempre que > 0 , que es lo ms habitual, el muestreo por conglomerados
tiene menos prcisin que el muestreo aleatorio simple para el mismo tamao de muestra
en unidades elmentales. Si < 0 , el muestreo por conglomerados es mas eficiente y si
0 , ambos son equivalentes. En el caso de M =1, el muestreo por conglomerados
coincide con el muestreo aleatorio simple.
De (1) se obtiene una expresin aproximada para el coeficiente de correlacin
intraconglomerados:
( )

S S
M S
b
2 2
2
1
Segn el valor de S
b
2
en relacin a S
2
el, el coeficiente de correlacin
intraconglomerados podr tomar valores positivos o negativos. Vamos a distinguir los
siguientes casos:
TCNICAS DE MUESTREO
39
a) S
b
2
=0 . Entonces

1
1 M
, su valor mnimo, y
( )
V y 0 . Estamos ante el caso
ideal para la utilizacin de muestreo por conglomerados. Todas las Y
i
son iguales a Y
y por tanto, un solo conglomerado en la muestra suministra toda la informacin. En
otras palabras, toda la variabilidad procede de dentro de los conglomerados y todos los
conglomerados son iguales entre si. An cuando no alcance su valor mnimo, siempre
que < 0 , que no es usual en la prctica, resultar ventajoso utilizar muestreo por
conglomerados.
b) S
b
2
=S
2
. Entonces 0 y V V
c as
. La variacin entre conglomerados es igual a la
variacin entre unidades elementales en la poblacin. Y
i
vara de conglomerado a
conglomerado como podra esperarse si los conglomerados hubiesen sido formados
agrupando aleatoriamente las unidades elementales. S
b
2
=S
2
. Con 0 da igual
utilizar muestreo de conglomerados o de unidades elementales en lo que a precisin se
refiere.
c) S
b
2
>S
2
. Entonces > 0 y V V
c as
> . Es el caso mas comn. La varianza entre
conglomerados es mayor que la varianza de las unidades elementales en la poblacin, es
decir, Y
i
vara de conglomerado a conglomerado ms que varan las unidades
elementales en la poblacin. Esto equivale a decir que las unidades dentro de los
conglomerados son ms homogneas que lo son en la poblacin. Cuanto mayor sea S
b
2
,
mayor ser y mayor el efecto de diseo o efecto conglomerado, y mayor la varianza
del estimador respecto al muestreo aleatorio simple. El caso mas desfavorable ser aquel
en que toda la variabilidad de la poblacin procede de la variabilidad entre
conglomerados, es decir, existiese homogeneidad absoluta dentro de los conglomerados.
En este caso tomara su valor mximo: 1 .
X. MUESTREO SISTEMTICO
Sea una poblacin
{ } u u u
N 1 2
, , , # . La seleccin sistemtica de una muestra de n
unidades se realiza en la siguiente forma: sea k N n (suponemos N divisible por n),
TCNICAS DE MUESTREO
40
tomamos un nmero i al azar 1 i k con probabilidad 1k y la muestra sistemtica
queda formada por las n unidades
( )
{ }
u u u u
i i k i k i n k
, , , ,
+ + + 2 1
#
Como vemos, la seleccin de la primera unidad determina la muestra completa. El
espacio muestral est formado por las siguientes k muestras posibles, dnde se indica el
valor de la variable en estudio en cada unidad seleccionada:
Muestra
1 2 ...... i ...... k
X
1
X
2
X
i
X
k
X
1+k
X
2+k
X
i+k
X
2k
...... ...... ...... ......
X
1+(n-1)k
X
2+(n-1)k
X
i+(n-1)k
X
nk
Media x
1
x
2
x
i
x
k
Las k muestras posibles son equiprobables (prob. =1k ) y la probabilidad de que la
unidad u
i
est en la muestra es 1k n N . La media muestral
x
n
X
i ij
j
n


1
es el estimador insesgado de la media poblacional. Observar que al utilizar dos
subndices, el primero i hace referencia a la muestra sistemtica y el segundo j a la
unidad elemental dentro de la muestra.
El muestreo sistemtico es de fcil aplicacin prctica y asegura adems que la muestra
se extiende a toda la poblacin. Podemos considerar la poblacin dividida en n estratos,
los cuales consisten de las primeras k unidades, las segundas k unidades, etc., es decir, al
contemplar el cuadro de muestras posibles en horizontal, cada fila sera un estrato. La
muestra sistemtica correspondera a una muestra estratificada con una unidad por
estratos
conglomerados
TCNICAS DE MUESTREO
41
estrato, por lo que sera esperable una mayor precisin respecto al muestreo aleatorio
simple.
La diferencia con el muestreo estratificado est en que con la muestra sistemtica, las
unidades seleccionadas ocupan la misma posicin relativa en cada estrato, mientras que
en el muestreo estratificado la seleccin es independiente en cada estrato, por lo que
tambin es esperable que el muestreo sistemtico sea menos preciso que el muestreo al
azar estratificado.
Observando el cuadro de muestras posibles, el muestreo sistemtico es equivalente a
considerar la poblacin dividida en k grupos o conglomerados (columnas del cuadro),
cada uno de n unidades, de los cuales se selecciona uno al azar. Es decir, una muestra
sistemtica es una muestra aleatoria de una unidad conglomerada de una poblacin de k
conglomerados de tamao n.
El comportamiento del muestreo sistemtico respecto al estratificado o el muestreo
aleatorio simple, depende en gran medida de las propiedades de la poblacin. En
poblaciones en las cuales la numeracin de las unidades puede considerarse al azar
respecto a la caracterstica que se mide, cabra esperar que el muestreo sistemtico fuera
equivalente al muestreo aleatorio simple y que tuviera la misma varianza.
Cuando la poblacin presenta una tendencia lineal como en la figura que sigue,
u
i
X
i
muestra aleatoria estratif.
muestra sistemtica
intuitivamente se ve que la muestra sistemtica es ms efectiva que la muestra aleatoria
simple ya que asegura presencia en la muestra de todas las zonas de tendencia, pero es
TCNICAS DE MUESTREO
42
menos efectiva que la muestra estratificada ya que si la muestra sistemtica es muy baja
en un estrato, es muy baja en todos, mientras que la estratificacin da oportunidad para
que los errores dentro de los estratos se compensen. El comportamiento de la muestra
sistemtica podra mejorarse usando una muestra centralmente ubicada.
Para una poblacin con tendencia peridica, por ejemplo una curva sinoidal, la
efectividad de la muestra sistemtica depende del valor de k, como puede verse en la
A
A
A
B
B B
B
B
figura, dnde la altura de la curva es la observacin Y
i
. Los puntos A de la muestra,
representan el caso menos favorable y suceden si k es igual al periodo de la curva o a un
mltiplo entero del periodo. Toda observacin dentro de la muestra sistemtica
proporciona la misma informacin y la muestra no es ms precisa que una sola
observacin tomada al azar de la poblacin.
El caso ms favorable (muestra B) ocurre cuando k es un mltiplo impar del medio-
periodo. Toda muestra sistemtica tiene una media exactamente igual a la media
verdadera. Entre estos dos casos extremos, la muestra sistemtica tiene varios grados de
efectividad, dependiendo de la relacin entre k y el periodo de la curva.
Poblaciones con tendencia ms o menos peridica se encuentran en la prctica con
relativa frecuencia. Ejemplos son el flujo de trnsito por un punto de una carretera
durante las 24 horas del da y las ventas de una tienda durante los dias de la semana.
Para estimar un promedio sobre un periodo de tiempo, una muestra sistemtica diaria a
las 6 p. m. o cada martes, no sera obviamente juicioso. La estrategia correcta es girar la
muestra sobre la curva peridica, por ejemplo, viendo que cada da de la semana est
igualmente representado, en el caso de las ventas de una tienda.
TCNICAS DE MUESTREO
43
A partir de los resultados de una muestra aletoria simple podemos calcular un estimador
insesgado de la varianza de la media muestral siempre que n >1. Este estimador es
insesgado cualquiera que sea la forma de la poblacin. Dado que una muestra
sistemtica corresponde a una muestra aleatoria simple de tamao n =1, seleccionada de
entre k conglomerados en la poblacin, no resulta posible construir un estimador de la
varianza de la media muestral. En la prctica si la poblacin est ordenada al azar puede
utilizarse la estimacin de la varianza que proporcionara una muestra aleatoria simple
del mismo tamao.
XI. OTROS ASPECTOS DEL MUESTREO
Habr ocasiones en que el conocimiento previo que se dispone del Universo objeto de
estudio es muy limitado e insuficiente para proceder a una estratificacin eficiente o
para la utilizacin de estimadores del tipo de razn que nos permitan importantes
reducciones del error estndar. En estos casos puede ser conveniente la realizacin de
una primera muestra, relativamente amplia, con el objeto de estimar aquellas
caractersticas bsicas que nos sirvan para la utilizacin posterior de muestreo
estratificado o de estimadores de razn. Una vez determinadas las caractersticas del
Universo que sean de inters, se selecciona en una segunda fase una submuestra de la
primera sobre la que ya se estudian propiamente las variables objeto de estudio. Este
proceso se conoce como muestreo doble o muestreo en dos fases. El proceso se justifica
si la informacin obtenida en la primera fase permite una reduccin de muestra en la
segunda fase que compense costes.
La muestra correspondiente a la primera fase se denomina tambin muestra censal,
muestra maestra o censo muestral. Estas denominaciones indican un primer proceso de
muestreo sustitutivo de un censo completo, es decir, cuyo fin es conocer caractersticas
poblacionales, incluso el propio tamao del Universo N, necesarios para el posterior
diseo de la muestra. Este procedimiento censal en base a una muestra no debe
sorprender: es prctica habitual en grandes operaciones censales proporcionar resultados
basados en una muestra de los cuestionarios censales en lugar de utilizar la informacin
completa del censo total. La muestra en segunda fase puede denominarse muestra
TCNICAS DE MUESTREO
44
principal o muestra de estudio, ya que es la muestra sobre la que se miden las variables
objeto de estudio.
Cuando se estudia la teora de muestras siempre se habla de la variable de estudio Y
i
.
Sin embargo cuando se selecciona una muestra van a ser muchas variables Y
i
las que se
estudien en cada unidad muestral, lo que significa que la muestra va a proporcionar
multitud de estimaciones cada una con su propio nivel de error estndar, es decir, no
puede hablarse de la calidad global de una muestra, sino que cada estimacin que
proporcione, tendr su propio error de muestreo. Previamente habr que haber definido
un tamao de muestra en funcin de un cierto error estndar. Si quisiramos el mismo
nivel de error estndar para cada variable en estudio resultaran tamaos de muestra
diferentes para cada una, lo cul, desde un punto de vista prctico no tiene sentido. Lo
normal ser que entre las variables a estudiar haya unas pocas de mayor importancia y
sean stas las que predominen en la determinacin del tamao de muestra, llegndose a
una solucin de compromiso. Un problema similar surge al establecer la distribucin
ptima de una muestra estratificada para distintas variables a estudiar: cada variable nos
puede proporcionar afijaciones diferentes y debe llegarse a una solucin nica.
El concepto de error de muestreo surge porque al tomar cientos o miles de muestras
independientes de una poblacin para estimar un parmetro, las estimaciones presentan
una variabilidad aleatoria que puede aproximarse por la distribucin normal. En una
forma anloga se puede pensar que cuando una muestra proporciona cientos, miles de
estimaciones se pueden aplicar las propiedades de la distribucin normal y pensar que,
por ejemplo, un 5% de las estimaciones quedan fuera de su intervalo de confianza (t 2
veces el error estndar), es decir, alejadas de la realidad, sin que pueda saberse cuales
son: es el analista de los resultados el que con su conocimiento y experiencia puede
separar, quiz no totalmente, aquellos datos que reflejen la realidad de aquellos otros
que pueden ser debidos a variaciones extremas de muestreo o a sesgos introducidos en
la muestra, no importantes para muchas de las variables investigadas pero que s lo son
para otras.
En la actualidad es prctica comn la de utilizar muestras para recoger series de datos
sobre la misma poblacin que se publican a intervalos regulares de tiempo. Ejemplos de
TCNICAS DE MUESTREO
45
ello los tenemos en las encuestas de poblacin activa o de fuerza de trabajo que realizan
los paises desarrollados, los paneles de audiencia de televisin, muestras contnuas de
hogares o de tiendas para medir el consumo, etc.
Cuando la misma poblacin se muestrea repetidamente en el tiempo, estamos en una
posicin ideal para obtener estimadores realistas de costes y varianzas y, en
consecuencia, para aplicar tcnicas que conducen a una utilizacin ptima del muestreo.
Una cuestin importante en muestreo repetido es con qu frecuencia y de qu manera
debe cambiarse la muestra a lo largo del tiempo. Podemos optar entre las siguientes
alternativas:
a) Utilizar la misma muestra, llamada panel, en cada repeticin del muestreo o
periodo.
b) Mantener en cada periodo una proporcin
c
de muestra comn con el
periodo anterior, renovando el resto de la muestra.
c) Utilizar en cada periodo muestras independientes.
Hay muchas consideraciones que afectan a la decisin. Los entrevistados pueden
negarse a dar la misma informacin una y otra vez. Los que responden pueden influirse
por la informacin que reciben durante las entrevistas lo que contribuye a introducir
paulatinamente sesgos en la muestra y suele decirse que la muestra se contamina con el
tiempo. Otras veces puede haber mejor cooperacin en segunda y sucesivas tomas de
informacin. Si conseguir la colaboracin de una unidad muestral implica un coste
relativamente alto respecto a la toma de informacin puede ser aconsejable utilizar la
misma muestra o una alta proporcin de muestra comn.
Con los datos de muestras sucesivas de la misma poblacin hay tres clases de cantidades
a estimar y, en cada caso, la poltica de renovacin de la muestra es diferente si
deseamos maximizar la precisin:
1. Si deseamos estimar el cambio en Y de un periodo al siguiente o de un ao al mismo
periodo del ao anterior, es mejor retener la misma muestra.
2. Para estimar el valor promedio Y sobre varios periodos, es mejor tomar muestras
independientes en cada periodo.
TCNICAS DE MUESTREO
46
3. Si nuestro inters se centra en el valor promedio Y para el periodo ms reciente,
entonces se obtiene la misma precisin conservando la misma muestra o cambindola
en cada periodo; el cambio parcial de parte de la muestra puede ser mejor que cualquiera
de estas alternativas.
Lo anterior es consecuencia de la correlacin positiva entre las medidas de la misma
unidad en dos periodos consecutivos. Al mantener la muestra constante en periodos
consecutivos, existe una alta correlacin entre los datos de las unidades muestrales en
ambas ocasiones, lo que hace que los errores en las estimaciones tiendan a permanecer
en la misma direccin (es decir, si el error es +2,5% en el primer periodo, puede ser
+1,5% en el siguiente, pero dificlmente ser -3%), lo que hace que los cambios se
midan con menor error absoluto que las estimaciones individuales de cada periodo.
Si suponemos muestreo aleatorio simple y que la varianza poblacional es la misma en
los dos periodos t
1
, y t
2
se tiene que la varianza de la media en cada periodo es
( ) ( ) V y V y
S
n
1 2
2

y la varianza de la diferencia resulta ser
( ) ( ) V y y
S
n
c 2 1
2
2
1
obtenindose la mayor precisin cuando la parte comn de la muestra es
c
1,
mientras que si el cambio se estima a partir de muestras independientes la varianza
resulta en
( ) V y y
S
n
2 1
2
2

Al estimar la media de los dos periodos resulta
( ) V
y y S
n
c
2 1
2
2 2
1
+

_
,

+
y si las muestras son independientes
V
y y S
n
2 1
2
2 2
+

_
,


TCNICAS DE MUESTREO
47
Hay que notar que en el caso de
c
1 y 1, sera V
y y S
n
2 1
2
2
+

_
,

, es decir, igual
a la varianza de la media de cualquiera de los periodos. Significa esto que utilizando la
misma muestra en cada periodo, siempre que < 1 la media de dos periodos tiene algo
ms de precisin que la de un periodo individual aunque, desde luego, mayor que si se
utilizaran muestras independientes.
En muestreo repetido de la misma poblacin puede tener total sentido la dedicacin de
parte de los recursos a lo que anteriormente se ha indicado como primera fase del
muestreo o censo muestral ya que su coste se amortiza sobre varias realizaciones de la
muestra objetivo. En estudios peridicos en el tiempo esta primera fase censal se vuelve
imprescindible si el Universo que se pretende estudiar cambia en el tiempo y no se
dispone de informacin sobre su evolucin: en estos caso resulta necesario realizar
estudios censales peridicos (cada cinco, dos aos, o de forma contnua) para preservar
de sesgos a la muestra de estudio. Lgicamente, la muestra de estudio, aunque se
pretenda constante en el tiempo, estar afectada por la propia evolucin del Universo y
ser necesario introducir cambios paulatinos en la misma para su adaptacin al carcter
cambiante y evolutivo del Universo.
Cuando se muestrean poblaciones con un alto grado de asimetra ya se vi la
importancia del muestreo estratificado para la precisin. En estos casos la varianza por
estrato suele aumentar con el valor de la variable de estudio (tamao de la unidad) de
forma que la afijacin ptima es la nica garanta para que el factor de expansin de las
unidades grande o muy grandes se mantenga dentro de lmites razonables. Pensemos
que en cualquier proceso de muestreo, el total poblacional se estima aplicando a cada
unidad muestral un factor de expansin F
i
, de forma que el total estimado es
!
Y Y F
i
n
i

1
. La cantidad
Y F
Y
i i
!
es la contribucin de la i-sima unidad muestral a la
estimacin y es la misma para la estimacin del total que para la media. Con muestreo
aleatorio o con afijacin proporcional F
i
es igual para todas las unidades muestrales y la
contribucin depende del valor Y
i
: valores muy altos van a resultar en contribuciones
muy altas y estimaciones con alto error de muestreo y, por tanto, poco fiables. Resulta
intuitivo que cuanto mayor es Y
i
menor debe ser F
i
con el fin de preservar a la
TCNICAS DE MUESTREO
48
estimacin final de contribuciones extremas debidas a una sola o unas pocas unidades:
no parecera muy fiable una estimacin obtenida con una muestra de 100 unidades (100
sumandos) , de las cuales una sola de ellas represente el 80% del total estimado, cuando
cada sumando en promedio contribuya con un 1%. La afijacin ptima es la nica
garanta para evitar estos problemas.
XII. ERRORES NO DE MUESTREO
Hasta ahora hemos supuesto que 1) la poblacin marco coincide con la poblacin
objetivo, 2) que la muestra real alcanzada se corresponde con la muestra inicialmente
planificada y seleccionada probabilsticamente y 3) que la informacin obtenida en cada
unidad muestral es correcta. En estas condiciones la nica fuente de error del estimador
es el error de muestreo que es la variacin aleatoria que se presenta cuando se miden n
de las unidades en lugar de la poblacin completa N. Lamentablemente esta situacin
ideal no se da con frecuencia en la prctica y debemos asumir la presencia de otros
errores, que se presentan cuando no se cumple cualquiera de los tres supuestos
mencionados y que se agrupan bajo el nombre de errores no de muestreo o errores
ajenos al muestreo.
Cuando la poblacin marco no coincide con la poblacin objetivo tenemos los llamados
errores de cobertura. Recordemos que la poblacin marco es la poblacin que sirve de
base para la seleccin de la muestra. Podemos pensar en un listado del que se selecciona
la muestra: puede haber unidades de la poblacin objetivo no contenidas en el listado
(omisiones) o puede haber unidades en el listado que no se corresponden con la
poblacin objetivo (unidades vacias), incluso el listado puede contener unidades
duplicadas:
(1)+(2) =poblacin marco
(1)
(2)
(3)
TCNICAS DE MUESTREO
49
(1)+(3) =poblacin objetivo
Con la muestra seleccionada de la poblacin marco podremos estimar la proporcin de
unidades (1) y hacer que los resultados estimados se refieran al Universo (1), parte
coincidente entre la poblacin marco y la poblacin objetivo, pero no a la parte (3),
conjunto de unidades omitidas en el listado. Una solucin para disminuir errores de
cobertura puede ser la utilizacin de varios listados. No obstante, si las proporciones (2)
y (3) son altas ser necesario utilizar conjuntamente una muestra de la lista junto con
otro procedimiento de seleccin, por ejemplo reas, que nos permita acceder a la parte
(3). Una muestra en primera fase nos puede servir para determinar estimaciones de (1) y
(3) y por tanto de la poblacin objetivo.
Los problemas de cobertura no son exclusivos de la utilizacin de listas. Pensemos en
un muestreo por reas en una ciudad en el que se parte de planos o mapas incompletos:
manzanas, urbanizaciones o barrios de reciente construccin pueden quedar omitidos
del marco.
Cuando la muestra real alcanzada no se corresponde con la muestra inicialmente
planificada, es decir, no se obtiene informacin en todas las unidades de la muestra,
decimos que existe falta de respuesta o no respuesta. Aparte la no respuesta por
unidades omitidas en el marco, ya mencionada, la falta de respuesta puede agruparse en
dos principales tipos:
a) No localizado o falta de contacto, que puede ser debido a:
a1) Ausencia temporal durante las horas de entrevista (no-en-casa). Es conocido que
familias en las cuales ambos padres trabajan y las familias sin nios son ms difciles de
alcanzar que familias con nios pequeos o con personas jubiladas.
a2) Viaje, vacaciones.
a3) Enfermedad.
a4) Problemas de lenguaje.
a5) Movilidad gegrfica: cambio de direccin o domicilio, cambio de ciudad.
a6) Falta de motivacin o experiencia en el entrevistador para contactar con el
entrevistado. Est comprobado que las tasas de no respuesta varan por entrevistador.
TCNICAS DE MUESTREO
50
a7) Barrio o vecindad dificil.
b) Negativa a colaborar, debido a:
b1) Falta de tiempo.
b2) Falta de motivacin o de inters por el tema de la encuesta.
b3) No desea que el entrevistador conozca sus respuestas u opiniones.
b4) No desea estar registrado.
b5) Cansancio de las entrevistas.
b6) Cuestionario demasiado largo, preguntas complicadas, preguntas que rozan la
intimidad.
b7) Los hueso duro. Personas que cerradamente rechazan ser entrevistadas o estn
sistemticamente fuera de casa durante el tiempo disponible para el trabajo de campo.
b8) Falta de habilidad del entrevistador para conseguir la colaboracin. Vale aqu el
comentario de a6): hay entrevistadores que consiguen mejores tasa de respuesta que
otros.
b9) La colaboracin es, finalmente, voluntaria: Busque a otro que yo no puedo ahora.
A estos dos grupos de no respuesta puede aadirse la falta de respuesta parcial: el
entrevistado no responde a parte de las preguntas porque no tiene la informacin o,
simplemente, no est dispuesto a facilitarla.
Para evaluar los efectos de la falta de respuesta conviene pensar en la poblacin dividida
en dos estratos: en el primero se incluyen todas las unidades para las cuales se
obtendran mediciones si caen en la muestra y en el segundo se incluyen las unidades
para las que no se obtendran mediciones. La muestra no proporciona informacin del
estrato 2, lo cul no sera un problema si se pudiera suponer que las caractersticas que
se miden en el muestreo son las mismas, en promedio, en el estrato 2 que en el estrato1.
Desde el momento que esto no sea as estaremos en presencia de un sesgo causado por
la falta de respuesta.
Suponiendo muestreo aleatorio simple, sean N
1
y N
2
el nmero de unidades en el
Universo en cada uno de los dos estratos y W N N
1 1
, W N N
2 2
, es decir, W
2
es la
proporcin de no respuesta en toda la poblacin y W
1
la proporcin de respuesta.
TCNICAS DE MUESTREO
51
Terminado el trabajo de campo tenemos datos del estrato 1 pero no del estrato 2 y
siendo la media muestral y
1
estimador insesgado de la media poblacional del estrato 1,
Y
1
, la cantidad de sesgo en la media de la muestra es
( ) ( ) ( )
E y Y Y Y Y WY W Y W Y Y
1 1 1 1 1 2 2 2 1 2
+
es decir, el sesgo es el producto de la proporcin de no respuesta y la diferencia entre las
medias de los dos estratos. Al no disponer de informacin de Y
2
, el tamao del sesgo es
desconocido.
La falta de respuesta no debe ignorarse o pensar que se corrige sustituyendo en la
muestra a los que no responde por otros que s colaboren, ya que ello no va eliminar el
sesgo, simplemente nos mantiene el tamao de muestra. Por el contrario hay que ser
conscientes de que la no respuesta va a ocurrir y asignar, en lo posible, algunos recursos
y disponer de algunas estrategias para reducir su proporcin. Algunos procedimientos
para reducir la no respuesta son:
1) Cartas y llamadas telefnicas por adelantado.
2) Dar algn incentivo por la colaboracin.
3) Programar visitas repetidas puede ser de gran efectividad para reducir los no-en-casa.
4) Mejora de los procedimientos de recogida de informacin. Si la informacin se
recoge por entrevista personal el entrenamiento del entrevistador es fundamental: la
interaccin positiva entrevistador-entrevistado es bsica para el xito de la entrevista, lo
cul puede requerir que el entrevistador disponga de distintas estrategias para afrontar la
entrevista en funcin de ciertas caractersticas observables de los encuestados. Preservar
la intimidad del entrevistado puede favorecer el dejarle el cuestionario para que lo
rellene y enve posteriormente por correo, aunque se haya tenido un primer contacto
personal para obtener la colaboracin. Otro aspecto a tener en cuenta es que cuanto ms
activa (ms tiempo requiere) sea la colaboracin de la unidad muestral menor es su
disposicin a colaborar: pensemos en un panel de audiencia de TV en el que el hogar
debe rellenar y enviar por correo un largo y tedioso cuestionario sobre qu ha visto cada
da en relacin con la instalacin de un audmetro conectado al televisor que registra y
transmite lo que el televisor emite en cada momento; la colaboracin del hogar en el
caso del audmetro es mucho ms pasiva (menos molestia), lo cul favorece la
colaboracin.
TCNICAS DE MUESTREO
52
En la prctica y a pesar de las medidas que se tomen ser imposible, en general, reducir
la no respuesta a cero por lo que se hace imprescindible su medicin y control. Un
primer aspecto en este sentido es cuantificar la tasa de no respuesta segn distintas
causas. Ello puede ayudar para reducir las tasas de no respuesta en encuestas
posteriores. En ocasiones ser posible recoger ciertas caractersticas observables de las
unidades no respuesta que puedan ser utilizadas posteriormente en procedimientos de
ajuste para remover los sesgos de no respuesta en las estimaciones finales.
Normalmente, adems de las variables que hayan servido para la estratificacin del
Universo se dispone de informacin poblacional de otras caractersticas que pueden
servir para controlar la microrrepresentatividad final de la muestra obtenida,
comparando los valores poblacionales de estas variables conocidas con los estimados
por la muestra. ste control de microrrepresentatividad es fundamental en presencia de
falta de respuesta y nos puede ayudar a determinar ciertas caractersticas del estrato de
no respuesta Las desviaciones que se producen pueden utilizarse para modificar los
factores de expansin originales de cada unidad muestral, en un proceso iterativo, hasta
conseguir que los valores estimados coincidan con los conocidos en el Universo para
las distintas variables incluidas en el proceso. Este proceso iterativo de ajuste en los
factores originales de expansin se conoce tambin como equilibraje de la muestra y
puede contribuir a remover sesgos introducidos en la muestra final, en la medida en que
las variables objeto de investigacin puedan estar correlacionadas con las variables que
intervienen en el proceso de equilibraje.
Un tercer tipo de error no de muestreo se produce por errores de medicin y errores que
se introducen en la produccin de los resultados de una encuesta. Estos errores suceden
cuando el valor medido Y
i
*
(o el utilizado para la estimacin) no se corresponde con el
valor real Y
i
. Se conocen tambin por errores de respuesta y pueden ser varias las
causas que los producen:
1) Instrumentos de medicin inadecuados o sujetos a error.
2) Fallos de memoria. El entrevistado responde lo que l cree que hizo, pero no lo qu
realmente hizo.
TCNICAS DE MUESTREO
53
3) El entrevistado d una respuesta falsa, bin inducido por el entrevistador (quiz por el
cuestionario), o bin porque no desea que su verdad quede registrada (qu dirn...).
4) Olvido. Por ejemplo en un panel de hogares el hogar colaborador olvida anotar
algunas compras en el diario o en un panel de audmetros una persona olvida
identificarse.
5) Falta de informacin. El informante no dispone de toda la informacin para contestar
y da una respuesta aproximada.
6) Errores de codificacin y grabacin que introducen en el proceso un valor errneo
con independencia de que el valor original fuera correcto o no.
Si suponemos que las mediciones Y
i
estan sujetas a un sesgo constante B Y Y
i i

*
cuya
magnitud se desconoce, entonces la media muestral est tambin sujeta al sesgo,
mientras que la estimacin del error de muestreo no se ve afectado por el sesgo ya que
se deriva de una suma de cuadrados de los trminos ( ) Y y
i

2
. Este hecho puede
desvirtuar los lmites de confianza, al aplicar a una cantidad sesgada una variabilidad
que no contempla el sesgo. Con sesgo constante, estimadores de cambio de un periodo a
otro o de un estrato a otro permanecen sin sesgo, precsamente por la constancia del
mismo.
Si los errores de medicin son independientes de unidad a unidad dentro de la muestra y
promedian cero sobre toda la poblacin la media muestral sigue siendo estimador
insesgado y los errores de medicin son tenidos en cuenta en el clculo de errores
estndar. La precisin de las estimaciones disminuye. Si los errores de medicin no son
independientes la formula usual de error estndar es un subestimador, debido a que en la
prctica la correlacin intramuestra de los errores ser positiva.
Una tcnica til para para el estudio de errores correlacionados es el de submuestras
mutuamente penetrantes. En forma simple consistira en dividir una muestra aleatoria de
n unidades en k submuestras de n/k unidades cada una. El trabajo de campo y
procesamiento se planean de forma que no hay correlacin entre los errores de medicin
de dos unidades cualesquiera en submuestras diferentes. Por ejemplo si la correlacin
que hay que tratar proviene solo de sesgos imputables a los entrevistadores se puede
TCNICAS DE MUESTREO
54
asignar cada submuestra a un entrevistador. Un anlisis de varianza posterior entre
submuestras y dentro de submuestras ayuda a determinar el efecto del entrevistador.
Con datos cuantitativos se mencion anteriormente el concepto de contribucin de una
unidad muestral al total estimado. El anlisis cuidadoso de las contribuciones puede
ayudar en la deteccin de datos especialmente extremos que pueden tener efectos fuertes
en las estimaciones y provenir de errores de medicin.
Como comentario final hay que decir que al planear un estudio por muestreo debe
prestarse especial atencin a los errores no de muestreo que pueden presentarse en
cualquier fase del trabajo y, si son importantes, incluso invalidar los resultados. Por otra
parte detectarlos y cuantificarlos no es tarea fcil. Slo la anticipacin y el anlisis
cuidadoso de cada paso en el proceso de muestreo y de los resultados pueden ayudar.
Los errores de muestreo desde el momento que pueden ser evaluados y estimados dejan
de tener importancia. El error de muestreo se constituye en una medida de la calidad del
diseo terico de la muestra pero no mide la calidad real, afectada por los errores no de
muestreo.

You might also like