You are on page 1of 97

Muestreo

CURSO-TALLER
TECNICAS DE DISEO Y DESARROLLO DE
ENCUENTAS

MUESTREO
Octubre de 2009

Muestreo

TABLA DE CONTENIDO
1.

CONCEPTOS GENERALES...............................................................................3
1.1 LOS DATOS, LA INFORMACIN Y LA INFORMACIN ESTADSTICA.........3
1.2 ALTERNATIVAS PARA LA CONSECUCIN DE DATOS. CENSOS,
ENCUESTAS Y REGISTROS......................................................................3
1.2.1 El censo...................................................................................................3
1.2.2 La encuesta por muestreo........................................................................3
1.2.3 Los registros. El uso de informacin secundaria......................................3
1.3 LA ENCUESTA POR MUESTREO..................................................................3
1.3.1 Componentes de una encuesta por muestreo..........................................3
1.4 EL MUESTREO. GENERALIDADES..............................................................3
1.4.1 Muestreo probabilstico............................................................................3
1.4.2 Muestreo no probabilstico.......................................................................3
1.4.3 Formulacin de un plan muestral.............................................................3
1.4.4 La poblacin objetivo y la poblacin observable.......................................3
1.4.5 El Marco de muestreo y la informacin auxiliar........................................3
1.4.6 Imperfecciones del Marco de muestreo....................................................3
1.4.7 El tamao de muestra..............................................................................3

2.

MUESTREO ALEATORIO SIMPLE Y MUESTREO SISTEMTICO....................3


2.1 MUESTREO ALEATORIO SIMPLE - MAS......................................................3
2.1.1 Precisin en el MAS.................................................................................3
2.1.2 Efecto de diseo......................................................................................3
2.2 MUESTREO SISTEMTICO..........................................................................3
2.2.1 Sistemtico con ms de una rplica.........................................................3
2.2.2 Control del tamao de muestra................................................................3

3.

MUESTREO CON PROBABILIDAD PROPORCIONAL AL TAMAO.................3


3.1 Proporcional al tamao con reemplazamiento - PPT......................................3

4.

MUESTREO ESTRATIFICADO...........................................................................3
4.1 Cantidad de estratos y delimitacin.................................................................3
4.1.1 Mtodo Raz cum de f (Dalenius y Hodges).............................................3
4.2 Asignacin del tamao de muestra..................................................................3
4.2.1 Asignacin proporcional...........................................................................3
4.2.2 Asignacin de Neyman.............................................................................3
4.2.3 Asignacin X-proporcional........................................................................3
4.2.4 Asignacin de potencia............................................................................3

5.

MUESTREO DE CONGLOMERADOS Y MUESTREO MULTIETPICO............3


5.1 MUESTREO DE CONGLOMERADOS............................................................3
5.1.1 Probabilidades de inclusin del muestreo de conglomerados..................3
5.1.2 Eficiencia del muestreo de conglomerados..............................................3
5.2 MUESTREO MULTIETPICO.........................................................................3

Muestreo

5.2.1 Probabilidades de inclusin del muestreo multietpico.............................3


5.2.2 Eficiencia del muestreo multietpico.........................................................3
6.

PROCEDIMIENTOS DE ESTIMACIN..............................................................3
6.1 Principios generales del proceso de estimacin..............................................3
6.2 Estimacin de algunos parmetros frecuentes................................................3
6.2.1 Totales.......................................................................................................3
6.2.2 Promedios.................................................................................................3
6.2.3 Proporciones.............................................................................................3
6.2.4 Razones....................................................................................................3
6.3 Estimacin en diseos estratificados, de conglomerados y multietpicos.......3
6.4 Estimacin de dominios de estudio..................................................................3
6.5 Ajuste de factores de expansin......................................................................3
6.6 Otros mtodos de estimacin..........................................................................3

7.

ESTIMACIN DE VARIANZA Y ERRORES DE MUESTREO.............................3


7.1 La precisin y la estimacin de varianza.........................................................3
7.1.1 Principios generales de la estimacin de varianza....................................3
7.1.2 Estimacin de varianza para totales..........................................................3
7.1.3 Estimacin de varianza para razones.......................................................3
7.1.4 Estimacin de varianza en diseos estratificados, de conglomerados
y multietpicos.................................................................................3
7.1.5 Otros mtodos de estimacin de varianza................................................3
7.2 La validez y el sesgo.....................................................................................89

8.

ERRORES NO MUESTRALES: FUENTES Y CONTROL..................................3


8.1 Tipos de errores no muestrales.......................................................................3
8.1.1 Problemas de cobertura del marco de muestreo.......................................3
8.1.2 Problemas con la ubicacin de las unidades seleccionadas.....................3
8.1.3 No respuesta total por rechazo.................................................................3
8.1.4 Respuesta deficiente.................................................................................3
8.1.5 Errores en la captura de datos..................................................................3
8.1.6 Errores en la crtica, codificacin, consistencia e imputacin....................3
8.1.7 Errores en la generacin de estimaciones................................................3

BIBLIOGRAFIA.......................................................................................................... 3

Muestreo

1. CONCEPTOS GENERALES
1.1.

LOS DATOS,
ESTADSTICA

LA

INFORMACIN

LA

INFORMACIN

La sociedad cambiante de hoy en da plantea grandes retos para la toma


de decisiones tanto en la esfera pblica como en la privada, en los
entornos social y econmico; tener acceso a informacin relevante,
precisa y oportuna es indispensable para tomar las decisiones ms
acertadas. La informacin debe hacer referencia a una poblacin y
momento y tener un marco de anlisis temtico.
En la prctica, se habla de datos, de informacin y de informacin
estadstica. Los datos son representaciones de entidades que recogen
algunas de sus caractersticas en valores numricos, alfabticos,
alfanumricos, etc., y constituyen la materia prima para la generacin de
informacin. En este mismo sentido, se entiende por informacin el
resultado de un proceso de organizacin, clasificacin e interpretacin de
los datos en un marco de trabajo que permite darle un sentido a lo que
se observa. En general, la informacin estadstica es aquella que se
obtiene a partir del resumen y anlisis de datos numricos utilizando
herramientas matemticas.
1.2. ALTERNATIVAS PARA LA CONSECUCIN DE DATOS. CENSOS,

ENCUESTAS Y REGISTROS
Frente a la necesidad de obtener informacin sobre un tema especfico,
es posible emprender un proceso de recoleccin de datos o utilizar datos
que ya hayan sido recogidos y estn disponibles para su uso; en el
primer caso puede llevarse a cabo un censo o una encuesta y en el
segundo, puede hacerse uso de registros.
1.2.1 El censo
Es la recoleccin de datos para todas las unidades que
conforman la poblacin de inters.
Ejemplos:

Censos de poblacin y vivienda en cada uno de los pases:


son la fuente de informacin demogrfica ms detallada con
que cuenta un pas y en muchos casos constituyen la nica

Muestreo

informacin existente para la planeacin de polticas en


pequeas localidades o reas apartadas. Se recomienda su
recoleccin en forma peridica cada 10 aos como mximo.

Censos econmicos: son utilizados para hacer diagnstico de


las caractersticas econmicas de los establecimientos
productivos en el pas, en trminos de su actividad econmica
y su tamao personas ocupadas e ingresos. Tambin se
aprovechan para construir listados de empresas y
establecimientos que sirven como marco de muestreo de las
encuestas econmicas peridicas.

Ventajas:

Es posible desagregar la informacin recolectada de diversas


formas, incluso para clasificaciones detalladas, grupos
poblacionales o reas geogrficas pequeas. Por esta razn
es particularmente til cuando se desea hacer estudios de
fenmenos de baja incidencia.

Facilita la interpretacin espacial de los datos, an sobre reas


recientemente delimitadas

Como se recolecta informacin para todos los elementos de la


poblacin, no es necesario utilizar elementos estadsticos
adicionales con lo que la generacin de resultados y su
interpretacin se hace ms sencilla.

Desventajas:

Para poblaciones de mediano o gran tamao, el levantamiento


de informacin a travs de un censo es muy costoso y toma
bastante tiempo

Por tratarse de un proyecto de gran complejidad administrativa,


es difcil mantener un buen nivel de control en todas las etapas
del proceso y en todas las zonas a recorrer.

1.2.2 La encuesta por muestreo


Es la recoleccin de datos para una parte de las unidades que
conforman la poblacin de inters, esta parte se denomina

Muestreo

muestra. Dependiendo de los criterios utilizados para elegir las


unidades que se estudiarn, la muestra se conoce como
probabilstica o no probabilstica
Ejemplos:

Encuestas de empleo y fuerza laboral: Se recolectan datos en


una muestra de hogares para la estimacin de los principales
indicadores del mercado laboral: PEA, TGP, Ocupacin,
Desocupacin. GEIH-Colombia, EPE-Per, Encuesta Nacional
de Empleo, Desempleo y Subempleo-Ecuador entre otras.
Encuestas para ndices de precios: En forma peridica,
indagan en una muestra de establecimientos de comercio los
precios de una canasta de artculos previamente establecida.
Encuestas a establecimientos econmicos y empresas:
Investigan en muestras de establecimientos econmicos de los
distintos
sectores
(comercio,
servicios,
industria)
caractersticas de la produccin, ventas, consumo de materias
primas, personal ocupado, activos, etc.

Ventajas:

Una encuesta es ms econmica y consume menos tiempo


que un censo, tanto en la recoleccin como en el
procesamiento de datos.

Por tratarse de un proyecto de menor escala que un censo


desde el punto de vista operativo, es ms fcil tener un
adecuado control de todos los procesos y velar por su calidad.

La molestia a los informantes es menor por cuanto solamente


se entrevista a un nmero reducido de unidades.

Dependiendo del mecanismo utilizado para elegir las unidades


sobre las que se recolectan datos, es posible obtener
estimaciones de los niveles de precisin alcanzados.

Es til para responder a necesidades de informacin


especficas o para hacer estudios en profundidad.

Muestreo

Desventajas:
Salvo que hayan sido planeadas de antemano, en general no
es posible hacer desagregaciones precisas de informacin
para pequeos grupos poblacionales, reas pequeas o
clasificaciones exhaustivas.

Existe una variabilidad natural introducida por la seleccin de


algunos elementos para su estudio y no de toda la poblacin;
esto afecta la precisin de los resultados.

1.2.3 Los registros. El uso de informacin secundaria


Los registros, tambin denominados registros administrativos,
son conjuntos de datos recolectados por otras entidades como
parte de sus tareas habituales, que pueden ser utilizados solos o
en combinacin con censos o encuestas para generar informacin
sobre un fenmeno.
Ejemplos:

Registros de Nacimientos y Defunciones, matrimonios, etc.


Usualmente son llevados por los Institutos de Estadstica o las
Oficinas de Registro.

Registros de salud: Usualmente incluyen datos sobre admisin


en hospitales, enfermedades padecidas, costos en el sistema
de salud, etc. Son recopilados por las Superintendencias,
Ministerios o Secretaras de salud.

Registros de educacin: Generalmente cuentan con datos


sobre volmenes de estudiantes matriculados, asistentes,
desercin, repitencia, etc. Estn a cargo de las
Superintendencias, Ministerios o Secretaras de Educacin.

Registros de importaciones y exportaciones: Cuentan con


informacin de volmenes y valores de los productos que se
importan y exportan en un pas, tambin se registran las
empresas que los producen o compran y los pases de destino.
Son mantenidos por las superintendencias o departamentos de
aduanas nacionales

Muestreo

Registros de migracin: Tiene informacin sobre la cantidad y


caractersticas de las personas que ingresan y salen del pas,
usualmente son llevados por las oficinas de inmigracin
nacionales.

Estadsticas de consumo de agua potable, energa elctrica,


otros. Bolivia. El INE lleva a cabo el anlisis estadstico a partir
de los registros proporcionados por las empresas prestadoras
de estos servicios.

Estadsticas ambientales. Per. El INE se encarga de dar un


diagnstico mensual de calidad del aire, agua y disposicin de
residuos slidos entre otros temas, en Lima metropolitana y el
total nacional combinando registros de entidades como la
Direccin General de Salud Ambiental DIGESA, el Servicio
de agua potable y alcantarillado de Lima SEDAPAL, la
municipalidad metropolitana de Lima, el Servicio Nacional de
Meteorologa e Hidrologa SENAMHI, el Instituto Nacional de
Defensa Civil INDECI y las empresas prestadoras del
servicio de saneamiento.

Ventajas:

En general se trata de informacin que ha sido reportada por


todos los elementos de la poblacin con lo que, como en el
caso de un censo, no existe una variabilidad atribuible al uso
de mtodos estadsticos para la recoleccin de datos.

Los datos obtenidos por esta va pueden ser utilizados para


efectuar anlisis de tendencias porque se cuenta con reportes
peridicos

No se requiere la realizacin de un operativo especial para la


recoleccin de datos lo que reduce los costos, el tiempo
necesario y minimiza la molestia a los informantes.

Desventajas:

Como se trata de datos que han sido recolectados con fines


distintos a la investigacin, es posible que los conceptos y

Muestreo

definiciones no se adapten completamente a necesidades


especficas.

1.3.

Problemas de cobertura, calidad o actualizacin de los


registros pueden hacer que los datos sean intiles para fines
de investigacin.

Cuando se utilizan los registros para hacer anlisis en el


tiempo, es necesario considerar que algunas definiciones o
conceptos pueden haber evolucionado en el registro a lo largo
del tiempo.

Dependiendo de las entidades responsables de los registros,


es posible que algunos se encuentren protegidos por leyes de
privacidad que imposibiliten su uso.

Los archivos que contienen los datos de un registro pueden


haber cambiado en estructura y estar deficientemente
documentados.

LA ENCUESTA POR MUESTREO


Una encuesta por muestreo es una investigacin que se lleva a cabo con
el objetivo de generar informacin acerca de algunas caractersticas de
inters de una poblacin determinada, en la que se recolecta informacin
de algunos elementos de la poblacin usando conceptos, mtodos y
procedimientos bien definidos.
A partir del objetivo de la encuesta, se habla de encuestas de tipo
descriptivo cuando se pretende estimar parmetros que describan
ciertos atributos o caractersticas de la poblacin y, se habla de
encuestas de tipo analtico cuando la finalidad es la exploracin de
relaciones entre estas caractersticas, su explicacin o llevar a cabo
pruebas de hiptesis estadsticas.
Como parte del vocabulario comn de la encuesta, se definen las
siguientes unidades:

Unidad de muestreo: Es la unidad que se utiliza para la seleccin de


muestra. En algunos casos, denominados multietpicos, es posible
contar con ms de una unidad de muestreo.

Muestreo 10

Unidad de anlisis: Es la unidad hacia la que se hace inferencia

Unidad informante: Es la unidad que suministra la informacin

Unidad de referencia: Es la unidad acerca de la que se indaga


informacin. Los casos en que la unidad informante y la de referencia
coinciden se llaman de informante directo.

Ejemplos:
1. Encuesta de ingresos y gastos.
Propsito: Producir informacin peridica de las caractersticas de las
viviendas, hogares y personas y de las estructuras de ingreso y gasto
de los hogares.
Unidad de muestreo: Hogares particulares que residen en una unidad
de vivienda.
Unidades de anlisis: Dependiendo del tipo de informacin que se
analice, viviendas, hogares, miembros del hogar, perceptores de
ingreso, entre otras.
Unidad Informante: Para las caractersticas de vivienda, hogar y
persona, miembros del hogar, mayores de 18 aos y parientes del
jefe de hogar. Para las variables de ingreso y gasto, jefe del hogar.
Unidad de referencia: Dependiendo de las variables que se indaguen
corresponde a la unidad de vivienda, el hogar, o miembro del hogar.
Para lo correspondiente a gastos, la unidad de gasto .
1.3.1 Componentes de una encuesta por muestreo

Poblacin objetivo: Es la poblacin sobre la que se desea


obtener la informacin, sobre quien se quieren sacar
conclusiones; est compuesta por unidades que comparten
alguna caracterstica, tienen una localizacin geogrfica y un
tiempo como periodo de referencia. Ejemplo: todas las
personas que habitan en viviendas privadas en la ciudad de
Lima Metropolitana durante el periodo 1 a 30 de septiembre
de 2008.

Muestreo 11

Caractersticas a estudiar: Son los parmetros que se quiere


estimar y las variables con las que se construyen.
Corresponden a caractersticas medibles de la poblacin y se
expresan generalmente en trminos de totales, promedios o
porcentajes. Ejemplos: total de personas mayores de cinco
aos, promedio de ingresos de los hogares que habitan en el
departamento, porcentaje de jefes de hogar con sexo
femenino.

Grfico 1. Organizacin de una encuesta por muestreo

Sistema de observacin y medicin: Est conformado por las


reglas con base en las cuales se observarn, medirn y
registrarn las caractersticas a estudiar.

Muestreo 12

1.4.

Muestra: Est constituida por las unidades de la poblacin que


han sido elegidos para ser observados.
Sistema de recoleccin de informacin: Establece los
procedimientos necesarios para obtener los datos de las
unidades seleccionadas como muestra. Contempla los
requerimientos de recursos fsicos, econmicos y humanos
para el levantamiento de informacin

Sistema de generacin de resultados: Corresponde al conjunto


de reglas establecidas para el procesamiento de los datos y la
estimacin de los parmetros de inters.

Sistema de monitoreo y control: Se compone de indicadores


que se monitorean para mantener la calidad en todos los
procesos de la encuesta.

EL MUESTREO. GENERALIDADES
El muestreo es un conjunto de tcnicas que permite elegir una porcin de
elementos de la poblacin objetivo, denominada muestra, para su
estudio.
Entre varias alternativas para la seleccin de los elementos a encuestar,
se prefiere aquella que:
1.

Permita utilizar los resultados obtenidos para sacar conclusiones de


toda la poblacin de elementos, conformada por los que fueron
encuestados y los que no

2.

Sea lo ms precisa posible para un costo, tiempo y restricciones


operacionales dadas

3.

Proporcione indicadores de la precisin de los estimadores


utilizados, como medida de su calidad

En funcin de los criterios utilizados para llevar a cabo la seleccin de


elementos y las capacidades de inferencia a la poblacin, el mecanismo
de muestreo se conoce como probabilstico o no probabilstico.
1.4.1 Muestreo probabilstico

Muestreo 13

Es aquel en donde se determina la composicin de la muestra


utilizando procedimientos aleatorios y se garantiza a todos los
elementos de la poblacin una probabilidad calculable y mayor
que cero de ser seleccionados. Esta probabilidad es utilizada en
el clculo de las estimaciones para los parmetros de inters.
Ventajas

Permite extrapolar las conclusiones obtenidas a partir de la


muestra al total de la poblacin a la que sta pertenece,
utilizando las reglas de inferencia estadstica.

Es posible obtener una aproximacin al nivel de precisin de


los estimadores utilizados, como medida de su calidad.

Desventajas

Usualmente representa mayor complejidad, un mayor consumo


de tiempo y un mayor costo que el muestreo no probabilstico

1.4.2 Muestreo no probabilstico


En el muestreo no probabilstico se supone que los elementos de
la poblacin son tan parecidos con respecto al fenmeno que se
estudia, que cualquier muestra puede representar a la poblacin;
el mecanismo de seleccin es arbitrario y no se rige por
procedimientos aleatorios ni se tiene conocimiento acerca de las
probabilidades de seleccin de los elementos, razn por la que no
es posible establecer el nivel de precisin de los estimadores ni
identificar posibles sesgos presentes.
Ventajas

Cuando no se pretende hacer inferencia al total de la


poblacin, puede proporcionar informacin descriptiva
interesante acerca del conjunto de elementos estudiado.

Es una estrategia rpida y barata para obtener primeros


acercamientos a los fenmenos de inters o para probar
instrumentos, mtodos o definiciones.

Desventajas

Muestreo 14

No es recomendable el uso de los resultados de una muestra


obtenida por esta va para sacar conclusiones de toda la
poblacin porque no es posible determinar si realmente
representa a la poblacin, los sesgos presentes en la
medicin ni el nivel de precisin de los estimadores utilizados.

1.4.3 Formulacin de un plan muestral


En la prctica, la formulacin de un plan muestral es un proceso
completamente integrado al desarrollo de la encuesta, que
requiere la comprensin de los objetivos temticos, las
definiciones y conceptos y su traduccin en objetivos estadsticos
concretos; tambin necesita comprensin de las expectativas y
necesidades de los equipos de trabajo con respecto a la muestra y
las restricciones de costo, tiempo y operacionales asociadas a la
recoleccin de informacin.
Paso 1. Anlisis de requerimientos: En forma conjunta con los
dems equipos de trabajo, se analizan los requerimientos de la
encuesta desde el punto de vista temtico para identificar las
necesidades que la muestra debe suplir:
1. Verifique que los objetivos de la encuesta estn claramente
establecidos
2. Defina la poblacin objetivo, esto es, la poblacin sobre la que
pretenden sacarse conclusiones.
3. Identifique los parmetros que se desea estimar y las variables
requeridas para ello.
4. Determine el nivel de precisin deseado para las estimaciones.
Paso 2. Diseo de muestra: Una vez analizados los
requerimientos, se procede a llevar a cabo el diseo de la
muestra. En este proceso debe buscarse toda la informacin
auxiliar relevante que est a disposicin para enriquecer el diseo
y formular un esquema de muestreo que pueda alcanzar los
objetivos estadsticos de la encuesta, considerando las
restricciones de presupuesto, tiempo y operacionales.

Muestreo 15

5. Determine la poblacin susceptible de encuesta


6. Identifique y consiga el marco muestral ms apropiado para
acceder a esta poblacin, as como toda la informacin auxiliar
que pueda ayudar al clculo de tamaos de muestra o asistir
los procesos de diseo o estimacin
7. Defina las unidades muestrales, esto es, los elementos o
grupos de elementos que sern objeto de muestreo
8. Proponga alternativas de mtodos de muestreo que estn en
capacidad de proporcionar estimaciones con un nivel de
precisin deseable para los parmetros de inters, sujeto a las
restricciones de costo, tiempo y operacionales. Considere el
diseo de muestra, tamao requerido y estimadores
propuestos en la eleccin en la eleccin del mtodo definitivo
9. Formule especificaciones de seleccin, estimacin de
parmetros y estimacin de varianza para ser implementados
en computador.
1.4.4 La poblacin objetivo y la poblacin observable
En el proceso de planeacin de la encuesta se define la poblacin
objetivo, conformada por todas las unidades sobre las que quiere
hacerse inferencia. En el diseo de muestra, sin embargo, es
posible encontrar unidades que deben ser excluidas por
restricciones de tipo operacional: las ubicadas en reas muy
remotas o inseguras por ejemplo, representan costos y riesgos
que posiblemente el operativo de recoleccin no est en
condiciones de asumir. En estos casos se restringe la poblacin
objetivo a la poblacin observable; mientras que la poblacin
objetivo es aquella que se quiere estudiar, la poblacin observable
es aquella que en la que esto es posible. Cuando la encuesta
utiliza una muestra probabilstica, las conclusiones pueden ser
proyectadas a la poblacin observable.
Ejemplo: Encuesta Nacional de Hogares
Poblacin objetivo: Personas residentes en el pas que son
miembros de hogares particulares

Muestreo 16

Poblacin observable: Personas residentes en el pas que son


miembros de hogares particulares y no residen en la zona de alto
riesgo, stas se excluyen por el alto riesgo asociado a la
recoleccin de informacin en esta regin.
1.4.5 El Marco de muestreo y la informacin auxiliar
El marco de muestreo es la herramienta que permite identificar y
ubicar a las unidades objeto de estudio y en este sentido, se dice
que proporciona acceso a la poblacin observable. Existen tres
tipos de marcos: los de lista, los de reas y los mltiples.

Un marco de lista es un listado de nombres y direcciones que


permite ubicar directamente a las unidades. Ejemplo: los que
se utilizan para las encuestas econmicas a medianas y
grandes empresas
Un marco de reas es una lista de las reas geogrficas en
donde se encuentran los individuos; proporciona un acceso
indirecto a las unidades a travs del recorrido de muestras
compuestas de reas geogrficas. Ejemplo: los empleados
para las encuestas de hogares, en donde se accede a stos
recorriendo muestras de manzanas o secciones cartogrficas
Un marco mltiple es la combinacin de marcos de reas y de
lista para garantizar acceso a la mayor parte de los elementos
objeto de estudio. Ejemplo: en estudios agropecuarios, suele
usarse un marco de lista para los grandes productores y
marcos de reas para los pequeos.

Contar con un buen marco de muestreo es uno de los aspectos


importantes en la formulacin del plan muestral, dependiendo de
sus caractersticas se formulan el mtodo de seleccin de muestra
y el esquema de recoleccin en campo; adicionalmente, como es
utilizado para identificar la poblacin observable, juega un papel
determinante en la calidad de las estimaciones y en la relacin
precisin-costo del estudio, especialmente cuando se usan
marcos de lista. Es ideal que est actualizado, incluya todas las
unidades de la poblacin y no tenga unidades fuera de la
poblacin objetivo; tambin es deseable que contenga informacin
auxiliar que pueda utilizarse para el diseo de muestra o para los

Muestreo 17

procesos de estimacin, con el fin de mejorar la precisin de los


estimadores.

Grfico 2. Representacin grfica de la poblacin objetivo, el marco de


muestreo y la muestra seleccionada

1.4.6 Imperfecciones del Marco de muestreo


Los marcos de muestreo disponibles en la prctica adolecen con
frecuencia de imperfecciones relacionadas con su cobertura,
denominadas subcobertura, sobrecobertura y duplicidad. Se
presenta una breve descripcin de cada una de ellas, el efecto
que tiene sobre la calidad de la informacin y se describen las
estrategias ms utilizadas para minimizar su impacto.
1. Subcobertura: Se produce cuando hay elementos de la
poblacin objetivo que no se encuentran en el marco de
muestreo. En marcos de lista, por ejemplo, cuando ha pasado
un tiempo entre la construccin del marco y el diseo de la
muestra, es posible que las unidades nuevas (establecimientos
econmicos, colegios, etc.) no estn presentes en el marco; en
marcos de reas este defecto es menos frecuente. El impacto

Muestreo 18

de la subcobertura en la calidad de las estimaciones se da en


el riesgo de generar sesgos, cuando los elementos
pertenecientes a la poblacin objetivo y que no estn en el
marco tienen caractersticas diferentes a las de los que s lo
estn.
Para tratar con esta imperfeccin, se recomienda tratar de
identificar las reas (geogrficas, temticas) en donde se
presenta la subcobertura y buscar marcos de muestreo
adicionales que pueden combinarse con los disponibles para
obtener un mejor acercamiento a la poblacin objetivo.
Adicionalmente, si se cuenta con informacin auxiliar de buena
calidad, es posible reducir el sesgo de los estimadores
ajustando por el volumen de poblacin u otro total relacionado
bajo el supuesto que los elementos no observables son
similares a los observables con respecto a las caractersticas
en estudio.
2.

Sobrecobertura: Se presenta cuando hay elementos en el


marco que no pertenecen a la poblacin objetivo y no pueden
ser identificados y eliminados antes de seleccionar la muestra.
En marcos de lista para investigaciones econmicas, por
ejemplo, esto puede presentarse cuando no hay un
procedimiento eficiente para eliminar a los establecimientos
econmicos que se liquidan (dejan de funcionar) o actualizar la
informacin de los que cambian de actividad econmica y ya
no pertenecen a la poblacin objetivo; en los marcos de reas
este defecto se presenta en menor magnitud.
Esta
imperfeccin afecta la calidad de los estimadores porque,
aunque se identifique en la encuesta a los elementos
sobrantes y se eliminen, se produce una reduccin en el
tamao de muestra efectivo que disminuye la precisin;
adicionalmente, la entrevista a unidades que no son de inters
representa un sobrecosto que puede ser considerable.
Cuando no es posible identificar a los elementos extraos, esto
puede ser una fuente de sesgo en los estimadores.
Si es posible identificar a los elementos extraos desde el
marco de muestreo, la recomendacin es eliminarlos; si no es
posible, una vez seleccionada la muestra, los elementos
considerados como fuera de universo deben ser excluidos

Muestreo 19

utilizando la estimacin por dominios como se muestra en el


captulo 6.
3.

Duplicidad: Cuando los elementos en el marco hacen


referencia a una determinada unidad de la poblacin objetivo
ms de una vez, se presenta una imperfeccin de marco por la
duplicidad.
Esto puede verse por ejemplo, cuando hay
problemas de identificacin en un listado de empresas y
algunas de ellas estn en ms de una ocasin o, cuando el
marco es de establecimientos y la poblacin objetivo est
compuesta por empresas; en este caso, una empresa estar
repetida en el marco tantas veces como establecimientos
tenga. La capacidad de esta imperfeccin para generar sesgo
en los estimadores est relacionada con la cantidad de
duplicados presente, la importancia de los elementos
duplicados en el total de poblacin y la capacidad que se tenga
desde el marco o la muestra seleccionada para identificarlos.
Esta imperfeccin suele corregirse utilizando dos estrategias,
si el costo lo permite, lo ms eficiente es hacer un operativo
que permita corregir el marco, va entrevista personal o
telefnica; en otro caso, es posible tratar de establecer las
verdaderas probabilidades de seleccin de las unidades
considerando las duplicidades que presentan y corregir los
factores de expansin en consecuencia.

Adicionalmente, se ha mencionado la utilidad de contar con


informacin auxiliar en el marco de muestreo que permita hacer
ms eficiente el diseo de muestra o la estimacin; en este
sentido, es posible encontrar otra imperfeccin, de menor impacto
que las tres consideradas, representada por la presencia de
informacin auxiliar incorrecta; mientras que la subcobertura, la
sobrecobertura y la existencia de duplicados pueden generar
sesgo y afectar la validez de las estimaciones, el uso de
informacin auxiliar incorrecta puede disminuir la precisin de los
estimadores pero, en general, no compromete su validez.
1.4.7 El tamao de muestra
El tamao de muestra se establece generalmente, como un
balance entre el nivel de precisin requerido y las restricciones
operacionales como costos y tiempo; fijo un esquema para la

Muestreo 20

seleccin de muestra, entre mayor sea el nivel de precisin que se


espera de los estimadores mayor es el tamao de muestra que se
necesita.
En una muestra probabilstica, el tamao de muestra se ve
afectado en mayor o menor medida por:
1. La variabilidad de las caractersticas que se observan:

Cuando la poblacin objetivo tiene un comportamiento


bastante homogneo con respecto a las variables estudiadas,
es necesario un menor tamao de muestra para conseguir una
estimacin precisa del fenmeno.
2. El tamao de la poblacin observable: El tamao de la

poblacin es un factor determinante en el tamao de muestra


cuando las poblaciones son pequeas; en poblaciones de
mediana o gran magnitud pierde relevancia.
3. El mtodo de muestreo y estimadores escogidos: No todos

los mtodos de muestreo ni los estimadores disponibles son


igualmente eficientes y es comn que por falta de un marco de
muestreo adecuado, informacin auxiliar de buena calidad o
por restricciones operacionales no sea posible utilizar los
mtodos que generan mayor nivel de precisin con un menor
tamao de muestra.
4. Niveles

de desagregacin requeridos y precisin


esperada: Cuando se desea obtener estimaciones para
subgrupos de la poblacin, como las personas que habitan en
reas urbanas, o los hombres, o los menores de 12 aos, se
requieren tamaos de muestra mayores. Desde el diseo de
muestra es necesario considerar las desagregaciones que se
tienen previstas para garantizar estimadores precisos a estos
niveles.

5. Tasa esperada de no respuesta: Se recomienda establecer

un porcentaje mximo de muestra que se prev no ser


posible de contactar o rehusar contestar el cuestionario de la
encuesta. Este porcentaje deber incrementarse al tamao de
muestra requerido con el fin de evitar que la precisin de los
estimadores se vea afectada por una reduccin en el tamao
de muestra final. Esta precaucin, sin embargo, no evita la

Muestreo 21

inclusin de sesgos en los resultados si las caractersticas de


los respondientes y no respondientes son muy diferentes; este
tema se trata con ms detalle en el captulo 6.
EJEMPLO:
Suponga que se desea obtener una estimacin por muestreo del
nmero promedio de estudiantes que tiene cada colegio en un
pas, garantizando que en 95 de cada 100 casos no habr un error
de ms de 2 estudiantes con respecto al verdadero promedio.
Para la seleccin de muestra, se utilizar un marco que contiene
los 1000 colegios del pas y un Muestreo Aleatorio Simple MAS.
Para determinar el tamao de muestra mnimo requerido, se utiliza
la frmula:
n

NZ 2 2
Z 2 2 NE 2

Donde:

n es el tamao de muestra mnimo requerido


N es la cantidad de colegios existentes en el pas y presentes
en el marco, 1000
2 es la varianza del promedio de estudiantes, por
informacin de estudios anteriores, se establece en 250 para
los clculos
Z es la ordenada de la distribucin normal estndar
correspondiente; 1.96 para un 95% de confianza.
E es el error mximo admisible en unidades absolutas
(estudiantes), 2 segn el intervalo deseado.

Reemplazando en la ecuacin, se tiene:


n

1000 1.96 2 250


194
(1.96 2 250) (1000 2 2 )

Se requieren 194 colegios para hacer la estimacin con el nivel de


precisin esperado.
La relacin que existe entre el tamao de muestra y el tamao de
la poblacin, el error mximo admisible y el nivel de confiabilidad

Muestreo 22

se observa en los Grfico 3 y Grfico 4, variando los valores


establecidos en el ejemplo.

Comparando las curvas para distintos valores de E se observa


que una mayor precisin requiere un mayor tamao de
muestra

Todas las curvas son crecientes, a mayor tamao de la


poblacin es mayor el tamao de muestra requerido para un
nivel de precisin dado

Considerando cada una de las curvas, en todos los casos se


observa un lmite a partir del cual el tamao de la poblacin no
tiene efecto sobre la frmula de tamao de muestra; este punto
depende en forma importante del nivel de precisin que se
est buscando en los estimadores.

Grfico 3. Tamao de muestra en funcin del tamao de la poblacin y el


error mximo admisible

Grfico 4. Tamao de muestra en funcin del error mximo admisible y el


nivel de confiabilidad

Muestreo 23

El aumento en el nivel de confiabilidad requiere un mayor


tamao de muestra
En los casos en que se requiere mucha precisin (cerca al
origen) o en donde sta no interesa (extremo inferior derecho),
no se establecen diferencias en el tamao de muestra para
distintos niveles de confiabilidad.

Otros aspectos a considerar


En el proceso de clculo del tamao de muestra hay otros
aspectos que deben ser considerados tales como:
1. La encuesta es multipropsito. La mayora de las encuestas

que se lleva a cabo hoy en da requiere la medicin de


diversos conjuntos de caractersticas y no siempre el plan de
muestreo que puede resultar eficiente para unas lo es
necesariamente para todas. En este caso, se recomienda
identificar las variables de mayor importancia en trminos de
los objetivos de la encuesta y sus niveles de desagregacin y
utilizarlas como las variables de diseo de la muestra.
2. No se cuenta con informacin de la variabilidad de las

caractersticas a estudiar. En muchos casos no es posible


determinar a priori la variabilidad de las caractersticas objeto
de estudio; sin embargo, tener una idea de esto es muy
importante para no subestimar el tamao de muestra y obtener
luego estimaciones de poca utilidad prctica. Para esto se
sugiere utilizar informacin de estudios previos de variables
relacionadas con el fenmeno o llevar a cabo estudios piloto.

Muestreo 24

3. Se pretende plantear un esquema de muestra complejo: En

muestras en donde se utiliza directamente un marco que


contiene las unidades a estudiar, es posible utilizar frmulas
sencillas para calcular el tamao de muestra; de otra parte,
cuando se plantea un estudio que involucre varias etapas de
seleccin, conglomerados o estratos, es necesario establecer
los tamaos de muestra a utilizar en cada etapa o estrato; esto
puede hacerse a travs de ejercicios de simulacin como o a
travs de un efecto de diseo como se seala en el captulo
2.

2. MUESTREO ALEATORIO SIMPLE Y MUESTREO


SISTEMTICO
2.1.

MUESTREO ALEATORIO SIMPLE - MAS


Consiste en seleccionar de un marco de lista un nmero predefinido de
unidades de tal forma que todas tengan la misma probabilidad de ser
incluidas; de igual forma, todas las posibles muestras de un tamao dado
tienen la misma probabilidad de ser seleccionadas. La seleccin puede
hacerse con reemplazamiento (una unidad puede ser incluida ms de
una vez en la muestra) o sin reemplazamiento; en la prctica, el diseo
conocido como MAS que no tiene reemplazamiento es el utilizado porque
representa menos problemas operativos y proporciona resultados ms
precisos
Con este diseo, cada uno de los elementos de la poblacin tiene
probabilidad

n
de ser incluido en alguna muestra, con n el tamao
N

de la muestra y N el de la poblacin incluida en el marco.


Para la seleccin de muestra se requiere contar con un marco de lista en
donde estn identificados los elementos de la poblacin y una
herramienta para generar nmeros aleatorios con distribucin uniforme,
como una tabla de dgitos aleatorios o la funcin Aleatorio() de Excel. El
algoritmo ms sencillo para hacer la seleccin se conoce como
Coordinado Negativo y se explica en el siguiente ejemplo.
EJEMPLO

Muestreo 25

Suponga una poblacin objetivo conformado por las siguientes 6 fincas:


Tabla 1. Ejemplo MAS. Poblacin objetivo
No.

Finca

1
LA LIBERTAD
2
EL REFUGIO
3
LA CASONA
4
AMANECER
5
YERBABUENA
6
ASTAIZA
Para seleccionar una muestra con MAS:
1. Genere un nmero aleatorio con distribucin uniforme en el intervalo
(0,1) para cada una de las fincas existentes en el marco
2. Ordene las fincas del marco en forma descendente con respecto al
nmero aleatorio generado.
3. La muestra est conformada por las 4 primeras en el ordenamiento
por este criterio
Tabla 2. Ejemplo MAS. Seleccin de muestra
No.
6
1
3
5
2
4

Finca
ASTAIZA
LA LIBERTAD
LA CASONA
YERBABUENA
EL REFUGIO
AMANECER

Aleatorio
0,96950958
0,79594428
0,76140399
0,72174676
0,67143972
0,0666237

Ventajas:

Es un diseo simple desde el punto de vista conceptual

Los procesos de clculo de tamao de muestra, seleccin de muestra,


estimacin de parmetros y estimacin de varianzas son sencillos y bien
conocidos.

Muestreo 26

No requiere disponer de informacin adicional en el marco para la


seleccin de muestra

Desventajas:

En poblaciones de mediano tamao, si la encuesta se hace por entrevista


directa, los costos asociados a la recoleccin de informacin pueden
incrementarse por la dispersin geogrfica que presenta la muestra con
este diseo
En la prctica, no es fcil satisfacer el requerimiento de contar con marcos
de elementos excepto para poblaciones pequeas; esto hace inviable la
aplicacin de este diseo
En caso de disponer de informacin adicional en el marco, no es posible
utilizarla para mejorar el proceso de seleccin de muestra
Grfico 5. Esquema grfico del diseo MAS

2.1.1 Precisin en el MAS


Para introducir el concepto de precisin en el Muestreo Aleatorio
Simple MAS, suponga nuevamente la poblacin objetivo
conformada por 6 fincas que se utiliz en el ejemplo anterior;
suponga que para continuar con el ejercicio se llev a cabo un

Muestreo 27

operativo censal y se cuenta con la informacin de gastos para las


6 fincas como se muestra en la Tabla 3.
Tabla 3. Ejemplo MAS. Informacin para toda la poblacin objetivo

LA LIBERTAD

Gasto anual en
semillas
26.000

EL REFUGIO

470.000

LA CASONA

63.800

AMANECER

145.000

YERBABUENA

230.000

ASTAIZA

12.500

No.

Finca

Si se generan todas las posibles muestras de tamao 1, 2, 3, 4, 5


y 6 y se estima el promedio de gasto sobre cada muestra se
obtiene la Error: Reference source not found. Los promedios
estimados se presentan en el Grfico 6.
Grfico 6. Distribucin de las medias para diferentes tamaos de muestra

Muestreo 28

La lnea roja representa el verdadero valor del promedio calculada


sobre toda la poblacin objetivo; algunos comentarios sobre el
grfico se formulan a continuacin:

Las estimaciones calculadas a partir de todas las muestras se


encuentran alrededor del verdadero valor del parmetro

En la medida en que aumenta el tamao de la muestra, la


dispersin entre estimaciones se reduce. Esto es lo que se ha
denominado precisin

En la prctica, solamente se selecciona una muestra, de


manera que solo se cuenta con uno de los muchos puntos
posibles. Usando los datos del ejemplo, sera posible que la
muestra seleccionada fuese la segunda de tamao 1, con la
que se obtiene como estimacin el valor 470.000 que est
bastante lejos del verdadero valor del parmetro. Por esto, es
importante recordar que la estimacin obtenida a partir de la
muestra es un valor tomado por una variable aleatoria
denominada estimador, que tiene una media (se espera que
sea el verdadero valor del parmetro) y una varianza que
determina la precisin con la que se est haciendo la
estimacin. Aunque el verdadero valor del parmetro rara vez
llega a conocerse, es importante disminuir el nivel de
incertidumbre trabajando con un tamao de muestra
suficientemente grande.

La medicin de la precisin en una muestra probabilstica se lleva


a cabo utilizando la varianza del estimador; esta varianza depende
del diseo de muestra y estimador utilizados y se presentarn con
detalle en el captulo 7, para todos los diseos tratados en este
documento.
Tabla 4. Ejemplo MAS. Promedio de gasto estimado sobre todas las
posibles muestras
Tamao 1
Muestr
a

Tamao 2

Promedio
Muestra
estimado

Tamao 3

Tamao 4

Promedio
Promedio
Promedio
Muestra
Muestra
estimado
estimado
estimado

Tamao 5
Muestra

Promedio
estimado

Tamao 6
Muestra

26.000

1,2

248.000

1,2,3

186.600

1,2,3,4

176.200

1,2,3,4,5

186.960 1,2,3,4,5,6

470.000

1,3

44.900

1,2,4

213.667

1,2,3,5

197.450

1,2,3,4,6

143.460

63.800

1,4

85.500

1,2,5

242.000

1,2,3,6

143.075

1,2,3,5,6

160.460

Promedio
estimado
157.883

Muestreo 29

145.000

1,5

128.000

1,2,6

169.500

1,2,4,5

217.750

1,2,4,5,6

230.000

12.500

1,6

19.250

2,3

266.900

2,4

307.500

2,5

350.000

2,6

1,3,4

78.267

1,2,4,6

127.125

1,3,4,5,6

95.460

1,3,5

106.600

1,2,5,6

184.625

2,3,4,5,6

184.260

1,3,6

34.100

1,3,4,5

116.200

1,4,5

133.667

1,3,4,6

61.825

241.250

1,4,6

61.167

1,3,5,6

83.075

3,4

104.400

1,5,6

89.500

1,4,5,6

103.375

3,5

146.900

2,3,4

226.267

2,3,4,5

227.200

3,6

38.150

2,3,5

254.600

2,3,4,6

172.825

4,5

187.500

2,3,6

182.100

2,3,5,6

194.075

4,6

78.750

2,4,5

281.667

2,4,5,6

214.375

5,6

121.250

2,4,6

209.167

3,4,5,6

112.825

2,5,6

237.500

3,4,5

125.000

3,4,6

73.767

3,5,6

102.100

4,5,6

129.167

176.700

2.1.2 Efecto de diseo


Considerando que el clculo de tamao de muestra para el diseo
MAS es bastante sencillo conforme se present en el numeral
1.4.6, es frecuente utilizarlo incluso para aquellos casos en donde
se aplican diseos de muestreo diferentes. En este caso, se utiliza
el efecto de diseo (deff por Design Effect) como una medida de la
eficiencia relativa del nuevo diseo en contraste con el MAS. Se
define:
deff

VP. typ
VMAS ty

En el denominador, se tiene la varianza del diseo MAS con el


estimador usual, y en el numerador la varianza con el nuevo
diseo P y el estimador que se vaya a utilizar, bajo el supuesto
que el tamao de muestra de ambos diseos es similar en
magnitud. Si el valor del deff es menor que uno, el diseo es ms
preciso que el MAS y es menos preciso en caso contrario.
Para el clculo de tamaos de muestra por esta va, se utilizan
datos de estudios previos para obtener una aproximacin del
tamao del deff con la combinacin de diseo y estimador que se
ha escogido. Luego, se involucra el deff en el clculo del tamao
de muestra, multiplicando la varianza esperada por el deff.

Muestreo 30

2.2.

MUESTREO SISTEMTICO
Consiste en la seleccin de unidades partiendo de un marco de lista
numerado, seleccionando en forma aleatoria la primera unidad a ser
incluida en la muestra y de ah en adelante saltando con un intervalo de
seleccin K; si la primera unidad seleccionada es la j-sima, la muestra
estar compuesta por los elementos {j, j+k, j+2k, }. Una vez que la
primera unidad ha sido seleccionada ya est determinada toda la
muestra; solamente existen k posibles muestras.
Ejemplo
Suponga una poblacin objetivo compuesta por 70 fincas de las cuales
se desea seleccionar una muestra de tamao n = 10 utilizando un diseo
sistemtico.
Para seleccionar la muestra con este diseo, se siguen los siguientes
pasos:
1. Determine el intervalo de seleccin:
k

N 70

7
n 10

2. Genere un nmero aleatorio entre 1 y k. Suponga que el elegido es


4.
3. La muestra est conformada por los elementos {4, 4+7, 4+(2x7), };
esto es:
Muestra = {4, 11, 18, 25, 32, 39, }
Tabla 5. Ejemplo Muestreo Sistemtico. Muestra seleccionada
1
1
8
15
22
29
36
43
50
57

2
2
9
16
23
30
37
44
51
58

arranque aleatorio
3
4
5
3
4
5
10
11
12
17
18
19
24
25
26
31
32
33
38
39
40
45
46
47
52
53
54
59
60
61

6
6
13
20
27
34
41
48
55
62

7
7
14
21
28
35
42
49
56
63

Muestreo 31

64

65

66

67

68

69

70

Ventajas:

Aunque ambos parten de un marco de lista de elementos, la


seleccin es ms fcil de llevar a cabo en el sistemtico que en el
MAS.

En los casos en que los elementos son reas geogrficas, la muestra


queda uniformemente dispersa a lo largo de la poblacin

Los procedimientos de estimacin son sencillos

Puede ser utilizado en muestras de reas en la ltima etapa de


seleccin, para llevar a cabo la seleccin de muestra en forma
simultnea con el enlistamiento. En este caso, se usa el mtodo de
seleccin circular y aproximaciones al total de elementos del marco.

Desventajas:

Como la muestra cuenta con dispersin geogrfica, puede ser


costoso llevar a cabo entrevistas personales.

Su nivel de precisin se ve afectado por el orden en que los


elementos se encuentren en el marco; en particular, si el orden que
tienen las unidades en el marco est relacionado con las
caractersticas de estudio, algunas de las muestras pueden generar
estimaciones muy por debajo o por encima del verdadero valor del
parmetro.
Tabla 6. Ejemplo. Eficiencia del diseo sistemtico

1
31
23
40
43
32

2
40
64
43
69
65

arranque aleatorio
3
4
5
90
102
110
88
60
117
45
58
126
53
60
87
80
81
93

6
79
74
125
109
109

7
156
148
155
101
90

Muestreo 32

30
23
46
49
34

54
66
45
67
46

52
42
56
89
64

109
81
82
51
69

71
72
126
129
124

132
142
93
96
117

140
121
145
112
124

Promedio
muestra

35,1

55,9

65,9

75,3

105,5

107,6

129,2

Promedio real

82,1

82,1

82,1

82,1

82,1

82,1

82,1

En el caso de muestreo sistemtico con una rplica, no es posible utilizar


directamente las frmulas de varianza del diseo para determinar la
precisin de los estimadores.

Grfico 7. Esquema grfico del diseo sistemtico

2.2.1 Sistemtico con ms de una rplica


El diseo sealado es un sistemtico con una rplica, es decir, se
utiliza un solo arranque aleatorio entre 1 y k. Cuando se desea
una muestra con ms de un arranque aleatorio (r= 2, 3
arranques) se determina como longitud del intervalo k
seleccionan r nmeros aleatorios entre 1 y k.
arranques se salta con intervalo k.

N
r y se
n

Para ambos

Muestreo 33

Tabla 7. Ejemplo Muestreo Sistemtico. Muestra seleccionada con dos


rplicas
1
1
15
29
43
57

2
2
16
30
44
58

3
3
17
31
45
59

4
4
18
32
46
60

arranque aleatorio
6
7
8
9
6
7
8
9
20
21
22
23
34
35
36
37
48
49
50
51
62
63
64
65

5
5
19
33
47
61

10
10
24
38
52
66

11
11
25
39
53
67

12
12
26
40
54
68

13
13
27
41
55
69

14
14
28
42
56
70

2.2.2 Control del tamao de muestra


En los ejemplos presentados, el tamao de muestra que se desea
es mltiplo del tamao de la poblacin, de manera que k resulta
un nmero entero y cualquiera de las muestras que se seleccione
tiene el mismo tamao. Este no siempre es el caso; si por
ejemplo, sobre una poblacin de tamao N=70 se desea
seleccionar una muestra de tamao n=6, el intervalo de seleccin
resulta no entero,

N
k 11.7 y las posibles muestras tienen
n

distinto tamao como se muestra en la Tabla 8.


Tabla 8. Ejemplo Muestreo Sistemtico. Muestra seleccionada con dos
rplicas
1
1
12
23
34
45
56
67

2
2
13
24
35
46
57
68

3
3
14
25
36
47
58
69

4
4
15
26
37
48
59
70

arranque aleatorio
5
6
7
5
6
7
16
17
18
27
28
29
38
39
40
49
50
51
60
61
62

8
8
19
30
41
52
63

9
9
20
31
42
53
64

10
10
21
32
43
54
65

11
11
22
33
44
55
66

En este caso se plantean dos posibles soluciones para controlar el


tamao de muestra:
Mtodo del intervalo fraccional: Consiste en calcular el intervalo
k no entero y al saltar, escoger el elemento redondeando
siempre por encima.

Muestreo 34

Mtodo de seleccin circular: En este mtodo, se define como


intervalo el entero ms cercano a

N
y para la seleccin, se eligen
n

los arranques aleatorios entre 1 y N; se salta en forma circular,


continuando con el primer elemento despus del ltimo del marco.

Muestreo 35

3. MUESTREO CON PROBABILIDAD PROPORCIONAL AL


TAMAO
Los mtodos de muestreo aleatorio simple y muestreo sistemtico funcionan
bien cuando los elementos que constituyen la poblacin objetivo son
relativamente similares en las caractersticas de estudio; en otro caso y cuando
se dispone de informacin auxiliar a nivel del marco de muestreo, es posible
utilizar esta informacin para generar estrategias de muestreo ms eficientes:
esto es, que proporcionen igual o mayor precisin con un menor tamao de
muestra.
Uno de estos mtodos es el muestreo con probabilidad proporcional al tamao;
en l se utiliza la informacin auxiliar para generar distintas probabilidades de
seleccin a los elementos de la poblacin, en funcin de una variable que
permita identificar su tamao, suponiendo que existe una relacin entre las
variables de estudio y las auxiliares de que se dispone. Ejemplos tpicos de
utilizacin de estos mtodos se observan en las encuestas econmicas, en
donde es posible asignar probabilidades de seleccin a los establecimientos
econmicos en funcin de variables como el total de ventas, personal ocupado
o volumen de activos en periodos anteriores, relacionadas generalmente con
los valores actuales de estas variables.
Grfico 8. Diferencias entre los elementos de la poblacin. Ejemplo

El uso de probabilidades diferenciales para los elementos de la poblacin


permite disminuir la variabilidad en los estimadores. Observando el Grfico 8
puede verse que cuando una unidad reporta valores muy altos o muy bajos con

Muestreo 36

respecto al promedio, la diferencia entre las muestras que la incluyen y las que
no generara una dispersin y consecuentemente una falta de precisin en los
estimadores que no es deseable. Como su nombre lo indica, con los mtodos
proporcionales al tamao un elemento tiene mayor probabilidad cuanto mayor
es su tamao con relacin a la variable utilizada en el diseo.
Existen dos diseos que usan esta proporcionalidad: El PPT que es con
reemplazamiento y el PT que es sin reemplazamiento. El primero es
ampliamente utilizado porque es eficiente y las tareas de seleccin de muestra
y estimacin son sencillas de implementar. El segundo, aunque es ms
eficiente utilizando la misma informacin auxiliar, es menos utilizado porque
requiere de algoritmos especiales para la seleccin de muestra y la estimacin
de varianza es demasiado compleja.
Es importante aclarar que el mtodo es ms eficiente que un diseo que no
involucre informacin adicional (MAS, sistemtico) cuando la informacin
auxiliar es proporcional a las caractersticas de inters que se estudiarn en la
encuesta, y aumenta en eficiencia en la medida en que la relacin de
proporcionalidad sea ms fuerte. Sin embargo, an con asociaciones que
podran considerarse dbiles para la formulacin de modelos de prediccin se
obtienen buenos resultados en comparacin con un MAS. En este mismo
sentido, la validez de los resultados no se compromete si la relacin no es tan
fuerte.
Para la generacin de estimaciones, es importante resaltar que como no la
probabilidad de que una unidad sea incluida en la muestra cambia de unidad en
unidad, es necesario considerar esta probabilidad en los clculos. Si se
suponen probabilidades iguales y se utilizan procedimientos como los del MAS,
los estimadores se sesgan y no apuntan al verdadero valor del parmetro.
Grfico 9. Esquema grfico de los diseos Proporcionales al Tamao

Muestreo 37

3.1

Proporcional al tamao con reemplazamiento - PPT


Utilizando la variable X para la construccin de las probabilidades, asigna
x
pi N i
a la i-sima unidad una probabilidad igual a
de ser
xi
i 1

seleccionada. Hay dos algoritmos reconocidos para hacer la seleccin


de muestra: el mtodo acumulativo total y el mtodo sistemtico.
Ejemplo:
Suponga que se cuenta con una poblacin de 10 fincas sobre la que se
desea estimar el total de produccin del ltimo ao utilizando una
muestra de tamao 4 seleccionada con diseo PPT proporcional al total
de hectreas que tiene cada finca.
Para llevar a cabo la seleccin con el mtodo acumulativo total se
procede conforme a los siguientes pasos:
1. Sobre el marco de unidades, genere la probabilidad de seleccin pi
descrita arriba
2. Acumule las probabilidades para determinar el rango de seleccin
que aplica para cada unidad
3. Genere 4 nmeros aleatorios con distribucin uniforme en el intervalo
(0,1). Suponga que los elegidos son: 0,15003, 0,47345, 0,81275 y
0,85442.
4. La muestra est compuesta por las unidades en cuyos intervalos
estn contenidos los nmeros aleatorios escogidos
Tabla 9. Ejemplo. Seleccin de una muestra PPT con Mtodo Acumulativo
Total
Rango
No.

Finca

Hectreas

Pi

Lmite inferior

Lmite superior

LA LIBERTAD

52

0,050731707

0,050731707

EL REFUGIO

48

0,046829268

0,050731708

0,097560976

Aleatorio

Muestreo 38

Rango
No.

Finca

Hectreas

Pi

Lmite inferior

Lmite superior

Aleatorio

LA CASONA

25

0,024390244

0,097560977

0,12195122

AMANECER

264

0,257560976

0,121951221

0,379512195

YERBABUENA

15

0,014634146

0,379512196

0,394146341

ASTAIZA

350

0,341463415

0,394146342

0,735609756

0,473455993

EL PORVENIR

82

0,08

0,735609757

0,815609756

0,812752937

LA MAGOLA

65

0,063414634

0,815609757

0,87902439

0,8544273

EL PARAISO

78

0,076097561

0,879024391

0,955121951

10

EL REMANSO

46

0,044878049

0,955121952

1.025

TOTAL

0,150034876

Para llevar a cabo esta misma seleccin con el mtodo sistemtico se


procede de la siguiente forma:
1. Sobre el marco de unidades, acumule la variable auxiliar que se utilizar
para la construccin de las probabilidades (Hectreas en este caso)
2. Determine el rango que representa a cada unidad
N

3. Determine el intervalo de muestreo con


k

x
i 1

. Para este caso,

1025
256
4

4. Genere un nmero aleatorio con distribucin uniforme en el intervalo


(0,k). Suponga que el elegido es 196. La primera unidad seleccionada
es aquella en cuyo intervalo cae el arranque aleatorio.
5. Para seleccionar las dems unidades de la muestra, salte a partir del
arranque aleatorio, con intervalo k hasta completar el tamao de muestra
deseado.
Tabla 10. Ejemplo. Seleccin de una muestra PPT con mtodo Sistemtico

Muestreo 39

Intervalo
No.

Finca

Hectreas

Hectreas
acumulado

Lmite inferior

Lmite superior

LA LIBERTAD

52

52

52

EL REFUGIO

48

100

53

100

LA CASONA

25

125

101

125

AMANECER

264

389

126

389

YERBABUENA

15

404

390

404

ASTAIZA

350

754

405

754

EL PORVENIR

82

836

755

836

LA MAGOLA

65

901

837

901

EL PARAISO

78

979

902

979

10

EL REMANSO

46

1.025

980

1.025

TOTAL

Unidades
seleccionadas

1) 196

2) 452 3) 708

4) 964

1.025

Como puede verse, en este ejemplo la finca ASTAIZA, que tiene un gran
tamao en comparacin con las dems result seleccionada dos veces, con el
nmero 452 y el 708. Esto puede suceder porque el diseo es con
reemplazamiento; tambin en una seleccin con el Mtodo Acumulativo Total se
presenta cuando dos o ms de los nmeros aleatorios generados caen dentro
del intervalo de una misma unidad.

Muestreo 40

4.

MUESTREO ESTRATIFICADO

En la seleccin de una muestra con un diseo como el MAS o el sistemtico,


todo est dejado al azar, lo nico que se requiere es un marco de lista de las
unidades que conforman la poblacin objetivo y el uso de nmeros aleatorios.
Cuando se dispone de informacin adicional para cada uno de los elementos,
es posible mejorar la precisin de los estimadores, utilizando un diseo
proporcional como se seala en el captulo 3, o una muestra estratificada.
La estratificacin no es un diseo propiamente dicho como puede hablarse del
MAS o el PPT. Consiste en el uso de informacin auxiliar para asignar a las
unidades del marco a subgrupos denominados estratos los cuales son
disyuntos entre s y homogneos con respecto a las caractersticas de estudio.
Para seleccionar la muestra se efecta una seleccin en cada estrato, en forma
independiente, con un diseo como el MAS, el sistemtico o el PPT. Es posible
utilizar distintos diseos de muestreo en cada uno de estos estratos.
Las principales razones para llevar a cabo un muestreo estratificado son:
1. Porque se cuenta con informacin auxiliar para todas las unidades en el
marco de muestreo, asociada con las caractersticas de inters. La divisin
de la poblacin en grupos homogneos respecto a estas caractersticas
permite obtener una mayor precisin en los estimadores a un menor costo
2. Porque se requieren estimaciones desagregadas para algunas
subpoblaciones o reas geogrficas. Si por ejemplo, en una encuesta a
hogares se requiere desagregar los resultados por nivel socioeconmico, lo
mejor ser clasificar la poblacin en estos grupos para garantizar una
precisin en los estimadores suficiente para hacer esta desagregacin. Esto
es particularmente crtico si el tamao relativo de alguna de las
subpoblaciones requeridas es bajo (10%, 15%, 20%).
3. Cuando se cuenta con informacin auxiliar que permitira aplicar diseos
proporcionales o utilizar estimadores ms eficientes, en algunos pero no en
todos los estratos.
4. Porque hay caractersticas operativas diferenciales para subgrupos de la
poblacin objetivo, como cuando se planea acceder a la poblacin objetivo
por medios distintos (por ejemplo va telefnica en unos casos, entrevista
personal o por correo en otros) o cuando se prev que las tasas de
respuesta variarn entre estratos. Estas diferencias pueden hacer que el
diseo que es eficiente en unas condiciones no lo sea en otras.

Muestreo 41

Ventajas

Al conformar grupos homogneos, es posible obtener estimadores ms


precisos para parmetros globales de la poblacin con similares tamaos de
muestra

Es posible generar estimaciones con buen nivel de calidad para


desagregaciones que hayan sido previstas, aun cuando tengan una baja
participacin en la poblacin

Cuando se cuenta con informacin auxiliar para algunos subgrupos pero no


para toda la poblacin, es posible hacer uso de ella en los estratos en los
que est disponible

Puede ser ms prctico operacional o administrativamente

Desventajas

Se debe disponer de informacin que permita la estratificacin de todos los


elementos del marco muestral.

Se requiere una reestructuracin del marco antes de seleccionar la muestra.

Si la informacin para estratificar no est disponible, su consecucin puede


representar un costo alto para la encuesta.
Grfico 10. Esquema grfico del muestreo estratificado. Ejemplo
Inclusin
Forzosa

PPT

Sistemtico

Muestreo 42

Cuando se planea llevar a cabo una seleccin estratificada, es necesario dar


respuesta a tres interrogantes principales:
1. Cuntos estratos se utilizarn?
2. Cmo se delimitarn los estratos?
3. Cmo se distribuir el tamao de muestra entre los estratos?
En el numeral 4.1 se har referencia a las dos primeras preguntas y la tercera
se tratar en el numeral 4.2.
4.1

Cantidad de estratos y delimitacin


La cantidad de estratos en que se dividir la poblacin y los lmites entre
ellos no siempre quedan a decisin de quien disea la muestra; en los
casos en que la estratificacin obedece a limitantes operacionales o
administrativos o al requerimiento de generar estimaciones para
subgrupos de poblacin, estas dos caractersticas de la estratificacin
estn determinadas de antemano. De otro lado, cuando la estratificacin
obedece al inters de utilizar la informacin auxiliar para mejorar la
precisin de los estimadores y se cuenta con la informacin para todos
los elementos del marco de muestreo, existen mtodos que aproximan a
soluciones ptimas para ambas preguntas.
La cantidad de estratos normalmente se establece como un balance
entre el costo y la mejora en la calidad que se obtiene por una mayor
particin de la poblacin. En general, se comporta como una parbola
invertida en donde se obtienen ganancias cuando se pasa de 3 a 4
estratos por ejemplo, pero a partir de cierto punto el aumento en el
nmero de estratos genera ms costos que beneficios en trminos de la
varianza del estimador. Con ms de cinco estratos de este tipo es raro
que se obtengan ganancias significativamente importantes en la varianza
a menos que las observaciones en efecto tengan un nivel de dispersin
muy alto.
En cuanto a la delimitacin de los estratos, se presenta el mtodo
univariado ms conocido y utilizado, especialmente para la aplicacin de
MAS al interior de todos los estratos. La estratificacin con mtodos
multivariados puede hacerse con herramientas de anlisis de datos como
el anlisis de cluster.

Muestreo 43

4.1.1 Mtodo Raz cum de f (Dalenius y Hodges)


Este mtodo busca construir una cantidad H de estratos,
preestablecida de antemano, en forma tal que se maximice la
homogeneidad de las unidades al interior de los estratos conforme
a una variable auxiliar X, con la que se cuenta para todas las
unidades del marco y que generalmente representa el tamao de
cada unidad.
Para su aplicacin, se procede como sigue:
1. Agrupe las unidades en L grupos determinados por la variable
auxiliar X, construyendo intervalos de amplitud g, para las
unidades con valores ms bajos y ms altos de X, es posible
que se requieran intervalos de mayor amplitud, digamos 2xg o
3xg, en general de amplitud uxg.
2. Establezca la cantidad de unidades que pertenece a cada
grupo, o frecuencia del grupo, denominada f i.
3. Calcule la raz de fi.
4. Si algn intervalo tiene longitud diferente de g, uxg, calcule la
raz de u y multiplique a fi. por esta cantidad
5. Acumule fi o ux fi segn corresponda, a lo largo de los grupos
6. Divida el mximo valor de la variable acumulada entre la
cantidad de estratos preestablecida H, sea sta k
7. Los nuevos lmites para los estratos corresponden a los lmites
inferiores ms cercanos a los H mltiplos de k
Ejemplo:
Suponga que se desea particionar una poblacin compuesta por
1.018 fincas en cuatro estratos, utilizando como informacin
auxiliar el tamao de cada finca, expresado en hectreas.

Muestreo 44

Tabla 11. Ejemplo. Construccin de intervalos con el mtodo Raz cum de f


Tamao (Ha)

Cantidad de
fincas

Menos de 10
De 10 a 20

Amplitud
intervalo

Raz fi

Raz u

Acumulado
Raiz fi *Raz u

442

10

21.02

21.02

299

10

17.29

38.32

De 20 a 30

137

10

11.70

50.02

De 30 a 40

40

10

6.32

56.34

De 40 a 50

28

10

5.29

61.64

De 50 a 60

20

10

4.47

66.11

De 60 a 70

10

2.45

68.56

De 70 a 80

10

2.24

70.79

De 80 a 90

10

1.73

72.53

De 90 a 100

10

2.45

74.98

De 100 a 150

50

3.00

2.24

81.68

fi

De 150 a 200

50

2.45

2.24

87.16

De 200 a 500

12

300

3.46

5.48

106.13

De 500 a 1000

500

2.24

7.07

121.95

Lmtes

30.48

60.97

91.45

Con lo que se obtienen los nuevos estratos:


Tabla 12. Ejemplo. Continuacin. Estratos finales.

4.2

Tamao (Ha)

Cantidad
de fincas

Menos de 20
De 20 a 50
De 50 a 200
Ms de 200

741
205
55
17

fi

Asignacin del tamao de muestra


Costos y precisin son los dos criterios fundamentales con los que se
lleva a cabo la asignacin del tamao de muestra a estratos. Para la
presentacin de los mtodos a continuacin, se supondr que ya se han
definido los H estratos a utilizar y el tamao total de muestra n; Se
determinar entonces el nh correspondiente a cada estrato de manera
L

que

n
h 1

n.

Muestreo 45

4.2.1 Asignacin proporcional


Se utiliza cuando es posible suponer que las dispersiones de la
variable de estudio no difieren en forma importante entre los
estratos; consiste en asignar a cada estrato un tamao de muestra
proporcional a su cantidad de unidades con respecto al total de
unidades de la poblacin. Siendo n el tamao de muestra total,
se determina nh , el tamao de muestra en cada estrato con la
frmula:
nh n

N
Cantidad de unidades en el estrato h
n h
Cantidad de unidades en la poblacin
N

En este tipo de asignacin, al suponer similares niveles de


variabilidad entre estratos, se asume que el impacto que cada
estrato representa sobre el total est determinado por el tamao
del mismo.
4.2.2 Asignacin de Neyman
Cuando se cuenta con informacin acerca de la variabilidad de
alguna caracterstica importante en cada uno de los estratos, es
posible utilizar una asignacin proporcional a una medida de la
dispersin en cada estrato como sigue:

nh n

Nh Sh
L

N
h 1

Sh

Donde S h es la desviacin estndar de la caracterstica de inters


en el estrato h. Con esta asignacin se pretende mejorar la
precisin de las estimaciones sobre el total de la poblacin ms
que los de cada uno de los estratos; en este sentido, se evita el
inconveniente de malgastar el tamao de muestra en estratos que
aporten poca varianza a la estimacin global y para los que no se
requieran desagregaciones y se obtienen niveles de precisin
diferenciales entre estratos.
4.2.3 Asignacin X-proporcional

Muestreo 46

Cuando se observa, por estudios anteriores, que la dispersin de


la caracterstica de inters no es constante entre los estratos pero
s lo es en coeficiente de variacin, es posible llevar a cabo una
asignacin en forma proporcional al total de la variable de estudio
en cada estrato. Como no es posible contar con estos totales en
la fase de planeacin del estudio, se utiliza una variable auxiliar X,
que se supone altamente correlacionada con la caracterstica de
inters y disponible para todas las unidades en el marco.
La asignacin toma entonces la forma:
NL

nh n

x
i 1
N

hi

x
i 1

Con esta asignacin, se mejora la precisin en las estimaciones


globales y se obtienen niveles de precisin diferenciales entre
estratos.
4.2.4 Asignacin de potencia
Cuando se requiere minimizar la variabilidad de los estimadores al
nivel global y tambin al de cada uno de los estratos, herramientas
como la asignacin de Neyman pueden producir estimadores
excesivamente precisos para el total y con niveles de calidad por
debajo de lo deseable para estratos pequeos. En este caso, se
recomienda la asignacin de potencia, que combina los
coeficientes de variacin de la caracterstica de inters (u otra
variable auxiliar altamente correlacionada) y los totales de esta
misma variable en cada estrato. Se tiene:

nh n

(t xh ) a CV xh
L

(t
h 1

xh

) a CV xh

Con a tomando valores entre 0 y 1 inclusive, denominada la


potencia de la asignacin y
CVxh

S xh
xh

Muestreo 47

El coeficiente de variacin de la variable auxiliar X en el h-simo


estrato. Cuando a 1 la asignacin de potencia coincide con la
de Neyman y cuando a 0 se lleva a cabo una asignacin
proporcional a los coeficientes de variacin en los estratos, con lo
que se asegura la misma precisin en todos ellos. Generalmente,
se utilizan valores de a 1 / 2 o a 1 / 3 .
Ejemplo
Para ejemplificar los procedimientos de asignacin de muestra,
suponga que se desea estimar el total de nacidos vivos en
Colombia, en el ao 2007 a partir de una muestra de personas
que se estratifica por regin. Se seleccionar un tamao de
muestra global de 10.000 distribuidas en las distintas regiones.
Adicionalmente, para probar asignaciones con informacin
auxiliar, se cuenta con el total de nacidos vivos en el ao 2006, su
varianza y su coeficiente de variacin.
Tabla 13. Asignacin de tamao de muestra a estratos. Ejemplo
Zona

Poblacin

Nh
BOGOTA
6,740,859
ANDINA
16,597,681
CARIBE
8,880,986
PACIFICO
7,083,712
LLANOS
1,571,104
AMAZONICA
300,511
N
41,174,853

Nacidos vivos 2006


tx
123,649
273,798
167,738
107,201
35,485
6,579
714,450

Sxh
0.0385
0.0396
0.0340
0.0242
0.0610
0.0547

CVxh
2.1000
2.4000
1.8000
1.6000
2.7000
2.5000

Asignacin
Proporcio
nal

Asignacin
de Neyman
con X

Asignacin
X-Proporcio
nal

Asignacin
de potencia
a=1/2

1,637
4,031
2,157
1,720
382
73
10,000

1,728
4,374
2,010
1,141
638
109
10,000

1,731
3,832
2,348
1,500
497
92
10,000

1,862
3,166
1,858
1,321
1,282
511
10,000

Para verificar la forma como funciona cada tipo de asignacin,


suponga que se toman los datos censales correspondientes al ao
2007, con una muestra de este tamao se obtienen los siguientes
coeficientes de variacin:
Tabla 14. Comparacin de la eficiencia de herramientas de asignacin de
tamao de muestra a estratos. Ejemplo (Continuacin)

Zona

Poblacin
Nh

Nacidos vivos
2007
ty
Syh

Asignacin
Proporcional

Asignacin
de Neyman
con X

Asignacin
Asignacin
Xde potencia
Proporcional
a=1/2

Muestreo 48

BOGOTA
ANDINA
CARIBE
PACIFICO
LLANOS
AMAZONICA
N

6,740,859
16,597,681
8,880,986
7,083,712
1,571,104
300,511
41,174,853

126,729
261,211
131,863
101,274
34,604
4,709
660,390

0.0385
0.0396
0.0340
0.0242
0.0610
0.0547

5.1%
4.0%
4.9%
4.1%
14.2%
40.9%
2.32%

4.9%
3.8%
5.1%
5.0%
11.0%
33.4%
2.27%

4.9%
4.1%
4.7%
4.4%
12.4%
36.4%
2.30%

4.7%
4.5%
5.3%
4.7%
7.7%
15.4%
2.40%

Observe que la asignacin proporcional, la de Neyman y la XProporcional, minimizan el coeficiente de variacin de la


estimacin global (2.32%, 2.27% y 2.3%) generando estimaciones
de baja precisin para las regiones de Llanos y Amaznica, en
contraste, la asignacin de potencia genera una estimacin
ligeramente menos precisa para el total global pero proporciona
estimaciones de mejor calidad para los estratos, especialmente
estos ltimos. Si el objetivo es hacer ms precisa la estimacin
total, la mejor asignacin para estos datos sera la de Neyman, en
tanto que si se desean estimaciones por estratos, sera ms
conveniente utilizar la de potencia.

Muestreo 49

5.

MUESTREO DE CONGLOMERADOS Y MUESTREO


MULTIETPICO

El muestreo de conglomerados y el muestreo multitapico, al igual que el


muestreo estratificado, no corresponden a diseos de muestreo como pueden
serlo el MAS o el PPT. En su lugar, son herramientas que pueden ser utilizadas
en combinacin con la estratificacin y con diseos de muestra para seleccionar
las unidades que se entrevistarn para representar a la poblacin objetivo.
En todos los casos estudiados anteriormente, es necesario contar con un marco
de muestreo que permita acceder directamente a las unidades que conforman
la poblacin objetivo, esto es, de un marco de elementos. No siempre es
posible disponer de un marco de estas caractersticas y su construccin puede
ser excesivamente costosa para la encuesta; adicionalmente, la dispersin
geogrfica caracterstica de las muestras de elementos puede generar
inconvenientes con la supervisin y ejecucin del operativo y con los costos
asociados a este proceso, especialmente acentuados para poblaciones de gran
tamao.
Como respuesta a esta situacin, se presentan el muestreo de conglomerados
y el muestreo multietpico, que brindan alternativas cuando no se dispone de
marcos de elementos o cuando una excesiva dispersin geogrfica de la
muestra es indeseable.

5.1

MUESTREO DE CONGLOMERADOS
Consiste en la divisin de la poblacin objetivo en grupos, tambin
denominados conglomerados o clusters, disyuntos entre s, y la seleccin
de una muestra de grupos para representar al total de la poblacin,
utilizando un diseo de muestreo como los mencionados. Todas las
unidades que pertenecen a los conglomerados seleccionados, se
consideran seleccionadas y no pertenecen a la muestra unidades de
conglomerados que no han sido seleccionados; en este sentido, difiere
del muestreo estratificado en el que se lleva a cabo una seleccin en
todos los grupos (estratos) y solo pertenecen a la muestra algunas
unidades de cada estrato.
En general, los grupos que se utilizan para el muestreo de
conglomerados son agrupaciones naturales de la poblacin, como los
estudiantes de un curso, las viviendas de un rea geogrfica
determinada o las personas que pertenecen a un hogar. Tambin es

Muestreo 50

posible que sean conformados como parte de la planeacin de la


encuesta.
Ejemplo
Se pretende llevar a cabo una encuesta sobre rendimientos acadmicos
de los estudiantes de educacin bsica en una ciudad; si bien a partir de
los registros de establecimientos educativos es posible contar con un
marco de estudiantes, la seleccin de una muestra de elementos y la
consiguiente visita y entrevista de 1 o 2 estudiantes en un buen nmero
de colegios puede ser excesivamente costosa.
Ejemplo
Se desea estudiar a travs de una encuesta por muestreo, las
caractersticas de planificacin familiar de las mujeres entre 12 y 49 aos
en el rea urbana de una ciudad; en este caso, no se dispone de un
marco de mujeres con estas caractersticas sobre el cual seleccionar una
muestra; en su lugar, se utiliza un marco de reas compuesto por
manzanas cartogrficas y se entrevista a todas las mujeres que cumplan
con el rango de edad y que residan en las manzanas seleccionadas.
El uso del muestreo por conglomerados en lugar del muestreo
directamente de elementos se traduce en una prdida de precisin para
un tamao de muestra dado; en este sentido, una muestra aleatoria
simple de 2000 estudiantes tiene mayor precisin que una muestra
aleatoria simple de 100 cursos de 20 estudiantes cada uno. Esto se
presenta porque las unidades que se presentan agrupadas en
conglomerados tienden a presentar caractersticas similares con lo que
es posible que se requiera una mayor cantidad de grupos para captar el
espectro de distintos comportamientos en la poblacin. Considerando los
ejemplos presentados, puede observarse que el rendimiento acadmico
de estudiantes que comparten un curso, se ve influenciado por aspectos
como el profesor que lo dicta o el ambiente de exigencia del grupo, con
lo que podra esperarse cierto nivel de homogeneidad.
Adicionalmente, la seleccin de conglomerados puede llevar a ligeras
desviaciones del tamao de muestra originalmente planteado; en el
ejemplo anterior, es posible que alguno de los cursos seleccionados no
tenga exactamente 20 estudiantes con lo que el tamao de muestra total
puede ser diferente de las 2000 unidades que se esperaban.

Muestreo 51

Ventajas

Es posible utilizarlo aun cuando no se cuente con un marco de


elementos de la poblacin objetivo

Los tiempos de desplazamiento y los costos para entrevistas


personales son inferiores a los del muestreo de elementos, como
resultado de la menor dispersin geogrfica de la muestra

Como solo se requiere un marco de conglomerados, es ms fcil


acceder a informacin auxiliar que permita implementar diseos ms
eficientes en trminos de precisin

Desventajas

Es menos preciso que una muestra de elementos del mismo tamao


y seleccionada con el mismo diseo; en este sentido, es posible que
se requiera un mayor tamao de muestra total para alcanzar el nivel
de precisin deseado.

Grfico 11. Esquema grfico del muestreo de conglomerados

Muestreo 52

5.1.1 Probabilidades de inclusin del muestreo de conglomerados


Considerando que la seleccin de muestra se hace sobre grupos
de unidades, cada unidad tiene como probabilidad de inclusin la
que corresponde al grupo en que se encuentra.
5.1.2 Eficiencia del muestreo de conglomerados
Como se mencion anteriormente, una muestra de
conglomerados tiene menor precisin que una de elementos de
igual tamao y seleccionada con el mismo tipo de diseo. Esta
prdida de precisin est asociada con dos factores: la
variabilidad en la cantidad de unidades que componen los
conglomerados y el nivel de homogeneidad que se presente en su
interior con respecto a las caractersticas en estudio. Cuando es
posible elegir entre distintos tipos de conglomerado (para reas
geogrficas, por ejemplo, podra escogerse el sector, la seccin o
la manzana), es importante considerar que un conglomerado de
mayor tamao tiene ms posibilidades de presentar baja

Muestreo 53

homogeneidad, pero puede incrementar los costos del estudio.


Para el diseo de muestra, es necesario contar con informacin
que permita aproximarse al verdadero nivel de homogeneidad de
las unidades e incluirlo en el proceso de clculo de tamao de
muestra.

5.2

MUESTREO MULTIETPICO
El muestreo multietpico est relacionado con el muestreo de
conglomerados en el sentido de seleccionar grupos de unidades en una
primera instancia; sin embargo, en el multietpico no se entrevista a
todas las unidades que conforman el grupo sino que se selecciona una
muestra de unidades en cada uno de los grupos seleccionados. Es
posible seleccionar muestras en dos, tres o ms etapas.
Ejemplo
En un estudio nacional urbano sobre las caractersticas de los hogares
que tienen personas residentes en el exterior, se selecciona una muestra
en tres etapas as:
1. Sobre un listado de distritos del pas, se selecciona una muestra
2. En cada uno de los distritos seleccionados se identifica el listado de
manzanas que compone el rea urbana
3. Se lleva a cabo una seleccin de manzanas en cada distrito
seleccionado
4. En cada manzana seleccionada se construye un listado de los
hogares residentes
5. Se selecciona una muestra de hogares para ser entrevistada, en cada
una de las manzanas seleccionadas.
Ejemplo
Para el estudio de rendimiento acadmico de estudiantes de primaria en
una ciudad, se utiliza una muestra seleccionada en dos etapas como
sigue:

Muestreo 54

1. A partir de un marco de establecimientos educativos de la ciudad, se


selecciona una muestra con diseo proporcional a la cantidad de
estudiantes de cada establecimiento
2. En cada establecimiento, se elabora el listado de estudiantes que
asisten regularmente y se selecciona la muestra de estudiantes que
participar en la encuesta.
Para la aplicacin de esta herramienta, suele partirse de la jerarqua
natural existente entre los grupos (personas en hogares, hogares en
manzanas, manzanas en sectores, sectores en municipios, ); tambin
puede hacerse una construccin de los grupos en cada una de las
etapas del diseo de muestra.
Como se observa en los ejemplos anteriores, una de las mayores
ventajas del muestreo multietpico es que solo se necesita la
consecucin o construccin de los marcos de muestreo de una etapa
para los grupos que han sido seleccionados en la etapa anterior.
Revisando el primer ejemplo presentado, solamente es necesaria la
construccin del listado de hogares en las manzanas que se
seleccionaron para la muestra, lo que tiene un gran efecto en los tiempos
y costos de la encuesta.
Adicionalmente, el muestreo multietpico comparte con el de
conglomerados la ventaja de concentrar la muestra geogrficamente,
facilitando el control y ejecucin del operativo de recoleccin de
informacin.
5.2.1 Probabilidades de inclusin del muestreo multietpico
Las probabilidades finales de inclusin de un elemento en la
muestra, se calculan multiplicando las probabilidades en cada una
de las etapas del diseo as: para el ejemplo de migracin:
Probabilidad de incluir un hogar =
(Probabilidad de incluir el distrito en el que est) * (Probabilidad de
incluir la manzana en que est) * (Probabilidad de incluir el hogar
en la manzana)
5.2.2 Eficiencia del muestreo multietpico

Muestreo 55

Con esta herramienta, al igual que con la de conglomerados, se


obtiene un menor nivel de precisin en comparacin con una
muestra de elementos del mismo tamao y seleccionada con
diseos comparables. Sin embargo, la ventaja de requerir marcos
de muestreo para cada una de las etapas facilita la consecucin
de informacin auxiliar que permita mejorar la precisin de los
estimadores. En este caso, la determinacin del tamao de
muestra se hace etapa por etapa, considerando la variabilidad que
aporta cada etapa de seleccin a la varianza final de los
estimadores globales; se determinan tamaos de muestra para
cada etapa, que pueden ser diferenciales entre grupos de
elementos.
Ejemplo
Considerando nuevamente el ejemplo de migracin, es necesario
establecer en primera instancia el tamao de la muestra de
distritos y a continuacin, el nmero de manzanas a seleccionar
en cada uno y el de hogares que se tomarn en cada manzana.
Si hay diferencias importantes entre la magnitud de los distritos,
es posible requerir tamaos diferenciales en las muestras de
manzanas y de hogares.
Grfico 12. Esquema grfico del muestreo multietpico

Etapa 1

Etapa 2.

Elementos

Muestreo 56

6. PROCEDIMIENTOS DE ESTIMACIN
Usualmente, el objetivo que se persigue al implementar una encuesta por
muestreo es obtener informacin sobre una poblacin determinada; sin
embargo, como la recoleccin de datos se lleva a cabo solo para una muestra
de unidades, es necesario efectuar un proceso que permita extrapolar los
resultados de la muestra al conjunto total de unidades que conforman la
poblacin de la cual sta fue seleccionada.
La estimacin es el proceso de encontrar un valor plausible para una
caracterstica de la poblacin objetivo, basados en los datos recolectados en la
muestra. Estas caractersticas de inters pueden expresarse generalmente con
estadsticas como totales, promedios, proporciones o razones de las distintas
variables; como ejemplo, sobre una encuesta para medir qu hace la gente con
su tiempo libre, es posible estar interesado en la estimacin de:

El porcentaje de personas que ha asistido al menos a una funcin de teatro


en los ltimos doce meses (Proporcin Razn)

El consumo promedio per-cpita anual en libros, msica o cine (Promedio)

El gasto total anual de los hogares en bienes de consumo cultural (Total)

La relacin entre la cantidad total de hombres y mujeres que tiene acceso a


los servicios culturales, como medida de desigualdad (Razn)

Como se seal en el numeral 1.4.2, cuando la muestra que se seleccion es


no probabilstica, la extrapolacin de los resultados de la muestra hacia la
poblacin se hace utilizando los supuestos que motivaron este tipo de muestra
(suficiente homogeneidad en la poblacin objetivo, conocimiento de parte de
expertos, etc.) y no sigue los criterios de la inferencia estadstica ni es posible
contar con medidas estadsticas de su calidad.
Cuando la muestra es
probabilstica, se utiliza la inferencia estadstica a partir de las probabilidades
inducidas en diseo de muestreo utilizado; en este caso, se emplea el factor
de expansin que, dependiendo del diseo y estimadores a utilizar, es el
inverso de la probabilidad de inclusin o de la probabilidad de seleccin de cada
elemento y que indica el nmero de unidades de la poblacin que son
representadas por cada unidad de la muestra.

Muestreo 57

6.1

Principios generales del proceso de estimacin


El proceso de estimacin se inicia determinando el factor de expansin
que corresponde a cada unidad de la muestra, conforme al diseo
utilizado para la seleccin de la muestra y el estimador elegido para
llevar a cabo la estimacin.
Para los diseos de muestra sin reemplazamiento como el Muestreo
Aleatorio Simple, el Sistemtico o el PT, se utiliza un estimador
denominado -estimador o estimador de Horvitz-Thompson, que
emplea como factor de expansin el inverso de la probabilidad de
inclusin de cada unidad en la muestra.
En los diseos con reemplazamiento como el PPT, el estimador ms
frecuentemente empleado se denomina MCR-estimador y utiliza el
inverso del producto entre la probabilidad de seleccin de cada unidad y
el tamao de muestra, como factor de expansin.
Para el proceso de estimacin, se multiplica el valor obtenido en cada
variable para cada unidad por el factor de expansin que le corresponde
a la unidad, como ponderador o peso y se hace el clculo de la
estimacin siguiendo el mismo procedimiento que se seguira para el
clculo del parmetro en la poblacin total, esto es, se suma para
calcular un total, se promedia para calcular un promedio y as.
A continuacin, se presenta el factor de expansin correspondiente a los
diseos presentados en este documento: Muestreo Aleatorio Simple
MAS, Sistemtico y Proporcional al Tamao con Reemplazamiento, PPT.
1. Muestreo Aleatorio Simple MAS:
f exp

N
n

Con N el total de unidades en la poblacin objetivo y


muestra seleccionado
2. Sistemtico:
f exp

k
r

n el tamao de

Muestreo 58

Con k el intervalo de seleccin y


aleatorios utilizado.
3. Muestreo

con Probabilidad
reemplazamiento - PPT:

r el nmero de rplicas o arranques


Proporcional

f exp

1
1

( n) p i n

i 1

con

xi

Tamao

al

Con n el tamao de muestra seleccionado y X la variable utilizada para


construir las probabilidades de seleccin del diseo.
Para la estimacin de los parmetros que involucran variables
cuantitativas (discretas o continuas), es frecuente proceder directamente
con las variables que se han recolectado, despus de los procesos de
consistencia e imputacin; esto pasa por ejemplo con variables como las
ventas mensuales de los establecimientos econmicos, el gasto total
efectuado por hogares en algn rubro o el rea total sembrada en
determinado cultivo. En otros casos, cuando las variables involucradas
son cualitativas, y aparecen codificadas (1 Hombres, 2 Mujeres por
ejemplo) se acostumbra generar variables indicadoras o dummy, que
representan cada una de las categoras de la variable. Como ejemplo,
considere:
1 si k es mujer
0 en otro caso

Xk

1 si k es hombre
2 si k es mujer

Zk

1 si k es hombre
0 en otro caso

Otro caso que se presenta es el de la necesidad de determinar la


pertenencia de una unidad a un dominio de estudio esto es, a un
subconjunto de la poblacin determinado por ciertas caractersticas, por
ejemplo: las mujeres en edad frtil (mujeres de 12 a 49 aos), la
poblacin econmicamente activa (hombres y mujeres mayores de 12
aos que trabajaron o buscaron empleo en la semana de referencia) o
las pequeas empresas (que tienen entre 11 y 50 trabajadores); puede
ser necesario combinar varias variables para determinar la pertenencia

Muestreo 59

de una unidad en la muestra a una de estas subpoblaciones.


Operacionalmente, esto se resuelve creando indicadoras para las
categoras de las variables involucradas y multiplicando estas variables
para definir el dominio, como en el siguiente ejemplo para las mujeres en
edad frtil:

X1k

1 si k es mujer
0 en otro caso

1 si k es hombre
2 si k es mujer

X 2 k Edad en aos cumplidos

Zk

1 si k tiene entre 12 y 49 aos


0 en otro caso

El dominio de estudio en este caso, corresponde al producto Yk Z k .


Utilizando este mtodo, las nuevas variables indicadoras son las que se
emplean en el proceso de estimacin.

6.2

Estimacin de algunos parmetros frecuentes


A partir de una encuesta por muestreo usualmente se estiman totales,
promedios, proporciones o razones. Si bien en algunos casos se
requiere otro tipo de parmetro, como medianas, covarianzas o
coeficientes de regresin, stos no sern tratados en este documento.
El proceso de estimacin de estos parmetros, depende del tipo de
estimador a utilizar y del diseo con que se haya seleccionado la
muestra, que se traduce en la forma que asumen los factores de
expansin. A continuacin se presenta la frmula que asume el
estimador en cada tipo de parmetro, suponiendo que para los diseos
sin reemplazamiento, se trabaja con el estimador de Horvitz Thompson
y para los diseos con reemplazamiento, con el MCR-Estimador. Esta
diferencia est implcita en la definicin de los factores de expansin que
se da en el numeral 6.1 Principios generales del proceso de estimacin.
6.2.1 Totales
Un parmetro del tipo total es la suma sobre la poblacin objetivo
de una variable determinada.

Muestreo 60

Ejemplos:
1. El total de ventas de los establecimientos de comercio en una
ciudad
2. El total de personas que asisti a teatro al menos una vez al
mes en el ltimo ao
3. El rea total nacional sembrada en arroz
Para su estimacin se emplea la frmula:
n

ty y i f exp
i 1

Sumando sobre la muestra n el producto entre la variable de


inters y el factor de expansin. En los casos en que la variable es
cualitativa la variable que participa en el clculo es la indicadora
correspondiente a la categora para la que se desea estimar el
total. La notacin con gorrito que aparece sobre la t sirve para
diferenciar el valor del parmetro y el estimador.
En los ejemplos 1 y 3, la variable y corresponde al dato de ventas
reportado por cada establecimiento en la muestra y al rea
sembrada en arroz en cada una de las fincas seleccionadas
respectivamente. En el ejemplo 2, la variable involucrada es la
indicadora que toma el valor 1 cuando la persona ha asistido a
teatro al menos una vez al mes en el ltimo ao y 0 en otro caso.
Ejemplo 1. MAS
Suponga que se desea estimar el total de ventas del mes anterior
de los establecimientos de comercio de la ciudad de Arequipa.
Para este fin, sobre un listado de 240 establecimientos se
selecciona una muestra de 13 utilizando Muestreo Aleatorio
Simple MAS. Los datos recolectados son:
Tabla 15. Estimacin de totales. Ejemplo MAS
No.
6
102
34

Establecimiento
Almacn La 4
Distribuidora Espinal
Ropa FASHION

fexp = N/n

Total de
ventas

Yi*fexp

240
240
240

13
13
13

18.462
18.462
18.462

850,600
186,400
80,200

15,703,385
3,441,231
1,480,615

Muestreo 61

No.

Establecimiento

5
15
204
158
72
156
51
123
172
220

Venta de Quesos Arturo


Zapatos Ganga
Cacharrera Mi pueblo
Venta de ropa Anita
Tienda La esquina
Estanco
Ferretera Su casa
Electrodomsticos VIP
Autopartes de la 12
Tienda Pedro
TOTAL ESTIMADO

fexp = N/n

Total de
ventas

240
240
240
240
240
240
240
240
240
240

13
13
13
13
13
13
13
13
13
13

18.462
18.462
18.462
18.462
18.462
18.462
18.462
18.462
18.462
18.462

65,000
160,000
45,000
45,200
36,800
68,700
32,000
320,000
87,000
65,800

Yi*fexp
1,200,000
2,953,846
830,769
834,462
679,385
1,268,308
590,769
5,907,692
1,606,154
1,214,769
37,711,385

Ejemplo 2. PPT
Utilizando la informacin del ejemplo de seleccin PPT con
mtodo sistemtico (Tabla 10), se estima el total de rea
sembrada en arroz:
Tabla 16. Estimacin de totales. Ejemplo PPT

No.
4
6
6
9

Finca

rea
(Ha)

AMANECER
264
ASTAIZA
350
ASTAIZA
350
EL PARAISO
78
TOTAL ESTIMADO

rea
sembrada
Pi
en arroz
(Ha)
0.257560976 0.970643939
210
0.341463415 0.732142857
300
0.341463415 0.732142857
300
0.076097561 3.28525641
0
fexp = 1/
(n*pi)

Yi*fexp
203.84
219.64
219.64
0.00
643.12

Observe que en este caso, la diferencia entre las reas de la finca


Astaiza y las dems hicieron que sta saliera seleccionada dos
veces; para la estimacin del total, se duplica su informacin (una
para cada vez que sali seleccionada) y su factor de expansin
as como el de Amanecer, son menores que 1 previendo la
posibilidad de este fenmeno.
6.2.2 Promedios

Muestreo 62

Un promedio es la suma de una variable cuantitativa, dividido por


el total de elementos en la poblacin objetivo. Para efectos de
estimacin, se supone que el total de elementos es conocido y
que no se estima a partir de la muestra, en cuyo caso se trabaja
como si fuese un parmetro de tipo razn.
Ejemplos:
1. Edad promedio de ingreso a la escuela primaria
2. Promedio de personas ocupadas en los establecimientos
industriales que se dedican a la manufactura de cuero
3. Gasto anual promedio por hogar en alimentos
La frmula empleada para la estimacin es:
n

f exp
i 1

N
Con N el tamao conocido de la poblacin. En el ejemplo 1, la
variable y es la edad a la que se ingresa a la escuela y N es el
total de personas de la poblacin; en el ejemplo 2, la variable
involucrada es la cantidad de personas ocupadas y N es la
cantidad conocida de establecimientos industriales dedicados a la
manufactura de cuero, que puede ser una porcin de la poblacin
objetivo pero para la que el tamao debe ser conocido; en el
ejemplo 3, la variable corresponde al gasto anual en alimentos
reportado por cada hogar en la muestra y N es el total de hogares
en la poblacin. Como se mencion arriba, cuando la cantidad de
unidades no es conocida de antemano sino que se estima a partir
de la muestra, se utiliza la definicin de razn que se presenta en
el numeral 6.2.4.
Ejemplo 1. MAS
Utilizando la misma informacin del ejemplo 1 en el numeral 6.2.1,
suponga ahora que se desea estimar el promedio de ventas por
establecimiento. Basta con dividir el total estimado obtenido por el
tamao conocido de la poblacin (240) con lo que se obtiene un
promedio de ventas por establecimiento de $157.131 en el mes
anterior.

Muestreo 63

6.2.3 Proporciones
Una proporcin es un parmetro anlogo al promedio en donde la
variable que participa en la estimacin es de tipo cualitativo y por
tanto, se trabaja con la indicadora que representa la categora de
inters. Para este caso, se supone que el numerador est
contenido en el denominador y que el total de unidades N es
conocido y no se estima; cuando es necesario estimarlo, se utiliza
la definicin de razn del numeral 6.2.4. En general, se habla de
porcentajes ms que de proporciones, multiplicando stas por
100.
Ejemplos:
1. Porcentaje de personas que reside en una vivienda propia
2. Porcentaje de mujeres que ha tenido al menos un hijo nacido
vivo
3. Porcentaje de establecimientos econmicos con 10 o menos
personas ocupadas
La frmula de la estimacin, idntica a la de los promedios salvo
por la notacin es:
n

I
i 1

f exp

N
En este caso, se nota como I la variable involucrada, para
recordar que se trata de una variable indicadora o dummy y no de
una variable continua.
Haciendo referencia a los ejemplos, puede verse que es necesario
construir las variables indicadoras correspondientes a cada caso
(por ejemplo el tipo de tenencia de la vivienda normalmente no se
encuentra entre las caractersticas de las personas y es necesario
hacer algo adicional para generar la indicadora) y que,
dependiendo de cmo se construya la proporcin, el denominador
puede ser el tamao total de la poblacin o de una subpoblacin
de sta; en el ejemplo 2, el porcentaje tiene sentido si se calcula
sobre el total de mujeres o sobre el total de mujeres en edad frtil.
Ejemplo 1. MAS

Muestreo 64

Suponga que para estudiar las caractersticas de tenencia de la


vivienda, se selecciona una muestra de 250 personas sobre un
marco que contiene las 250.000 personas pertenecientes a la
poblacin objetivo. Los resultados de la muestra son:
Tabla 17. Estimacin de proporciones. Ejemplo MAS
Personas por condicin
de tenencia de la
vivienda

Total

Propia, pagndola
Propia, totalmente pagada
En arriendo
En usufructo
En otra condicin
Total

143
21
75
3
8
250

250,000
250,000
250,000
250,000
250,000

fexp =
N/n

Total
Estimado
Total*fexp

250
250
250
250
250

1,000
1,000
1,000
1,000
1,000

143,000
21,000
75,000
3,000
8,000

Porcentaje
estimado
Total
estimado / N
57.20%
8.40%
30.00%
1.20%
3.20%

Puede verse que cuando el diseo garantiza iguales


probabilidades de inclusin a todos los elementos, la estimacin
del promedio con denominador conocido coincide con el clculo
de promedios directamente sobre la muestra.
6.2.4 Razones
Las razones son el cociente entre dos totales, en donde es
necesario estimar tanto el numerador como el denominador; junto
con los totales, son los parmetros ms frecuentemente
estimados en una encuesta por muestreo; los casos de promedios
y proporciones en donde el total de unidades de la poblacin es
desconocido y se requiere su estimacin a partir de la muestra
pertenecen a esta categora; se incluyen los casos en donde el
numerador est contenido en el denominador (como en el caso de
proporciones) y el caso ms general en donde esto no sucede.
Es importante sealar que en algunos casos, a pesar que el
denominador de un promedio o proporcin sea conocido, se
prefiere estimarlo y trabajar entonces como si se tratara de una
razn; el estimador en este caso tiene menor variabilidad como se
explica en ms detalle en el captulo 7. Estimacin de varianza y
error de muestreo.
Ejemplos:

Muestreo 65

1. Tasa de desempleo: Cociente entre el total de poblacin


desocupada y el total de poblacin econmicamente activa
2. Aos promedio de escolaridad de los nios entre 10 y 12 aos
3. Relacin nios-mujer: Cociente entre el total de nios menores
de 5 aos y el total de mujeres en edad frtil
El estimador toma la forma:
n

ty

tz

y
i 1
n

z
i 1

f exp

f exp

En el primer ejemplo, la variable y corresponde a la indicadora de


pertenencia a la poblacin desocupada y la variable z a la
poblacin econmicamente activa, este caso es el de una
proporcin ya que el numerador est contenido en el
denominador; se estima ste.
En el segundo ejemplo, la variable y corresponde a los aos de
escolaridad de cada persona, es cuantitativa y discreta y est
restringida al rango de edad 10-12 aos, lo que quiere decir que
vale 0 para cualquier persona fuera de este rango; la variable z
corresponde al total de poblacin en este rango de edad que,
generalmente, no se conoce de antemano.
En el tercer ejemplo, el numerador y denominador corresponden a
dos subpoblaciones que no estn contenidas una en la otra,
siendo este el caso ms generalizado de razones. La variable y
corresponde a la indicadora de pertenencia a poblacin entre 0 y 5
aos y la variable z a la poblacin femenina con edades entre 12 y
49 aos.
Para la estimacin de razones, siguiendo la frmula presentada,
se llevan a cabo estimaciones del numerador y denominador y
luego se efecta su cociente.
Cuando se desea hacer
estimaciones desagregadas por alguna clasificacin geogrfica
por ejemplo, (departamentos, regiones), sea necesario calcular los
totales y los cocientes a cada nivel de desagregacin.
Ejemplo 1. MAS

Muestreo 66

Considere nuevamente el ejemplo MAS del caso de proporciones.


Si se estima el denominador a partir de los datos de la muestra en
un diseo MAS de elementos, el resultado es el tamao del
universo N, con lo que la estimacin de razn y de proporcin, as
como la de razn y promedio coinciden.
Ejemplo 2. MAS
Suponga que se desea estimar la relacin nios-mujer utilizando
la misma muestra MAS empleada en el ejemplo 1 del numeral
6.2.3, sobre una poblacin objetivo de tamao 250.000 y una
muestra de 250 personas. Se tiene:
Tabla 18. Estimacin de razones. Ejemplo MAS

Sexo

Hombres

Mujeres

Edad

0-4 aos
5-11 aos
12-49 aos
50 aos y ms
0-4 aos
5-11 aos
12-49 aos
50 aos y ms

Total

fexp = N/n

Yi
Indicadora
Menor de
5
aos*Total

20
18
68
14
22
28
67
13

1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000

20
0
0
0
22
0
0
0

Zi
Indicadora
Mujer en
edad
frtil*Total
0
0
0
0
0
0
67
0

TOTALES ESTIMADOS
RELACIN NIOS-MUJER

Yi*fexp

Zi*fexp

20,000
0
0
0
22,000
0
0
0
42,000
0.627

0
0
0
0
0
0
67,000
0
67,000

Ejemplo 3. PPT
Suponga que se desea estimar el promedio de ventas del mes
anterior para establecimientos industriales en una ciudad. La
muestra se selecciona utilizando un diseo con probabilidad
proporcional al total de ventas del mismo mes el ao anterior,
generando los pi que se muestran en la Tabla 19.
Tabla 19. Estimacin de razones. Ejemplo PPT

Muestreo 67

Indicadora de
pertenencia a
la poblacin
objetivo
zi

Yi*fexp

Zi*fexp

Pi

fexp = 1/(n*P)

Ventas del
mes
anterior
yi

Manufacturera del Huila

0.092

0.837

680,480

569,724

0.837

Maletas y Maletines

0.051

1.497

149,120

223,185

1.497

Cosmticos Sasson

0.009

8.296

64,160

532,265

8.296

Concentrado para Animales CIBA

0.073

1.050

104,000

109,221

1.050

Qumicos ITAKA

0.182

0.422

320,000

135,068

0.422

Fbrica de ropa LEO

0.025

3.102

72,000

223,377

3.102

Muecos y Peluches

0.031

2.507

54,240

136,001

2.507

Servicios de molienda

0.020

3.856

29,440

113,524

3.856

Productos Qumicos Farmo

0.031

2.507

109,920

275,557

2.507

Cronquis General snack

0.001

59.588

12,800

762,731

59.588

Industrias ARMEN

0.080

0.959

256,000

245,618

0.959

Technoplastia del Huila

0.025

3.133

34,800

109,013

3.133

MADECO

0.051

1.512

78,960

119,399

1.512

TOTALES ESTIMADOS

3,554,684

89

PROMEDIO DE VENTAS

39,821

Establecimiento

Este es el caso de un promedio en donde se estima el tamao de


la poblacin, representado por la suma sobre la muestra de
zi*fexp.

6.3

Estimacin en diseos estratificados, de conglomerados y


multietpicos
Cuando se ha acudido a la agrupacin de unidades previo a la seleccin,
como es el caso de la estratificacin, el muestreo de conglomerados o el
multietpico, es necesario considerar la estructura jerrquica introducida
en la generacin de estimaciones. Si bien este tema se trata con ms
detalle en el captulo 7. Estimacin de varianza y error de muestreo, es
recomendable que al llevar a cabo la estimacin se reconstruyan las
agrupaciones utilizadas en el diseo por cuanto esto facilita el proceso
de estimacin de varianza.
Ejemplo 1. Diseo Estratificado con MAS en cada estrato
Utilizando la estratificacin del ejemplo del captulo 4 con asignacin de
potencia, se estima el total de personas que viven en su vivienda propia.
Se estiman adicionalmente, los porcentajes en cada uno de los estratos

Muestreo 68

o zonas del pas, utilizando el tamao de la poblacin objetivo, conocida


Nh.
Tabla 20. Estimacin. Ejemplo Estratificado MAS
Poblacin Muestra
Zona
Nh

fexp =
Nh/nh

nh

BOGOTA
6,740,859
1,862 3620.225
ANDINA
16,597,681 3,166 5242.477
CARIBE
8,880,986
1,858 4779.863
PACIFICO
7,083,712
1,321 5362.386
LLANOS
1,571,104
1,282 1225.510
AMAZONICA 300,511
511
588.084
N
41,174,853
Total estimado
Porcentaje estimado con total conocido

Personas
que
viven en
su
vivienda
propia
782
1,614
730
1,014
670
445

Total
estimado
por
estrato

Porcentaje
estimado por
estrato con
denominador
conocido

2,831,016
8,461,357
3,489,300
5,437,459
821,092
261,697

42.0%
51.0%
39.3%
76.8%
52.3%
87.1%

21,301,922
51.74%

Si bien puede obtenerse el mismo total estimado multiplicando la


indicadora de si vive o no en vivienda propia por el factor de expansin y
sumando sobre toda la muestra, proceder utilizando la agrupacin que
introducen los estratos es prctico para la tarea posterior de estimacin
de varianza que se presenta en el captulo 7.
Ejemplo 2. Muestreo de conglomerados con MAS
En un colegio, se desea estimar el total de estudiantes que obtendran un
puntaje superior a 8.5 en un examen de habilidades, as como el
porcentaje que representan sobre el total de estudiantes del colegio.
Para no someter a todos los estudiantes la prueba, se eligen 4 de los 11
cursos que tiene el plantel y se aplica la prueba a todos los estudiantes
en estos cursos. Los cursos que fueron seleccionados se encuentran
resaltados en gris; se obtiene:

Muestreo 69

Tabla 21. Estimacin. Ejemplo MAS de conglomerados


Cantidad
de cursos
Curso

Cantidad de
cursos a
seleccionar

fexp =
N/n

Cantidad
de
estudiantes

Cantidad de
estudiantes
con puntajes
superiores a
8.5
yi

Indicadora de
pertenencia a
la poblacin
objetivo
zi

yi *fexp

zi*fexp

22

60.5

115.5

Primero

11

2.75

37

Segundo

11

2.75

42

Tercero

11

2.75

40

Cuarto

11

2.75

41

Quinto

11

2.75

41

Sexto

11

2.75

31

25

68.75

85.25

Sptimo

11

2.75

45

20

55

123.75

Octavo

11

2.75

42

Noveno

11

2.75

35

Dcimo

11

2.75

32

22

60.5

88

Undcimo

11

2.75

38

Total estimado

244.75

412.5

Porcentaje estimado con denominador conocido


Porcentaje estimado con denominador estimado

57.7%
59.3%

424

Para llevar a cabo la estimacin, primero se suma la indicadora de los


estudiantes que obtuvieron puntajes superiores a 8.5 al interior de cada uno
de los cursos y luego, se expande este total a la poblacin objetivo haciendo
uso del factor de expansin. El total de estudiantes que conforma la
poblacin objetivo puede o no ser conocido, y su uso lleva a resultados
ligeramente diferentes. Cuando se divide el total por el tamao conocido de
poblacin (424) se concluye que el 57.7% de los estudiantes obtendra el
puntaje deseado o ms; cuando se estima el total de estudiantes a partir de
la muestra (412.5), el porcentaje es un poco mayor.

Ejemplo 3. Muestreo en dos etapas PPT-MAS


Con el objetivo de estimar el ingreso total de los hogares residentes en
un determinado barrio de la ciudad, la comunidad decide llevar a cabo
una encuesta seleccionada en dos etapas: en la primera, se seleccionan
manzanas utilizando un diseo proporcional al total de hogares en la
manzana; para la segunda etapa, se construye el listado de hogares que
reside en las manzanas seleccionadas y se eligen entre 3 y 5 para la
encuesta, utilizando muestreo aleatorio simple. La cantidad de hogares a
seleccionar en cada manzana se establece as: Si tiene menos de 13
hogares, se elegirn 3, si tiene entre 14 y 15 se elegirn 4 y si tiene 16 o
ms, 5 hogares. Los resultados se presentan en la Tabla 22.

Muestreo 70

Tabla 22. Estimacin. Ejemplo PPT-MAS


Total de
hogares

p1i

00010101

13

0.0616

00010102

11

0.0521

00010103

14

0.0664

00010104

11

0.0521

00010105

11

0.0521

00010106

13

0.0616

Manzana

00010204

00010205

12

16

0.0758

0.0332

00020101

20

0.0948

00020102

17

0.0806

00020103

14

0.0664

15

Hogares
Seleccionados

Ingresos
totales
yi

Hogar
con
nios
zi

fexp1 =
1/
(n1*p1i)

fexp2 =
N2/n2

fexp =
fexp1*fexp2

13

2,293,000

5.4103

4.3333

23.4444

1,852,300

5.4103

4.3333

23.4444

1,880,100

5.4103

4.3333

23.4444

15

1,982,700

4.3958

3.2000

2,121,100

4.3958

3.2000

14

1,747,900

4.3958

10

2,034,375

2,285,800

14
9

Yi*fexp

Yi*fexp*zi

zi*fexp

53,758,111

53,758,111

23.4444

43,426,144

43,426,144

23.4444

44,077,900

14.0667

27,889,980

27,889,980

14.0667

14.0667

29,836,807

29,836,807

14.0667

3.2000

14.0667

24,587,127

4.3958

3.2000

14.0667

28,616,875

28,616,875

14.0667

4.3958

3.2000

14.0667

32,153,587

32,153,587

3,475,900

4.6889

3.7500

17.5833

61,117,908

61,117,908

17.5833

1,529,200

4.6889

3.7500

17.5833

26,888,433

26,888,433

17.5833

13

2,868,100

4.6889

3.7500

17.5833

50,430,758

11

2,304,000

4.6889

3.7500

17.5833

40,512,000

40,512,000

17.5833

0.0569

00010206

00020104

Cantidad de
hogares a
seleccionar

0.0711

00020105

14

0.0664

00020106

13

0.0616

00020107

10

0.0474

211
Ingreso total estimado
Ingreso promedio estimado (denominador conocido)
Ingreso total estimado en hogares con nios

463,295,631
2,195,714
344,199,846
142

Total estimado de hogares con nios


Ingreso promedio estimado en hogares con nios (denominador estimado)

2,426,696

Muestreo 71

6.4

Estimacin de dominios de estudio


Un dominio de estudio es un subconjunto de la poblacin objetivo para el
que se requieren estimaciones desagregadas y que no ha sido separado
previamente mediante un proceso de estratificacin. La estimacin en
estos casos se lleva a cabo considerando siempre el total de la muestra
(inclusive los elementos que no pertenecen al dominio) e identificando a
las unidades que pertenecen al dominio a travs de variables indicadoras
o dummy. Si bien en primera instancia pareciese que no hay ninguna
diferencia entre la estimacin de esta forma y la estimacin excluyendo
las unidades fuera del dominio, es importante considerar el total de la
muestra para la estimacin de varianza.
Entre los ejemplos que se han presentado previamente, pueden verse
estimaciones por dominios en las tablas Tabla 18, Tabla 20 y Tabla 22.

6.5

Ajuste de factores de expansin


Como estrategia para resolver el sesgo introducido en los estimadores
como efecto de la no respuesta total 1 y suponiendo que los no
respondientes son similares a los respondientes en cuanto a las
caractersticas de inters para la encuesta, es posible llevar a cabo un
ajuste en los factores de expansin. Para llevar a cabo este ajuste, se
calculan sobre la muestra, el nmero de encuestas esperadas y el
nmero de encuestas efectivas al nivel de agregacin ms bajo posible
(en diseos multietpicos, preferiblemente en la penltima etapa de
seleccin) y se construye el factor de ajuste:
faj

Encuestas esperadas
Encuestas efectivas

Este factor se aade al producto de factores de expansin de las


distintas etapas para ser involucrado en el clculo de estimaciones.
Si bien esta es una herramienta til para resolver problemas pequeos
de no respuesta, es importante considerar que en la medida en que la no
respuesta sea considerable o en cuanto los respondientes y no
1

En trminos generales es posible clasificar la no respuesta presente en una encuesta en dos


tipos: i) la no respuesta parcial que corresponde a la ausencia de informacin de algunas
unidades para algunas de las variables que se indagan y ii) la no respuesta total que se refiere a
la ausencia total de informacin de una unidad como resultado de un rechazo a la aplicacin de
la encuesta o a la imposibilidad de contactarla.

Muestreo 72

respondientes difieran en sus caractersticas, no es posible por este


mtodo corregir el sesgo que se genera en los estimadores. Como
ejemplo de esto considere una encuesta de ingresos y gastos como las
que se llevan a cabo en forma peridica en la mayora de los pases; si
se observa que los no respondientes son en su mayora hogares con
mejor nivel socioeconmico que el promedio y por ello, con ingresos
diferencialmente altos, ni este mtodo ni una sobremuestra a nivel global
pueden resolver el problema.

6.6

Otros mtodos de estimacin


Los estimadores presentados hasta ahora consideran solamente las
caractersticas del diseo de muestra y el tipo de parmetro, la
informacin auxiliar con que se cuenta ha sido utilizada para mejorar la
calidad del diseo de muestra en la fase de planeacin de la encuesta
pero no se ha involucrado en los estimadores.
Cuando se cuenta con informacin de buena calidad, es posible hacer
uso de ella tambin en la etapa de estimacin. Herramientas como la
postestratificacin, el uso de estimadores de regresin o los mtodos de
calibracin permiten obtener mayor precisin en los estimadores.

Muestreo 73

7. ESTIMACIN DE VARIANZA Y ERRORES DE MUESTREO


Los resultados de una encuesta por muestreo se ven afectados por errores que
se clasifican como muestrales y no muestrales. Entre los no muestrales, que
se tratan en ms detalle en el captulo 8, estn los ocasionados por el mal
diseo de cuestionarios, por problemas con el operativo de campo o con la
depuracin e imputacin de los datos recolectados, entre otros.
Los errores muestrales, por otra parte, hacen referencia al hecho de utilizar una
muestra para el estudio de las caractersticas de la poblacin objetivo y no un
procedimiento censal. Estos errores estn asociados con dos caractersticas
deseables para cualquier encuesta: La precisin y la validez.

7.1

La precisin y la estimacin de varianza


La seleccin de una muestra probabilstica es la realizacin de un
ejercicio aleatorio en donde se determinan, por azar y sujetos a algunas
condiciones, los elementos que se estudiarn en la encuesta. En este
sentido, el mismo procedimiento determinado por el diseo de muestreo
y el tamao de muestra, aplicado sobre la misma poblacin objetivo
conduce a un nmero, generalmente infinito, de posibles muestras; cada
una de estas stas entrega como resultado un conjunto de estimaciones
para los distintos parmetros que vara de una muestra a otra. La
precisin, en este sentido, se entiende como el grado de dispersin que
se observa entre las estimaciones obtenidas para un mismo parmetro a
partir de todas las muestras posibles y se busca, a travs del diseo de
muestra y de los estimadores propuestos, reducir esta dispersin con el
fin de mejorar la precisin de los estimadores, esto es, hacer que las
conclusiones acerca de los parmetros que es posible sacar de una
muestra dependan lo menos posible de cul fue la muestra seleccionada.
En el numeral 2.1.1 Precisin en el MAS, se lleva a cabo un ejercicio en
donde se muestran, para una poblacin objetivo de tamao 6 unidades,
todas las posibles estimaciones del promedio de una variable que se
obtienen al seleccionar una Muestra Aleatoria Simple con tamaos de
muestra 1, 2, 3, 4, 5 o 6. Retomando este ejemplo, se observa que existe
una cierta variabilidad entre las estimaciones, que disminuye en la
medida en que se aumenta el tamao de muestra, como se observa en
el Grfico 13. La existencia de esta variabilidad no es una caracterstica
exclusiva del Muestreo Aleatorio Simple, por el contrario, est presente

Muestreo 74

en todos los ejercicios por muestreo que se llevan a cabo


independientemente del diseo, del tamao de muestra utilizado o de la
variabilidad propia de las variables involucradas en la estimacin del
parmetro. El uso de diseos de muestreo y mtodos de estimacin ms
eficientes apunta a su reduccin pero nunca logra eliminarla por
completo.
Grfico 13. Dispersin entre las estimaciones para distintos tamaos de
muestra. Ejemplo del numeral 2.1.1

Ahora bien, en la prctica solamente es posible seleccionar una muestra,


con lo que se obtiene solamente un punto que corresponde a la
estimacin del parmetro; para determinar el nivel de precisin del
ejercicio, se utiliza la dispersin observada en esta muestra y con ella se
construye una estimacin de la verdadera varianza que tiene el
estimador, como estadstica que toma valores sobre todas las posibles
muestras con una cierta probabilidad asignada por el tipo de diseo y el
mtodo de estimacin utilizado. Con esto entonces, no solamente es
necesario llevar a cabo un proceso de estimacin como el presentado en
el captulo 6 para extrapolar las caractersticas observadas en la muestra
a la poblacin de la cual sta proviene, adems es necesario hacer una
estimacin de la varianza del estadstico que se est utilizando como
estimador, con el fin de determinar el nivel de precisin con que se
cuenta.
Visto desde esta perspectiva, no tiene sentido la evaluacin de una
estimacin en particular (un punto obtenido sobre una muestra

Muestreo 75

determinada) y no puede hablarse de muestras buenas o malas en el


sentido de producir estimaciones cercanas o lejanas del verdadero valor
del parmetro; en su lugar, se evala la calidad del mtodo (diseo de
muestreo y procedimiento de estimacin) a partir de la informacin que la
muestra seleccionada provee.

7.1.1

Principios generales de la estimacin de varianza


El proceso de estimacin de varianza consiste en ponderar la
variabilidad observada entre unidades en la muestra, con
factores que dependen de las probabilidades inducidas por el
diseo y del tipo de estimador utilizado.
Es posible utilizar varias medidas para expresar el nivel de
precisin de un estimador, las ms ampliamente empleadas son:
1. Varianza estimada: Como su nombre lo indica, corresponde
a la estimacin que puede hacerse desde la muestra de la
varianza de la estadstica utilizada para llevar a cabo la
estimacin. Se estima como una ponderacin de la
variabilidad observada entre unidades en la muestra. Se
presenta, como es usual para una varianza, en unidades al
cuadrado. Para el caso de la estimacin de un total se
denota V (ty ) .
2. Error estndar estimado: Corresponde a la raz cuadrada
de la varianza estimada, por lo que se expresa en las mismas
unidades del estimador. Para un total, se escribe como:
S ty

V ty

3. Coeficiente de variacin estimado o error relativo de


estimacin: Es el cociente entre el error estndar estimado y
el valor que se obtuvo como estimacin para el parmetro.
Multiplicado por 100 se interpreta como porcentaje; para el
caso de un total se denota:
cve ty

V ty
ty

Muestreo 76

4.

Intervalo de confianza: Es usual construir intervalos de


confianza alrededor del estimador, que se pretende
contengan el verdadero valor del parmetro con un nivel de
confiabilidad del 99% o 95%. Para ello, se utiliza la frmula:

IC1 / 2 ty Z1 / 2 S ty
Donde Z1 / 2 es la ordenada de una distribucin normal
para el nivel de confianza respectivo. Para el 95% de
confianza se utiliza 1.96 y para el 99%, 2.58.
Como puede verse, todas las medidas presentadas
dependen de la varianza estimada, por tratarse de un tema
en el que la complejidad matemtica para deducir las
frmulas es mayor que la del captulo de estimacin, el
alcance de este documento se limitar a presentar las
frmulas empleadas para obtener esta estimacin en los
diseos utilizados en este documento y con los estimadores
considerados en el captulo 6.
De estos estimadores, totales, proporciones, promedios y
razones, solamente se abordarn los totales y las razones;
esto se debe a que las proporciones y promedios
presentados, corresponden a estimaciones de totales con
denominador conocido con lo que, utilizando las reglas de la
varianza,
ty
1
2 V ty
N
N

V y V

1
t
V p V I 2 V tI
N
N
Para los diseos que utilizan herramientas de estratificacin,
de muestreo de conglomerados o multietpicos, la jerarqua
con que se lleva a cabo la seleccin de unidades es
importante. Este tema se trata en ms detalle en el numeral
7.1.4.

Muestreo 77

7.1.2 Estimacin de varianza para totales


1.

En el Muestreo Aleatorio Simple - MAS, la frmula para


estimar la varianza del estimador de un total corresponde a:
N2
n
2
VMAS ty
1 Sy
n
N

Con N el total de unidades del marco, n el total de unidades


seleccionadas como muestra y
2

Sy

1 n
yi y 2

n 1 i 1

la varianza observada para la variable y entre las unidades de


la muestra.
Ejemplo 1 - MAS
Considere nuevamente el ejemplo del captulo 6 presentado en
la tabla 15. Se desea estimar el total de ventas del mes
anterior de los establecimientos de comercio de una ciudad
utilizando una muestra aleatoria simple de tamao 13 sobre un
listado que contiene los 240 establecimientos existentes en el
municipio.
Con N = 240, n = 13, se tiene:
N2
n
1 4191
n
N

La varianza muestral (sobre n-1) de los datos de ventas


reportados por los establecimientos corresponde a
49.917.995.641. Con estos dos datos se obtiene:
VMAS ty 4191 * 49.917.995.641 209.194.800.194.083

El error estndar estimado corresponde a 14.463.568, lo que


corresponde a un coeficiente de variacin de:

Muestreo 78
VMAS ty

cve

ty

14.463.568
0.38
37.711.385

O un 38%. Es posible construir un intervalo con el 95% de


confianza alrededor de la estimacin obtenida que resulta en:
IC 0.95 ty 1.96 V ty 37.711 .385 28.348.593

IC 0.95 ty 1.96 V ty 9.306.791 , 66.059.978

Con un 95% de confianza puede decirse que el verdadero total


de ventas de los establecimientos de comercio de esa ciudad
en el mes anterior est entre 9306.791 y 66059.978.
2. En el Diseo sistemtico con r-rplicas, la estimacin de
varianza para el estimador de un total se efecta con la
frmula:
k2
r
2
VSIS ty
1 S tr
r
k

Donde k corresponde al intervalo de muestreo, r al nmero de


rplicas y
2

S tr

1
t i t sr
r 1 sr

representa la varianza observada entre los totales generados


por los grupos utilizados como rplicas. En este punto, es
importante recordar que en el diseo sistemtico, se eligen r
nmeros aleatorios entre 1 y k y se salta con intervalo k. Esto
es equivalente a una Muestra Aleatoria Simple de r
2
conglomerados y la varianza S t
utilizada en la frmula
corresponde a la varianza observada entre los totales de los
conglomerados. A partir de esto puede concluirse que un
diseo sistemtico con una sola rplica no cuenta con
estimador de varianza deducible directamente del diseo por
cuanto se tiene un solo conglomerado y no es posible llevar a
2
cabo el clculo de S t .
Cuando solo se cuenta con una rplica, suele suponerse que
el diseo es un MAS de elementos y utilizar la frmula de este
r

Muestreo 79

diseo para la estimacin de varianza; sin embargo, no puede


perderse de vista que este supuesto genera una sub
estimacin en la magnitud de la varianza que es ms fuerte en
la medida en que los totales de los conglomerados sean
similares y con ello, puede llevar a concluir que los resultados
son ms precisos de lo que en realidad son.
Ejemplo 2. Sistemtico
Suponga que se desea llevar a cabo la estimacin del total de
personas residentes en un barrio; para ello, se selecciona una
muestra sistemtica de tamao 10 con 2 rplicas entre las 70
manzanas que componen el barrio y se recoge la cantidad de
personas en cada una de las manzanas seleccionadas como
se muestra en la siguiente tabla:
Tabla 23. Estimacin de varianza para totales. Ejemplo Sistemtico
Manzana

Cantidad
de
personas

fexp =
k/r

yk*fexp

14

22

154

16

14

32

224

30

14

19

133

44

14

43

301

58

14

37

259

14

21

147

21

14

41

287

35

14

33

231

49

14

11

77

63

14

42

294

Rplica

Total estimado
Total rplica 1

2,107
153

Total rplica 2

148

Varianza entre los totales

12.5

Ponderador
Varianza estimada del total
Error estndar de estimacin

84
1,050
32

Coeficiente de variacin estimado

1.54%

Lmite inferior del IC 95%

2,043

Lmite superior del IC 95%

2,171

Muestreo 80

A partir de estos datos se concluye que el total de personas


residentes en el barrio est entre 2.043 y 2.171 con un 95% de
confianza.
3. En el Diseo PPT con reemplazamiento para la estimacin
de la varianza del estimador MCR para totales, se utiliza la
frmula:
1 1
VPPT tyMCR

n n 1

yi

tyMCR

i 1 p i

Note que en este caso, la varianza observada no es la de la


variable y como en los otros casos, sino que se calcula a partir
de la variable dividida por su pi y con respecto al valor del total
estimado.
Ejemplo 3 - PPT
Considere nuevamente el ejemplo de la tabla 16 del captulo 6.
Procedimientos de estimacin, para obtener un estimativo del
rea total sembrada en arroz utilizando una muestra
seleccionada con diseo PPT proporcional al tamao en
hectreas de la finca. Para la estimacin de varianza del total
se tiene:
Tabla 24. Estimacin de varianza para totales. Ejemplo PPT

No.

Finca

rea
(Ha)

Pi

fexp = 1/
(n*pi)

rea
sembrada
en arroz
(Ha)

Yi*fexp

Yi/pi

(yi/pi - tmcr)2

AMANECER

264

0.258

0.9706439

210

203.84

815.34

29,659.72

ASTAIZA

350

0.341

0.7321429

300

219.64

878.57

55,436.93

ASTAIZA

350

0.341

0.7321429

300

219.64

878.57

55,436.93

EL PARAISO

78

0.076

3.2852564

0.00

0.00

413,604.55

TOTAL ESTIMADO

yi

tyMCR
i 1 pi

643.12
2

FACTOR DE PONDERACION
VARIANZA ESTIMADA DEL TOTAL
ERROR ESTANDAR DE ESTIMACIN

554,138.13
0.08
46,178.18
214.89

CVE

33.4%

LMITE INFERIOR DEL INTERVALO DEL 95% DE CONFIANZA

221.93

LMITE SUPERIOR DEL INTERVALO DEL 95% DE CONFIANZA

1064.31

Muestreo 81

Con base en estos resultados, puede decirse con un 95% de


confianza que el total de rea sembrada en arroz est entre
221,93 y 1.064,31 hectreas.
7.1.3 Estimacin de varianza para razones
Como las razones son el cociente de dos estimadores y la funcin
cociente no es lineal, la estimacin de varianza requiere efectuar
un procedimiento adicional conocido como linealizacin de Taylor
que permite aproximar la parte lineal de la funcin cociente y
estimar la varianza a partir de esta aproximacin.
Para ello, siendo la razn R
como:
u i

ty
se define una variable artificial
tz

1
y i R z i
tz

La notacin de gorro sobre ui se da por el hecho de utilizar los


y tz en su construccin. Es una nueva variable que
estimados R
toma valores para cada unidad en la muestra, en funcin de sus
valores observados en las variables y y z.
, se estima la
Para aproximarse a la varianza del estimador R
varianza del estimador del total de esta variable u i , como se
mostr en el numeral 7.1.2. Es importante considerar que la
variable artificial u i as construida tiene promedio cero, y su total
estimado con el estimador MCR tambin es cero.

Ejemplo 1. PPT
Se pretende determinar el monto de ventas por persona ocupada
en el mes anterior en los establecimientos industriales de una
ciudad.
Para ello, se selecciona una muestra de 13
establecimientos con diseo PPT proporcional al total de ventas
del mismo mes el ao anterior. Los resultados se muestran en la
siguiente tabla:
Tabla 25. Estimacin de varianza para razones. Ejemplo PPT

Muestreo 82

Establecimiento

Manufacturera del Huila


Maletas y Maletines
Cosmticos Sasson
Concentrado para
Animales - CIBA
Qumicos ITAKA
Fbrica de ropa LEO
Muecos y Peluches
Servicios de molienda
Productos Qumicos
Farmo
Cronquis General snack
Industrias ARMEN
Technoplastia del Huila
MADECO

Ventas Personal
del mes ocupado
anterior
yi
zi

Yi*fexp

Zi*fexp

pi

fexp =
1/(n*pi)

0.092
0.051
0.009

0.837
1.497
8.296

680,480
149,120
64,160

5
11
8

569,724
223,185
532,265

4.186
16.463
66.367

1,562.9
130.5
-13.8

289,350,159.7
6,443,834.7
2,216,390.0

0.073

1.050

104,000

14

109,221

14.703

-44.5

368,723.2

0.182
0.025
0.031
0.020

0.422
3.102
2.507
3.856

320,000
72,000
54,240
29,440

1
10
12
5

135,068
223,377
136,001
113,524

0.422
31.025
30.089
19.281

763.9
-37.4
-123.8
-34.8

17,568,400.4
2,272,659.1
16,277,609.2
3,041,082.6

0.031

2.507

109,920

11

275,557

27.576

34.3

1,247,386.2

0.001
0.080
0.025
0.051

59.588
0.959
3.133
1.512

12,800
256,000
34,800
78,960

3
5
2
5

762,731
245,618
109,013
119,399
3,554,68
4

178.765
4.797
6.265
7.561

-32.8
521.2
42.6
86.7

645,927,018.9
42,258,894.9
3,007,543.1
2,907,096.2

TOTAL ESTIMADO
RAZN ESTIMADA
n

ui

Ui
(ui
estimado estimado/pi)^2

407
8,723.1

1,032,886,798.1

p
PONDERADOR

0.0064
i 1
i
VARIANZA ESTIMADA DE LA RAZON
ERROR ESTANDAR DE ESTIMACIN
CVE
LMITE INFERIOR DEL INTERVALO DEL 95% DE CONFIANZA
LMITE SUPERIOR DEL INTERVALO DEL 95% DE CONFIANZA

6,621,069.2
2,573.1
29.5%
3,679.8
13,766.5

Se obtiene entonces un estimado de ventas mensuales de


S/.8.723 por empleado y se concluye, con un 95% de confianza
que el verdadero valor se encuentra entre S/.3.679 y S/.13.766.
7.1.4

Estimacin de varianza en diseos


conglomerados y multietpicos

estratificados,

de

Herramientas como la estratificacin, el muestreo de


conglomerados o el muestreo multietpico, conforman grupos de
unidades de la poblacin previamente a la seleccin de muestra.

Muestreo 83

Estas agrupaciones modifican el esquema de estimacin de


varianza presentado en los numerales 7.1.2 y 7.1.3, haciendo
necesario reconstruir la estructura de grupos de unidades para la
estimacin de varianza.
Diseos estratificados
La estratificacin es una clasificacin de todas las unidades de la
poblacin objetivo en H grupos disyuntos entre s y sobre los que
se selecciona, en forma independiente en cada estrato, una
muestra de unidades.
Esta particin de la poblacin objetivo y la independencia en la
seleccin de muestra en cada estrato hace que la variabilidad del
estimador en un estrato no se vea afectada por la variabilidad en
otro estrato. Por esto, para la estimacin de varianza en un
diseo estratificado, lleva a cabo una estimacin como la
presentada en 7.1.2 y 7.1.3 en cada uno de los estratos y luego
se suman las varianzas estimadas para obtener la varianza global.
Ejemplo 1. MAS
Sobre una poblacin objetivo compuesta por 100 fincas, se desea
estimar el total de rea sembrada en el segundo semestre del
ao. Como se cuenta con informacin del rea total de cada finca,
se decide seleccionar una muestra estratificada conforme al
tamao de la finca y seleccionar una muestra de 15 unidades
utilizando muestreo aleatorio simple. La asignacin de tamao de
muestra se hace utilizando asignacin proporcional. Los
resultados se presentan en la Tabla 26.
Tabla 26. Estimacin de varianza en un diseo estratificado.
Ejemplo ESTMAS
Estrato
Fincas Grandes

Unidad

fexp

rea
sembrada

rea
sembrada*fexp

10

72.58

362.9

10

53.12

265.6

Total estimado

628.5

Varianza muestral
Varianza estimada
Fincas Medianas

189.3458
7573.832
1
2

24
24

3
3

8
8

12.15
18.2

97.2
145.6

Muestreo 84

Estrato

Unidad

fexp

rea
sembrada

24

14.35

Total estimado
9.377

Varianza estimada

1575.42
1

30

9.8

58.8

30

5.978

35.868

30

8.87

53.22

30

7.658

45.948

Total estimado

242.95

Varianza muestral

2.726

Varianza estimada

Fincas Muy
Pequeas

114.8
357.6

Varianza muestral

Fincas Pequeas

rea
sembrada*fexp

531.631
1

36

7.2

1.987

14.3064

36

7.2

2.478

17.8416

36

7.2

4.325

31.14

36

7.2

3.124

22.4928

36

7.2

2.57

18.504

Total estimado

104.2848

Varianza muestral

0.8003257

Varianza estimada

178.6327

Total estimado

1332.63

Varianza estimada

9859.516

Error estndar estimado


Coeficiente de variacin estimado

99.29
7.5%

Lmite inferior IC 95%

951.22

Lmite superior IC 95%

1714.13

Note que para llevar a cabo la estimacin total, se sumaron las


estimaciones obtenidas en forma independiente en cada estrato
(1332.63 = 628.5 + 357.6 + 242.95 + 104.2848); en forma
anloga, para estimar la varianza total se llevaron a cabo
estimaciones independientes en cada estrato y luego se sumaron
(9859.51= 7573.83 + 1575.42 + 531.63 + 178.63). El error
estndar estimado, el coeficiente de variacin estimado y el
intervalo de confianza se construyen sobre los datos totales que
resultan de la suma sobre los estratos.
Este ejemplo es til para mostrar otra caracterstica del diseo
estratificado: cada uno de los estratos hace un aporte a la
varianza total que depende de la variabilidad entre unidades en su
interior y de los tamaos de universo y muestra correspondientes.
En este ejemplo, la varianza del estrato conformado por las fincas
grandes representa el 92% de la varianza total de manera que,

Muestreo 85

para obtener una mayor precisin en el estimador total en una


prxima ocasin, incrementar el tamao de muestra en este
estrato tendra mucho ms impacto que hacerlo en cualquier otro .
Muestreo de conglomerados

Para la seleccin de una muestra de conglomerados suelen


aprovecharse agrupaciones naturales de la poblacin objetivo
para llevar a cabo una seleccin de grupos; se considera como
pertenecientes a la muestra a TODAS las unidades que
pertenecen a los grupos seleccionados
Como se lleva a cabo una seleccin de grupos y no de unidades
directamente, la variabilidad como resultado del proceso de
muestreo no se encuentra entre las unidades pertenecientes a la
muestra sino entre los grupos seleccionados; por ello, para llevar
a cabo la estimacin de varianza en un diseo de conglomerados,
deben llevarse las caractersticas de las unidades hasta el nivel de
totales de conglomerado y luego utilizar la variabilidad observada
entre conglomerados para proceder como se present en 7.1.2 y
7.1.3 reemplazando las variables y y z por los totales de
conglomerado correspondientes.
Ejemplo 2. PPT de Conglomerados
Retomando el ejemplo multietpico del captulo 6, suponga que en
un barrio se desea hacer una estimacin de los ingresos
mensuales promedio de los hogares residentes. Para ello, se
toma un listado con las manzanas que componen el barrio, y la
informacin de cuntos hogares residen por manzana y se
selecciona una muestra de 3 manzanas; todos los hogares en
dichas manzanas sern entrevistados y se levantar su dato de
ingreso mensual. Los resultados se muestran en la Tabla 27.

Tabla 27. Estimacin de varianza en un diseo de conglomerados. Ejemplo


PPT de conglomerados

Muestreo 86

Conglomerado

Manzana

Total
Hogares
manzana

Pi

Ingresos
totales
tyi

fexp1 =
1/(n*pi)

Tyi*fexp

(tyi/pi - tmcr)2

16,669,893

6.6333333

110,576,957

123,009,101,739,048

8.2916667

116,260,999

35,535,656,120,344

4.7380952

115,983,862

26,314,517,156,726

00010106

10

0.0503

00010205

0.0402

00020104

14

0.0704

Total hogares barrio

14,021,427
24,479,006

199

Total estimado

342,821,818

Promedio de ingresos estimado (denominador conocido)


n

t yi

i 1

pi

1,722,723

tyMCR

184,859,275,016,118

Varianza estimada del total


Error estndar estimado
Coeficiente de variacin estimado
Varianza estimada del promedio (Varianza del total/N 2)
Error estndar estimado
Coeficiente de variacin estimado

30,809,879,169,353
5,550,665
1.62%
778,007,605
27,893
1.62%

Lmite inferior IC 95%

1,668,053

Lmite superior IC 95%

1,777,393

Observe que para la estimacin de varianza se suman los datos


de ingreso de cada hogar hasta conseguir el total de la manzana
(conglomerado); se repite el proceso mostrado en el numeral
7.1.2 para el diseo PPT en la estimacin de un total pero
utilizando los totales de los conglomerados en lugar de los de las
unidades. Note que como para estimar el promedio se utiliza un
denominador fijo (los 199 residentes en el barrio), la varianza del
promedio se estima dividiendo la estimada para el total por 199 al
cuadrado y se obtiene el mismo coeficiente de variacin.
Con estos resultados, se concluye que los hogares residentes
ganan en promedio S/.1722.723 mensuales, y que el verdadero
valor se encuentra entre S/.1.668.053 y S/.1777.393 con un 95%
de confianza.
Muestreo multietpico
En la seleccin de una muestra multietpica, al igual que en la de
una de conglomerados, suelen aprovecharse agrupaciones
naturales de las unidades (en reas geogrficas, por ejemplo)
para llevar a cabo selecciones de grupos en lugar de selecciones
directamente de elementos.
A diferencia del muestreo de

Muestreo 87

conglomerados, en donde todas las unidades que pertenecen a un


conglomerado son seleccionadas como muestra, en el muestreo
multietpico es posible llevar a cabo una nueva seleccin en un
grupo que seleccionado, bien sea de subgrupos o directamente de
unidades.
Cada nueva seleccin de muestra al interior de los grupos en la
muestra, es considerada una etapa; por tratarse de una seleccin
aleatoria, cada etapa genera una varianza. La varianza global
corresponde a la suma de las varianzas generadas por todas las
etapas de muestreo.
Para su estimacin, se procede conforme al diseo empleado en
cada etapa, empezando por la ltima etapa de seleccin y
utilizando ponderadores para cada una de ellas en la suma total.
En la estimacin de varianza de cada etapa, se utiliza la varianza
observada entre los totales estimados de los grupos, subgrupos o
unidades que se hayan seleccionado en esa etapa.
Es importante mencionar que, para el caso particular del diseo
PPT con el MCR-estimador, las caractersticas del estimador de
varianza hacen que solo sea necesario estimar la varianza
correspondiente a la primera etapa de seleccin, no porque no se
genere varianza en las etapas subsiguientes sino porque el
estimador de varianza la cubre.
Ejemplo 3. Muestreo bietpico PPT-MAS
Para ejemplificar la estimacin de varianza en un diseo
multietpico considere el mismo ejemplo anterior. Se desea
estimar el ingreso promedio mensual de los hogares de un barrio,
en esta ocasin, se lleva a cabo una seleccin en dos etapas de la
siguiente forma: en una primera etapa se seleccionan manzanas
con diseo PPT con probabilidad proporcional a la cantidad de
hogares residentes en cada manzana, en la segunda etapa se
levanta el listado de hogares en las manzanas seleccionadas y se
selecciona una muestra aleatoria simple en cada una, con
tamaos variables. La estimacin toma la forma que se presenta
en la Tabla 28.
Como se mencion arriba, por el uso de un diseo PPT en la
primera etapa, no es necesario estimar la varianza generada por
la segunda etapa de seleccin. La varianza de la primera etapa de

Muestreo 88

seleccin se estima como en el diseo PPT de conglomerados


pero utilizando los totales estimados en cada manzana en lugar de
los observados; como son totales a nivel manzana, la variable se
expande solo por el factor de la segunda etapa, esto es, el del
MAS.
Como de todas formas existe una varianza debida a la segunda
etapa de seleccin, note que con este diseo se obtiene una
menor precisin expresada por un coeficiente de variacin
estimado de 9.3% Vs. el 1.6% del PPT de conglomerados. Note
tambin que las estimaciones que se obtienen para el mismo
parmetro son diferentes pero el intervalo de confianza estimado
para el bietpico contiene el estimado para el PPT de
conglomerados.
7.1.5 Otros mtodos de estimacin de varianza
El mtodo presentado para la estimacin de varianza es el
resultado de la deduccin de la forma que toma la varianza de
cada estimador en los diseos planteados. Existen casos en
donde los diseos finales de muestra o los estimadores resultan
ser tan complejos que el trabajo de llegar a la frmula de
estimacin de varianza por la va presentada se hace muy difcil.
Para estos casos y tambin para aquellos en donde no se quieren
utilizar las frmulas planteadas en los numerales 7.1.2 y 7.1.3,
existen otros mtodos que permiten obtener aproximaciones a la
varianza de los estimadores.
Estos mtodos alternativos, entre los que pueden encontrarse el
mtodo de grupos aleatorios, el jackknife, el bootstrap o las
medias muestras balanceadas, aproximan la varianza del
estimador a partir de procesos de simulacin de submuestras
seleccionadas de la muestra completa, y de observar la
variabilidad del valor que se obtiene para el estimador en cada
una de ellas. Son intensivos en el uso de computador y pueden
hacer un consumo de mquina importante an para muestras de
tamao modesto.

Muestreo 89

Tabla 28. Estimacin de varianza en un diseo bietpico. Ejemplo PPT-MAS


Manzana

Total de
hogares

00010106

p1i

10

00010205

0.0503

00020104

Cantidad de
hogares a
seleccionar

0.0402

14

0.0704

Hogares
Seleccionados

Ingresos
totales
yi

fexp1 =
1/(n1*p1i)

fexp2 =
N2/n2

fexp =
fexp1*
fexp2

Yi*fexp

Yi*fexp2

1,050,086

6.6333

3.3333

22.1111

23,218,568

3,500,287

2,499,756

6.6333

3.3333

22.1111

55,272,383

8,332,520

1,021,935

6.6333

3.3333

22.1111

22,596,118

3,406,450

2,162,601

8.2917

1.6000

13.2667

28,690,507

3,460,162

2,353,038

8.2917

1.6000

13.2667

31,216,971

3,764,861

2,319,190

8.2917

1.6000

13.2667

30,767,921

3,710,704

1,408,314

8.2917

1.6000

13.2667

18,683,632

2,253,302

1,814,085

8.2917

1.6000

13.2667

24,066,861

2,902,536

14

1,228,834

4.7381

3.5000

16.5833

20,378,164

4,300,919

2,131,870

4.7381

3.5000

16.5833

35,353,511

7,461,545

13

2,475,740

4.7381

3.5000

16.5833

41,056,022

8,665,090

11

2,469,404

4.7381

3.5000

16.5833

40,950,950

8,642,914

Total estimado

tyi

i 1

p
i

4,759,675,157,245,440

785,460,471,347,786

1,678,076,439,766,480

372,251,607

Promedio de ingresos estimado (denominador conocido)


n

(tyiest/pi - tmcr)2

1,870,611.089

tyMCR

Varianza estimada del total


Error estndar estimado
Coeficiente de variacin estimado
Varianza estimada del promedio (Varianza del total/N 2)
Error estndar estimado
Coeficiente de variacin estimado

7,223,212,068,359,700
1,203,868,678,059,950
34,696,811
9.32%
30399956517.76
174,355.83
9.32%

Lmite inferior IC 95%

1,200,805.72

Lmite superior IC 95%

2,540,416.45

Muestreo 90

7.2

La validez y el sesgo
La validez, vista desde los errores muestrales, hace referencia a una
caracterstica deseable en los estimadores que se denomina
insesgamiento o ausencia de sesgo. El sesgo es una desviacin
entre el verdadero valor del parmetro, que es una cantidad
desconocida y el valor esperado del estimador que se utiliza para
aproximarse a l. El sesgo solamente puede ser definido en forma
terica, o calculado como el promedio de todas las posibles
estimaciones, ponderado por la probabilidad de seleccin de cada
muestra, sobre el conjunto de todas las muestras posibles sujetos a
una poblacin, diseo y estimador determinados, como en el ejercicio
presentado en el captulo 2 para el muestreo aleatorio simple. Si bien
el estimado a partir de una muestra seleccionada puede presentar
distancia con respecto al valor real del parmetro, el insesgamiento se
refiere a que en promedio, el valor del estimador coincida con el del
parmetro que se pretende estimar. Desviaciones sistemticas por
encima o por debajo del valor del parmetro llevan a conclusiones
invlidas sobre la poblacin objetivo.
En el desarrollo de una encuesta puede haber varias fuentes de
sesgo, la mayora de ellas relacionadas con los errores no muestrales
que se tratarn en el captulo 8. Con respecto a los errores muestrales
puede decirse que la mayora de los estimadores que se utilizan en la
prctica son insesgados o aproximadamente insesgados; en su lugar,
pueden generarse sesgos importantes como resultado de una mala
aplicacin de las frmulas de los estimadores como por ejemplo,
cuando se lleva a cabo un diseo que asigna probabilidades de
inclusin o seleccin diferenciales a las unidades y no se tiene en
cuenta estas probabilidades en la frmula del estimador.

Muestreo 91

8. ERRORES NO MUESTRALES: FUENTES Y CONTROL


Los errores no muestrales, pueden estar presentes tanto en las encuestas
por muestreo como en los censos; estn relacionados con las actividades de
planeacin y ejecucin del operativo de campo, as como con los procesos
posteriores de captura, crtica, codificacin, validacin, consistencia e
imputacin de datos o incluso con el procesamiento de stos. Estos errores
apuntan a la generacin de sesgo y con ello, ponen en riesgo la validez de
las conclusiones. Pese a que en general no son mencionados tan
abiertamente (no se publican como los coeficientes de variacin que
acompaan cada estimacin) pueden ser de mucha mayor magnitud y
comprometer ms los resultados de la encuesta que los errores muestrales.

8.1

Tipos de errores no muestrales


Los errores no muestrales pueden clasificarse en:

Errores debidos a la no observacin de algunas unidades: Se


presentan cuando no se tiene xito en el acceso a algunas de las
unidades, bien sea por problemas de subcobertura del marco de
muestreo, por inaccesibilidad operativa o por el rechazo de las
unidades a proporcionar informacin

Errores en las observaciones: Se presentan cuando para


elementos seleccionados y observados, el valor registrado para
una variable es diferente del valor real de la variable para ese
elemento; esto puede producirse por inconvenientes con los
instrumentos de medicin (mal diseo de cuestionarios, mal trabajo
de entrevista, indisposicin del entrevistado) o por errores en el
tratamiento de datos (errores en la captura, crtica, codificacin,
consistencia, imputacin de datos o en la generacin de
estimaciones).

A continuacin se tratar en ms detalle cada uno de estos errores,


haciendo nfasis en su fuente y la manera de controlarlo.
8.1.1 Problemas de cobertura del marco de muestreo
Una primera fuente de error por la no observacin de las
unidades est directamente relacionada con la calidad del
marco de muestreo utilizado. Como se mencion en el captulo

Muestreo 92

1, los marcos pueden adolecer de tres problemas:


Subcobertura, Sobrecobertura y Duplicidad de unidades. En el
primer caso, una porcin de la poblacin objetivo no resulta
susceptible de encuesta porque se la desconoce, en el
segundo aparecen en la muestra unidades que no pertenecen a
la poblacin objetivo y en la tercera, unidades objeto de
entrevista pueden resultar seleccionadas en ms de una
ocasin por estar presentes ms de una vez en el marco. La
sobrecobertura y la duplicidad pueden ser resueltas en parte en
la fase de estimacin cuando, una vez entrevistadas, es posible
identificar los elementos extraos o duplicados. Con respecto a
la subcobertura, es fuente de un sesgo cuya magnitud est
directamente asociada con las diferencias en las caractersticas
de inters que presenten las poblaciones cubiertas y no
cubiertas por el marco.
Para el control de los errores asociados con la cobertura del
marco de muestreo, las propuestas apuntan a la mejora en la
calidad de los marcos con que se cuenta, a una definicin de
unidades objeto de encuesta libre de ambigedades e incluso
puede llevar a la restriccin de la poblacin objetivo a aquella
que es realmente susceptible de ser alcanzada a travs de los
marcos de muestreo disponibles. Si por ejemplo, en un estudio
de unidades econmicas es imposible, por desactualizacin del
marco, acceder a las unidades con menos de un ao de
creacin, puede ser ms conveniente restringir la poblacin
objetivo conforme con este criterio.
8.1.2 Problemas con la ubicacin de las unidades seleccionadas
Este inconveniente puede estar relacionado con dos fuentes:
un marco de muestreo desactualizado o que no proporciona
informacin suficiente para acceder a algunas de las unidades,
o problemas en la ejecucin y control del operativo de campo
que hagan que zonas alejadas por ejemplo, no sean visitadas.
Los mecanismos de control de este problema por tanto, van
dirigidos a estas fuentes: una correcta revisin y si es
necesario, un proceso de actualizacin o de completado del
marco de muestreo previo a la seleccin para garantizar que
las unidades seleccionadas sern en efecto susceptibles de
encuesta y un mayor monitoreo del operativo de campo que

Muestreo 93

permita acceder en forma efectiva a las unidades objeto de


encuesta.
Las fallas en este sentido, conllevan un sesgo que, igual que en
el numeral 8.1.1, es de mayor magnitud en la medida en que
las unidades no observadas difieran de las que s lo son en las
caractersticas de inters del estudio. Como ejemplo, en un
estudio sobre la tenencia de servicios pblicos (acueducto,
energa elctrica) una baja cobertura sistemtica de las reas
rurales muy dispersas por inconvenientes operativos puede
llevar a sesgos importantes en la medida en que son
precisamente stas las zonas en donde es menor la tenencia
de estos servicios.
8.1.3 No respuesta total por rechazo
El rechazo de las unidades seleccionadas a ser observadas
puede estar relacionado con una mala difusin de los objetivos
del estudio, una mala capacitacin de los encuestadores o a la
planeacin de un esquema de encuesta que no corresponde
con el nivel de sensibilidad de los temas que se indagan. En
este caso, los mecanismos de control apuntan a mejorar la
relacin entre el encuestador, que es quien representa al
estudio en campo y el entrevistado para garantizar que este
ltimo estar en buena disposicin de brindar la informacin
que se solicita. Como ejemplo, en una encuesta a grandes
empresas en donde el entrevistado es un ejecutivo de alto
nivel, una buena difusin de los objetivos del estudio
acompaada con un esquema de visitas que no moleste al
entrevistado y una correcta seleccin y capacitacin del
personal que llevar a cabo la recoleccin de informacin
pueden hacer la diferencia para el xito del estudio.
8.1.4 Respuesta deficiente
An en los casos en donde se consigue respuesta de parte del
entrevistado es posible que la respuesta obtenida no
corresponda a la realidad. Entre otras razones, esto puede
producirse por las siguientes:

Errores en el diseo del cuestionario que desembocan en


preguntas ambiguas

Muestreo 94

Errores de recordacin cuando se pretende que el


entrevistado responda acerca de eventos o fenmenos
sucedidos hace mucho tiempo

El uso un entrevistado que no es precisamente la persona


que conoce y puede brindar la informacin

Mala capacitacin de los encuestadores, cuando no logran


entender las preguntas del cuestionario o hacen
modificaciones al fraseo de las preguntas que alteran su
sentido

Para evitar la inclusin de sesgos por una respuesta deficiente,


es necesario hacer un trabajo temtico en el diseo de los
cuestionarios, en la determinacin de los tiempos de referencia,
del informante a entrevistar y en la construccin de los
manuales y dems instrumentos de capacitacin requeridos
para la correcta aplicacin de las preguntas. Es importante
llevar a cabo suficientes pruebas de escritorio y campo a estos
elementos con el fin de detectar desde la fase de planeacin
los posibles errores en este sentido y corregirlos a tiempo.
Adicionalmente, un acompaamiento del supervisor a los
encuestadores, especialmente en sus primeras aplicaciones de
la encuesta, permitir detectar las fallas que stos cometan en
tcnicas de entrevista y que puedan requerir intervencin de
parte del supervisor.
8.1.5 Errores en la captura de datos
Cuando la recoleccin de informacin se hace utilizando
formularios en papel es necesario capturar los cuestionarios en
una base de datos. En este proceso pueden presentarse
inconvenientes por mal diligenciamiento o ilegibilidad de la
informacin que contienen, por la inclusin de preguntas
alfanumricas complejas, por aplicativos de captura que no
coinciden con los flujos del cuestionario y dificultan el proceso,
por incorrecta capacitacin del personal encargado de esta
tarea o por falta de instrucciones claras con respecto a la forma
en que se llevar a cabo.
En los casos particulares en que la captura se contrata con
terceros, debe mantenerse un mnimo de control de este
proceso para evitar entre otras cosas, la duplicacin de

Muestreo 95

cuestionarios y garantizar calidad en todo el proceso. Por


simple que pueda parecer, una buena parte de los errores,
especialmente en operativos grandes como los censos, se
generan en este punto.
En otros casos, se lleva a cabo captura con formularios
electrnicos que pueden ser diligenciados por los entrevistados
directamente en la web o va correo electrnico o que son
llenados por los encuestadores en computadores porttiles o
PDAs. En este caso, la correcta implementacin del formulario
electrnico, con los flujos y filtros correspondientes y en forma
que se facilite al mximo su diligenciamiento es la clave. Si bien
es posible implementar algunos controles y codificaciones
asistidas haciendo uso de estas herramientas, pretender llevar
todo el proceso de codificacin y validacin a esta etapa puede
conducir a formularios excesivamente dispendiosos y
complejos de diligenciar, afectando con ello la calidad de la
informacin recolectada. Como ejemplo, haciendo uso de una
captura asistida como esta en una encuesta a hogares, pueden
hacerse chequeos de la edad contra la fecha de nacimiento o
reducirse el nivel de error en lo correspondiente a filtros de
preguntas por edad o sexo; sin embargo, validaciones ms
complejas como la del nivel educativo contra la edad llevan a
formularios muy difciles de diligenciar.
Para evitar los problemas que se generan en la etapa de
captura, es importante que el diseo del cuestionario y el
proceso de captura estn en perfecta concordancia. Como
ejemplo, se sabe de antemano que la captura de variables
alfanumricas con equipos de lectura ptica es difcil y ms
propensa a errores, en tanto que la lectura de marcas puede
ser de sobresaliente calidad; la eleccin del medio con que se
capturar la informacin y el diseo del programa de captura
deben hacerse considerando las particularidades de cada
cuestionario. Tambin es importante que el personal encargado
de capturar la informacin reciba una capacitacin suficiente
para llevar a cabo este trabajo con calidad y que se lleve a
cabo un estricto monitoreo del proceso. Finalmente, es
importante hacer verificaciones de la calidad de la captura a
travs de muestras de verificacin o redigitacin de formularios.

Muestreo 96

8.1.6 Errores en la crtica, codificacin, consistencia e imputacin


Con respecto a estos tres procesos, es posible que se
presenten errores cuando las normas de crtica o de validacin
de los cuestionarios son muy complejas, cuando hay un buen
nmero de blancos o inconsistencias en los datos recolectados,
cuando los procesos de codificacin son muy dispendiosos y
cuando se lleva a cabo una correccin o imputacin excesiva o
insuficiente de los datos.
Para disminuir el riesgo de incurrir en errores por estas causas,
nuevamente es necesario trabajar en dos frentes: desde la
perspectiva temtica, el diseo de los procedimientos de crtica,
codificacin, consistencia e imputacin deben estar acorde con
los objetivos de las preguntas, deben estar planeados y
probados de antemano aunque es posible que requieran
ajustes con base en los datos observados.
Desde la
perspectiva del operativo de oficina, es necesario llevar a cabo
un estricto control de los procesos y una depuracin exhaustiva
de los programas, en particular para la evaluacin de
consistencia y la imputacin.
8.1.7 Errores en la generacin de estimaciones
En las ltimas etapas del estudio se lleva a cabo la generacin
de estimaciones y sus correspondientes coeficientes de
variacin estimados. Para evitar incurrir en errores en este
proceso, es importante que los lineamientos de estimacin y de
estimacin de varianza sean claros y que los programas
diseados para su implementacin hayan sido probados con
datos de escritorio en forma exhaustiva. Muchos de los errores
cometidos en etapas anteriores, principalmente en la captura,
consistencia o imputacin resultan evidentes en esta etapa, lo
que puede retrasar la entrega de resultados. Un trabajo en
equipo y una buena coordinacin de todos los procesos de la
encuesta minimizan este riesgo.

Muestreo 97

BIBLIOGRAFIA
Bautista L. Diseos de muestreo estadstico. Universidad Nacional de
Colombia. 1998.
Srndal, C.E., Swensson, B., Wretman, J., Model Assisted Survey Sampling.
Ed. Springer Verlag. 1992.
Srndal, C.E., Lndstrom S. Estimation in surveys with nonresponse. Ed.
Wiley. 2005.
Statistics Canada. Statistics: Power from Data! 2006.
http://www.statcan.ca/english/edu/power/toc/contents.htm
Lohr S. Muestreo: Diseo y Anlisis. Internacional Thomson Editores. 2000.
DANE. Documento de apoyo docente Muestreo. Tcnicas de Diseo y
Desarrollo de Encuestas. 1997.
Satin A., Shastry W. Survey Sampling: A non-mathematical Guide. 2a.
Edicin. Statistics Canada. 1993.