Professional Documents
Culture Documents
Colección de
Metodologías Básicas
para uso Estadístico
BOLETIN I:
COMO ELABORAR LAS ENCUESTAS
AGOSTO 2021
- 1 -
AGRADECIMIENTO
- 2 -
PROLOGO
La Estadística siempre ha sido motivo de muchos comentarios desde tiempos inmemoriales,
se puede intentar afirmar desde que el hombre errante tenía que cubrir ciertas necesidades
alimentarias y posteriormente el mismo al transformarse en cavernícola, buscar y establecer
sus prioridades, utilizaba el conteo simple y a través de él, un primero inicio de planificación,
cuanto se consumía y cuanto se podría guardar, la historia nos relata muchos eventos de
tipo estadístico, como por ejemplo el traslado de Moisés errante con todo su pueblo,
quienes cada cierto tiempo hacían los primeros levantamientos censales para conocer
cuántos habían salido y cuantos estaban en camino hacia tierra prometida, la estadística a
evolucionado que inclusive habiendo sido parte de las matemáticas hoy se podría afirmar
que es una ciencia separada, en alguna ocasión fue conocida como la Aritmética Política,
hasta hoy con todos los avances importantes de la tecnología que se hace más necesaria
en el día a día no solo de la gestión pública sino de la gestión privada, Este compendio es el
resumen de muchas clases ya efectuadas, durante estos últimos años, y al momento de
convertirse en Libro, no lleva otro propósito que el de ayudar a comprender la solución de
eventos sociales y económicos partiendo de una buena comprensión de datos, los mismos
que estarán en manos de ustedes, ex alumnos y lectores. Finalmente presentamos a
ustedes una serie de compendios de Estadística.
- 3 -
INDICE
1. CARACTERISTICAS
Definición
Importancia
3. USO DE VARIABLES
Tipología de datos e Información
Variables
Tipos de variables
5. MUESTREO
Definición
Objetivo del muestreo
Tipos de muestreo
Muestreo probabilístico
Muestreo dirigido
Muestreo aleatorio
Muestreo sistemático
Muestreo estratificado
Muestreo conglomerado
Flow Chart del muestreo
Características del muestreo
Determinación de muestras
Modelos y esquemas
Presentación en Shutterstock
Ejercicios Aplicativos en el comportamiento político y no político
6. GRAFICOS
Gráficos de barra
Histogramas
Polígono de frecuencias
Cartogramas
Criptogramas
- 4 -
Grafígramas
Gráficos circulares
Gráficos compuestos
Grafico de Pareto
Grafico de dispersión
Pictogramas
Pirámides poblacionales
Gráficos aplicativos a la visión de la Ciencia Social
- 5 -
CONTENIDO
HISTORIA
DEFINICION
TIPOS
- 6 -
FLUJOGRAMA DEL METODO ESTADISTICO
Tipos de Estadística
- 7 -
CONCEPTOS BASICOS
Para la estadística es necesario identificar un conjunto de variables e indicadores
reconocidos como estadígrafos,
POBLACION:
En estadística también es conocido como “universo”, viene a ser el conjunto de
todos los elementos de referencia sobre el que se realizan las observaciones. Se
puede decir también que es la información sobre el que estamos interesados en
obtener conclusiones (inferir), normalmente es demasiado grande para poder
abarcarla, motivo por el cual se puede fraccionar para a partir de esa parte elaborar
determinados análisis y buscar una generalización para el todo, esa parte de la
extracción se denomina “muestra”.
MUESTRA:
Es una parte de un conjunto pre determinado de datos, siendo esta una población o
un determinado universo de información, se dice también que es una parte
representativa que a sido seleccionada previamente para ser analizada o estudiada
- 8 -
buscando resultados y generalizar hacia el total de la población o el universo de
datos.
PARAMETRO:
Son los números, las medidas o características descriptivas inherentes a la población
total, cuyo resultado afecta directamente a la población o la muestra que fue
motivo de investigación, su uso es para efectuar un reconocimiento y posterior
toma de decisión con grado de certidumbre estadística.
ESTADIGRAFO:
Son los números convertidos o presentados como las medidas de carácter
descriptivo vinculado a una muestra, la que se va a utilizar como parte de la
estimación del parámetro, al igual que el parámetro también su rigurosidad debe de
estar en relación al grado de incertidumbre para tomar decisiones adecuadas a la
información
- 9 -
ETAPAS DE LA INVESTIGACIÓN ESTADÍSTICA
FORMULACION DEL
PROBLEMA
DETERMINACION DE
LA MUESTRA
DISEÑO
ESTADISTICO
RECOLECCION
DE DATOS
ORGANIZACIÓN Y
PRESENTACION DE DATOS
ANALISIS INTERPRETACION
DE DATOS
INFERENCIA ESTADISTICA Y
CONCLUSIONES
- 10 -
Los investigadores la denominan “Problema” sin embargo esta palabra va
acompañada de objetivos pre determinados que a medida se desarrollen los
estudios iremos visualizando si nuestro criterio es cierto o no, más adelante
podremos ver la prueba de hipótesis para descartar el uso de la variable, en todo
caso esta prueba va a permitir un mejor criterio técnico para obtener los resultados.
Al iniciar la formulación del tema debemos de ser lo más claro y especifico que
podemos ser, porque de ello dependerá el resultado que se busca, sin embargo
debeos de ser muy específicos en nuestros objetivos porque nuestro planteamiento
recién vamos a poder consolidar con los resultados, no buscar el resultado que
queremos ex profesamente o direccionarlo para que de los resultados que el
investigador desea hallar. Es necesario tener opiniones de personas que buscan que
indagar el mismo resultado. Un clásico mal ejemplo es cuando algunos
investigadores en campañas políticas buscan que sus candidatos casi por arte de
magia resulten matemáticamente aceptados, lo que genera un mal criterio técnico
en algún momento de la toma de información o el planteamiento del problema.
DETERMINACION DE LA MUESTRA:
Para desarrollar nuestra investigación es necesario previamente seleccionar una
muestra del universo de la población, para esto se recurre a formulas establecidas de
manera empírica con un máximo de 10% y en otros casos con la fórmula adecuada
diseñada mediante formulas especificas para medir el tamaño de la muestra a ser
utilizada en la investigación o el análisis. Debemos de ser muy específicos en los
detalles, de manera simple podemos intentar tener criterios de no exceder lo
señalado líneas arriba, como experiencia profesional se puede considerar los
porcentajes de la población seleccionado previamente para tal efecto. En capítulos
posteriores detallaremos este tema.
DISEÑO ESTADISTICO
- 11 -
Es la organización del tratamiento o procesamiento estadístico de los datos, con el
objeto de analizar, explicar y resolver el problema del investigador, en ocasiones a
solicitud de un grupo interesado en buscar el temperamento actual o tal vez el
comportamiento comercial de un determinado grupo de personas. Para estos
efectos de diseñar el tratamiento estadístico de los datos, el investigador debe tomar
en cuenta el tipo de datos con los cuales trabajará y una vez identificados, se halla
en la capacidad de definir los procedimientos estadísticos que serán necesarios para
lograr los objetivos del trabajo de investigación. Siempre se recomienda que las
solicitudes del investigador o quienes solicitan la información sean lo más especifico
posible para crear o identificar preliminarmente las hipótesis que se va a demostrar
su aceptación o rechazo. La elección de un determinado diseño estadístico o diseño
experimental adecuado depende fundamentalmente de los siguientes aspectos:
1. El diseño de tratamiento
2. El diseño de control de error
3. El tipo de muestreo a utilizar
4. El diseño de las observaciones.
5. El diseño de la presentación.
I. Diseño de Tratamientos
Determina los tratamientos y los niveles a ser incluidos en el estudio o la
investigación : Qué tratamientos deberían seleccionarse y cuántos?. Los
Tratamientos, corresponden a los niveles de un factor de tratamiento (grado de
intensidad de un factor) o a la combinación de niveles de factores (estructura
factorial) y son procedimientos, métodos, estímulos o condiciones, cuyos efectos se
miden sobre la unidad Experimental (pedazo de material experimental al cual se
aplica el ensayo de un solo tratamiento). Expresado de manera mas descriptiva
podremos mencionar, que se buscara un determinado nivel de profundidad o
especialización cuando la información dispuesta nos pueda permitir llegar este
objetivo, un claro ejemplo podría ser aquel si busco la propensión a una
determinada enfermedad que solo afecta a las mujeres, entonces el tratamiento de
- 12 -
la información previamente estará dirigido a las mujeres, si en esa investigación me
señalan que solo es a las jóvenes, entonces la especialización va a ir más a
profundidad con los datos ya direccionados a ese estrato poblacional.
Por otro lado, en los últimos años la aplicación rigurosa del tratamiento estadístico
del error ha provocado la paralización de algunos proyectos de planificación de
envergadura. Este sería el caso, por ejemplo, de la construcción de un depósito de
- 13 -
residuos radiactivos en el Reino Unido, rechazado por las notables discrepancias
encontradas en los resultados del modelo hidrológico utilizado (Beven, 2000).
Quizás el resultado de estos procesos, para los que se requiere una gran inversión
en dinero y esfuerzo, podría haber sido diferente si se hubiera procedido a
cuantificar de manera adecuada la incertidumbre asociada a las predicciones del
modelo en cuestión.
A todo ello habría que unir el creciente interés por implementar procesos
participativos mediante los cuales pueda alcanzarse cierto consenso entre todos los
agentes implicados en problemas de planificación, especialmente en aquellos que
puedan tener una especial incidencia en el desarrollo futuro del territorio que se
pretende intervenir. En este sentido, la posibilidad de disponer de información
sobre la incertidumbre asociada al proceso parece ser un ingrediente de gran
valor, sobre todo en problemas de localización de instalaciones potencialmente
peligrosas como la que aquí nos disponemos a tratar.
Error de medición: Todas las mediciones tienen errores los cuales resultan de la
diferencia entre el valor medio X y el valor verdadero. La diferencia entre el valor
medido y el valor verdadero es el error de medición total δ. Ya que el valor
verdadero es una incógnita, el error total en una medición no puede ser conocido y
por lo tanto solamente sus límites pueden ser estimados. El error de medición total
consiste de dos componentes, el error sistemático y el error aleatorio. Una medición
exacta requiere minimizar ambos errores
- 14 -
Error Aleatorio.- El error aleatorio ε, es la porción de el error de medición total
que varía en mediciones repetidas del valor verdadero. El error aleatorio total
en una medición es usualmente la sumatoria de las contribuciones de las diversas
fuentes de errores aleatorios elementales. El error aleatorio elemental fuente
incluye a aquellos que son conocidos y controlados, los mismos son despreciables e
ignorados, los cuales son desconocidos y cuyos límites deben ser estimados. Los
errores aleatorios elementales podrían provocar una no repetibilidad en el
sistema de medición, condiciones ambientales, técnicas de reducción de datos y
métodos de medición
RECOLECCION DE DATOS
Parte de la investigación estadística que exige más tiempo, es en esta etapa que el
investigador entra en contacto con las unidades de análisis, con el fin de obtener los
datos relacionados al trabajo de investigación. La recolección de información debe
ajustarse a reglas estrictas, para evitar errores o el sesgo de la información.
- 15 -
Para un mejor entendimiento lo desarrollamos en fases que vienen a ser las
siguientes:
a. Investigación bibliográfica:
Consiste en tomar la información de fuentes documentales disponibles, tales
como: oficinas de estadística, informes, boletines y publicaciones de
organismos especializados en el problema de investigación. Recurrir a todos
los datos históricos que le sean posibles, este hecho posibilitará tener un
mejor criterio para definir “la hipótesis” que se busca demostrar a través de la
investigación. Se debe considerar también la distancia de los documentos a
efecto de poder orientar las bases del estudio.
b. Trabajo de Campo
Consiste en tomar la información directamente de las unidades de análisis
que conforman la muestra , la recolección de información se realiza mediante
la observación o medición de las unidades de análisis usando para este
efecto: Encuestas, Censos, Muestreos y en algunos casos experimentos de
laboratorio, esto quiere decir pequeñas muestras de investigación que van
probando el cuestionario y la hipótesis que se está analizando.
a. Informes cualitativos:
Estos datos se verán reflejados en variables que determinen las diferentes
características utilizadas para la investigación, por lo general se presentan en
gráficos denominados pictogramas, Grafígramas o cartográficos diferenciando
- 16 -
las situaciones de acuerdo al tiempo. En la actualidad para mejor exposición
se está utilizando videos de carácter institucional y de resultados sin la
necesidad de colocar resultados numéricos, hecho que no nos otorga un
resultado definitivo pero cuando se trata de una presentación magnificada
presenta ciertas ventajas de manera circunstancial.
b. Informes cuantitativos:
Dado que están representados por datos numéricos, estos tienen una mayor
variedad de presentaciones inclusive posibilitan las comparaciones respecto a
lugar, tiempo, circunstancias denominadas para nosotros como fenómenos
estadísticos en el tiempo. La cantidad de gráficos que se pueden utilizar en
estos informes es muy variada,
- 17 -
DISEÑO DE UNA ENCUESTA.
- 18 -
c. ¿Existe información, disponible de antemano, de encuestas piloto u otras
encuestas similares que pueda ser aprovechada?
d. ¿De qué medios materiales y personales se dispone?
e. ¿Qué tiempo necesitamos para efectuar la encuesta?
f. Límites presupuestarios y temporales.
Etapas de la
encuesta.
A continuación se describen brevemente las etapas que deben considerarse en la
planeación de una encuesta.
- 19 -
hacer un muestreo del estrato poblacional a donde va dirigido, porque la
elección de la población objetivo afectará profundamente las estadísticas
resultantes.
- 20 -
Ésta debe contener la presentación de los objetivos del estudio e
instrucciones sobre el llenado. Es conveniente incluir datos de
identificación como: nombre de la institución, nombre del entrevistador,
número del cuestionario de la muestra, hora de inicio de la entrevista
y todo tipo de datos que sirvan para el control de la investigación. La
sección final deberá contener el cierre de la entrevista, la hora de
terminación y espacio para que el entrevistador anote sus observaciones, o
para algún otro dato que el entrevistador determine es conveniente
observar y anotar.
- 21 -
requiere. A veces es recomendable la combinación de
preguntas abiertas (el entrevistado no enfrenta categorías en la
respuesta) y preguntas cerradas (se presentan opciones
múltiples), para darle motivación al encuestado. Éstas últimas
permiten una sencilla codificación y captura de la información.
En consecuencia con lo anterior, la mayoría de las preguntas
deben de tener una respuesta numérica simple (como la edad
del entrevistado) o un número fijo de selecciones
predeterminadas, una de las cuales será elegida por el
entrevistado. Por ejemplo, al preguntar el estado civil de las
personas se puede presentar las opciones: soltero, casado, viudo,
divorciado, unión libre y otro. Se debe de evitar en todo
momento direccionar las preguntas, por ejemplo si un grupo
ocupacional no está de acuerdo con una determinada gestión
del gobierno, no vamos a ir directamente a ese grupo, dado que
la respuesta es más que obvia, o si un creyente de una iglesia
determinada es encuestado para preguntarle si existe Dios, la
respuesta ya está definida. Estos criterios evitan la
“contaminación” de preguntas no adecuadas, las mismas que en
la Validación de las encuestas se harán visibles.
- 22 -
decir lo que se quiere escuchar. Por ejemplo plantear, La
Iglesia Católica está en contra del uso del condón, ¿y usted?
Incrementa la proporción de encuestados que quieren compartir
la opinión de la Iglesia. Asimismo, preguntas como ¿cuál es el
problema principal que enfrenta el magisterio? Brinda un rango
de posibilidades que tal vez origine respuestas que no
corresponden a la información que se quería recabar. Es por eso
que se debe ser muy cuidadoso en la redacción de las preguntas
de una encuesta.
- 23 -
usan entrevistas personales, porque la tasa de respuesta y la exactitud de las
respuestas son afectadas por el estilo personal del entrevistador.
- 24 -
11. Organización y manejo de datos: Se debe elaborar un esquema de manejo
apropiado de la información en todas las etapas de la encuesta. Las grandes
encuestas generan gran cantidad de información y por ello requieren un plan
bien estructurado para el manejo de los datos. Este plan debe de incluir los
pasos a seguir en el proceso de los datos, desde el momento en que se
hace una medición en el campo hasta que el análisis final ha sido
completado. Se debe incluir también un esquema de control de calidad para
verificar la correlación entre los datos procesados y los datos
recolectados en el campo.
12. Análisis de los datos: Definir los análisis que deberán realizarse. Este
punto está estrechamente relacionado con el paso anterior, e involucra la
especificación detallada de los análisis que deben ser ejecutados. Se puede
también listar los temas que se deberán incluir en el reporte final. Es
recomendable “limpiar” la información, esto quiere decir por ejemplo que si
en el proceso de las entrevistas una persona no concluyo la hoja de
encuestas, esta “encuesta” debería ser eliminada dado que no fue concluida,
para estos efectos siempre se programa un porcentaje adicional por zona a
ser trabajada, permitiendo de esta manera que el trabajo sea más acertada a
la posible hipótesis planteada.
TIPOS DE ESTUDIOS
- 25 -
Es muy importante conocer el tipo de estudio que se está desarrollando pues de
ello dependerá el análisis a efectuar.
Estudios
exploratorios.
Se efectúan normalmente cuando el objetivo es examinar un tema o problema
de investigación poco
estudiado, o que no ha sido abordado antes. Es decir, cuando la revisión de la
literatura estadística reveló que
únicamente hay guías no investigadas e ideas vagamente relacionadas con el
problema de estudio.
Estudios
descriptivos.
Muchas veces sólo se necesita describir situaciones o eventos, es decir cómo es y
cómo se manifiesta determinado fenómeno. Los estudios descriptivos buscan
especificar las propiedades importantes de personas y grupos, comunidades o
cualquier otro fenómeno que sea sometido a análisis. El objetivo de los estudios
descriptivos es obtener una medición precisa de ciertos fenómenos, como son
las preferencias políticas, preferencia por determinados productos de consumo,
prejuicios raciales o divorcios.
Una tarea esencial, común tanto a los estudios descriptivos como los explicativos
(que se definen más delante), es la conceptualización del fenómeno en estudio. Si
un profesor desea determinar cuál es la tasa de incidencia de la baja nota de los
alumnos entre la población de Lima Metropolitana debe, primeramente, aclarar el
significado del término, en este caso la “baja nota”. Esta tarea lo llevará
rápidamente al campo de la teoría, pues tendrá que decidir, usando bases teóricas,
cómo y en que límites se encuentra la baja nota, lo cual puede resultar muy difícil
y fuera de su alcance. Los estudios descriptivos pueden constituir una base para
- 26 -
perseguir otros objetivos, incluyendo la explicación y comprobación de hipótesis,
la evaluación, la predicción, etcétera.
Estudios
correlaciónales.
Estos estudios pretenden responder a preguntas de investigación en las cuales el
propósito es medir el grado de relación que exista entre dos o más conceptos o
variables. La mayoría de las veces sólo se analiza la relación entre dos variables,
pero puede generalizarse a más variables. El propósito principal es saber
cómo se puede comportar una variable conociendo el comportamiento
de otras variables relacionadas. Por ejemplo, un investigador puede
medir motivación laboral y productividad en el trabajo y después analizar si
los trabajadores con mayor motivación son o no los más productivos.
Estudios
explicativos.
Este tipo de estudio va más allá de la descripción de conceptos o
fenómenos o del establecimiento de relaciones entre conceptos; están dirigidos
a responder a las causas de los eventos físicos o sociales. Como su nombre lo
indica, su interés se centra en explicar por qué ocurre un fenómeno y en que
condiciones se presenta, o bien, por qué dos o más variables están relacionadas.
Los estudios explicativos son más estructurados que los otros estudios y de
hecho implican los propósitos de ellos (exploración, descripción y
correlación), además de que proporcionan un sentido de entendimiento del
fenómeno a que hacen referencia.
Los estudios del comportamiento también pueden dividirse sobre la base del
período en que se capta la información, la evolución del fenómeno estudiado, la
comparación de poblaciones y la interferencia del investigador en el estudio.
- 27 -
Así, de acuerdo con el periodo en que se capta la información, el estudio
puede ser:
Descriptivo. Estudio que sólo cuenta con una población, la cual se pretende
describir en función de un grupo de variables y respecto a la cual no existen
hipótesis centrales.
Comparativo. Estudio donde existen dos o más poblaciones y donde se quieren
comparar algunas variables para contrastar una o varias hipótesis centrales.
- 28 -
Por último, de acuerdo con la interferencia del investigador en el fenómeno que
se analiza, el estudio se puede clasificar como:
Selección de Variables.
Las variables son las características medibles en las unidades de estudio
y deben seleccionarse en relación con los objetivos planteados. En términos
de su papel en la encuesta éstas pueden clasificarse como:
- 29 -
socioeconómico y lugar de procedencia, en un estudio de crecimiento y
desarrollo.
Debe recordarse que el tipo de estudio define algunos aspectos relativos a las
variables. En los estudios transversales las variables sólo se miden en una ocasión
por lo que el investigador debe asegurarse de que realmente una sola
medición de los aspectos estudiados les dé la información suficiente para
lograr sus objetivos. En los estudios longitudinales se debe especificar el tiempo
entre una medición y otra, y, de ser posible, el número aproximado de dichas
mediciones.
- 30 -
sistematice la recolección de datos para que la transferencia a la memoria de una
computadora sea con un mínimo de error, lo cual puede lograrse mediante hojas
de codificación. Debe recordarse que los códigos asignados a las variables
nominales deben usarse únicamente como etiquetas.
El lenguaje utilizado debe ser acorde con el del sujeto al que se dirige la
encuesta, utilizando el vocabulario y términos adecuados. Las preguntas
deben estar redactadas de la forma más corta posible, con el fin de facilitar su
lectura y comprensión.
Las preguntas deben plantearse con claridad y de forma inequívoca, un típico
error de redacción consiste en incluir dos preguntas en una, lo que conduce a
no poder concretar a cual corresponde la respuesta.
Debe empezarse por las preguntas más fáciles o sencillas para pasar después a
las más difíciles o complicadas.
Se debe tener un especial cuidado con la información de preguntas que
puedan resultar delicadas o embarazosas para el encuestado, redactándolas
de forma que pueda obtenerse la información sin provocar un rechazo o una
falsa respuesta. Estas preguntas deben ir, además, al final del cuestionario.
No se debe incluir en las preguntas juicios de valor ni afirmaciones que
puedan condicionar las respuestas, ni que puedan verse afectadas por el
orden en que figuren dentro del cuestionario.
Las preguntas deben formularse de forma que faciliten tanto el esfuerzo de
memoria que tenga que realizar el encuestado, como en su caso, la
realización de cálculos, para evitar errores en las respuestas.
- 31 -
CÁLCULO DEL TAMAÑO DE LA MUESTRA
INTRODUCCIÓN
POBLACIÓN.- Llamado también universo o colectivo, es el conjunto de todos los
elementos que tienen una característica común. Una población puede ser finita o
infinita. Es población finita cuando está delimitada y conocemos el número que la
integran, así por ejemplo: Estudiantes de la Universidad UTN. Es población
infinita cuando a pesar de estar delimitada en el espacio, no se conoce el número
de elementos que la integran, así por ejemplo: Todos los profesionales universitarios
que están ejerciendo su carrera.
Adecuada y válida.- Se refiere a que la muestra debe ser obtenida de tal manera
que permita establecer un mínimo de error posible respecto de la población.
Para que una muestra sea fiable, es necesario que su tamaño sea obtenido
mediante procesos matemáticos que eliminen la incidencia del error.
ELEMENTO O INDIVIDUO
Unidad mínima que compone una población. El elemento puede ser una entidad
simple (una persona) o una entidad compleja (una familia), y se denomina unidad
investigativa.
- 32 -
FÓRMULA PARA CALCULAR EL TAMAÑO DE LA MUESTRA
Para calcular el tamaño de la muestra suele utilizarse la siguiente fórmula:
Dónde:
n = el tamaño de la muestra.
N = tamaño de la población.
- 33 -
De esta fórmula del error de la estimación del intervalo de confianza para la media
se despeja la n, para lo cual se sigue el siguiente proceso:
Elevando al cuadrado a ambos miembros de la fórmula se obtiene:
Multiplicando fracciones:
Eliminando denominadores:
Eliminando paréntesis:
Transponiendo n a la izquierda:
Factor común de n:
Despejando n:
- 34 -
EJEMPLOS ILUSTRATIVOS
1) Calcular el tamaño de la muestra de una población de 500 elementos con un
nivel de confianza del 95%
Solución:
Realizando el gráfico que representa el 95% de confianza se obtiene:
- 35 -
2) Calcular el tamaño de la muestra de una población de 500 elementos con un
nivel de confianza del 99%
Solución:
Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los demás
- 36 -
TAREA DE INTER APRENDIZAJE
Propongo 4 ejemplos de población, muestra y elemento, a continuación:
OBJETIVO GENERAL:
Analizar la información que poseen los votantes acerca del proceso electoral,
la responsabilidad del voto, la fecha de votación y las propuestas de los
diferentes candidatos.
- 37 -
OBJETIVOS ESPECIFICOS
SUSTENTO DE LA ENCUESTA:
- 38 -
INSTRUMENTO PARA VALIDACIÓN
Relevancia del
contenido
Factibilidad de aplicación
APRECIACIÓN CUALITATIVA
OBSERVACIONES:
LUGAR DE TRABAJO
FECHA FIRMA
- 39 -
OPERACIONALIZACION DE LAS VARIABLES A UTILIZAR
- 40 -
de decisión para el proceso
electoral
Relacionado con el Conocer los lugares de votación, 20
proceso electoral la hora , la forma de votar
ESCALA
Ítem Dejar Modificar Eliminar Observaciones
(1) (2) (3)
1
2
3
4
5
6
7
8
9
10
El cuadro descrito líneas arriba tendrá la misma cantidad de las preguntas denominadas “Ïtem” de esta forma
se podrá analizar a cada una de ellas.
1.-Introducción
- 41 -
Por ello, simultáneamente a la recogida de información en los trabajos de
campo, se deben desarrollar estrictos procesos de validación y depuración
de los datos recogidos, que permitan detectar y corregir los errores que puedan
surgir, sean éstos de la naturaleza que sean, y además valorar la posibilidad de
eliminar encuestas que no cumplan con los criterios de calidad establecidos.
Como se verá a continuación, la validación, depuración e imputación no
se deben entender como procesos independientes sino como acciones
interrelacionadas que forman un proceso conjunto con un objetivo
central: la obtención de información de calidad.
En este artículo se realiza un breve resumen de las etapas que suelen seguirse
en cualquier encuesta por muestreo, para a continuación centrarnos en la
recogida de información y analizar la necesidad de desarrollar una serie de
procedimientos que nos permitan validar la información recogida por los
encuestadores. Para ello se presentan los procedimientos de validación que se
han utilizado por el Instituto de Estadística de Andalucía en sus encuestas a
hogares, y más concretamente en la Encuesta Social 2008.
- 42 -
abordarse desde alguna otra operación estadística existente.
Tras detectar que efectivamente es necesario planificar una operación
de recogida de información mediante una encuesta hay que poner en
marcha las siguientes etapas:
1) Planificación de la operación estadística
2) Diseño
3) Ejecución de la operación.
4) Validación, depuración e imputación, de forma conjunta.
5) Difusión de los resultados.
2) Diseño
Una vez decididos en la etapa anterior los rasgos principales de la operación
- 43 -
estadística, se deben establecer los métodos adecuados para cumplir con todos los
objetivos deseados, definiendo todos los procedimientos que nos lleven a tal
fin. Estos procedimientos varían notablemente según nos encontremos
con una operación censal o muestral. Podemos destacar como procedimientos
asociados a esta etapa
3) Ejecución
En esta etapa es en la que se obtienen los datos de la operación estadística,
que posteriormente habrá que tratar, siguiendo los pasos descritos en la etapa de
diseño.
- 44 -
medición que le corresponde. Es muy común que para medir cualquier magnitud
se empleen variables sintéticas construidas a partir de las respuestas que se
obtienen del entrevistado a través de una encuesta. De forma que, esta encuesta
y procedimiento tendrán que ser validados.
Como fases del procedimiento de validación distinguimos, por un lado, la
validación del cuestionario, a través generalmente de la realización de una
encuesta piloto, y por otro, tratar e investigar los trabajos que desarrollan los
encuestadores mediante la validación de los procedimientos de encuestación
y detección de encuestas fraudulentas a través de distintas estrategias. Pero,
como se ha comentado anteriormente, el procedimiento de validación no
se debe ver como un procedimiento aislado e independiente sino que va
unido a las fases de depuración e imputación de los datos, tal y como veremos.
- 45 -
5) Difusión
Por último, toda operación estadística pública se debe ajustar a los planes
diseñados para su posterior difusión. La calidad de la investigación estadística se
logra extremando el cuidado en la realización de las etapas anteriores.
Como existen tantos tipos de investigaciones como necesidades
de información, no hay reglas exactas para cada una de las etapas, pero si
existen guías de actuación que nos pueden ayudar a desarrollarlas según sea el
caso.
- 46 -
manifiesto este interés en asegurar dicha calidad. Asimismo, el hecho de mantener
el equipo de validación de forma constante a lo largo de estos años ha permitido
que se aumente la calidad de los datos, lo que además, se ha realizado con
una carga de trabajo mucho menor gracias a la sistematización de los
procedimientos. En la siguiente tabla podemos ver el número de validaciones
realizadas en alguna una de las operaciones anteriormente enunciadas:
Tabla 1.
Histórico de validaciones en las operaciones de la Unidad de Encuesta del IEA.
ENCUESTA VALIDACIÓN TELEFÓNICA (%)
EMV 37,20
ESOC-07 45,55
ESOC-08 34,87
Una de las apuestas iniciales que realizó el IEA, que supuso una mejora en la
calidad de los resultados, a la hora de crear su unidad de encuesta, fue hacer uso
del sistema CAPI (Computer Assisted Personal Interviewing), utilizando
dispositivos PDA como herramienta de recogida de la información. Este
sistema cuenta con numerosas ventajas respecto a la validación de encuestas.
Una de las principales, es que se dispone de la fecha y hora de realización de la
entrevista y de la duración de la misma. De esta forma, se pueden marcar como
sospechosas aquellas encuestas realizadas a horas intempestivas y aquellas cuya
duración resulta mucho más corta del resto. Esto permite establecer patrones
de duración de las encuestas por cada encuestador. Otra de las ventajas de
trabajar con PDA a la hora de la recogida de información en una encuesta, es que
la fase de depuración comienza en el mismo diseño del cuestionario en la PDA,
ya que se van definiendo los filtros directamente en el diseño del cuestionario,
evitando tener que depurarlos una vez que se han recibido los datos. Por
último, en la recogida de información a través PDA, se tiene protocolarizado que
el encuestador no pueda editar una encuesta una vez que la ha dado por
definitiva, esté finalizada o incompleta, pudiendo realizar esta edición sólo los
- 47 -
miembros de la Unidad Central de Encuestas, tanto directamente en la PDA
como en las aplicaciones informáticas posteriores.
Otro aspecto que cada vez ha ido teniendo mayor importancia en la
validación de las encuestas del IEA es la minimización del tiempo que
transcurre entre la realización de la encuesta y los posibles re contactos con el
encuestado, por ejemplo, a través de la realización de un cuestionario de
validación, para que así el suministrador de los datos no tenga dudas y
recuerde en gran parte la encuesta a la que se refiere dicha validación. Este
proceso de validación se realiza a través de dos vías: la validación telefónica y
la validación “in situ”. En los dos siguientes epígrafes (4 y 5) detallaremos
cada uno de ellos:
- 48 -
Los institutos de estadística autonómicos colaboraron en la elaboración
del cuestionario y se hicieron cargo de la realización y coordinación regional
de los trabajos de campo en sus respectivos territorios.
En el IEA, nuestra unidad trabaja en cooperación con equipos de
las universidades andaluzas, encargados de la recogida de información. La
operación se basa en una muestra de viviendas, en las que se selecciona a
determinados informantes. El cuestionario se encuentra dividido en 9 módulos
que recogen diferentes aspectos relacionados con el Medio Ambiente.
- 49 -
explotación de los resultados y al cruce con otras variables.
Por otro lado, en el RPA, como acabamos de ver, también tenemos esta
misma
información, en teoría procedente de la misma vivienda, lo cual facilita
la comparación de dichas fuentes y la consecuente obtención de un criterio de
decisión a la hora de decidir si una encuesta tiene que ser validada. Este criterio es
fundamentalmente el siguiente:
Si coincide de forma estricta la estructura del hogar del RPA con la
presentada en la encuesta (se comprueba primero que coincida el número de
personas y posteriormente que las personas que estén tengan las mismas
características de edad y sexo) se valida sólo un 10% de los casos, ya que
tenemos evidencia de haber visitado la vivienda correcta.
En el caso de que no coincida se valida un 80% de los casos. Visto el alto
porcentaje de validación que se produce en estos casos, debemos estar seguros
de que la estructura del hogar difiere en gran medida, por lo que se procede a
una breve depuración manual en los casos más próximos a la coincidencia.
Esta depuración manual la realiza el equipo de validación a través de una
aplicación en Visual Express Studio.
Por lo tanto, al recibir los datos de una encuesta, lo primero que se hace es
encuadrarla en una de estas dos categorías (una vez que los códigos de las
mismas están depurados), que a partir de ahora denominaremos
Correcto_RPA, cuando ambas fuentes coincidan, e Incorrecto_RPA cuando no lo
hagan. Este procedimiento está automatizado en Visual Express Studio existiendo
una aplicación para ello.
En esta comparación con el RPA, somos conscientes que se pueden producir
errores por el desfase temporal entre la fecha de referencia del RPA y el
momento de realización de la encuesta. Es decir, en un momento dado el registro
de viviendas podría quedar obsoleto, y por tanto no tendríamos a priori la
misma estructura en el RPA y en la encuesta. En este caso, esa encuesta se
catalogaría en el grupo de Incorrecto_RPA. Contamos con este error, pero la
- 50 -
mejora sustancial a la que ha sido sometido el RPA en los últimos años a
través del trabajo del Servicio de Demográficas y Sociales del IEA, nos hace
prever que aún cometiendo errores, las ventajas que obtenemos de esta fuente
son cada vez mayores, lo que permite un notable ahorro de esfuerzo a la hora
de localizar entrevistas sospechosas.
Siguiendo esta regla de decisión, y los porcentajes fijados anteriormente,
se seleccionan aleatoriamente las encuestas que debemos validar de forma
telefónica, realizándoles el cuestionario de validación extraído del cuestionario
original. Los resultados de la validación se clasifican en cuatro categorías, que
son: Validada, No Validable, Llamada positiva y Sospechosa. Las explicamos más
detalladamente:
Validada: La primera pregunta que se realiza en cualquier cuestionario
de validación, tanto telefónico como presencial, es saber sí a la persona en
concreto se le ha realizado una encuesta a través de los mecanismos
correctos, es decir, en nuestro caso si en la vivienda seleccionada se ha
personado un encuestador con PDA para hacerle unas preguntas sobre el tema
en cuestión. En el caso que sea afirmativa la respuesta, se procede a preguntarle
el breve cuestionario de validación. Si éste es contestado en su totalidad, se
codifica en esta categoría.
Llamada positiva: existirá un amplio grupo de personas que no
quieran responder a más preguntas, es decir, que no faciliten las respuestas del
cuestionario de validación pero si aseguren que por su vivienda se ha
personado un encuestador del IEA con su PDA para realizarle la encuesta. En este
caso se codifica la encuesta como llamada positiva.
No Validable: se trata del caso en el que el equipo de validación no ha
sido capaz de contactar de ninguna de las formas posibles con la vivienda
seleccionada, bien sea por no poder tener contacto telefónico o porque una vez
iniciado el contacto se niegue a dar información alguna sobre la encuesta. En
este caso, además de clasificar la encuesta como no validable, se sustituye
dentro del listado de encuestas a validar por otra del mismo encuestador.
- 51 -
Sospechosa: el objetivo de la validación telefónica que se realiza en el IEA
es poder detectar las encuestas donde hay indicios de fraude. Una vez que se
marca como sospechosa se inicia una investigación que nos lleve a discernir si la
encuesta es fraude o no, recabando información del coordinador de
provincia, del entrevistador y analizando la coherencia interna de la encuesta.
Estos casos también se proponen para la validación in situ, como veremos
posteriormente, en la que un equipo externo al IEA, vuelve a dirigirse a la
vivienda para verificar si se ha realizado la encuesta. En el caso de que se
determine que es fraudulenta se procede a su repetición.
- 52 -
1. Una vez seleccionado el caso, comparado con el RPA, se le realiza
el cuestionario de validación completa de la encuesta, siguiendo unos porcentajes
predeterminados.
2. Del resto de encuestas se comprueba la coherencia interna de los bloques en
los que se divide el cuestionario, de forma que se validen aquellos que sean
realmente inconsistentes, si éstos son un número elevado, se validará de forma
completa.
- 53 -
Gráficamente, la secuencia de los procedimientos sería la siguiente:
RECEPCION COORDINADORES
PROVINCIALES
No
CODIGO
DE
VIVIENDA
Si
COMPARACI
ON RPA
Coincidencia No Coincide
estricta
CUESTIONARIO CUESTIONARIO
VALIDACION VALIDACION
COMPLETO COMPLETO 1º etapa
10% 80%
2º etapa cuestionarios no
seleccionados en la 1º etapa
COMPARACI
ON RPA
Además de este procedimiento, también utilizamos estrategias clásicas de validación mediante el análisis
de:
- 54 -
Duración de las encuestas
Horario de realización de las entrevistas.
Seguimiento individualizado de entrevistadores o grupos de ellos por si actúan
irregularmente en equipo.
Como se ha comentado anteriormente, la regla de decisión utilizada fijaba un
porcentaje, a validar telefónicamente, de un 80% de los casos en los que no
coincide la estructura del hogar del RPA con la estructura del hogar de la
encuesta y un 10% en el caso de que sí coincidan. Esta notable diferencia en los
porcentajes de ambos casos no es aleatoria. La Unidad de Encuesta del IEA se ha
basado en los resultados de sus propias experiencias a la hora de proponer
dichos porcentajes, ya que, como se esperaba, el porcentaje de encuestas
sospechosas que se encuentran en una operación estadística de este tipo es
mucho mayor en el caso de no coincidir la estructura de la vivienda
encuestada con la que a priori está registrada en el RPA.
Todo esto se puede observar en las siguientes tablas, donde se muestran dos
hechos:
1. Las primeras tablas se centran en calcular cuántas viviendas se clasifican como
correctas y cuántas como incorrectas, en cada una de las encuestas realizadas por
el IEA. Además en estas tablas se podrá observar la mejora que el propio
RPA ha tenido a lo largo de los 4 años de funcionamiento de la Unidad de
Encuesta.
2. Por otro lado, se corrobora las notables diferencias que se encuentran en
la procedencia de una encuesta sospechosa, según venga de un tipo
Correcto_RPA o de uno Incorrecto_RPA. Las encuestas sospechosas que se
contabilizan son sólo las detectadas directamente por la encuesta de validación
telefónica. Además se realizan otros análisis, para la detección de encuestas
sospechosas, por encuestador u otro tipo que hacen que estos números
aumenten.
- 55 -
Tabla 2.
Distribución de encuestas según
comparación con el RPA
CLASIFICACION EMV (%) ESOC-07 (%) ESOC-08 (%)
Correcto RPA 68.1 66.4 73.39
Incorrecto RPA 31.9 33.6 24.61
Total 100 100 100
Tabla 3
Distribución de encuestas validadas por resultados de validación y comparación con RPA
Tabla 4
Distribución de encuestas sospechosas por comparación con RPA
- 56 -
comparar satisfactoriamente las distintas fuentes de información provenientes
de la misma vivienda. Por esta razón dicho cuestionario se debe centrar en el uso
conjunto de preguntas filtro y de aquellas en las que durante el período de
tiempo entre ambos cuestionarios no vaya a cambiar la respuesta del
entrevistado. El proceso de validación de encuestas no termina aquí pues
se tiene una ingente cantidad de información proveniente de los cuestionarios
de validación, que debe ser analizada. Un primer análisis se produce en el cruce
de la información de los dos cuestionarios que a priori son obtenidos de la
misma vivienda, el de validación y el original. A través de un procedimiento
automatizado se procede al análisis de las diferencias entre ambos, prestando
especial atención a las diferencias existentes en una serie de preguntas filtro en las
cuales el encuestador dispuesto a cometer irregularidades puede ahorrarse un
tiempo considerable en la realización de la encuesta. Pongamos un ejemplo
correspondiente a la ESOC-08. Si el encuestador directamente no pregunta a
una vivienda si tiene o no aire acondicionado o calefacción se ahorra uno
de los bloques más largos de la encuesta. Si se detecta un comportamiento
sistemático, en este tipo de casos, para ese encuestador concreto, se pide que se
repita esa parte del cuestionario, como así ha ocurrido en alguna ocasión.
Otro análisis se produce en el número total de diferencias entre ambos
cuestionarios. Si estas diferencias son notables, pasan a investigarse, por los cauces
normales, es decir, contacto con coordinadores provinciales, encuestadores o
envío de dicha encuesta al proceso de validación in situ.
5.-Validación in situ
- 57 -
entrevistados. Para estas encuestas se utilizará otro tipo de validación que
es la validación in situ.
Además, hay otras situaciones que también pueden ser validadas y evaluadas
mediante éste método. Un ejemplo claro es el correcto uso de las sustituciones de
muestra por parte de los encuestadores. Es habitual que un encuestador que
dispone de un listado de sustitutos muchas veces no haga las visitas obligadas a
una vivienda o simplemente, por razones de cercanía y tiempo, acuda a la
vivienda más próxima al lugar donde se encuentre, de forma que no se rija
por el orden de sustitución previo del que dispone, indicando por tanto un
motivo de sustitución ficticio e inexistente.
En gran parte de las encuestas realizadas desde la Unidad de Encuesta del IEA no
se les ha proporcionado los listados de sustituciones a los encuestadores, de
forma que se gestionaban desde la propia Unidad. Así ocurrió en las encuestas
de Redes Familiares, Encuesta Mundial de Valores, Encuesta Social 2007: Una
visión de Andalucía y Encuesta sobre las necesidades de formación y
Cualificación en Andalucía. No ha ocurrido así en la Encuesta Social 2008:
Hogares y Medio Ambiente en Andalucía, donde el listado sí ha sido
proporcionado a los encuestadores.
Cada opción tiene sus ventajas e inconvenientes. Si desde el IEA se
gestionan las sustituciones de muestra – generalmente las sustituciones se daban
en directo a través de una línea 900 – el gasto humano por parte del IEA
era superior y dificultaba los ritmos de trabajo a los entrevistadores. Por el
contrario como ventaja principal, se controlaban en mayor medida las
sustituciones.
Teniendo presente estos aspectos, la validación in situ se planteó con un
doble objetivo: la detección de encuestas fraudulentas y la comprobación de las
causas de sustitución alegadas por el entrevistador.
La validación in situ se realizó a través de una empresa externa a las
- 58 -
Universidades y ajena al IEA. A esta empresa se le proporcionó las secciones
que debía visitar. Estas secciones fueron seleccionadas atendiendo a varios
criterios:
1. Número de sustituciones elevado.
2. Existencia de encuestas sospechosas detectadas en la validación telefónica.
3. Presencia de un encuestador con encuestas sospechosas
- 59 -
Situaciones improbables.
Restricciones contables.
Outliers.
Control de flujo de respuesta del cuestionario.
Resulta muy útil utilizar herramientas automáticas que ayuden en este proceso
tan complejo. En el IEA se utiliza el software TEIDE (Técnicas de Edición e
Imputación de Datos Estadísticos), programa informático desarrollado por la
Universidad de La Laguna, el cual, mediante un conjunto de relaciones
entre variables, decide si un registro es correcto y en caso contrario qué variables
hay que modificar para que satisfaga todas las relaciones, de forma que el
número de variables modificadas en el registro sea el menor posible.
Una vez concluida esta fase, todos aquellos registros que queden con alguna
incoherencia tendrán que pasar a la depuración automática o imputación. El
método de imputación estadística que emplea TEIDE es el de registro donante
de Fellegi- Holt. En él, se tienen un conjunto de registros totalmente correctos
que servirán de “donantes” para otros registros con alguna incorrección.
Midiendo las distancias en determinadas variables entre los registros correctos e
incorrectos, el donante para cada registro a imputar será determinado por aquel
registro correcto que minimice dicha distancia. Los valores de los microdatos del
registro “donante” serán utilizados para sustituir los valores a imputar en el
registro incorrecto.
- 60 -
7.-Conclusiones
Como se sabe y se ha recogido previamente, la realización de una encuesta
ha de estar sometida en toda su ejecución a exigencias de calidad que respalden
con la misma, los resultados que se obtengan. En este sentido se han descrito,
los criterios y exigencias a los que se ha sometido el trabajo de campo realizado
para la ejecución de la Encuesta Social 2008, y esa experiencia nos permite
concluir, que los criterios a exigir, durante la obtención de la información han de
ser fijados antes del inicio de los trabajos de campo, de forma que la aplicación
de los criterios ha de ser evaluada desde el mismo instante en que empiezan a
recogerse los datos, a través de procedimientos de control, que validen la
información recogida por los entrevistadores. Paralelamente, se tendrán
que realizar los oportunos procesos de depuración de los datos, para corregir
las inconsistencias que se produzcan
COMENTARIOS FINALES:
- 61 -