You are on page 1of 61

SOCIEDAD NACIONAL

DE ESTADISTICOS DEL PERU

Colección de
Metodologías Básicas
para uso Estadístico

BOLETIN I:
COMO ELABORAR LAS ENCUESTAS
AGOSTO 2021

- 1 -
AGRADECIMIENTO

La Sociedad Nacional de Estadísticos del Perú. SONAEP, pone a


disposición de la Comunidad Nacional sobre todo de los interesados
en el uso adecuado de las estadísticas diversos boletines
metodológicos que irán describiendo poco a poco los distintos
procedimientos como se debe de utilizar

Cada dos meses iremos publicando de manera virtual distintas


metodologías que son aplicadas en las diferentes especialidades
que utilizan a la estadística como un gran soporte para poder
mostrar los análisis y sus resultados

Al iniciar un nuevo ciclo académico, siempre se desea los


mejores augurios a nuestros estudiantes, los mismos, que al igual
que nosotros empiezan una nueva etapa llena de conocimientos y
experiencias, muchos de ellos al culminar saldrán airosos, pero
nuestro agradecimiento está dirigido a los profesores que de
manera totalmente desinteresada podemos hacer alcanzar a
ustedes los diferentes temas.

Lima , Agosto 2021

- 2 -
PROLOGO
La Estadística siempre ha sido motivo de muchos comentarios desde tiempos inmemoriales,
se puede intentar afirmar desde que el hombre errante tenía que cubrir ciertas necesidades
alimentarias y posteriormente el mismo al transformarse en cavernícola, buscar y establecer
sus prioridades, utilizaba el conteo simple y a través de él, un primero inicio de planificación,
cuanto se consumía y cuanto se podría guardar, la historia nos relata muchos eventos de
tipo estadístico, como por ejemplo el traslado de Moisés errante con todo su pueblo,
quienes cada cierto tiempo hacían los primeros levantamientos censales para conocer
cuántos habían salido y cuantos estaban en camino hacia tierra prometida, la estadística a
evolucionado que inclusive habiendo sido parte de las matemáticas hoy se podría afirmar
que es una ciencia separada, en alguna ocasión fue conocida como la Aritmética Política,
hasta hoy con todos los avances importantes de la tecnología que se hace más necesaria
en el día a día no solo de la gestión pública sino de la gestión privada, Este compendio es el
resumen de muchas clases ya efectuadas, durante estos últimos años, y al momento de
convertirse en Libro, no lleva otro propósito que el de ayudar a comprender la solución de
eventos sociales y económicos partiendo de una buena comprensión de datos, los mismos
que estarán en manos de ustedes, ex alumnos y lectores. Finalmente presentamos a
ustedes una serie de compendios de Estadística.

Encargados del I Compendio

- 3 -
INDICE

1. CARACTERISTICAS
Definición
Importancia

2. APLICATIVO A LAS CIENCIAS SOCIALES


Aplicativo a las Ciencias Sociales
Determinación de objetivos

3. USO DE VARIABLES
Tipología de datos e Información
Variables
Tipos de variables

4. ETAPAS DEL METODO ESTADISTICO


Planteamiento de los objetivos
Determinación de objetivos
Formulación de Hipótesis
Definición de unidades de de observación
Encuestas
Tipos de encuestas
Aplicativo a las Ciencias Sociales

5. MUESTREO
Definición
Objetivo del muestreo
Tipos de muestreo
Muestreo probabilístico
Muestreo dirigido
Muestreo aleatorio
Muestreo sistemático
Muestreo estratificado
Muestreo conglomerado
Flow Chart del muestreo
Características del muestreo
Determinación de muestras
Modelos y esquemas
Presentación en Shutterstock
Ejercicios Aplicativos en el comportamiento político y no político

6. GRAFICOS
Gráficos de barra
Histogramas
Polígono de frecuencias
Cartogramas
Criptogramas

- 4 -
Grafígramas
Gráficos circulares
Gráficos compuestos
Grafico de Pareto
Grafico de dispersión
Pictogramas
Pirámides poblacionales
Gráficos aplicativos a la visión de la Ciencia Social

- 5 -
CONTENIDO

 HISTORIA
 DEFINICION
 TIPOS

- 6 -
FLUJOGRAMA DEL METODO ESTADISTICO

Planteamiento y definición del problema que se va


tratar o investigar

Definición de un Plan para la recolección de los


datos necesarios, de la información
complementaria, de las unidades de observación,
de los medios técnicos a la mano y/o virtuales

El proceso de recolección de la información,


reducción, codificación, tabulación, representación
de las observaciones y los valores cuantitativos.

El análisis y la interpretación estadística de los


resultados provenientes del paso anterior

La proyección probabilística para la toma de


decisión, optimizando los procesos e innovaciones
creativas del investigador

La presentación científica y pedagógica de los


productos de la investigación

Tipos de Estadística

Estadística Descriptiva Estadística Inferencial

Es una herramienta válida para el Manejo de prueba de hipótesis,


resumen y la descripción de los datos significancia, probabilidad, análisis de
y la recolección, manejo, codificación, correlación, series de tiempo,
elaboración de gráficos y el análisis de proyección a toma de decisiones en
tendencia central como de dispersión optimización e innovación, permite
de grupos de datos formados como generalizar los resultados a una
conjuntos poblacionales. población a partir de los datos
obtenidos de una muestra especifica

- 7 -
CONCEPTOS BASICOS
Para la estadística es necesario identificar un conjunto de variables e indicadores
reconocidos como estadígrafos,

POBLACION:
En estadística también es conocido como “universo”, viene a ser el conjunto de
todos los elementos de referencia sobre el que se realizan las observaciones. Se
puede decir también que es la información sobre el que estamos interesados en
obtener conclusiones (inferir), normalmente es demasiado grande para poder
abarcarla, motivo por el cual se puede fraccionar para a partir de esa parte elaborar
determinados análisis y buscar una generalización para el todo, esa parte de la
extracción se denomina “muestra”.

i. POBLACION FINITA: Es aquella que tiene un número limitado de


elementos sean estos datos simples como objetos objetivos o subjetivos,
son cuantificables con un número determinado o establecido. Puede
considerarse como circunstancia o un tiempo establecido.
ii. POBLACION INFINITA: Es aquella que tiene una cantidad ilimitada de
elementos que no se pueden cuantificar o en todo caso es una población
que se está incrementando constantemente lo cual no permite definir una
cantidad estable a un tiempo.
iii. POBLACION REAL: Es aquella donde la investigación es tangible y real de
apreciar los resultados inmediatos y visibles
iv. POBLACION HIPOTETICA: Es aquella cuya observación resulta ser
subjetiva pero cuantificable en datos numéricos

MUESTRA:
Es una parte de un conjunto pre determinado de datos, siendo esta una población o
un determinado universo de información, se dice también que es una parte
representativa que a sido seleccionada previamente para ser analizada o estudiada

- 8 -
buscando resultados y generalizar hacia el total de la población o el universo de
datos.

PARAMETRO:
Son los números, las medidas o características descriptivas inherentes a la población
total, cuyo resultado afecta directamente a la población o la muestra que fue
motivo de investigación, su uso es para efectuar un reconocimiento y posterior
toma de decisión con grado de certidumbre estadística.

ESTADIGRAFO:
Son los números convertidos o presentados como las medidas de carácter
descriptivo vinculado a una muestra, la que se va a utilizar como parte de la
estimación del parámetro, al igual que el parámetro también su rigurosidad debe de
estar en relación al grado de incertidumbre para tomar decisiones adecuadas a la
información

ETAPAS DE LA INVESTIGACIÓN ESTADÍSTICA:


La investigación estadística generalmente es descriptiva o inferencial, la cual
fundamentalmente se orienta a sacar conclusiones acerca del parámetro o
parámetros poblacionales, en base al valor de una estadística obtenida a partir de
los datos muestrales. Para efectos de lograr esos objetivos a través de un proceso
racional y eficaz se recomienda seguir los siguientes pasos.

- 9 -
ETAPAS DE LA INVESTIGACIÓN ESTADÍSTICA

FORMULACION DEL
PROBLEMA

DETERMINACION DE
LA MUESTRA

DISEÑO
ESTADISTICO

RECOLECCION
DE DATOS

ORGANIZACIÓN Y
PRESENTACION DE DATOS

ANALISIS INTERPRETACION
DE DATOS

INFERENCIA ESTADISTICA Y
CONCLUSIONES

FORMULACION DEL PROBLEMA:

Debemos tener muy en cuenta que el punto de partida de toda investigación es la


existencia de un problema, el cual se desea resolver. Esto es, realizar todo un
proceso sistemático para dar respuestas satisfactorias a las preguntas planteadas en el
problema y delimitar claramente la población de estudio asociada al problema de
investigación.

- 10 -
Los investigadores la denominan “Problema” sin embargo esta palabra va
acompañada de objetivos pre determinados que a medida se desarrollen los
estudios iremos visualizando si nuestro criterio es cierto o no, más adelante
podremos ver la prueba de hipótesis para descartar el uso de la variable, en todo
caso esta prueba va a permitir un mejor criterio técnico para obtener los resultados.

Al iniciar la formulación del tema debemos de ser lo más claro y especifico que
podemos ser, porque de ello dependerá el resultado que se busca, sin embargo
debeos de ser muy específicos en nuestros objetivos porque nuestro planteamiento
recién vamos a poder consolidar con los resultados, no buscar el resultado que
queremos ex profesamente o direccionarlo para que de los resultados que el
investigador desea hallar. Es necesario tener opiniones de personas que buscan que
indagar el mismo resultado. Un clásico mal ejemplo es cuando algunos
investigadores en campañas políticas buscan que sus candidatos casi por arte de
magia resulten matemáticamente aceptados, lo que genera un mal criterio técnico
en algún momento de la toma de información o el planteamiento del problema.

DETERMINACION DE LA MUESTRA:
Para desarrollar nuestra investigación es necesario previamente seleccionar una
muestra del universo de la población, para esto se recurre a formulas establecidas de
manera empírica con un máximo de 10% y en otros casos con la fórmula adecuada
diseñada mediante formulas especificas para medir el tamaño de la muestra a ser
utilizada en la investigación o el análisis. Debemos de ser muy específicos en los
detalles, de manera simple podemos intentar tener criterios de no exceder lo
señalado líneas arriba, como experiencia profesional se puede considerar los
porcentajes de la población seleccionado previamente para tal efecto. En capítulos
posteriores detallaremos este tema.

DISEÑO ESTADISTICO

- 11 -
Es la organización del tratamiento o procesamiento estadístico de los datos, con el
objeto de analizar, explicar y resolver el problema del investigador, en ocasiones a
solicitud de un grupo interesado en buscar el temperamento actual o tal vez el
comportamiento comercial de un determinado grupo de personas. Para estos
efectos de diseñar el tratamiento estadístico de los datos, el investigador debe tomar
en cuenta el tipo de datos con los cuales trabajará y una vez identificados, se halla
en la capacidad de definir los procedimientos estadísticos que serán necesarios para
lograr los objetivos del trabajo de investigación. Siempre se recomienda que las
solicitudes del investigador o quienes solicitan la información sean lo más especifico
posible para crear o identificar preliminarmente las hipótesis que se va a demostrar
su aceptación o rechazo. La elección de un determinado diseño estadístico o diseño
experimental adecuado depende fundamentalmente de los siguientes aspectos:
1. El diseño de tratamiento
2. El diseño de control de error
3. El tipo de muestreo a utilizar
4. El diseño de las observaciones.
5. El diseño de la presentación.

I. Diseño de Tratamientos
Determina los tratamientos y los niveles a ser incluidos en el estudio o la
investigación : Qué tratamientos deberían seleccionarse y cuántos?. Los
Tratamientos, corresponden a los niveles de un factor de tratamiento (grado de
intensidad de un factor) o a la combinación de niveles de factores (estructura
factorial) y son procedimientos, métodos, estímulos o condiciones, cuyos efectos se
miden sobre la unidad Experimental (pedazo de material experimental al cual se
aplica el ensayo de un solo tratamiento). Expresado de manera mas descriptiva
podremos mencionar, que se buscara un determinado nivel de profundidad o
especialización cuando la información dispuesta nos pueda permitir llegar este
objetivo, un claro ejemplo podría ser aquel si busco la propensión a una
determinada enfermedad que solo afecta a las mujeres, entonces el tratamiento de

- 12 -
la información previamente estará dirigido a las mujeres, si en esa investigación me
señalan que solo es a las jóvenes, entonces la especialización va a ir más a
profundidad con los datos ya direccionados a ese estrato poblacional.

II. Diseño de control de error

La utilización conjunta de los SIG (Sistema de información geográfica) y las técnicas


de EMC (Evaluación multicriterio) se presentan como uno de los procedimientos
ideales para el desarrollo de tareas de planificación territorial, habiendo sido ya
suficientemente demostradas sus beneficiosas aportaciones (Voogd, 1983; Barredo,
1996; Malczewski, 1999; Bosque Sendra y García, 2000; Dai et al., 2001 entre
otros muchos). Sin embargo, en los modelos elaborados y ejecutados a partir de
estos métodos y técnicas, como en otros tantos problemas abordados en un
entorno SIG, no se ha prestado demasiada atención a la validación final de los
resultados y del modelo en sí, entendiendo como validación a cualquier acción
que permita dar fuerza o robustez tanto al modelo empleado como a los resultados
obtenidos.

Tradicionalmente, esta validación se ha convertido más bien en un proceso de


verificación relacionado exclusivamente con el problema del error en los datos de
partida, proceso que resulta a todas luces insuficiente debido a la problemática
inherente a este tipo de análisis por la falta de datos de mayor exactitud, las
limitaciones para la estimación de la propagación del error o la inexistencia de
procedimientos y herramientas que permitan gestionar y reducir el error una vez
estimado, además de limitarse exclusivamente al análisis de los datos de
partida y no de la estructura y parámetros del modelo empleado.

Por otro lado, en los últimos años la aplicación rigurosa del tratamiento estadístico
del error ha provocado la paralización de algunos proyectos de planificación de
envergadura. Este sería el caso, por ejemplo, de la construcción de un depósito de

- 13 -
residuos radiactivos en el Reino Unido, rechazado por las notables discrepancias
encontradas en los resultados del modelo hidrológico utilizado (Beven, 2000).
Quizás el resultado de estos procesos, para los que se requiere una gran inversión
en dinero y esfuerzo, podría haber sido diferente si se hubiera procedido a
cuantificar de manera adecuada la incertidumbre asociada a las predicciones del
modelo en cuestión.

A todo ello habría que unir el creciente interés por implementar procesos
participativos mediante los cuales pueda alcanzarse cierto consenso entre todos los
agentes implicados en problemas de planificación, especialmente en aquellos que
puedan tener una especial incidencia en el desarrollo futuro del territorio que se
pretende intervenir. En este sentido, la posibilidad de disponer de información
sobre la incertidumbre asociada al proceso parece ser un ingrediente de gran
valor, sobre todo en problemas de localización de instalaciones potencialmente
peligrosas como la que aquí nos disponemos a tratar.

Error de medición: Todas las mediciones tienen errores los cuales resultan de la
diferencia entre el valor medio X y el valor verdadero. La diferencia entre el valor
medido y el valor verdadero es el error de medición total δ. Ya que el valor
verdadero es una incógnita, el error total en una medición no puede ser conocido y
por lo tanto solamente sus límites pueden ser estimados. El error de medición total
consiste de dos componentes, el error sistemático y el error aleatorio. Una medición
exacta requiere minimizar ambos errores

- 14 -
Error Aleatorio.- El error aleatorio ε, es la porción de el error de medición total
que varía en mediciones repetidas del valor verdadero. El error aleatorio total
en una medición es usualmente la sumatoria de las contribuciones de las diversas
fuentes de errores aleatorios elementales. El error aleatorio elemental fuente
incluye a aquellos que son conocidos y controlados, los mismos son despreciables e
ignorados, los cuales son desconocidos y cuyos límites deben ser estimados. Los
errores aleatorios elementales podrían provocar una no repetibilidad en el
sistema de medición, condiciones ambientales, técnicas de reducción de datos y
métodos de medición

Error Sistemático.- El error sistemático (β), es la porción del error de medición


total que permanece constante en mediciones repetidas del valor verdadero. El
error sistemático total en una medición es la sumatoria de las contribuciones de
varios errores sistemáticos elementales. Los errores sistemáticos elementales incluyen
aquellos que son conocidos y pueden ser calibrados, algunas veces son despreciados
e ignorados, así también son desconocidos y sus límites deben ser estimados.

Los errores sistemáticos elementales podrían surgir de correcciones de calibración


imperfectas, sistemas de adquisición de datos, técnicas de reducción de datos, etc.
Los errores sistemáticos considerables que permanecen después de la calibración
contribuyen a la incertidumbre sistemática de la medición

RECOLECCION DE DATOS

Parte de la investigación estadística que exige más tiempo, es en esta etapa que el
investigador entra en contacto con las unidades de análisis, con el fin de obtener los
datos relacionados al trabajo de investigación. La recolección de información debe
ajustarse a reglas estrictas, para evitar errores o el sesgo de la información.

- 15 -
Para un mejor entendimiento lo desarrollamos en fases que vienen a ser las
siguientes:
a. Investigación bibliográfica:
Consiste en tomar la información de fuentes documentales disponibles, tales
como: oficinas de estadística, informes, boletines y publicaciones de
organismos especializados en el problema de investigación. Recurrir a todos
los datos históricos que le sean posibles, este hecho posibilitará tener un
mejor criterio para definir “la hipótesis” que se busca demostrar a través de la
investigación. Se debe considerar también la distancia de los documentos a
efecto de poder orientar las bases del estudio.

b. Trabajo de Campo
Consiste en tomar la información directamente de las unidades de análisis
que conforman la muestra , la recolección de información se realiza mediante
la observación o medición de las unidades de análisis usando para este
efecto: Encuestas, Censos, Muestreos y en algunos casos experimentos de
laboratorio, esto quiere decir pequeñas muestras de investigación que van
probando el cuestionario y la hipótesis que se está analizando.

ORGANIZACIÓN Y PRESENTACION DE DATOS


Luego de la recolección de datos de acuerdo al diseño estadístico, estos deben ser
procesados en función a la magnitud o características, con el fin de obtener
información estadística, para facilitar su presentación y el análisis correspondiente de
los datos. Según criterios técnicos en la actualidad se pueden entregar los resultados
en:

a. Informes cualitativos:
Estos datos se verán reflejados en variables que determinen las diferentes
características utilizadas para la investigación, por lo general se presentan en
gráficos denominados pictogramas, Grafígramas o cartográficos diferenciando

- 16 -
las situaciones de acuerdo al tiempo. En la actualidad para mejor exposición
se está utilizando videos de carácter institucional y de resultados sin la
necesidad de colocar resultados numéricos, hecho que no nos otorga un
resultado definitivo pero cuando se trata de una presentación magnificada
presenta ciertas ventajas de manera circunstancial.

b. Informes cuantitativos:
Dado que están representados por datos numéricos, estos tienen una mayor
variedad de presentaciones inclusive posibilitan las comparaciones respecto a
lugar, tiempo, circunstancias denominadas para nosotros como fenómenos
estadísticos en el tiempo. La cantidad de gráficos que se pueden utilizar en
estos informes es muy variada,

ANALISIS E INTERPRETACION DE RESULTADOS


En una investigación los resultados van a tener una importancia limitada, esto quiere
decir que la eficiencia del mismo será de acuerdo a la cantidad de información que
se presente permitiendo de manera clara lo obtenido sea la respuesta positiva o
negativa de la hipótesis planteada o las hipótesis que fueran motivos de análisis,
consecuentemente deberán de ser acompañadas por medidas de diversos tipos, que
indiquen aproximaciones, errores, proyecciones que el usuario pueda interpretar o
que pueda servirse de ellas.

INFERENCIA ESTADISTICA Y CONCLUSIONES


Este último paso es sin lugar a dudas la contribución más importante de la estadística
a la investigación desarrollada, en éste nivel; debe verificarse el cumplimiento de los
objetivos inicialmente propuestos en la hipótesis, para posteriormente tomar
decisiones o elaborar las predicciones con cierto grado de confiablidad y redactar
las conclusiones; el cual servirá de orientación y consulta a quienes deseen realizar
investigaciones especializadas.

- 17 -
DISEÑO DE UNA ENCUESTA.

Considerando que para el inicio de la investigación se debe de utilizar una encuesta


es que pretendo describir las características de la encuesta para evitar o minimizar
los ´posibles errores que pudieran presentarse, muchos problemas de investigación
requieren la recolección de datos muestrales. La finalidad de una encuesta por
muestreo es obtener información para satisfacer una necesidad definida del
investigador. La encuesta no es un método específico de alguna disciplina en
particular sin embargo es una herramienta que más se usa en la estadística para
verificar el comportamiento de un determinado fenómeno estadístico y se
aplica en forma amplia a problemas de diversos campos. Esta capacidad de
múltiple aplicación y su gran alcance hace a la encuesta una técnica de gran
utilidad. En la actualidad las diferentes personas han leído o escuchado sobre
encuestas de opinión pública por lo general en procesos electorales, predicciones
acerca de candidatos en elecciones y en estudios de mercado. Quizás muchas de
ellas piensen que es sencillo efectuar una encuesta, después de todo cualquiera
puede plantear preguntas y contar frecuencias, sin embargo esto no es así de fácil,
se puede encontrar un gran número de encuestas bien o mal diseñadas en su
elaboración o en el seguimiento y estructuración de las preguntas, en la
codificación de las respuestas, en el diseño de muestreo, en la supervisión de su
ejecución e implementación u otros componentes.

La primera tarea de toda encuesta por cualquiera de los modelos de muestreo es


fijar en términos directos concretos los objetivos de la misma y tener presente los
siguientes criterios:

a. ¿Qué información se necesita para cumplirlos?


b. ¿Dónde aplicaremos la encuesta?

- 18 -
c. ¿Existe información, disponible de antemano, de encuestas piloto u otras
encuestas similares que pueda ser aprovechada?
d. ¿De qué medios materiales y personales se dispone?
e. ¿Qué tiempo necesitamos para efectuar la encuesta?
f. Límites presupuestarios y temporales.

Etapas de la
encuesta.
A continuación se describen brevemente las etapas que deben considerarse en la
planeación de una encuesta.

1. Planteamiento de objetivos de la encuesta: Se deben establecer los


objetivos de la encuesta de manera clara y concisa, y remitirse a esos
objetivos conforme se vaya progresando en el diseño e instrumentación de
la encuesta. Se deben de mantener los objetivos suficientemente simples, de
tal manera que sean entendidos por los usuarios a quienes se les va a
encuestar, pero también por los encuestadores para que el objetivo de la
encuesta sea logrado exitosamente cuando se complete el listado.

2. Población objetivo. Se debe definir cuidadosamente la población que va a


ser muestreada, la cual debe precisarse de acuerdo a los conceptos y
variables que se quieren medir. Para seleccionar la muestra
correctamente, la población objetivo deberá de coincidir con la que se
muestrea; en caso de no ser así los resultados son aplicables únicamente a
la población muestreada. Si deseamos colocar un nuevo producto cuyos
consumidores principales son niños, entonces todos los detalles de la
encuesta estará directamente direccionada a ellos, con las características del
producto. En ocasiones se deben definir los conceptos o nociones que sean
necesarios para el planteamiento de la población. Así por ejemplo si se van a

- 19 -
hacer un muestreo del estrato poblacional a donde va dirigido, porque la
elección de la población objetivo afectará profundamente las estadísticas
resultantes.

1. Elección del marco de muestreo: El marco de muestreo es la lista de las


unidades de muestreo. Éstas últimas son las unidades donde realizamos la
muestra; por ejemplo una familia es una unidad de muestreo y los
individuos que viven en ella serán unidades de observación. Se debe
seleccionar el marco (o marcos) de tal forma que la lista de las unidades
muestrales y la población objetivo concuerden lo más posible. Para las
encuestas telefónicas el marco de muestreo podría ser una lista de todos los
números residenciales de la ciudad; para las entrevistas personales, una lista
de las direcciones de todas las calles; para una encuesta de agricultura, una
lista de todas las granjas o un mapa de las áreas que contienen granjas. Debe
tenerse en cuenta que marcos múltiples pueden hacer el muestreo más
eficiente. Hay que tener cuidado con las posibles deficiencias que presente el
marco, como información incompleta, obsoleta, inadecuada, etc, pues
afectará los resultados a obtener.

2. Establecimiento del método de medición: Decidir sobre el método de


medición. Estos son usualmente: entrevistas personales, telefónicas,
cuestionarios enviados por correo u observación directa. En este aspecto, la
encuesta puede clasificarse:

i. Instrumento de medición: En conjunción con el paso anterior, se


debe especificar cuidadosamente qué mediciones van a ser obtenidas. Si
se va usar un cuestionario planee las preguntas de tal manera que se
minimice la no respuesta y el sesgo en las mismas. Hay que tener
siempre en mente que la disposición de un encuestado para responder,
dependerá de la presentación de la encuesta.

- 20 -
Ésta debe contener la presentación de los objetivos del estudio e
instrucciones sobre el llenado. Es conveniente incluir datos de
identificación como: nombre de la institución, nombre del entrevistador,
número del cuestionario de la muestra, hora de inicio de la entrevista
y todo tipo de datos que sirvan para el control de la investigación. La
sección final deberá contener el cierre de la entrevista, la hora de
terminación y espacio para que el entrevistador anote sus observaciones, o
para algún otro dato que el entrevistador determine es conveniente
observar y anotar.

Se deberá también tener en cuenta:

a) Orden de las preguntas. Se recomienda que aparezcan primero


las preguntas más generales y después las específicas. Conviene
que la complejidad de las preguntas vaya de menos a más; por
ejemplo plantear primeramente aquellas como; sexo, edad,
educación, ocupación, estado civil entre otros.
Enseguida deberán estar las preguntas referentes al tema de
investigación y finalmente, si se desea, las preguntas de
opinión o actitudes. La secuencia de las preguntas debe
diseñarse de manera que evite la llamada contaminación, que
consiste en la influencia o sesgo que el orden de las preguntas
puede ejercer en las respuestas del informante.

b) Contenido de las preguntas. Debe verificarse que las


preguntas realmente permitan recabar la información necesaria
para cubrir el o los objetivos planteados. Para ello puede
haber preguntas cortas o de opinión, si el tema lo

- 21 -
requiere. A veces es recomendable la combinación de
preguntas abiertas (el entrevistado no enfrenta categorías en la
respuesta) y preguntas cerradas (se presentan opciones
múltiples), para darle motivación al encuestado. Éstas últimas
permiten una sencilla codificación y captura de la información.
En consecuencia con lo anterior, la mayoría de las preguntas
deben de tener una respuesta numérica simple (como la edad
del entrevistado) o un número fijo de selecciones
predeterminadas, una de las cuales será elegida por el
entrevistado. Por ejemplo, al preguntar el estado civil de las
personas se puede presentar las opciones: soltero, casado, viudo,
divorciado, unión libre y otro. Se debe de evitar en todo
momento direccionar las preguntas, por ejemplo si un grupo
ocupacional no está de acuerdo con una determinada gestión
del gobierno, no vamos a ir directamente a ese grupo, dado que
la respuesta es más que obvia, o si un creyente de una iglesia
determinada es encuestado para preguntarle si existe Dios, la
respuesta ya está definida. Estos criterios evitan la
“contaminación” de preguntas no adecuadas, las mismas que en
la Validación de las encuestas se harán visibles.

c) Redacción de las preguntas. Éstas deben realizarse con un


lenguaje acorde a las personas a quienes van dirigidas. No es
comparable la terminología de un especialista con la de la
población en general. Por otra parte, muchas preguntas que
pueden parecer claras para quien diseña la encuesta, no lo serán
para el encuestado. Digamos, preguntar ¿cuántos niños hay en
su familia? No es claro para muchos, pues no se especifica hasta
que edad se considerara que la persona es todavía un niño. Se
debe evitar asimismo preguntas que induzcan al entrevistado a

- 22 -
decir lo que se quiere escuchar. Por ejemplo plantear, La
Iglesia Católica está en contra del uso del condón, ¿y usted?
Incrementa la proporción de encuestados que quieren compartir
la opinión de la Iglesia. Asimismo, preguntas como ¿cuál es el
problema principal que enfrenta el magisterio? Brinda un rango
de posibilidades que tal vez origine respuestas que no
corresponden a la información que se quería recabar. Es por eso
que se debe ser muy cuidadoso en la redacción de las preguntas
de una encuesta.

6. Diseño de muestreo: Se debe planear cuidadosamente el diseño de


muestreo, calculando un número apropiado de elementos de la muestra, de
tal manera ésta proporcione suficiente información para los objetivos de
la encuesta. Muchas encuestas producen poca o inútil información porque no
fueron diseñadas apropiadamente. Más adelante mostraremos los
procedimientos para hallar la cantidad de unidades objetivo a ser encuestadas,
de manera empírica y de forma técnica, en algunos casos, por ejemplo en el
sector salud por lo general se toma las muestras de manera empírica, esto no
quiere decir que este mal elaborada sino que su base de información está
basada simplemente en el 10 % de la información, esto por considerarse que
la población total es muy variable. Sin embargo para nuestro caso tenemos
que recurrir a formulas que nos permitan de acuerdo al tipo de muestreo que
cantidad de unidades objetivos vamos a tener.

7. Selección y adiestramiento de los investigadores de campo. Se debe de


seleccionar y adiestrar cuidadosamente a los investigadores de campo ya que
después de que el plan de muestreo está claro y completamente establecido,
alguien debe de recolectar apropiadamente los datos. Las personas que van a
reunir los datos, deben ser cuidadosamente adiestrados sobre qué mediciones
hacer y cómo realizarlas. El adiestramiento es especialmente importante si se

- 23 -
usan entrevistas personales, porque la tasa de respuesta y la exactitud de las
respuestas son afectadas por el estilo personal del entrevistador.

8. Prueba piloto: Es recomendable seleccionar una pequeña muestra para


una prueba piloto. La prueba piloto es crucial, ya que permite, probar
en el campo el cuestionario y otros instrumentos de medición, sobre todo
estar en condición de poder calificar a los entrevistadores. Los resultados de
la prueba piloto usualmente sugieren algunas modificaciones antes de
realizar el muestreo completo.

9. Organización del trabajo de campo: Se debe planear con detalle el trabajo


de campo. Cualquier encuesta a gran escala involucra un gran número de
personas trabajando como entrevistadores, coordinadores o personal
dedicado al manejo de datos. Antes de empezar con la encuesta se debe
organizar cuidadosamente los trabajos, delimitando claramente las tareas, y
estableciendo las líneas de autoridad, manejar u ubicarse en zonas ya pre
establecidas desarrolladas en laboratorio o en la prueba piloto, esto facilitara
la menor cantidad de errores que pudiera darse al momento de la encuesta.

10. Supervisión de campo: Siempre es necesario tener o contar con supervisores


de campo, son aquellos que ya cuentan con mayor experiencia en este tipo
de trabajo, son aquellos que van a solucionar parcialmente una actividad que
no esté programada, o tal vez la ubicación de las unidades objetivos, esto se
debe en ocasiones a que los nombres de las calles pueden haber sido
cambiadas, y de acuerdo a los planos que trabajan los encuestadores no
coinciden, o que supuestamente la casa es unifamiliar y en el campo resulta
que son multifamiliares, entonces el supervisor con su conocimiento y
experiencia podrá generar en ese momento una solución al posible impase
presentado.

- 24 -
11. Organización y manejo de datos: Se debe elaborar un esquema de manejo
apropiado de la información en todas las etapas de la encuesta. Las grandes
encuestas generan gran cantidad de información y por ello requieren un plan
bien estructurado para el manejo de los datos. Este plan debe de incluir los
pasos a seguir en el proceso de los datos, desde el momento en que se
hace una medición en el campo hasta que el análisis final ha sido
completado. Se debe incluir también un esquema de control de calidad para
verificar la correlación entre los datos procesados y los datos
recolectados en el campo.

12. Análisis de los datos: Definir los análisis que deberán realizarse. Este
punto está estrechamente relacionado con el paso anterior, e involucra la
especificación detallada de los análisis que deben ser ejecutados. Se puede
también listar los temas que se deberán incluir en el reporte final. Es
recomendable “limpiar” la información, esto quiere decir por ejemplo que si
en el proceso de las entrevistas una persona no concluyo la hoja de
encuestas, esta “encuesta” debería ser eliminada dado que no fue concluida,
para estos efectos siempre se programa un porcentaje adicional por zona a
ser trabajada, permitiendo de esta manera que el trabajo sea más acertada a
la posible hipótesis planteada.

TIPOS DE ESTUDIOS

Existen varios tipos de estudios en la investigación del comportamiento


humano. Generalmente se dividen:
a. Estudios exploratorios
b. Estudios descriptivos
c. Estudios correlaciónales y
d. Estudios explicativos.

- 25 -
Es muy importante conocer el tipo de estudio que se está desarrollando pues de
ello dependerá el análisis a efectuar.

Estudios
exploratorios.
Se efectúan normalmente cuando el objetivo es examinar un tema o problema
de investigación poco
estudiado, o que no ha sido abordado antes. Es decir, cuando la revisión de la
literatura estadística reveló que
únicamente hay guías no investigadas e ideas vagamente relacionadas con el
problema de estudio.

Estudios
descriptivos.
Muchas veces sólo se necesita describir situaciones o eventos, es decir cómo es y
cómo se manifiesta determinado fenómeno. Los estudios descriptivos buscan
especificar las propiedades importantes de personas y grupos, comunidades o
cualquier otro fenómeno que sea sometido a análisis. El objetivo de los estudios
descriptivos es obtener una medición precisa de ciertos fenómenos, como son
las preferencias políticas, preferencia por determinados productos de consumo,
prejuicios raciales o divorcios.
Una tarea esencial, común tanto a los estudios descriptivos como los explicativos
(que se definen más delante), es la conceptualización del fenómeno en estudio. Si
un profesor desea determinar cuál es la tasa de incidencia de la baja nota de los
alumnos entre la población de Lima Metropolitana debe, primeramente, aclarar el
significado del término, en este caso la “baja nota”. Esta tarea lo llevará
rápidamente al campo de la teoría, pues tendrá que decidir, usando bases teóricas,
cómo y en que límites se encuentra la baja nota, lo cual puede resultar muy difícil
y fuera de su alcance. Los estudios descriptivos pueden constituir una base para

- 26 -
perseguir otros objetivos, incluyendo la explicación y comprobación de hipótesis,
la evaluación, la predicción, etcétera.

Estudios
correlaciónales.
Estos estudios pretenden responder a preguntas de investigación en las cuales el
propósito es medir el grado de relación que exista entre dos o más conceptos o
variables. La mayoría de las veces sólo se analiza la relación entre dos variables,
pero puede generalizarse a más variables. El propósito principal es saber
cómo se puede comportar una variable conociendo el comportamiento
de otras variables relacionadas. Por ejemplo, un investigador puede
medir motivación laboral y productividad en el trabajo y después analizar si
los trabajadores con mayor motivación son o no los más productivos.

Estudios
explicativos.
Este tipo de estudio va más allá de la descripción de conceptos o
fenómenos o del establecimiento de relaciones entre conceptos; están dirigidos
a responder a las causas de los eventos físicos o sociales. Como su nombre lo
indica, su interés se centra en explicar por qué ocurre un fenómeno y en que
condiciones se presenta, o bien, por qué dos o más variables están relacionadas.
Los estudios explicativos son más estructurados que los otros estudios y de
hecho implican los propósitos de ellos (exploración, descripción y
correlación), además de que proporcionan un sentido de entendimiento del
fenómeno a que hacen referencia.

Los estudios del comportamiento también pueden dividirse sobre la base del
período en que se capta la información, la evolución del fenómeno estudiado, la
comparación de poblaciones y la interferencia del investigador en el estudio.

- 27 -
Así, de acuerdo con el periodo en que se capta la información, el estudio
puede ser:

Retrospectivo. Es cuando la información se obtuvo anteriormente a la


planeación del estudio y con fines ajenos al trabajo de investigación que se
pretende realizar.

Retrospectivo parcial. Este estudio cuenta con una parte de la información y el


resto se obtendrá durante la investigación.

Prospectivo. Estudio en el que toda la información se recogerá, de acuerdo con


los criterios del investigador y para los fines específicos de la investigación, y
siempre después de la planeación de ésta. Ahora, de acuerdo a la evolución del
fenómeno estudiado, los estudios se pueden clasificar como:

Longitudinal. Esto es, cuando se miden en varias ocasiones las variables


involucradas. Implica un seguimiento para estudiar la evolución de las unidades en
el tiempo.

Transversal. Es un estudio en el cual se mide una sola vez la o las variables en


estudio, sin pretender evaluar la evolución de esas unidades. Asimismo puede
hacerse una clasificación de los estudios de acuerdo con la comparación de las
poblaciones. Éstos pueden ser:

Descriptivo. Estudio que sólo cuenta con una población, la cual se pretende
describir en función de un grupo de variables y respecto a la cual no existen
hipótesis centrales.
Comparativo. Estudio donde existen dos o más poblaciones y donde se quieren
comparar algunas variables para contrastar una o varias hipótesis centrales.

- 28 -
Por último, de acuerdo con la interferencia del investigador en el fenómeno que
se analiza, el estudio se puede clasificar como:

Observacional. Estudio en el cual el investigador sólo puede describir o


medir el fenómeno estudiado y no puede modificar a voluntad propia ninguno
de los factores que intervienen en el proceso.

Experimental. Estudio en el que el investigador modifica a voluntad una o


algunas variables del fenómeno estudiado; generalmente, modifica las variables
consideradas como causa, para llegar a establecer una relación de causa-efecto. El
aspecto fundamental de este tipo de estudio es que, se pueden asignar al azar las
unidades a las diversas variantes del factor causal.

Selección de Variables.
Las variables son las características medibles en las unidades de estudio
y deben seleccionarse en relación con los objetivos planteados. En términos
de su papel en la encuesta éstas pueden clasificarse como:

Variables de interés primario. Son aquellas que permiten medir en forma


directa los aspectos fundamentales del estudio; por ejemplo, la talla y el peso en
un estudio de crecimiento y desarrollo.

Variables sustitutas a interés primario. Cuando no se pueden medir las


variables de interés primario, por motivos técnicos, éticos o de tiempo, éstas se
sustituyen por otras que sean equivalentes o que estén asociadas fuertemente con
las de interés primario; por ejemplo, la culminación de su educación primaria
como indicador de su formación educativa.

Variables auxiliares. Son aquellas que a pesar de no ser fundamentales


proporcionan información adicional al proceso estudiado; por ejemplo el estado

- 29 -
socioeconómico y lugar de procedencia, en un estudio de crecimiento y
desarrollo.

Debe recordarse que el tipo de estudio define algunos aspectos relativos a las
variables. En los estudios transversales las variables sólo se miden en una ocasión
por lo que el investigador debe asegurarse de que realmente una sola
medición de los aspectos estudiados les dé la información suficiente para
lograr sus objetivos. En los estudios longitudinales se debe especificar el tiempo
entre una medición y otra, y, de ser posible, el número aproximado de dichas
mediciones.

CODIFICACIÓN DE LOS DATOS

Cuando la cantidad de datos es grande, la captura y el análisis de los


mismos deberán ser llevados a cabo usando computadoras. Los datos se podrán
manejar fácilmente si se encuentran en forma numérica. Esta forma implica menos
espacio que la forma alfabética y pueden ser manipulados más rápidamente.
Es necesario convertir algunas palabras en dígitos. Esta transformación de
información, de una forma a otra, se conoce como codificación. Por ejemplo:
para el sexo, el código para el hombre puede ser designado con el número
1 y para la mujer con el número 2.
Para ciertos tipos de investigación existen sistemas de código estandarizado por lo
cual es conveniente indagar si en la investigación a realizar hay algún sistema de
codificación establecido. Un ejemplo de esto es la clasificación internacional de
enfermedades. Las ventajas de utilizar tales códigos son:
a. El sistema ha sido diseñado y probado ampliamente.
b. Los datos codificados son comparables a datos previamente codificados
por el sistema.

Cualquiera que sea el sistema de codificación, es importante que el investigador

- 30 -
sistematice la recolección de datos para que la transferencia a la memoria de una
computadora sea con un mínimo de error, lo cual puede lograrse mediante hojas
de codificación. Debe recordarse que los códigos asignados a las variables
nominales deben usarse únicamente como etiquetas.

REGLAS DE REDACCIÓN DEL CUESTIONARIO

 El lenguaje utilizado debe ser acorde con el del sujeto al que se dirige la
encuesta, utilizando el vocabulario y términos adecuados. Las preguntas
deben estar redactadas de la forma más corta posible, con el fin de facilitar su
lectura y comprensión.
 Las preguntas deben plantearse con claridad y de forma inequívoca, un típico
error de redacción consiste en incluir dos preguntas en una, lo que conduce a
no poder concretar a cual corresponde la respuesta.
 Debe empezarse por las preguntas más fáciles o sencillas para pasar después a
las más difíciles o complicadas.
 Se debe tener un especial cuidado con la información de preguntas que
puedan resultar delicadas o embarazosas para el encuestado, redactándolas
de forma que pueda obtenerse la información sin provocar un rechazo o una
falsa respuesta. Estas preguntas deben ir, además, al final del cuestionario.
 No se debe incluir en las preguntas juicios de valor ni afirmaciones que
puedan condicionar las respuestas, ni que puedan verse afectadas por el
orden en que figuren dentro del cuestionario.
 Las preguntas deben formularse de forma que faciliten tanto el esfuerzo de
memoria que tenga que realizar el encuestado, como en su caso, la
realización de cálculos, para evitar errores en las respuestas.

- 31 -
CÁLCULO DEL TAMAÑO DE LA MUESTRA
INTRODUCCIÓN
POBLACIÓN.- Llamado también universo o colectivo, es el conjunto de todos los
elementos que tienen una característica común. Una población puede ser finita o
infinita. Es población finita cuando está delimitada y conocemos el número que la
integran, así por ejemplo: Estudiantes de la Universidad UTN. Es población
infinita cuando a pesar de estar delimitada en el espacio, no se conoce el número
de elementos que la integran, así por ejemplo: Todos los profesionales universitarios
que están ejerciendo su carrera.

MUESTRA.- La muestra es un subconjunto de la población. Ejemplo: Estudiantes de


2do Semestre de la Universidad UTN.

Sus principales características son:

Representativa.- Se refiere a que todos y cada uno de los elementos de la población


tengan la misma oportunidad de ser tomados en cuenta para formar dicha muestra.

Adecuada y válida.- Se refiere a que la muestra debe ser obtenida de tal manera
que permita establecer un mínimo de error posible respecto de la población.
Para que una muestra sea fiable, es necesario que su tamaño sea obtenido
mediante procesos matemáticos que eliminen la incidencia del error.

ELEMENTO O INDIVIDUO
Unidad mínima que compone una población. El elemento puede ser una entidad
simple (una persona) o una entidad compleja (una familia), y se denomina unidad
investigativa.

- 32 -
FÓRMULA PARA CALCULAR EL TAMAÑO DE LA MUESTRA
Para calcular el tamaño de la muestra suele utilizarse la siguiente fórmula:

Dónde:
n = el tamaño de la muestra.
N = tamaño de la población.

Desviación estándar de la población que, generalmente cuando no se tiene


su valor, suele utilizarse un valor constante de 0,5.

Z = Valor obtenido mediante niveles de confianza. Es un valor constante que, si no


se tiene su valor, se lo toma en relación al 95% de confianza equivale a 1,96 (como
más usual) o en relación al 99% de confianza equivale 2,58, valor que queda a
criterio del investigador.

e = Límite aceptable de error muestral que, generalmente cuando no se tiene su


valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09), valor que
queda a criterio del encuestador.

La fórmula del tamaño de la muestra se obtiene de la fórmula para calcular la


estimación del intervalo de confianza para la media, la cual es:

De donde el error es:

- 33 -
De esta fórmula del error de la estimación del intervalo de confianza para la media
se despeja la n, para lo cual se sigue el siguiente proceso:
Elevando al cuadrado a ambos miembros de la fórmula se obtiene:

Multiplicando fracciones:

Eliminando denominadores:

Eliminando paréntesis:

Transponiendo n a la izquierda:

Factor común de n:

Despejando n:

Ordenando se obtiene la fórmula para calcular el tamaño de la muestra:

- 34 -
EJEMPLOS ILUSTRATIVOS
1) Calcular el tamaño de la muestra de una población de 500 elementos con un
nivel de confianza del 95%
Solución:
Realizando el gráfico que representa el 95% de confianza se obtiene:

Se tiene N=500, para el 95% de confianza Z = 1,96, y como no se tiene los

demás valores se tomará y e = 0,05.

Reemplazando valores de la fórmula se tiene:

- 35 -
2) Calcular el tamaño de la muestra de una población de 500 elementos con un
nivel de confianza del 99%

Solución:

Realizando el gráfico que representa el 99% de confianza se obtiene:

Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los demás

valores se tomará y e = 0,05.


Reemplazando valores en la fórmula se obtiene:

- 36 -
TAREA DE INTER APRENDIZAJE
Propongo 4 ejemplos de población, muestra y elemento, a continuación:

1) Calcule el tamaño de la muestra para una población de 500 con un error


de muestreo del 5% y nivel de confianza del 95%. Respuesta: 217

2) Calcule el tamaño de la muestra para una población de 500 con un error de


muestreo del 5% y nivel de confianza del 99%. Respuesta: 285
3) Calcule el tamaño de la muestra para una población de 500 con un error de
muestreo del 9% y nivel de confianza del 95%. Respuesta: 96

4) Calcule el tamaño de la muestra para una población de 500 con un error de


muestreo del 9% y nivel de confianza del 99%. Respuesta: 145

VALIDACION DE LA INVESTIGACION A TRAVÉS DEL CUESTIONARIO

Una de las partes más importantes de la Investigación estadística a través del


cuestionario es la validación, es un proceso que analiza detalladamente todos los
posibles errores que pudiera generar no solo el cuestionario sino el que entrevista, el
lugar, el tiempo, el entrevistado, a partir de este tema desarrollare algunos criterios
básicos para considerar una validación aceptable para un cuestionario
Para validar la información contemplada en el cuestionario se debe de considerar su
aprobación definiendo los objetivos: (En el siguiente caso mostramos un ejemplo)

OBJETIVO GENERAL:
Analizar la información que poseen los votantes acerca del proceso electoral,
la responsabilidad del voto, la fecha de votación y las propuestas de los
diferentes candidatos.

- 37 -
OBJETIVOS ESPECIFICOS

- Identificar las características de los votantes según estratos sociales, edad,


sexo
- Determinar el nivel de información que tienen acerca de los candidatos
en el proceso electoral
- Determinar sus preferencias según alguna característica especifica de uno
de los candidatos
- Determinar cuál es la principal fortaleza del candidato con mayor
preferencia
- Determinar cuál es la debilidad del candidato de menor preferencia

SUSTENTO DE LA ENCUESTA:

Siempre al momento de validar la encuesta debe de detallarse un sustento básico


pero técnico donde principalmente debe de estar definido a la investigación,
cuyo título debe ser bien claro; Por ejemplo “Conocimiento sobre los
candidatos en el proceso electoral en una ciudad determinada” El mismo
persigue la obtención veraz y confiable de datos que permitan documentar el
problema planteado. Está dirigido a los votantes de todas las edades en
condición de votantes, de una determinada ciudad.

- 38 -
INSTRUMENTO PARA VALIDACIÓN

CRITERIOS APRECIACIÓN CUALITATIVA


EXCELENTE BUENO REGULAR DEFICIENTE
Presentación del instrumento

Calidad de redacción de los


ítems
Pertinencia de las variables con
los indicadores

Relevancia del
contenido
Factibilidad de aplicación

APRECIACIÓN CUALITATIVA

OBSERVACIONES:

VALIDADO POR PROFESION

LUGAR DE TRABAJO

CARGO QUE DESEMPEÑA

FECHA FIRMA

- 39 -
OPERACIONALIZACION DE LAS VARIABLES A UTILIZAR

VARIABLE OBJETIVOS INDICADORES SUB INDICADORES ITEM


ESPECIFICOS
Edad del entrevistado Abierta en números 1
Parentesco del Padre , Madre, Otros, detalle 2
entrevistado
Estado civil Casado(a), Soltero(a), divorciado 3
(a) viuda(a), conviviente, otros
Integrantes del grupo Padre, Madre, hijos, Madre-hijos,
familiar padre-hijos, abuelos, padre-hijos- 4
abuelos, madre-padrasto-hijos,
padre-madrasta-hijos y otros
Número de hijos 1,2,3,4.5 más de 5 de preferencia 5
señalar la cantidad exacta
Situación laboral ¿Trabaja? Si , No 6
Identificar las Grado de Instrucción Sin estudios, Primaria
características Socio incompleta, primaria completa,
Información Demográficas de los Secundaria incompleta,
Socio participantes de la Secundaria Completa, Instituto 7
Demográfica votación Superior Incompleto, Instituto
Superior Completo, Universitario
Incompleto, Universitario
Completo, Titulado, Colegiado
Profesional
Actividad que realiza Comerciantes, Obrero, Empleado
Público, Labores domésticas, 8
Profesional, Trabajador
independiente, otros
Ingreso familiar Menos del sueldo mínimo, un
mensual sueldo mínimo, dos sueldos 9
mínimos, más de tres sueldos
mínimos.
Número de personas 1-2, 3-4 5-6 más de 6 10
que habitan en la casa
Religión de los padres Católico, Evangélico, Cristianos, 11
testigos de Jehová, otros
Información acerca de los 12
posibles candidatos
Responsabilidad de votar en el 13
proceso electora
Conocer las diferentes 14
propuestas de los candidatos
Información de los Preferencia Electoral Tener más información para 15
ciudadanos acerca Determinar qué elegir a un determinado
de las elecciones tanta información candidato según sus propuestas
Presidenciales, tienen los votantes Información de los posibles 16
políticas a implementar de parte
Regionales o acerca de los
del candidato ganador
Municipales (Caso candidatos que Detectar y solucionar los 17
Perú) participan en el problemas para el país
En relación a participar Participar en el proceso electoral 18
en el proceso electoral de manera voluntaria
Orientar a los votantes en la toma 19

- 40 -
de decisión para el proceso
electoral
Relacionado con el Conocer los lugares de votación, 20
proceso electoral la hora , la forma de votar

INSTRUMENTO DE EVALUACIÓN CUANTITATIVA


En este cuadro se marcará con una equis (X) la opción o situación que se considere
debería de aplicarse en cada Ítem y de ser el caso detallar en el cuadro de las
observaciones.

ESCALA
Ítem Dejar Modificar Eliminar Observaciones
(1) (2) (3)
1
2
3
4
5
6
7
8
9
10

El cuadro descrito líneas arriba tendrá la misma cantidad de las preguntas denominadas “Ïtem” de esta forma
se podrá analizar a cada una de ellas.

El siguiente modelo; es la validación de un proceso de validación, depuración e imputación de las


encuestas ahogares del IEA, desarrollado en España a cargo del Instituto de Estadística de Andalucía.
España

PROCESOS DE VALIDACIÓN, DEPURACIÓN E IMPUTACIÓN DE LAS ENCUESTAS


A HOGARES DEL IEA

1.-Introducción

Uno de los principios fundamentales de cualquier institución que se dedique a


realizar encuestas debe ser producir estadísticas de calidad, precisas y fiables.

- 41 -
Por ello, simultáneamente a la recogida de información en los trabajos de
campo, se deben desarrollar estrictos procesos de validación y depuración
de los datos recogidos, que permitan detectar y corregir los errores que puedan
surgir, sean éstos de la naturaleza que sean, y además valorar la posibilidad de
eliminar encuestas que no cumplan con los criterios de calidad establecidos.
Como se verá a continuación, la validación, depuración e imputación no
se deben entender como procesos independientes sino como acciones
interrelacionadas que forman un proceso conjunto con un objetivo
central: la obtención de información de calidad.
En este artículo se realiza un breve resumen de las etapas que suelen seguirse
en cualquier encuesta por muestreo, para a continuación centrarnos en la
recogida de información y analizar la necesidad de desarrollar una serie de
procedimientos que nos permitan validar la información recogida por los
encuestadores. Para ello se presentan los procedimientos de validación que se
han utilizado por el Instituto de Estadística de Andalucía en sus encuestas a
hogares, y más concretamente en la Encuesta Social 2008.

2.- Producción de operaciones estadísticas

El objetivo al que se enfrenta cualquier institución pública o privada


encargada de realizar estadísticas en el ámbito público es la de obtener datos que
satisfagan las necesidades de información que la sociedad demanda y la toma
de decisiones en distintos ámbitos. Para obtener dichos datos, diseñan y realizan
una serie de estudios a partir de datos muestrales, censales o en el caso que
existiesen, aprovechando la información presente en los distintos registros
administrativos.
Por lo tanto, todo producto estadístico surge como respuesta a una
necesidad de
información, que una vez detectada, debe analizarse, para determinar si
debe llevarse a cabo a través de una operación estadística nueva o puede

- 42 -
abordarse desde alguna otra operación estadística existente.
Tras detectar que efectivamente es necesario planificar una operación
de recogida de información mediante una encuesta hay que poner en
marcha las siguientes etapas:
1) Planificación de la operación estadística
2) Diseño
3) Ejecución de la operación.
4) Validación, depuración e imputación, de forma conjunta.
5) Difusión de los resultados.

Vamos a desarrollar brevemente cada una de las etapas enumeradas.


1) Planificación
Ésta es una de las etapas principales en las encuestas ya que antes de
comenzar cualquier proyecto es necesario definir los objetivos principales
del estudio, determinar quiénes serán sus usuarios potenciales y analizar
la información disponible del objeto de estudio. Como resultado de esta etapa
se definen:
La población objeto del estudio al que se quiere dirigir la operación.
Método de recogida de la información.
Ámbito geográfico y temporal de la operación, ya sea muestral, censal
u obtenida de un
registro administrativo.
Cronograma aproximado del proyecto.
Organización de los trabajos.
Estimación de costes asociados a los trabajos y obtención de la
financiación necesaria para
llevarlos a cabo.

2) Diseño
Una vez decididos en la etapa anterior los rasgos principales de la operación

- 43 -
estadística, se deben establecer los métodos adecuados para cumplir con todos los
objetivos deseados, definiendo todos los procedimientos que nos lleven a tal
fin. Estos procedimientos varían notablemente según nos encontremos
con una operación censal o muestral. Podemos destacar como procedimientos
asociados a esta etapa

Diseño del marco poblacional y plan de muestreo en el caso de que se trate de


una encuesta por muestreo.
Diseño del cuestionario.
Método de recogida.
Definición de los métodos de validación, depuración, imputación y estimación.
Definición de los sistemas informáticos que soportarán los métodos
diseñados en las actividades
anteriores.
Documentación de procedimientos, tanto para las tareas manuales
como informatizadas.

3) Ejecución
En esta etapa es en la que se obtienen los datos de la operación estadística,
que posteriormente habrá que tratar, siguiendo los pasos descritos en la etapa de
diseño.

4) Validación, depuración e imputación


Ante la publicación de los resultados de una encuesta no es
infrecuente escuchar preguntas como cual ha sido el nivel de validación al que ha
sido sometida. El término validación se maneja en numerosas ocasiones de
manera confusa. Es importante puntualizar que, en principio, lo que puede
validarse es un instrumento o procedimiento concebido para medir una
dimensión correcta, sea esta física o abstracta. Validar tal instrumento
equivale a corroborar que realiza de manera efectiva el procedimiento de

- 44 -
medición que le corresponde. Es muy común que para medir cualquier magnitud
se empleen variables sintéticas construidas a partir de las respuestas que se
obtienen del entrevistado a través de una encuesta. De forma que, esta encuesta
y procedimiento tendrán que ser validados.
Como fases del procedimiento de validación distinguimos, por un lado, la
validación del cuestionario, a través generalmente de la realización de una
encuesta piloto, y por otro, tratar e investigar los trabajos que desarrollan los
encuestadores mediante la validación de los procedimientos de encuestación
y detección de encuestas fraudulentas a través de distintas estrategias. Pero,
como se ha comentado anteriormente, el procedimiento de validación no
se debe ver como un procedimiento aislado e independiente sino que va
unido a las fases de depuración e imputación de los datos, tal y como veremos.

Uno de los puntos destacados de esta validación será la de minimizar y


corregir los errores detectados, por lo que pasamos a exponer brevemente una
clasificación de los distintos tipos de errores que podemos encontrarnos
durante la fase de recogida de información. No nos referimos a los errores que
provienen del muestreo, sino a los que se pueden ver reflejados en los propios
datos de la encuesta, es decir, los denominados errores ajenos al muestreo. Estos
errores podemos dividirlos en dos modalidades, errores en las identificaciones
de cada encuesta –el encuestador, de forma intencionada o no, realiza la
encuesta a otra vivienda distinta a la vivienda objetivo, o en el peor de los
casos comete fraude al responder él mismo a las preguntas de la encuesta - y
los errores en los propios datos - Granquist (1984) los divide a su vez en dos
tipos, los errores aleatorios y los errores sistemáticos cometidos por los
entrevistadores. Para intentar disminuir estos errores, se proponen los métodos
de validación para los errores del primer tipo y los métodos de
imputación y depuración para los segundos. De ahí, la relevancia de
prestar la máxima atención en el proceso de recogida de información
desarrollando procedimientos que controlen dicho proceso

- 45 -
5) Difusión
Por último, toda operación estadística pública se debe ajustar a los planes
diseñados para su posterior difusión. La calidad de la investigación estadística se
logra extremando el cuidado en la realización de las etapas anteriores.
Como existen tantos tipos de investigaciones como necesidades
de información, no hay reglas exactas para cada una de las etapas, pero si
existen guías de actuación que nos pueden ayudar a desarrollarlas según sea el
caso.

3.- Origen y Objetivos de la Unidad de Encuesta del IEA

Desde sus comienzos, la unidad de encuesta del Instituto de Estadística de


Andalucía (IEA), encargada de realizar las encuestas sociales, tiene como uno de
sus objetivos principales asegurar la obtención de unos datos de calidad.
Para ello ha ido diseñando y modificando sus planes de validación, depuración
e imputación de las encuestas hasta llegar al modelo actual, obteniendo
resultados cada vez más satisfactorios.
A lo largo de su trayectoria, la unidad de encuesta del IEA ha acometido
las siguientes operaciones estadísticas dirigidas a hogares:
1. Encuesta de Redes Familiares en Andalucía: 10.000 encuestas a
individuos
(2005)
2. Encuesta Mundial de Valores (EMV): 2.000 encuestas a viviendas (2006-2007)
3. Encuesta Social 2007. Una Visión de Andalucía (ESOC-07): 2.000 encuestas a
viviendas
4. Encuesta Social 2008: Hogares y Medio Ambiente en Andalucía (ESOC-08):
6.000 encuestas a viviendas

El esfuerzo humano, económico y de recursos en cada proyecto pone de

- 46 -
manifiesto este interés en asegurar dicha calidad. Asimismo, el hecho de mantener
el equipo de validación de forma constante a lo largo de estos años ha permitido
que se aumente la calidad de los datos, lo que además, se ha realizado con
una carga de trabajo mucho menor gracias a la sistematización de los
procedimientos. En la siguiente tabla podemos ver el número de validaciones
realizadas en alguna una de las operaciones anteriormente enunciadas:

Tabla 1.
Histórico de validaciones en las operaciones de la Unidad de Encuesta del IEA.
ENCUESTA VALIDACIÓN TELEFÓNICA (%)
EMV 37,20
ESOC-07 45,55
ESOC-08 34,87

Una de las apuestas iniciales que realizó el IEA, que supuso una mejora en la
calidad de los resultados, a la hora de crear su unidad de encuesta, fue hacer uso
del sistema CAPI (Computer Assisted Personal Interviewing), utilizando
dispositivos PDA como herramienta de recogida de la información. Este
sistema cuenta con numerosas ventajas respecto a la validación de encuestas.
Una de las principales, es que se dispone de la fecha y hora de realización de la
entrevista y de la duración de la misma. De esta forma, se pueden marcar como
sospechosas aquellas encuestas realizadas a horas intempestivas y aquellas cuya
duración resulta mucho más corta del resto. Esto permite establecer patrones
de duración de las encuestas por cada encuestador. Otra de las ventajas de
trabajar con PDA a la hora de la recogida de información en una encuesta, es que
la fase de depuración comienza en el mismo diseño del cuestionario en la PDA,
ya que se van definiendo los filtros directamente en el diseño del cuestionario,
evitando tener que depurarlos una vez que se han recibido los datos. Por
último, en la recogida de información a través PDA, se tiene protocolarizado que
el encuestador no pueda editar una encuesta una vez que la ha dado por
definitiva, esté finalizada o incompleta, pudiendo realizar esta edición sólo los

- 47 -
miembros de la Unidad Central de Encuestas, tanto directamente en la PDA
como en las aplicaciones informáticas posteriores.
Otro aspecto que cada vez ha ido teniendo mayor importancia en la
validación de las encuestas del IEA es la minimización del tiempo que
transcurre entre la realización de la encuesta y los posibles re contactos con el
encuestado, por ejemplo, a través de la realización de un cuestionario de
validación, para que así el suministrador de los datos no tenga dudas y
recuerde en gran parte la encuesta a la que se refiere dicha validación. Este
proceso de validación se realiza a través de dos vías: la validación telefónica y
la validación “in situ”. En los dos siguientes epígrafes (4 y 5) detallaremos
cada uno de ellos:

4.- Mecanismo de validación telefónica del IEA

El procedimiento para la validación telefónica, está basado en la aplicación


de una serie de controles que permiten la clasificación de las encuestas en
estados, teniendo cada uno ellos, posteriormente, un tratamiento específico.
Aunque para todas las operaciones realizadas el procedimiento ha sido similar en
este texto nos vamos a centrar en el mecanismo utilizado en la “Encuesta Social
2008: Hogares y Medio Ambiente en Andalucía” (ESOC-08).
Este estudio fue promovido por el Instituto Nacional de Estadística (INE), y en
él colaboraron las oficinas de estadística de varias Comunidades Autónomas.
En Andalucía el organismo que la ha llevado a cabo es el Instituto de Estadística
de Andalucía (IEA), que como se expuso anteriormente, cuenta desde hace cuatro
años con una Unidad de Encuesta, encargada de planificar y coordinar este
tipo de estudios. Esquemáticamente el papel específico de cada una de las
instituciones involucradas en el proceso fue:
El INE coordinó el proyecto y asumió la realización del trabajo de campo
en todo el territorio nacional, salvo en las comunidades autónomas participantes
en el proyecto.

- 48 -
Los institutos de estadística autonómicos colaboraron en la elaboración
del cuestionario y se hicieron cargo de la realización y coordinación regional
de los trabajos de campo en sus respectivos territorios.
En el IEA, nuestra unidad trabaja en cooperación con equipos de
las universidades andaluzas, encargados de la recogida de información. La
operación se basa en una muestra de viviendas, en las que se selecciona a
determinados informantes. El cuestionario se encuentra dividido en 9 módulos
que recogen diferentes aspectos relacionados con el Medio Ambiente.

4.1.- Procedimiento de validación telefónica para la ESOC-08

El sistema de validación aplicado a las encuestas del IEA es principalmente


telefónico, para lo cual es necesaria la obtención de los números de teléfono
por parte de los entrevistadores durante la recogida de información, a través de
cualquier registro administrativo del que se disponga o a través de las distintas
bases de datos telefónicas existentes en el mercado.
Para la validación telefónica se ha diseñado un cuestionario general y uno
para cada uno de los bloques que formaban parte del cuestionario de la
encuesta.
¿Cuándo utilizamos uno u otro? Para poder decidir sobre este particular se utiliza
la información que nos proporciona el Registro de Población de Andalucía
(RPA) gestionado por el IEA. En él se recoge el Nombre, Apellidos, Domicilio,
Sexo y Fecha de Nacimiento de los individuos empadronados en Andalucía.
Pero, ¿cómo usamos el RPA?

En las encuestas donde la unidad muestral es la vivienda, usualmente, se


pregunta al incio del cuestionario la estructura del hogar, es decir, se pregunta
año de nacimiento y sexo de cada una de las personas que residen en la vivienda
– conocido generalmente como tabla de miembros de la vivienda-, ya
que es información socio demográfica de gran importancia de cara a la

- 49 -
explotación de los resultados y al cruce con otras variables.
Por otro lado, en el RPA, como acabamos de ver, también tenemos esta
misma
información, en teoría procedente de la misma vivienda, lo cual facilita
la comparación de dichas fuentes y la consecuente obtención de un criterio de
decisión a la hora de decidir si una encuesta tiene que ser validada. Este criterio es
fundamentalmente el siguiente:
Si coincide de forma estricta la estructura del hogar del RPA con la
presentada en la encuesta (se comprueba primero que coincida el número de
personas y posteriormente que las personas que estén tengan las mismas
características de edad y sexo) se valida sólo un 10% de los casos, ya que
tenemos evidencia de haber visitado la vivienda correcta.
En el caso de que no coincida se valida un 80% de los casos. Visto el alto
porcentaje de validación que se produce en estos casos, debemos estar seguros
de que la estructura del hogar difiere en gran medida, por lo que se procede a
una breve depuración manual en los casos más próximos a la coincidencia.
Esta depuración manual la realiza el equipo de validación a través de una
aplicación en Visual Express Studio.
Por lo tanto, al recibir los datos de una encuesta, lo primero que se hace es
encuadrarla en una de estas dos categorías (una vez que los códigos de las
mismas están depurados), que a partir de ahora denominaremos
Correcto_RPA, cuando ambas fuentes coincidan, e Incorrecto_RPA cuando no lo
hagan. Este procedimiento está automatizado en Visual Express Studio existiendo
una aplicación para ello.
En esta comparación con el RPA, somos conscientes que se pueden producir
errores por el desfase temporal entre la fecha de referencia del RPA y el
momento de realización de la encuesta. Es decir, en un momento dado el registro
de viviendas podría quedar obsoleto, y por tanto no tendríamos a priori la
misma estructura en el RPA y en la encuesta. En este caso, esa encuesta se
catalogaría en el grupo de Incorrecto_RPA. Contamos con este error, pero la

- 50 -
mejora sustancial a la que ha sido sometido el RPA en los últimos años a
través del trabajo del Servicio de Demográficas y Sociales del IEA, nos hace
prever que aún cometiendo errores, las ventajas que obtenemos de esta fuente
son cada vez mayores, lo que permite un notable ahorro de esfuerzo a la hora
de localizar entrevistas sospechosas.
Siguiendo esta regla de decisión, y los porcentajes fijados anteriormente,
se seleccionan aleatoriamente las encuestas que debemos validar de forma
telefónica, realizándoles el cuestionario de validación extraído del cuestionario
original. Los resultados de la validación se clasifican en cuatro categorías, que
son: Validada, No Validable, Llamada positiva y Sospechosa. Las explicamos más
detalladamente:
Validada: La primera pregunta que se realiza en cualquier cuestionario
de validación, tanto telefónico como presencial, es saber sí a la persona en
concreto se le ha realizado una encuesta a través de los mecanismos
correctos, es decir, en nuestro caso si en la vivienda seleccionada se ha
personado un encuestador con PDA para hacerle unas preguntas sobre el tema
en cuestión. En el caso que sea afirmativa la respuesta, se procede a preguntarle
el breve cuestionario de validación. Si éste es contestado en su totalidad, se
codifica en esta categoría.
Llamada positiva: existirá un amplio grupo de personas que no
quieran responder a más preguntas, es decir, que no faciliten las respuestas del
cuestionario de validación pero si aseguren que por su vivienda se ha
personado un encuestador del IEA con su PDA para realizarle la encuesta. En este
caso se codifica la encuesta como llamada positiva.
No Validable: se trata del caso en el que el equipo de validación no ha
sido capaz de contactar de ninguna de las formas posibles con la vivienda
seleccionada, bien sea por no poder tener contacto telefónico o porque una vez
iniciado el contacto se niegue a dar información alguna sobre la encuesta. En
este caso, además de clasificar la encuesta como no validable, se sustituye
dentro del listado de encuestas a validar por otra del mismo encuestador.

- 51 -
Sospechosa: el objetivo de la validación telefónica que se realiza en el IEA
es poder detectar las encuestas donde hay indicios de fraude. Una vez que se
marca como sospechosa se inicia una investigación que nos lleve a discernir si la
encuesta es fraude o no, recabando información del coordinador de
provincia, del entrevistador y analizando la coherencia interna de la encuesta.
Estos casos también se proponen para la validación in situ, como veremos
posteriormente, en la que un equipo externo al IEA, vuelve a dirigirse a la
vivienda para verificar si se ha realizado la encuesta. En el caso de que se
determine que es fraudulenta se procede a su repetición.

El proceso de validación no termina aquí, ya que entonces quedaría aislado de


los procesos de depuración e imputación. Aprovechando que tenemos el
cuestionario separado en bloques, y a través del software TEIDE (Técnicas

de Edición e Imputación de Datos Estadísticos)1, vamos a seleccionar las


encuestas y bloques en las que encontramos problemas de inconsistencia
interna. Este procedimiento se realiza definiendo en dicho programa una
serie de edits o reglas de consistencia entre variables que debe cumplir la
encuesta (la depuración y el software utilizado al efecto se desarrollará con más
detalle en el punto 6 del artículo).
Este procedimiento permite detectar problemas en una parte del
cuestionario, de forma que sólo se procede a validar esa parte, y no el
cuestionario completo. Es decir, si una encuesta tiene problemas de
inconsistencia en 2 bloques, le realizamos una validación telefónica sobre esas
partes a través de pequeños cuestionarios diseñados para ese fin. Si de una
encuesta, observamos un número elevado de bloques inconsistentes, se
seleccionaría para que se le realizase la validación completa y no por
bloques sueltos.
Con este procedimiento, estamos conjugando dos procesos, el de validación y
el de depuración.
Recapitulando, la validación telefónica se realiza a través de dos mecanismos:

- 52 -
1. Una vez seleccionado el caso, comparado con el RPA, se le realiza
el cuestionario de validación completa de la encuesta, siguiendo unos porcentajes
predeterminados.
2. Del resto de encuestas se comprueba la coherencia interna de los bloques en
los que se divide el cuestionario, de forma que se validen aquellos que sean
realmente inconsistentes, si éstos son un número elevado, se validará de forma
completa.

- 53 -
Gráficamente, la secuencia de los procedimientos sería la siguiente:

RECEPCION COORDINADORES
PROVINCIALES

No
CODIGO
DE
VIVIENDA

Si

COMPARACI
ON RPA
Coincidencia No Coincide
estricta

CUESTIONARIO CUESTIONARIO
VALIDACION VALIDACION
COMPLETO COMPLETO 1º etapa
10% 80%

2º etapa cuestionarios no
seleccionados en la 1º etapa
COMPARACI
ON RPA

Sin bloques inconsistentes Bloques inconsistentes

OTROS VALIDAR 100%


PROCEDIMIENTOS DE CUESTIONARIOS SOLO
VALIDACION BLOQUE
INCONSISTENTE

Además de este procedimiento, también utilizamos estrategias clásicas de validación mediante el análisis
de:

- 54 -
Duración de las encuestas
Horario de realización de las entrevistas.
Seguimiento individualizado de entrevistadores o grupos de ellos por si actúan
irregularmente en equipo.
Como se ha comentado anteriormente, la regla de decisión utilizada fijaba un
porcentaje, a validar telefónicamente, de un 80% de los casos en los que no
coincide la estructura del hogar del RPA con la estructura del hogar de la
encuesta y un 10% en el caso de que sí coincidan. Esta notable diferencia en los
porcentajes de ambos casos no es aleatoria. La Unidad de Encuesta del IEA se ha
basado en los resultados de sus propias experiencias a la hora de proponer
dichos porcentajes, ya que, como se esperaba, el porcentaje de encuestas
sospechosas que se encuentran en una operación estadística de este tipo es
mucho mayor en el caso de no coincidir la estructura de la vivienda
encuestada con la que a priori está registrada en el RPA.

Todo esto se puede observar en las siguientes tablas, donde se muestran dos
hechos:
1. Las primeras tablas se centran en calcular cuántas viviendas se clasifican como
correctas y cuántas como incorrectas, en cada una de las encuestas realizadas por
el IEA. Además en estas tablas se podrá observar la mejora que el propio
RPA ha tenido a lo largo de los 4 años de funcionamiento de la Unidad de
Encuesta.
2. Por otro lado, se corrobora las notables diferencias que se encuentran en
la procedencia de una encuesta sospechosa, según venga de un tipo
Correcto_RPA o de uno Incorrecto_RPA. Las encuestas sospechosas que se
contabilizan son sólo las detectadas directamente por la encuesta de validación
telefónica. Además se realizan otros análisis, para la detección de encuestas
sospechosas, por encuestador u otro tipo que hacen que estos números
aumenten.

- 55 -
Tabla 2.
Distribución de encuestas según
comparación con el RPA
CLASIFICACION EMV (%) ESOC-07 (%) ESOC-08 (%)
Correcto RPA 68.1 66.4 73.39
Incorrecto RPA 31.9 33.6 24.61
Total 100 100 100

Se observa cómo el contraste entre el RPA y la muestra ha ido mejorando a lo


largo de las distintas experiencias que se han tenido: en el año 2006-2007 (EMV
y ESOC-07), el 67% de los casos de las viviendas encuestadas coincidían
con la teórica del RPA, mientras que en el año 2008, ascendía a un 75,39%.
Asimismo, otras de las pautas observadas es que prácticamente el total de
las encuestas sospechosas son encuestas con Incorrecto RPA (Por ejemplo en
la ESOC-08 el 97.05% correspondía a viviendas con Incorrecto RPA; véase
tabla 4), de ahí la importancia que tiene el contraste con el RPA en la
validación

Tabla 3
Distribución de encuestas validadas por resultados de validación y comparación con RPA

Clasificación Resultado Validación EMV ESOC-07 ESOC-08


Validada llamada positiva 209 27.83% 295 30.67% 845 40.43%
No validable 37 4.93% 49 5.09% 137 5.41%
Sospechosa 2 0.27% 2 0.21% 1 0.05%
Incorrecto RPA Validada Llamada positiva 397 52.86% 475 49.38% 869 41.58%
No validable 99 13.18% 126 13.10% 299 10.98%
Sospechosa 7 0.93% 15 1.56% 33 1.58%
Total 751 100% 962 100% 2090 100%

Tabla 4
Distribución de encuestas sospechosas por comparación con RPA

Clasificación EMV ESOC ESOC


Correcto RPA 2 2 1
Incorrecto RPA 7 15 33
Total encuestas 9 17 34

4.2.- El cuestionario de validación

El diseño del cuestionario de validación es importante para que todo el


procedimiento de validación tenga sentido. La realización de preguntas al azar
del cuestionario no nos proporciona el tipo de información que nos permita

- 56 -
comparar satisfactoriamente las distintas fuentes de información provenientes
de la misma vivienda. Por esta razón dicho cuestionario se debe centrar en el uso
conjunto de preguntas filtro y de aquellas en las que durante el período de
tiempo entre ambos cuestionarios no vaya a cambiar la respuesta del
entrevistado. El proceso de validación de encuestas no termina aquí pues
se tiene una ingente cantidad de información proveniente de los cuestionarios
de validación, que debe ser analizada. Un primer análisis se produce en el cruce
de la información de los dos cuestionarios que a priori son obtenidos de la
misma vivienda, el de validación y el original. A través de un procedimiento
automatizado se procede al análisis de las diferencias entre ambos, prestando
especial atención a las diferencias existentes en una serie de preguntas filtro en las
cuales el encuestador dispuesto a cometer irregularidades puede ahorrarse un
tiempo considerable en la realización de la encuesta. Pongamos un ejemplo
correspondiente a la ESOC-08. Si el encuestador directamente no pregunta a
una vivienda si tiene o no aire acondicionado o calefacción se ahorra uno
de los bloques más largos de la encuesta. Si se detecta un comportamiento
sistemático, en este tipo de casos, para ese encuestador concreto, se pide que se
repita esa parte del cuestionario, como así ha ocurrido en alguna ocasión.
Otro análisis se produce en el número total de diferencias entre ambos
cuestionarios. Si estas diferencias son notables, pasan a investigarse, por los cauces
normales, es decir, contacto con coordinadores provinciales, encuestadores o
envío de dicha encuesta al proceso de validación in situ.

5.-Validación in situ

Los apartados anteriores se han centrado en la validación de encuestas de


forma telefónica, pero hay casos que no se pueden validar mediante estos
procedimientos, bien porque no se dispone del teléfono, bien porque éste
es incorrecto o bien porque se prefiera un contacto directo presencial con los

- 57 -
entrevistados. Para estas encuestas se utilizará otro tipo de validación que
es la validación in situ.

Además, hay otras situaciones que también pueden ser validadas y evaluadas
mediante éste método. Un ejemplo claro es el correcto uso de las sustituciones de
muestra por parte de los encuestadores. Es habitual que un encuestador que
dispone de un listado de sustitutos muchas veces no haga las visitas obligadas a
una vivienda o simplemente, por razones de cercanía y tiempo, acuda a la
vivienda más próxima al lugar donde se encuentre, de forma que no se rija
por el orden de sustitución previo del que dispone, indicando por tanto un
motivo de sustitución ficticio e inexistente.

En gran parte de las encuestas realizadas desde la Unidad de Encuesta del IEA no
se les ha proporcionado los listados de sustituciones a los encuestadores, de
forma que se gestionaban desde la propia Unidad. Así ocurrió en las encuestas
de Redes Familiares, Encuesta Mundial de Valores, Encuesta Social 2007: Una
visión de Andalucía y Encuesta sobre las necesidades de formación y
Cualificación en Andalucía. No ha ocurrido así en la Encuesta Social 2008:
Hogares y Medio Ambiente en Andalucía, donde el listado sí ha sido
proporcionado a los encuestadores.
Cada opción tiene sus ventajas e inconvenientes. Si desde el IEA se
gestionan las sustituciones de muestra – generalmente las sustituciones se daban
en directo a través de una línea 900 – el gasto humano por parte del IEA
era superior y dificultaba los ritmos de trabajo a los entrevistadores. Por el
contrario como ventaja principal, se controlaban en mayor medida las
sustituciones.
Teniendo presente estos aspectos, la validación in situ se planteó con un
doble objetivo: la detección de encuestas fraudulentas y la comprobación de las
causas de sustitución alegadas por el entrevistador.
La validación in situ se realizó a través de una empresa externa a las

- 58 -
Universidades y ajena al IEA. A esta empresa se le proporcionó las secciones
que debía visitar. Estas secciones fueron seleccionadas atendiendo a varios
criterios:
1. Número de sustituciones elevado.
2. Existencia de encuestas sospechosas detectadas en la validación telefónica.
3. Presencia de un encuestador con encuestas sospechosas

6.-Depuración e Imputación en la Unidad de Encuesta

Como se ha visto anteriormente, los datos recogidos en las encuestas,


se pueden ver afectados por dos tipos de errores, los errores de muestreo y los
ajenos al muestreo. La corrección de estos últimos se convierte en una tarea
imprescindible para mejorar la calidad de la investigación estadística. Por lo
tanto, y debido a la imposibilidad de reanudar los trabajos de campo dado el
coste y el tiempo que ello conlleva, la depuración de los datos se convierte en
una tarea necesaria antes de comenzar el procesamiento de datos de la
encuesta.

La detección de errores requiere que previamente se definan las situaciones


erróneas o sospechosas, tarea que corresponde a los estadísticos expertos en el
tema objeto de la investigación. La definición de posibles situaciones erróneas se
realiza habitualmente por medio de los denominados edits o reglas de
coherencia, ya citados en otros puntos. Los edits especifican restricciones a los
valores individuales de las variables (edits de validación, casi todos
implementados en la PDA y por lo tanto de obligado cumplimiento a priori) o
de conjunto de variables (edits de consistencia). La detección de errores se
realiza enfrentando todos los registros a depurar con el conjunto de edits
especificados. Un registro se considera erróneo si no cumple la condición
especificada por un edit de conflicto. Mediante los edits se especifican:
Situaciones imposibles.

- 59 -
Situaciones improbables.
Restricciones contables.
Outliers.
Control de flujo de respuesta del cuestionario.
Resulta muy útil utilizar herramientas automáticas que ayuden en este proceso
tan complejo. En el IEA se utiliza el software TEIDE (Técnicas de Edición e
Imputación de Datos Estadísticos), programa informático desarrollado por la
Universidad de La Laguna, el cual, mediante un conjunto de relaciones
entre variables, decide si un registro es correcto y en caso contrario qué variables
hay que modificar para que satisfaga todas las relaciones, de forma que el
número de variables modificadas en el registro sea el menor posible.

Una vez terminado el proceso de análisis de los edits, hemos de pasar a la


“depuración manual”, pues hay casos que sólo pueden arreglarse de esta
manera. Para ello se ha utilizado principalmente información de fuentes
auxiliares, como es el RPA, e incluso un pequeño porcentaje de respuestas
telefónicas de ciertas variables socio-demográficas.

Una vez concluida esta fase, todos aquellos registros que queden con alguna
incoherencia tendrán que pasar a la depuración automática o imputación. El
método de imputación estadística que emplea TEIDE es el de registro donante
de Fellegi- Holt. En él, se tienen un conjunto de registros totalmente correctos
que servirán de “donantes” para otros registros con alguna incorrección.
Midiendo las distancias en determinadas variables entre los registros correctos e
incorrectos, el donante para cada registro a imputar será determinado por aquel
registro correcto que minimice dicha distancia. Los valores de los microdatos del
registro “donante” serán utilizados para sustituir los valores a imputar en el
registro incorrecto.

- 60 -
7.-Conclusiones
Como se sabe y se ha recogido previamente, la realización de una encuesta
ha de estar sometida en toda su ejecución a exigencias de calidad que respalden
con la misma, los resultados que se obtengan. En este sentido se han descrito,
los criterios y exigencias a los que se ha sometido el trabajo de campo realizado
para la ejecución de la Encuesta Social 2008, y esa experiencia nos permite
concluir, que los criterios a exigir, durante la obtención de la información han de
ser fijados antes del inicio de los trabajos de campo, de forma que la aplicación
de los criterios ha de ser evaluada desde el mismo instante en que empiezan a
recogerse los datos, a través de procedimientos de control, que validen la
información recogida por los entrevistadores. Paralelamente, se tendrán
que realizar los oportunos procesos de depuración de los datos, para corregir
las inconsistencias que se produzcan

COMENTARIOS FINALES:

- 61 -

You might also like