Revista Colombiana de Estad´ıstica

Volumen 28 N
o
1. pp. 39 a 62. Junio 2005
Estrategia de muestreo para la estimaci´on de la
tasa de favoritismo en la elecci´on presidencial
Leonardo Bautista Sierra
*
Resumen
Se fijan los objetivos y se definen los criterios metodol´ogicos de una En-
cuesta Nacional de Favoritismo en Elecciones Presidenciales. Utilizando el
hecho de que el candidato H. Serpa se present´o como candidato en 1998 y en
2002 se utilizan los resultados electorales de 1998 para generar, en combina-
ci´on con datos censales de 1993, una base de datos, con la que se construye la
estrategia muestral para estimaci´on de resultados del 2002. Se llega a un di-
se˜ no con cuatro estratos de municipios. Uno de inclusi´on forzosa con las m´as
importantes ciudades del pa´ıs, un segundo estrato de ciudades intermedias,
el tercer estrato con 610 municipios y un ´ ultimo estrato de municipios muy
peque˜ nos y de dif´ıcil acceso. A modo de prueba, se realiza un ejercicio compu-
tacional de hacer 500 estimaciones del favoritismo de los candidatos en 2002
con 500 muestras diferentes seleccionadas de acuerdo al plan propuesto. En
el 96 % de los casos se habr´ıa acertado dando a Uribe como ganador absoluto
en la primera vuelta. Se alcanz´o una confiabilidad del 94,8 % y una precisi´on
equivalente a un c.v.e igual a 3,9 %. Finalmente, se aplica la metodolog´ıa
sugerida para producir una muestra para 2006 previendo la presentaci´on de
A. Uribe como candidato a la presidencia. Se concluye con una muestra de
85 municipios, 6.400 manzanas para empadronar y 15.800 personas a entre-
vistar.
Palabras Claves: Muestra electoral, muestra probabil´ıstica, confiabilidad,
precisi´on, estrategia de muestreo, estratificaci´on electoral.
1. Conceptos b´asicos
1.1. Introducci´on
La ley colombiana vigente a finales del siglo XX e inicio del XXI establece
que el candidato que en el comicio obtenga el favor de al menos la mitad m´ as
uno de los votantes se convierte en el presidente electo para gobernar al pa´ıs
*
Profesor asociado. Departamento de Estad´ıstica. Universidad Nacional de Colombia. Sede
Bogot´ a. E-mail: jlbautistas@unal.edu.co; lbautista@cable.net.co
39
40 Leonardo Bautista S.
durante un per´ıodo de cuatro a˜ nos. Si ning´ un candidato alcanza tal magnitud
de favoritismo, habr´ a un nuevo comicio electoral, denominado segunda vuelta.
En ´el, la poblaci´ on decide entre solo dos candidatos, aquellos que en la primera
vuelta obtuvieron la mayor´ıa absoluta. En las elecciones para Presidencia de 1994
(RNEC 1994) se realizaron dos vueltas, y los candidatos de la segunda vuelta
fueron el ganador Ernesto Samper y el perdedor Andr´es Pastrana. Cuatro a˜ nos
despu´es, Andr´es Pastrana se presentar´ıa otra vez como candidato y tendr´ıa que
someterse de nuevo a un proceso de dos vueltas (RNEC 1998), pero en esa ocasi´on
ganar´ıa la Presidencia frente al candidato Horacio Serpa. Cuatro a˜ nos m´ as tarde
(RNEC 2002), es Serpa quien vuelve a presentarse como candidato y pierde en la
primera vuelta frente al candidato
´
Alvaro Uribe.
El porcentaje de votos por cada candidato, en cada uno de los municipios del
pa´ıs, cambi´ o a lo largo de los ocho a˜ nos, en el sentido de que el candidato perdedor
en 1994 fue ganador en 1998, y el perdedor en la segunda vuelta de 1998, perdi´o en
2002 en la primera vuelta. Sin embargo, las diferencias entre municipios se man-
tienen, respetando ancestrales patrones de comportamiento electoral (Bautista &
Pacheco 1989). As´ı por ejemplo, el 88.4 % de los municipios en los que Pastrana
gan´ o en la segunda vuelta de 1994 fue tambi´en ganador en la segunda vuelta de
1998, el 75.6 % de los municipios en los que Serpa perdi´o en 1998, volvi´ o a perder
de forma contundente, menos del 20 % de favoritismo, en 2002 (V´ease anexo 1.).
En los comicios 1994, 1998 y 2002 el candidato del Partido Conservador Andr´es
Pastrana y el candidato derechista
´
Alvaro Uribe dominaron en aquellos munici-
pios y capitales de departamento, que hist´oricamente han favorecido con su voto
a los candidatos del partido Conservador. Se trata de las llamadas capitales “de
clima fr´ıo” Manizales, Tunja, Pasto, otras tradicionalmente conservadoras como
Medell´ın y municipios de corte m´ as rural que urbano. Por el contrario, las po-
blaciones de “clima c´ alido” y en particular las de las dos costas Buenaventura,
Cartagena, Barranquilla, Monter´ıa, Turbo, entre otras, le son regularmente favo-
rables a los candidatos del partido Liberal. La propuesta metodol´ogica que aqu´ı se
presenta aprovecha este comportamiento sistem´atico, para construir una estrategia
muestral, confiable, precisa y econ´ omicamente viable para las encuestas de opini´ on
electoral en comicios presidenciales.
1.2. Objetivo de una encuesta nacional de favoritismo en
elecciones presidenciales
El objetivo de una encuesta nacional de favoritismo en elecciones presidenciales
(ENFEP) es estimar la tasa de favoritismo que obtendr´ıan determinados candida-
tos, si el comicio electoral fuera “hoy”. Se trata de estudiar en forma anticipada
el proceso que se da el d´ıa de elecciones. Dicho proceso se describe, desde el punto
de vista de la teor´ıa del muestreo y de manera simplificada, de la siguiente forma:
Llamando U al universo de personas mayores de 18 a˜ nos del pa´ıs con plenos
derechos civiles, e indagados uno a uno en forma independiente y voluntaria, se
establecen dos variables para cada persona, zk que establece si la persona es par-
ticipante o abstencionista, y la variable y
k
que se˜ nala si la persona vota por el
Estrategia de muestreo para una encuesta electoral 41
candidato particular Y o no lo hace, bien porque no vota o porque apoya a otro
candidato.
z
k
= 0 si la k-´esima persona es abstencionista,
z
k
= 1 si la k-´esima persona vota,
y
k
= 0 si la k-´esima persona es abstencionista o
participando no apoya al candidato Y
y
k
= 1 si la k-´esima persona vota y lo hace por el candidato Y
(1)
El resultado electoral, que se divulga al concluir el d´ıa de elecciones, es la tasa
de favoritismo para el candidato Y, establecida como el cociente entre la cantidad
de votos por el candidato (N
y
) sobre la cantidad de votos v´alidos en el comicio
(N
z
).
R
y
=
¸
U
y
k
¸
U
z
k
=
N
y
N
z
(2)
Se trata, en t´erminos t´ecnicos, de una tasa y no de una proporci´ on. La sutil, pero
determinante diferencia entre estos dos conceptos es que las tasas se establecen con
base en denominadores desconocidos y aleatorios, mientras que las proporciones
se fundamentan en denominador constante y conocido de antemano (Bautista
1998). Para la ENFEP el denominador es la cantidad de votos entregados por
la poblaci´ on. Es decir, es la cantidad de participantes en el comicio. La abstenci´ on
electoral en Colombia es alta y variable entre municipios y sectores poblacionales,
lo que convierte a la cantidad de participantes en cifra aleatoria y variable
1
.
1.3. Metodolog´ıa de una encuesta nacional de favoritismo
en elecciones presidenciales
El m´etodo que utiliza el estad´ıstico, y en particular el muestrista, para confor-
mar su plan de estimaci´on responde a tres preguntas b´asicas: Qu´e se va indagar, a
qui´enes, y cu´ al es la calidad del resultado que se entrega. Para predecir el resultado
de elecciones, unas semanas antes del comicio, se realiza una entrevista directa a
personas mayores de 18 a˜ nos, de una parte muy particular del universo, en la que
b´asicamente se plantean dos preguntas: 1.- ¿Votar´ıa Usted, si las elecciones fueran
hoy? 2. Si no, muchas gracias. Si s´ı, ¿Por qui´en votar´ıa?
La forma como se plantean las preguntas, y posteriormente, la forma como
se codifican y procesan las respuestas conducen a muy diferentes resultados de
la estimaci´on. La muestra o subconjunto de personas que dan su respuesta en la
ENFEP, y cuya opini´ on es utilizada para estimar la opini´ on de los ciudadanos
del pa´ıs, debe ser tomada, siguiendo estrictas normas t´ecnicas, para configurar lo
que denomina una muestra probabil´ıstica, que dista mucho de ser sin´onimo de
1
El censo nacional de poblaci´ on de septiembre de 1993 arroj´o una poblaci´ on de 19’109.852
personas mayores de 18 a˜ nos. Nueve meses despu´es, en las elecciones para Presidencia, la cantidad
de votos v´ alidos fue de 7’384.845, lo que arroja una abstenci´ on del 61.3 %. Cuatro a˜ nos despu´es,
en 1998, la cantidad de votos v´ alidos pas´ o de 10’626.000 votos en la primera vuelta a 12’180.000
en la segunda.
42 Leonardo Bautista S.
una muestra al azar. Por ´ ultimo, aunque se cumplan los criterios t´ecnicos para el
tratamiento de preguntas y respuestas, y se establezcan muestras que respetan el
rigor de la teor´ıa de muestreo, algunas decisiones t´ecnicas del proceso de encuesta
pueden conducir a resultados de poca confiabilidad o de muy corta precisi´on.
1.3.1. Las preguntas que se plantean
y la codificaci´on de las respuestas
Respecto a las preguntas que se plantean en la ENFEP, se trata aqu´ı de aquellas
que adem´ as de constituir una fotograf´ıa, modifican lo que se suele denominar
la opini´ on p´ ublica. Un estudio que realiza un candidato y cuyos resultados son
utilizados, s´ olo por sus coordinadores de campa˜ na para orientar sus acciones, puede
contener muy diferentes preguntas y formas de preguntar. Por ejemplo ¿Qui´en
cree que ganar´ıa, si las elecciones fueran hoy? ´o ¿Si las elecciones fueran hoy,
cu´ al candidato le gustar´ıa que ganara?. Para una ENFEP destinada a la opini´ on
p´ ublica, la pregunta o las preguntas b´asicas deber´ıan referirse sin ambig¨ uedad al
interrogante, que el ciudadano del com´ un cree que se le est´a respondiendo con los
resultados de la encuesta (Gawiser & Witt 2002). Ese interrogante es:
1.- ¿Votar´ıa Usted, si las elecciones fueran hoy?
2. Si la respuesta es “no”, muchas gracias
2
.
Si la respuesta es “s´ı”, ¿por quien votar´ıa?
El segundo aspecto a considerar es el relativo a la interpretaci´on de la res-
puesta. La respuesta a si votar´ıa hoy, puede tener seis opciones: no sabe, no desea
responder, seguramente no, probablemente no, seguramente s´ı y probablemente s´ı.
Desde el punto de vista de la calidad final del proceso de estimaci´on, lo conser-
vador es reducir el tama˜ no del denominador, considerando como respuestas “No”
las primeras cuatro opciones.
Desde el punto de vista de c´ omo preguntar, se puede optar por la entrevista
cara a cara, en la que el entrevistador ense˜ na al entrevistado un s´ımil del tarjet´ on
electoral, al momento que formula la pregunta sobre preferencia (Biemer, Folsom,
Kulka, Lesler, Shah & Weeks 2003). Este procedimiento costoso puede remplazarse
por la entrevista telef´onica, m´etodo m´ as barato, pero basado en la memoria que
tiene la poblaci´ on sobre los candidatos que participan en el comicio. El recuerdo
espont´aneo puede existir durante las ´ ultimas semanas de un proceso electoral
3
y
en los casos de segunda vuelta, pero se puede llegar a resultados con distorsiones
graves, si se supone equivocadamente, que la poblaci´ on tiene buena memoria sobre
los candidatos y sus programas, en los momentos iniciales del debate.
2
En ocasiones se pregunta la raz´ on de la abstenci´ on, si ha votado en comicios anteriores, y
otros aspectos relacionados con el tema de la abstenci´ on. Estas preguntas encarecen el estudio y
se apartan del objetivo de la ENFEP
3
El recuerdo de los candidatos participantes en el debate puede no existir en la poblaci´ on,
incluso el mismo d´ıa de elecciones, en procesos electorales de menor importancia como la de
dignatarios locales o regionales
Estrategia de muestreo para una encuesta electoral 43
1.3.2. Muestra probabil´ıstica
Es un error estad´ıstico utilizar, para una encuesta cualquiera y en particular
para una ENFEP, el m´etodo de entrevistar al azar a algunas personas a la salida de
un supermercado, a algunos conductores de los que se detienen ante un sem´ aforo en
rojo, o a quien fortuitamente responde al tel´efono.
´
Estos o similares procedimientos
conforman muestras al azar, pero no necesariamente probabil´ısticas.
Una muestra, para ser considerada probabil´ıstica, debe cumplir (S¨arndal, Swens-
son & Wretman 2003): Los elementos son seleccionados de un marco de muestreo,
siguiendo un algoritmo que corresponde a probabilidades positivas y conocidas an-
tes de la selecci´ on. Aunque la probabilidad de selecci´on de un n´ umero telef´onico sea
positiva y conocida, no lo es la probabilidad de que quien responda sea determina-
da persona del hogar. Tampoco se conoce la probabilidad de que un determinado
conductor, el d´ıa de la entrevista escoja la ruta A o B, o que una persona decida
visitar uno u otro supermercado.
Un Marco de Muestreo es un dispositivo (lista, mapa, directorio, etc.) que per-
mite identificar y ubicar a cada uno de los elementos del universo de estudio.
Para el caso de la ENFEP se necesita un marco de las personas adultas aptas
para la entrevista. Este dispositivo se llama padr´ on y permite conocer el nombre
y la direcci´on de cada uno de los residentes de una vecindad.
´
El existe en algu-
nos pa´ıses, pero no en Colombia. Su ausencia exige, desde el punto de vista del
muestreo, que la selecci´on de la muestra se realice en dos o m´ as etapas. Es decir,
seleccionar grandes conglomerados, como por ejemplo municipios; y dentro de los
municipios seleccionados escoger algunas manzanas, realizar el empadronamiento
de las personas mayores de 18 a˜ nos de esas manzanas y, de ese padr´ on escoger
aleatoriamente los nombres, con sus respectivas direcciones, de las personas que
responder´an a la entrevista de favoritismo electoral.
El proceso de muestreo en varias etapas consiste en establecer una partici´on
4
del universo de votantes. Los subconjuntos que forman la partici´on se denominan,
para el muestreo, Conglomerados primarios de muestreo - CPMs. Se selecciona
una muestra probabil´ıstica de esos conglomerados y se aplica un nuevo plan de
muestra
5
al interior de cada conglomerado escogido en la primera etapa. Para una
selecci´on directa de elementos, es decir en el caso de la encuesta electoral de per-
sonas mayores de 18 a˜ nos, se necesita el padr´ on a nivel de ese conglomerado, el
que, o bien se construye o se aplica de nuevo un dise˜ no en etapas. Para conformar
una segunda etapa de muestreo en cada municipio, se realiza una partici´on, que
para el caso puede construirse a partir de barrios, comunas, sectores cartogr´afi-
cos o manzanas. Las partes que conforman esta segunda partici´on se denominan
Conglomerados secundarios de muestreo - CSMs. Se efect´ ua entonces una selec-
ci´on aleatoria de CSMs, con la mismas caracter´ısticas dadas para la selecci´on de
CPMs. Si todav´ıa se trata de segmentos geogr´aficos muy grandes para hacer un
levantamiento censal, se puede, s´ olo en los casos necesarios, proponer una terce-
4
Conjunto de subconjuntos del universo que cumplen: no ser vac´ıas, no traslaparse y su uni´ on
reconstruye el universo
5
Cada proceso de selecci´ on debe respetar los principios de independencia e invarianza mues-
tral.
44 Leonardo Bautista S.
ra etapa en la que se crean los Conglomerados terciarios de muestreo - CTMs, y
as´ı sucesivamente.
La literatura en lengua inglesa utiliza el t´ermino listing para designar el pro-
ceso por el que, se pasa vivienda por vivienda, en una manzana o en un grupo
de manzanas, escribiendo los nombres de las personas mayores de 18 a˜ nos, para
realizar despu´es, bas´andose en esa lista o padr´ on, la selecci´on probabil´ıstica de
los nombres de las personas que responder´an a la entrevista. Dicho proceso se
denomina aqu´ı empadronamiento.
El proceso metodol´ogico de selecci´on de muestra descrito, se resume entonces
en los pasos siguientes:
1. Realizar varias etapas de divisi´ on, selecci´on muestral, subdivisi´ on, selecci´on
muestral, hasta llegar a una muestra de pedazos de manzanas, de manzanas
o de grupos de manzanas.
2. Realizar el empadronamiento, es decir levantar en esos pedazos, manzanas
o grupos de manzanas la lista completa de identificaci´ on y ubicaci´ on de las
personas mayores de 18 a˜ nos aptas para votar
6
.
3. Establecer la muestra de personas, con nombre y ubicaci´ on precisas.
4. Realizar la entrevista, ´ unica y expresamente, a las personas seleccionadas en
la muestra.
La aplicaci´ on de estos cuatro pasos sin vigilar cuidadosamente todos los re-
querimientos t´ecnicos que ellos exigen, conduce a sesgos que, como se explica a
continuaci´ on, afectan la confiabilidad y pueden hacer in´ utiles los resultados del
estudio.
1.3.3. Estrategia muestral y sus criterios de calidad
El trabajo del muestrista consiste en escoger un modo de seleccionar muestras,
dise˜ no de muestra, y una f´ormula de procesamiento de los datos observados, esti-
mador, a fin de producir, al menor costo posible, un intervalo de amplitud peque˜ na,
que con alta probabilidad contenga “la verdad’, es decir el verdadero porcentaje
que se est´a estimando. A la combinaci´on de dise˜ no y estimador, [p(·),
ˆ
R(·)] se le
llama la estrategia de muestreo y al intervalo que se produce se le denomina In-
tervalo de confianza. Con esta terminolog´ıa, el objetivo del muestrista es entonces
escoger una estrategia muestral a fin de producir, a bajo costo, un intervalo de
confianza, tal que la probabilidad de que la “verdad” est´e cubierta por ´el, sea muy
alta, es decir, tal que:
P

R
y

ˆ
R
y
−z
1−
α
2

V
p
(
ˆ
R
y
) ,
ˆ
R
y
+z
1−
α
2

V
p
(
ˆ
R
y
)

= P
c
(3)
6
Se suele preguntar adem´ as por el sexo, la edad y el n´ umero telef´ onico (Bautista 2000). Se
pregunta el sexo para evitar situaciones inc´ omodas a los entrevistadores puesto que hay nombres,
de los que no se sabe si se trata de mujeres o de hombres. La edad para diferenciar, por ejemplo,
padres e hijos hom´ onimos; y el n´ umero del tel´efono para concertar citas, solicitar aclaraciones o
para realizar los operativos de supervisi´ on de campo.
Estrategia de muestreo para una encuesta electoral 45
Obviamente, sin necesidad de recurrir al muestreo estad´ıstico, se sabe que el
porcentaje de favoritismo de un determinado candidato est´a con probabilidad uno,
entre el cero y el cien por ciento. De tal intervalo se dice que es confiable porque
tiene probabilidad uno de acierto, P
c
= 1, pero que es impreciso porque apor-
ta un conocimiento in´ util. Dependiendo del dise˜ no y del estimador, es decir de
la estrategia muestral que se aplique, la probabilidad P
c
puede hacerse grande o
peque˜ na. Tambi´en la longitud del intervalo, determinada por la varianza del esti-
mador V
p
(
ˆ
R) depende de la estrategia muestral. A la probabilidad de cobertura,
P
c
, se le llama confiabilidad y a la longitud del intervalo, y por ello a V
p
(
ˆ
R), la
precisi´ on de la estrategia.
As´ı como una muestra particular entrega una estimaci´on del porcentaje de
favoritismo por un candidato, otra muestra, conformada por otros municipios,
otras manzanas u otras personas arroja una estimaci´on diferente. En general, para
cada muestra, de la inmensa cantidad te´ orica de muestras posibles, se tiene una
estimaci´on o valor del porcentaje de favoritismo por el candidato. Sobre este marco
de todas las estimaciones diferentes, cada una asociada a su muestra, que a su vez
tiene una determinada probabilidad
7
de ser extra´ıda, se define confiabilidad como
(S¨arndal et al. 2003) la suma de las probabilidades de las muestras, cuyo intervalo
de confianza cubre al valor real.
El Teorema Central de L´ımite (TCL) afirma que la distribuci´on de los prome-
dios muestrales, tiende hacia una distribuci´on Normal o campana de Gauss con
ciertos par´ ametros, a medida que el tama˜ no de muestra crece. En tal caso, la
probabilidad de cobertura, y con ella la confiabilidad se deja calcular f´acilmente, y
es igual a (1−α), con α establecido en el valor z
1−
α
2
(de la f´ormula (3)) de la tabla
de la normal est´andar. En el caso de estimaci´on de una raz´on, no se tiene una
afirmaci´ on similar a la del TCL para los promedios. La soluci´ on propuesta por la
teor´ıa estad´ıstica es aplicar el TCL a modo de aproximaci´on, con lo que la proba-
bilidad de cobertura, y por ende la confiabilidad es inferior a (1 −α). En dise˜ nos
complejos, por ejemplo de varias etapas y muestras peque˜ nas la aproximaci´on es
tan deficiente, que la verdadera probabilidad de cobertura o confiabilidad es tan
baja que hace los resultados in´ utiles
8
(McManus 2004) (Gawiser & Witt 2002).
Recurriendo de nuevo al s´ımil, meramente te´ orico, de la inmensa lista de por-
centajes estimados, uno por cada muestra posible, se espera que ellos oscilen alre-
dedor del valor real que se pretende estimar, E
p
(
ˆ
R) = R. Es decir, se espera que la
estrategia “apunte” a lo que se busca. Si las estimaciones “apuntan a otra parte”
se dice que se trata de una estrategia con sesgo. En ese caso P
c
la probabilidad
de cobertura o confiabilidad ser´a baja. En estrategias no desviadas, es decir sin
sesgo, la confiabilidad, dependiendo de la calidad de la aproximaci´on al aplicar el
TCL, se acerca a (1 −α). Cuando la estrategia tiene sesgo, la confiabilidad decre-
ce en funci´ on de la magnitud del sesgo. En muestras grandes, el muestrista debe
mantener una estricta vigilancia a fin de no introducir, o en forma m´ as realista,
7
Conocida, por cumplir la condici´ on de ser muestra probabil´ıstica
8
Una muestra de 1.200 entrevistados en las cuatro principales ciudades del pa´ıs contar´ıa, en
el mejor de los casos, con 50 mujeres de un mismo nivel socio-econ´ omico en una ciudad. Con
ese min´ usculo tama˜ no de muestra cualquier afirmaci´ on sobre preferencia electoral femenina por
estrato y ciudad no puede ser confiable.
46 Leonardo Bautista S.
a fin de controlar la mayor cantidad posible de fuentes de sesgo. El sesgo puede
provenir, entre otras fuentes, de errores del marco de muestreo, como por ejemplo
la subcobertura
9
. Tambi´en se produce por errores en el empadronamiento, como
por ejemplo el mal tratamiento de las novedades
10
. Originan sesgo, las entrevistas
diligenciadas fraudulentamente por el entrevistador, la aplicaci´ on de m´etodos de
muestreo sin el debido rigor t´ecnico que ellos exigen
11
, la utilizaci´on de factores
de expansi´on err´oneos o de f´ormulas de c´ alculo equivocadas
12
.
Una vez garantizada la mayor confiabilidad posible, el muestrista busca reducir
el tama˜ no del intervalo de confianza a fin de entregar resultados ´ utiles. En el caso
particular de una ENFEP no se necesita una muestra estad´ıstica para “saber”
de antemano, que un determinado candidato obtendr´a, por ejemplo, una votaci´on
entre el 20 y el 40 por ciento. La tarea del muestrista en una ENFEP es producir
intervalos con una longitud inferior a cinco o seis puntos porcentuales. Para el caso
de longitud igual a seis y si el porcentaje estimado es, por ejemplo, 34 %, entonces
el porcentaje verdadero de favoritismo est´a, con una alta probabilidad, garantizada
por la confiabilidad, entre (34 ±3) %, es decir entre (31 % y 37 %). Para alcanzar
este intervalo de confianza y sobre la base de que se pretende una confiabilidad
cercana al 95 %, lo que significa que la constante z
1−
α
2
= 1,96; que para efectos
pr´acticos se toma igual a 2; se debe proyectar una estrategia que cumpla:

V
p
(
ˆ
R) ≤ 0,015 ⇐⇒ V
p
(
ˆ
R) ≤ 0,000225
Volviendo al s´ımil de la tabla con todas las muestras posibles, cada muestra
con su correspondiente estimativo, lo que se pretende es que no haya mucha varia-
ci´on entre las diferentes estimaciones
13
. Para mantener la precisi´on en los rangos
deseados, el muestrista juega, entre otros, con tres aspectos b´asicos: El dise˜ no de
muestra, que es la forma probabil´ıstica como selecciona conglomerados y elemen-
tos; con la definici´on del estimador o formas de c´ alculo y con la definici´on de los
tama˜ nos de muestra
14
.
El tama˜ no de muestra adecuado depende de la configuraci´on del universo de
estudio. Cuando un candidato polariza la poblaci´ on en forma tal que casi todos
los habitantes de ciertas manzanas lo apoyan, mientras que en otros sectores nadie
votar´ıa por ´el
15
, lo conveniente desde el punto de vista de reducir la variabilidad de
9
Ausencia en mapas o listados de barrios o sectores de la ciudad construidos en los ´ ultimos
a˜ nos
10
Se denominan novedades los casos de m´ ultiples, fuera de universo y no-respuesta.M´ ultiples:
en el mapa aparece una manzana y en la realidad son varias, Fuera de universo: en el mapa
aparece una manzana con viviendas y lo que el empadronador encuentra es, por ejemplo, una
estaci´ on del sistema de transporte masivo, y la No-respuesta cuando, por ejemplo, en un edificio
de apartamentos no se obtiene permiso para conocer la cantidad de residentes.
11
Traslape en conglomerados o estratos, desatenci´ on del principio de invarianza, etc.
12
Estimadores no apropiados
13
Una estrategia para la ENFEP no ser´ıa adecuada, si al estimar el porcentaje de favoritismo
muchas muestras arrojan porcentajes del orden del 15 %, muchas otras, de la misma estrategia,
se˜ nalan favoritismo de alrededor del 35 % y otras tantas entregan tasas de favoritismo alrededor
del 60 %.
14
Se dice tama˜ nos de muestra, porque en dise˜ no de dos o m´ as etapas son varios los procesos
de selecci´ on que se deben realizar.
15
En tal caso se dice que el candidato genera correlaci´ on intracl´ asica
Estrategia de muestreo para una encuesta electoral 47
las estimaciones, es seleccionar muchas manzanas y pocas personas por manzana;
m´etodo por lo dem´as costoso frente a la alternativa de conformar la muestra, to-
mando muchas personas por manzana de algunas pocas manzanas empadronadas.
El objetivo, en el ejemplo num´erico que se viene tratando, es entonces establecer
un dise˜ no de muestra, unos tama˜ nos muestrales y unos estimadores tales que la
varianza del estimador sea menor, por ejemplo a dos diezmil´esimos.
En la mayor´ıa de los casos es relativamente complicado establecer l´ımites para
la varianza, puesto que se trata de unidades cuadradas. Por ello se acostumbra
tratar el tema de la varianza del estimador en forma relativa utilizando el concepto
de coeficiente de variaci´ on del estimador CV
p
(
ˆ
R), dado, para este trabajo, por:
CV
p
(
ˆ
R) =

V
p
(
ˆ
R)
R
(4)
lo que en el caso num´erico que se viene exponiendo y si la verdadera raz´on es
R = 0,325 equivale a decir que el CV
p
(
ˆ
R) ≤
0,015
0,325
= 0,046 = 4, 6 %.
En general, se califica la calidad de la precisi´on, en funci´ on del coeficiente de
variaci´ on, como se muestra en el cuadro 1.
Tabla 1: Calificaci´on de la calidad de la precisi´on de la estrategia muestral en
funci´ on del valor del Coeficiente de Variaci´ on CV
p
(
ˆ
R)
Valor del CV
p
(
ˆ
R) ( %) Calificaci´on de la precisi´on
Menor a 2 % Excelente
Entre 2 % y 4 % Buena
Entre 4 % y 6 % Moderada
Entre 6 % y 10 % Baja
Entre 10 % y 15 % Para usar s´ olo con mucho cuidado
Superior a 15 % No se puede publicar
Para una tasa de favoritismo del 20 % con una estimaci´on de precisi´on mode-
rada, por ejemplo, CV = 5,2 %, se estar´ıa entonces diciendo que:

V
p
(
ˆ
R) = (R)(CV
p
(
ˆ
R)) = (0,2)(0,052) = 0,0104
con lo que el intervalo de confianza tendr´ıa a cada lado una longitud igual a
(2)(0,0104) = 0,0208 = 2,1 %. Es decir que cuando se emita un estimativo
ˆ
R, el
verdadero valor estar´ıa con alta probabilidad en el intervalo [
ˆ
R ±2,1 %].
48 Leonardo Bautista S.
2. Construcci´on de la estrategia muestral
2.1. Varianza de la estrategia V
p
(
ˆ
R)
El objetivo es establecer una estrategia muestral que mantenga la varianza de
la tasa estimada de favoritismo por debajo de una determinada cota. Sin embargo,
para planificar esa estrategia es necesario conocer la tasa de favoritismo, lo cual
constituye un c´ırculo vicioso. La soluci´ on pr´actica, aplicada en general y en par-
ticular en este ejercicio, es utilizar datos completos de per´ıodos anteriores, como
si ellos constituyeran los datos desconocidos del d´ıa de hoy. Para realizar estima-
ciones referentes a las elecciones de 2002 en Colombia se toman los datos de la
elecci´ on de 1998. En ambas elecciones, estuvo el candidato Horacio Serpa como
fuerte competidor por la Presidencia.
El camino que se propone en este trabajo, es el de conformar una base de datos,
que combina la informaci´ on persona a persona del censo nacional de poblaci´ on y
vivienda de 1993 (DANE 1996) con informaci´ on electoral de la primera vuelta de
1998. La informaci´ on censal contiene la identificaci´ on de manzana, secci´on, sector
cartogr´afico, zona rural o urbana y municipio, y la informaci´ on electoral permite
reproducir los resultados de la cantidad de votantes y la cantidad de personas que,
en cada municipio votaron por el candidato Serpa en la primera vuelta de 1998.
Para ello se generan aleatoriamente para cada persona las variables y
k
, z
k
como
se se˜ nala en (1). Los valores y
k
y z
k
, as´ı generados, conducen a que la cantidad de
votantes y de votos por Serpa son acordes a los resultados reales de 1998, tanto
a nivel de municipio
16
como para el total del pa´ıs, y proveen una base ficticia de
distribuci´on de votantes y partidarios de Serpa, por sector, secci´on y manzana.
Esta configuraci´on de datos cumple un importante supuesto pero desatiende otro
igualmente importante.
La generaci´on aleatoria de valores y
k
, z
k
en forma separada e independiente al
interior de cada municipio respeta la fuerte correlaci´on intracl´ asica del conglomera-
do “Municipio”. Sin embargo, la generaci´on aleatoria al interior de los municipios,
sin considerar niveles socio-econ´omicos, sexo, edad o niveles culturales de la pobla-
ci´on, est´a suponiendo que la votaci´on por Serpa sigue, al interior de los municipios,
un patr´ on de muy baja correlaci´on intracl´ asica. Es decir, que no se concentra en
determinados sectores poblacionales. Para subsanar este defecto, en la parte final
del trabajo, se realiza la prueba de la estrategia propuesta, concentrando la vota-
ci´on y el favoritismo en ciertas partes del municipio para producir valores altos de
correlaci´on intracl´ asica entre las secciones cartogr´aficas.
Al utilizar los resultados electorales de 1998 con la base de datos del censo de
1993 se respeta la estructura de manzanas, secciones, sectores, y la clasificaci´on
urbano-rural pero no se contempla el crecimiento poblacional de esos cinco a˜ nos, de
forma tal que se reproducen los resultados de votaci´on y favoritismo por Serpa y se
supone que las partes no estudiadas, por no disponer de informaci´ on actualizada,
se comportan, sencillamente, como el resto del municipio.
16
Tan s´ olo en alg´ un municipio muy peque˜ no y marginal sucede que la cantidad de adultos en
1993 es menor que la de votantes en 1998.
Estrategia de muestreo para una encuesta electoral 49
Con la base de datos as´ı construida se busca la mejor estrategia que cumpla una
determinada cota para la varianza de
ˆ
R. Por tratarse de la estimaci´on de una raz´on,
el c´ alculo de la varianza de la estimaci´on se obtiene mediante la aproximaci´on de
Taylor, y para ello es necesario construir la transformada:
u
k
=
1
N
z
(y
k
−Rz
k
) (5)
con lo que, la varianza que se busca queda dada por:
V
p
(
ˆ
R) =
¸¸
UI

Iij
t
uUi
π
Ii
t
uUj
π
Ij
+
¸
UI
V
i
π
Ii
(6)
donde:
U
I
es el conjunto de conglomerados primarios de muestreo (municipios),

Iij
= π
Iij
−π
Ii
π
Ij
con π
Ii
y π
Iij
las probabilidades de inclusi´on de
primero y segundo orden del dise˜ no muestral de CPMs,
t
uUi
es la suma en el i-´esimo CPM (municipio) de las transformadas, es decir
t
uUi
=
¸
Ui
u
k
V
i
es la varianza al interior del i-´esimo municipio, lo que significa realizar de
nuevo el c´ alculo de la varianza en varias subetapas.
Con los y
k
y z
k
generados para la poblaci´ on completa se construye la transfor-
mada (5), que para el caso individual, asume s´ olo tres valores:
u
k
=

0 si z
k
= 0 ya que entonces todo y
k
= 0
1
N
z
(1 −R) si y
k
= 1 y z
k
= 1
1
N
z
(−R) si y
k
= 0 y z
k
= 1
La suma de los valores u
k
al interior del i-´esimo municipio es igual a:
t
uUi
=
¸
Ui
u
k
=
¸
Uyi
1
N
z
(1 −R) +
¸
Uzi∩U
c
yi
1
N
z
(−R)
=
N
zi
N
z
(R
i
−R)
(7)
donde N
zi
es la cantidad de votos emitidos en el municipio, t
z
la cantidad nacional
de votos, R
i
la proporci´ on de favoritismo por Serpa en el municipio y R la tasa
nacional de favoritismo por el mismo candidato. Este total se hace igual a cero, si
la tasa municipal de favoritismo R
i
es igual a la tasa nacional R, lo que ocasiona
que algunos municipios grandes aporten poco a la varianza total de la estrategia,
mientras que otros, con menos votaci´on, pero con una marcada tendencia a favor
o en contra de Serpa, logran valores, positivos o negativos, lejanos de cero.
50 Leonardo Bautista S.
2.2. Primer escenario:
muestreo aleatorio simple de municipios
Como ya se mencion´ o, no hay posibilidad, por carencia del necesario marco de
muestreo, de realizar un muestreo directo de elementos. Pero, como es sabido, la
varianza de la estrategia crece a medida que se adicionan etapas al dise˜ no. La op-
ci´on es intentar un dise˜ no con tan pocas etapas como sea viable. Se comienza por
definir el conglomerado muestral de primer orden, que conviene estudiar, y puesto
que, al interior del conglomerado es necesario realizar un empadronamiento se bus-
ca, en consecuencia un conglomerado de tama˜ no peque˜ no. Para la definici´on del
conglomerado primario de muestreo, el menor nivel, sobre el que se tiene informa-
ci´on id´ onea es el municipio, que es el CPM escogido en esta propuesta. La primera
idea de dise˜ no muestral es, realizar una muestra aleatoria simple de municipios.
La f´ormula de la varianza debida a la primera etapa, que le corresponde a este
dise˜ no es:
V
ET1−MAS
(
ˆ
R) =
N
2
I
n
I
(1 −
n
I
N
I
)S
2
tuUI
=
N
2
I
n
I
(1 −
n
I
N
I
)
1
N
I
−1
¸
UI
(t
uUi

¯
t
UI
)
2
pero como
¯
t
UI
=
¸
U
u
k
N
I
= 0 ⇒ S
2
tuUI
=
1
N
I
−1
¸
UI
(t
uUi
)
2
con lo que los municipios que m´ as aportan a la varianza de la estrategia son aquellos
con mayor valor absoluto de t
uUI
. Con este dise˜ no se requerir´ıa una muestra de
cerca de 600 municipios para alcanzar un CV cercano al 4 % (V´ease cuadro 2).
Tabla 2: Coeficiente de variaci´ on CV
p
(
ˆ
R) alcanzado por la primera etapa seg´ un el
tama˜ no de muestra propuesto utilizando un dise˜ no MAS en la primera etapa
Tama˜ no de la muestra de la primera etapa CV
1−MAS
(
ˆ
R)
Cantidad de municipios a seleccionar ( %)
720 3,02
585 4,04
475 5,03
385 6,03
315 7,03
260 8,03
La dispersi´on de los valores |t
uUI
| es tan alta que los resultados conducen
r´apidamente a la necesidad de considerar estrategias diferentes a la del MAS para
Estrategia de muestreo para una encuesta electoral 51
la primera etapa. Para el dise˜ no muestral de la primera etapa, es decir, para la
selecci´on de municipios, se tienen entonces dos posibilidades: realizar una muestra
con probabilidad proporcional al tama˜ no de

t
uUI

o estratificar los municipios. El
dise˜ no P.P.T. es tenido en cuenta y resulta, desde el punto de vista de la varianza,
ligeramente mejor que la estrategia de crear estratos, pero en la pr´actica presenta
complicaciones operativas que no se tienen cuando se escoge la opci´on del dise˜ no
estratificado.
2.3. Segundo escenario: estratificaci´on de municipios
La mayor fuente de variaci´ on, para el caso de la estimaci´on de la raz´on con
dise˜ no multiet´ apico, se origina en la fuerte asimetr´ıa de los totales

t
uUI

, (ver
(7)), de los algo m´ as de mil municipios del pa´ıs. Hay valores muy grandes de

t
uUI

, que superan las 500 millon´esimas hasta Bogot´a, en la que t
uUI
= 11,684
millon´esimas. Para ese grupo se obtendr´ıa una importante reducci´ on de la varianza
del estimador, si se re´ unen en un estrato, en el que se estudian todos los municipios
que lo conforman. Los valores altos de

t
uUI

corresponden a municipios en los que
se combinan dos aspectos: un tama˜ no ampl´ıo y un comportamiento de favoritismo
por el candidato Serpa diferente al porcentaje nacional. N´otese que un municipio,
por grande que sea, si se comporta porcentualmente como el total del pa´ıs, es decir
R
i
= R, no aporta a la varianza del estimador, puesto que su suma t
uUi
se vuelve
cero, y no hace parte de este primer estrato.
Hay valores de

t
uUI

m´ as modestos que los mencionados anteriormente, que
oscilan entre dos y 500 millon´esimas, que podr´ıan dar origen a uno o m´ as estra-
tos de municipios. Por ´ ultimo hay muchos valores de

t
uUI

muy cercanos a cero,
desde dos millon´esimas hasta fracciones de millon´esimas, que aportan muy poco
a la varianza general. De este grupo de municipios se puede seleccionar s´ olo unos
muy pocos para reducir costos, sin incrementar en gran medida la varianza del
estimador. La propuesta metodol´ogica es, en conclusi´on, aplicar un dise˜ no estra-
tificado del tipo IF - ESTMAS - UNO, es decir, se investigan todos los municipios
del primer estrato, se extraen muestras MAS en los estratos intermedios y en el
´ ultimo estrato se extrae un ´ unico municipio.
Para estratificar se trabaja primero con una variaci´ on al m´etodo propuesto
por Hidiroglou (Hidiroglou 1986) para la conformaci´on de un estrato de inclusi´on
forzosa y otro de dise˜ no MAS. La ganancia de precisi´on, respecto al escenario
MAS, es ya muy importante. Para conseguir un CV de primera etapa del 5 %, el
m´etodo sugerido como variaci´ on al propuesto por Hidiroglou pide un tama˜ no de
muestra de 55 municipios, mientras que para alcanzar esa precisi´on, el dise˜ no MAS
exige n = 480.
Se prueba luego, en forma an´aloga, una variaci´ on al m´etodo de Lavall´ee (Lavall´ee
& Hidiroglou 1988) para la conformaci´on de un estrato de inclusi´on forzosa y va-
rios de dise˜ no MAS. Sin embargo esta variaci´ on no contempla la posibilidad de
un ´ ultimo estrato con un ´ unico elemento en la muestra. Se procede entonces a
la aplicaci´ on de un m´etodo de iteraci´on computacional de c´ alculo de varianza de
primera etapa, variando las configuraciones de estratificaci´ on. El mecanismo para
52 Leonardo Bautista S.
determinar la configuraci´on de estratificaci´ on que provee la menor varianza del
estimador de la tasa de favoritismo, es el siguiente:
1. Se ordenan los registros de los 1016 municipios en forma descendente respecto
al cuadrado de la suma de sus valores de la transformada u
k
. Es decir se
ordenan los municipios en forma descendente respecto a:
t
2
uUi
=
¸
Ui

1
t
z
(y
k
−Rz
k
)

2
2. Para un tama˜ no global de muestra n
I
, se calcula la varianza, debida a la pri-
mera etapa, que genera la estratificaci´ on construida de la siguiente manera:
Un primer estrato con dise˜ no de inclusi´on forzosa de tama˜ no N
IF
Un segundo estrato con dise˜ no MAS(N
I2
, n
I2
), y
Un tercer estrato con dise˜ no MAS(N
I3
, 1)
En este primer ejercicio, con tres estratos, la varianza del estimador de la
raz´on depende de tres par´ ametros: El tama˜ no de muestra n
I
, el tama˜ no del
estrato de inclusi´on forzosa N
IF
con lo que, por diferencia, queda definido
el tama˜ no n
I2
= n
I
− N
IF
− 1, y el tama˜ no del segundo estrato N
I2
que
determina el tama˜ no N
I3
= 1016 −N
IF
−N
I2
.
3. Una vez realizados los c´ alculos de varianza para combinaciones de los tres
par´ ametros se escoge aquella configuraci´on que para un tama˜ no de muestra
produce la menor varianza.
El largo trabajo computacional se recompensa con la fuerte reducci´ on alcanza-
da para la varianza del estimador. La varianza se reduce a la cuarta parte respecto
al caso MAS, como se puede observar en la tabla 3.
El siguiente paso es considerar la configuraci´on en cuatro estratos y compararla
con la de tres estratos
17
. En tal caso se tienen m´ as par´ ametros y por ende m´ as
c´ alculos que realizar, pero dentro de la misma l´ ogica de programaci´ on. Luego se
estudia el caso de cinco estratos. El crecimiento de la cantidad de par´ ametros
hace que la cantidad de c´ alculos crezca en forma exponencial, pero sigue siempre
id´entica estrategia de programaci´ on.
El resultado es que con tres estratos se mejora bastante la propuesta basada
en la variaci´ on al m´etodo de Hidiroglou, con cuatro estratos se obtiene una leve
ganancia frente a la configuraci´on con tres estratos, y con cinco estratos crece
el grado de complejidad, mientras la ganancia, en t´erminos de varianza es muy
peque˜ na. La decisi´on final de esta propuesta es adoptar el plan de cuatro estratos.
El ejercicio arroja una varianza debida a la primera etapa, equivalente a un
CV
p
(
ˆ
R) = 3,8 %, tomando una muestra de ochenta municipios, distribuida as´ı:
17
El c´ alculo de las varianzas variando configuraciones y tama˜ nos de muestra en cuatro estratos
tarda algo m´ as de dos horas, realizando c´ alculos con el paquete de procesamiento estad´ıstico SAS
versi´ on 8.2- Computador Pentium 4R- CPU 2,6 GHz, 512 MB RAM.
Estrategia de muestreo para una encuesta electoral 53
Tabla 3: Coeficiente de variaci´ on CV
p
(
ˆ
R) alcanzado por la primera etapa, seg´ un el
tama˜ no de muestra propuesto, cuando se utilizan dise˜ nos MAS, y ESTMAS con
tres, cuatro y cinco estratos en la primera etapa
n
I
MAS E=3 E=4 E=5
50 20,7 5,63 5,39 5,31
60 18,8 4,89 4,72 4,67
70 17,3 4,31 4,22 4,21
80 16,1 3,92 3,85 3,83
90 15,1 3,67 3,51 3,53
100 14,3 3,35 3,27 3,29
110 13,5 3,14 3,06 3,04
120 12,9 2,96 2,86 2,86
130 12,3 2,81 2,70 2,66
140 11,8 2,64 2,51 2,52
150 11,3 2,50 2,39 2,36
Un primer estrato de inclusi´on forzosa con 21 municipios, que contempla el
45 % de los votantes del pa´ıs.
Un segundo estrato con 144 municipios, de los cuales se estudian 44 (uno de
cada tres) y que recogen el 22 % de la votaci´on nacional.
Un tercer estrato con 610 municipios, de los cuales se visitan catorce (aprox.
dos de cada cien) y que aportan el 25 % de los votos.
El ´ ultimo estrato con 241 municipios, que totalizan el 8 % de la votaci´on, y
de ellos s´ olo uno ser´a seleccionado para la muestra de la primera etapa.
El estrato de inclusi´on forzosa recoge los principales municipios del pa´ıs, aun-
que al final de la lista aparecen algunas sorpresas y faltan otros, que si el criterio
fuera s´ olo tama˜ no, all´ı deber´ıan aparecer, pero como se se˜ nal´o anteriormente, pre-
sentan un porcentaje similar al nacional, que los convierte en poco interesantes
desde la perspectiva muestral. La lista de los municipios que conforman el estrato
es: Bogot´a, Cali, Buenaventura, Medell´ın, Envigado, Bello, Itag¨ u´ı, Barranquilla,
Soledad, Bucaramanga, Barrancabermeja, Pereira, Dosquebradas, Manizales, Car-
tagena, Monter´ıa, Valledupar, Sincelejo, Villavicencio, Quibd´o y Pasto.
2.4. Muestra al interior de los municipios
En los municipios no es viable la construcci´ on de un marco de personas mayores
de 18 a˜ nos, lo que obliga a pensar en dise˜ nos en varias etapas y con tan pocas
etapas, como sea posible. Sin embargo, se debe considerar, a la vez, otro aspecto
fundamental, el costo. Se construyen f´acilmente ejemplos en los que se obtiene igual
varianza, cuando se estudian muchas manzanas y pocas personas por manzana, que
54 Leonardo Bautista S.
cuando se toman muestras con pocas manzanas y muchas personas por manzana,
sin embargo el costo de las dos estrategias puede ser muy diferente. El costo global
de una muestra en varias etapas depende de dos costos bien diferentes, el costo
de construcci´ on del marco para la ´ ultima etapa y el costo de entrevista para la
medici´on propiamente dicha. Para este ejercicio se aplica un costo C
1
para la
construcci´ on de la lista de una manzana de tama˜ no promedio y para la realizaci´ on
de diez entrevistas directas y efectivas de preferencia electoral
18
.
En la mayor´ıa de las ciudades del primer estrato no parece conveniente pasar
directamente a la selecci´on de manzanas, por los costos asociados a los despla-
zamientos entre ellas. Aunque la inclusi´on de una etapa adicional genera mayor
varianza, para reducir dispersi´on en cada una de esas ciudades, se propone seleccio-
nar primero sectores cartogr´aficos, mediante el algoritmo de Fan-Muller-Rezucha.
Dentro de los sectores seleccionados escoger manzanas, con el mismo algoritmo.
Construir el padr´ on en cada manzana de la muestra, para escoger de all´ı, tambi´en
con el mismo algoritmo, la muestra de personas a entrevistar. En los municipios de
los restantes tres estratos la propuesta es seleccionar directamente manzanas y en
la siguiente etapa seleccionar personas. Se llega de esta manera a la propuesta de
una estrategia muestral estratificada, con un estrato de inclusi´on forzosa y dise˜ no,
a su interior en tres etapas. Otros tres estratos con dise˜ no en tres etapas, selecci´on
de municipios, mediante MAS, selecci´on de manzanas, mediante MAS y selecci´on
de personas, tambi´en con MAS, es decir, dise˜ no MAS
3
(Bautista 1998).
2.5. Resultado final:
Dise˜ no muestral para la elecci´on de 2002
El resultado de este ejercicio establece que el dise˜ no final de muestra en cua-
tro estratos y tres etapas para la estimaci´on de la tasa de favoritismo electoral
en Colombia en la elecci´ on de 2002 para alcanzar una precisi´on equivalente a
CV
p
(
ˆ
R) = 5,1 % queda conformada as´ı:
Grandes ciudades: 21 de 21 municipios; uno de cada 20 sectores cartogr´afi-
cos, m´ınimo dos por municipio, 60 % de las manzanas por sector y una de
cada 25 personas por manzana.
Ciudades intermedias: 44 de 144 municipios, 10 % de las manzanas por
municipio y una de cada 25 personas por manzana.
Municipios peque˜ nos: 14 de 610 municipios, 60 % de las manzanas por
municipio y una de cada 25 personas por manzana.
Municipios muy peque˜ nos y alejados: 1 de 241 municipios, 60 % de las
manzanas por municipio y una de cada 25 personas por manzana.
Total Nacional: 80 municipios, 106 de los 2134 sectores de las 21 ciudades,
aproximadamente 6.200 manzanas y alrededor de 15.000 personas.
18
La equivalencia una manzana empadronada cuesta lo mismo que diez entrevistas efectivas,
es un par´ ametro determinante de los resultados finales obtenidos.
Estrategia de muestreo para una encuesta electoral 55
De esta muestra se puede se˜ nalar:
El tercer estrato es el que m´ as aporta a la varianza global de la estimaci´on. Un
aumento de la cantidad de municipios a seleccionar puede elevar mucho los costos
operativos. Sin embargo, se podr´ıa intentar obtener alguna ventaja mediante la
construcci´ on de “rutas”, es decir, la reuni´on dentro de un mismo conglomerado de
municipios peque˜ nos con cercan´ıa geogr´afica. Esto implicar´ıa una etapa adicional,
en ese estrato, y habr´ıa que evaluar con cuidado, si la ganancia global de precisi´on
tiene relaci´on con el incremento de costos.
Los ensayos realizados en el sentido de incrementar la muestra de municipios del
´ ultimo estrato muestran que con m´ as de un municipio no se aporta pr´acticamente
nada al mejoramiento de la varianza global de la estimaci´on.
La decisi´on de tomar una proporci´ on tan peque˜ na de sectores en las grandes
ciudades, uno de cada veinte, parece inadecuada si en la elecci´ on presidencial
se presenta una fuerte concentraci´ on de opini´ on por sectores. De hecho, muchos
sectores son homog´eneos en el sentido de que su poblaci´ on es socio-econ´omicamente
del mismo nivel, toda ella es pobre, media o de nivel alto. Si alg´ un candidato
presidencial logra agrupar favoritismo y rechazo en forma marcada seg´ un el nivel
socio-econ´omico, la muestra de sectores deber´ıa ser un poco mayor.
La proporci´ on de manzanas por sector y municipio parece alta, a la vez que la
proporci´ on de personas por manzana es relativamente baja, lo que implica que el
costo de construcci´ on del padr´ on est´a siendo desaprovechado por la cantidad baja
de entrevistas por manzana. La raz´on de esta decisi´on se basa en el supuesto de
que la correlaci´on intracl´ asica, es decir la homogeneidad de opini´ on al interior de
la manzana puede ser alta, sin embargo mucho m´ as determinante y cierto es el
supuesto de alta correlaci´on intracl´ asica en lo referente a si se participa o no en el
comicio electoral.
Aunque se tratar´ıa de una variaci´ on al dise˜ no, se puede pensar que con un ´ unico
padr´ on y siguiendo un plan de muestras replicadas en varias fases y traslapando
algunas partes de las muestras, se podr´ıan hacer mediciones de opini´ on electoral
en seis a ocho momentos diferentes a modo de seguimiento en panel; en tal caso
habr´ıa necesidad de ampliar un poco la muestra de manzanas para compensar el
efecto que sobre la varianza tiene el hecho de aplicar un dise˜ no en fases.
2.6. Prueba de la estrategia propuesta
Para probar la calidad de la muestra as´ı dise˜ nada, se procede al siguiente
ejercicio: Se utiliza la informaci´ on municipal de votaci´on y de favoritismo por
´
Alvaro Uribe en 2002 para generar una base de datos similar a la Serpa 1998
generando aleatoriamente para cada persona si vot´o o no y si lo hizo o no por Uribe
en 2002. De esa base se retiran las personas pertenecientes a sectores rurales, previa
construcci´ on del respectivo factor de ajuste
19
. Sobre ese universo as´ı establecido,
se aplica la estratificaci´ on, los tama˜ nos y las formas de selecci´on establecidas en
19
El supuesto que sustenta esta decisi´ on es que el comportamiento rural de cada municipio es
similar al urbano de ese mismo municipio.
56 Leonardo Bautista S.
la propuesta planteada.
Se procede entonces a realizar en forma computacional (v´ease anexo 2), quinien-
tas repeticiones independientes del proceso completo, que abarca desde la selecci´on
de municipios, la selecci´on de personas
20
y la estimaci´on del porcentaje de votos
que seg´ un la muestra le corresponden a los candidatos. r Los resultados obtenidos,
sabiendo que la tasa final de favoritismo con la que gan´ o A. Uribe en 2002 en el
pa´ıs fue 53,87 %, son los siguientes:
Cantidad de repeticiones independientes = 500
Promedio de las estimaciones de las 500 r´eplicas = 0,5383= 53,83 %
Porcentaje de r´eplicas con estimaci´on superior al 50 % = 96 %
Varianza estimada de la estrategia = 0.000443
Confiabilidad estimada, es decir porcentaje de r´eplicas en las que
0, 5387 = R
y

ˆ
R
y
± z
1−
α
2

ˆ
V
p
(
ˆ
R
y
)

ˆ
R
y
± (2)

0,000443

ˆ
R
y
± 0, 042084

= 94, 8 %
Coeficiente de variaci´ on estimado c.v.e = 3,9 %
Cantidad media de manzanas a enlistar = 6.110
Cantidad media de personas a entrevistar = 14.530
Es evidente que s´ olo, con muy mala suerte se obtendr´ıa una muestra con la que
se afirmar´ıa, antes de las elecciones, que habr´ıa segunda vuelta. En el 96 % de los
casos, la muestra as´ı dise˜ nada habr´ıa pronosticado el triunfo inmediato del candi-
dato Uribe. La confiabilidad estimada es casi del 95 %, lo que no es necesariamente
sorprendente, puesto que, se trata de un ejercicio de c´ omputo, en el que no se in-
troducen los sesgos frecuentes en los operativos de campo. La precisi´on obtenida
es equivalente a un c.v.e. de 3,9 % que dista algo del CV programado y equivalente
a 5,1 %. La causa de esta diferencia radica en que la muestra dise˜ nada utiliza como
base la informaci´ on referente al candidato H. Serpa, quien en la primera vuelta de
1998 obtuvo s´ olo 34,3 % del favoritismo, mientras que en el ejercicio presentado,
el candidato Uribe obtuvo el 53,8 % del favoritismo. Puesto que tanto el CV como
su estimaci´on el c.v.e son medidas relativas, es decir, tienen como denominador
la tasa de favoritismo, ellas toman valores bajos para tasas altas y valores altos
20
El proceso de seleccionar aleatoriamente 59 municipios de los estratos 2, 3 y 4; seleccionar 106
secciones, cerca de seis mil manzanas y alrededor de 15.000 personas, siempre con el algoritmo
de Fan-Muller-Rezucha, y realizar la estimaci´ on pedida se realiza en 51.8 segundos. Las 500
repeticiones de este proceso tarda 7,2 horas, con las especificaciones de hardware y software
se˜ naladas anteriormente.
Estrategia de muestreo para una encuesta electoral 57
para tasas peque˜ nas
21
. La muestra propuesta resulta insuficiente para estimar con
confiabilidad y precisi´on la tasa de favoritismo de los candidatos que ocuparon el
tercer y cuarto lugar en la elecci´ on de 2002. Es natural, que trat´ andose de por-
centajes tan bajos, 6,3 % y 6,0 % respectivamente, las muestras necesarias sean
considerablemente grandes
22
.
La muestra propuesta tiene el inconveniente, m´ as te´ orico que pr´actico, de no
entregar un tama˜ no de muestra relativamente constante, que haga posible una
aproximaci´on al costo total del operativo. Puesto que el plan muestral toma porcen-
tajes de manzanas en los municipios seleccionados y ellos var´ıan en cada muestra
de primera etapa, la cantidad de manzanas a empadronar termina siendo variable.
De igual manera, la cantidad de personas a entrevistar depende del tama˜ no de las
manzanas, que aleatoriamente se seleccionen en la muestra de la segunda etapa.
El ejercicio realizado se˜ nala que en el 76 % de los casos la cantidad de manzanas
a empadronar es una cantidad entre 5.500 y 6.700 y en el 80 % de las r´eplicas se
deben entrevistar entre trece y diecis´eis mil personas.
2.7. Aplicaci´on de la metodolog´ıa propuesta para las
elecciones presidenciales de 2006
Si en 2006, el Presidente
´
Alvaro Uribe, vuelve a ser candidato a la Presidencia
de la Rep´ ublica, se estar´ıa en un caso similar a lo sucedido con Serpa 1998-2002.
As´ı como se utilizan los datos de Serpa 1998, para el dise˜ no de la muestra 2002,
se pueden utilizar los datos de Uribe 2002, para el dise˜ no de una posible muestra
para una ENFEP-2006. Se siguen entonces los mismos pasos y se llega al siguien-
te resultado global, el que para poder ser considerado como plan muestral final,
deber´ıa ser trabajado y presentado con mayor detalle.
Se particiona el conjunto de municipios del pa´ıs en cuatro estratos, el primero
con dise˜ no de inclusi´on forzosa, y tres de inclusi´on probabil´ıstica. Las elecciones
de 2002 estuvieron marcadas, a diferencia de lo sucedido en los comicios anterio-
res, por una fuerte polarizaci´on del favoritismo en los municipios. Esa polarizaci´on
genera un fuerte crecimiento del estrato de inclusi´on forzosa, una importante re-
ducci´ on del segundo estrato y una mayor concentraci´ on muestral en ´el. Es decir,
en la muestra de la ENFEP-2002 eran necesarios, en el segundo estrato, 44 de 144
municipios, algo m´ as de uno por cada tres, para la ENFEP-2006 se necesitan 19
de 42 municipios. El estrato de inclusi´on forzosa que antes estaba conformado por
21 municipios, contiene ahora 38 municipios, lo que significa un crecimiento del
80 %. Para las elecciones el 2006 entrar´ıan en el dise˜ no muestral que aqu´ı se propo-
ne, de manera segura en la muestra, los municipios: Bogot´a, Cali, Buenaventura,
Tul´ ua, Cartago, Medell´ın Envigado, Bello, Itag¨ u´ı, Rionegro, Barranquilla, Sole-
dad, Cartagena, C´ ucuta, Bucaramanga, Gir´on, Floridablanca, Barrancabermeja,
Manizales, Pereira, Dosquebradas, Santa Rosa de Cabal, Armenia, Santa Marta,
21
Realizado el mismo ejercicio para estimar los resultados del candidato Serpa se obtuvo un
promedio de 31,5 % contra 32,4 % realmente obtenido y un c.v.e de 5,9 %.
22
Aun mayor deben ser las muestras necesarias para la estimaci´ on de la tasa nacional de
favoritismo de candidatos al Senado de la Rep´ ublica
58 Leonardo Bautista S.
Ci´enaga, Riohacha, Maicao, Monter´ıa, Sahag´ un, Valledupar, Sincelejo, Quibd´o,
Ibagu´e, Soacha, Villavicencio, Sogamoso, Puerto Tejada y Pasto.
El tercer estrato contiene ahora 594 municipios, y de ´el se extraen 27 muni-
cipios. En este estrato se encuentran a´ un algunas capitales departamentales im-
portantes, como Neiva, Popay´an y Florencia. El ´ ultimo estrato contiene los 342
municipios m´ as peque˜ nos y de ´el se extrae un ´ unico municipio. En total, la muestra
para la primera etapa de la ENFEP-2006 es de 85 municipios.
El crecimiento de la muestra en los dos primeros estratos implica un crecimiento
en la cantidad de manzanas a empadronar. Los municipios que componen el primer
estrato tienen tama˜ nos muy diferentes lo que sugiere un tratamiento particular de
la cantidad de sectores a seleccionar en cada municipio. Se crean entonces cinco
grupos de municipios. Bogot´a, que conforma el primer grupo y ciudad, para la
que se propone una muestra de tres por cada veinte sectores cartogr´aficos. Cali,
que conforma el segundo grupo, para la que, en la muestra se toma el 20 % de
los sectores. Luego los municipios con m´ as de 70 sectores, en ellos la muestra es
el 25 % de sus sectores. El grupo cuatro lo conforman los municipios que tienen
entre quince y setenta sectores. En ellos la muestra es la mitad de sus sectores. El
quinto grupo, aquellos municipios con menos de quince sectores, en los que todos
sus sectores hacen parte de la muestra de la segunda etapa.
Para los sectores de los municipios del primer estrato se propone, entonces,
una muestra en la tercera etapa, equivalente a dos de cada veinticinco manzanas.
En los municipios seleccionados en el estrato dos se toma una muestra de manza-
nas, de tama˜ no equivalente a empadronar tres de cada veinte. En los municipios
seleccionados de los estratos tres y cuatro, se empadronan siempre la mitad de las
manzanas residenciales. Para todos los casos, la propuesta global, que bien podr´ıa
ser afinada a fin de reducir costos, es tomar una de cada treinta personas, o lo
que equivale a un promedio de 2,5 personas por manzana. Con estos valores de
tama˜ nos de muestra se concluye en una muestra global de cerca de 6.400 manzanas
y 15.800 personas a entrevistar. Con esta propuesta se consigue un CV de 2,8 %
para el porcentaje de 53,9 % que obtuvo el candidato Uribe en 2002. Se trata, sin
duda, de tama˜ nos conservadores, y el coeficiente de variaci´ on propuesto puede ser
calificado de ambicioso. Sin embargo, vale la pena considerar con anticipaci´on al-
gunos comportamientos pol´ıticos, que tienen efecto estad´ıstico importante, y que
pueden terminar se˜ nalando dichos tama˜ nos de muestra como apropiados.
Es posible que el candidato Uribe no obtenga, en la primera vuelta de la elec-
ci´on de 2006, una votaci´on tan voluminosa como en 2002. Si el favoritismo llega, en
esta elecci´ on alrededor del 40 %, se estar´ıa ante un coeficiente de variaci´ on cercano
al 4 %. De otra parte, se debe considerar que si la polarizaci´on pol´ıtica de los muni-
cipios es atribuible, en buena parte al candidato Uribe y sus propuestas pol´ıticas,
dicha polarizaci´on se puede presentar tambi´en y en forma marcada entre diferentes
niveles socio-econ´omicos. Este fen´omeno puede ser mucho m´ as fuerte, dependiendo
del o los candidatos m´ as importantes que se opongan a ´el en la elecci´ on. Desde
el punto de vista estad´ıstico, el efecto de dicha polarizaci´on es la elevaci´ on de la
correlaci´on intracl´ asica a nivel de sectores cartogr´aficos y de manzanas. En con-
secuencia es necesario tomar muestras con m´ as manzanas y pocas personas por
Estrategia de muestreo para una encuesta electoral 59
manzana, como la propuesta que aqu´ı se discute. Obviamente, si se anticipa que
ninguno de estos dos fen´omenos se presentar´ a en la elecci´ on, podr´ıan hacerse al-
guna reducciones importantes en cantidad de manzanas a empadronar y personas
a entrevistar.
A. Anexo 1
Tabla 4: Cantidad de municipios seg´ un porcentaje de votos para Andr´es Pastrana
en la segunda vuelta de 1994 (filas) cruzado con sus resultados en la 2a vuelta
1998 (columnas)
68,4 % 54,7 % a 37,1 % a 0 a
Total ´o m´as 68,3 % 54,6 % 37 %
Total 1019 250 250 250 269
71,7 % ´o m´as 250 221 28 1
48,5 % a 71,6 % 250 28 172 50
31,5 % a 48,4 % 250 1 47 150 52
0 a 31,4 % 269 3 49 217
Tabla 5: Cantidad de municipios seg´ un porcentaje de votos para Horacio Serpa en
la segunda vuelta de 1998 (filas) cruzado con sus resultados en 2002 (columnas)
0 a 19 % a 35,3 % a 55 %
Total 18,9 % 35,2 % 54,9 % ´o m´as
Total 1019 250 250 250 269
0 a 25,1 % 250 189 53 8
25,2 % a 45,2 % 250 47 125 71 7
45,3 % a 62,9 % 250 9 50 106 85
63 % ´o m´as 269 5 22 65 177
Tabla 6: Cantidad de municipios seg´ un porcentaje de votos para Andr´es Pastrana
en la segunda vuelta de 1994 (filas) cruzado con los resultados de
´
Alvaro Uribe en
2002 (columnas)
62,2 % 46,2 % a 32,1 % a 0 a
Total ´o m´as 62.1 % 46,1 % 32 %
Total 1019 250 250 250 269
71,7 % ´o m´as 250 154 63 27 6
48,5 % a 71,6 % 250 59 98 62 31
31,5 % a 48,4 % 250 24 55 91 80
0 a 31,4 % 269 13 34 70 152
60 Leonardo Bautista S.
B. Anexo 2
L´ ogica de programaci´ on para la generaci´ on de quinientas repeticiones
de selecci´on de muestra y estimaci´on de la tasa de favoritismo, para la
elecci´ on presidencial de 2002
Paso 1. Se fija que en los 120 municipios m´ as grandes, se presenta el fen´omeno
de correlaci´on intracl´ asica en las secciones cartogr´aficas. El 30 % de las
secciones de esos 120 municipios se denominan de tipo a y el resto, de
tipo b. En en los dem´as municipios todas las secciones son de tipo c.
Paso 2. Para cada uno de los 19.109.852 registros se genera aleatoriamente un
valor z
k
, igual cero o uno de la siguiente forma: si el individuo pertenece
a una secci´on tipo a, se hace z
k
= 1 con probabilidad igual al cociente
entre el 23 % de la votaci´on total del municipio en 2002 y la poblaci´ on
mayor de 18 a˜ nos en el municipio.Si el registro pertenece a una secci´on
tipo b, se hace z
k
= 1 con probabilidad igual al cociente entre el 77 % de
la votaci´on total y la poblaci´ on del municipio. Si el individuo pertenece a
una secci´on tipo c, se hace z
k
= 1 con probabilidad igual al cociente entre
votaci´on y poblaci´ on total del municipio.
Paso 3. Para cada uno de los registros se genera aleatoriamente un valor y
k
, igual
cero o uno concentrando el 15 % de la votaci´on por Uribe en las secciones
tipo a y el 85 % en las secciones tipo b. Si el registro es de una secci´on
tipo c, se hace y
k
= 1 con probabilidad igual al cociente entre la votaci´on
por Uribe en 2002 y la cantidad de votos v´alidos en ese municipio en dicha
elecci´ on.
Paso 4. Para cada municipio se establecen los valores de los tama˜ nos muestrales
sectxmpio, manzxsect, manzxmpio y persxmanz, de acuerdo al plan mues-
tral propuesto, se crea el factor de correcci´ on por ruralidad y se eliminan
los datos correspondientes a las zonas rurales.
Paso 5. Se establece para cada municipio, cada sector y cada manzana el tama˜ no
espec´ıfico de muestra que le corresponder´ıa si fuera seleccionado, ordena
los registros siguiendo la jerarqu´ıa de selecci´on: estrato, municipio, sector,
manzana y persona; y procede a la numeraci´on, necesaria para poder apli-
car el algoritmo de Fan-Muller-Rezucha (S¨arndal et al. 2003), al interior
de cada una de las cinco jerarqu´ıas
23
.
Paso 6. Se elabora una rutina macro de selecci´on Fan-Muller-Rezucha para MAS
3
denominada sel mas 3, que efect´ ua:
Para los municipios del primer estrato realiza la selecci´on aleatoria
de sectores cartogr´aficos.
Para los estratos dos, tres y cuatro realiza la selecci´on de municipios.
23
Con las especificaciones de software y hardware dadas anteriormente, el proceso que contem-
pla estos primeros cinco pasos preparatorios dura 4,98 horas.
Estrategia de muestreo para una encuesta electoral 61
Para los sectores y municipios seleccionados realiza la selecci´on de
manzanas.
Para las manzanas seleccionadas realiza la selecci´on de personas.
Para la muestra seleccionada calcula la tasa de favoritismo, utilizando
como factor de expansi´on el producto del factor de correcci´ on por ru-
ralidad por el factor te´ orico correspondiente al dise˜ no EST −MAS
3
.
f
ke
= fcr
ie
N
Ie
n
Ie
N
ie
n
ie
N
iqe
n
iqe
Paso 7. Se elabora una rutina macro, de nombre simula K, que crea una base
de resultados, para un par´ ametro K dado, invoca K-veces a la macro
sel mas 3 y adiciona la tasa estimada a la base de resultados.
Paso 8. Se invoca la macro simula K, con K = 500.
Bibliograf´ıa
Bautista, L. (1998), Dise˜ nos de muestreo estad´ıstico, Universidad Nacional de
Colombia, Bogot´a.
Bautista, L. (2000), Dise˜ no y desarrollo de encuestas, in ‘Simposio Colombiano de
Estad´ıstica’, Universidad Nacional de Colombia, San Andr´es.
Bautista, L. & Pacheco, P. (1989), ‘An´ alisis de la evoluci´on del comportamiento
electoral departamental en los ´ ultimos a˜ nos. una aplicaci´ on de los m´etodos
factoriales al estudio de series temporales cortas’, Revista Colombiana de Es-
tad´ıstica 19(2), 94–112.
Biemer, P., Folsom, R., Kulka, R., Lesler, J., Shah, B. & Weeks, M. (2003), ‘An
evaluation of procedures and operations used by the voter news service for
the 2000 presidential election public’, Public Opinion 67(Q3), 32–44.
DANE (1996), XVI Censo nacional de poblaci´ on y V de vivienda, DANE, Bogot´a.
Gawiser, S. R. & Witt, E. (2002), ‘20 questions a journalist should ask about poll
results’, National Council on Public Polls .
Hidiroglou, M. A. (1986), ‘The construction of a self-representing stratum of large
units in survey design’, The American Statistician 40, 27–31.
Lavall´ee, P. & Hidiroglou, M. (1988), ‘On the stratification of skewed populations’,
Survey Methodology 14, 33–43.
McManus, J. (2004), ‘How reliable are political polls?’.
*http://www.stanford.edu/group/gradethenews
RNEC (1994), Elecciones presidenciales de 1994 en Colombia, Registradur´ıa Na-
cional del Estado Civil, Bogot´a.
62 Leonardo Bautista S.
RNEC (1998), Elecciones presidenciales de 1998 en Colombia, Registradur´ıa Na-
cional del Estado Civil, Bogot´a.
RNEC (2002), Elecciones presidenciales de 2002 en Colombia, Registradur´ıa Na-
cional del Estado Civil, Bogot´a.
S¨arndal, C. E., Swensson, B. & Wretman, J. (2003), Model Assisted Survey Sam-
pling, 2 edn, Springer Verlag, New York.

40

Leonardo Bautista S.

durante un per´ ıodo de cuatro a˜os. Si ning´n candidato alcanza tal magnitud n u de favoritismo, habr´ un nuevo comicio electoral, denominado segunda vuelta. a En ´l, la poblaci´n decide entre solo dos candidatos, aquellos que en la primera e o vuelta obtuvieron la mayor´ absoluta. En las elecciones para Presidencia de 1994 ıa (RNEC 1994) se realizaron dos vueltas, y los candidatos de la segunda vuelta fueron el ganador Ernesto Samper y el perdedor Andr´s Pastrana. Cuatro a˜os e n despu´s, Andr´s Pastrana se presentar´ otra vez como candidato y tendr´ que e e ıa ıa someterse de nuevo a un proceso de dos vueltas (RNEC 1998), pero en esa ocasi´n o ganar´ la Presidencia frente al candidato Horacio Serpa. Cuatro a˜os m´s tarde ıa n a (RNEC 2002), es Serpa quien vuelve a presentarse como candidato y pierde en la ´ primera vuelta frente al candidato Alvaro Uribe. El porcentaje de votos por cada candidato, en cada uno de los municipios del pa´ cambi´ a lo largo de los ocho a˜os, en el sentido de que el candidato perdedor ıs, o n en 1994 fue ganador en 1998, y el perdedor en la segunda vuelta de 1998, perdi´ en o 2002 en la primera vuelta. Sin embargo, las diferencias entre municipios se mantienen, respetando ancestrales patrones de comportamiento electoral (Bautista & Pacheco 1989). As´ por ejemplo, el 88.4 % de los municipios en los que Pastrana ı gan´ en la segunda vuelta de 1994 fue tambi´n ganador en la segunda vuelta de o e 1998, el 75.6 % de los municipios en los que Serpa perdi´ en 1998, volvi´ a perder o o de forma contundente, menos del 20 % de favoritismo, en 2002 (V´ase anexo 1.). e En los comicios 1994, 1998 y 2002 el candidato del Partido Conservador Andr´s e ´ Pastrana y el candidato derechista Alvaro Uribe dominaron en aquellos municipios y capitales de departamento, que hist´ricamente han favorecido con su voto o a los candidatos del partido Conservador. Se trata de las llamadas capitales “de clima fr´ Manizales, Tunja, Pasto, otras tradicionalmente conservadoras como ıo” Medell´ y municipios de corte m´s rural que urbano. Por el contrario, las poın a blaciones de “clima c´lido” y en particular las de las dos costas Buenaventura, a Cartagena, Barranquilla, Monter´ Turbo, entre otras, le son regularmente favoıa, rables a los candidatos del partido Liberal. La propuesta metodol´gica que aqu´ se o ı presenta aprovecha este comportamiento sistem´tico, para construir una estrategia a muestral, confiable, precisa y econ´micamente viable para las encuestas de opini´n o o electoral en comicios presidenciales.

1.2.

Objetivo de una encuesta nacional de favoritismo en elecciones presidenciales

El objetivo de una encuesta nacional de favoritismo en elecciones presidenciales (ENFEP) es estimar la tasa de favoritismo que obtendr´ determinados candidaıan tos, si el comicio electoral fuera “hoy”. Se trata de estudiar en forma anticipada el proceso que se da el d´ de elecciones. Dicho proceso se describe, desde el punto ıa de vista de la teor´ del muestreo y de manera simplificada, de la siguiente forma: ıa Llamando U al universo de personas mayores de 18 a˜os del pa´ con plenos n ıs derechos civiles, e indagados uno a uno en forma independiente y voluntaria, se establecen dos variables para cada persona, zk que establece si la persona es participante o abstencionista, y la variable yk que se˜ala si la persona vota por el n

000 a o en la segunda. Para predecir el resultado e a de elecciones. e que denomina una muestra probabil´ ıstica. en la que n b´sicamente se plantean dos preguntas: 1. y cu´l es la calidad del resultado que se entrega. la cantidad n e de votos v´lidos fue de 7’384. establecida como el cociente entre la cantidad de votos por el candidato (Ny ) sobre la cantidad de votos v´lidos en el comicio a (Nz ). y cuya opini´n es utilizada para estimar la opini´n de los ciudadanos o o del pa´ debe ser tomada. siguiendo estrictas normas t´cnicas. a o a e qui´nes. Metodolog´ de una encuesta nacional de favoritismo ıa en elecciones presidenciales El m´todo que utiliza el estad´ e ıstico.852 o o o personas mayores de 18 a˜os. es la tasa ıa de favoritismo para el candidato Y. unas semanas antes del comicio. yk Ny Ry = U (2) = Nz zk U Se trata. Cuatro a˜os despu´s. de una tasa y no de una proporci´n.¿Votar´ Usted. muchas gracias. que se divulga al concluir el d´ de elecciones.. La abstenci´n o o electoral en Colombia es alta y variable entre municipios y sectores poblacionales. Si s´ ¿Por qui´n votar´ ı. pero e e o determinante diferencia entre estos dos conceptos es que las tasas se establecen con base en denominadores desconocidos y aleatorios. Si no. .000 votos en la primera vuelta a 12’180. mientras que las proporciones se fundamentan en denominador constante y conocido de antemano (Bautista 1998). es la cantidad de participantes en el comicio. si las elecciones fueran a ıa hoy? 2. e yk = 0 si la k-´sima persona es abstencionista o e participando no apoya al candidato Y yk = 1 si la k-´sima persona vota y lo hace por el candidato Y e El resultado electoral. e zk = 1 si la k-´sima persona vota. que dista mucho de ser sin´nimo de o 1 El censo nacional de poblaci´n de septiembre de 1993 arroj´ una poblaci´n de 19’109. para conformar su plan de estimaci´n responde a tres preguntas b´sicas: Qu´ se va indagar. y en particular el muestrista. lo que arroja una abstenci´n del 61.3. a o n e en 1998. lo que convierte a la cantidad de participantes en cifra aleatoria y variable1 . para configurar lo ıs. zk = 0 si la k-´sima persona es abstencionista. e ıa? La forma como se plantean las preguntas. (1) 1.845. la cantidad de votos v´lidos pas´ de 10’626. La sutil. de una parte muy particular del universo. Es decir. en las elecciones para Presidencia. Para la ENFEP el denominador es la cantidad de votos entregados por la poblaci´n. bien porque no vota o porque apoya a otro candidato. en t´rminos t´cnicos. y posteriormente.3 %. se realiza una entrevista directa a personas mayores de 18 a˜os.Estrategia de muestreo para una encuesta electoral 41 candidato particular Y o no lo hace. Nueve meses despu´s. La muestra o subconjunto de personas que dan su respuesta en la o ENFEP. la forma como se codifican y procesan las respuestas conducen a muy diferentes resultados de la estimaci´n.

El recuerdo o espont´neo puede existir durante las ultimas semanas de un proceso electoral3 y a ´ en los casos de segunda vuelta. s´lo por sus coordinadores de campa˜a para orientar sus acciones. Shah & Weeks 2003). Desde el punto de vista de la calidad final del proceso de estimaci´n. en procesos electorales de menor importancia como la de ıa dignatarios locales o regionales . Las preguntas que se plantean y la codificaci´n de las respuestas o Respecto a las preguntas que se plantean en la ENFEP. pero basado en la memoria que o e a tiene la poblaci´n sobre los candidatos que participan en el comicio. Desde el punto de vista de c´mo preguntar. Ese interrogante es: 1. o incluso el mismo d´ de elecciones. Este procedimiento costoso puede remplazarse por la entrevista telef´nica. Estas preguntas encarecen el estudio y o se apartan del objetivo de la ENFEP 3 El recuerdo de los candidatos participantes en el debate puede no existir en la poblaci´n.42 Leonardo Bautista S. Para una ENFEP destinada a la opini´n a ıa o p´blica. al momento que formula la pregunta sobre preferencia (Biemer. una muestra al azar. Lesler. seguramente s´ y probablemente s´ ı ı. probablemente no. la opini´n p´blica. o 1. lo consero vador es reducir el tama˜o del denominador. se puede optar por la entrevista o cara a cara. ıa? El segundo aspecto a considerar es el relativo a la interpretaci´n de la reso puesta. la pregunta o las preguntas b´sicas deber´ referirse sin ambig¨edad al u a ıan u interrogante. en los momentos iniciales del debate. no desea ıa responder. Por ultimo. si las elecciones fueran hoy? ıa 2. Por ejemplo ¿Qui´n e cree que ganar´ si las elecciones fueran hoy? ´ ¿Si las elecciones fueran hoy. y o o otros aspectos relacionados con el tema de la abstenci´n. Kulka. La respuesta a si votar´ hoy. que la poblaci´n tiene buena memoria sobre o los candidatos y sus programas. 2 En ocasiones se pregunta la raz´n de la abstenci´n. o cu´l candidato le gustar´ que ganara?. Si la respuesta es “no”. puede tener seis opciones: no sabe. que el ciudadano del com´n cree que se le est´ respondiendo con los u a resultados de la encuesta (Gawiser & Witt 2002). se trata aqu´ de aquellas ı que adem´s de constituir una fotograf´ modifican lo que se suele denominar a ıa.1. aunque se cumplan los criterios t´cnicos para el ´ e tratamiento de preguntas y respuestas. si ha votado en comicios anteriores. puede o n contener muy diferentes preguntas y formas de preguntar. Si la respuesta es “s´ ¿por quien votar´ ı”. algunas decisiones t´cnicas del proceso de encuesta ıa e pueden conducir a resultados de poca confiabilidad o de muy corta precisi´n. Folsom. en la que el entrevistador ense˜a al entrevistado un s´ n ımil del tarjet´n o electoral. ıa. m´todo m´s barato. si se supone equivocadamente. pero se puede llegar a resultados con distorsiones graves. considerando como respuestas “No” n las primeras cuatro opciones.¿Votar´ Usted. seguramente no. y se establezcan muestras que respetan el rigor de la teor´ de muestreo.. Un estudio que realiza un candidato y cuyos resultados son o u utilizados. muchas gracias2 .3.

Aunque la probabilidad de selecci´n de un n´mero telef´nico sea o o u o positiva y conocida. mapa. Muestra probabil´ ıstica Es un error estad´ ıstico utilizar. que la selecci´n de la muestra se realice en dos o m´s etapas. se necesita el padr´n a nivel de ese conglomerado. el n o que. Para conformar n una segunda etapa de muestreo en cada municipio. Tampoco se conoce la probabilidad de que un determinado conductor. para ser considerada probabil´ ıstica. pero no necesariamente probabil´ ısticas. con sus respectivas direcciones. se puede. directorio. Para una selecci´n directa de elementos.CSMs. desde el punto de vista del muestreo. pero no en Colombia. sectores cartogr´fia cos o manzanas. Las partes que conforman esta segunda partici´n se denominan o Conglomerados secundarios de muestreo . de las personas que responder´n a la entrevista de favoritismo electoral. se realiza una partici´n. Los subconjuntos que forman la partici´n se denominan. Swensa son & Wretman 2003): Los elementos son seleccionados de un marco de muestreo. para una encuesta cualquiera y en particular para una ENFEP. que o para el caso puede construirse a partir de barrios. no lo es la probabilidad de que quien responda sea determinada persona del hogar. . el d´ de la entrevista escoja la ruta A o B. o bien se construye o se aplica de nuevo un dise˜o en etapas. El existe en alguo nos pa´ ıses. Una muestra. a algunos conductores de los que se detienen ante un sem´foro en a ´ rojo.CPMs. no traslaparse y su uni´n o reconstruye el universo 5 Cada proceso de selecci´n debe respetar los principios de independencia e invarianza mueso tral. debe cumplir (S¨rndal.) que permite identificar y ubicar a cada uno de los elementos del universo de estudio. Conglomerados primarios de muestreo . o a seleccionar grandes conglomerados. Para el caso de la ENFEP se necesita un marco de las personas adultas aptas para la entrevista. siguiendo un algoritmo que corresponde a probabilidades positivas y conocidas antes de la selecci´n.Estrategia de muestreo para una encuesta electoral 43 1. de ese padr´n escoger n o aleatoriamente los nombres. a El proceso de muestreo en varias etapas consiste en establecer una partici´n4 o del universo de votantes. el m´todo de entrevistar al azar a algunas personas a la salida de e un supermercado. Se selecciona una muestra probabil´ ıstica de esos conglomerados y se aplica un nuevo plan de muestra5 al interior de cada conglomerado escogido en la primera etapa. es decir en el caso de la encuesta electoral de pero sonas mayores de 18 a˜os. Su ausencia exige. con la mismas caracter´ o ısticas dadas para la selecci´n de o CPMs. comunas. s´lo en los casos necesarios. Es decir. Estos o similares procedimientos e conforman muestras al azar.3. y dentro de los municipios seleccionados escoger algunas manzanas. etc. o a quien fortuitamente responde al tel´fono. Este dispositivo se llama padr´n y permite conocer el nombre o ´ y la direcci´n de cada uno de los residentes de una vecindad. Un Marco de Muestreo es un dispositivo (lista. Se efect´a entonces una selecu ci´n aleatoria de CSMs.2. como por ejemplo municipios. Si todav´ se trata de segmentos geogr´ficos muy grandes para hacer un ıa a levantamiento censal. o que una persona decida ıa visitar uno u otro supermercado. realizar el empadronamiento de las personas mayores de 18 a˜os de esas manzanas y. proponer una terceo 4 Conjunto de subconjuntos del universo que cumplen: no ser vac´ ıas. o para el muestreo.

Estrategia muestral y sus criterios de calidad El trabajo del muestrista consiste en escoger un modo de seleccionar muestras. ra etapa en la que se crean los Conglomerados terciarios de muestreo . manzanas o grupos de manzanas la lista completa de identificaci´n y ubicaci´n de las o o personas mayores de 18 a˜os aptas para votar6 . La edad para diferenciar. y el n´mero del tel´fono para concertar citas. conduce a sesgos que. para n realizar despu´s. un intervalo de amplitud peque˜a. en una manzana o en un grupo de manzanas. o . es decir levantar en esos pedazos. se pasa vivienda por vivienda. la selecci´n probabil´ e a o o ıstica de los nombres de las personas que responder´n a la entrevista. sea muy e e alta. Con esta terminolog´ el objetivo del muestrista es entonces ıa. 1. o 4. subdivisi´n. ı La literatura en lengua inglesa utiliza el t´rmino listing para designar el proe ceso por el que. La aplicaci´n de estos cuatro pasos sin vigilar cuidadosamente todos los reo querimientos t´cnicos que ellos exigen. hasta llegar a una muestra de pedazos de manzanas. n que con alta probabilidad contenga “la verdad’. tal que la probabilidad de que la “verdad” est´ cubierta por ´l. a fin de producir.3. escribiendo los nombres de las personas mayores de 18 a˜os. A la combinaci´n de dise˜o y estimador. ı El proceso metodol´gico de selecci´n de muestra descrito.44 Leonardo Bautista S. selecci´n o o o o muestral. escoger una estrategia muestral a fin de producir. con nombre y ubicaci´n precisas. por ejemplo. Realizar el empadronamiento. y una f´rmula de procesamiento de los datos observados. se resume entonces o o en los pasos siguientes: 1. a bajo costo. unica y expresamente. Establecer la muestra de personas. estin o mador. como se explica a e continuaci´n. Realizar la entrevista. un intervalo de confianza. afectan la confiabilidad y pueden hacer in´tiles los resultados del o u estudio. bas´ndose en esa lista o padr´n. Se a u o pregunta el sexo para evitar situaciones inc´modas a los entrevistadores puesto que hay nombres.3. R(·)] se le a o n llama la estrategia de muestreo y al intervalo que se produce se le denomina Intervalo de confianza. tal que: ˆ P Ry ∈ Ry − z1− α 2 ˆ ˆ Vp (Ry ) . al menor costo posible. de manzanas o de grupos de manzanas. Ry + z1− α 2 ˆ Vp (Ry ) = Pc (3) 6 Se suele preguntar adem´s por el sexo. es decir el verdadero porcentaje ˆ que se est´ estimando. es decir. y as´ sucesivamente. dise˜o de muestra. 2. la edad y el n´ mero telef´nico (Bautista 2000). padres e hijos hom´nimos. n 3. selecci´n muestral. Dicho proceso se a denomina aqu´ empadronamiento. [p(·).CTMs. a las personas seleccionadas en ´ la muestra. Realizar varias etapas de divisi´n. o de los que no se sabe si se trata de mujeres o de hombres. solicitar aclaraciones o o u e para realizar los operativos de supervisi´n de campo.

Sobre este marco o de todas las estimaciones diferentes. o en forma m´s realista. la a n probabilidad de cobertura. dependiendo de la calidad de la aproximaci´n al aplicar el o TCL. el mejor de los casos. En estrategias no desviadas. a entre el cero y el cien por ciento. se espera que la estrategia “apunte” a lo que se busca. de la inmensa cantidad te´rica de muestras posibles. uno por cada muestra posible. Tambi´n la longitud del intervalo. u Recurriendo de nuevo al s´ ımil. por ejemplo de varias etapas y muestras peque˜as la aproximaci´n es n o tan deficiente. En general. se sabe que el porcentaje de favoritismo de un determinado candidato est´ con probabilidad uno. El Teorema Central de L´ ımite (TCL) afirma que la distribuci´n de los promeo dios muestrales. En el caso de estimaci´n de una raz´n. meramente te´rico. la precisi´n de la estrategia. pero que es impreciso porque aporta un conocimiento in´til. se le llama confiabilidad y a la longitud del intervalo. otra muestra. es decir sin a sesgo. y a es igual a (1 − α). otras manzanas u otras personas arroja una estimaci´n diferente. tiende hacia una distribuci´n Normal o campana de Gauss con o ciertos par´metros. a por cumplir la condici´n de ser muestra probabil´ o ıstica muestra de 1. se espera que ellos oscilen alreˆ dedor del valor real que se pretende estimar. Con o ese min´sculo tama˜o de muestra cualquier afirmaci´n sobre preferencia electoral femenina por u n o estrato y ciudad no puede ser confiable. sin necesidad de recurrir al muestreo estad´ ıstico. Es decir. con 50 mujeres de un mismo nivel socio-econ´mico en una ciudad. o As´ como una muestra particular entrega una estimaci´n del porcentaje de ı o favoritismo por un candidato. de la inmensa lista de poro centajes estimados. se define confiabilidad como (S¨rndal et al. y por ende la confiabilidad es inferior a (1 − α). La soluci´n propuesta por la o o teor´ estad´ ıa ıstica es aplicar el TCL a modo de aproximaci´n. la confiabilidad decrece en funci´n de la magnitud del sesgo. En dise˜os n complejos. cada una asociada a su muestra. el muestrista debe o mantener una estricta vigilancia a fin de no introducir.200 entrevistados en las cuatro principales ciudades del pa´ contar´ en ıs ıa. 2003) la suma de las probabilidades de las muestras. En ese caso Pc la probabilidad de cobertura o confiabilidad ser´ baja. . En muestras grandes. es decir de u n la estrategia muestral que se aplique. 8 Una 7 Conocida. Dependiendo del dise˜o y del estimador. y con ella la confiabilidad se deja calcular f´cilmente. se acerca a (1 − α). con lo que la probao bilidad de cobertura. determinada por la varianza del estin e ˆ mador Vp (R) depende de la estrategia muestral. conformada por otros municipios. A la probabilidad de cobertura. la probabilidad Pc puede hacerse grande o peque˜a. no se tiene una a o o afirmaci´n similar a la del TCL para los promedios.Estrategia de muestreo para una encuesta electoral 45 Obviamente. que la verdadera probabilidad de cobertura o confiabilidad es tan baja que hace los resultados in´tiles 8 (McManus 2004) (Gawiser & Witt 2002). y por ello a Vp (R). para o cada muestra. De tal intervalo se dice que es confiable porque tiene probabilidad uno de acierto. a medida que el tama˜o de muestra crece. la confiabilidad. Pc = 1. con α establecido en el valor z1− α (de la f´rmula (3)) de la tabla o 2 de la normal est´ndar. Cuando la estrategia tiene sesgo. ˆ Pc . En tal caso. Ep (R) = R. cuyo intervalo a de confianza cubre al valor real. Si las estimaciones “apuntan a otra parte” se dice que se trata de una estrategia con sesgo. se tiene una o estimaci´n o valor del porcentaje de favoritismo por el candidato. que a su vez tiene una determinada probabilidad 7 de ser extra´ ıda.

desatenci´n del principio de invarianza. se debe proyectar una estrategia que cumpla: a ˆ ˆ Vp (R) ≤ 0. o 12 Estimadores no apropiados 13 Una estrategia para la ENFEP no ser´ adecuada. o o o a Una vez garantizada la mayor confiabilidad posible. Para el caso de longitud igual a seis y si el porcentaje estimado es. de errores del marco de muestreo. Originan sesgo. Para alcanzar este intervalo de confianza y sobre la base de que se pretende una confiabilidad cercana al 95 %. de la misma estrategia. El sesgo puede provenir. por ejemplo.M´ ltiples: u u en el mapa aparece una manzana y en la realidad son varias. En el caso n ´ particular de una ENFEP no se necesita una muestra estad´ ıstica para “saber” de antemano. una estaci´n del sistema de transporte masivo. entre otros. el muestrista busca reducir el tama˜o del intervalo de confianza a fin de entregar resultados utiles.96.015 ⇐⇒ Vp (R) ≤ 0. el muestrista juega. fuera de universo y no-respuesta. que para efectos 2 pr´cticos se toma igual a 2. n El tama˜o de muestra adecuado depende de la configuraci´n del universo de n o estudio. entre (34 ± 3) %. porque en dise˜ o de dos o m´s etapas son varios los procesos n n a de selecci´n que se deben realizar. la aplicaci´n de m´todos de o e muestreo sin el debido rigor t´cnico que ellos exigen11 . por ejemplo. Tambi´n se produce por errores en el empadronamiento. como por ejemplo la subcobertura9 . a fin de controlar la mayor cantidad posible de fuentes de sesgo. y la No-respuesta cuando. las entrevistas diligenciadas fraudulentamente por el entrevistador. una votaci´n a o entre el 20 y el 40 por ciento. lo conveniente desde el punto de vista de reducir la variabilidad de ıa e 9 Ausencia en mapas o listados de barrios o sectores de la ciudad construidos en los ultimos ´ a˜os n 10 Se denominan novedades los casos de m´ ltiples. La tarea del muestrista en una ENFEP es producir intervalos con una longitud inferior a cinco o seis puntos porcentuales. 34 %. 14 Se dice tama˜ os de muestra. etc. se˜alan favoritismo de alrededor del 35 % y otras tantas entregan tasas de favoritismo alrededor n del 60 %. lo que significa que la constante z1− α = 1. si al estimar el porcentaje de favoritismo ıa muchas muestras arrojan porcentajes del orden del 15 %.000225 Volviendo al s´ ımil de la tabla con todas las muestras posibles. o 15 En tal caso se dice que el candidato genera correlaci´n intracl´sica o a . 11 Traslape en conglomerados o estratos.46 Leonardo Bautista S. por ejemplo. mientras que en otros sectores nadie votar´ por ´l15 . como e por ejemplo el mal tratamiento de las novedades10 . Para mantener la precisi´n en los rangos o o deseados. muchas otras. garantizada a por la confiabilidad. con una alta probabilidad. entre otras fuentes. por ejemplo. Fuera de universo: en el mapa aparece una manzana con viviendas y lo que el empadronador encuentra es. entonces el porcentaje verdadero de favoritismo est´. es decir entre (31 % y 37 %). con la definici´n del estimador o formas de c´lculo y con la definici´n de los o a o tama˜os de muestra14 . que es la forma probabil´ ıstica como selecciona conglomerados y elementos. Cuando un candidato polariza la poblaci´n en forma tal que casi todos o los habitantes de ciertas manzanas lo apoyan. la utilizaci´n de factores e o de expansi´n err´neos o de f´rmulas de c´lculo equivocadas12 . lo que se pretende es que no haya mucha variaci´n entre las diferentes estimaciones13 . cada muestra con su correspondiente estimativo. con tres aspectos b´sicos: El dise˜o de a n muestra. que un determinado candidato obtendr´. en un edificio o de apartamentos no se obtiene permiso para conocer la cantidad de residentes.

o Tabla 1: Calificaci´n de la calidad de la precisi´n de la estrategia muestral en o o ˆ funci´n del valor del Coeficiente de Variaci´n CVp (R) o o ˆ ( %) Valor del CVp (R) Calificaci´n de la precisi´n o o Menor a 2 % Excelente Entre 2 % y 4 % Buena Entre 4 % y 6 % Moderada Entre 6 % y 10 % Baja Entre 10 % y 15 % Para usar s´lo con mucho cuidado o Superior a 15 % No se puede publicar Para una tasa de favoritismo del 20 % con una estimaci´n de precisi´n modeo o rada.2)(0. toe a mando muchas personas por manzana de algunas pocas manzanas empadronadas. se estar´ entonces diciendo que: ıa ˆ ˆ Vp (R) = (R)(CVp (R)) = (0. en funci´n del coeficiente de o o variaci´n. se califica la calidad de la precisi´n.015 = 0. por ejemplo a dos diezmil´simos. como se muestra en el cuadro 1. e En la mayor´ de los casos es relativamente complicado establecer l´ ıa ımites para la varianza.1 %.046 = 4.325 En general.Estrategia de muestreo para una encuesta electoral 47 las estimaciones.1 %].0104 con lo que el intervalo de confianza tendr´ a cada lado una longitud igual a ıa ˆ (2)(0. Por ello se acostumbra tratar el tema de la varianza del estimador en forma relativa utilizando el concepto ˆ de coeficiente de variaci´n del estimador CVp (R). en el ejemplo num´rico que se viene tratando.0208 = 2. es entonces establecer e un dise˜o de muestra. m´todo por lo dem´s costoso frente a la alternativa de conformar la muestra. CV = 5. Es decir que cuando se emita un estimativo R.052) = 0.2 %. puesto que se trata de unidades cuadradas. El objetivo. dado.0104) = 0. unos tama˜os muestrales y unos estimadores tales que la n n varianza del estimador sea menor. por: o ˆ CVp (R) = ˆ Vp (R) R (4) lo que en el caso num´rico que se viene exponiendo y si la verdadera raz´n es e o ˆ ≤ 0. 6 %. el ˆ verdadero valor estar´ con alta probabilidad en el intervalo [R ± 2. es seleccionar muchas manzanas y pocas personas por manzana. para este trabajo. por ejemplo.325 equivale a decir que el CVp (R) 0. R = 0. ıa .

edad o niveles culturales de la poblao ci´n. como si ellos constituyeran los datos desconocidos del d´ de hoy. concentrando la votaci´n y el favoritismo en ciertas partes del municipio para producir valores altos de o correlaci´n intracl´sica entre las secciones cartogr´ficas. estuvo el candidato Horacio Serpa como o fuerte competidor por la Presidencia. zk como se se˜ala en (1). Es decir.48 Leonardo Bautista S. o se comportan. es el de conformar una base de datos. est´ suponiendo que la votaci´n por Serpa sigue. Los valores yk y zk . la generaci´n aleatoria al interior de los municipios. as´ generados. La informaci´n censal contiene la identificaci´n de manzana. 2. se realiza la prueba de la estrategia propuesta. Sin embargo. en la parte final del trabajo. La generaci´n aleatoria de valores yk . y la informaci´n electoral permite a o reproducir los resultados de la cantidad de votantes y la cantidad de personas que. que no se concentra en o o a determinados sectores poblacionales. Para subsanar este defecto. distribuci´n de votantes y partidarios de Serpa. o o Esta configuraci´n de datos cumple un importante supuesto pero desatiende otro o igualmente importante. 16 Tan s´lo en alg´ n municipio muy peque˜ o y marginal sucede que la cantidad de adultos en o u n 1993 es menor que la de votantes en 1998. sexo. para planificar esa estrategia es necesario conocer la tasa de favoritismo. o sin considerar niveles socio-econ´micos. sencillamente. lo cual constituye un c´ ırculo vicioso. tanto a nivel de municipio16 como para el total del pa´ y proveen una base ficticia de ıs. El camino que se propone en este trabajo. o a o un patr´n de muy baja correlaci´n intracl´sica. que combina la informaci´n persona a persona del censo nacional de poblaci´n y o o vivienda de 1993 (DANE 1996) con informaci´n electoral de la primera vuelta de o 1998. secci´n y manzana. La soluci´n pr´ctica. sectores. Construcci´n de la estrategia muestral o ˆ Varianza de la estrategia Vp (R) El objetivo es establecer una estrategia muestral que mantenga la varianza de la tasa estimada de favoritismo por debajo de una determinada cota. en cada municipio votaron por el candidato Serpa en la primera vuelta de 1998. conducen a que la cantidad de n ı votantes y de votos por Serpa son acordes a los resultados reales de 1998. como el resto del municipio. secciones.1. aplicada en general y en paro a ticular en este ejercicio. Para realizar estimaıa ciones referentes a las elecciones de 2002 en Colombia se toman los datos de la elecci´n de 1998. por no disponer de informaci´n actualizada. por sector. es utilizar datos completos de per´ ıodos anteriores. de n forma tal que se reproducen los resultados de votaci´n y favoritismo por Serpa y se o supone que las partes no estudiadas. Sin embargo. 2. al interior de los municipios. . secci´n. o a a Al utilizar los resultados electorales de 1998 con la base de datos del censo de 1993 se respeta la estructura de manzanas. En ambas elecciones. Para ello se generan aleatoriamente para cada persona las variables yk . sector o o o cartogr´fico. zona rural o urbana y municipio. y la clasificaci´n o urbano-rural pero no se contempla el crecimiento poblacional de esos cinco a˜os. zk en forma separada e independiente al o interior de cada municipio respeta la fuerte correlaci´n intracl´sica del conglomerao a do “Municipio”.

o o el c´lculo de la varianza de la estimaci´n se obtiene mediante la aproximaci´n de a o o Taylor. que para el caso individual. a o Con los yk y zk generados para la poblaci´n completa se construye la transformada (5). n es la suma en el i-´simo CPM (municipio) de las transformadas. Este total se hace igual a cero. si la tasa municipal de favoritismo Ri es igual a la tasa nacional R. logran valores. Ri la proporci´n de favoritismo por Serpa en el municipio y R la tasa o nacional de favoritismo por el mismo candidato. con menos votaci´n. positivos o negativos. tz la cantidad nacional de votos. la varianza que se busca queda dada por: uk = ˆ Vp (R) = UI (5) ∆Iij tuUi tuUj + πIi πIj UI Vi πIi (6) donde: UI es el conjunto de conglomerados primarios de muestreo (municipios). lo que ocasiona que algunos municipios grandes aporten poco a la varianza total de la estrategia. es decir e uk Vi es la varianza al interior del i-´simo municipio. asume s´lo tres valores: o  si zk = 0 ya que entonces todo yk = 0 0   1  uk = Nz (1 − R) si yk = 1 y zk = 1  1    (−R) si yk = 0 y zk = 1 Nz La suma de los valores uk al interior del i-´simo municipio es igual a: e tuUi = Ui uk = Uyi 1 (1 − R) + Nz c Uzi ∩Uyi 1 (−R) Nz (7) Nzi (Ri − R) = Nz donde Nzi es la cantidad de votos emitidos en el municipio. y para ello es necesario construir la transformada: 1 (yk − Rzk ) Nz con lo que. lo que significa realizar de e nuevo el c´lculo de la varianza en varias subetapas. Por tratarse de la estimaci´n de una raz´n. ∆Iij = πIij − πIi πIj con πIi y πIij las probabilidades de inclusi´n de o tuUi tuUi = Ui primero y segundo orden del dise˜o muestral de CPMs. . mientras que otros. pero con una marcada tendencia a favor o o en contra de Serpa.Estrategia de muestreo para una encuesta electoral 49 Con la base de datos as´ construida se busca la mejor estrategia que cumpla una ı ˆ determinada cota para la varianza de R. lejanos de cero.

50 Leonardo Bautista S. que conviene estudiar. no hay posibilidad.03 385 6.03 La dispersi´n de los valores |tuUI | es tan alta que los resultados conducen o r´pidamente a la necesidad de considerar estrategias diferentes a la del MAS para a . que es el CPM escogido en esta propuesta. en consecuencia un conglomerado de tama˜o peque˜o. por carencia del necesario marco de o muestreo.2. el menor nivel. 2.04 475 5. Se comienza por o n definir el conglomerado muestral de primer orden. La primera o o idea de dise˜o muestral es. de realizar un muestreo directo de elementos. realizar una muestra aleatoria simple de municipios. que le corresponde a este o dise˜o es: n N2 nI 2 ˆ VET 1−M AS (R) = I (1 − )S nI NI tu UI 2 nI 1 NI (1 − ) nI NI NI − 1 = pero como ¯ t UI = ¯ (tuUi − tUI )2 UI U uk =0 NI ⇒ 2 Stu UI = 1 NI − 1 (tuUi )2 UI con lo que los municipios que m´s aportan a la varianza de la estrategia son aquellos a con mayor valor absoluto de tuUI . Para la definici´n del n n o conglomerado primario de muestreo. La opn ci´n es intentar un dise˜o con tan pocas etapas como sea viable. Pero. n La f´rmula de la varianza debida a la primera etapa.03 315 7.03 260 8. y puesto que. e ˆ Tabla 2: Coeficiente de variaci´n CVp (R) alcanzado por la primera etapa seg´n el o u tama˜o de muestra propuesto utilizando un dise˜o MAS en la primera etapa n n ˆ Tama˜o de la muestra de la primera etapa n CV1−M AS (R) Cantidad de municipios a seleccionar ( %) 720 3. como es sabido. Con este dise˜o se requerir´ una muestra de n ıa cerca de 600 municipios para alcanzar un CV cercano al 4 % (V´ase cuadro 2).02 585 4. la varianza de la estrategia crece a medida que se adicionan etapas al dise˜o. sobre el que se tiene informaci´n id´nea es el municipio. Primer escenario: muestreo aleatorio simple de municipios Como ya se mencion´. al interior del conglomerado es necesario realizar un empadronamiento se busca.

La propuesta metodol´gica es. es decir. puesto que su suma tuUi se vuelve cero. mientras que para alcanzar esa precisi´n. respecto al escenario n o MAS. Sin embargo esta variaci´n no contempla la posibilidad de n o un ultimo estrato con un unico elemento en la muestra. para la n selecci´n de municipios. Se prueba luego. el m´todo sugerido como variaci´n al propuesto por Hidiroglou pide un tama˜o de e o n muestra de 55 municipios.3. se tienen entonces dos posibilidades: realizar una muestra o con probabilidad proporcional al tama˜o de tuUI o estratificar los municipios. Por ultimo hay muchos valores de tuUI muy cercanos a cero. Segundo escenario: estratificaci´n de municipios o La mayor fuente de variaci´n. el dise˜o MAS o n exige n = 480. La ganancia de precisi´n. desde el punto de vista de la varianza. es decir. es ya muy importante. que aportan muy poco e e a la varianza general. e a tuUI . o por grande que sea. si se comporta porcentualmente como el total del pa´ es decir ıs.Estrategia de muestreo para una encuesta electoral 51 la primera etapa.T. Ri = R. de los algo m´s de mil municipios del pa´ Hay valores muy grandes de a ıs. Para el dise˜o muestral de la primera etapa. El mecanismo para o . n ligeramente mejor que la estrategia de crear estratos. El n dise˜o P. 2. que superan las 500 millon´simas hasta Bogot´. aplicar un dise˜o estrao o n tificado del tipo IF .P. pero en la pr´ctica presenta a complicaciones operativas que no se tienen cuando se escoge la opci´n del dise˜o o n estratificado. en la que tuUI = 11. no aporta a la varianza del estimador. (ver n a ıa (7)). ´ desde dos millon´simas hasta fracciones de millon´simas. De este grupo de municipios se puede seleccionar s´lo unos o muy pocos para reducir costos. una variaci´n al m´todo de Lavall´e (Lavall´e a o e e e & Hidiroglou 1988) para la conformaci´n de un estrato de inclusi´n forzosa y vao o rios de dise˜o MAS. ´ ´ Para estratificar se trabaja primero con una variaci´n al m´todo propuesto o e por Hidiroglou (Hidiroglou 1986) para la conformaci´n de un estrato de inclusi´n o o forzosa y otro de dise˜o MAS. en conclusi´n. Para conseguir un CV de primera etapa del 5 %.UNO.ESTMAS . N´tese que un municipio. Los valores altos de tuUI corresponden a municipios en los que se combinan dos aspectos: un tama˜o ampl´ y un comportamiento de favoritismo n ıo por el candidato Serpa diferente al porcentaje nacional. sin incrementar en gran medida la varianza del estimador. Se procede entonces a ´ ´ la aplicaci´n de un m´todo de iteraci´n computacional de c´lculo de varianza de o e o a primera etapa. en forma an´loga. si se re´nen en un estrato. se extraen muestras MAS en los estratos intermedios y en el ultimo estrato se extrae un unico municipio. se origina en la fuerte asimetr´ de los totales tuUI . que oscilan entre dos y 500 millon´simas. Para ese grupo se obtendr´ una importante reducci´n de la varianza e ıa o del estimador. a Hay valores de tuUI m´s modestos que los mencionados anteriormente. es tenido en cuenta y resulta. en el que se estudian todos los municipios u que lo conforman. se investigan todos los municipios del primer estrato. para el caso de la estimaci´n de la raz´n con o o o dise˜o multiet´pico. que podr´ dar origen a uno o m´s estrae ıan a tos de municipios. variando las configuraciones de estratificaci´n. y no hace parte de este primer estrato.684 millon´simas.

La decisi´n final de esta propuesta es adoptar el plan de cuatro estratos.8 %. determinar la configuraci´n de estratificaci´n que provee la menor varianza del o o estimador de la tasa de favoritismo. se calcula la varianza. que genera la estratificaci´n construida de la siguiente manera: o Un primer estrato con dise˜o de inclusi´n forzosa de tama˜o NIF n o n Un segundo estrato con dise˜o MAS(NI2 . realizando c´lculos con el paquete de procesamiento estad´ a a ıstico SAS versi´n 8. y el tama˜o del segundo estrato NI2 que n n determina el tama˜o NI3 = 1016 − NIF − NI2 . tomando una muestra de ochenta municipios.52 Leonardo Bautista S. distribuida as´ ı: 17 El c´lculo de las varianzas variando configuraciones y tama˜ os de muestra en cuatro estratos a n tarda algo m´s de dos horas.6 GHz. n 3. Una vez realizados los c´lculos de varianza para combinaciones de los tres a par´metros se escoge aquella configuraci´n que para un tama˜o de muestra a o n produce la menor varianza. por diferencia. en t´rminos de varianza es muy e peque˜a. con cuatro estratos se obtiene una leve o e ganancia frente a la configuraci´n con tres estratos.CPU 2.2. Luego se a o o estudia el caso de cinco estratos. En tal caso se tienen m´s par´metros y por ende m´s a a a c´lculos que realizar. n o El ejercicio arroja una varianza debida a la primera etapa. e o El resultado es que con tres estratos se mejora bastante la propuesta basada en la variaci´n al m´todo de Hidiroglou. es el siguiente: 1. El siguiente paso es considerar la configuraci´n en cuatro estratos y compararla o con la de tres estratos17 . 1) n En este primer ejercicio. 512 MB RAM. debida a la prin mera etapa. mientras la ganancia. El crecimiento de la cantidad de par´metros a hace que la cantidad de c´lculos crezca en forma exponencial. La varianza se reduce a la cuarta parte respecto al caso MAS. con tres estratos. equivalente a un ˆ CVp (R) = 3. o . Es decir se ordenan los municipios en forma descendente respecto a: 2 tuUi = Ui 1 (yk − Rzk ) tz 2 2. pero sigue siempre a id´ntica estrategia de programaci´n.Computador Pentium 4R. Para un tama˜o global de muestra nI . pero dentro de la misma l´gica de programaci´n. la varianza del estimador de la raz´n depende de tres par´metros: El tama˜o de muestra nI . nI2 ). queda definido o el tama˜o nI2 = nI − NIF − 1. y con cinco estratos crece o el grado de complejidad. el tama˜o del o a n n estrato de inclusi´n forzosa NIF con lo que. Se ordenan los registros de los 1016 municipios en forma descendente respecto al cuadrado de la suma de sus valores de la transformada uk . El largo trabajo computacional se recompensa con la fuerte reducci´n alcanzao da para la varianza del estimador. como se puede observar en la tabla 3. y n Un tercer estrato con dise˜o MAS(NI3 .

67 70 17.39 2. dos de cada cien) y que aportan el 25 % de los votos. El ultimo estrato con 241 municipios. Sin embargo. que contempla el o 45 % de los votantes del pa´ ıs. como sea posible.7 5.86 2.83 90 15.64 2.06 3.51 2.89 4. Un segundo estrato con 144 municipios. Quibd´ y Pasto. de los cuales se estudian 44 (uno de cada tres) y que recogen el 22 % de la votaci´n nacional.27 3. de los cuales se visitan catorce (aprox.3 2. Bucaramanga.72 4.52 150 11. que .14 3.86 130 12.36 Un primer estrato de inclusi´n forzosa con 21 municipios. seg´n el o u tama˜o de muestra propuesto. Sincelejo. Monter´ Valledupar.3 2. Itag¨´ Barranquilla. y ESTMAS con n n tres.22 4.8 2. Bello. o a El estrato de inclusi´n forzosa recoge los principales municipios del pa´ auno ıs.39 5.8 4.63 5.Estrategia de muestreo para una encuesta electoral 53 ˆ Tabla 3: Coeficiente de variaci´n CVp (R) alcanzado por la primera etapa. Villavicencio. que si el criterio fuera s´lo tama˜o. pero como se se˜al´ anteriormente. se debe considerar. ıa. otro aspecto fundamental. Se construyen f´cilmente ejemplos en los que se obtiene igual a varianza. Cali. uı. que al final de la lista aparecen algunas sorpresas y faltan otros. a la vez.3 3.29 110 13.9 2.67 3.51 3. y ´ o de ellos s´lo uno ser´ seleccionado para la muestra de la primera etapa. el costo. Muestra al interior de los municipios En los municipios no es viable la construcci´n de un marco de personas mayores o de 18 a˜os.96 2. a ın.3 4.66 140 11. Soledad.31 4. preo n ı ıan n o sentan un porcentaje similar al nacional. que totalizan el 8 % de la votaci´n. Cartagena. cuando se utilizan dise˜os MAS.35 3.70 2. Pereira. que los convierte en poco interesantes desde la perspectiva muestral.1 3.53 100 14.1 3.50 2. o 2.85 3.5 3. Dosquebradas. Barrancabermeja. cuando se estudian muchas manzanas y pocas personas por manzana.81 2. Buenaventura. o Un tercer estrato con 610 municipios. cuatro y cinco estratos en la primera etapa nI MAS E=3 E=4 E=5 50 20. Medell´ Envigado. Manizales.21 80 16. all´ deber´ aparecer.4.04 120 12.31 60 18.92 3. lo que obliga a pensar en dise˜os en varias etapas y con tan pocas n n etapas. La lista de los municipios que conforman el estrato es: Bogot´.

En la mayor´ de las ciudades del primer estrato no parece conveniente pasar ıa directamente a la selecci´n de manzanas. mediante MAS y selecci´n o o de personas. para escoger de all´ tambi´n o ı. tambi´n con MAS. es un par´metro determinante de los resultados finales obtenidos. Aunque la inclusi´n de una etapa adicional genera mayor o varianza. mediante el algoritmo de Fan-Muller-Rezucha. selecci´n de manzanas. selecci´n n o de municipios. cuando se toman muestras con pocas manzanas y muchas personas por manzana. mediante MAS.000 personas. 60 % de las n manzanas por municipio y una de cada 25 personas por manzana. Municipios muy peque˜ os y alejados: 1 de 241 municipios. aproximadamente 6. Ciudades intermedias: 44 de 144 municipios. se propone seleccioo nar primero sectores cartogr´ficos. Para este ejercicio se aplica un costo C1 para la o construcci´n de la lista de una manzana de tama˜o promedio y para la realizaci´n o n o de diez entrevistas directas y efectivas de preferencia electoral18 . el costo de construcci´n del marco para la ultima etapa y el costo de entrevista para la o ´ medici´n propiamente dicha. o n a su interior en tres etapas. con el mismo algoritmo. Total Nacional: 80 municipios. Construir el padr´n en cada manzana de la muestra. para reducir dispersi´n en cada una de esas ciudades. m´ ınimo dos por municipio. a . Otros tres estratos con dise˜o en tres etapas. uno de cada 20 sectores cartogr´fia cos. e con el mismo algoritmo. la muestra de personas a entrevistar. es decir. sin embargo el costo de las dos estrategias puede ser muy diferente. El costo global de una muestra en varias etapas depende de dos costos bien diferentes.200 manzanas y alrededor de 15. Municipios peque˜ os: 14 de 610 municipios. 106 de los 2134 sectores de las 21 ciudades. Resultado final: Dise˜ o muestral para la elecci´n de 2002 n o El resultado de este ejercicio establece que el dise˜o final de muestra en cuan tro estratos y tres etapas para la estimaci´n de la tasa de favoritismo electoral o en Colombia en la elecci´n de 2002 para alcanzar una precisi´n equivalente a o o ˆ CVp (R) = 5.54 Leonardo Bautista S. 60 % de las manzanas por n municipio y una de cada 25 personas por manzana.5. Se llega de esta manera a la propuesta de una estrategia muestral estratificada. e n 2. por los costos asociados a los desplao zamientos entre ellas. En los municipios de los restantes tres estratos la propuesta es seleccionar directamente manzanas y en la siguiente etapa seleccionar personas. 18 La equivalencia una manzana empadronada cuesta lo mismo que diez entrevistas efectivas. 60 % de las manzanas por sector y una de cada 25 personas por manzana.1 % queda conformada as´ ı: Grandes ciudades: 21 de 21 municipios. a Dentro de los sectores seleccionados escoger manzanas. 10 % de las manzanas por municipio y una de cada 25 personas por manzana. dise˜o MAS3 (Bautista 1998). con un estrato de inclusi´n forzosa y dise˜o.

toda ella es pobre. De esa base se retiran las personas pertenecientes a sectores rurales. los tama˜os y las formas de selecci´n establecidas en o n o 19 El supuesto que sustenta esta decisi´n es que el comportamiento rural de cada municipio es o similar al urbano de ese mismo municipio. n 2. . Si alg´n candidato u presidencial logra agrupar favoritismo y rechazo en forma marcada seg´n el nivel u socio-econ´mico. la reuni´n dentro de un mismo conglomerado de o o municipios peque˜os con cercan´ geogr´fica. De hecho. sin embargo mucho m´s determinante y cierto es el a supuesto de alta correlaci´n intracl´sica en lo referente a si se participa o no en el o a comicio electoral.Estrategia de muestreo para una encuesta electoral 55 De esta muestra se puede se˜alar: n El tercer estrato es el que m´s aporta a la varianza global de la estimaci´n. y habr´ que evaluar con cuidado.6. se procede al siguiente ı n ejercicio: Se utiliza la informaci´n municipal de votaci´n y de favoritismo por o o ´ Alvaro Uribe en 2002 para generar una base de datos similar a la Serpa 1998 generando aleatoriamente para cada persona si vot´ o no y si lo hizo o no por Uribe o en 2002. es decir la homogeneidad de opini´n al interior de o a o la manzana puede ser alta. previa construcci´n del respectivo factor de ajuste19 . a la vez que la o proporci´n de personas por manzana es relativamente baja. Un a o aumento de la cantidad de municipios a seleccionar puede elevar mucho los costos operativos. La raz´n de esta decisi´n se basa en el supuesto de o o que la correlaci´n intracl´sica. o La decisi´n de tomar una proporci´n tan peque˜a de sectores en las grandes o o n ciudades. lo que implica que el o costo de construcci´n del padr´n est´ siendo desaprovechado por la cantidad baja o o a de entrevistas por manzana. es decir. la muestra de sectores deber´ ser un poco mayor. se podr´ intentar obtener alguna ventaja mediante la ıa construcci´n de “rutas”. Esto implicar´ una etapa adicional. se podr´ hacer mediciones de opini´n electoral ıan o en seis a ocho momentos diferentes a modo de seguimiento en panel. o ıa La proporci´n de manzanas por sector y municipio parece alta. si la ganancia global de precisi´n ıa o tiene relaci´n con el incremento de costos. Sin embargo. Prueba de la estrategia propuesta Para probar la calidad de la muestra as´ dise˜ada. se puede pensar que con un unico ıa o n ´ padr´n y siguiendo un plan de muestras replicadas en varias fases y traslapando o algunas partes de las muestras. en tal caso habr´ necesidad de ampliar un poco la muestra de manzanas para compensar el ıa efecto que sobre la varianza tiene el hecho de aplicar un dise˜o en fases. o ı se aplica la estratificaci´n. muchos o o sectores son homog´neos en el sentido de que su poblaci´n es socio-econ´micamente e o o del mismo nivel. media o de nivel alto. n ıa a ıa en ese estrato. Aunque se tratar´ de una variaci´n al dise˜o. o Los ensayos realizados en el sentido de incrementar la muestra de municipios del ultimo estrato muestran que con m´s de un municipio no se aporta pr´cticamente ´ a a nada al mejoramiento de la varianza global de la estimaci´n. parece inadecuada si en la elecci´n presidencial o se presenta una fuerte concentraci´n de opini´n por sectores. Sobre ese universo as´ establecido. uno de cada veinte.

e son medidas relativas. que habr´ segunda vuelta. con muy mala suerte se obtendr´ una muestra con la que o ıa se afirmar´ antes de las elecciones. en el que no se ino troducen los sesgos frecuentes en los operativos de campo.9 % o Cantidad media de manzanas a enlistar = 6. la muestra as´ dise˜ada habr´ pronosticado el triunfo inmediato del candiı n ıa dato Uribe.2 horas.000 personas. es decir porcentaje de r´plicas en las que e ˆ 0. Las 500 o repeticiones de este proceso tarda 7. que abarca desde la selecci´n o de municipios.83 % e Porcentaje de r´plicas con estimaci´n superior al 50 % = 96 % e o Varianza estimada de la estrategia = 0. puesto que. r Los resultados obtenidos. son los siguientes: ıs Cantidad de repeticiones independientes = 500 Promedio de las estimaciones de las 500 r´plicas = 0. La causa de esta diferencia radica en que la muestra dise˜ada utiliza como n base la informaci´n referente al candidato H.000443 Confiabilidad estimada. ellas toman valores bajos para tasas altas y valores altos 20 El proceso de seleccionar aleatoriamente 59 municipios de los estratos 2. quien en la primera vuelta de o 1998 obtuvo s´lo 34. seleccionar 106 secciones. 042084 = 94. tienen como denominador o la tasa de favoritismo. quiniene tas repeticiones independientes del proceso completo. la selecci´n de personas 20 y la estimaci´n del porcentaje de votos o o que seg´n la muestra le corresponden a los candidatos. u sabiendo que la tasa final de favoritismo con la que gan´ A.e.56 Leonardo Bautista S. Puesto que tanto el CV como su estimaci´n el c.1 %.000443 ˆ ∈ Ry ± 0. y realizar la estimaci´n pedida se realiza en 51.v. la propuesta planteada. de 3.v.8 % del favoritismo. Uribe en 2002 en el o pa´ fue 53. La precisi´n obtenida o es equivalente a un c. Se procede entonces a realizar en forma computacional (v´ase anexo 2).5383= 53. cerca de seis mil manzanas y alrededor de 15. 5387 = Ry ∈ Ry ± z1− α 2 ˆ ˆ Vp (Ry ) ˆ ∈ Ry ± (2) 0. lo que no es necesariamente sorprendente. es decir. 3 y 4.3 % del favoritismo. se trata de un ejercicio de c´mputo. o el candidato Uribe obtuvo el 53.8 segundos. con las especificaciones de hardware y software se˜aladas anteriormente.9 % que dista algo del CV programado y equivalente a 5.v. La confiabilidad estimada es casi del 95 %. mientras que en el ejercicio presentado. ıa casos.87 %.110 Cantidad media de personas a entrevistar = 14. En el 96 % de los ıa.e = 3. n . 8 % Coeficiente de variaci´n estimado c. Serpa.530 Es evidente que s´lo. siempre con el algoritmo de Fan-Muller-Rezucha.

7. Puesto que el plan muestral toma porceno tajes de manzanas en los municipios seleccionados y ellos var´ en cada muestra ıan de primera etapa.v. para el dise˜o de una posible muestra n para una ENFEP-2006. para el dise˜o de la muestra 2002.500 y 6. De igual manera. La muestra propuesta resulta insuficiente para estimar con n confiabilidad y precisi´n la tasa de favoritismo de los candidatos que ocuparon el o tercer y cuarto lugar en la elecci´n de 2002. los municipios: Bogot´. C´cuta. u ıa As´ como se utilizan los datos de Serpa 1998. Cartago. Gir´n. el que para poder ser considerado como plan muestral final. Barrancabermeja. la cantidad de personas a entrevistar depende del tama˜o de las n manzanas. m´s te´rico que pr´ctico. Es decir. 21 Realizado el mismo ejercicio para estimar los resultados del candidato Serpa se obtuvo un promedio de 31. Santa Marta.9 %. vuelve a ser candidato a la Presidencia de la Rep´blica. Armenia. que trat´ndose de poro a centajes tan bajos. ı n se pueden utilizar los datos de Uribe 2002. La muestra propuesta tiene el inconveniente. se estar´ en un caso similar a lo sucedido con Serpa 1998-2002. e 2. y tres de inclusi´n probabil´ n o o ıstica. deber´ ser trabajado y presentado con mayor detalle. Bello. Para las elecciones el 2006 entrar´ en el dise˜o muestral que aqu´ se propoıan n ı ne. Barranquilla. la cantidad de manzanas a empadronar termina siendo variable. Itag¨´ Rionegro. Las elecciones de 2002 estuvieron marcadas. de manera segura en la muestra. que haga posible una n aproximaci´n al costo total del operativo. o o e en la muestra de la ENFEP-2002 eran necesarios. Pereira. Se siguen entonces los mismos pasos y se llega al siguiente resultado global. por una fuerte polarizaci´n del favoritismo en los municipios.4 % realmente obtenido y un c. 6. el primero ıs con dise˜o de inclusi´n forzosa. lo que significa un crecimiento del 80 %. que aleatoriamente se seleccionen en la muestra de la segunda etapa. Santa Rosa de Cabal. dad. ıa Se particiona el conjunto de municipios del pa´ en cuatro estratos. para la ENFEP-2006 se necesitan 19 a de 42 municipios. Buenaventura.e de 5. El estrato de inclusi´n forzosa que antes estaba conformado por o 21 municipios. de no a o a entregar un tama˜o de muestra relativamente constante. las muestras necesarias sean considerablemente grandes22 . una importante reo ducci´n del segundo estrato y una mayor concentraci´n muestral en ´l.0 % respectivamente. 44 de 144 municipios. contiene ahora 38 municipios.3 % y 6. a diferencia de lo sucedido en los comicios anteriores. Esa polarizaci´n o o genera un fuerte crecimiento del estrato de inclusi´n forzosa. en el segundo estrato. a Tul´a. el Presidente Alvaro Uribe. Cali.700 y en el 80 % de las r´plicas se e deben entrevistar entre trece y diecis´is mil personas.5 % contra 32. algo m´s de uno por cada tres. Bucaramanga. El ejercicio realizado se˜ala que en el 76 % de los casos la cantidad de manzanas n a empadronar es una cantidad entre 5.Estrategia de muestreo para una encuesta electoral 57 para tasas peque˜as21 . Soleu ın uı. Cartagena. 22 Aun mayor deben ser las muestras necesarias para la estimaci´n de la tasa nacional de o favoritismo de candidatos al Senado de la Rep´blica u . Medell´ Envigado. u o Manizales. Es natural. Dosquebradas. Floridablanca. Aplicaci´n de la metodolog´ propuesta para las o ıa elecciones presidenciales de 2006 ´ Si en 2006.

Villavicencio.8 % para el porcentaje de 53. Luego los municipios con m´s de 70 sectores. para la que. la muestra a n e ´ para la primera etapa de la ENFEP-2006 es de 85 municipios. que conforma el primer grupo y ciudad. Cali. y de ´l se extraen 27 munie cipios. El quinto grupo. Con esta propuesta se consigue un CV de 2. El crecimiento de la muestra en los dos primeros estratos implica un crecimiento en la cantidad de manzanas a empadronar.58 Leonardo Bautista S. vale la pena considerar con anticipaci´n alo gunos comportamientos pol´ ıticos. en buena parte al candidato Uribe y sus propuestas pol´ ıticas. en los que todos sus sectores hacen parte de la muestra de la segunda etapa. Bogot´. e ıa. que bien podr´ ıa ser afinada a fin de reducir costos. dicha polarizaci´n se puede presentar tambi´n y en forma marcada entre diferentes o e niveles socio-econ´micos. como Neiva. se empadronan siempre la mitad de las manzanas residenciales. Se crean entonces cinco grupos de municipios. entonces. dependiendo o o a del o los candidatos m´s importantes que se opongan a ´l en la elecci´n.400 manzanas n y 15. la propuesta global. Con estos valores de tama˜os de muestra se concluye en una muestra global de cerca de 6. en o o esta elecci´n alrededor del 40 %. De otra parte. o lo que equivale a un promedio de 2. Se trata. se debe considerar que si la polarizaci´n pol´ o ıtica de los municipios es atribuible. n n Es posible que el candidato Uribe no obtenga.800 personas a entrevistar. u o Ibagu´. se estar´ ante un coeficiente de variaci´n cercano o ıa o al 4 %. Este fen´meno puede ser mucho m´s fuerte. Si el favoritismo llega. en ellos la muestra es a el 25 % de sus sectores. Valledupar. a que conforma el segundo grupo. Maicao. Para todos los casos. una votaci´n tan voluminosa como en 2002. En ellos la muestra es la mitad de sus sectores. y el coeficiente de variaci´n propuesto puede ser n o calificado de ambicioso.5 personas por manzana. que tienen efecto estad´ ıstico importante. El grupo cuatro lo conforman los municipios que tienen entre quince y setenta sectores. Ci´naga. es tomar una de cada treinta personas. para la a que se propone una muestra de tres por cada veinte sectores cartogr´ficos. de tama˜os conservadores. en la muestra se toma el 20 % de los sectores. equivalente a dos de cada veinticinco manzanas. Para los sectores de los municipios del primer estrato se propone. En este estrato se encuentran a´n algunas capitales departamentales imu portantes. Sogamoso. e El tercer estrato contiene ahora 594 municipios. el efecto de dicha polarizaci´n es la elevaci´n de la o o correlaci´n intracl´sica a nivel de sectores cartogr´ficos y de manzanas. Soacha. Sin embargo. Puerto Tejada y Pasto. En los municipios seleccionados en el estrato dos se toma una muestra de manzanas. en la primera vuelta de la elecci´n de 2006. El ultimo estrato contiene los 342 a ´ municipios m´s peque˜os y de ´l se extrae un unico municipio. En los municipios n seleccionados de los estratos tres y cuatro. En cono a a secuencia es necesario tomar muestras con m´s manzanas y pocas personas por a . Riohacha. Quibd´. Sincelejo. sin duda. Los municipios que componen el primer estrato tienen tama˜os muy diferentes lo que sugiere un tratamiento particular de n la cantidad de sectores a seleccionar en cada municipio. Desde a e o el punto de vista estad´ ıstico. y que pueden terminar se˜alando dichos tama˜os de muestra como apropiados. Monter´ Sahag´n. de tama˜o equivalente a empadronar tres de cada veinte. una muestra en la tercera etapa. Popay´n y Florencia. aquellos municipios con menos de quince sectores.9 % que obtuvo el candidato Uribe en 2002. En total.

5 % a 48.9 % 63 % ´ m´s o a 0a 18.6 % 0a 37 % 1019 250 250 250 269 250 221 28 1 250 28 172 47 3 250 1 50 150 49 269 52 217 Tabla 5: Cantidad de municipios seg´n porcentaje de votos para Horacio Serpa en u la segunda vuelta de 1998 (filas) cruzado con sus resultados en 2002 (columnas) Total Total 0 a 25.4 % 68.2 % a 62.1 % 0a 32 % 1019 250 250 250 269 250 154 59 24 13 250 63 98 55 34 250 27 62 91 70 269 6 31 80 152 .1 % 25.3 % a 54.9 % 55 % ´ m´s o a 1019 250 250 250 269 250 189 47 9 5 250 53 125 50 22 250 8 71 106 65 269 7 85 177 Tabla 6: Cantidad de municipios seg´n porcentaje de votos para Andr´s Pastrana u e ´ en la segunda vuelta de 1994 (filas) cruzado con los resultados de Alvaro Uribe en 2002 (columnas) Total Total 71.1 % a 54.4 % 62. A. como la propuesta que aqu´ se discute.9 % 19 % a 35.6 % 31.2 % a 45.3 % 37.5 % a 71. Obviamente. Anexo 1 Tabla 4: Cantidad de municipios seg´n porcentaje de votos para Andr´s Pastrana u e en la segunda vuelta de 1994 (filas) cruzado con sus resultados en la 2a vuelta 1998 (columnas) Total Total 71. si se anticipa que ı ninguno de estos dos fen´menos se presentar´ en la elecci´n.4 % 0 a 31.1 % a 46.6 % 31. podr´ hacerse alo a o ıan guna reducciones importantes en cantidad de manzanas a empadronar y personas a entrevistar.7 % ´ m´s o a 48.4 % ´ m´s o a 54.5 % a 71.7 % a 68.Estrategia de muestreo para una encuesta electoral 59 manzana.2 % 45.2 % ´ m´s o a 46.3 % a 62.5 % a 48.2 % 35.7 % ´ m´s o a 48.4 % 0 a 31.1 % 32.

B. para la o o elecci´n presidencial de 2002 o Paso 1. igual cero o uno concentrando el 15 % de la votaci´n por Uribe en las secciones o tipo a y el 85 % en las secciones tipo b. Para cada uno de los registros se genera aleatoriamente un valor yk . que efect´a: u Para los municipios del primer estrato realiza la selecci´n aleatoria o de sectores cartogr´ficos. ıa o manzana y persona. Se fija que en los 120 municipios m´s grandes. ıas Paso 6. se crea el factor de correcci´n por ruralidad y se eliminan o los datos correspondientes a las zonas rurales. se hace zk = 1 con probabilidad igual al cociente entre o votaci´n y poblaci´n total del municipio. a Para los estratos dos. Para cada uno de los 19. se hace zk = 1 con probabilidad igual al cociente o entre el 23 % de la votaci´n total del municipio en 2002 y la poblaci´n o o mayor de 18 a˜os en el municipio. Para cada municipio se establecen los valores de los tama˜os muestrales n sectxmpio. o o Paso 3. a Paso 2. 2003). al interior a de cada una de las cinco jerarqu´ 23 . Anexo 2 L´gica de programaci´n para la generaci´n de quinientas repeticiones o o o de selecci´n de muestra y estimaci´n de la tasa de favoritismo. y procede a la numeraci´n. Paso 5. de acuerdo al plan muestral propuesto. tres y cuatro realiza la selecci´n de municipios. Se establece para cada municipio. Si el individuo pertenece a o o una secci´n tipo c.98 horas. de tipo b. sector. ordena ıa los registros siguiendo la jerarqu´ de selecci´n: estrato. El 30 % de las o a a secciones de esos 120 municipios se denominan de tipo a y el resto. manzxsect. o las especificaciones de software y hardware dadas anteriormente. necesaria para poder aplio car el algoritmo de Fan-Muller-Rezucha (S¨rndal et al. En en los dem´s municipios todas las secciones son de tipo c. cada sector y cada manzana el tama˜o n espec´ ıfico de muestra que le corresponder´ si fuera seleccionado.109.852 registros se genera aleatoriamente un valor zk . se hace yk = 1 con probabilidad igual al cociente entre la votaci´n o por Uribe en 2002 y la cantidad de votos v´lidos en ese municipio en dicha a elecci´n.60 Leonardo Bautista S. manzxmpio y persxmanz. municipio. el proceso que contempla estos primeros cinco pasos preparatorios dura 4.Si el registro pertenece a una secci´n n o tipo b. se presenta el fen´meno a o de correlaci´n intracl´sica en las secciones cartogr´ficas. Se elabora una rutina macro de selecci´n Fan-Muller-Rezucha para M AS 3 o denominada sel mas 3. Si el registro es de una secci´n o tipo c. 23 Con . se hace zk = 1 con probabilidad igual al cociente entre el 77 % de la votaci´n total y la poblaci´n del municipio. o Paso 4. igual cero o uno de la siguiente forma: si el individuo pertenece a una secci´n tipo a.

32–44. Paso 8. (1998). Biemer. M. 94–112. Bogot´. (2004). Hidiroglou. P. Universidad Nacional de Colombia. National Council on Public Polls . de nombre simula K. A. & Hidiroglou. Bogot´. 27–31. R. con K = 500. Revista Colombiana de Estad´ ıstica 19(2). (2003). una aplicaci´n de los m´todos ´ n o e factoriales al estudio de series temporales cortas’. o Para la muestra seleccionada calcula la tasa de favoritismo. Elecciones presidenciales de 1994 en Colombia.stanford. B. XVI Censo nacional de poblaci´n y V de vivienda.. ‘On the stratification of skewed populations’. (1986). invoca K-veces a la macro a sel mas 3 y adiciona la tasa estimada a la base de resultados. Universidad Nacional de Colombia.edu/group/gradethenews RNEC (1994). L. a . Se elabora una rutina macro.Estrategia de muestreo para una encuesta electoral 61 Para los sectores y municipios seleccionados realiza la selecci´n de o manzanas. (1989). (2002). E. L. para un par´metro K dado. Bogot´. ‘How reliable are political polls?’. L. & Weeks. R. Public Opinion 67(Q3). & Pacheco. The American Statistician 40. 33–43. McManus. Lesler. Bibliograf´ ıa Bautista. e Bautista. M. S. J. Para las manzanas seleccionadas realiza la selecci´n de personas. Lavall´e.. que crea una base de resultados. Folsom.. Shah. (1988). Kulka. o n fke = f crie NIe Nie Niqe nIe nie niqe Paso 7. Dise˜o y desarrollo de encuestas. P. DANE. M. a Bautista. R. e Survey Methodology 14. & Witt. in ‘Simposio Colombiano de n Estad´ ıstica’. ‘An´lisis de la evoluci´n del comportamiento a o electoral departamental en los ultimos a˜os. o a Gawiser. (2000). ‘The construction of a self-representing stratum of large units in survey design’.. P. utilizando como factor de expansi´n el producto del factor de correcci´n por ruo o ralidad por el factor te´rico correspondiente al dise˜o EST − M AS 3 . ‘20 questions a journalist should ask about poll results’. *http://www. Dise˜os de muestreo estad´ n ıstico. ‘An evaluation of procedures and operations used by the voter news service for the 2000 presidential election public’. J. Se invoca la macro simula K. Registradur´ Naıa cional del Estado Civil. San Andr´s. DANE (1996).

Springer Verlag. RNEC (1998). a S¨rndal.62 Leonardo Bautista S. E. 2 edn. Model Assisted Survey Sama pling. J. Elecciones presidenciales de 2002 en Colombia. Swensson.. New York. Bogot´. . Registradur´ Naıa cional del Estado Civil. Elecciones presidenciales de 1998 en Colombia. & Wretman. Bogot´. C. Registradur´ Naıa cional del Estado Civil. B. (2003). a RNEC (2002).

Sign up to vote on this title
UsefulNot useful