Prólogo

C
Omo nunca antes, la sociedad produce enormes cantidades de informa-
ción, de ahí que a menudo sea llamada sociedad de la información y
del conocimiento. Los gobiernos, las empresas privadas, las instituciones y los
ciudadanos usan datos intensamente para tomar decisiones bajo situaciones
inciertas: los partidos políticos quieren saber cuántos votos tendrán en las
próximas elecciones, las empresas desean conocer sus consumidores poten-
ciales, los investigadores a menudo (con frecuencia) deben estimar las áreas
afectadas por una plaga, en fin, las aplicaciones son infinitas. En tanto no es
posible evaluar todos los datos o la población total, es más factible y eficiente
extraer una muestra que pueda validar estadísticamente y con una confianza
aceptable los resultados para los datos o la población en su conjunto.
¿Por qué este libro?
El interés por escribir este libro que el lector tiene en sus manos, surgió
porque muchos administradores, estudiantes y profesionistas de nuestras in-
stituciones académicas frecuentemente nos pedían apoyo para calcular tamaños
de muestras, con el fin de fundamentar sus decisiones o incluso sus proyec-
tos de investigación. El objetivo del libro es precisamente ayudar a elegir el
esquema de muestreo apropiado, calcular el tamaño de muestra y hacer las
estimaciones correspondientes, lo cual no es una tarea fácil para las personas
que carecen de una formación intermedia o avanzada en estadística, además
de que la mayoría de los libros de esta temática suelen ser poco accesibles.
Estructura del libro
El libro contiene una introducción general y seis capítulos adicionales que
cubren conceptos básicos de estadística y los métodos de muestreo aleatorio
simple, aleatorio estratificado, sistemático, por conglomerados en una etapa
y de respuestas aleatorizadas; así mismo, por su naturaleza aplicada, el libro
está acompañado por muchos ejemplos y ejercicios para que el lector prac-
tique los conceptos aprendidos. Pero es preciso aclarar dos cosas. En primer
lugar, todos los métodos de muestreo cubiertos en este libro suponen que el
investigador ya aplicó una encuesta piloto. Y en segundo lugar, para todos
los métodos resaltamos la estimación puntual y por intervalo de la media, la
proporción y el total poblacioneal, hechando mano de la información recabada
con la encuesta piloto.
En el capítulo 1 la introducción general describe en términos globales los
métodos que cubren a detalle los capítulos posteriores, y también incluye ejer-
cicios a fin de que el lector adquiera la habilidad de seleccionar el método de
muestreo apropiado para su investigación y domine conceptos fundamentales
como confiabilidad, precisión, muestra preliminar o piloto, marco de muestreo
. El capítulo 2 aborda los conceptos básicos de estadística y muestreo estadís-
tico que serán útiles para entender las técnicas de muestreo y como obtener
los valores de las tablas de la distribución normal estándar y t-student; entre
otras cosas, el capítulo versa sobre poblaciones, muestras, escalas de medi-
ción, parámetros y estimadores, sumatorias, variables aleatorias, la distribu-
ción normal y t-Student, los tipos de muestreo y las características deseables
de las encuestas.
Los capítulos 3 y 4 tratan sobre el muestreo aleatorio simple y estratifica-
do, respectivamente. En el muestreo simple todas las muestras de tamaño n
tienen la misma probabilidad de ser elegidas, mientras que en el estratificado
la población total se divide en subpoblaciones o estratos con criterios clara-
mente definidos. La idea central de la estratificación es reducir el costo de
la investigación, porque muchas variables comparten características similares
como gustos, sexo, hábitos alimenticios, ubicación geográfica, etc. De igual
manera para reducir costos, el capítulo 5 presenta la técnica del muestreo sis-
temático, donde la muestra se compone de unidades extraídas dando saltos de
k unidades de la población. Otra ventaja de este método es que sólo se fija un
intervalo de selección de las unidades muestrales y por ello se evita el uso de
métodos de aleatorización complejos.
Para finalizar, los capítulos 6 y 7 cubren los métodos de muestreo por con-
glomerados en un etapa y de respuesta aleatorizada. El primer método ayu-
da a simplificar los muestreos exhaustivos cuando la población es demasia-
do grande y sus elementos comparten rasgos comunes. Por ejemplo, en las
encuestas nacionales de los clientes bancarios, de los usuarios de servicios
públicos o del control de calidad de ciertos medicamentos. Por su parte, el
método de respuesta aleatorizada, que se complementa con el aleatorio sim-
ple o el estratificado, intenta resolver el problema de la falta de respuestas a
preguntas sensibles como el uso de enervantes, relaciones sexuales o de otra
índole. Además, para este caso se presenta el procedimiento desarrollado por
S. Warner (1965) para obtener respuestas difíciles que ayuden estimar la pro-
porción de personas con la característica de interés que se busca.
Agradecimientos
Queremos dar las gracias a todas las personas que influyeron positivamente
en la realización de este libro. En especial, a nuestros alumnos de la Licen-
ciatura en Informática, de Ingeniería en Telemática y los de la Facultad de
Ciencias de la Universidad de Colima, por su paciencia, tolerancia y sugeren-
cias para mejorar los borradores. También a los alumnos Martín Hugo del Toro
Guzmán, Hugo Torres López Y Henry Nicole Ramírez de la Facultad de Cien-
cias, por su apoyo en la captura de la versión preliminar de los manuscritos.
Los autores
Colima, México
Índice general
1. Introducción 1
2. Conceptos básicos de estadística 3
2.1. ¿Qué es la estadística y para qué sirve? . . . . . . . . . . . . . . . 3
2.2. Población y muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4. ¿Qué es una medición? . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.5. Las escalas de medición . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.6. Parámetros y estimadores . . . . . . . . . . . . . . . . . . . . . . . 8
2.7. Sumatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.8. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.9. La distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.10.La distribución normal estándar . . . . . . . . . . . . . . . . . . . . 12
2.11.El Teorema Central del Límite . . . . . . . . . . . . . . . . . . . . . 13
2.12.La distribución t-Student . . . . . . . . . . . . . . . . . . . . . . . . 14
2.13.Los tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.14.El marco de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.15.Pasos a seguir en el diseño de una encuesta . . . . . . . . . . . . . 18
2.16.Las ventajas y desventajas del muestreo . . . . . . . . . . . . . . . 22
2.17.Las características deseables en una investigación por muestreo . 23
2.18.Errores de las encuestas . . . . . . . . . . . . . . . . . . . . . . . . 24
2.19.Muestra preliminar o piloto . . . . . . . . . . . . . . . . . . . . . . . 24
2.20.La precisión de la estimación . . . . . . . . . . . . . . . . . . . . . . 25
2.20.1.Elementos para elegir la precisión o margen de error . . . . 26
2.21.Uso de tablas para la distribución normal estándar y t-student . 28
2.21.1.Distribución normal estándar para n > 30 . . . . . . . . . . 28
2.21.2.Distribución t-student para n ≤ 30 . . . . . . . . . . . . . . . 30
3. Muestreo aleatorio simple 33
3.1. Tipos de muestreo aleatorio simple . . . . . . . . . . . . . . . . . . 34
3.2. Selección de una muestra aleatoria simple . . . . . . . . . . . . . . 35
3.3. Estimación de la media poblacional . . . . . . . . . . . . . . . . . . 36
3.3.1. Estimador de la media y del total muestral . . . . . . . . . . 37
3.3.2. Estimación de la varianza . . . . . . . . . . . . . . . . . . . . 37
3.3.3. Estimación por intervalo . . . . . . . . . . . . . . . . . . . . 38
3.3.4. Determinación del tamaño de la muestra . . . . . . . . . . . 40
3.3.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5. La estimación de una proporción poblacional . . . . . . . . . . . . 52
III
3.5.1. La medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5.2. El estimador de la proporción poblacional P y su relación
con el estimador de una media poblacional . . . . . . . . . 52
3.5.3. La varianza de la población para una proporción . . . . . . 53
3.5.4. Los intervalos de confianza . . . . . . . . . . . . . . . . . . . 54
3.5.5. El tamaño de muestra requerido para estimar P . . . . . . 55
3.5.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4. El muestreo aleatorio estratificado 65
4.1. Ventajas de utilizar MAE . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2. ¿Cómo seleccionar una muestra aleatoria estratificada? . . . . . . 67
4.3. La estimación de la media poblacional . . . . . . . . . . . . . . . . 67
4.3.1. El estimador de la varianza de la media estratificada . . . . 68
4.3.2. El intervalo de confianza para la estimación de la media
estratificada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.3.3. El estimador del total estratificado . . . . . . . . . . . . . . 69
4.3.4. La varianza del estimador del total estratificado . . . . . . . 69
4.3.5. El intervalo de confianza . . . . . . . . . . . . . . . . . . . . 69
4.3.6. La determinación del tamaño de la muestra . . . . . . . . . 69
4.3.7. La asignación de la muestra . . . . . . . . . . . . . . . . . . 71
4.4. La selección de estratos . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.6. La estimación de la proporción poblacional . . . . . . . . . . . . . 88
4.6.1. El estimador de la proporción y total poblacional . . . . . . 89
4.6.2. Los intervalos de confianza para la proporción y total pobla-
cional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.6.3. El tamaño de muestra para estimar la proporción estratifi-
cada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.6.4. Asignación de la muestra . . . . . . . . . . . . . . . . . . . . 91
4.6.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5. El muestreo sistemático 105
5.1. Tipos de población por su estructura . . . . . . . . . . . . . . . . . 107
5.2. ¿Cómo seleccionar una muestra sistemática? . . . . . . . . . . . . 108
5.3. La estimación de la media poblacional . . . . . . . . . . . . . . . . 110
5.3.1. La varianza de la media y del total. . . . . . . . . . . . . . . 110
5.3.2. El intervalo de confianza de la media y el total . . . . . . . . 111
5.3.3. La selección del tamaño de la muestra. . . . . . . . . . . . . 111
5.3.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.5. La estimación de la proporción poblacional . . . . . . . . . . . . . 124
5.5.1. El estimador de la proporción y el total . . . . . . . . . . . . 124
5.5.2. La varianza estimada de la proporción y el total sistemático 125
5.5.3. El intervalo de confianza para la proporción y el total sis-
temático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.5.4. La selección del tamaño de muestra para la proporción y el
total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.5.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
6. El muestreo por conglomerados en una etapa 139
6.1. ¿Qué puede ser un conglomerado? . . . . . . . . . . . . . . . . . . 140
6.2. Una comparación con el muestreo estratificado . . . . . . . . . . . 141
6.3. Acerca del tamaño del conglomerado . . . . . . . . . . . . . . . . . 142
6.4. La estimación de una media y un total poblacional con M conocida143
6.4.1. El estimador de la media poblacional . . . . . . . . . . . . . 143
6.4.2. El estimador del total poblacional . . . . . . . . . . . . . . . 144
6.4.3. La varianza estimada de ¯ y
c
y ˆ τ
c
. . . . . . . . . . . . . . . . . 144
6.4.4. El intervalo de confianza de la media y el total . . . . . . . . 144
6.4.5. La determinación del tamaño de muestra . . . . . . . . . . 145
6.4.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
6.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
6.6. La estimación de la media y un total cuando se desconoce M . . . 162
6.6.1. ¿Qué sucede cuando se desconoce el tamaño de la población
M? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.6.2. El estimador de la media y el total poblacional . . . . . . . 162
6.6.3. La varianza estimada de la media y del total. . . . . . . . . 163
6.6.4. El intervalo de confianza de la media y del total. . . . . . . 163
6.6.5. Los tamaños de muestra para estimar la media y el total . 163
6.7. La estimación de una proporción poblacional . . . . . . . . . . . . 164
6.7.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
6.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
7. El muestreo basado en el método de respuesta aleatorizada 175
7.1. ¿Cuándo se utiliza esta técnica? . . . . . . . . . . . . . . . . . . . . 176
7.2. Ventajas y desventajas . . . . . . . . . . . . . . . . . . . . . . . . . 177
7.3. El modelo de respuesta aleatorizada bajo el MAS . . . . . . . . . . 177
7.3.1. El estimador de la proporción y el total poblacional . . . . 179
7.3.2. La varianza estimada de los estimadores de la proporción
y del total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
7.3.3. El intervalo de confianza de la proporción y el total . . . . . 179
7.3.4. El tamaño de la muestra para la proporción y el total . . . 180
7.3.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
7.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
7.5. El modelo de respuesta aleatorizada bajo el MAE . . . . . . . . . 191
7.5.1. El estimador de la proporción y el total poblacional . . . . . 192
7.5.2. La varianza de los estimadores de la proporción y total
poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
7.5.3. El intervalo de confianza para el promedio y total poblacional192
7.5.4. El tamaño de la muestra para estimar la proporción y el total193
7.5.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
7.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
7.7. Alternativa al modelo de respuesta aleatorizada . . . . . . . . . . . 211
7.8. Respuesta aleatorizada versión Horvitz bajo MAS . . . . . . . . . 212
7.8.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
7.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
7.10. Respuesta aleatorizada versión Horvitz bajo MAE . . . . . . . . . 222
7.11.¿Cuál método de respuesta aleatorizada es mejor? . . . . . . . . . 223
A. Tablas de la distribución normal estándar y de la distribución t-
student 225
Índice de figuras
2.1. Forma de la distribución normal para la variable estatura (Y ) con media
90 cm. y DE=5 cm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2. Forma de la distribución normal estándar (Z), es decir, Z ∼ N(µ =
0, σ
2
= 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3. Comparación de la distribución normal estándar con las distribuciones
t-student con 1, 3, 5 y 10 gados de libertad . . . . . . . . . . . . . . . 15
5.1. La dispersión del marco de muestreo de una población aleatoria . . . . 107
5.2. La dispersión del marco de muestreo de una población ordenada . . . . 108
A.1. Varianzas de distribuciones finitas (S
2
), en función de su forma y
rango. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
III
Índice de cuadros
2.1. Ejemplo 1 para el uso de las tablas de la normal estándar . . . . 29
2.2. Ejemplo 2 para el uso de las tablas de la normal estándar . . . . 29
2.3. Ejemplo 3 para el uso de las tablas de la normal estándar . . . . 30
2.4. smallcaption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5. Ejemplo para el uso de las tablas de la distribución t-student . . 31
4.1. Plantas por hectárea infectadas . . . . . . . . . . . . . . . . . . . . 73
4.2. Faltas justificadas por año. . . . . . . . . . . . . . . . . . . . . . . . 77
4.3. El ingreso promedio mensual (miles de pesos) de las familias chia-
panecas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.4. El número de horas diarias que cada familia ve televisión . . . . . 84
4.5. Resultado del número más probable de coliformes fecales por 100
ml. de agua. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.6. Calificaciones de los egresados de la Normal Superior . . . . . . . 88
4.7. Daño promedio a corazoón de las tres sepas en porcentaje. . . . . 88
4.8. Porcentaje de tanino por kg. de nance. . . . . . . . . . . . . . . . . 89
5.1. Esquema de un muestreo sistemático . . . . . . . . . . . . . . . . 106
5.2. El porcentaje de grasa por envase de leche ultrapasteurizada . . . 112
5.3. El peso de los sacos de maíz (Kg) . . . . . . . . . . . . . . . . . . . 115
5.4. El porcentaje de sacarosa por planta . . . . . . . . . . . . . . . . . 118
5.5. El número de microprocesadores dañados por caja . . . . . . . . . 120
5.6. Datos de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.7. Datos de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.8. Datos de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.9. Datos de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.10.Los alumnos satisfechos e insatisfechos. . . . . . . . . . . . . . . . 126
5.11.Los colimenses que al menos en una ocasión se han enfermado
de dengue. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5.12.Los estudiantes que tienen licencia para conducir . . . . . . . . . 131
5.13.Los asegurados que contrajeron gripe o tos por lo menos una vez
en los últimos seis meses . . . . . . . . . . . . . . . . . . . . . . . . 134
5.15.Albañiles que consumen cerveza . . . . . . . . . . . . . . . . . . . . 136
5.16.Muestra de colchones. . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.17.colimenses que han visitado Francia. . . . . . . . . . . . . . . . . . 137
5.18.colimenses que han visitado Palenque, Chiapas. . . . . . . . . . . 137
6.2. El gasto en útiles escolares por estudiante (en pesos). . . . . . . . 147
6.4. El contenido de carbohidratos por reja de refresco . . . . . . . . . 151
6.5. Ejemplares comprados por familia. . . . . . . . . . . . . . . . . . . 154
V
6.6. Emigrantes de las 12 localidades. . . . . . . . . . . . . . . . . . . . 157
6.7. Nivel de satisfacción de los médicos en cada hospital . . . . . . . 161
6.8. Kg. de basura producidos por vivienda semanalmente. . . . . . . 162
6.9. El total de cacahuates producidos por tramo . . . . . . . . . . . . 165
6.10.El agua de coco por palmera (litros). . . . . . . . . . . . . . . . . . 168
6.12.smallcaption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
6.13.smallcaption . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
A.1. Distribución normal estándar acumulada. . . . . . . . . . . . . . . 226
A.2. Puntos porcentuales de la distribución t-student. . . . . . . . . . 227
A.3. Tabla de números aleatorios . . . . . . . . . . . . . . . . . . . . . . 229
Capítulo 1
Introducción
L
Os cambios radicales en las tecnologías de la información y las telecomu-
nicaciones han generado una enorme cantidad de información sin prece-
dentes. La tecnología está cambiando el mundo en que vivimos. La importancia
de este cambio es comparable al de las revoluciones industriales de los siglos
XVIII y XIX. En las dos últimas décadas, la Internet y las tecnologías de la in-
formación han transformado el funcionamiento de las empresas, los métodos
de aprendizaje de los estudiantes, los métodos de investigación de los cientí-
ficos y la forma en que los gobiernos prestan sus servicios a los ciudadanos.
Las tecnologías digitales han demostrado ser un potente motor del crecimiento
económico y de la competitividad. En general, estos cambios continuos y evo-
lutivos han transformado a la sociedad, de una basada en la producción de
objetos físicos, a una donde el énfasis principal es la producción e intercambio
de información. Por consiguiente, se ha alterado no sólo la interacción humana
con la información, sino que también el comportamiento individual y colectivo
de los individuos (Danger, et. al., 1996 [8]), ya que exige cambios muy rápidos
a los nuevos paradigmas.
Los gobiernos, las empresas privadas, las instituciones, así como los ciu-
dadanos, necesitan usar intensivamente información y datos para el análisis
de fenómenos y toma de decisiones en circunstancias de gran complejidad e
incertidumbre. La información sobre la cantidad y calidad de un recurso para
tomar tales decisiones pueden ser obtenidas mediante una evaluación exhaus-
tiva, esto es, cuantificar o calificar todo el recurso (población). Sin embargo, en
la mayoría de las circunstancias no es posible o conveniente hacer la evalu-
ación exhaustiva sobre toda la población, principalmente por la carencia de
recursos, por ello se justifica que gran parte de los conocimientos, actitudes
y decisiones humanas estén basadas en el análisis de información parcial, es
decir, en el estudio de muestras, concretamente en el uso del muestreo. Al
hacer la evaluación con solamente una fracción de la población o del recurso,
se espera que las determinaciones hechas también pertenezcan a la población,
implícitamente se acepta esa suposición, aunque siempre se corre el riesgo de
que tal suposición no sea totalmente cierta. El objetivo principal de las técni-
cas de muestreo es darle objetividad a ese riesgo.
El uso del muestreo como un medio para obtener conocimiento y tomar de-
cisiones, es algo normal y cotidiano en las actividades humanas. En estudios
1
Capítulo 1. Introducción
de mercado, el muestreo sirve para conocer las preferencias de los consumi-
dores de cierto producto; en los estudios demográficos y sociales, para conocer
los niveles de empleo y desempleo, los ingresos y niveles de escolaridad en
los habitantes de una ciudad o país, la prevalencia y la incidencia de la dro-
gadicción, etc.; y en la industria, para el control de calidad en el proceso de
producción. En fin, el muestreo se utiliza prácticamente en todas las áreas del
conocimiento.
Sin embargo, elegir el esquema de muestreo, calcular el tamaño de la mues-
tra y realizar las estimaciones correspondientes no es una tarea fácil para
todas aquellas personas con poca formación en estadística. Por ello, este li-
bro pretende ayudar a los investigadores, estudiantes y profesionales de las
distintas áreas del conocimiento que frecuentemente se encuentran con estos
problemas para que realicen sus actividades de una forma apropiada y eficaz.
Además, sirve en un primer curso de muestreo estadístico aplicado, dirigido a
estudiantes de nivel licenciatura, en cualquier área del conocimiento. El ma-
terial no supone conocimientos profundos sobre matemáticas o probabilidad y
por lo tanto, tampoco realizar demostraciones formales.
Los objetivos centrales que persigue este documento son:
Presentar la forma adecuada de seleccionar una muestra, lo que deno-
minaremos diseños de muestreo, considerando las características de las
poblaciones de interés.
Exponer las fórmulas para calcular los estimadores.
Exponer las fórmulas adecuadas para calcular el tamaño de una mues-
tra para satisfacer las exigencias preestablecidas sobre la calidad de los
estimadores.
Proporcionar ejemplos ilustrativos para cada uno de los esquemas de
muestreo para facilitar su comprensión.
2
Capítulo 2
Conceptos básicos de estadística
Que la estadística es bella,
no lo vengo a presumir.
Sólo requiere de entrega,
para poderla sentir.
OAML
2.1. ¿Qué es la estadística y para qué sirve?
E
N la literatura existen numerosas definiciones de la estadística. En lugar
de hacer acopio de diversas definiciones y darnos a la tarea de comparar-
las, señalando su ambigüedad o insuficiencia, aceptaremos la siguiente:
Estadística
”La estadística es la ciencia que se ocupa de los métodos y pro-
cedimientos para recoger, clasificar, resumir, hallar regularidades y
analizar los datos, siempre y cuando la variabilidad e incertidumbre
sea una causa intrínseca de los mismos; así como de realizar
inferencias a partir de ellos, con la finalidad de ayudar a la toma de
decisiones y en su caso formular predicciones” (Johnson, 1996).
La estadística sirve para:
Describir las diferentes medidas en un conjunto de objetos me-
diante el análisis de algunos de sus elementos.
Tomar decisiones sobre opciones diversas con información par-
cial contenida en un conjunto de datos.
Predecir el comportamiento de una medida o característica, en
condiciones no observadas.
Los usos y aplicaciones son innumerables; sin embargo, éstos se pueden
resumir en algunos de los puntos ya descritos con la finalidad de inferir sobre
la población (estimación y prueba de hipótesis).
Como en todas las áreas del conocimiento, el muestreo emplea una termi-
3
Capítulo 2. Conceptos básicos de estadística
nología específica que define de manera apropiada los conceptos que se uti-
lizan, por lo que es conveniente revisar algunos de ellos, en particular de la es-
tadística, y presentar la simbología que se emplea en las técnicas de muestreo.
Conjunto
Es una colección de objetos definidos y distinguibles cuya
única propiedad indispensable es que sean identificados como
pertenecientes a dicho conjunto. A cada uno de los objetos que lo
constituyen se le llama elemento.
Por ejemplo, todas las computadoras dentro de una empresa o laboratorio
pueden constituir un conjunto; también los estudiantes y las sillas dentro de
un salón de clases constituyen un conjunto. Cabe mencionar que no es un
requisito que los objetos sean de la misma naturaleza, aunque la mayoría de
los casos que involucra las técnicas de muestreo los objetos suelen ser de la
misma clase, o al menos muy semejantes.
2.2. Población y muestra
Como se dijo, las técnicas de muestreo, y en general los métodos estadís-
ticos, se aplican a un conjunto de datos propios de un conjunto de objetos.
Denominamos población al conjunto de objetos tanto como al conjunto de va-
lores. El segundo es una función del primero, y aunque con frecuencia no se
distinguen explícitamente, el contexto en que se usa el término de población
deja en claro la referencia. En este libro se usará la población, que se refiere
al conjunto de mediciones que se hacen sobre una característica de interés en
todos y cada uno de los elementos del conjunto de objetos.
Población. Es una colección de objetos o de entes que se caracteri-
zan por poseer o compartir ciertas características (propiedades) en
común.
Muestra. Es un subconjunto de elementos o unidades, selecciona-
dos con alguna técnica, de la población en estudio.
La población es el conjunto que incluye todas las partes constitutivas de un
recurso. Así, la población es un conjunto de números que tienen las unidades
en que se hace la medición.
En general, en el análisis no suelen incluirse las unidades de medición
de los valores de una variable, es decir, éstos se analizan simplemente co-
mo números. Sin embargo, resulta conveniente recordar que los valores de
una variable siempre representan dimensiones físicas o de otra naturaleza,
como peso, volumen, longitud, etc., y que estas dimensiones son medidas en
unidades como kilogramos, metros cúbicos, centímetros, etc., por lo que los
resultados del análisis son coherentes si se usan las unidades de medición, lo
que facilita enormemente su interpretación.
4
Por ejemplo, si el recurso son los estudiantes de la Universidad de Colima y
la característica de interés es su estatura promedio, la población original son
todos los estudiantes, pero la población a la que las técnicas de muestreo se
referirán son el conjunto constituido por las estaturas de esos estudiantes, que
estarán denominadas por el número que indica la dimensión y las unidades
en que se miden; por ejemplo 1.75 metros podría ser uno de los elementos
constitutivos del conjunto población.
El muestreo, en un sentido amplio, es un proceso que tiene como propósito
obtener conocimientos de las características generales de una población, me-
diante la muestra. En contraste, el censo es un proceso de revisión exhaustivo
de la población, es decir, mide la característica de interés de todas las unidades
de la población.
2.3. Variables
Una variable es una característica de los elementos de una población y se
obtiene con una medición o una calificación. La altura de los estudiantes es
una variable, también lo es la marca de computadoras portátiles que se en-
cuentran en el mercado actual. El peso de cada silla o de cada estudiante
también es una variable.
Una variable continua, como su nombre lo indica, es aquella donde son posi-
bles todos los valores dentro de un intervalo de los números reales, al menos
teóricamente, ya que prácticamente, por limitaciones de los instrumentos de
medición, muchos valores en ese intervalo no pueden ser observados. En gene-
ral, este tipo de variables incluye mediciones en kilogramos, centímetros, etc.,
cuya precisión puede ser incrementada indefinidamente, afinando más y más
el instrumento de medición.
Una variable discreta se puede medir en una escala que no incluye todos los
valores posibles de un intervalo de los números reales. Ejemplos de este tipo
de variables son los conteos, el número de personas de un lugar, el número de
libros en una biblioteca, entre otros.
Las variables por atributos permiten la clasificación en función de la pre-
sencia de cierta propiedad en el elemento que desea evaluarse. La pertenencia
a un grupo étnico es un ejemplo de un atributo; podría haber un número va-
riable de atributos, como tener varios grupos étnicos, lo que permitiría hacer
diversos grupos y cada elemento pertenecería solamente a uno de esos grupos
o clases.
Las técnicas de muestreo se aplican directamente a conjuntos de valores
medidos en escalas apropiadas para variables continuas, discretas o de atribu-
tos.
Digamos que pudiera ser de interés describir económica y socialmente las
familias del estado de Colima, para ello se aplica un cuestionario a cada fami-
5
Capítulo 2. Conceptos básicos de estadística
lia con preguntas sobre su situación socioeconómica, como ingreso mensual,
el número de integrantes de la familia, el número de individuos que trabajan,
el tipo de ocupación, entre otras. El conjunto de mediciones de cualquiera de
estas variables medidas es el sujeto de aplicación de las técnicas de muestreo.
Otro ejemplo puede ser la determinación de la calidad del aire en la Ciudad
de México, para ello se toman mediciones de diferentes contaminantes: el con-
junto de las mediciones del contaminante es la variable a la que se aplican los
conceptos del muestreo. Pueden ser muchas las variables que se midan, pero
el muestreo que aquí estudiaremos es univariado, es decir, se toma solamente
una variable a la vez; aunque el estudio incluya varias variables, el proceso se
realiza sobre todas y no más de una al mismo tiempo.
Función es otro terminó muy usado. Matemáticamente, el concepto de fun-
ción consta de tres elementos, dos conjuntos y una regla que asocia o vincula
a cada elemento del primer conjunto con uno y sólo uno de los elementos del
segundo conjunto. Una lista de nombres y un grupo de estudiantes pueden ser
una función si cada nombre de la lista corresponde a uno y sólo uno de los es-
tudiantes. Nótese que incluso todos los elementos del primer conjunto pueden
estar vinculados al mismo elemento del segundo conjunto, pero lo que no es
válido es que un elemento del primer conjunto esté vinculado con más de un
elemento del segundo. Las funciones que comúnmente abordaremos en este
texto son funciones matemáticas, en las que los conjuntos contienen números
y la regla de asociación es una ecuación.
Hemos mencionado que en el muestreo nos interesan los valores medidos
del subconjunto muestra, que son seleccionados del conjunto población. A es-
tos valores se les denomina datos, es decir, un dato es el valor específico que
tiene la característica de interés de un elemento de la población. Conviene
mencionar que dato se puede referir a un valor conocido o existente pero que
aún no ha sido determinado. En este libro un dato es un valor que ya ha sido
determinado.
En el este contexto experimento es el procedimiento que permite obtener
un dato. Este procedimiento incluye dos cosas: la forma de elegir el objeto, y
la determinación del valor mediante algún método.
Es prioritario considerar la forma en que se decide el elemento que se obser-
vará. La determinación del valor de la característica es la medición o la califi-
cación, que algunas veces representa un problema difícil y requiere tratamien-
tos específicos. Este es el tema que abordaremos a continuación.
2.4. ¿Qué es una medición?
La medición es una tarea en la que la estadística no interviene directa-
mente, pero influye mucho en los resultados. Para hacer una medición deben
usarse las técnicas adecuadas. En general la medición es la determinación del
valor de la característica de interés de un elemento de la muestra.
6
Para medir la altura de los estudiantes se emplean técnicas muy distintas
a las que miden la longitud de un virus o una bacteria; pero los métodos es-
tadísticos para analizar los datos de ambos casos pudieran ser los mismos.
Las técnicas de medición son muy diversas y algunas son difíciles de eje-
cutar. La instrumentación, selección y validez de las técnicas de medición son
motivo de estudio de otras disciplinas, pero la comparación entre técnicas de
medición sí son motivo de aplicación de los métodos estadísticos por lo que no
abordaremos en este libro las técnicas de medición.
2.5. Las escalas de medición
Las reglas que clasifican los datos en distintas categorías se denominan es-
calas de medición: nominal, ordinal, intervalo y proporción (Siegel, 1977 [7]).
Escala nominal
La escala nominal se utiliza para clasificar a la población en categorías. Por
ejemplo, los seres humanos se clasifican en hombres y mujeres; los colores se
clasifican en rojo, azul, verde, etc. En este tipo de datos no existe una relación
de orden ni se pueden realizar operaciones aritméticas como suma, multipli-
cación, división o resta. Sin embargo, se pueden establecer frecuencias y pro-
porciones, así como calcular la moda y establecer relaciones de equivalencia.
Las propiedades de las relaciones de equivalencia son: reflexión: X=X; simetría:
si X=Y entonces Y=X; y transición: si X=Y y Y=Z, entonces X=Z. Las pruebas
estadísticas no paramétricas son admisibles para datos con esta escala de
medición.
Escala ordinal
La escala ordinal clasifica y ordena las observaciones. Sin embargo, no
puede definirse una distancia entre las observaciones. Las relaciones admisi-
bles en esta escala son: >,<, =. Por ejemplo, la frecuencia con que un grupo de
personas lee una revista científica podría clasificarse en: regularmente, a ve-
ces, pocas veces, casi nunca y nunca. Otro ejemplo es la definición de la jerar-
quía militar de un regimiento: teniente> subteniente> sargento 3ro.> sargento
1ro.> cabo. Un último ejemplo es la llegada a la meta de un corredor en una
competencia de 20 participantes: su clasificación C es tal que C ∈ {1, 2, . . . , 20}.
Las medidas que se pueden calcular en esta escala son: moda, frecuencia,
coeficiente de contingencia y mediana. Las pruebas estadísticas admisibles
para un conjunto de datos de esta naturaleza son las no paramétricas, en
particular las estadísticas de rango, así como los coeficientes de correlación
con base en rangos, es decir, el coeficiente de Sperman y el de Kendall.
7
Capítulo 2. Conceptos básicos de estadística
Escala de intervalo
Esta escala incluye las dos anteriores; es decir, clasifica, ordena y además
establece la proporción entre dos intervalos contiguos. Esta escala necesita
una unidad de medida y un punto cero arbitrario (no es el cero que pertenece
a los reales). En esta escala la proporción de dos intervalos cualesquiera es
independiente de la unidad de medida y del punto cero. Por ejemplo, la tem-
peratura en grados Celsius o Farenheit se mide en una escala de intervalo, ya
que la unidad de medida y el punto cero son arbitrarios.
Las pruebas estadísticas admisibles son las paramétricas y las no paramétri-
cas. Dentro de las técnicas paramétricas se permite el cálculo de medias, de
la desviación estándar, el coeficiente de correlación de Pearson, etc. Las prue-
bas estadísticas admisibles son las t-student y la F de Snedecor. Las únicas
medidas que no se pueden obtener son el coeficiente de variación y la media
geométrica, porque necesitan el cero de los números reales.
Escala de proporción
Además de todas las características anteriores, la escala de proporción ubi-
ca al punto cero en el origen. En esta medida, además de conocer la proporción,
se debe conocer la distancia entre dos puntos. Admite también todas las ope-
raciones matemáticas y de igual manera se pueden establecer relaciones de
igualdad y orden. Las pruebas estadísticas admisibles son todas las pruebas
paramétricas, así como todas las pruebas estadísticas anteriores mas el coefi-
ciente de variación y la media geométrica. Ejemplo 1. El peso en kilogramos de
los estudiantes del primer semestre de Ingeniería en Software de la Facultad
de Telemática de la Universidad de Colima. Ejemplo 2. El diámetro en metros
de una plantación de parotas localizadas en Tecomán, Colima.
2.6. Parámetros y estimadores
Parámetros
Sobre el conjunto población se pueden definir funciones muy di-
versas como el valor más pequeño, el más grande, el que ocupa la
posición central una vez que han sido ordenados ascendente o des-
cendentemente, la suma de todos los valores después de elevarlos al
cuadrado, el valor que se repite el mayor número de veces y muchos
otros más. Todas esas funciones son parámetros. Los parámetros
suelen ser representados por letras griegas como µ, τ, σ.
Existe un número infinito de parámetros para una población dada; sin em-
bargo, muchos no tienen utilidad, en cambio otros manifiestan el interés de
la evaluación. Por ejemplo, la suma de todos los valores correspondientes al
gasto de agua por familia en una localidad (población), porque la suma repre-
senta el gasto total de agua en dicha localidad. Por lo tanto, el promedio, el
total, la varianza, la desviación estándar, el coeficiente de variación, la moda,
8
la mediana, el porcentaje o proporción son algunos ejemplos de parámetros.
Estimadores
Son funciones que se pueden proponer para calcular o estimar los
parámetros. Si se definen sobre el conjunto población entonces se
está calculando el parámetro; pero si esas funciones se definen para
los datos de una muestra, entonces se realiza una estimación del
parámetro. A ambos casos se les llamarán estimadores. Además, a
cada parámetro le corresponde uno o más estimadores. Existe un
número infinito de estimadores, pero sólo algunos tienen interés
práctico.
Aclaremos mejor la diferencia entre parámetro y estimador. Un estimador es
una función de los datos que sirve para calcular (en un censo) o estimar (en un
muestreo) un parámetro. Una definición general del parámetro es una cons-
tante que describe a la población, usualmente en forma numérica, mientras
que un estimador es una función de los datos disponibles (muestra o censo)
que se usa para estimar o calcular los parámetros.
2.7. Sumatorias
La sumatoria es muy importante para comprender mejor los conceptos de-
trás del muestreo. Algunos parámetros y estimadores incluyen en su definición
la suma de varios valores o datos. Si se simboliza por y
i
a cualquiera de esos
datos, digamos el i-ésimo de ellos, y se tienen n datos, la suma de esos datos
se simboliza empleando el operador de sumatoria (Σ),
y
1
+ y
2
+· · · + y
n
=
n
¸
i=1
y
i
Se puede combinar otras operaciones matemáticas con la sumatoria; por
ejemplo, si se desea sumar el cuadrado de cada dato, la simbología apropiada
es:
y
2
1
+ y
2
2
+· · · + y
2
n
=
n
¸
i=1
y
2
i
El subíndice señala una etiqueta que identifica a cada dato cuando éste
aparece en una lista. Es importante hacer notar que el subíndice puede em-
plear cualquier símbolo, aunque convencionalmente se emplean letras inter-
medias minúsculas del alfabeto como ”i”, ”j”, ”k”, etc.; incluso los mismos
datos pueden usar subíndices diferentes para indicar las operaciones apropi-
adas. Asimismo, un símbolo de dato como ”y” puede tener más de un subíndice
cuando los datos tienen más de dos criterios o sentidos de clasificación, como
puede ser el caso de una tabla o una matriz que tiene renglones y columnas,
como ”y
ij
”, donde ”i” es el renglón y ”j” la columna, o al revés. Si existen más
de dos criterios de clasificación podrán emplearse más de dos subíndices para
identificar apropiadamente cada dato.
9
Capítulo 2. Conceptos básicos de estadística
En otras ocasiones se empleará un subíndice con algún otro símbolo, tal vez
el de una variable, un parámetro o un estimador, para señalar que ese símbolo
pertenece al objeto identificado con la etiqueta que se usa como subíndice. Por
ejemplo, σ
y
se refiere a la desviación estándar de la variable (de los datos de) y.
Veamos varios ejemplos sobre el uso de la sumatoria y los subíndices. En
los ejemplos, i puede tomar valores entre 1 y n, mientras que y
i
puede ser
cualquier valor de la variable y. Por decir, si estamos hablando de la variable
’íngreso familiar en el estado de Colima” (y), entonces y
i
representa el ingreso
que tiene la familia i en el estado.
Propiedades de las sumatorias
a)
n
¸
i=1
c = c + c + c +· · · + c = nc
b)
n
¸
i=1
cy
i
= c(y
1
+ y
2
+ y
3
+· · · +y
n
) = c
n
¸
i=1
y
i
c)
n
¸
i=1
(x
i
+ y
i
) = (x
1
+ y
1
) + (x
2
+ y
2
) +· · · + (x
n
+ y
n
)
= x
1
+ y
1
+ x
2
+ y
2
+· · · + x
n
+ y
n
= (x
1
+x
2
+x
2
+· · · + x
n
) + (y
1
+ y
2
+· · · + y
n
)
=
n
¸
i=1
x
i
+
n
¸
i=1
y
i
d)
n
¸
i=1
y
i
=
r
¸
i=1
y
i
+
n
¸
i=r+1
y
i
, donde r es un número entero mayor que 1 y menor
que n.
Ejemplo:
5
¸
i=1
y
i
= (y
1
+y
2
) + (y
3
+ y
4
+ y
5
)
=
2
¸
i=1
y
i
+
5
¸
i=2+1
y
i
donde y
i
= cualquier valor
2.8. Variable aleatoria
El concepto de variable aleatoria se relaciona con una característica o di-
mensión que tienen las unidades muestrales de una población, y que puede
tomar diferentes valores, cada uno asociado a una unidad muestral. Esos va-
lores posibles forman un conjunto, que a dicho conjunto se denomina espacio
muestral. Así, una variable aleatoria Y es una función que va del espacio mues-
tral (constituido por las unidades muestrales) a otro espacio muestral que son
los números reales o a un subconjunto de éstos, que son todos los valores que
10
puede tomar la variable bajo un experimento aleatorio.
Por ejemplo, se desea saber si los miembros de un grupo de personas fuman
o no. El espacio muestral inicial es el grupo de personas y = y
i
y el segundo
espacio muestral es S = { sí, no}, que corresponde al hecho de que una persona
dada (y
i
) fume o no fume. Entonces podríamos definir la función Y como una
variable aleatoria como sigue:
y(y
i
) =

1 si y
i
= sí fuma
0 si y
i
= no fuma.
Esta variable es conocida como la variable indicadora del conjunto y
i
y sólo
toma los valores 1 ó 0.
2.9. La distribución normal
Esta distribución tiene gran importancia debido a que es un modelo ade-
cuado para muchos sucesos naturales y por su sobresaliente papel en la teoría
estadística (Teorema Central del Límite), puesto que sirve como punto de parti-
da para el desarrollo de muchas técnicas de inferencia (Mood, et al., 1974 [4]).
Es importante mencionar que debido a que la distribución normal es continua,
solamente pueden calcularse probabilidades para intervalos que pertenecen al
espacio muestral de Y , ya que para cualquier posible valor k de Y , P(Y = k) = 0.
Aunque con la corrección por continuidad es posible calcular probabilidades
para cualquier posible valor k (Mood, et al., 1974 [4]). Decimos que una varia-
ble aleatoria Y se distribuye normal si su función de densidad es:
f
Y
(y) =

1

2πσ
2
e

(y−µ)
2

2
si y ∈ R
0 de otra forma.
Donde:
E[Y ] = µ −∞< µ < ∞
V ar(Y ) = σ
2
σ
2
> 0
e y π son las constantes conocidas.
El lector debe notar que µ y σ
2
son los parámetros de la distribución, es de-
cir, Y ∼ N(µ, σ
2
). Para ejemplificar la forma de la distribución normal, supón-
gase que se mide la estatura (Y ) en centímetros a una población de niños de 5
años de edad y se encuentra que su promedio es de 90 cm. con una desviación
estándar (DE) de 5 cm., es decir, Y ∼ N(µ = 90, σ
2
= 25). La forma de la dis-
tribución se presenta en la figura 2.1.
La distribución normal tiene forma acampanada (Figura 2.1), con un solo
pico o moda que es igual a la mediana y media porque es una distribución
simétrica en torno a este punto. Además, cuando Y ∼ N(µ = 90, σ
2
= 25),
el porcentaje de niños con una estatura entre 80 cm y 100 cm es de 95.45
por ciento (área sombreada en la figura 2.1). Los puntos en que cambia la
dirección de la concavidad de la campana se llaman puntos de inflexión, y
11
Capítulo 2. Conceptos básicos de estadística
están situados a una distancia de σ unidades por encima y por debajo de la
media µ. El área total bajo la curva es 1 ó 100 por ciento, ya que es una
distribución de probabilidad definida.
70 75 80 85 90 95 100 105 110
0
0
.
0
1
0
.
0
2
0
.
0
3
0
.
0
4
0
.
0
5
0
.
0
6
0
.
0
7
0
.
0
8
Y
Figura 2.1: Forma de la distribución normal para la variable estatura (Y ) con media
90 cm. y DE=5 cm.
2.10. La distribución normal estándar
Sea Y una variable aleatoria distribuida N(µ, σ
2
). Definamos la variable
aleatoria Z = (Y − µ)/σ, que tiene distribución N(0, 1), es decir, es normal es-
tándar porque su media es cero y su varianza es la unidad. Su función de
densidad es:
f
Z
(z) =

1


e

z
2
2
si z ∈ R
0 de otra forma.
La forma de la variable aleatoria Z se ilustra en la figura 2.2. Se puede ver
en la figura 2.2 que los valores con mayor ocurrencia de la variable aleato-
ria Z están entre -3.6 y 3.6, la media igual a la mediana es igual a cero y su
desviación estándar igual a la varianza es uno. La importancia de esta función
de densidad de probabilidad radica en que las probabilidades en cualquier
miembro de la familia, o sea, cualquier normal con media µ y varianza σ
2
,
puede calcularse con la distribución normal estándar. La ventaja estriba en
que tiene media cero y varianza uno (Mood, et al., 1974 [4]) y facilita el cálculo
de probabilidades porque la variable aleatoria normal original es una función
no integrable, por lo que la integración se obtiene empleando tablas de la nor-
mal estándar o con un software estadístico.
12
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
Z
N(u = 0. o
2
= 1)
Figura 2.2: Forma de la distribución normal estándar (Z), es decir, Z ∼ N(µ = 0, σ
2
=
1)
2.11. El Teorema Central del Límite
El Teorema Central del Límite es de gran importancia porque en él se basan
gran parte de los métodos estadísticos. Este teorema provee una aproximación
efectiva a las probabilidades determinadas por sumas de variables aleato-
rias independientes y explica la gran importancia de la distribución normal
en la teoría de probabilidades. Su enunciado preciso es el siguiente: sean
Y
1
, Y
2
, . . . , Y
n
una muestra aleatoria de una función de probabilidades f
Y
(y) (es
decir, variables aleatorias independientes e idénticamente distribuidas), con
media µ
Y
y varianza σ
2
Y
. Sea
¯
Y = (Y
1
+Y
2
+· · · +Y
n
)/n la media aritmética de las
variables aleatorias que integran la muestra. Para un tamaño de muestra n, la
distribución de la variable aleatoria
¯
Y es aproximadamente normal con media
µ
Y
y varianza σ
2
Y
/n, es decir,
¯
Y ∼ N(µ
Y
, σ
2
Y
/n), cuando n →∞
De acuerdo con el resultado anterior y estandarizando la variable aleatoria,
la expresión puede escribirse como
¯
Y −µ
Y

σ
2
Y
n
=
¯
Y −µ
Y
σ
¯ y
∼ N(0, 1)
El Teorema Central del Límite establece que para un tamaño de muestra
grande, la distribución de
¯
Y es aproximadamente normal, independientemente
13
Capítulo 2. Conceptos básicos de estadística
de la función de probabilidades de la variable aleatoria Y (Mood, et al., 1974
[4]).
Para casi todas las poblaciones, la distribución del muestreo de
¯
Y es aproxi-
madamente normal si una muestra simple al azar es lo suficientemente grande,
pero ¿qué significa una muestra suficientemente grande? Esto dependerá de la
naturaleza de la población muestreada y del grado de aproximación a la dis-
tribución normal requerido.
Cuando la población muestreada tiene una distribución de probabilidad
normal, no se requiere el teorema central del límite. En este caso, utilizamos
otro teorema que establece que ”si la población muestreada es una distribución
de probabilidad normal, la distribución de probabilidad de
¯
Y es exactamente
normal para cualquier tamaño de muestra”.
Puesto que a menudo no conocemos el tipo de población muestreada, el
Teorema Central del Límite nos dice la naturaleza de la distribución de muestreo
de
¯
Y para una muestra razonablemente grande, al margen del tipo de distribu-
ción que siga la población.
2.12. La distribución t-Student
Es importante mencionar que la distribución t-student se publicó por primera
vez en 1908, por el irlandés W.S. Gosset. En esa época Gosset trabajaba en
una cervecería irlandesa que desaprobaba la publicación de trabajos de inves-
tigación. Por tal motivo Gosset publicó su trabajo con el seudónimo ”Student”.
Razón por la cual se le asigno el nombre a esta distribución de ”t-student”.
Si Z es una variable N(0, 1) y χ
2
es una variable χ
2
(ν) (Ji cuadrada) inde-
pendiente de Z, entonces la variable aleatoria definida por:
t =
Z

χ
2

tiene una distribución t-student con ν grados de libertad (Mood, et al., 1974
[4]). Su función de densidad es la siguiente:
f
T
(t) =

1

νπ
[(ν + 1)/2]!
[ν/2]!

t
2
ν
+ 1

−(ν+1)/2
si −∞≤ t ≤ ∞
0 de otra forma.
La función de densidad t-student es simétrica con respecto a cero, como el
caso de la función de densidad normal estándar. Además, para ν > 1, el valor
esperado de t es cero, E[t] = 0; y para ν > 3, Var[t] =
ν
ν −2
. Además, note que
cuando ν −→∞, Var[t] −→1. De esta manera vemos que una variable aleatoria
t-student tiene el mismo valor esperado que una variable aleatoria con dis-
tribución normal estándar. Por ello, la forma de ambas distribuciones es muy
14
semejante. No obstante, una variable normal estándar siempre tiene varianza
de 1, mientras que la varianza de una variable t-student es superior a 1. Esto
se puede apreciar en la Figura 2.3, donde se compara la distribución normal
estándar con la distribucione t-student con 1, 3, 5 y 10 grados de libertad. Es
decir, se observa que las dos funciones de densidad son simétricas respecto
al origen, pero la distribución t-student posee mayor masa de probabilidad en
los extremos. Sin embargo, desde el punto de vista práctico las diferencias en-
tre estas dos distribuciones son relevantes cuando el tamaño de muestra es
menor o igual a 30, . Así, en el presente libro sugerimos obtener los valores
de tablas que se utilizan para los ejemplos y ejercicios de los capítulos poste-
riores, a partir de la distribución t-student cuando el tamaño de la muestra
sea menor o igual a 30, de lo contrario obtenerlos de la distribución normal
estándar.
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
t
1
t
3
t
5
t
10
N(u = 0. o
2
= 1)
Figura 2.3: Comparación de la distribución normal estándar con las distribuciones
t-student con 1, 3, 5 y 10 gados de libertad
2.13. Los tipos de muestreo
A manera de definición, un método de muestreo es una forma objetiva, y
comúnmente científica, de seleccionar unidades que pertenecen a la población.
En este sentido el muestreo consiste en un conjunto de métodos de muestreo,
por medio de los cuales es posible hacer aseveraciones sobre los parámetros
de una población apoyándose en la muestra.
Ahora bien, para conocer una población con base en la muestra recurrimos
a dos procedimientos generales, que se diferencían en la manera de seleccionar
15
Capítulo 2. Conceptos básicos de estadística
las unidades de la población y el método usado para determinar el tamaño de
la muestra. A tales procedimientos comúnmente se les denomina muestreo
probabilístico y muestreo no probabilístico; cada uno de ellos engloba una se-
rie de métodos de muestreo (Rendón, 1997 [10]).
Muestreo probabilístico. Comprende los métodos que usan un mecanismo
aleatorio para la selección de las unidades de la muestra. Cada unidad de la
población tendrá una probabilidad conocida de ser seleccionada, así como una
probabilidad de ser incluida en la muestra; ninguna de tales probabilidades es
igual a cero. Entonces, los métodos de este tipo de muestreo establecen una
estructura probabilística que es la base para desarrollar la teoría del muestreo.
Otra característica importante en estos métodos de muestreo es que la calidad,
el error o la precisión de los estimadores puede ser determinada y expresada en
términos probabilísticos. Algunos métodos de muestreo probabilístico son: el
muestreo aleatorio simple, el muestreo aleatorio estratificado, el muestreo sis-
temático con iniciación aleatoria, el muestreo por conglomerados, el muestreo
de respuesta aleatorizada, etc. (Bradburn,1998 [5]). Este tipo de métodos de
muestreo se desarrollará más adelante.
Muestreo no probabilístico. Incluye los métodos de muestreo donde la selec-
ción de las unidades de la muestra se realiza por medios subjetivos o procedi-
mientos no aleatorios; en consecuencia, no se tendrá una estructura proba-
bilística para desarrollar una teoría de muestreo, ni podrá averiguarse la bon-
dad de las estimaciones muestrales en términos cuantitativos. De hecho, la
calidad de las estimaciones se establece con base en la intuición y la experien-
cia, o a través de argumentos subjetivos, ya que la única manera de cuan-
tificar la bondad de los resultados sería teniendo la población total. Aunque el
muestreo no probabilístico resulta inadecuado para el desarrollo de la teoría,
en ocasiones es la única alternativa viable (Bradburn,1998 [5]). Además, como
los métodos de muestreo son de fácil aplicación, los resultados se obtienen
con mayor rapidez y no implica mucho gasto. Veamos a continuación algunos
ejemplos de muestreo no probabilístico:
Muestreo de juicio. También se le conoce como muestreo de expertos o
muestreo dirigido. Su característica principal es la forma subjetiva con
que son seleccionadas las unidades de la población. Por el elemento sub-
jetivo no hay una manera de cuantificar la bondad de los resultados
muestrales. En este caso, el investigador observa toda la población o
parte de ella, y después selecciona una muestra compuesta por una o
más unidades que en su opinión son típicas con respecto a la carac-
terística que se desea estudiar. Está claro que el investigador, al medir
las unidades de esta forma seleccionadas, puede derivar estimaciones de
los parámetros de inte-rés; sin embargo, las estimaciones dependerán de
la selección subjetiva del investigador, de tal manera que otros investi-
gadores podrían seleccionar muestras distintas y calcular otras estima-
ciones. Sucede lo mismo con las estimaciones que se apoyan en el análi-
sis ocular de la población de interés, porque no involucran la selección
ni la medición objetiva de las unidades. Asimismo, puede pasar cuando
16
confiamos en la opinión experta de personas quien uno supone son cono-
cedoras de las características de una población dada (Rendón, 1997 [10]).
Muestreo de cuota. Este método es ampliamente utilizado en las encuestas
de opinión. Para su aplicación, la población se divide en grupos toman-
do como base ciertas características generales. Una vez hechas las divi-
siones, se tomará un número preestablecido de unidades al cual se le
denomina cuota y que satisfaga las características del grupo de interés.
De este modo, la muestra total quedará integrada por la suma de todas
las cuotas. Por ejemplo, un investigador del observatorio vulcanológico
de la Universidad de Colima está interesado en conocer la opinión de
la población sobre un posible plan de emergencia frente a una eventual
erupción volcánica. El investigador podría dividir la población en grupos
definidos según la edad, el sexo, el estado civil, etc.; y después entrevistar
a cierto número (cuota) de personas de cada grupo, por ejemplo, en par-
ques, salidas de las tiendas de autoservicio, las comunidades aledañas al
volcán, o en áreas específicas de la ciudad (Rendón, 1997 [10]).
Muestreo de voluntarios. Este método se usa principalmente en aquellas
situaciones donde sea difícil el proceso de medición de las unidades. Por
ejemplo, si el proceso de medición requiere de mucho tiempo, resulta
penoso y desagradable, o implica una gran concentración y esfuerzo men-
tal, muchos individuos no desearán participar en el estudio. Por estas ra-
zones, el método consiste en integrar una muestra con aquellas unidades
que acepten formar parte de ella, es decir, una muestra de voluntarios
(Rendón, 1997 [10]).
Muestreo de unidades accesibles. Este método se usa frecuentemente
cuando resulta difícil el acceso o la comunicación a las unidades de
la población. En este caso, la muestra se restringe a una parte de la
población, donde es fácil el acceso o comunicación. Por ejemplo, para
inspeccionar el maíz a granel que es transportado en un barco, puede
tomarse una muestra de maíz a cierta profundidad de la parte superior
del barco (Rendón, 1997 [10]).
Obsérvese que en los métodos de muestreo probabilístico, para fundamen-
tar una estructura probabilística y desarrollar la teoría de muestreo, se debe
disponer de un marco de muestreo que permita la elección de las unidades
mediante un procedimiento aleatorio. No contar con un marco por lo tardado
e impráctico de su elaboración, lleva a la necesidad de usar los métodos de
muestreo no probabilístico, con las desventajas que ya fueron mencionadas.
2.14. El marco de muestreo
El marco de muestreo, o marco muestral, está constituido por un listado,
real o virtual, de todas las unidades de muestreo.
17
Capítulo 2. Conceptos básicos de estadística
Unidad de muestreo o unidad muestral
Cada pieza acumulada constituye la población. A veces son colec-
ciones de elementos de la población que cubren la población com-
pleta. En ocasiones las unidades de muestreo están ”naturalmente”
definidas; en otras, se definen arbitrariamente por quien realiza el
muestreo.
Idealmente, cada elemento de la población debe estar incluido en una y
sólo una unidad muestral. Por eso, se dice que las unidades muestrales son
excluyentes entre sí y exhaustivas sobre la población. No siempre se satisface
cabalmente esta condición ideal y su aceptación depende de las condiciones
en que se suscite.
A veces no todas las partes de la población quedan incluidas en alguna
unidad muestral, como en la evaluación de recursos mediante parcelas de
muestreo circulares. Podría ser intrascendente si las partes que quedan exclu-
idas no presentan una característica distintiva del resto de la población y las
inferencias todavía se pueden aceptar como aplicables a la población. Sin em-
bargo, en otras aplicaciones puede ser decisivo el hecho de no incluir algunas
partes de la población en la muestra si esas partes excluidas se distinguen de
las partes incluidas en alguna unidad de muestreo, y por lo tanto en el marco,
entonces las estimaciones serán sesgadas, o bien solamente serán aplicables
a la población definida por el propio marco de muestreo. Si en las Ciencias
Sociales se aplica una encuesta telefónica a una cierta población, debe quedar
claro que los resultados solamente son aplicables a la población constituída
por las personas en hogares que tienen teléfono y no a toda la población, ya
que tener teléfono puede representar una diferencia importante.
Hacer el listado de las unidades muestrales que conforman la población
parece una labor simple, pero en la práctica es una tarea muy complica-
da, porque algunas poblaciones tienen características que demandarán tareas
particulares al momento de obtener el marco de muestreo.
Decimos que el marco de muestreo es real o virtual porque en ocasiones se
puede tener físicamente la lista de todas las unidades, mientras que en otras
bastaría con tener la posibilidad de generarlo para lograr el objetivo propuesto.
Entenderemos que el marco de muestreo contiene una identificación única
o etiqueta para cada unidad de muestreo, como puede ser un número progre-
sivo desde 1 hasta N, donde N representa el número total de unidades mues-
trales de la población. Además es importante que se tenga el nombre completo,
dirección, ocupación, sexo, localización geográfica de cada unidad de muestreo
para facilitar el levantamiento de la encuesta cuando las unidades muestrales
son individuos.
2.15. Pasos a seguir en el diseño de una encuesta
1. El planteamiento de objetivos
18
Al empezar a diseñar un plan de muestreo o una encuesta, es importante
que se definan los objetivos, pues permitirán mantenerse en una línea de
investigación sin perder tiempo con demasiados detalles.
2. La población bajo muestreo
Es trascendental que se definan desde el principio las unidades mues-
trales que serán tomadas en cuenta y se establezcan reglas claras para
que el encuestador las identifique al momento de ubicarlas y hacer la
medición. Recuérdese que la población que se quiere muestrear debe co-
incidir con la población sobre la cual se desea tener información.
3. La característica de la realización de la encuesta o mediciones
Es conveniente cerciorarse de que todos los datos sean pertinentes a la
encuesta y que no se omitan datos esenciales. Particularmente, en el caso
de poblaciones humanas existe la tendencia a hacer un número excesivo
de preguntas innecesarias; nótese que un cuestionario demasiado largo
produce una baja general en la calidad de las respuestas, tanto en las
preguntas importantes como en las secundarias.
4. El grado de precisión deseado
Los resultados de una encuesta de muestreo siempre están sujetos a un
nivel de incertidumbre porque sólo se mide una parte de la población.
Esta falta de certeza se puede reducir al aumentar la muestra y emplear
mejores dispositivos de medición. Sin embargo, esto suele costar tiempo y
dinero. En consecuencia, la especificación del grado de precisión deseado
es un paso decisivo en la preparación de la encuesta o muestreo. Este
paso es responsabilidad de la persona que va a utilizar los datos, ya que
es quien suele entender la magnitud del error tolerable de una encuesta
para hacerla compatible con una buena decisión.
5. Los métodos de medición
Podemos escoger el método de medición y el método de inspección de la
población. Los datos del estado de salud de una persona se pueden obten-
er de sus declaraciones, o de un examen médico. La encuesta puede em-
plear un cuestionario autoadministrado, entrevista en la que los entrevis-
tadores simplemente lean un cuestionario prescrito o una entrevista no
estructurada. La inspección puede hacerse por correo, visitas persona-
les, teléfono o una combinación de los tres medios.
Una parte importante del trabajo preliminar es la construcción de las for-
mas de registro donde se asientan las preguntas y las respuestas. En los
cuestionarios sencillos a veces es posible precodificar las respuestas, es
decir, colocarlas de tal modo que se puedan transferir rutinariamente a
una computadora. De hecho, para la construcción de buenas formas de
registro se necesita preveer la estructura de las tablas de resúmenes fi-
nales para obtener las conclusiones.
En seguida se enumeran algunos puntos que se deben de tomar en cuen-
ta para el diseño de cuestionarios. Sin embargo, si usted va a escribir un
19
Capítulo 2. Conceptos básicos de estadística
cuestionario, consulte Tanur (1993) y Blair y Presser (1993) dos referen-
cias útiles sobre este tema, debido a que los puntos que aquí se presentan
son muy generales:
a) Decida lo que quiere escribir; éste es el paso más importante para
redactar un cuestionario. Escriba los objetivos de su encuesta y sea
preciso para que se motive a las personas de la muestra a responder
sin problema alguno.
b) Siempre verifique sus preguntas, antes de realizar la encuesta. Lo
ideal es que las preguntas se verifiquen mediante una encuesta pilo-
to. Pruebe con diferentes versiones de las interrogantes y pregunten
a los entrevistados en la prueba preliminar la forma en que interpre-
taron las preguntas.
c) Elabore las preguntas de manera sencilla y clara. Las preguntas que
pueden parecerle claras podrían no serlo para alguien que escucha
toda la pregunta por teléfono o para otra persona con otro idioma
materno. Belson (1981, 240) probó la pregunta "¿Qué proporción de
tiempo que ve la televisión lo dedica a ver noticias?çon 53 personas.
Sólo 14 de ellas interpretaron de manera correcta la palabra propor-
ción como "porcentaje", "parte" o "fracción". Otras las interpretaron
como ”cuanto tiempo” o ”cuales programas de noticias observa”.
d) Utilice preguntas específicas en lugar de preguntas generales, de ser
posible.
e) Relacione las preguntas que elabore en el concepto de interés.
f ) Decida si debe utilizar preguntas abiertas o cerradas.
g) Informe sobre la pregunta que se planteó realmente.
h) Evite preguntas que induzca o motiven al entrevistado a decir lo que
usted quiere escuchar.
i) Utilice preguntas de opción forzosa.
j) Platee solo un concepto en cada pregunta.
k) Preste atención al efecto del orden de las preguntas.
6. El marco de muestreo
Antes de seleccionar la muestra, debemos dividir la población en unidades
de muestreo. éstas deben cubrir toda la población y no traslaparse en el
sentido de que todo elemento de la población pertenezca a una y sola-
mente una unidad. Algunas veces la unidad apropiada es obvia, en otras
no es sencillo escoger lo que será la unidad de muestreo. En el muestreo
de los residentes de una ciudad, por ejemplo, la unidad puede ser una
persona, los miembros de una familia o las personas que viven en una
manzana. En el muestreo de una cosecha de limón la unidad puede ser
un lote, una parcela o un área de terreno cuya forma y dimensiones son
nuestra elección.
7. La selección de la muestra
20
Existe actualmente una gran variedad de planes para seleccionar una
muestra. Por cada plan considerado se pueden hacer estimaciones del
tamaño de la muestra partiendo de un conocimiento del nivel de precisión
deseado y la varianza de la población. Los costos relativos y el tiempo
empleado en cada plan se estudian antes de tomar una decisión (Lohr,
2000 [9]).
8. La encuesta piloto
Es de gran utilidad probar el cuestionario y los métodos de campo en pe-
queña escala. Esto casi siempre ayuda a mejorar el cuestionario y puede
evitar otros problemas serios, por ejemplo, que el costo fuera más que el
esperado.
9. La organización del trabajo de campo
Las encuestas extensas tienen muchos problemas de orden administra-
tivo. Se debe supervisar al personal y entrenarlo para que apliquen las
encuestas y los métodos de medición apropiadamente. De ahí que sea útil
un procedimiento de verificación previo de la calidad de las respuestas.
Se debe hacer un plan para manejar las respuestas en blanco, es decir,
la falla del encuestador para obtener la información de ciertas unidades
muestrales (Lohr, 2000 [9]).
10. Resumen y análisis de los datos
Después de realizar las encuestas deben revisarse los cuestionarios ob-
tenidos con la esperanza de corregir errores o cuando menos desechar
los datos equivocados. Habrá que decidir respecto al cálculo en caso de
omisión de respuestas o la eliminación de datos durante la revisión. De-
spués se hacen los cálculos para las estimaciones. Como vimos, los mis-
mos datos pueden servir para diferentes métodos de estimación.
Un consejo práctico para la presentación de los datos es informar acerca
de la magnitud esperada del error en las estimaciones más importantes.
Una de las ventajas del muestreo probabilístico es que se pueden hacer
tales enunciados (el error esperado).
11. La información para encuestas futuras
Cuanta más información de una población se tenga inicialmente, más
fácil será el diseño de una encuesta que arroje estimaciones adecuadas.
Toda muestra obtenida es una guía potencial de futuros muestreos por
los datos que revela sobre las medias, las desviaciones estándares y la na-
turaleza de la variabilidad de las medidas principales, así como los costos
económicos. Las prácticas de muestreo avanzarán más rápidamente si se
prevé lo necesario para reunir y registrar ese tipo de información.
Hay otro aspecto importante en el que una muestra completa facilita la
obtención de otras posteriores: el encuestador habilidoso aprende a re-
conocer los errores de ejecución y a evitar que se repitan.
21
Capítulo 2. Conceptos básicos de estadística
2.16. Las ventajas y desventajas del muestreo
Las ventajas
Aunque el objetivo del muestreo, al igual que muchas otras disciplinas, con-
siste en emplear recursos mínimos para obtener determinada información,
o bien en conseguir la máxima información con recursos prefijados (Brad-
burn,1998 [5]).
Los criterios generales para el uso de las técnicas de muestreo se pueden
resumir en los siguientes puntos:
Se empleará el muestreo cuando la población sea tan grande que el censo
exceda las posibilidades del investigador.
Se tomarán muestras cuando la población sea suficientemente uniforme
como para que cualquier muestra dé una buena presentación de la mis-
ma.
Se tomarán muestras cuando el proceso de medida o investigación de los
caracteres de cada elemento sea destructivo (consumo de un artículo para
juzgar su calidad, determinación de una dosis letal, etcétera.).
Se utilizará el muestreo cuando las personas respondan con desagrado y
así disminuir el número de elementos que serán encuestados.
Se utilizarán las técnicas de muestreo para reducir costos, considerando
tanto el costo absoluto como el costo relativo (con relación a la cantidad
de información obtenida). Este criterio suele conocerse como el criterio de
economía.
El muestreo es conveniente cuando la precisión (el ajuste del valor esti-
mado al valor real de la característica en estudio) resulta ser muy buena.
Este criterio suele conocerse con el nombre de criterio de calidad.
El muestreo es conveniente cuando la formación del personal y la inten-
sidad de los controles y supervisión son onerosos.
En general, el muestreo será conveniente cuando constituya la solución
de mayor eficiencia en el sentido del costo-beneficio.
Las desventajas
A veces el muestreo no es muy conveniente (Bradburn,1998 [5]). Por ejemplo:
Cuando se necesita información de todos los elementos que conforman la
población.
Cuando sea difícil cumplir con los requisitos de las técnicas de muestreo
probabilístico.
22
El muestreo exige menos trabajo material que una investigación exhaus-
tiva, pero más refinamiento y preparación (conocimientos adecuados de
los diseñadores y preparación de los entrevistadores, inspectores y su-
pervisores), lo que puede suponer un uso limitado.
Cuando el costo por unidad, que es mayor en las encuestas que los cen-
sos, aconseje desestimar los métodos de muestreo.
2.17. Las características deseables en una inves-
tigación por muestreo
Las características óptimas a las cuales deberían ajustarse las investiga-
ciones por muestreo, son las siguientes:
Precisión: la proximidad al valor verdadero de las características poblacionales
estimadas.
Pertinencia: la capacidad de los resultados estadísticos obtenidos por muestreo
para completar la información faltante.
Oportunidad: la utilidad de un estudio estadístico en función de su disponi-
bilidad en el tiempo (puntualidad, rapidez y actualidad). En el caso de censos
y grandes encuestas es aconsejable la publicación de resultados preliminares
basados en muestras o submuestras.
Accesibilidad: aunque se disponga de un banco de datos informatizado, puede
haber dificultades legales para utilizarlo (la protección de la privacidad, el se-
creto estadístico y la ley de la función estadística pública). La información
obtenida por muestreo ha de ser totalmente accesible, así como tener en cuen-
ta la legislación vigente al momento del diseño del estudio por muestreo.
Detalle y cobertura: la población que posee datos extensos puede complemen-
tar una investigación exhaustiva con una muestra.
Economía: las consideraciones sobre costos en las diferentes etapas de planifi-
cación, el levantamiento y procesamiento de datos, la evaluación, el análisis y
la publicación pueden indicar la inconveniencia de una investigación exhaus-
tiva. Luego, este criterio ha de tenerse siempre presente a la hora de planificar
una investigación por muestreo.
Integración: Hay que tener una buena concepción global de la información
y una buena comparabilidad. La información obtenida en la investigación por
muestreo ha de ser integrable y comparable con otras informaciones existentes
o futuras.
23
Capítulo 2. Conceptos básicos de estadística
2.18. Errores de las encuestas
En general, en las encuestas puede haber varias fuentes de error (Brad-
burn,1998 [5]), como las siguientes:
1. Error de muestreo o de estimación. Error al que estamos expuestos cuan-
do sólo se miden las unidades correspondientes a una muestra de la
población, es decir, cuando sólo se estudia una fracción de la población.
Este error es particular para cada una de las muestras posibles de tamaño
n, y se define como la diferencia entre el valor del estimador y el valor del
parámetro.
2. Error de marco. Es el que se presenta debido a los problemas en la elabo-
ración del marco de muestreo. Tales problemas ocurren al construir mar-
cos incompletos, al no incluir todas las unidades de muestreo que son de
interés, o bien al incluir unidades ajenas a la población.
3. Error de respuestas en blanco. Este error se presenta a consecuencia de
las fallas u obstáculos para medir algunas unidades de la muestra se-
leccionada. Así, la respuesta en blanco puede ocurrir por omisión o no
localización de algunas unidades, así como por la renuncia o imposibili-
dad de medir algunas unidades.
4. Error de medición. Ocurre al medir las características de una unidad. Se
presenta porque el método de medición puede estar sesgado o es impre-
ciso y algunas veces, como en el caso de poblaciones humanas, algunas
características son difíciles de medir, ya sea porque la persona entrevis-
tada no posee la información exacta o da una respuesta incorrecta a la
característica de interés. Tal es el caso, por ejemplo, en la medición del in-
greso familiar, el padecimiento de cierta enfermedad, el número de abor-
tos por persona, las ganancias obtenidas en el negocio anterior, etcétera.
5. Error de procesamiento. Es el error que se puede cometer en la edición,
codificación y tabulación de la información obtenida de la encuesta. Cuan-
do la información se recolecta mediante una enumeración total se está
expuesto a cometer los cuatro últimos errores. Si la recolección se realiza
mediante un muestreo, entonces estaremos expuestos a los cinco errores
y en tal caso a los cuatro últimos se les denomina errores no debidos al
muestreo.
2.19. Muestra preliminar o piloto
Una muestra preliminar o piloto es una muestra que antecede a la definiti-
va, cuya selección se hace de acuerdo a los lineamientos que marca el diseño
de muestreo que se utilizará en el estudio definitivo.
La muestra preliminar juega un papel importante en el diseño de un estu-
dio por muestreo, ya que será la fuente de información más inmediata para:
24
1. Tener una primera aproximación de los costos que se involucran en el
estudio.
2. Tener una primera aproximación del tiempo que se llevará en la real-
ización del estudio.
3. Estimar los parámetros involucrados en la determinación del tamaño de
muestra, usualmente la varianza y el coeficiente de variación.
4. Probar la factibilidad de: los métodos de selección de las unidades mues-
trales, la medición de las variables y otros aspectos prácticos.
5. Probar la factibilidad del cuestionario.
6. Definir la precisión de los estimadores cuando no se tiene idea de los
valores entre los cuales ésta (precisión) puede considerarse razonable.
Algunos autores sugieren que la muestra preliminar podrá considerarse co-
mo parte de la muestra definitiva, solamente cuando los métodos de selección,
medición, incluyendo el cuestionario, no hayan sufrido cambios o modifica-
ciones severas.
2.20. La precisión de la estimación
Cuando realizamos un estudio por muestreo es importante preguntarnos
¿cuál es la cantidad de error tolerable o la precisión de la estimación?. La
persona que utilizará los resultados del muestreo debe definir el error, pues
conoce el fenómeno en cuestión y lo delicado de las conclusiones que se de-
sprendan del análisis. Así, en el muestreo probabilístico es usual referirse a la
precisión de la estimación en los términos siguientes:
a) Como un límite máximo que se fija de antemano para la varianza, la desviación
estándar o el coeficiente de variación del estimador. En este libro, este límite
máximo para todos los diseños de muestreo a estudiar se fijará en términos de
la desviación estándar del parámetro de interés.
b) Como un límite máximo de error y una confiabilidad, ambos establecidos
de antemano.
De igual manera es común denominar al error máximo como precisión del
estimador, ésta se define como:
Precisión: es el alejamiento o distancia máxima que el investigador está dis-
puesto a aceptar entre el estimador y el parámetro correspondiente (Cochran,
1985 [1]). De este modo, θ denota al parámetro y
ˆ
θ su estimador; entonces, la
precisión del estimador, denotada por d, se define como:
d = |
ˆ
θ −θ|
Esto significa que debemos especificar que θ y
ˆ
θ difieren en valor absoluto en
una cantidad menor que d.
25
Capítulo 2. Conceptos básicos de estadística
Confiabilidad: es el grado de seguridad deseado en la precisión, y se mide
en términos de probabilidad, aunque se interpreta con base en el de muestreo
repetido (Cochran, 1985 [1]). Así,
1 −α = confiabilidad,
donde α toma valores entre 0 y 1. La confiabilidad, generalmente, se expresa
en porcentaje y los valores usuales son desde 80%, observándose con más fre-
cuencia 90% y 95%.
El postulado probabilístico siguiente especifica la relación entre los términos
precisión y confiabilidad:
P⌊|
ˆ
θ −θ| ≤ d⌋ = 1 −α,
que es igual a
P⌊−d ≤
ˆ
θ −θ ≤ d⌋ = 1 −α (2.1)
La ecuación anterior indica que la probabilidad de que la diferencia entre el
estimador y el parámetro tome valores dentro de un intervalo delimitado por
los valores −d y d, es 1 − α. La determinación de un límite específico con su
confiabilidad asociada (1 − α) nos ayuda a comparar diseños diferentes (méto-
dos de selección de la muestra) para especificar el procedimiento que dé la
precisión deseada con un costo mínimo.
2.20.1. Elementos para elegir la precisión o margen de error
Para los investigadores no experimentados en el diseño de encuestas o es-
tudios donde se necesitan muestras para hacer inferencia hacia la población
fijar la precisión es una labor confusa. Debido a que cuando por primera vez se
pregunta a estas personas el grado de precisión deseado a menudo confiesan
que nunca han considerado el asunto y que no tienen idea de la respuesta. Sin
embargo, la elección adecuada de la precisión es fundamental para la toma de
decisiones acertadas por lo que a continuación proporcionamos algunos ele-
mentos para su determinación.
Si la variable a medir es dicotómica recomendamos una precisión menor del
ocho por ciento. Por ejemplo, si se desea estimar y comparar los porcenta-
jes de personas que tienen diabetes en dos estados de la republica Mexicana,
podríamos elegir una precisión de cinco por ciento; sin embargo, si se tiene
información de que los porcentajes en ambos estados son muy similares para
poder tomar una decisión más certera sobre si el porcentaje de diabéticos entre
los estados es distinto debemos de elegir un porcentaje de error mas pequeño
digamos 2.5%, para poder discriminar con mayor confiabilidad. Ahora, supon-
ga que la secretaría de Economía desea estimar en el país el porcentaje de
familias que tienen ingresos menores de 2,000 pesos mensuales para conocer
el porcentaje de familias que viven en extrema pobreza, por tanto en este caso
se puede elegir una precisión de 7% y con los resultados obtenidos se tendrá
una imagen bastante clara de el porcentaje de familias en esta situación. Sin
26
embargo, si la secretaría de economía además persigue implementar un pro-
grama para subsidiar con 1000 pesos mensuales a cada una de las familias en
este estrato, por lo tanto una estimación con un error de 7% puede provocar
que al momento de implementar dicho programa el presupuesto para tal fin
no alcance, por lo que se sugiere un error más pequeño.
Si la variable respuesta es continua de igual manera recomendamos una pre-
cisión menor del ocho por ciento del promedio verdadero o estimado. Esto
significa que para poder estimar la precisión del promedio o el total se necesita
tener idea del valor verdadero del promedio o total verdadero, en caso de que
no se tenga idea de estos se pueden estimar a partir de una muestra prelimi-
nar (piloto). Por ejemplo, suponga que un nutriólogo desea estimar el promedio
de calorías consumidas de niños de 6 años de edad en el estado de Colima, co-
mo experto el sabe que el consumo promedio de calorías por niño debe ser de
400. Por lo tanto, él puede elegir una precisión de 20 calorías, que representa
el 5% del promedio de consumo recomendado (d = 0.05 ∗ 400 = 20). En este
caso el nutriologo es un experto y tiene una idea bastante clara del valor del
promedio, pero suponiendo que no tiene la mas remota idea de este valor, el
puede estimar este promedio con una muestra piloto y obtener su precisión
también multiplicando el 0.05 por el promedio de la muestra preliminar. Aho-
ra, suponga que un investigador desea conocer el consumo promedio en pesos
de energía eléctrica por hogar en el estado X. Además, suponga que no tiene
la mínima idea, por lo tanto él puede proceder a consultar a un experto en el
tema o realizar un muestreo piloto y con base en esto tener una estimación
tentativa del promedio. Suponga que ya obtuvo el promedio preliminar (500
pesos mensuales por hogar), por lo tanto la precisión que utilizará para cal-
cular su muestra definitiva será igual a 25 que equivale al 5% del promedio
preliminar d = 0.05 ∗ 500 = 25. Si además, el investigador desea comparar en
dicho estado los consumos promedios entre los distintos municipios que sabe
tienen un desarrollo económico similar, quizá sea necesario una precisión más
pequeña. Pero, por el contrario suponga que si solo es de su interés comparar
los municipios del norte, centro y sur que sabe que de antemano son distintos
la precisión es aceptable.
Por otro lado, si el parámetro que se desea estimar es el total ya sea a partir de
variables dicotómicas o continuas se procede de igual forma y se recomienda
un error menor del 8% del total preliminar. Por ejemplo si se desea estimar el
total de drogadictos en el estado de Colima para el año 2008, para fijar la pre-
cisión necesitamos una estimación tentativa del total. Supongamos que este
es de 5000, por lo tanto la precisión será d = 0.05∗5000 = 250, es decir el 5% del
total preliminar. Esta forma de estimar la precisión del total es exactamente la
misma (d=(porcentaje/100)* valor preliminar del parámetro a estimar) que para
estimar la precisión para una proporción o un promedio. Por lo tanto, el lector
debe siempre recordar que la precisión se debe de calcular para el parámetro
de mayor interés en su investigación ya que de lo contrario debe de determi-
nar una precisión para cada parámetro y con ello obtener más de un tamaño
de muestra lo cual además de desgastarlo lo puede confundir. También, hay
que dejar claro que si se determina la precisión usando la expresión que pre-
sentamos anteriormente, d=(porcentaje/100)* valor preliminar del parámetro a
27
Capítulo 2. Conceptos básicos de estadística
estimar), el tamaño de muestra requerido usando el mismo porcentaje de error
para estimar la proporción o total será el mismo. Lo mismo ocurrirá con el
tamaño de muestra para el promedio y el total.
La forma que se sugiere para determinar la precisión tiene la ventaja de que es
en términos relativos no absolutos, esto facilita el proceso porque es fácil fijar
un error en términos de porcentaje ya que de esta manera uno tiene claro la
magnitud del error, mientras que tratar de fijar el error en términos absolutos
es complicado ya que un valor pequeño puede ser un error relativo (porcentaje)
muy pequeño que requerirá tamaños de muestras muy grandes o muy grande
que me proporcionara tamaños de muestra muy pequeños y resultados poco
confiables.
También es importante mencionar que el nivel de precisión se decidirá por
la cantidad de recursos disponibles para el estudio, ya que se pueden obtener
resultados muy confiables con precisiones muy bajas, pero esto implica ma-
yores costos. Por otro lado, sugerimos en la medida de lo posible para estimar
la precisión extraer una muestra piloto para obtener las estimaciones prelimi-
nares de los parámetros, conocer la calidad del cuestionario, las dificultades
de los encuestadores, los problemas del marco de muestreo y detalles que nos
auxilien en el diseño de la encuesta definitiva. Finalmente, también es impor-
tante dejar claro que en la mayoría de las encuestas donde se trabaja con
personas los márgenes de error mas usados son 3% y 5%, ya que garantizan
resultados bastante confiables y con costos razonables.
2.21. Uso de tablas para la distribución normal es-
tándar y t-student
2.21.1. Distribución normal estándar para n > 30
Es conveniente mencionar que cuando el tamaño de la muestra es mayor
a 30, los valores de la distribución t-student son muy cercanos a los de la
distribución normal estándar, por lo cuál a menudo se utilizan los valores de
ésta última distribución en vez de la primera. Se debe tener presente que Z
representa a una variable aleatoria que tiene una distribución normal, con
media cero (µ =0) y desviación estándar uno (σ = 1), mejor conocida como
distribución de probabilidad normal estándar. Casi siempre se usa la letra Z
para indicar esta variable aleatoria normal especial. Como con otras variables
aleatorias continuas los cálculos de probabilidad con cualquier distribución
normal, se llevan a cabo determinando las áreas bajo la grafica de la función de
densidad de probabilidad, por ejemplo supongamos que se requiere encontrar:
I. La probabilidad de que una variable aleatoria de una distribución normal
estándar sea menor a 1.75, es decir, P(Z < 1.75). Para encontrar tal proba-
bilidad hacemos uso del Cuadro A.1(Apéndice A), en el cual nos ubicamos
en la hilera correspondiente al valor de 1.70 de Z sobre la primer colum-
na y en la columna correspondiente al valor de 0.05 de Z sobre la primer
hilera, e interceptando la hilera y columna ya ubicadas, encontramos que
28
la probabilidad correspondiente es igual a 0.9599. Lo anterior se muestra
en el Cuadro 2.1.
Cuadro 2.1: Ejemplo 1 para el uso de las tablas de la normal estándar
Z
Z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.10 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.70 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.90 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
Debido a la relación existente, P(Z > Z
0
) = 1 − P(Z < Z
0
), solamente se
ejemplifica el uso del Cuadro A.1 para obtener la probabilidad de que una
variable aleatoria normal estándar sea menor a un valor especifico Z
0
.
II. La probabilidad de que una variable aleatoria normal estándar se encuen-
tre entre 1.64 y 1.98, esto es, P(1.64 < Z < 1.98). Encontrar P(1.64 < Z <
1.98) es relativamente sencillo solamente recordando la siguiente relación:
P(1.64 < Z < 1.98) = P(Z < 1.98) − P(Z < 1.64), con la cual únicamente es
necesario hacer lo que se hizo en I. para cada componente de la resta .
Por tanto, al obtener de tablas P(Z < 1.98) = 0.9761 y P(Z < 1.64) = 0.9495
se tiene que P(1.64 < Z < 1.98) = 0.9761 −0.9495 = 0.0267. Ver Cuadro 2.2.
Cuadro 2.2: Ejemplo 2 para el uso de las tablas de la normal estándar
Z
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
III. Ahora supóngase que se requiere encontrar el valor de Z
0
tal que la prob-
abilidad de que una variable aleatoria normal estándar sea igual a 0.975,
es decir, P(Z > Z
0
) = 0.975. En este caso se procede de manera inversa que
a I., es decir, ahora se tiene la probabilidad y se busca el valor de Z
0
. Por lo
tanto, se busca en el Cuadro A.1(Apéndice A) el valor de probabilidad más
cercano a 0.975 y se encuentra que éste es exactamente el mismo (0.975).
En seguida se obtienen los valores de Z para éste valor de la columna e
hilera en que se ubica (ver Cuadro 2.3). En este caso el valor de Z en la
columna es de 0.06 y en la hilera 1.90, por lo que Z
0
= 1.90 + 0.06 = 1.96.
Sin embargo, hay que tener presente que en la práctica el investigador lo
que fija para su estudio es la confiabilidad (1 − α) y para ésta confiabili-
dad se debe encontrar el valor de Z
0
. Por ello, a continuación se muestra
29
Capítulo 2. Conceptos básicos de estadística
como llegar a partir de una confiabilidad especificada al valor de Z
0
= Z
α/2
.
Suponga que el investigador decide para su estudio una confiabilidad de
90 %. Así, el nivel de significancia en término de proporción será α = 0.1,
lo que implica que el valor de tablas que se busca es Z
0
= Z
α/2
= Z
0.05
,
que expresado en términos de probabilidad es equivalente a encontrar
Z
0.05
tal que P(Z < Z
0.05
) = 0.95. Por lo tanto, se busca en el Cuadro A.1
(Apéndice A) el valor de probabilidad más cercano a 0.95 y se encuentra
que éste es igual a 0.9495. Luego, para éste valor, se obtienen los valores
de Z de la columna e hilera en que se ubica (ver Cuadro 2.3), para este
caso el valor de Z en la columna es 0.04 y el de la hilera 1.6, por lo que
Z
0
= Z
α/2
= Z
0.05
= 1.6 + 0.04 = 1.64.
Un ejemplo más para garantizar el uso adecuado de esta tabla. Suponga
que ahora el investigador decide una confiabilidad de 85 %; este implica un
α = 0.15. Por lo tanto, el valor de tablas que se busca es Z
0
= Z
α/2
= Z
0.075
;
en términos de probabilidad buscamos Z
0
tal que P(Z < Z
0
) = 1 − 0.075 =
0.925. Nuevamente se busca en el Cuadro A.1 (Apéndice A) el valor de
probabilidad más próximo a 0.9251 y se encuetra que es el mismo 0.9251.
En seguida se obteinen los valores de Z para éste valor de la columna e
hilera en que se ubica (ver Cuadro 2.3). Para este caso el valor de Z en
la columa es igual a 0.04 y el de la hilera 1.4. De esta manera, Z
0
=
1.4 + 0.04 = 1.44. Es importante enfatizar que al usar esta tabla no se
obtienen valores exactos, sino aproximados.
Cuadro 2.3: Ejemplo 3 para el uso de las tablas de la normal estándar
Z
Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.00 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.90 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.80 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.90 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
Finalmente, para facilitar el uso de esta tabla, en el Cuadro (2.4) se presen-
tan los valores de Z
α/2
para los niveles de confianza más usuales.
2.21.2. Distribución t-student para n ≤ 30
De igual manera el investigador fijará para su estudio la confiabilidad, por lo
que únicamente explicaremos como encontrar de tablas el valor de t
0
para és-
ta distribución a apartir de la confiabilidad y tamaño de muestra especificados.
Si el investigador fija una confiabilidad de 1 − α y tiene un tamaño de
muestra n; esto implica que el valor de tablas que se desea es t
0
= t
(n−1,α/2)
,
30
Cuadro 2.4: Valores de Z
α/2
para los niveles de confianza de uso más común
Nivel de confianza α α/2 Z
α/2
90 % 0.1 0.05 1.6449
95 % 0.05 0.025 1.9600
97.5 % 0.025 0.0125 2.2414
99 % 0.01 0.005 2.5758
que en términos de probabilidad equivale a encontrar t
0
= t
(n−1,α/2)
tal que
P(t < t
0
= t
(n−1,α/2)
) = 1 −α/2. Para encontrar éste valor se hace uso del Cuadro
A.2 (Apédice A), cuyos valores corresponden a una distribución t-student con
ν = n −1 grados de libertad que deja una probabilidad a la derecha de ellos de
α/2. Por lo tanto, para usar la tabla se requiren únicamente los valores de α/2
y los grados de libertad que se obtienen en función del tamaño de la muestra,
para lo casos abordados en el presente libro ν = n−1. En seguida en la primera
columna se localizan los grados de libertad ν y en la segunda hilera el valor de
α/2, y en la intercepción de ésta hilera y columna se obtiene el valor de t
0
.
Por ejemplo, suponga que un investigador fija para su estudio una confia-
bilidad de 90 % y que cuenta con un tamaño de muestra de n = 6; esto implica
que α = 0.1(en términos de proporción), entonces el valor de tablas que se desea
es t
0
= t
6−1,0.05
,es decir, se busca el valor de t
0
tal que P(t < t
0
) = 1 −0.05 = 0.95.
Para encontrar éste valor de t
0
, se busca en el Cuadro A.2 en la primera colum-
na los ν = 6 −1 = 5 grados de libertad y en la segunda hilera el valor α/2 = 0.05
y en la intercepción se obtiene el valor de t
0
= 2.0150 (ver Cuadro 2.5 ).
Para cerciorarnos de que no habrá dudas para obtener los valores t
0
de
tablas proporcionamos otro ejemplo. Suponga que otro investigador fija para
su estudio una confiabiilidad de 98 % y cuenta con un tamaño de muestra de
n = 16. Por lo tanto, α/2 = 0.01 y el valor de tablas que se desea es t
0
= t
(15,0.01)
,
que es equivalente a buscar el valor de t
0
talque P(t < t
0
) = 1 − 0.01. Para
encontrar tal valor, en el Cuadro A.2 se busca en la primera columna los ν =
16 −1 = 15 grados de libertad y en la segunda hilera el valor de α/2 = 0.01 y en
la intercepción de ésta hilera y columna se obtiene el valor de t
0
= 2.6025 (ver
Cuadro 2.5).
Cuadro 2.5: Ejemplo para el uso de las tablas de la distribución t-student
α/2
ν 0.25 0.1 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005
1 1.0000 3.0777 6.3138 12.7062 31.8205 63.6567 127.3213 318.3088 636.6192
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 0.7267 1.4759 2.0150 2.5706 3.3649 4.0321 4.7733 5.8934 6.8688
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15 0.6912 1.3406 1.7531 2.1314 2.6025 2.9467 3.2860 3.7328 4.0728
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
180 0.6759 1.2863 1.6534 1.9732 2.3472 2.6034 2.8421 3.1361 3.3454
210 0.6757 1.2856 1.6521 1.9713 2.3442 2.5994 2.8370 3.1295 3.3375
31
Capítulo 2. Conceptos básicos de estadística
32
Capítulo 3
Muestreo aleatorio simple
Que el muestreo es imperfecto,
no lo vengo a discutir.
Pero es el mejor amigo,
que ayuda a decidir.
OAML
E
L muestreo sirve para determinar, de la mejor manera, las características
que describan a la población. La cantidad de información que la muestra
aporte depende del tamaño de esta y de la variabilidad existente entre los ele-
mentos de la población en cuanto a la característica o variable de interés. El
evaluador decide la forma de seleccionar la muestra y el número de unidades
muestrales que se evaluarán, y con esto podrá controlar la calidad de la infor-
mación extraída y la precisión requerida.
Aunque es común en los estudios muestrales evaluar varias características
o variables simultáneamente en cada sujeto o unidad muestral, en el estudio
del muestreo probabilístico solamente se trabaja con una variable a la vez. Si
se requiere, se pueden estudiar todas las variables pero una por una y al final
conjuntar los resultados. Puede ocurrir el caso que de dos o más variables me-
didas se obtenga otra variable, y esta última sea la de interés, este caso debe
considerarse como una forma de medición y la variable generada simplemente
será solamente otra variable.
Con la información proveniente de la evaluación de la muestra, podemos
hacer inferencias sobre la población. La validez de tales inferencias depende
fundamentalmente del diseño de muestreo, es decir, de la forma en que se ob-
tuvo la muestra. Para que los principios de la probabilidad sean aplicables al
hacer la inferencia, es necesario que la selección de la muestra se haga me-
diante una técnica de muestreo probabilístico.
33
Capítulo 3. Muestreo aleatorio simple
Muestreo aleatorio simple (MAS)
Se denomina muestreo aleatorio simple o completamente al azar, al
diseño que habiendo decidido que el tamaño de la muestra será de
n unidades de muestreo (o simplemente de tamaño n), le asigna la
misma probabilidad de ser la elegida a cada una de todas las mues-
tras posibles de ese tamaño. Es decir, cualquiera de las muestras
distintas que podemos obtener de la población tendrá la misma pro-
babilidad de ser elegida (Cochran, 1985 [1]).
La definición anterior de MAS es equivalente a que cada una de las unidades
de la población tienen la misma probabilidad de ser seleccionadas (Raj D.
(1972)[14]).
El MAS es el más sencillo que veremos en este libro y nos dará las bases
para desarrollar diseños más elaborados.
3.1. Tipos de muestreo aleatorio simple
Si sabemos que cada muestra posible tiene la misma probabilidad de ser
elegida, nos preguntamos ¿cuántas muestras posibles existen? Para responder
esta pregunta tendríamos que analizar dos aspectos: la selección con reempla-
zo y la selección sin reemplazo.
Muestreo aleatorio simple con reemplazo
En el muestreo con reemplazo, si el tamaño de la muestra es
n y el de la población es N, existen N
n
muestras diferentes. El
procedimiento de selección consiste en seleccionar una unidad que
tiene la posibilidad de ser incluida nuevamente en la muestra. Esta
opción genera fórmulas de estimación más fáciles, pero en la prác-
tica tiene poco sentido medir más de una ocasión la misma unidad
muestral, salvo en diseños específicos u otros más elaborados en los
que las complicaciones teóricas sugieren simplificar los supuestos
en que se sustenta su análisis.
Muestreo aleatorio simple sin reemplazo
En el muestreo sin reemplazo se pueden construir tantas muestras
diferentes como combinaciones se pueden hacer de N elementos de
tamaño n (
N
C
n
), cantidad que se calcula con:
N
C
n
=
N!
n!(N −n)!
El procedimiento de integración de la muestra difiere en que una vez
seleccionada una unidad, ésta ya no podrá volver a ser seleccionada.
Conviene reiterar que la definición de MAS asigna la misma oportunidad a
cada muestra posible, lo que haría suponer que todas las muestras posibles
34
deberían configurarse antes de seleccionarlas, lo cual sería imposible en pobla-
ciones grandes. Simplemente obsérvese que el número posible de muestras de
una población con 100 unidades muestrales y una muestra de tamaño 15,
sin reemplazo es
100
C
15
=
100!
15!(100 −15)!
= 2.53338 × 10
17
y con reemplazo es
100
15
= 1 × 10
30
muestras posibles. Afortunadamente, la definición se satisface
simplemente dejando que cada unidad muestral tenga la misma oportunidad
de ser incluida en la muestra; esa probabilidad es n/N y solamente necesita-
mos conocer una muestra, que será la que usaremos.
Cuando el tamaño de la población (N) es muy grande con respecto al tamaño
de la muestra (n) y el muestreo se lleva a cabo con reemplazo, la probabilidad
de que una unidad muestral sea elegida dos veces es muy pequeña. De hecho,
la probabilidad de elección de cualquier unidad una sola vez también es muy
pequeña; de ahí que el muestreo aleatorio simple con reemplazo se aproxime
al aleatorio simple sin reemplazo.
En lo sucesivo consideraremos el muestreo aleatorio simple sin reempla-
zo, a menos que se indique otra cosa. También, es pertinente mencionar que
este diseño de muestreo recibe diferentes nombres, como muestreo simple al
azar, muestreo completamente aleatorio o muestreo irrestricto al azar. Por el-
lo, es conveniente aclarar el concepto cuando se usa una u otra denominación.
3.2. Selección de una muestra aleatoria simple
Una vez que se ha determinado el número de elementos a extraer de la
población, el paso siguiente consiste en seleccionarlos y definir cuales serán,
de tal manera que cada uno tenga la misma probabilidad de ser seleccionado.
Existen muchos métodos para este fin, entre ellos:
Empleando una tabla de números aleatorios
Este método consiste en extraer n números de dicha tabla (Cuadro A.3)
que estén comprendidos entre 1 y N. Para lo cual se inicia en cualquier
punto de la tabla elegido al azar, siguiendo una ruta predeterminada y
tomando tantas columnas como dígitos tenga N (tamaño de la población).
Recordándose que la extracción es sin reemplazo. Para que el lector pue-
da hacer uso de esta tabla a continuación se proporcionan dos ejemplos:
a). Supongamos que queremos una muestra aleatoria de 4 personas de
una población de 15 individuos debidamente enumerados del 1 al 15.
Para obtener las 4 personas elegimos una hilera y una columna aleato-
riamente del Cuadro A.3. Suponemos que la hilera seleccionada es la
23 y la columna es la 4 y decidimos utilizar los últimos dos digítos del
extremo derecho del grupo de 5, que en este caso es el 10 (primer elemen-
to de la muestra). Ahora podemos proceder en cualquier dirección para
35
Capítulo 3. Muestreo aleatorio simple
obtener los individuos que restan en la muestra. Si decimos proceder ha-
cia abajo de la columna, el siguiente número (inmediatamente debajo del
10) es el 06. Entonces, nuestra segunda persona en la muestra sería la
6. Si seguimos, llegamos al 22, pero solamente hay 15 elementos en la
población. Por consiguiente, ignoramos el 22 y continuamos hacia abajo
de la columna y nos encontramos el 15. Así, nuestra tercera persona en
la muestra es la 15. Para obtener la cuarta persona que conformará la
muestra continuamos hacia abajo de la columna y nos encontramos un
58, luego un 83, 83, 59 y 96, pero recordando que nuestra población so-
lamente es de 15 personas los ignoramos y continuamos hacia abajo de la
columna. Aparece un 07, así que nuestro cuarto elemento en la muestra
es la persona 7.
b). Ahora supongamos que tenemos una población de 9,000 individos
(enumerados del 1 al 9,000) y necesitamos elegir una muetra aleatoria de
10 de ellos. De igual manera que el ejemplo anterior, elegimos una hilera
y una columna aleatoriamente del Cuadro A.3. Suponemos que la hilera
seleccionada es la 5 de la columna 6 y decidimos utilizar los últimos 4
digítos del extremo derecho del grupo de 5, que en este caso es el 5,838
(primer elemento de la muestra). Para obtener los restantes individuos de
la muestra podemos proceder en cualquier dirección. Si decidimos pro-
ceder hacia abajo de la columna, el siguiente número (inmediatamente
debajo del 5,838) es el 0525. Entonces, nuestro segundo individuo en la
muestra sería la 525. Siguiendo, encontramos que los restantes individu-
os que conformarán la muestra son: el 2,351, 8,605, 2,564, 7,222, 5,232,
7,291, 0393 y el 4,456 .
Extracción de papelitos numerados
Este método es sencillo, pero laborioso si la población es grande, y con-
siste en hacer papelitos debidamente numerados entre 1 y N. Se mezclan
perfectamente en una bolsa y se extraen sin reemplazo uno por uno hasta
completar n, el tamaño de la muestra.
3.3. Estimación de la media poblacional
Al evaluar variables cuantitativas, la media (µ) de la variable ”y” es el pará-
metro que con mayor frecuencia nos interesa estimar. Este parámetro tiene la
siguiente definición,
Media de la población = µ
y
= µ =
N
¸
i=1
y
i
N
Otro parámetro de gran interés es el total (τ
y
) de la variable ”y” para toda la
población, cuya definición se presenta a continuación:
Total de la población = τ
y
= Nµ
y
=
N
¸
i=1
y
i
36
En ocasiones se omite el subíndice ”y” ya que el contexto esclarece a qué
variable se refiere.
Como no tenemos acceso a todas las N unidades muestrales de donde
proviene cada y
i
debemos definir estimadores de los datos de la muestra.
3.3.1. Estimador de la media y del total muestral
ˆ µ = ¯ y =
n
¸
i=1
y
i
n
(3.1)
ˆ τ = N¯ y (3.2)
A los valores que arrojan estos estimadores (expresiones 3.1 y 3.2) apor-
tadas por Scheaffer (1987[2]) se denominan estimaciones. Los estimadores
son variables aleatorias que tienen propiedades estadísticas derivadas de la
probabilidad, mientras que las estimaciones son simplemente números con
las unidades de medición correspondientes.
Los estimadores poseen algunas propiedades estadísticas deseables como
el insesgamiento y la consistencia; sin embargo, la revisión y demostración de
estas propiedades no es tema de este libro y los interesados pueden consultar
algún libro de inferencia estadística (Mood, et al., 1974 [4]).
3.3.2. Estimación de la varianza
La varianza es otro parámetro importante de la población, simbolizada por
σ
2
. Con su ayuda se hacen inferencias probabilísticas sobre la estimación de
la media; también refleja la variabilidad que existe entre los valores de las
variables. Este parámetro se define por la expresión
σ
2
Y
= σ
2
=
N
¸
i=1
(y
i
−µ)
2
N −1
Al igual que µ y τ, σ
2
también tiene su estimador muestral, el cual se obtiene
de la muestra. Este estimador se denota como
S
2
y
= S
2
=
n
¸
i=1
(y
i
− ¯ y)
2
n −1
=
n
¸
i=1
y
2
i
−n¯ y
2
n −1
Estimador de la media y la varianza de la media poblacional
µ
¯ y
= µ (3.3)
σ
2
¯ y
=
¸
N −n
N

σ
2
y
n
(3.4)
37
Capítulo 3. Muestreo aleatorio simple
Al no conocer los parámetros incluidos en estas expresiones (3.3 y 3.4,
recurrimos a utilizar sus estimadores (Scheaffer, 1987 [2]).
ˆ µ
¯ y
= ˆ µ = ¯ y (3.5)
S
2
¯ y
=
¸
N −n
N

S
2
y
n
=

1 −
n
N

S
2
y
n
= [1 −f]
S
2
y
n
(3.6)
f = n/N se llama fracción de muestreo y representa la proporción de la población
que está incluida en la muestra, por lo que también se interpreta como la in-
tensidad del muestreo.
El factor (N − n)/N se denomina corrección por población finita (CPF), que
también se puede expresar como [1 − (n/N)], donde el cociente (n/N) es la
fracción de muestreo (f). La importancia del factor de corrección se reduce a
medida que la fracción de muestreo se hace más pequeña, es decir, cuando la
muestra representa una proporción menor de la población. Por la reducción
de esta magnitud, en ocasiones suele omitirse si la fracción de muestreo es
menor que 5%, esto es, si f = (n/N) < 0.05.
Teniendo estos estimadores (3.5 y 3.6) y con las propiedades de la distribu-
ción normal, podemos establecer estimaciones por intervalo, para el promedio
y el total poblacional, esto se presenta adelante detalladamente.
Estimadores del total y la varianza del total poblacional
µ
ˆ τ
= τ = Nµ (3.7)
σ
2
ˆ τ
= Nσ
2
y
(3.8)
Como no conocemos los parámetros incluidos en estas expresiones (3.7 y 3.8),
utilizamos sus estimadores muestrales.
Estimadores del total y de la varianza del total muestral
ˆ µ
ˆ τ
= ˆ τ = Nˆ µ = N¯ y (3.9)
S
2
ˆ τ
= N
2
S
2
y
n
¸
N −n
N

(3.10)
Las expresiones 3.9 y 3.10 pueden simplificarse algebraicamente. Además,
en lo sucesivo simplificamos las expresiones y notación para facilitar su lec-
tura.
Por lo general, la desviación estándar de los estimadores, o sea, la raíz
cuadrada positiva de sus varianzas, se le conoce como error estándar de la
media y del total, respectivamente.
3.3.3. Estimación por intervalo
Debemos tener presente que lo que nos interesa estimar es la media o el to-
tal de la población, es decir, µ ó τ basándonos en la información de la muestra,
38
esto es, ¯ y, S
2
¯ y
, ˆ τ y S
2
ˆ τ
que ya hemos calculado. Asimismo, suponiendo que los
estimadores ¯ y y ˆ τ tienen una distribución normal, o aproximadamente normal,
se puede estimar por intervalo la media y total poblacional.
Intervalo de confianza para la estimación de la media
¯ y ±t
n−1,(α/2)
S
¯ y
(3.11)
donde S
¯ y
=

N −n
N

S
2
y
n
.
Es necesario aclarar la interpretación del intervalo (3.11) y el significado de
los términos que aún no se han definido. Desde el punto de vista del muestreo
repetido, significa que del total de muestras posibles de tamaño n, aproximada-
mente (1 − α)100 % de ellas producirá intervalos del tipo (3.11) que cubren el
valor del parámetro, y que en (α)100 % dará intervalos diferentes que no cubren
el valor del parámetro. Nótese que cuando calculemos
¯ y
0
−t
n−1,(α/2)
S
¯ y
y ¯ y
0
+ t
n−1,(α/2)
S
¯ y
donde ¯ y
0
indica el valor de la media muestral obtenido con la muestra especí-
fica. Nótese que implícitamente se acepta un error de α100 %, esto es, que el
valor del parámetro no esté entre tales límites. t
n−1,(α/2)
representa el valor de
una variable t de Student con (n − 1) grados de libertad y que deja del lado
derecho de la curva una probabilidad de α/2. Este valor se obtiene de la dis-
tribución t de Student. Es necesario mencionar que cuando el tamaño de la
muestra es grande, digamos mayor de 30, los valores de t son muy similares a
los de una variable aleatoria con distribución normal estándar, por esta razón
es común utilizar los valores de Z
α/2
de la variable normal estándar en lugar
de los valores t
n−1,(α/2)
.
Intervalo de confianza para la estimación del total
ˆ τ ±t
n−1,(α/2)
S
ˆ τ
(3.12)
donde ˆ τ = N¯ y, S
ˆ τ
=

N
2
S
2
y
n
¸
N −n
N

= N

S
2
y
n
¸
N −n
N

. El intervalo de confianza
es la referencia de mayor importancia para los resultados de un muestreo. El
tamaño del intervalo nos indica la precisión que se ha logrado en la estimación
del parámetro de interés.
Por supuesto que siempre es deseable un intervalo pequeño, pero su am-
plitud depende del nivel de confiabilidad y del error estándar del estimador.
Si deseamos más confiabilidad el intervalo tendría que ampliarse como resul-
tado de una t más grande. La mayor confiabilidad se paga con menor precisión.
Por su parte, el error estándar depende de la variabilidad de la población y
del tamaño de la muestra. El tamaño de la muestra es el factor que podemos
manipular para lograr una precisión deseada, ya que la varianza de ¯ y, y por lo
tanto el error estándar, es cero cuando el tamaño de la muestra es igual al de
la población.
39
Capítulo 3. Muestreo aleatorio simple
3.3.4. Determinación del tamaño de la muestra
Determinar el tamaño de muestra y tomar la decisión de cuál tamaño ele-
gir, es uno de los problemas importantes a que debe enfrentarse el usuario
del muestreo. En la determinación de n se deben considerar tanto el aspecto
teórico como el práctico. Por un lado, es necesario identificar el parámetro o
los parámetros que se deben estimar, el esquema de muestreo a usar, la elec-
ción del estimador o los estimadores; asimismo, las especificaciones que se
requieren hacer o que se desea que reúna un estimador, todo esto como parte
de la teoría. Por otro lado, el aspecto práctico tiene gran influencia en la de-
cisión del tamaño de muestra a usar en definitiva, ya que deben tomarse en
cuenta factores como el dinero y el tiempo disponibles, el objetivo del estudio,
la cantidad de información que se captará, la cantidad de personal especializa-
do que se necesita, el tipo y la calidad de los materiales, los instrumentos nece-
sarios para las mediciones, etcétera.
Aquí se presentará un procedimiento para calcular un tamaño de muestra,
para estimar la media poblacional o el total poblacional bajo una medida de
la calidad en la estimación. El procedimiento comprende la precisión del esti-
mador con referencia a un error absoluto máximo permisible (la precisión) y
una confiabilidad dada.
Tamaño de la muestra para estimar la media
Vamos a estimar una sola media poblacional, digamos
¯
Y , mediante su esti-
mador ¯ y bajo el MAS, utilizando la relación de precisión y confiabilidad de la
declaración (2.1), en este caso el parámetro θ =
¯
Y , mientras que d y (1 − α)
indican, respectivamente, la precisión y confiabilidad fijadas de antemano por
el investigador. Además, suponemos ¯ y tiene una distribución normal en con-
secuencia establecemos la precisión como:
d = t
n−1,α/2
S
¯ y
(3.13)
donde t
n−1,α/2
es el valor de una variable aleatoria t de Student que deja del la-
do derecho de la curva una probabilidad de α/2; y S
¯ y
es la raíz cuadrada de la
varianza de ¯ y. Formalmente, el desarrollo debe hacerse en términos de σ
2
y no
de S
2
¯ y
, pero en virtud de que el parámetro no se conoce, usamos su estimador.
Hay que resaltar que la precisión en este caso (3.13) se fijó en términos de la
desviación estándar, pero también se puede fijar en términos de la varianza y
el coeficiente de variación.
Por tanto, a partir de la expresión (3.13) se procede a despejar n:
d = t
n−1,(α/2)
S
¯ y
⇔d = t
n−1,(α/2)

N −n
N

S
2
n
⇔d
2
= t
2
n−1,(α/2)

(N −n)S
2
Nn

d
2
= t
2
n−1,(α/2)

1 −
n
N

S
2
n
⇔d
2
= t
2
n−1,(α/2)
S
2

1
n

1
N

d
2
t
2
n−1,(α/2)
S
2
=

1
n

1
N


1
n
=
d
2
t
2
n−1,(α/2)
S
2
+
1
N
40
1
n
=
Nd
2
+t
2
n−1,(α/2)
S
2
Nt
2
n−1,(α/2)
S
2
⇔n =
Nt
2
n−1,(α/2)
S
2
Nd
2
+ t
2
n−1,(α/2)
S
2
Por lo tanto, se obtiene una ecuación que indica cómo calcular un tamaño
de muestra para la estimación de una media poblacional, en términos de una
precisión y una confiabilidad preestablecidas:
n =
Nt
2
n−1,(α/2)
S
2
Nd
2
µ
+ t
2
n−1,(α/2)
S
2
(3.14)
n = tamaño de muestra estimado para estimar la media poblacional,
¯
Y . Es
una muestra estimada porque no se conoce la varianza poblacional (σ
2
) y en
su lugar se utiliza su estimador correspondiente (S
2
), que es igual a: S
2
=
n
¸
i=1
y
2
i
−n¯ y
2
n −1
.
N = tamaño de la población, el cual es un valor conocido.
t
n−1,α/2
= valor de una variable aleatoria t de Student o normal estándar que
tiene a la derecha de la curva una probabilidad de α/2. Este valor se conoce al
fijar la confiabilidad deseada.
d
µ
= alejamiento máximo permitido entre el estimador y el parámetro (la pre-
cisión), el cual es un valor conocido y que establece el investigador.
S
2
= varianza muestral. Este valor se obtiene con los datos de una muestra
preliminar de tamaño n

.
Hemos usado el subíndice µ en la precisión d, para aclarar que se trata de
la precisión referida a la media; en este caso es el parámetro que se está esti-
mando, pero podría ser que la estimación deseada fuera otro parámetro, como
el total τ o algún otro. Además es importante mencionar que esta varianza
muestral (S
2
) será calculada con base en una muestra preliminar de tamaño
n

, la cual sólo será de utilidad para calcular el tamaño de muestra definitivo,
pero no para el proceso de cálculo de estimaciones por intervalo de confianza.
El tamaño de muestra preliminar n

se determina de manera arbitraria, pero
dependerá de los recursos económicos y humanos disponibles, así como del
tiempo y las condiciones físicas y administrativas del estudio. Está claro que
a medida que se incremente n

la estimación de la varianza poblacional será
mejor. En caso de no realizar una encuesta piloto para la estimación e la vari-
anza se proponen las dos siguientes alternativas:
Especificar el valor aproximado de la varianza con base en experiencia de
estudios anteriores.
Especificar el valor aproximado de la varianza mediante el conocimiento
que se tenga sobre la forma de la distribución y el rango de variación de
los valores de la variable bajo estudio.
41
Capítulo 3. Muestreo aleatorio simple
Se presenta el la Figura A.1, donde aparecen formúlas sencillas de las var-
ianzas de distribuciones a apartir de la forma y el rango de variación de la
variable estudiada. Tablas similares son presentas por Deming (1966)[13] y
Kish (1950)[12].
Tamaño de muestra para estimar el total poblacional
De igual manera utilizando la relación de precisión y confiabilidad de la declaración
(2.1), y considerando el parámetro θ = τ. Además, ˆ τ tiene una distribución nor-
mal y por tanto: d = t
n−1,α/2
S
ˆ τ
,
donde S
ˆ τ
=

N
2
¸
N −n
N

S
2
y
n
= N

¸
N −n
N

S
2
y
n
. Despejendo n se obtiene una
ecuación que indica cómo calcular un tamaño de muestra para la estimación
de un total poblacional, en términos de una precisión y una confiabilidad
preestablecidas:
n =
N
2
t
2
n−1,(α/2)
S
2
d
2
t
+Nt
2
n−1,(α/2)
S
2
n: tamaño de muestra para estimar el total poblacional.
N: tamaño de la población.
S
2
: varianza estimada en la población de interés.
d
τ
: precisión de la estimación del total poblacional que estamos dispuestos a
aceptar.
Conviene recordar que τ = Nµ, y d
τ
= Nd
µ
, por lo tanto, se puede usar la
fórmula para el cálculo del tamaño de la muestra que más convenga, sabiendo
cómo pasar de una a otra en las estimaciones de µ ó τ.
3.3.5. Ejemplos
Ejemplo 1. IBM produce semanalmente N = 1, 000 computadoras, de donde
el gerente de calidad seleccionó al azar una muestra n = 10 computadoras. La
información sobre el número de fallas encontradas en cada una de las com-
putadoras se muestra a continuación: 6, 7, 9, 8, 5, 4, 7, 8, 7 y 6.
a) Haga una estimación puntual del promedio de fallas por computadora.
¯ y =
y
1
+y
2
+· · · + y
n
n
¯ y =
6 + 7 + 9 + 8 + 5 + 4 + 7 + 8 + 7 + 6
10
= 6.7
b) Calcule la varianza muestral del número de fallas (S
2
)
S
2
=
n
¸
i=1
y
2
i
−n¯ y
2
n −1
42
S
2
=
6
2
+ 7
2
+ . . . + 7
2
+ 6
2
−10(6.7)
2
9
= 2.2333
c) Calcule la varianza y la desviación estándar de la media muestral del
número de fallas
S
2
¯ y
=

N −n
N

S
2
n

S
2
¯ y
=

1, 000 −10
1, 000

2.2333
10

S
2
¯ y
= (0.99)(0.2233) = 0.221
S
¯ y
=

S
2
¯ y
=

0.221 = 0.4702
d) Calcule un intervalo de confianza (IC) del promedio de fallas por com-
putadora con una confiabilidad de 95%.
¯ y ±t
n−1,α/2
S
¯ y
donde: ¯ y = 6.7, S
¯ y
= 0.4702 y t
n−1,α/2
= t
10−1,0.025
= 2.262
Por lo tanto,
6.7±(2.262)(0.4702)
6.7±1.0634
5.6366≤ µ ≤7.7634
Es decir, con una confiabilidad de 95% se estima que el valor verdadero del
promedio de fallas por computadora está entre 5.6366 y 7.7634.
e) Realice una estimación puntual del total de fallas.
ˆ τ = N¯ y=(1,000)(6.7)=6,700
f) Calcule un IC del total de fallas con la confiabilidad de 95%
ˆ τ ±Nt
n−1,α/2
S
¯ y
donde: ˆ τ = 6, 700, N = 1, 000, S
¯ y
= 0.4702 y t
n−1,α/2
= t
10−1,0.025
= 2.262
Por lo tanto,
6,700±(1,000)(2.262)(0.4702)
6,700±(1,000)(1.0634)
6,700±1,063.4
5,636.6≤ τ ≤7,763.4
43
Capítulo 3. Muestreo aleatorio simple
Es decir, con 95% de confianza se estima que el total de fallas en la población
está entre 5,636.6 y 7,763.4.
g) Suponga que las computadoras seleccionadas son una muestra prelimi-
nar de tamaño n

= 10. ¿Cuál sería el tamaño de muestra necesario para esti-
mar el promedio de fallas de tal manera que el promedio tenga una precisión
de 7% del promedio preliminar (¯ y) y una confiabilidad de 95%?
n =
N(t
n−1,α/2
)
2
S
2
Nd
2
+ (t
n−1,α/2
)
2
S
2
donde: N = 1, 000, t
n−1,α/2
= t
10−1,0.025
= 2.262, S
2
= 2.2333, ¯ y = 6.7
Como el valor de d no está definido en forma explícita se calcula obtenien-
do 7% del promedio preliminar (¯ y = 6.7). Es decir, d = (0.07)(6.7) = 0.469,
Por lo tanto:
n =
(1, 000)(2.262)
2
(2.2333)
(0.469)
2
+ (2.262)
2
(2.2333)
= 49.38
Entonces, n = 50 es el número estimado de unidades muestrales (computa-
doras) para que la muestra tenga una precisión de ±0.469 fallas con 0.05 de
probabilidad de no incluir en el intervalo de estimación al promedio verdadero.
Es decir, n = 50 computadoras es el tamaño de muestra definitivo y todos los
parámetros que se deseen estimar se deben de hacer tomando en cuenta este
tamaño de muestra. Porque el muestreo preliminar o piloto únicamente es útil
para verificar que el cuestionario funciona bien al momento de aplicarlo, corro-
borar que el marco de muestreo está correcto y obtener una estimación de la
varianza. Sin embargo, si en el muestreo piloto se encuentra que todo funciona
correctamente, ya no se miden todas las unidades muestrales del tamaño de
muestra definitivo (n), sino solamente las faltantes (n − n

) para completarlo,
pues se utilizan las de la muestra piloto (n

). En este ejercicio solamente se
seleccionarían 40 computadoras al azar de la población porque n

= 10.
h) Suponga que las computadoras seleccionadas son una muestra prelimi-
nar de tamaño n

= 10. ¿Cuál sería el tamaño de muestra definitivo para es-
timar el total poblacional de fallas de tal manera que sea estimado con una
precisión de 7% del total (ˆ τ) y con una confiabilidad de 95%? La expresión
para calcular el tamaño de muestra para estimar el total es:
n =
N
2
(t
n−1,α/2
)
2
S
2
d
2
+N(t
n−1,α/2
)
2
S
2
donde: N = 1, 000, t
n−1,α/2
= t
10−1,0.025
= 2.262, S
2
= 2.2333, ˆ τ = 6, 700. También
como el valor de d no está definido en forma explícita se calcula obteniendo
7% del total poblacional preliminar (ˆ τ = 6, 700). Es decir, d = (0.07)(6, 700) = 469
y por lo tanto:
44
n =
(1, 000)
2
(2.262)
2
(2.2333)
(469)
2
+ (1, 000)(2.262)
2
(2.2333)
=
11, 427, 001.05
231, 388
= 49.38
Nota: La n estimada es el tamaño de muestra definitivo, por lo que sólo faltará
medir las unidades muestrales restantes considerando las que ya se midieron.
Esto procede siempre y cuando el muestreo piloto sea considerado apropiado.
Esta nota es válida para todos los ejercicios posteriores incluso para los esque-
mas de muestreo presentados en los capítulos restantes .
Ejemplo 2. La directora de Intercambio Académico y Becas de la Universi-
dad de Colima selecciona una muestra de n = 15 estudiantes de la Facultad
de Telemática cuya población es de N = 420 estudiantes, y a cada uno de los
estudiantes le pregunta su gasto semanal en pesos. Los datos son: 120, 150,
100, 80, 100, 90, 60, 70, 90, 100, 50, 90, 80, 65, 110.
a) Haga una estimación puntual del gasto semanal promedio por estudian-
te.
¯ y =
y
1
+ y
2
+· · · + y
n
n
¯ y =
120 + 150 + 100 +. . . + 65 + 110
15
= 90.3333
b) Calcule la varianza muestral para el gasto (S
2
)
S
2
=
n
¸
i=1
y
2
i
−n¯ y
2
n −1
S
2
=
120
2
+ 150
2
+ 100
2
+· · · + 65
2
+ 110
2
−(15)(90.33)
2
15 −1
S
2
= 637.381
c) Calcule la varianza y la desviación estándar de la media muestral para el
gasto
S
2
¯ y
=

N −n
N

S
2
n

=

420 −15
420

637.381
15

= 40.9745
S
¯ y
=

S
2
¯ y
=

40.9745 = 6.4011
d) Calcule un intervalo de confianza (IC) del gasto promedio por estudiante.
¯ y ±t
n−1,α/2
S
¯ y
donde: ¯ y = 90.3333, S
¯ y
= 6.4011, t
n−1,α/2
= t
15−1,0.025
= 2.145
Por lo tanto:
45
Capítulo 3. Muestreo aleatorio simple
90.33±(2.145)(6.4011)
90.33±13.7291
76.6043≤ µ ≤104.0624
Es decir, con una confiabilidad de 95% se estima que el valor verdadero del
gasto promedio por estudiante está entre 76.6043 y 104.0624.
e) Realice una estimación puntual del gasto total de los estudiantes.
ˆ τ = N¯ y=(420)(90.3333)=37,940
Se estima que el gasto semanal total de los estudiantes es de 37,940.0 pe-
sos.
f) Calcule un IC del gasto total de los estudiantes con 95% de confianza.
ˆ τ ±Nt
n−1,α/2
S
¯ y
donde: ˆ τ = 37, 940, N = 420, S
¯ y
= 6.4011, t
n−1,α/2
= t
15−1,0.025
= 2.145
Por lo tanto:
37,940.0±(420)(2.145)(6.4011)
37,940.0±(420)(13.7291)
37,940.0±5766.2222
32,173.7938≤ τ ≤43,706.2062
Es decir, se estima que el gasto total de los estudiantes está entre 32,173.7938
y 43,706.2062.
g) Suponga que los estudiantes seleccionados son una muestra preliminar
de tamaño n

= 15. ¿Cuál es el tamaño de muestra necesario para estimar el
gasto promedio por estudiante de tal manera que el promedio se estime con
una precisión de ±6 pesos y con una confiabilidad de 95%?
n =
N(t
n−1,α/2
)
2
S
2
Nd
2
+ (t
n−1,α/2
)
2
S
2
donde: N = 420, t
n−1,α/2
= t
15−1,0.025
= 2.145, S
2
= 637.381, d = 6
Por lo tanto:
n =
(420)(2.145)
2
(637.381)
(420)(6)
2
+ (2.145)
2
(637.381)
= 69
Por lo tanto, 69 son las unidades muestrales (estudiantes) para tener una
precisión de ±6 pesos con 0.95 de probabilidad de incluir en el intervalo de es-
timación al promedio verdadero. En otras palabras se debe seleccionar aleato-
riamente una muestra de n = 69 estudiantes de la población de N = 420, lo
que garantiza que se cumplirá la precisión especificada (d = 6 pesos) para el
46
promedio con una probabilidad de 0.95.
h) Suponga que los estudiantes seleccionados son una muestra preliminar
de tamaño n

= 15. ¿Cuál es el tamaño de muestra definitivo para estimar el
total poblacional del gasto de los estudiantes tal que el total sea estimado con
una precisión de 2,520 pesos y una confiabilidad de 95%?
n =
N
2
(t
n−1,α/2
)
2
S
2
d
2
+N(t
n−1,α/2
)
2
S
2
donde: N = 420, t
n−1,α/2
= t
15−1,0.025
= 2.145, S
2
= 637.381, d = 2, 520
Por lo tanto:
n =
(420)
2
(2.145)
2
(637.381)
(2, 520)
2
+ (420)(2.145)
2
(637.381)
= 69
Ejemplo 3. El estado de Colima tiene N = 3, 000 familias, de las cuales se se-
leccionó una muestra aleatoria de 12 . Se desea información sobre el número
de hijos que cada familia tiene en Estados Unidos. La información obtenida de
cada una de las n = 12 familias se presenta a continuación: 6, 3, 8, 5, 2, 1, 0,
1, 1, 3, 4, 4.
a) Obtener el promedio de hijos que vive en Estados Unidos, por familia.
¯ y =
y
1
+ y
2
+· · · + y
n
n
¯ y =
6 + 3 + 8 + 5 + 2 + 1 + 0 + 1 + 1 + 3 + 4 + 4
12
= 3.1667.
b) Calcule la varianza muestral (S
2
).
S
2
=
n
¸
i=1
y
2
i
−n¯ y
2
n −1
S
2
=
6
2
+ 3
2
+ 8
2
+· · · + 4
2
+ 4
2
−(12)(3.17)
2
12 −1
S
2
= 5.6061
c) Calcule la varianza de la media muestral (S
2
¯ y
).
S
2
¯ y
=

N −n
N

S
2
n

=

3, 000 −12
3, 000

5.6061
12

= 0.4653
La varianza estimada del promedio de hijos viviendo en Estados Unidos por
familia es de 0.4653. La desviación estándar es igual a: S
¯ y
=

S
2
¯ y
=

0.4653 =
0.6821
d) El total de colimenses que radica en Estados Unidos.
47
Capítulo 3. Muestreo aleatorio simple
ˆ τ = N¯ y=(3,000)(3.1667)=9,500
e) Calcule un IC de 95% de confianza del promedio de hijos por familia que
vive en Estados Unidos.
¯ y ±t
n−1,α/2
S
¯ y
donde: ¯ y = 3.1667, S
¯ y
= 0.6821, t
n−1,α/2
= t
12−1,0.025
= 2.201
Por lo tanto:
3.1667±(2.201)(0.6821)
3.1667±1.5014
1.6653≤ µ ≤4.6680
Es decir, con una confiabilidad de 95% se estima que el valor verdadero del
promedio de parientes por familia en Estados Unidos se encuentra entre 1.6653
y 4.6680.
f) Calcule un IC del total poblacional con 95% de confiabilidad.
ˆ τ ±Nt
n−1,α/2
S
¯ y
donde: ˆ τ = 9, 500, N = 3, 000, S
¯ y
= 0.6821, t
n−1,α/2
= t
12−1,0.025
= 2.201
Por lo tanto:
9,500±(3,000)(2.201)(0.6821)
9,500±(3,000)(1.5014)
9,500±4,504.2
4,995.9198≤ τ ≤14,004.0822
Es decir, con 95% de confianza se estima que el total de colimenses que vive
en Estados Unidos está entre 4,995.9198 y 14,004.0822.
g) Suponga que la muestra seleccionada corresponde a una muestra pre-
liminar de tamaño n

= 12. ¿Cuál es el tamaño de la muestra para estimar el
promedio de hijos por familia que radica en Estados Unidos de tal manera que
el promedio sea estimado con una precisión de 0.5 parientes y con una confia-
bilidad de 95%?
n =
N(t
n−1,α/2
)
2
S
2
Nd
2
+ (t
n−1,α/2
)
2
S
2
donde: N = 3, 000, t
n−1,α/2
= t
12−1,0.025
= 2.201, S
2
= 5.6061, d = 0.5
Por lo tanto:
n =
(3, 000)(2.201)
2
(5.6061)
(3, 000)(0.5)
2
+ (2.201)
2
(5.6061)
= 105
48
h) Suponga que la muestra seleccionada es una muestra preliminar de
tamaño n

= 12. ¿Cuál es el tamaño de muestra para estimar el total de col-
imenses que vive en Estados Unidos tal que el total sea estimado con una
precisión de 1,500 parientes y una confiabilidad de 95%?
n =
N
2
(t
n−1,α/2
)
2
S
2
d
2
+N(t
n−1,α/2
)
2
S
2
donde: N = 3, 000, t
n−1,α/2
= t
12−1,0.025
= 2.201, S
2
= 5.6061, d = 1, 500
Por lo tanto:
n =
(3, 000)
2
(2.201)
2
(5.6061)
(1500)
2
+ (3000)(2.201)
2
(5.6061)
= 105
Ejemplo 4. El gobernador del estado de Colima, a través de la Secretaría de
Salud, desea estimar el total de drogadictos que hay en la entidad. El estado
tiene N = 900 colonias de las cuales se seleccionó una muestra aleatoria de 12
colonias. En cada colonia se investigó el número de drogadictos. La informa-
ción obtenida de cada una de las n

= 12 colonias se presenta a continuación:
16, 13, 18, 15, 22, 21, 10, 11, 8, 33, 34, 24.
a) Calcule el promedio de drogadictos por colonia en el estado.
¯ y =
y
1
+ y
2
+· · · + y
n
n
¯ y =
16 + 13 + 18 + 15 + 22 + 21 + 10 + 11 + 8 + 33 + 34 + 24
12
= 18.75
drogadictos por colonia.
b) Calcule la varianza muestral (S
2
).
S
2
=
n
¸
i=1
y
2
i
−n¯ y
2
n −1
S
2
=
16
2
+ 13
2
+ 18
2
+· · · + 34
2
+ 24
2
−(12)(18.75)
2
12 −1
S
2
= 71.4773
c) Calcule la varianza y la desviación estándar del promedio muestral.
S
2
¯ y
=

N −n
N

S
2
n

=

900 −12
900

71.4773
12

= 5.8770
S
¯ y
=

5.8770 = 2.4242
S
¯ y
=

S
2
¯ y
=

5.8770 = 2.4242
d) El número total de drogadictos en el estado.
49
Capítulo 3. Muestreo aleatorio simple
ˆ τ = N¯ y=(900)(18.75)=16,875
e) Calcule un IC para el promedio de drogadictos por colonia en el estado.
¯ y ±t
n−1,α/2
S
¯ y
donde: ¯ y = 18.75, S
¯ y
= 2.4242, t
n−1,α/2
= t
12−1,0.025
= 2.201
Por lo tanto:
18.75±(2.201)(2.4242)
18.75±5.3358
13.4142≤ µ ≤24.0858
Es decir, con una confiabilidad de 95% se estima que el valor verdadero del
promedio de drogadictos por colonia en el estado de Colima está entre 13.4142
y 24.0858.
f) Calcule un IC para el total de drogadictos en el estado de Colima con 95%
de confiabilidad.
ˆ τ ±Nt
n−1,α/2
S
¯ y
donde: ˆ τ = 16, 875, N = 900, S
¯ y
= 2.4241, t
n−1,α/2
= t
12−1,0.025
= 2.201
Por lo tanto:
16,875±(900)(2.201)(2.4242)
16,875±(900)(5.3358)
16,875±4,802.22
12,072.82243≤ τ ≤21,677.1776
Es decir, con 95% de confianza se estima que el total de drogadictos en el
estado de Colima está entre 12,072.82243 y 21,677.1776.
g) Suponga que n

= 12 es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar el promedio de drogadictos por colonia, con una pre-
cisión de ±2 drogadictos y una confiabilidad de 95%?
n =
N(t
n−1,α/2
)
2
S
2
Nd
2
+ (t
n−1,α/2
)
2
S
2
donde: N = 900, t
n−1,α/2
= t
12−1,0.025
= 2.201, S
2
= 71.4773, d = 2
Por lo tanto:
n =
(900)(2.201)
2
(71.4773)
(900)(2)
2
+ (2.201)
2
(71.4773)
= 79 colonias.
50
h) Suponga que n

= 12 es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar el total de drogadictos en el estado, con una precisión
de 1800 drogadictos y una confiabilidad de 95%?
n =
N
2
(t
n−1,α/2
)
2
S
2
d
2
+N(t
n−1,α/2
)
2
S
2
donde: N = 900, t
n−1,α/2
= t
12−1,0.025
= 2.201, S
2
= 71.4773, d = 1, 800
Por lo tanto,
n =
(900)
2
(2.201)
2
(71.4773)
(1, 800)
2
+ (900)(2.201)
2
(71.4773)
= 79 colonias.
3.4. Ejercicios
En los siguientes ejercicios estime lo siguiente:
a) El IC para el promedio y el total con una confiabilidad de 95%.
b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar el promedio y el total con una precisión
del 5% de la media y el total preliminar, con una confiabilidad de 95%?
Ejercicio 1. Una empacadora de mango produce por hora N =1,000 rejas,
cada una tiene 100 mangos, donde el gerente de calidad seleccionó una mues-
tra de N =15 rejas. La información sobre el número de mangos dañados por
rejas se presentan a continuación: 4, 5, 6, 6, 7, 4, 4, 5, 4, 5, 6, 6, 7, 4, 5.
Ejercicio 2. La Secretaría del Deporte del Estado de Colima, desea estimar
los alumnos a nivel bachillerato de la U de C que tienen una buena condición
física para formar parte de la selección. Se tienen N =500 grupos y en prome-
dio cada grupo tiene 40 alumnos. Se seleccionaron a 9 grupos aleatoriamente.
En cada grupo se hicieron las pruebas necesarias. La información obtenida de
los alumnos seleccionados es la siguiente: 5, 8, 6, 12, 5, 9, 11, 12, 10(alumnos
por grupo que tienen condición física decuada)
Ejercicio3. Una exportadora de limón por cada hora acondiciona N =1,800
limones. Se desea saber si el limón cumple con las especificaciones para el
diámetro. Para ello se toma una muestra de 15 limones aleatoriamente y a ca-
da uno de ellos se le mide su diámetro. Los resultados son los siguientes: 3.2,
4.8, 4.4, 3.1, 3, 5.1, 2.9, 5.3, 4.1, 3.1, 3.7, 2.6, 5.5, 2.6, 5.9.
Ejercicio 4. La Secretaría de Turismo del estado de Colima, desea estimar
la cantidad de personas que visitan el Estado provenientes de Jalisco por día.
En la caseta Guadalajara-Colima ingresan por día N=700 vehículos en prome-
dio. Se seleccionan 20 vehículos aleatoriamente y a cada uno de los vehículos
se revisa la cantidad de personas que vienen en él. Los resultados de lo que se
desea estimar es la siguiente: 4, 3, 6, 1, 3, 2, 5, 7, 4, 5, 3, 8, 1, 3, 6, 4, 4, 1, 6,
5.
51
Capítulo 3. Muestreo aleatorio simple
3.5. La estimación de una proporción poblacional
Otra tarea que suele ser de interés al estudiar una población es la determi-
nación de la proporción, P o π, de las unidades muestrales que pertenecen a
uno de dos grupos posibles. Por ejemplo, para conocer la proporción de per-
sonas analfabetas de una población, la proporción que apoya a cierto partido
político o iniciativa gubernamental, la proporción de estudiantes de la Facul-
tad de Telemática que tienen computadora portátil, la proporción de individuos
en la ciudad de Colima que cree en Dios, etc. Todos estos ejemplos tienen dos
opciones de respuesta: sí o no. Por lo tanto, para calcular dicha proporción
se hace la suma de todas las respuestas afirmativas (sí) y se divide sobre el
total de respuestas (sí y no); esto se debe a que sólo se consideró dos grupos
posibles. En ocasiones son más de dos grupos a los que pueden pertenecer
las unidades muestrales; este caso no lo consideraremos aquí, pero aun así se
podría tener la posibilidad de análisis si se considera que una unidad muestral
pertenece o no pertenece a uno de los grupos.
Esta aplicación también se conoce como muestreo por atributos, donde ca-
da unidad de muestreo podría pertenecer a determinado grupo debido a que
posee cierto atributo.
3.5.1. La medición
La medición consiste en determinar si la unidad de muestreo tiene el a-
tributo que la haría pertenecer a la proporción que se desea conocer. Para
muchos atributos tal determinación puede ser muy sencilla, por ejemplo, en
un conjunto de N computadoras; pertenecer a cierta marca. Sin embargo, a
veces es difícil determinar el atributo, por ejemplo, calificar a un paciente como
enfermo o no, es una condición en la que se presenta una gradualidad desde
sano hasta enfermo. Es decir, el MAS para proporciones no considera los esta-
dos intermedios, por lo que debe establecerse un criterio unívoco que permita
calificar al paciente como sano o enfermo solamente.
3.5.2. El estimador de la proporción poblacional P y su relación
con el estimador de una media poblacional
Una manera fácil de introducir esta estimación es aceptar que se trata de
una variable Y que solamente puede tomar los valores de cero o uno. De esta
manera podremos usar las fórmulas de los apartados anteriores, aunque con-
viene adecuar la simbología. Para esto, sea P
y
la proporción de la población de
uno de los dos grupos que posee el atributo evaluado en Y . La proporción de
la población, P
Y
, está definida por la siguiente expresión:
P
Y
= P =
N
¸
i=1
y
i
N
=
A
N
donde A es el número de unidades de la población que posee el atributo. Está
claro que
¸
y
i
es igual a A, ya que si la unidad de muestreo tiene el atributo
52
de interés aporta un valor de uno y si no la tiene aporta un valor de cero.
Si se realiza un muestreo, se entiende que no se puede tener acceso a todas
las N unidades de la población, sino solamente a las n de la muestra. Con la
muestra definimos un estimador de la proporción de la población, simbolizado
por
ˆ
P = p y definido por la expresión:
p
y
= p =
n
¸
i=1
y
i
n
=
a
n
(3.15)
De igual manera que la definición del parámetro, a =
¸
y
i
representa el
número de unidades de la muestra que tienen el atributo de interés. El com-
plemento de P es Q = (1 − P) en el caso de la población y de la muestra es
q = (1 −p), es decir, q es un estimador de Q.
3.5.3. La varianza de la población para una proporción
Ahora definamos la varianza de la población usando las mismas expre-
siones que en el caso de una variable continua.
σ
2
Y
= σ
2
=
N
¸
i=1
(y
i
−µ)
N −1
=
N
¸
i=1
y
2
i
−Nµ
2
N −1
(3.16)
Como la variable sólo toma valores de cero o uno, entonces
N
¸
i=1
y
2
i
=
N
¸
i
y
i
= NP
. Así, haciendo la sustitución en (3.16) tenemos:
σ
2
=
NP −NP
2
N −1
=
NP(1 −P)
N −1
=
NPQ
N −1
(3.17)
La expresión
N
¸
i=1
y
2
i
=
N
¸
i
y
i
= NP en (3.17) representa el número de unidades
en la población que tiene el atributo que se desea evaluar.
Naturalmente, por ser el caso de un muestreo necesitamos un estimador de
este parámetro, que se define por la expresión:
s
2
y
=
n
¸
i=1
(y
i
− ¯ y)
2
n −1
=
n
¸
i=1
y
2
i

n
¸
i=1
y
i

2
n
n −1
=
a −
a
2
n
n −1
=
a

1 −
a
n

n −1
=
npq
n −1
(3.18)
donde a =
n
¸
i=1
y
i
en (3.18) representa el número de unidades en la muestra que
tiene el atributo que se desea evaluar.
53
Capítulo 3. Muestreo aleatorio simple
En la práctica, es común considerar que n −1 es aproximadamente igual a
n, con lo cual la expresión más usada para calcular la varianza muestral es:
S
2
y
= pq
Estimación de la varianza y el error estándar
Esta estimación sigue un desarrollo paralelo a lo expuesto para una variable
continua. Existen otros procedimientos que se conocen como aproximación
usando la distribución normal, que implica una corrección que hemos omitido
por su poca trascendencia práctica. Así, se tiene que p se distribuye normal-
mente con los siguientes parámetros.
Media y varianza del estimador de P
E[
ˆ
P] = E[p] = P (3.19)
S
2
p
=

N −n
N

S
2
y
n

=

N −n
N

pq
n

(3.20)
En la práctica, la raíz cuadrada positiva de la varianza del estimador se conoce
como error estándar del estimador de la proporción.
Usando nuevamente el Teorema Central del Límite, p tiene aproximada-
mente una distribución normal con media P (estimada por p) y una varianza
σ
2
p
(estimada por S
2
p
).
Total poblacional y varianza del estimador de τ
ˆ τ = Np
S
ˆ τ
= N
2

N −n
N

S
2
y
n

= N
2

N −n
N

pq
n

La raíz cuadrada positiva de la varianza del estimador del total es el error
estándar del estimador del total.
3.5.4. Los intervalos de confianza
Con el mismo procedimiento que el del caso de una variable continua obtene-
mos las expresiones para los intervalos de confianza.
El intervalo de confianza para la estimación de la proporción de la población
p ±t
n−1,(α/2)
S
p
donde S
p
=

N −n
N

pq
n

El intervalo de confianza para la estimación del total poblacional
ˆ τ ±Nt
n−1,(α/2)
S
p
54
donde S
p
=

N −n
N

pq
n

Varianza acotada de una proporción
Como puede observarse en las expresiones de σ
2
y
y de S
2
p
, existe el producto
PQ o pq. Entonces, en esas expresiones se puede apreciar que el tamaño de la
varianza depende de ese producto para el tamaño de población y una muestra
dadas. Esto nos indica que las varianzas de la población y del estimador serán
las máximas cuando P o p sean iguales a 0.5, ya que en estas condiciones el
producto mencionado tiene un valor máximo. Esta propiedad se puede emplear
para suponer una varianza máxima antes de realizar el muestreo, p = 0.5, y los
resultados finales siempre serán iguales o más precisos que lo esperado. En
otras palabras, esto significa que en el MAS para una proporción cuando no se
dispone del tiempo y recursos para realizar un muestreo piloto que sirva para
corroborar el marco de muestreo, el cuestionario, los problemas relacionados
con el personal para levantar la encuesta y para estimar la varianza (S
2
=
pq), se supone varianza máxima (S
2
= pq = (0.5)(0.5) = 0.25) para determinar
el tamaño de muestra máximo (conservador). Este método sólo debe usarse
cuando se tenga un marco de muestreo confiable, el cuestionario validado y
encuestadores experimentados.
3.5.5. El tamaño de muestra requerido para estimar P
Respecto al tamaño de muestra requerido, recordemos que P puede ser
interpretada como µ según la ecuación (3.19) y con el procedimiento que obtu-
vimos la ecuación (3.14), tenemos lo siguiente.
El tamaño muestral para estimar P
n =
N[t
n−1,(α/2)
]
2
PQ
Nd
2
p
+ [t
n−1,(α/2)
]
2
PQ
donde:
d
p
: la precisión de estimación de la proporción poblacional que se está dis-
puesto a aceptar.
P: es la proporción de interés. Q = (1 −P). Sin embargo, no se conocen, por lo
que se estiman con p y q, respectivamente.
El tamaño muestral requerido para estimar el total poblacional
n =
N
2
[t
n−1,(α/2)
]
2
PQ
d
2
ˆ τ
+ N[t
n−1,(α/2)
]
2
PQ
donde:
d
ˆ τ
: es la precisión de estimación del total poblacional que se está dispuesto
a aceptar.
P: es la proporción de interés. Q = (1 − P). Sin embargo, éstas no se conocen,
por lo que se estiman con p y q, respectivamente.
55
Capítulo 3. Muestreo aleatorio simple
3.5.6. Ejemplos
Ejemplo 1. Con la finalidad de estimar la proporción de estudiantes que fu-
man en la Facultad de Medicina de la U de C , cuya población es de N = 430
estudiantes, se seleccionó una muestra aleatoria de n = 80 estudiantes. Si la
muestra indica que 30 de los estudiantes seleccionados fuman, calcular lo
siguiente:
a) Cuantifique la proporción verdadera de los estudiantes que fuma.
p =
n
¸
i=1
y
i
n
=
a
n
=
30
80
= 0.375 ó 37.5% de estudiantes fumadores
q = 1−p = 1−0.375 = 0.625 ó 62.5% de estudiantes no fumadores
b) La desviación estándar de la proporción muestral (S
p
).
S
p
=

N −n
N

pq
n

donde: N = 430, n = 80, p = 0.375 y q = 0.625. Sustituyendo estos valores en
la ecuación anterior, se tiene que:
S
p
=

430 −80
430

(0.375)(0.625)
80

=

(0.8139)(0.0029) =

0.234375 = 0.0488
c) Calcule un IC de 95% para la proporción verdadera.
p ±Z
α/2
S
p
donde: p = 0.375, S
p
= 0.0488, Z
α/2
= Z
0.025
= 1.96
Por lo tanto:
0.375±(1.96)(0.0488)
0.375±0.09565
0.2793≤ P ≤0.4707
Con 95% de confianza se estima que la proporción verdadera de estudiantes
que fuman en la Facultad de Medicina está entre 0.2793 y 0.4707, es decir,
entre 27.93 y 47.07%.
d) Estimar el total verdadero de estudiantes que fuma en la Facultad de
Medicina.
ˆ τ = Np
donde: N = 430, p = 0.375
56
Por lo tanto
ˆ τ = (430)(0.375) = 161.25
e) La estimación por intervalo del total verdadero de estudiantes que fuman
en la Facultad de Medicina de la U de C, con una confiabilidad de 95%.
ˆ τ ±Z
α/2
NS
p
donde: τ = 161.25, S
p
= 0.0488, N = 430, Z
α/2
= Z
0.025
= 1.96
Por lo tanto:
161.25±(430)(1.96)(0.0488)
161.25±(430)(0.09565)
161.25±41.1295
120.0938≤ τ ≤202.4062
Con 95% de confianza se estima que el total de estudiantes que fuman en
la Facultad de Medicina de la U de C está entre 120.0938 y 202.4062.
f) Suponga que n = 80 estudiantes es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar la proporción verdadera con una precisión de
10% de la proporción preliminar (p) y una confiabilidad de 95%?
n =
N(Z
α/2
)
2
pq
Nd
2
+ (Z
α/2
)
2
pq
donde: N = 430, p = 0.375, q = 0.625. Como la precisión tiene que ser 10%
de la proporción preliminar (p=0.375), d = (0.10)(ˆ p)=(0.10)(0.375)=0.0375:
por lo tanto:
n =
(430)(1.96)
2
(0.375)(0.625)
(430)(0.0375)
2
+ (1.96)
2
(0.375)(0.625)
=
387.16
1.505
= 258
g) Suponga que n = 80 estudiantes es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar el total poblacional con una precisión de 10%
del total poblacional preliminar (p) y una confiabilidad de 95%?
n =
N
2
(Z
α/2
)
2
pq
d
2
+ N(Z
α/2
)
2
pq
donde: N = 430, p = 0.375, q = 0.625, Z
α/2
= Z
0.025
= 1.96 y d = (0.10)(430)(0.375) =
16.125
Por lo tanto:
n =
(430)
2
(1.96)
2
(0.375)(0.625)
(16.125)
2
+ (430)(1.96)
2
(0.375)(0.625)
=
166479.33
647.16
= 258 estu-
diantes (unidades muestrales)
57
Capítulo 3. Muestreo aleatorio simple
Ejemplo 2. Un ingeniero en telemática es el responsable de un centro de cóm-
puto con N = 2, 000 computadoras donde por descuido algunas computadoras
se infectaron con el virus XXX. Con la finalidad de estimar la proporción de
computadoras infectadas, es decir, que contienen el virus XXX, se seleccionó
una muestra aleatoria de n = 50 computadoras. Esta muestra indica que 22 de
las 50 computadoras tienen el virus.
a) Estime la proporción verdadera de computadoras infectadas.
p =
n
¸
i=1
y
i
n
=
a
n
=
22
50
= 0.44 ó 44% computadoras infectadas
q = 1 −p = 1 −0.44 = 0.56 ó 56% computadoras limpias
b) ¿Cuál es desviación estándar de la proporción muestral (S
p
)?
S
p
=

N −n
N

pq
n

donde: N = 2, 000, n = 50, p = 0.44, y q = 0.56
Por lo tanto:
S
p
=

2, 000 −50
2, 000

(0.44)(0.56)
50

=

(0.975)(0.0049) =

0.0048048 = 0.0693
c) Encontrar un IC de 95% para la proporción verdadera.
p ±Z
α/2
S
p
donde: p = 0.44, S
p
= 0.0693 y Z
α/2
= Z
0.025
= 1.96
Por lo tanto:
0.44±(1.96)(0.0693)
0.44±0.1358
0.3041≤ P ≤0.5759
Con 95% de confianza se estima que la proporción verdadera de computado-
ras infectadas en la población está entre 0.3041 y 0.5759, o sea, entre 30.41 y
57.59%.
d) Hallar el total verdadero de computadoras infectadas.
ˆ τ = Np
donde: N = 2, 000 y p = 0.44
58
Por lo tanto:
ˆ τ = (2, 000)(0.44) = 880
e) Calcular un IC para el total verdadero de computadoras infectadas en la
población, con una confiabilidad de 95%.
ˆ τ ±Z
α/2
NS
p
donde: τ = 880, S
p
= 0.0693, N = 2, 000 y Z
α/2
= Z
0.025
= 1.96
Por lo tanto:
880±(2,000)(1.96)(0.0693)
880±(2,000)(0.1358)
880±271.6
608.2787≤ τ ≤1,151.7213
Con 95% de confianza se estima que el total poblacional de computadoras
infectadas por el virus XXX está entre 608.2787 y 1,151.7213.
f) Suponga que n = 50 computadoras son una muestra preliminar. Por lo
tanto, ¿cuál es el tamaño de muestra para estimar la proporción verdadera
con una precisión de 0.07 y una confiabilidad de 95%?
n =
N(Z
α/2
)
2
pq
Nd
2
+ (Z
α/2
)
2
pq
donde: N = 2, 000, p = 0.44, q = 0.56 y d = 0.07
Por lo tanto:
n =
(2, 000)(1.96)
2
(0.44)(0.56)
(2, 000)(0.07)
2
+ (1.96)
2
(0.44)(0.56)
=
1893.1404
10.7466
= 177
g) Suponga que las n = 50 computadoras son una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar el total verdadero con una precisión de
140 computadoras y una confiabilidad de 95%?
n =
N
2
(Z
α/2
)
2
pq
d
2
+ N(Z
α/2
)
2
pq
donde: N = 2, 000, p = 0.44, q = 0.56, Z
α/2
= Z
0.025
= 1.96 y d = 140
Por lo tanto:
n =
(2, 000)
2
(1.96)
2
(0.44)(0.56)
(140)
2
+ (2, 000)(1.96)
2
(0.44)(0.56)
=
3786280.96
21493.14048
= 177
Ejemplo 3. En el estado de Colima existen N = 3, 000 familias que agrupan
a toda la población. Se desea estimar la proporción de familias que tiene ser-
59
Capítulo 3. Muestreo aleatorio simple
vicio de Internet en su casa y se seleccionó una muestra preliminar de n = 100
familias. Se encontró que 20 tenían servicio de Internet en su casa.
a) Realizar la estimación de la proporción verdadera de familias que tienen
Internet.
p =
n
¸
i=1
y
i
n
=
a
n
=
20
100
= 0.20 ó 20% de familias poseen el servicio
q = 1 −p = 1 −0.20 = 0.80 u 80% de familias no tienen servicio
b) Hallar la desviación estándar estimada de la proporción muestral (S
p
).
Donde: N = 3, 000, n = 100, p = 0.20 y q = 0.80
Por lo tanto:
S
p
=

3, 000 −100
3, 000

(0.20)(0.80)
100

=

(0.9667)(0.0016) =

0.001547 = 0.03933
c) Calcular un IC de 95% para la proporción verdadera.
p ±Z
α/2
S
p
donde: p = 0.20, S
p
= 0.03933 y Z
α/2
= Z
0.025
= 1.96
De ahí que:
0.20 ±(1.96)(0.03933)
0.20 ±0.0771
0.1229 ≤ P ≤ 0.2771
Con 95% de confianza se estima que la proporción verdadera de familias que
tienen Internet en su hogar está entre 0.1229 y 0.2771, o sea, entre 12.29 y
27.71 %.
d) Hallar el total verdadero de familias que tienen Internet.
ˆ τ = Np
donde: N = 3, 000 y p = 0.20
Por lo tanto:
ˆ τ = (3000)(0.20) = 600 familias en el estado
e) Calcular un IC para el total verdadero de familias con una confiabilidad
de 95%.
60
ˆ τ ±Z
α/2
NS
p
donde: τ = 600, S
p
= 0.03933 , N = 3, 000 y Z
α/2
= Z
0.025
= 1.96
entonces:
600 ±(3, 000)(1.96)(0.03933)
600 ±(3, 000)(0.0771)
600 ±231.3
368.7532 ≤ τ ≤ 831.2468
Con 95% de confianza se estima que el total de familias que tienen Internet en
su hogar está entre 368.7532 y 831.2468.
f) Suponga que n = 100 familias es una muestra preliminar, ¿cuál es el
tamaño de muestra para estimar la proporción verdadera con una precisión
de 0.07 y una confiabilidad de 95%?
n =
N(Z
α/2
)
2
pq
Nd
2
+ (Z
α/2
)
2
pq
donde: N = 3, 000, p = 0.20, q = 0.80, d = 0.07
Por lo tanto:
n =
(3, 000)(1.96)
2
(0.20)(0.80)
(3000)(0.07)
2
+ (1.96)
2
(0.20)(0.80)
=
1843.968
15.3147
= 121 familias
g) Suponga que n = 100 familias son una muestra preliminar, ¿cuál es el
tamaño de muestra para estimar el total verdadero con una precisión de 210
familias y una confiabilidad del 95%?
n =
N
2
(Z
α/2
)
2
pq
d
2
+ N(Z
α/2
)
2
pq
donde: N = 3, 000, p = 0.20, q = 0.80, Z
α/2
= Z
0.025
= 1.96 y d = 210
Por lo tanto:
n =
(3000)
2
(1.96)
2
(0.2)(0.8)
(210)
2
+ (3000)(1.96)
2
(0.2)(0.8)
= 121 familias (unidades mues-
trales)
Ejemplo 4. En el estado de Colima hay N = 20, 000 automóviles. Con la fi-
nalidad de estimar la proporción de autos estadounidenses, se seleccionó una
muestra aleatoria de n = 250 autos, que arrojó 70 automóviles estadouniden-
ses.
a) Haga la estimación puntual de la proporción verdadera de automóviles
estadounidenses.
61
Capítulo 3. Muestreo aleatorio simple
p =
n
¸
i=1
y
i
n
=
a
n
=
70
250
= 0.28 ó 28% autos estadounidenses
q = 1 −p = 1 −0.28 = 0.72 ó 72% otros autos
b) Calcule la desviación estándar de la proporción muestral (S
p
).
S
p
=

N −n
N
pq
n
donde: N = 20, 000, n = 250, p = 0.28 y q = 0.72
Por lo tanto:
S
p
=

20, 000 −250
20, 000

(0.28)(0.72)
250

=

(0.9875)(0.00081) =

0.0007963 = 0.02822
c) Calcule un IC de 95% para la proporción verdadera.
p ±Z
α/2
S
p
donde: p = 0.28, S
p
= 0.02822 y Z
α/2
= Z
0.025
= 1.96
Por lo tanto:
0.28 ±(1.96)(0.02822)
0.28 ±0.0553
0.2247 ≤ P ≤ 0.3353
Con 95% de confianza se estima que la proporción de automóviles extran-
jeros en el estado está entre 22.47 y 33.53 %.
d) Encuentre el total verdadero de automóviles.
ˆ τ = Np
donde: N = 20, 000, p = 0.28
Por lo tanto:
ˆ τ = (20, 000)(0.28) = 5, 600 automóviles
e) Hallar por intervalo el total verdadero de automóviles estadounidenses en
el estado, con una confiabilidad de 95%.
ˆ τ ±Z
α/2
NS
p
donde: τ = 5, 600, S
p
= 0.02822, N = 20, 000 y Z
α/2
= Z
0.025
= 1.96
62
Por lo tanto:
5, 600 ±(20, 000)(1.96)(0.02822)
5, 600 ±(20, 000)(0.0553)
5, 600 ±1, 106
4, 493.8299 ≤ τ ≤ 6, 706.17
Con 95% de confianza se estima que el total de automóviles está entre 4493.8096
y 6706.1904.
f) Suponga que n = 250 automóviles es una muestra preliminar, ¿cuál es el
tamaño de muestra para estimar la proporción verdadera con una precisión de
0.05 y una confiabilidad de 95%?
n =
N(Z
α/2
)
2
pq
Nd
2
+ (Z
α/2
)
2
pq
donde: N = 20,000, p = 0.28, q = 0.72 y d = 0.05
Por lo tanto:
n =
(20, 000)(1.96)
2
(0.28)(0.72)
(20, 000)(0.05)
2
+ (1.96)
2
(0.28)(0.72)
=
15489.3312
50.7745
= 306 autos (mues-
tra)
g) Suponga que n = 250 automóviles es una muestra preliminar, ¿cuál es el
tamaño de muestra para estimar el total verdadero con una precisión de 1,000
automóviles y una confiabilidad de 95%?
n =
N
2
(Z
α/2
)
2
pq
d
2
+ N(Z
α/2
)
2
pq
donde: N = 20,000, p = 0.28, q = 0.72, Z
α/2
= Z
0.025
= 1.96 y d = 1, 000
Por lo tanto:
n =
(20, 000)
2
(1.96)
2
(0.28)(0.72)
(1000)
2
+ (20, 000)(1.96)
2
(0.28)(0.72)
= 306 autos (muestra)
3.6. Ejercicios
En los siguientes ejercicios estime los parámetros siguientes:
a) El IC para la proporción y el total con una confiabilidad de 95%.
b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar la proporción y el total de tal manera
que la proporción y el total sean estimados con una precisión de 5% de la pro-
porción y el total preliminar con una confiabilidad de 95%?
Ejercicio 1. Con la finalidad de saber si la Sociedad Colimense que cuenta
63
Capítulo 3. Muestreo aleatorio simple
con N = 10, 000 personas, está de acuerdo con la reforma a PEMEX, se realizó
una encuesta tomando a n = 150 personas al azar de la población. Los resulta-
dos arrojaron que 35 personas están de acuerdo.
Ejercicio 2. La Dirección de la Facultad de Telemática desea realizar una
encuesta a la Sociedad Colimense para saber si saben el perfil de egreso de
Ing. en Telemática. Se lleva acabo la encuesta en el estado que cuenta con
N = 10, 000 personas, la encuesta se realizó a n = 100 personas tomadas al
azar de la población. Los resultados que arrojó la encuesta es que 15 personas
conocen el perfil de egreso de Ing. en Telemática.
Ejercicio 3. La Secretaría de Salud del estado de Colima desea realizar una
encuesta sobre si la población colimense conoce los productos transgénicos.
Se realizó la encuesta en el estado cuya población es de N = 567, 996 personas
con una muestra al azar n = 5000 individuos. Los resultados muestran que
1, 570 personas conocen de los productos transgénicos.
Ejercicio 4. Con la finalidad de saber cuantas personas de la Ciudad de Co-
lima utilizan tarjetas bancarias se llevó a cabo una encuesta. La Ciudad de
Colima cuenta con N = 6, 500 personas, la encuesta se realizó a n = 1, 000 per-
sonas tomadas al azar. Los resultados arrojaron que 925 personas cuentan
con tarjeta bancaria.
64
Capítulo 4
El muestreo aleatorio estratificado
En este mundo complejo,
nunca es fácil elegir.
Pero con datos y muestras,
tú lo podrás conseguir.
De una forma inteligente,
que te conduzca a un buen fin.
OAML
C
Uando el costo de la investigación es excesivo y la población es heterogénea,
el muestreo aleatorio simple no es en principio una buena opción. Por es-
ta razón, éste capítulo brinda la opción del Muestreo Aleatorio Estratificado
(MAE). Que trata de hacer aún más precisas las estimaciones que se pueden
obtener con un diseño básico de muestreo como el aleatorio simple (Cochran,
1985 [1]).
Muestreo aleatorio estratificado (MAE)
Si la población de N individuos se divide en E subpoblaciones o
estratos que no se traslapan, con respecto a criterios que puedan ser
importantes en el estudio y tratando en la medida posible que exista
homogeneidad dentro de cada estrato. Los estratos contienen N
1
, ...,
N
E
unidades muestrales, de manera que N =
E
¸
h
N
h
, y en cada uno
de estos estratos o subpoblaciones se realiza un muestreo aleatorio
simple con muestras respectivas de tamaño n
h
, así que la muestra
estratifica de tamaño n es igual a la suma de todas las muestras de
cada estrato, es decir, n =
E
¸
h=1
n
h
En general los estratos naturales o convenientemente definidos deberán
ser homogéneos internamente y heterogéneos entre ellos, con respecto a la
variable bajo estudio. Cada unidad muestral debe estar incluida en sólo un
estrato, o sea, no debe haber traslapes entre los estratos. Las unidades que
se incluyan en un estrato deben tener un valor similar en cuanto a la variable
de interés, aunque al no conocer esos valores, se puede usar otra caracterís-
tica para formar los estratos con la esperanza de lograr que los valores sean
65
Capítulo 4. El muestreo aleatorio estratificado
muy parecidos dentro de cada estrato. Los estratos formados funcionan inde-
pendientemente, y se les aplica un muestreo aleatorio simple para elegir los
elementos concretos que formarán parte de la muestra y obtener así las esti-
maciones de los parámetros que nos interesan. En ocasiones las dificultades
que plantean los estratos son demasiado grandes, pues exigen un conocimien-
to detallado de la población, como tamaño geográfico, género, edades, niveles
de estudio, etcétera (Pérez, 2000 [3]).
El MAE se utiliza cuando la población es muy heterogénea y las considera-
ciones de costo limitan el tamaño de la muestra. Si no se toma en cuenta la
variabilidad y posiblemente los costos diferenciados y utilizamos el muestreo
aleatorio simple, las estimaciones podrían ser menos precisas o el costo sería
demasiado elevado. Por otro lado, para la población estratificada habrá que
determinarse dos tamaños de muestra: para la población y para cada estrato,
n y n
h
, respectivamente.
4.1. Ventajas de utilizar MAE
Algunos motivos para utilizar muestreo aleatorio estratificado en lugar de
muestreo simple aleatorio son:
I. Produce estimaciones más precisas que las que se obtienen a partir del
muestreo aleatorio simple.
II. El costo por observación puede ser reducido mediante la estratificación
de la población.
III. Se puede obtener información de parámetros poblacionales para cada es-
trato de la población.
IV. Se simplifica el trabajo administrativo y el de control, ya que se pude usar
personal especifico para cada estrato.
V. El tamaño de muestra será menor, si la estratificación es bien definida,
en comparación con el muestreo simple aleatorio.
Notación
Para esta técnica de muestreo necesitamos una notación adicional que dis-
tingue los elementos de la población, como la siguiente:
N : el número total de unidades muestrales en la población.
E : el número de estratos en la población.
h : un estrato.
N
h
: el número total de unidades en el estrato h.
n
h
: el número de unidades en la muestra en el estrato h.
i : alguna unidad muestral que siempre pertenece a algún estrato h.
y
hi
: el valor obtenido en la i-ésima unidad dentro del estrato h.
W
h
= N
h
/N : la ponderación, peso o tamaño relativo del estrato h.
f
h
= n
h
/N
h
: la fracción de muestreo para el estrato h.
66
¯ y
h
=
n
h
¸
i=1
y
hi
n
h
: la media muestral del estrato h.
S
2
h
=
n
h
¸
i=1
(y
hi
− ¯ y
h
)
2
n
h
−1
=
n
h
¸
i=1
y
2
hi
−n
h
¯ y
2
h
n
h
−1
: la varianza en el estrato h.
Si se desea conocer la cantidad de horas promedio que cierto grupo de
personas de una ciudad ve la televisión, debemos pensar que habrá niños,
jóvenes y adultos, y que el tiempo de horas libres varía de un grupo a otro. De
esta manera dividimos la población en tres estratos, ya que es lógico afirmar
que las tendencias dentro de cada estrato son similares y son homogéneas.
También podemos entender que el número total de personas de la población
es la suma de los elementos de los estratos. Otro ejemplo es el siguiente: si
queremos conocer el ingreso promedio de las familias en Colima, donde se
supone que existen tres clases sociales bien definidas, podemos considerar las
familias de la misma clase social como un estrato, ya que es homogéneo.
4.2. ¿Cómo seleccionar una muestra aleatoria es-
tratificada?
La selección de la muestra de cada estrato es diferente, ya que cada uno
tiene características y costos de medición distintos, por lo que el número de
unidades también será diferente. Por ejemplo, el tamaño de la muestra del
estrato debe ser mayor si es muy variable o si contiene más unidades. Por el
contrario, será menor si el costo de la medición es elevado. Antes de seleccionar
una muestra es preciso considerar qué tan grande debe ser la precisión de es-
timación y de acuerdo con esto seleccionar el tamaño de la muestra (Cochran,
1985 [1]).
En resumen, de un estrato dado se toma una muestra más grande si:
I. El estrato es más grande.
II. Los elementos del estrato tiene alta variabilidad.
III. El muestreo es más barato en el estrato.
4.3. La estimación de la media poblacional
Supongamos que ya hemos tomado nuestra muestra aleatoria estratificada,
y entonces nos preguntamos, ¿cómo debemos usarla para estimar los princi-
pales parámetros?, es decir, contestarnos preguntas como: ¿cuál es la media
de nuestra población? o, ¿cuál es el total?. Definiendo µ
h
y τ
h
como la media
y el total para el estrato h, respetivamente. De esta manera resulta obvio que
τ
1

2
+ ... + τ
E
= τ, donde τ es el total de la población.
67
Capítulo 4. El muestreo aleatorio estratificado
Para comprender mejor las expresiones que nos dará la estimación de µ
y τ debemos tomar en cuenta que ¯ y
h
es un estimador insesgado de µ
h
y que
N¯ y
h
es un estimador insesgado del total del estrato τ
h
=
N
h
¸
i=1
y
hi
, tal como en
el muestreo aleatorio simple. Hasta aquí todo parece razonable, como formar
el estimador de τ, ˆ τ , con la suma de los ˆ τ
h
y de esta manera construir un
estimador para la media de la población al dividir ˆ τ entre N, el cual hereda la
propiedad de insesgamiento (Scheaffer, 1987 [2]).
El estimador de la media estratificada
¯ y
estr
=
E
¸
h=1
N
h
¯ y
h
N
Nótese que se ha usado el subíndice estr en ¯ y
estr
para señalar que la esti-
mación se hace con el muestreo estratificado.
Dado que cada estrato se maneja de manera independiente, las ¯ y
k
con
h = 1, 2, . . . E también son independientes. Por lo tanto, la varianza de ¯ y
estr
es la suma de las varianzas de las medias de cada estrato. Este estimador es
insesgado.
4.3.1. El estimador de la varianza de la media estratificada
S
2
¯ y
estr
= V (¯ y
estr
) =
1
N
2

N
2
1
ˆ
V (¯ y
1
) + N
2
2
ˆ
V (¯ y
2
) + . . . +N
2
E
ˆ
V (¯ y
E
)

=
1
N
2
¸
N
2
1

N
1
−n
1
N
1

S
2
1
n
1

+ . . . +N
2
E

N
E
−n
E
N
E

S
2
E
n
E

=
1
N
2
E
¸
h=1
N
2
h

N
h
−n
h
N
h

S
2
h
n
h

=
E
¸
h=1
N
2
h
N
2

N
h
−n
h
N
h

S
2
h
n
h

=
E
¸
h=1
W
2
h

N
h
−n
h
N
h

S
2
h
n
h

=
E
¸
h=1
W
2
h
S
2
¯ y
h
.
El siguiente paso es la obtención del intervalo de confianza de nuestra esti-
mación. Cuando hay pocos grados de libertad en cada estrato, el procedimien-
to para calcular el error de muestreo, (t

¯
V (¯ y
estr
)), consiste en leer el valor de t
en las tablas de la t-student, como se hizo en el muestreo aleatorio simple, y
cuando es mayor de 30 utilizaremos la tablas Z de la normal estándar.
68
4.3.2. El intervalo de confianza para la estimación de la me-
dia estratificada
¯ y
estr
±t
(n−1,α/2)

1
N
2
E
¸
h=1
N
2
h

N
h
−n
h
N
h

S
2
h
n
h

¯ y
estr
±t
(n−1,α/2)

E
¸
h=1
W
2
h
S
2
¯ y
h
Se ha revisado lo referente al estimador de la media estratificada; sin embar-
go, en ocasiones el principal interés es conocer el total de la población, por
ejemplo, el gasto total semanal de las familias, o el total de personas que visi-
tan algún puerto durante Semana Santa, o quizá la cantidad de personas que
consumen un producto A.
4.3.3. El estimador del total estratificado
ˆ τ
estr
= N¯ y
estr
= N
1
¯ y
1
+N
2
¯ y
2
+ . . . +N
E
¯ y
E
=
E
¸
h=1
N
h
¯ y
h
,
La varianza se deduce de la varianza de la media y hereda todas sus propiedades.
Para la estimación, tanto de la varianza de la media como del total, debe existir
por lo menos dos observaciones en cada estrato.
4.3.4. La varianza del estimador del total estratificado
¯
V (N¯ y
estr
) = N
2
V (¯ y
estr
) = N
2
E
¸
h=1
W
2
h

N
h
−n
h
N
h

S
2
h
n
h

, (4.1)
La desviación estándar se necesita para crear un intervalo de confianza del
total.
4.3.5. El intervalo de confianza
N¯ y
estr
±t
(n−1,α/2)

E
¸
h=1
N
2
h

N
h
−n
h
N
h

S
2
h
n
h

4.3.6. La determinación del tamaño de la muestra
Ahora es tiempo de planear las unidades muestrales que se deben selec-
cionar aleatoriamente en toda la población, y las de los estratos, para consti-
tuir una muestra que satisfaga una precisión deseada, d.
69
Capítulo 4. El muestreo aleatorio estratificado
Cuando se decide precisar el tamaño de muestra se debe tomar en cuen-
ta varios factores, como el tipo de muestreo, el parámetro a estimar, la pre-
cisión admisible, la varianza poblacional y el nivel de confianza de la inferen-
cia. Además, dependiendo de las estrategias de asignación, se puede recurrir
a información más específica o adicional.
Anteriormente se revisaron los elementos estadísticos que se deben tomar
en cuenta para obtener un tamaño de muestra preciso, sin embargo, existen
otros factores que son fundamentales para tomar una decisión al respecto.
Para la asignación de la muestra a cada estrato también se requiere informa-
ción sobre:
El número total de elementos del estrato.
La variabilidad de las observaciones del estrato.
El costo que representa muestrear cada estrato.
De aquí se puede concluir que cuanto mayor sea el tamaño muestral en
los estratos, se obtendrá información más precisa, por lo que a los estratos
grandes les corresponden tamaños muestrales grandes. También es fácil in-
ferir que si en algún estrato hay mucha variabilidad debe considerarse un
tamaño de muestra mayor.
Por último, es importante considerar que si el costo de obtener una obser-
vación varía entre estratos, se deberá tomar muestras pequeñas en estratos
donde el costo sea alto y viceversa, con el fin de minimizar el costo total del
muestreo. Así, la calidad de la información que se obtenga en las estimaciones
provendrá directamente de n, ya que al incrementarse ésta, la varianza de la
media decrecerá. Para lograr una precisión deseada usamos:
d
M
= t
(n−1,α/2)

V (
¯
θ)
donde
V (
¯
θ) : la varianza del estimador de interés.
α : el nivel de significancia.
El tamaño de muestra para estimar la media estratificada
n =
N(t
(n−1,α/2)
)
2
E
¸
h=1
W
h
S
2
h
Nd
2
M
+ (t
(n−1,α/2)
)
2
E
¸
h=1
W
h
S
2
h
W
h
= N
h
/N
d
M
= el tamaño del error que se desea aceptar en la estimación de la media.
70
El tamaño de muestra para estimar el total estratificado
n =
N
2
(t
(n−1,α/2)
)
2
E
¸
h=1
W
h
S
2
h
d
2
T
+N(t
(n−1,α/2)
)
2
E
¸
h=1
W
h
S
2
h
,
W
h
= N
h
/N,
d
T
= tamaño del error que se desea aceptar en la estimación del total.
4.3.7. La asignación de la muestra
Como se vio, el muestreo estratificado involucra h estratos y por tanto tam-
bién h tamaños de muestra, n
1
, n
2
, . . . , n
h
correspondientes a los estratos en que
se divide la población. Asimismo, se tiene el tamaño de muestra total n, el cual
es la suma de los h tamaños de muestra relacionados con los estratos. Se debe
tener presente que el número de unidades de que consta el estrato influye en
el tamaño de muestra. Así, se asignará un tamaño de muestra mayor a los
estratos más grandes y uno menor a los estratos más chicos. A los estratos
que más aportan a la variabilidad, es decir, los estratos menos homogéneos,
les corresponderá un tamaño de muestra mayor. De los estratos donde el costo
por unidad sea alto, se tomarán muestras más pequeñas. Por lo tanto, existen
diferentes métodos de asignación de la muestra.
Por su simplicidad, en la práctica se recurre con frecuencia a la denominada
asignación proporcional. Este procedimiento de asignación es recomendable
cuando se sabe que los estratos tienen tamaños diferentes, que la variabilidad
entre estratos se desconoce, pero puede suponerse ligeramente similar y que
la variabilidad en el estrato más pequeño es menor que la del estrato más
grande; en cuanto al costo por unidad, se asume que es igual o que no cambia
entre estratos. El criterio de asignación proporcional, suponiendo que ya se ha
calculado el tamaño de la muestra n requerido, consiste en determinar una
parte de n, la cual será proporcional al tamaño del estrato. Algebraicamente el
criterio está representado por:
n
i
=
N
h
N
n = W
h
n; i = 1, 2, . . . , h,
o especificamente como:
n
1
=
N
1
N
n, n
2
=
N
2
N
n, . . . , n
h
=
N
h
N
n.
Los estratos más grandes requieren un tamaño de muestra mayor, es decir, la
asignación de n entre los estratos es proporcional al tamaño del estrato.
71
Capítulo 4. El muestreo aleatorio estratificado
4.4. La selección de estratos
En ocasiones es sencillo delimitar los elementos que corresponden a cada
estrato, pero ¿siempre es así? Definitivamente no. En estadística, cada proble-
ma es una nueva experiencia, la cual no necesariamente tiene una respuesta
única y un razonamiento lógico para llegar a la solución más satisfactoria. Este
trabajo puede resultar un poco complicado y tornarse desesperante en algu-
nas ocasiones, por lo que a continuación se dan algunas ideas útiles.
¿Qué hago cuando. . . ?
¿Cómo delimitar los estratos?
¿Se debe estratificar después de seleccionar la muestra?
En ocasiones es una tarea sencilla debido a que los estratos están implíci-
tos y se conoce el comportamiento con base en registros antiguos, nuestra
experiencia o simplemente en la naturaleza de los resultados que deseamos
obtener.
¿Con base en qué se delimitan los estratos? Una primera aproximación es el
caso cuantitativo. Habrá que construirlos dado un interés particular, porque
muchas veces hasta el momento de diseñar la investigación se conocen los
rangos de las estimaciones. Pero también podría tener el rango de salida de los
datos y algunas frecuencias en categorías generales de la variable de interés
o de alguna variable altamente correlacionada. En este caso podemos usar el
sencillo "método acumulativo de la raíz cuadrada de la frecuencia".
Los pasos del método acumulativo de la raíz cuadrada de la frecuencia:
I. Elegimos el número de estratos que se desea obtener.
II. Sacamos por rangos la frecuencia de la variable de interés o en su defecto
a una altamente correlacionada con ella y con estos resultados formamos
una columna de datos.
III. Se forman dos columnas más, una constituida por la raíz de las frecuen-
cias y otra por su raíz acumulada.
IV. Se divide la frecuencia acumulada final entre el número de estratos. Este
resultado es el ancho de la clase (AC).
V. Se utiliza la siguiente ecuación,
AC
hi
= h

AC, h = 1, 2, ...n
y donde h representa el estrato h.
VI. Se puede delimitar con las marcas de clase por estrato, eligiendo la raíz
de la frecuencia acumulada más cercana a la marca de clase y así cada
estrato estará formado por todas las clases de la variable original que
correspondan a la marca de clase.
72
4.4.1. Ejemplos
Ejemplo 1. En Tecomán, Colima, hay 780 parcelas sembradas con limón. Se
desea estimar el promedio de plantas por hectárea, que en determinada etapa
del cultivo se infectaron de alguna enfermedad. De acuerdo con las condiciones
ecológicas en la región se siembran tres variedades de limón. Considerando
que el desarrollo de la enfermedad puede ser distinto de una variedad a otra,
la población de parcelas se estratificó en E = 3 estratos. Los tamaños de los
estratos son: N
1
= 270, N
2
= 180 y N
3
= 330; N = N
1
+ N
2
+ N
3
= 780. Suponga
que para realizar las estimaciones se tomó una muestra de n = 63 parcelas.
Los datos se presentan en el cuadro 4.1.
Cuadro 4.1: Plantas por hectárea infectadas
Estrato 1 (n
1
= 21) Estrato 2 (n
2
= 21) Estrato 3 (n
3
= 21)
48 53 64 20 31 45 74 68 77
62 45 47 36 17 26 70 72 73
59 65 54 15 30 18 78 76 69
45 48 46 40 25 35 69 80 74
50 60 63 24 29 30 80 78 71
55 57 46 19 42 27 72 71 79
64 61 54 33 51 48 76 75 68
a) Realice la estimación puntual del promedio de plantas infectadas por
hectárea.
El estimador de la media estratificada en este caso es,
¯ y
estr
=
N
1
¯ y
1
+ N
2
¯ y
2
+ N
3
¯ y
3
N
donde: N
1
= 270, N
2
= 180, N
3
= 330, N = 780
¯ y
1
=
48 + 62 + 59 +. . . + 46 + 64
21
= 54.5714
¯ y
2
=
20 + 36 + 15 +. . . + 27 + 48
21
= 30.5238
¯ y
3
=
74 + 70 + 78 +. . . + 79 + 68
21
= 73.8095
Por lo tanto:
¯ y
estr
=
(270)(54.57) + (180)(30.52) + (330)(73.80)
780
.
¯ y
estr
=
44, 581.5
780
= 57.1612 plantas infectadas por parcela
b) Realice la estimación puntual del total de plantas infectadas.
El estimador del total estratificado es:
73
Capítulo 4. El muestreo aleatorio estratificado
ˆ τ
estr
= Nˆ y
estr
donde: N = 780 y ˆ y
estr
= 57.1612
Por lo tanto:
ˆ τ
estr
= (780)(57.1612) = 44, 585.736 plantas infectadas
c) Calcule la varianza del promedio estratificado.
El estimador de la varianza del promedio poblacional es:
S
2
¯ y
estr
=

N
1
N

2

N
1
−n
1
N
1

S
2
1
n
1

+

N
2
N

2

N
2
−n
2
N
2

S
2
2
n
2

+

N
3
N

2

N
3
−n
3
N
3

S
2
3
n
3

donde: N
1
= 270, N
2
= 180, N
3
= 330, N = 780, n
1
= n
2
= n
2
= n
3
= 21,
S
2
1
=
48
2
+ 62
2
+ 59
2
+ . . . + 46
2
+ 54
2
−(21)(54.57)
2
21 −1
= 50.3571
S
2
2
=
20
2
+ 36
2
+ 15
2
+ . . . + 27
2
+ 48
2
−(21)(30.52)
2
21 −1
= 107.2619
S
2
3
=
74
2
+ 70
2
+ 78
2
+ . . . + 79
2
+ 68
2
−(21)(73.80)
2
21 −1
= 15.5619
Por lo tanto:
S
2
¯ y
estr
=

270
780

2

270 −21
270

51.7709
21

+

180
780

2

180 −21
180

107.2619
21

+

330
780

2

330 −21
330

15.5619
21

= 0.6348
S
¯ y
estr
=

S
2
¯ y
estr
=

0.6348 = 0.7967
d) Estime por intervalo la media estratificada con una confiabilidad de 95 %.
¯ y
estr
±Z
α/2
S
¯ y
estr
donde:N = 780, ¯ y
estr
= 57.4579 y Z
α/2
= Z
0.025
= 1.96
Por lo tanto:
57.1558 ±(1.96)(0.7967)
57.4579 ±1.5551
55.5943 ≤ µ
estr
≤ 58.7173
El promedio de plantas infectadas por hectárea en la población está entre
55.5943 y 58.7173.
74
e) Halle por intervalo el total de plantas infectadas en la población con una
confiabilidad del 95 %
ˆ τ
estr
±NZ
α/2
S
¯ y
estr
donde: ˆ τ
estr
= 44, 581.524, N = 780, Z
α/2
= Z
0.025
= 1.96 y S
¯ y
estr
= 0.7934
Por lo tanto:
44, 817.1929 ±(780)(1.96)(0.7934)
44, 817.1929 ±(780)(1.5550)
44, 817.1929 ±1, 212.978
43, 604.2409 ≤ τ
estr
≤ 46, 030.0449
El total de plantas infectadas por hectárea en la población está entre 43,604.2429
y 46,030.0449.
f) Suponga que n = 63 es una muestra preliminar. Determine el tamaño de
muestra para estimar la media con una precisión de ±3 % de la media estrati-
ficada y una confiabilidad de 95 %. Además, asigne n a cada estrato en forma
proporcional al tamaño del estrato.
n =
N(Z
α/2
)
2
E
¸
h=1
W
h
S
2
h
Nd
2
+ (Z
α/2
)
2
E
¸
h=1
W
h
S
2
h
Estratos N
i
S
2
h
W
h
S
2
h
1 270 50.3571 17.4313
2 180 107.2619 24.7527
3 330 15.5619 6.5839
Total 780 48.7679
donde: Z
α
2
= Z
0.025
= 1.96, d = (.03)(57.1611) = 1.7148
E
¸
h=1
W
h
S
2
h
=
N
1
N
S
2
1
+
N
2
N
S
2
2
+
N
3
N
S
2
3
= 48.7679
Por lo tanto:
n =
(780)(1.96)
2
(48.7679)
(780)(1.7146)
2
+ (1.96)
2
(48.7679)
= 59 parcelas (muestra)
Asignación de la muestra en forma proporcional.
n
1
=
N
1
N
n =
270
780
(59) = 20
n
2
=
N
2
N
n =
180
780
(59) = 14
75
Capítulo 4. El muestreo aleatorio estratificado
n
3
=
N
3
N
n =
330
780
(59) = 25
g) Suponga que n =63 es una muestra preeliminar. Determine el tamaño de
muestra para estimar el total con una precisión de ±3 % del total estratifica-
do y con una confiabilidad de 95 %. Además, asigne n a cada estrato en forma
proporcional al tamaño.
n =
N
2
(Z
α/2
)
2
E
¸
h=1
W
h
S
2
h
d
2
+ (Z
α/2
)
2
E
¸
h=1
W
h
S
2
h
Aquí d = (0.03)(44585.628) = 1337.568 y
E
¸
h=1
W
h
S
2
h
= 48.7679
Por lo tanto:
n =
(780)
2
(1.96)
2
(48.7679)
(1337.568)
2
+ (780)(1.96)
2
(48.7679)
= 59
De ahí que el número estimado de unidades muestrales (parcelas) que deben
constituir la muestra con una precisión de ±1, 337.568 plantas y 0.05 de proba-
bilidad de no incluir en el intervalo de estimación al total verdadero, es de 59
parcelas. Por tanto, la asignación proporcional es la misma. Es decir, la mues-
tra a extraer de cada estrato será de 20 en el estrato 1, 14 en el estrato 2 y de
25 en el estrato 3.
Ejemplo 2. La Facultad de Telemática de la Universidad de Colima desea
estimar el promedio y el total de faltas justificadas que tuvieron los alumnos
en un año determinado. Al suponer que podrían encontrarse diferencias según
el grado de estudios: primero, segundo, tercero y cuarto año, se decidió usar el
muestreo estratificado, de acuerdo con el grado de estudios. De esta manera,
la población de N = 400 estudiantes que alberga la Facultad, quedó estratifica-
da de la siguiente manera: Estrato 1 (primer año): N
1
= 120 alumnos, Estrato
2 (segundo año): N
2
= 100 alumnos, Estrato 3 (tercer año): N
3
= 90 alumnos,
Estrato 4 (cuarto año): N
4
= 90 alumnos
Se seleccionó una muestra de n = 40 alumnos: 12 para el estrato 1, 10 para el
estrato 2, 9 para el estrato 3 y 9 para el estrato 4.(A.1)
a) Estime la media estratificada.
¯ y
estr
=
N
1
¯ y
1
+N
2
¯ y
2
+ N
3
¯ y
3
+ N
4
¯ y
4
N
donde: N
1
= 120, N
2
= 100, N
3
= 90, N
4
= 90, N = 400,
¯ y
1
=
7 + 6 + 7 +. . . + 5 + 6
12
= 6.3333,
¯ y
2
=
4 + 5 + 4 +. . . + 6 + 6
10
= 5,
¯ y
3
=
3 + 3 + 3 +. . . + 3 + 4
9
= 3.5556,
76
Cuadro 4.2: Faltas justificadas por año.
Estrato 1 Estrato 2 Estrato 3 Estrato 4
7 6 4 4 3 4 3 3
6 7 5 6 3 4 2 2
7 7 4 4 3 3 3 5
8 8 5 6 4 4 4 2
5 5 6 6 4 5
4 6
¯ y
4
=
3 + 2 + 3 +. . . + 5 + 2
9
= 3.2222.
Por lo tanto:
¯ y
estr
=
(120)(6.33) + (100)(5) + (90)(3.55) + (90)(3.22)
400
¯ y
estr
=
1870.00
400
= 4.675 faltas justificadas en promedio de todos
los grados.
b) Realice la estimación de la varianza y la desviación estándar de la media
estratificada.
S
2
¯ y
estr
=

N
1
N

2

N
1
−n
1
N
1

S
2
1
n
1

+

N
2
N

2

N
2
−n
2
N
2

S
2
2
n
2

+

N
3
N

2

N
3
−n
3
N
3

S
2
3
n
3

+

N
4
N

2

N
4
−n
4
N
4

S
2
4
n
4

donde: N
1
= 120, N
2
= 100, N
3
= 90, N
4
= 90, N = 400, n
1
= 12, n
2
= 10, n
3
= 9,
n
4
= 9,
S
2
1
=
7
2
+ 6
2
+ 7
2
+ . . . + 5
2
+ 6
2
−(12)(6,3333)
2
12 −1
= 1.5152,
S
2
2
=
4
2
+ 5
2
+ 4
2
+ . . . + 6
2
+ 6
2
−(10)(5)
2
10 −1
= 0.8889,
S
2
3
=
3
2
+ 3
2
+ 3
2
+ . . . + 3
2
+ 4
2
−(9)(3.5556)
2
9 −1
= 0.2728,
S
2
4
=
3
2
+ 2
2
+ 3
2
+ . . . + 5
2
+ 2
2
−(9)(3.2222)
2
9 −1
= 1.4444.
Por lo tanto:
S
2
y
e
=

120
400

2

120 −12
120

1.5152
12

+

100
400

2

100 −10
100

0.8889
10

+

90
400

2

90 −9
90

0.2728
9

+

90
400

2

90 −9
90

1.4444
9

= 0.02395
S
y
estr
=

S
2
y
estr
=

0.02395 = 0.1547
c) Calcule el total estratificado.
77
Capítulo 4. El muestreo aleatorio estratificado
ˆ y
estr
= N¯ y
estr
donde:N = 400 y ¯ y
estr
= 4.675
Por lo tanto:
ˆ τ
estr
= (400)(4.675) = 1870 faltas justificadas
d) Halle el intervalo para la media estratificada con una confiabilidad de
95%.
¯ y
estr
±Z
α/2
S
¯ y
estr
donde: N = 400, ¯ y
estr
= 4.675
Z
α/2
= Z
0.025
= 1.96
Por lo tanto:
4.675 ±(1.96)(0.1547)
4.675 ±0.30330025
4.3717 ≤ µ
estr
≤ 4.9783
Esto significa que el promedio de fallas justificadas está entre 4.3717 y 4.9783.
e) Cuantifique por intervalo el total estratificado con una confiabilidad de
95%.
ˆ τ
estr
±NZ
α/2
S
¯ y
estr
donde: ˆ τ
estr
= 1870, N = 780, Z
α/2
= Z
0.025
= 1.96, S
¯ y
estr
= 0.1547
Por lo tanto:
1, 870 ±(400)(1.96)(0.1547)
1, 870 ≤ (400)(0.3033)
1, 870 ±121.3201
1, 870 ±121.3201
1, 748.6821 ≤ τ
estr
≤ 1, 991.3179
Esto quiere decir que total de plantas infectadas por hectárea está entre 1,748.6821
y 1,991.3179.
f) Suponga que n = 40 es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar la media con una precisión de 5% de la media estratifi-
cada y una confiabilidad de 95%? Además, distribuya n entre los estratos en
forma proporcional al tamaño del estrato.
78
n =
N(Z
α/2
)
2
E
¸
h=1
W
h
S
2
h
Nd
2
+

Z
α/2

2
E
¸
h=1
W
h
S
2
h
Estratos N
i
S
2
h
W
h
S
2
h
1 120 1.5152 0.4545
2 100 0.8889 0.2222
3 90 0.2778 0.0625
4 90 1.4444 0.3250
Total 400 1.0643
donde:
Z
α/2
= Z
0.025
= 1.96, d = (0.05)(4.675) = 0.23375,
E
¸
h=1
W
h
S
2
h
=
N
1
N
S
2
1
+
N
2
N
S
2
2
+
N
3
N
S
2
3
Por lo tanto:
n =
(400)(1.96)
2
(1.0643)
(400)(0.2337)
2
+ (1.96)
2
(1.0643)
= 63.05353 alumnos (muestra)
Asignación de la muestra en forma proporcional.
n
1
=
N
1
N
n =
120
400
(64) = 18.9106 ≈ 19
n
2
=
N
2
N
n =
100
400
(64) = 15.7588 ≈ 16
n
3
=
N
3
N
n =
90
400
(64) = 14.1829526 ≈ 14
n
4
=
N
4
N
n =
90
400
(64) = 14.1829526 ≈ 15
g) Suponga que n = 40 es una muestra preliminar. Determine el tamaño de
muestra para estimar el total con una precisión de 5% del total estratificado y
una confiabilidad de 95%. Además, asigne n a cada estrato en forma propor-
cional al tamaño.
n =
N
2
(Z
α/2
)
2
E
¸
h=1
W
h
S
2
h
d
2
+ N(Z
α/2
)
2
E
¸
h=1
W
h
S
2
h
Aquí d = (0.05)(4.675)(400) = 93.5 y
E
¸
h=1
W
h
S
2
h
=1.0643
Por lo tanto:
n =
(400)
2
(1.96)
2
(1.0643)
(93.5)
2
+ (400)(1.96)
2
(1.0643))
= 63.0353 alumnos (unidades
muestrales)
79
Capítulo 4. El muestreo aleatorio estratificado
Nótese que la asignación proporcional es la misma, es decir, la muestra a
extraer de cada estrato será de 19 en el estrato 1, 16 en el estrato 2 , 14 en el
estrato 3 y 15 en el estrato 4.
Ejemplo 3. El gobierno del estado de Chiapas desea estimar el ingreso prome-
dio mensual (miles de pesos) de las familias chiapanecas. Supóngase que el
total de familias es de 6,000. Por otro lado, el estado tiene 3 zonas geográficas
bien definidas (costa, centro y altos) y entre ellos existen diferencias marcadas
respecto al ingreso; por ello, para realizar el estudio se estratificó al estado
en k = 3 estratos: Estrato 1 (Zona costa): N = 2, 000, Estrato 2 (Zona centro):
N = 1, 500 y Estrato 3 (Zona altos): N = 2, 500
Para las estimaciones se tomó una muestra preliminar de n = 40 familias:
15 para el estrato 1, 11 para el estrato 2 y 14 para el estrato 3 (Cuadro 4.3).
Cuadro 4.3: El ingreso promedio mensual (miles de pesos) de las familias chia-
panecas.
Estrato 1 Estrato 2 Estrato 3
10 12 8 8 4 3
11 12 8 3 3
12 13 8 2 4
10 14 7 4 4
9 11 6 3
8 9 5
13 9 4
14 8 3
9 9 5
8 9 2
a) Realice la estimación puntual de la muestra estratificada.
¯ y
estr
=
N
1
¯ y
1
+N
2
¯ y
2
+ N
3
¯ y
3
N
donde: N
1
= 2, 000, N
2
= 1, 500, N
3
= 2, 500, N = 6, 000
¯ y
1
=
10 + 11 + 12 +. . . + 14 + 11
15
= 11.0667
¯ y
2
=
8 + 8 + 8 +. . . + 9 + 8
11
= 8.0909
¯ y
3
=
4 + 3 + 2 +. . . + 4 + 4
14
= 3.5
Por lo tanto:
¯ y
estr
=
(2000)(11.0667) + (1500)(8.0909) + (2500(3.50))
6000
80
¯ y
estr
=
43019.6970
6000
= 7.1699 miles de pesos mensuales (promedio)
b) Realice la estimación puntual del total estratificado.
El estimador del total estratificado es:
ˆ τ
estr
= N¯ y
estr
donde: N = 6, 000 y ¯ y
estr
= 7.1699
Por lo tanto:
ˆ τ
estr
= (6, 000)(7.1699) = 43, 019.4 (total de ingresos mensuales)
c) Calcule la varianza y la desviación estándar del promedio estratificado.
S
2
¯ yestr
=

N
1
N

N
1
−n
1
N
1

S
2
1
n
1

+

N
2
N

N
2
−n
2
N
2

S
2
2
n
1

+

N
3
N

N
3
−n
3
N
3

S
2
3
n
3

donde: N
1
= 2, 000, N
2
= 1, 500, N
3
= 2, 500, N = 6, 000, n
1
= 15, n
2
= 11, n
3
= 14
S
2
1
=
10
2
+ 11
2
+ 12
2
+ . . . + 14
2
+ 11
2
−(15)(11.0667)
2
15 −1
= 4.0667
S
2
2
=
8
2
+ 9
2
+ 8
2
+ . . . + 9
2
+ 8
2
−(11)(8.0909)
2
11 −1
= 0.8909
S
2
3
=
4
2
+ 3
2
+ 2
2
+ . . . + 4
2
+ 4
2
−(14)(3.50)
2
14 −1
= 0.8846
Por lo tanto:
S
¯ y
estr
=

2000
6000

2

2000 −15
2000

4.06
15

+

1500
6000

2

1500 −11
1500

0.8909
11

+

2500
6000

2

2500 −14
2500

0.8846
14

= 0.04583
S
¯ y
estr
=

S
2
¯ y
estr
=

0.04583 = 0.2141
d) Realice la estimación por intervalo de la media estratificada con una con-
fiabilidad de 95%.
¯ y
estr
±Z
α
2
S
¯ y
estr
donde: N = 6, 000, ¯ y
estr
= 7.1699, Z
α
2
= Z
0.025
= 1.96
Por lo tanto:
7.1699 ±(1.96)(0.2140)
7.1699 ±0.4196
6.750375 ≤ µ
estr
≤ 7.589541
81
Capítulo 4. El muestreo aleatorio estratificado
Esto significa que el ingreso promedio de las familias en la población está
entre 6.750375 y 7.589541.
e) Realice la estimación por intervalo del total estratificado con una confia-
bilidad de 95%.
ˆ τ
estr
±NZ
α
2
S
¯ y
estr
donde: ˆ τ
estr
= 43019.6970, N = 6, 000, Z
α
2
= Z
0.025
= 1.96, S
¯ y
estr
= 0.2141
Por lo tanto:
43, 019.6970 ±(6000)(1.96)(0.2141)
43, 019.6970 ±(6000)(0.4195)
43, 019.6970 ±2, 517.5985
40, 502.1446 ≤ τ
estr
≤ 45, 537.2493
De ahí que el total de ingresos mensuales en las familias chiapanecas esté
entre 40,502.1496 y 45,537.2493.
f) Supóngase que n = 40 es una muestra preliminar. Determine el tamaño
de muestra para estimar la media con una precisión de 5% de la media estrati-
ficada y una confiabilidad de 95%. Además, asigne n a cada estrato en forma
proporcional al tamaño del estrato.
n =
N(Z
α
2
)
2
E
¸
h=1
W
h
S
2
h
Nd
2
+ (Z
α
2
)
2
E
¸
h=1
W
h
S
2
h
Estratos N
i
S
2
h
W
h
S
2
h
1 2,000 4.066 1.3556
2 1,500 0.8909 0.2227
3 2,500 0.8846 0.3686
Total 6,000 1.9469
donde: Z
α
2
= Z
0.025
= 1.96, d = (.05)(7.1699) = 0.3585
E
¸
h=1
W
h
S
2
h
=
N
1
N
S
2
1
+
N
2
N
S
2
2
+
N
3
N
S
2
3
= 1.9469
Por lo tanto:
n =
(6000)(1.96)
2
(1.9469)
(6000)(0.3585)
2
+ (1.96)
2
(1.9469)
= 57.6349 familia (muestra)
Asignación de la muestra en forma proporcional
82
n
1
=
N
1
N
n =
2000
6000
(57.6349) = 19.2116
n
2
=
N
2
N
n =
1500
6000
(57.6349) = 14.4087
n
3
=
N
3
N
n =
2500
6000
(57.6349) = 24.0145
g) Suponga que n = 40 es una muestra preliminar. Determine el tamaño
de muestra definitivo para estimar el total con una precisión de 5% del total
estratificado y una confiabilidad de 95%. Además, asigne n a cada estrato en
forma proporcional al tamaño.
n =
N
2
Z
α
2
K
¸
i=1
W
i
S
i
d
2
+NZ
α
2
K
¸
i=1
W
i
S
2
i
donde: d = (0.05)(43019.69670) = 2150.9849 y
E
¸
h=1
W
h
S
2
h
=1.4969
Por lo tanto:
n =
(6,000)
2
(1.96)
2
(1.9469)
(2, 150.9849)
2
+ (6,000)(1.96)
2
(1.9469)
= 57.6349 familias
(unidades muestrales)
Dado que el tamaño de muestra es el mismo, entonces se tiene la misma asig-
nación en cada estrato, es decir, la muestra a extraer de cada estrato será de
19 en el estrato 1, 15 en el estrato 2 y 24 en el estrato 3.
Ejemplo 4. En el estado de Colima hay N = 3,200 familias. Se desea estimar el
número de horas promedio por día que cada familia ve televisión. Sin embargo,
se sabe que en el estado existen tres estratos sociales bien definidos: clase ba-
ja, media y alta. Considerando que el número de horas de ver televisión puede
ser distinto de estrato a estrato, la población se dividió en k = 3 estratos, los
cuales son: Estrato 1 (Clase baja): N = 1000 familias, Estrato 2 (Clase media):
N = 1600 familias y Estrato 3 (Clase alta): N = 600 familias
La distribución de la muestra de tamaño n = 30 familias fue de 10 para el
estrato 1, 15 para el estrato 2 y 5 para el estrato 3 (cuadro 4.4).
a) Realice la estimación puntual de la muestra estratificada.
¯ y
estr
=
N
1
¯ y
1
+ N
2
¯ y
2
+ N
3
¯ y
3
N
donde: N
1
= 1, 000, N
2
= 1, 600, N
3
= 600, N = 3, 200,
¯ y
1
=
7 + 6 + 6 +. . . + 9 + 10
10
= 7.60,
¯ y
2
=
5 + 6 + 7 +. . . + 6 + 6
15
= 6,
83
Capítulo 4. El muestreo aleatorio estratificado
Cuadro 4.4: El número de horas diarias que cada familia ve televisión
Estrato 1(n
1
= 10) Estrato 2(n
2
= 15) Estrato 3(n
3
= 5)
7 8 5 5 4 4
6 7 6 5 7 3
6 8 7 6 8 4
7 9 5 6 6 5
8 10 7 7 6 4
¯ y
3
=
4 + 3 + 4 +. . . + 5 + 4
5
= 4
Por lo tanto:
¯ y
estr
=
(1000)(7.60) + (1600)(6) + (600)(4.00)
3200
¯ y
estr
=
19600
3200
= 6.125 horas diarias en promedio
b) Calcule el total estratificado.
ˆ τ
estr
= N¯ y
estr
donde: N = 3200 y ¯ y
estr
= 6.125
Por lo tanto:
ˆ τ
estr
= (3200)(6.125) = 19, 600 horas totales por día
c) Calcule la varianza y la desviación estándar del promedio estratificado.
S
2
¯ y
estr
=

N
1
N

2

N
1
−n
1
N
1

S
2
1
n
1

+

N
2
N

2

N
2
−n
2
N
2

S
2
2
n
2

+

N
3
N

2

N
3
−n
3
N
3

S
2
3
n
3

donde: N
1
= 1, 000, N
2
= 1, 600, N
3
= 600, N = 3, 200
n
1
= 10, n
2
= 15, n
3
= 5,
S
2
1
=
7
2
+ 6
2
+ 6
2
+ . . . + 9
2
+ 10
2
−(10) (7.60)
2
10 −1
= 1.60
S
2
2
=
5
2
+ 6
2
+ 7
2
+ . . . + 6
2
+ 6
2
−(15) (6)
2
15 −1
= 1.1421
S
2
3
=
4
2
+ 3
2
+ 4
2
+ 5
2
+ 4
2
−(5) (4)
2
5 −1
= 0.50
Por lo tanto:
84
S
2
y
estr
=

1000
3200

2

1000 −10
1000

1.60
10

+

1600
3200

2

1500 −15
1600

1.1421
15

+

600
3200

2

600 −5
600

0.50
5

= 0.0378
S
y
estr
=

S
y
estr
=

0.0378 = 0.1945
d) Halle por intervalo de la media estratificada con una confiabilidad de
95%.
¯ y
estr
±Z
α/2
S
¯ y
estr
donde: N = 3, 200, ¯ y
estr
= 6.125 y Z
α/2
= Z
0.2025
= 1.96
Por lo tanto:
6.125 ±(1.96)(0.1945)
6.125 ±0.38122
5.72723 ≤ µ
estr
≤ 6.522764
Esto significa que el promedio de horas por día que las familias de Colima
ven televisión está entre 5.72723 y 6.522764.
e) Estime el intervalo del total estratificado con una confiabilidad de 95%.
ˆ τ
estr
±NZ
α/2
S
¯ y
estr
donde: ˆ τ
estr
= 19, 600, N = 3, 200, Z
α/2
= Z
0.025
= 1.96 y S
y
estr
= 0.1945
Por lo tanto:
19,600±(3,200)(1.96)(0.1945)
19,600±(3,200)(0.3978)
19,600±1,272.96
18,327.1521≤ τ
estr
≤20,872.8479
Entonces, el total de horas por día que las familias de Colima ven televisión
está entre 18,327.1521 y 20,872.8479.
f) Suponga que n = 30 es una muestra preliminar. Determine el tamaño de
muestra para estimar la media con una precisión de 5% de la media estrati-
ficada y una confiabilidad de 95%. Además, asigne n a cada estrato en forma
proporcional al tamaño de cada estrato.
n =
N(Z
α/2
)
2
E
¸
h=1
W
h
S
2
h
Nd
2
+ (Z
α/2
)
2
E
¸
h=1
W
h
S
2
h
donde:
85
Capítulo 4. El muestreo aleatorio estratificado
Estratos N
i
S
2
h
W
h
S
2
h
1 1,000 1.60 0.50
2 1,600 1.1429 0.5714
3 600 0.50 0.0938
Total 3,200 1.1652
Z
α/2
= Z
0.0025
= 1.96, d = (.05)(6.125) = 0.30625 y
E
¸
h=1
W
h
S
2
h
=
N
1
N
S
2
1
+
N
2
N
S
2
2
+
N
3
N
S
2
3
=
1.1652
Por lo tanto:
n =
(3200)(1.96)
2
(1.1945)
(3200)(0.30125)
2
+ (1.96)
2
(1.1945)
= 52 familias (unidades mues-
trales)
Asignación de la muestra en forma proporcional
n
1
=
N
1
N
n =
1000
3200
(52) = 16
n
2
=
N
2
N
n =
1500
3200
(52) = 26
n
3
=
N
3
N
n =
600
3200
(52) = 10
g) Suponga que n = 30 es una muestra preliminar. Determine el tamaño
de muestra definitivo para estimar el total con una precisión de 5% del total
estratificado y con una confiabilidad de 95%. Además, realizar la asignación
de n a cada estrato en forma proporcional al tamaño.
n =
N
2
Z
α
2
E
¸
h=1
W
h
S
2
h
d
2
+NZ
α
2
E
¸
h=1
W
h
S
2
h
donde: d = (0.05)(419, 600) = 980 y
E
¸
h=1
W
h
S
2
h
=1.1652
por lo tanto:
n =
(3200)
2
(1.96)
2
(1.1985)
(980)
2
+ (3200)(1.96)
2
(1.1985)
= 52
El número estimado de unidades muestrales (familias) de la muestra para
tener una precisión de ± 980 horas y 0.05 de probabilidad de no incluir en
el intervalo de estimación al total verdadero es de 52 familias. La asignación
proporcional es la misma, es decir, la muestra de cada estrato será 16 en el
estrato 1, 26 en el estrato 2 y 10 en el estrato 3.
86
4.5. Ejercicios
En los ejercicios siguientes estime:
a) El IC para la media y el total con una confiabilidad de 95%.
b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar la media y el total de tal manera que
sean estimados con una precisión de 5% de la media y el total preliminar con
una confiabilidad de 95%?
Ejercicio 1. La QFB Patricia Edgwigis Valladares Celis, con el objetivo de es-
timar el número de coliformes fecales, como bioindicadores de contaminación
en el río Colima, cuya longitud es de N = 15, 000 metros, de los cuales N
1
= 4, 000
metros pertenecen a la zona preurbana, N
2
= 8, 000 corresponden a la zona ur-
bana, y N
3
= 3, 000 a la zona post-urbana. Cabe mencionar que este estudio se
realizó en las 4 estaciones del año 2004 pero aquí presentamos solamente los
resultados de primavera . Para el estudio se tomó una muestra de n = 15 met-
ros distribuidos de la siguiente manera n
1
= 4 metros para la zona Pre-urbana,
n
2
= 8 metros para la zona urbana, y n
3
= 3 metros para la zona post-urbana.
Los resultados se presentan en el Cuadro 4.5.
Cuadro 4.5: Resultado del número más probable de coliformes fecales por 100
ml. de agua.
Preurbana Urbana Posturbana
350 920 1,600
240 920 2,400
1,600 920 1,600
2,400 1,600
2,400
2,400
1,600
2,400
Ejercicio 2. La Secretaría de educación (SEP) desea estimar el promedio de
calificaciones de los egresados de la Normal Superior ”Gregorio Torres Quin-
tero” del estado de Colima, cabe mencionar que egresan 3 carreras: Lic. en ed-
ucación preescolar, Lic. en educación primaria y Lic. en educación secundaria.
La población de egresados para el 2007 es de N
1
= 30 de educación preesco-
lar, N
2
= 46 de educación primaria y N
3
= 80 de educación secundaria. Para
realizar el estudio se realizó una muestra de n = 16 estudiantes, distribuidos
de la siguiente forma: n
1
= 3 (preescolar), n
2
= 5 (primaria) n
3
= 8 (secundaria).
Los datos se presentan en el Cuadro 4.6.
Ejemplo 3. Un investigador de la Facultad de Medicina de la U de C desea
estimar el daño promedio de tres cepas causantes de la enfermedad de cha-
gas. Por lo tanto, supóngase que 300 ratones tienen la cepa 1, 350 la cepa 2
87
Capítulo 4. El muestreo aleatorio estratificado
Cuadro 4.6: Calificaciones de los egresados de la Normal Superior
Preescolar Primaria Secundaria
9.5 9.3 8.7
8.7 9.7 8.0
9.9 8.8 9.0
9.0 9.2
8.5 7.8
8.3
9.9
10.0
y 350 la cepa 3. Además, como se espera que el daño varie dependiendo de la
cepa, se toma una muestra estratificada de tamaño n = 50 de la población. Ver
Cuadro 4.7.
Cuadro 4.7: Daño promedio a corazoón de las tres sepas en porcentaje.
Cepa 1 Cepa 2 Cepa 1
(n
1
= 15) (n
2
= 17) (n
3
= 18)
25 26 28 28 29 29
23 24 27 26 31 32
22 23 29 28 31 33
22 22 28 29 32 31
23 23 27 28 33 33
25 24 28 27 32 33
26 26 29 29 32 32
25 28 29 32 33
28 33 31
Ejemplo 4. Un agrónomo desea estimar el promedio de taninos que tienen
los nances en el estado de Colima. Dado que existen 3 variedades diseña un
esquema de muestreo estratificado. Supóngase que la población tiene: de la
variedad 1, 500 plantas; de la 2, 10,000; y de la variedad 3, 7,000 plantas.
Así, toma una muestra de n = 44 distribuida de la siguiente manera: n
1
= 10
(variedad 1), n
2
= 20 (variedad 2) y n
3
= 14 (variedad 3). Ver Cuadro (4.8).
4.6. La estimación de la proporción poblacional
Suponga que surge la necesidad de estimar la proporción de unidades
muestrales que poseen un cierto atributo, en otras palabras, nuestro interés
radicará en saber cómo se manifiesta la característica C en cada uno de los
estratos. En tal caso nos importa saber la proporción (p
h
) de unidades mues-
trales que tienen la característica C en el estrato h.
Defínase
88
Cuadro 4.8: Porcentaje de tanino por kg. de nance.
Variedad 1 Variedad 2 Variedad 1
(n
1
= 10) (n
2
= 20) (n
3
= 14)
04 06 06 04 07
05 05 05 05 07
04 07 06 05 07
03 06 05 04 06
05 05 06 06
05 05 07 07
04 06 05 07
03 06 05 06
02 05 05 05
05 05 07 04
y
h,i
=

1 éxito
0 fracaso
que representa al i-ésimo componente del h-ésimo estrato. El éxito consiste en
tener la característica C.
Esta variable se comporta como una variable aleatoria del tipo binomial,
por lo que el estimador de la proporción de la característica de interés para el
estrato h es:
p
h
=
n
h
¸
i=1
y
h,i
n
h
Y su varianza correspondiente es,
S
2
p
h
=

N
h
−n
h
N
h

p
h
(1 −p
h
)
n
h
Obsérvese que p
h
es un estimador insesgado de P
h
, la proporción de unidades
muestrales que tienen la característica C (Scheaffer, 1987 [2]). De la misma
manera, N ∗ p
h
también es un estimador insesgado del total en el estrato h que
cuentan con la característica C. De tal manera
E
¸
h=1
N
h
p
h
es un buen estimador
del total poblacional que cuenta con la característica C (Pérez, 2000 [3]).
4.6.1. El estimador de la proporción y total poblacional
p
st
=
1
N
(N
1
p
1
+ ... + N
E
p
E
)
=
1
N
E
¸
h=1
N
h
p
h
ˆ τ
st
= (N
1
p
1
+ ... + N
E
p
E
)
=
E
¸
h=1
N
h
p
h
= Np
st
89
Capítulo 4. El muestreo aleatorio estratificado
El estimador de la varianza de la proporción y total poblacional
S
2
p
h
=
1
N
2
(N
2
1
S
2
p
1
+ ... + N
2
E
S
2
p
E
)
=
1
N
2
E
¸
h=1
N
2
h
S
2
p
h
(proporción)
S
2
ˆ τ
st
= (N
2
1
S
2
p
1
+... + N
2
E
S
2
p
E
)
=
E
¸
h=1
N
2
h
S
2
p
h
(total.)
4.6.2. Los intervalos de confianza para la proporción y total
poblacional
De forma tradicional, construimos un intervalo que tiene la siguiente ecuación:
ˆ p
st
±t
(n−1,α/2)

1
N
2
E
¸
h=1
N
2
h

N
h
−n
h
N

p
h
q
h
n
h

ˆ τ ±Nt
(n−1,α/2)

1
N
2
E
¸
h=1
N
2
h

N
h
−n
h
N

p
h
q
h
n
h

4.6.3. El tamaño de muestra para estimar la proporción es-
tratificada
En cuanto a la determinación del tamaño de muestra, se procede de mane-
ra análoga a la determinación vista en el apartado anterior. Se utiliza una mo-
dificación de la ecuación (4.3.6) sustituyendo la estimación de la varianza σ
2
h
por la varianza de la proporción estimada, que es p
h
q
h
.
El tamaño de muestra para estimar la proporción estratificada
n =
N

t
(n−1,α/2)

2
E
¸
h=1
W
h
p
h
q
h
Nd
2
M
+ (t
(n−1,α/2)
)
2
E
¸
i=1
W
h
p
h
q
h
donde,
W
h
=
N
h
N
d
M
= el tamaño del error que se desea aceptar en la estimación de la media
El tamaño de muestra para estimar el total estratificado
90
n =
N
2
(t
(n−1,α/2)
)
2
E
¸
h=1
W
h
p
h
q
h
d
2
T
+ N(t
(n−1,α/2)
)
2
E
¸
i=1
W
h
p
h
q
h
W
h
=
N
h
N
d
T
= el tamaño del error que se desea aceptar en la estimación del total
4.6.4. Asignación de la muestra
El criterio de asignación proporcional, suponiendo que ya se ha calculado
el tamaño de la muestra n requerido, considera como tamaño de muestra de
cada estrato una parte de n, la cual será proporcional al tamaño del estrato.
Esto es, algebraicamente el criterio está representado por:
n
i
=
N
h
N
n = W
h
n; i = 1, 2, . . . , h,
o especificamente como:
n
1
=
N
1
N
n, n
2
=
N
2
N
n, . . . , n
h
=
N
h
N
n.
Nótese que a los estratos más grandes les corresponderá un tamaño de mues-
tra mayor, esto es, la asignación de n entre los estratos es proporcional al
tamaño de cada estrato.
4.6.5. Ejemplos
Ejemplo 1. En el estado de Colima hay N = 5, 000 personas mayores de 60
años, de las cuales N
1
= 2, 600 son mujeres y N
2
= 2, 400 son hombres. Con
la finalidad de estimar el porcentaje y el total de personas que padecen dia-
betes se tomó una muestra aleatoria de n = 220. De esta muestra n
1
= 120 son
mujeres y n
2
= 100 son hombres, es decir, se estratificó a la población porque
se sospecha que el padecimiento de la enfermedad es influido por el género.
De las mujeres, 40 resultaron positivas en la prueba de la glucosa (padecen
diabetes) y de los hombres, 50.
a) Estime la proporción estratificada.
p
st
=
1
N
(N
1
p
1
+ N
2
p
2
)
donde: N = 5, 000, N
1
= 2, 600, N
2
= 2, 400,
p
1
=
n
1
¸
i=1
n
1
=
40
120
= 0.327731,
91
Capítulo 4. El muestreo aleatorio estratificado
p
2
=
n
2
¸
i=1
n
2
=
50
100
= 0.5
Por lo tanto:
p
st
=
1
5000
(2600(0.3333) + 2400(0.5))
p
st
=
1
5000
(866.6667 + 1200) =
2066.6667
5000
= 0.4133 ó 41.33% de en-
fermos con diabetes
b) Halle el total estratificado
ˆ τ = Np
st
donde: N = 5, 000 y p
st
= 0.4133
Por lo tanto:
ˆ τ = (5000)(0.4133) = 2, 006.6667 personas con diabetes
c) Calcule la varianza y la desviación estándar de la proporción estratificada.
S
2
p
h
=
1
N
2
(N
2
1
S
2
p
1
+ N
2
2
S
2
p
2
)
donde: N = 5, 000, N
1
= 2, 600, N
2
= 2, 400, p
1
= 0.327731, p
2
= 0.5,
S
2
p
1
=

N
1
−n
1
N
1

p
1
q
1
n
1

=

2600 −120
2600

(0.3333)(0.6667)
120
= 0.001767,
S
2
p
2
=

N
2
−n
2
N
2

p
2
q
2
n
2

=

2400 −100
2400

(0.5)(0.5)
100
= 0.002396
Por lo tanto:
S
2
p
h
=
1
5000
2
((2600)
2
(0.0017663) + (2400)
2
(0.002396))
= 0.001030
S
p
=

S
2
p
=

0.001030 = 0.0321
d) Calcular un IC para la proporción estratificada con una confianza de
90%.
p
st
±t
α/2,n−1
S
p
h
donde: p
st
= 0.4133, t
α/2,n−1
= Z
α/2
= Z
0.05
= 1.645 y S
p
= 0.0321
Por lo tanto:
92
0.4133± (1.645)(0.0321)
0.4133± 0.0528
0.355066 ≤ P ≤ 0.4609255
La proporción verdadera de personas que padece diabetes está entre 35.50
y 46.09%.
e) Realice una estimación por intervalo para el total estratificado.
ˆ τ ±Nt
α/2,n−1
S
p
s
t
donde: ˆ τ = 2006.6667, N = 5,000, t
α/2,n−1
= Z
α/2
= Z
0.05
= 1.645 y S
p
= 0.0321
Por lo tanto:
2006.6667± (5000)(1.645)(0.0321)
2006.6667± (5000)(0.0528)
2006.6667± 264
1, 775.331715 ≤ τ
st
≤ 2, 304.627542
Esto significa que el total de personas que padecen diabetes está entre 1,802.7676
y 2,330.5657.
f) Suponga que n = 220 es una muestra preliminar. Determine el tamaño de
muestra para estimar la media con una precisión de 0.05 y una confiabilidad
de 90%. Además, realice la asignación de n a cada estrato en forma propor-
cional al tamaño del estrato.
n =
N(Z
α/2
)
2
E
¸
h=1
p
h
q
h
Nd
2
+ (Z
α/2
)
2
E
¸
h=1
p
h
q
h
Estratos N
h
p
h
q
h
W
h
p
h
q
h
1 2,600 0.3333 0.6667 0.1156
2 2,400 0.5 0.5 0.12
Total 5,000 0.2356
donde: Z
α/2
= Z
0.05
= 1.645, d = 0.05,
E
¸
h=1
W
h
S
2
h
=
N
1
N
p
1
q
1
+
N
2
N
p
2
q
2
= 0.2356
Por lo tanto:
n =
(5000)(1.645)
2
(0.2356)
(5000)(0.05)
2
+ (1.645)
2
(0.2356)
=
3, 186.3344
13.1373
= 242 personas
La asignación de la muestra en forma proporcional
n
1
=
N
1
N
n =
2600
5000
(242) = 126
93
Capítulo 4. El muestreo aleatorio estratificado
n
2
=
N
2
N
n =
2400
5000
(242) = 116
g) Suponga que n = 220 es una muestra preliminar. Determine el tamaño de
muestra para estimar la proporción con una precisión de 100.3333 y una con-
fiabilidad de 95%. Además, haga la asignación de n a cada estrato en forma
proporcional al tamaño.
n =
N
2
(Z
α/2
)
2
E
¸
h=1
W
h
p
h
q
h
d
2
+ N(Z
α/2
)
2
¸
d = (0.05)(2, 006.667) = 100.3333 y
E
¸
h=1
W
h
p
h
q
h
=0.2356
Por lo tanto:
n =
(5000)
2
(1.645)
2
(0.2356)
(100.3333)
2
+ (5000)(1.645)
2
(0.2356)
= 242 personas
La asignación proporcional es la misma que en f); al estrato uno 126 y al
estrato dos 116.
Ejemplo 2. Una empresa que produce artículos electrónicos tiene tres líneas
de producción. La línea uno produce N
1
= 2, 000 artículos por hora, la dos
N
2
= 1, 500 artículos por hora y la tres produce N
3
= 2, 500 artículos por hora.
La producción total por hora es de N = 6, 000. Con la finalidad de estimar el
porcentaje y total de artículos defectuosos producidos por hora, se tomó una
muestra aleatoria de n = 150 artículos distribuidos de la siguiente manera:
n
1
= 50 de la línea uno, n
2
= 30 de la línea dos y n
3
= 70 de la línea tres, debido
a que las líneas de producción no son idénticas y se sospecha que el número
de artículos defectuosos por líneas son diferentes. En la muestra de la línea
uno (n
1
) se encontraron 4 defectuosos; en la muestra de la línea dos, 3; y en la
línea tres hubo 8 defectuosos.
a) Realice la estimación de la proporción estratificada.
p
st
=
1
N
(N
1
p
1
+N
2
p
2
+ N
3
p
3
)
donde: N = 6, 000, N
1
= 2, 000, N
2
= 1, 500, N
3
= 2, 500, p
1
=
n
1
¸
i=1
n
1
=
4
50
= 0.08,
p
2
=
n
2
¸
i=1
n
2
=
3
30
= 0.1, p
3
=
n
3
¸
i=1
n
3
=
8
70
= 0.1143
Por lo tanto:
p
st
=
1
6000
(2000(0,08) + 1500(0.1) + 2500(0.1142))
94
p
st
=
1
6000
(160 + 150 + 285.7142) =
595.7142
6000
= 0.0992 ó 9.92%
articulos producidos por hora
b) Realice la estimación del total poblacional.
ˆ τ = Np
st
donde: N = 6, 000, p
st
= 0.0993
por lo tanto:
ˆ τ = (6000)(0.0993) = 595.8 articulos defectuosos por hora
c) Calcule la varianza y la desviación estándar de la proporción estratificada.
S
2
p
h
=
1
N
2
(N
2
1
S
2
p
1
+N
2
2
S
2
p
2
+ N
2
3
S
2
p
3
)
donde: N = 6, 000, N
1
= 2, 000, N
2
= 1, 500, N
3
= 2, 500, p
1
= 0.08, p
2
= 0.1,
p
3
= 0.1143,
S
2
p
1
=

N
1
−n
1
N
1

p
1
q
1
n
1

=

2000 −50
2000

(0.08)(0.92)
50
= 0.0014,
S
2
p
2
=

N
2
−n
2
N
2

p
2
q
2
n
2

=

1500 −30
1500

(0.1)(0.9)
30
= 0.0029,
S
2
p
3
=

N
3
−n
3
N
3

p
3
q
3
n
3

=

2500 −70
2500

(0.1143)(0.8857)
70
= 0.0014
Por lo tanto:
S
2
p
h
=
1
6000
2
((2000)
2
(0.0014) + (1500)
2
(0.0029) + (2500)
2
(0.0014))
= 0.000579
S
p
h
=

S
2
p
=

0.000579 = 0.0240
d) Calcular un IC para la proporción estratificada con una confianza de
90%.
p
st
±t
α/2,n−1
S
p
h
donde: p
st
= 0.0993, t
α/2,n−1
= Z
α/2
= Z
0.05
= 1.645, S
p
= 0.0242
Por lo tanto:
0.0992± (1.645)(0.0242)
0.0992± 0.039809
0.0594≤ P ≤ 0.1390
95
Capítulo 4. El muestreo aleatorio estratificado
La proporción verdadera de artículos electrónicos defectuosos que se producen
por hora está entre 5.94 y 13.9 por ciento.
e) Realice una estimación por intervalo del total poblacional.
ˆ τ ±Nt
α/2,n−1
S
p
s
t
donde: ˆ τ = 595.8, N = 6, 000, t
α/2,n−1
= Z
α/2
= Z
0.05
= 1.645, S
p
= 0.0242
Por lo tanto:
595.8± (6000)(1.645)(0.024)
595.8± (6000)(0.03948)
595.8± 236.88
356.555 ≤ τ
st
≤ 834.8730
El total de artículos electrónicos defectuosos que se producen por hora está
entre 358.92 y 832.68.
f) Suponga que n=150 es una muestra preliminar. Determine el tamaño de
muestra para estimar la media con una precisión de 0.05 y con una confiabili-
dad de 90%. Además, asigne n a cada estrato en forma proporcional al tamaño
del estrato.
n =
N(Z
α/2
)
2
E
¸
h=1
p
h
q
h
Nd
2
+ (Z
α/2
)
2
E
¸
h=1
p
h
q
h
Estratos N
h
p
h
q
h
W
h
p
h
q
h
1 2,000 0.08 0.92 0.0245
2 1,500 0.1 0.99 0.0225
3 2,500 0.1143 0.8857 0.0422
Total 6,000 0.0892
donde: Z
α/2
= Z
0.05
= 1.645, d = 0.05,
E
¸
h=1
W
h
S
2
h
=
N
1
N
p
1
q
1
+
N
2
N
p
2
q
2
+
N
3
N
p
3
q
3
= 0.0892
Por lo tanto:
n =
(6000)(1.645)
2
(0.0892)
(6000)(0.05)
2
+ (1.645)
2
(0.0892)
=
1, 448.4302
15.2413
= 96 artículos
electrónicos (muestra)
La asignación de la muestra en forma proporcional
n
1
=
N
1
N
n =
2000
6000
(96) = 32
n
2
=
N
2
N
n =
1500
6000
(96) = 24
96
n
3
=
N
3
N
n =
2500
6000
(96) = 40
g) Suponga que n=150 es una muestra preliminar. Determine el tamaño
de muestra para estimar la proporción con una precisión de ±300 y con una
confiabilidad de 90%. Además, distribuya n entre los estratos en forma pro-
porcional al tamaño.
n =
N
2
(Z
α/2
)
2
E
¸
h=1
W
h
p
h
q
h
d
2
+ N(Z
α/2
)
2
¸
aquí d = (0.05)(6000) = 300 y
E
¸
h=1
W
h
p
h
q
h
= 0.0892
n =
(6000)
2
(1.645)
2
(0.0892)
(300)
2
+ (6000)(1.645)
2
(0.0892)
= 95.0325
La asignación proporcional es la misma que en el inciso anterior.
Ejemplo 3. La Secretaría de Educación Pública del estado de Colima desea
conocer el porcentaje y el total de personas que ven telenovelas. Suponga que
la población de individuos en el estado es de N=10,000, de los cuales 30% son
niños (estrato 1), 50% son jóvenes (estrato 2) y el resto son adultos (estrato
3). Se estratificó a la población de esa forma ya que los hábitos televisivos son
muy diferentes entre niños, jóvenes y adultos. Para estimar el porcentaje y
total de personas que ve telenovelas se tomó una muestra aleatoria de n=300
individuos distribuidos de la siguiente manera: n
1
=90 del estrato uno, n
2
=150
del estrato dos y n
3
=60 del estrato tres. Los resultados fueron: en el estrato
uno, 30 niños ven telenovelas; en el dos, 70; y en el estrato tres, 40.
a) Haga la estimación de la proporción estratificada.
p
st
=
1
N
(N
1
p
1
+ N
2
p
2
)
donde: N = 10, 000, N
1
= 3, 000, N
2
= 5, 000, N
3
= 2, 000,
p
1
=
n
1
¸
i=1
n
1
=
30
90
= 0.3333,
p
2
=
n
2
¸
i=1
n
2
=
70
150
= 0.4666,
p
3
=
n
3
¸
i=1
n
3
=
40
60
= 0.6666,
97
Capítulo 4. El muestreo aleatorio estratificado
Por lo tanto:
p
st
=
1
10000
(3000(0.3333) + 5000(0.4666) + 2000(0.6666))
p
st
=
1
10000
(1000 + 2, 333.3333 + 1, 333.3333) =
4, 666.6667
10000
= 0.4667
o el 46.67% de personas ven telenovelas
b) Calcule la estimación del total estratificada.
ˆ τ = Np
st
donde: N = 10,000, p
st
= 0.4667
Por lo tanto:
ˆ τ = (10, 000)(0.4667) = 4, 666.6667 personas ven telenovelas
c) Estime la varianza y la desviación estándar de la proporción estratificada
S
2
p
h
=
1
N
2
(N
2
1
S
2
p
1
+ N
2
2
S
2
p
2
)
donde: N = 5, 000, N
1
= 1, 000, N
2
= 3, 000, N
3
= 2, 000, p
1
= 0.3333, p
2
= 0.4667,
p
3
= 0.6667,
S
2
p
1
=

N
2
1
−n
1
N
1

p
1
q
1
n
1

=

3000 −90
3000

(0.3333)(0.6667)
90
= 0.0024,
S
2
p
2
=

N
2
2
−n
2
N
2

p
2
q
2
n
2

=

5000 −150
5000

(0.4667)(0.5333)
150
= 0.0016,
S
2
p
3
=

N
2
3
−n
3
N
3

p
3
q
3
n
3

=

2000 −60
2000

(0.6667)(0.3333)
60
= 0.0036.
Por lo tanto:
S
2
p
h
=
1
10000
2
((3000)
2
(0.0024) + (5000)
2
(0.0016) + (2000)
2
(0.0035))
= 0.00076
S
p
=

S
2
p
=

0.00076 = 0.0276
d) Calcular un IC para la proporción estratificada con una confiabilidad de
90%.
p
st
±t
α/2,n−1
S
p
h
donde: p
st
= 0.4667, t
α/2,n−1
= Z
α/2
= Z
0.05
= 1.645, S
p
= 0.0276
Por lo tanto:
0.4667± (1.645)(0.0276)
98
0.4667± 0.0454
0.42228≤ P ≤ 0.51329
Esto significa que la proporción verdadera de personas que ve telenovelas está
entre 42.13 y 51.21%, con una confiabilidad de 90%.
e) Estime por intervalo el total estratificada con una confiabilidad de 90%.
ˆ τ ±Nt
α/2,n−1
S
p
s
t
donde: ˆ τ = 4, 666.6667, N = 10,000, t
α/2,n−1
= Z
α/2
= Z
0,05
= 1.645 y S
p
= 0.0276
Por lo tanto:
4666,6667± (10, 000)(1,645)(0,0276)
4666,6667± (10, 000)(0,04539)
4666,6667± 453,9811
4, 212.7259 ≤ τ
st
≤ 5, 120.6074
El total de personas que ve televisión está entre 4212.7259 y 5120.6074, con
una confiabilidad de 90%.
f) Suponga que n = 300 es una muestra preliminar. Determine el tamaño de
muestra para estimar la media con una precisión de 0.05 y una confiabilidad
de 90%. Además, realice la asignación de n a cada estrato en forma propor-
cional al tamaño del estrato.
n =
N(Z
α/2
)
2
E
¸
h=1
p
h
q
h
Nd
2
+ (Z
α/2
)
2
E
¸
h=1
p
h
q
h
Estratos N
h
p
h
q
h
W
h
p
h
q
h
1 3,000 0.3333 0.6667 0.0667
2 5,000 0.4667 0.5333 0.1244
3 2,000 0.6667 0.3333 0.0444
Total 10,000 0.2355
donde: Z
α/2
= Z
0.05
= 1.645, d = 0.05,
E
¸
h=1
W
h
S
2
h
=
N
1
N
p
1
q
1
+
N
2
N
p
2
q
2
+
N
3
N
p
3
q
3
= 0.2356
Por lo tanto:
n =
(10000)(1.645)
2
(0.2355)
(10000)(0.05)
2
+ (1.645)
2
(0.2355)
=
6, 374.1922
25.6374
= 248.6284 per-
sonas (unidades muestrales)
99
Capítulo 4. El muestreo aleatorio estratificado
Asignación de la muestra en forma proporcional
n
1
=
N
1
N
n =
3000
10000
(249) = 75
n
2
=
N
2
N
n =
5000
10000
(249) = 125
n
3
=
N
3
N
n =
2000
10000
(249) = 50
g) Suponga que en realidad n = 300 es una muestra preliminar. Determine
el tamaño de muestra definitivo para estimar la proporción con una precisión
de ±500 y una confiabilidad de 90%. Además, haga la asignación de n a cada
estrato en forma proporcional al tamaño.
n =
N
2
(Z
α/2
)
2
E
¸
h=1
W
h
p
h
q
h
d
2
+N(Z
α/2
)
2
E
¸
h=1
W
h
p
h
q
h
donde: d = 500 y
E
¸
h=1
W
h
p
h
q
h
= 0.2356
por lo tanto:
n =
(10000)
2
(1.645)
2
(0.2355)
(500)
2
+ (10000)(1.645)
2
(0.2355)
= 249 personas (muestra)
Entonces la asignación proporcional es la misma, es decir, que la muestra
a extraer de cada estrato será de 75 del estrato 1, 124 del estrato 2 y 50 del
estrato 3.
Ejemplo 4. En la Facultad de Pedagogía se desea conocer el porcentaje y to-
tal de alumnos que han leído Cien Años de Soledad de Gabriel García Márquez.
El número total de alumnos es de N= 600, de los cuales 29% son de primer
grado (estrato 1), 25% de segundo grado (estrato 2), 23% de tercer grado (es-
trato 3) y 23% de cuarto grado (estrato 4). Se estratificó la población de esa
forma debido a que los hábitos de lectura entre los grados son diferentes. Para
estimar este porcentaje y el total se tomó una muestra aleatoria de n=40 in-
dividuos distribuidos de la siguiente manera: n
1
=13 del estrato uno, n
2
=12 del
estrato dos, n
3
=8 del estrato tres y n
4
=7 del estrato 4. Los alumnos que han
leído el libro fueron 7, 6, 5 y 5 en el estrato 1, 2, 3 y 4, respectivamente.
a) Realice la estimación de la proporción estratificada.
p
st
=
1
N
(N
1
p
1
+N
2
p
2
)
donde: N = 600, N
1
= 174, N
2
= 150, N
3
= 138, N
4
= 138,
100
p
1
=
n
1
¸
i=1
n
1
=
7
13
= 0.5385,
p
2
=
n
2
¸
i=1
n
2
=
6
12
= 0.5454,
p
3
=
n
3
¸
i=1
n
3
=
5
8
= 0.625,
p
4
=
n
4
¸
i=1
n
4
=
5
7
= 0.71428
Por lo tanto:
p
st
=
1
600
(174(0.5385) +150(0.500) +138(0.625) +138(0.7143)) = 0.5892
ó 58.92% alumnos leyeron el libro
b) Estime el total estratificado.
ˆ τ = Np
st
donde: N = 600 y p
st
= 0.5892
Por lo tanto:
ˆ τ = (600)(0.5892) = 353.52
El total de alumnos de esa facultad que leyó el libro es de 353.52
c) Estime la varianza y la desviación estándar de la proporción estratificada.
S
2
p
h
=
1
N
2
(N
2
1
S
2
p
1
+N
2
2
S
2
p
2
)
donde: N = 600, N
1
= 174, N
2
= 150, N
3
= 138, N
4
= 138, p
1
= 0.5385, p
2
= 0.500,
p
3
= 0.625, p
4
= 0.7143,
S
2
p
1
=

N
2
1
−n
1
N
1

p
1
q
1
n
1

=

174 −13
174

(0.5385)(0.4615)
13
= 0.0177,
S
2
p
2
=

N
2
2
−n
2
N
2

p
2
q
2
n
2

=

150 −12
150

(0.500)(0.500)
12
= 0.02088,
S
2
p
3
=

N
2
3
−n
3
N
3

p
3
q
3
n
3

=

138 −8
138

(0.625)(0.375)
8
= 0.02759,
S
2
p
4
=

N
2
4
−n
4
N
4

p
4
q
4
n
4

=

138 −7
138

(0.7143)(0.2857)
7
= 0.02767.
Por lo tanto:
101
Capítulo 4. El muestreo aleatorio estratificado
S
2
p
h
=
1
600
2
((174)
2
(0.0177)+(150)
2
(0.0192)+(138)
2
(0.0276)+(138)
2
(0.0277))
= 0.0014
S
p
=

S
2
p
=

0.0056 = 0.0749
d) Calcular el IC para la proporción estratificada con una confianza de 90%.
p
st
±t
α/2,n−1
S
p
h
donde: p
st
= 0.5892, t
α/2,n−1
= Z
α/2
= Z
0.05
= 1.645 y S
p
= 0.0749
Por lo tanto:
0.5892± (1.645)(0.0749)
0.5892± 0.1232
0.4761 ≤ P ≤ 0.7124
Esto significa que la proporción verdadera de lectores varía entre 46.60 y 71.24
%, con una confiabilidad de 90%.
e) Estime por intervalo el total poblacional, con una confianza de 90%.
ˆ τ ±Nt
α/2,n−1
S
p
s
t
donde: ˆ τ = 353.5137, N = 600, t
α/2,n−1
= Z
α/2
= Z
0.05
= 1.645 y S
p
= 0.0749
Por lo tanto:
353.52± (600)(1.645)(0,0749)
353.52± (600)(0.0626)
353.52± 37.6108
285.710 ≤ τ
st
≤ 434.9533
El total de alumnos lectores fluctúa entre 285.710 y 434.9533, con una confia-
bilidad de 90%.
f) Suponga que n = 40 es una muestra preliminar. Determine el tamaño de
muestra para estimar la media con una precisión de 0.05 y una confiabilidad
del 90%. Además, asigne n a cada estrato en forma proporcional al tamaño del
estrato.
n =
N(Z
α/2
)
2
E
¸
h=1
p
h
q
h
Nd
2
+ (Z
α/2
)
2
E
¸
h=1
p
h
q
h
102
Estratos N
h
p
h
q
h
W
h
p
h
q
h
1 174 0.5385 0.4615 0.0721
2 150 0.500 0.500 0.0625
3 138 0.625 0.375 0.0539
4 138 0.7143 0.2857 0.0469
Total 600 0.2354
donde: Z
α/2
= Z
0.025
= 1.645, d = 0.05 y
E
¸
h=1
W
h
S
2
h
=
N
1
N
p
1
q
1
+
N
2
N
p
2
q
2
+
N
3
N
p
3
q
3
= 0.2354
por lo tanto:
n =
(600)(1.645)
2
(0.2354)
(600)(0.05)
2
+ (1.645)
2
(0.2354)
= 179 personas (muestra)
Asignación de la muestra en forma proporcional
n
1
=
N
1
N
n =
174
600
(179) = 52
n
2
=
N
2
N
n =
150
600
(179) = 45
n
3
=
N
3
N
n =
138
600
(179) = 41
n
4
=
N
4
N
n =
138
600
(179) = 41
g) Suponga que n=40 es una muestra preliminar. Determine el tamaño de
muestra para estimar la proporción con una precisión de ±30 y una confia-
bilidad de 90%. Además, haga la asignación de n a cada estrato en forma
proporcional al tamaño.
n =
N
2
(Z
α/2
)
2
E
¸
h=1
W
h
p
h
q
h
d
2
+ N(Z
α/2
)
2
E
¸
h=1
W
h
p
h
q
h
donde: d = (0.05)(600) = 30 y
E
¸
h=1
W
h
p
h
q
h
= 0.2354
por lo tanto:
n =
(600)
2
(1.645)
2
(0.2354)
(30)
2
+ (600)(1.645)
2
(0.2354)
= 179 personas (muestra)
La asignación de la muestra es la misma.
103
Capítulo 4. El muestreo aleatorio estratificado
4.7. Ejercicios
En los siguientes ejercicios estime los parámetros siguientes:
a) El IC para la proporción y el total estratificado con una confiabilidad de
95%.
b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar la proporción y el total estratificado de
tal manera que la proporción y el total sean estimados con una precisión de
5% de la proporción y el total preliminar con una confiabilidad de 95%?
Ejercicio 1. Un investigador estudió los niveles de colesterol sérico en 500
personas mayores de 45 años (300 mujeres y 200 hombres). Dado que piensa
que el género influye en la variable respuesta, estratificó a la población por
géneros. Para poder estimar la cantidad de personas que tiene altos niveles de
colesterol, tomó una muestra aleatoria simple de 120 personas: 84 hombres y
36 mujeres. Al momento de realizar las mediciones encontró que 3 mujeres y
5 hombres tenían un alto nivel de colesterol.
Ejercicio 2. Un agrónomo sembró tres variedades de manzana. En total sem-
bró 5,000 plantas distribuidas de la siguiente forma: 1,000 pertenecen a la
variedad uno, 2,500 a la dos y 1,500 a la tres. Con la finalidad de calcular el
porcentaje y el total de plantas dañadas por una plaga X, tomó una muestra
aleatoria de 250 plantas distribuidas de la siguiente manera: 100 de la primera
variedad, 100 de la segunda y 50 de la tercera. El número de plantas dañadas
por estrato es el siguiente: 15 plantas en la variedad uno, 4 en la variedad dos
y 6 en la variedad tres.
Ejercicio 3. En una población urbana de 3,500 personas del estado de Mi-
choacán, se desea conocer la cantidad de personas que utilizan Internet. Supón-
gase que en dicha población el 45% son adolescentes, el 30% niños y el resto
adultos. Para estimar el porcentaje y total de personas que utilizan Internet
se tomó una muestra aleatoria de 600 individuos distribuidos de la siguiente
manera: adolescentes: n
1
=200, niños: n
2
=150 y adultos: n
3
=250. Los resulta-
dos del número de personas que usan Internet por estrato son: 70, 30 y 40,
respectivamente.
Ejercicio 4. A un centro de salud asisten aproximadamente 7,000 personas
de los cuales 4,000 son adolescentes y 3,000 son adultos. Se desea conocer
el porcentaje de personas que hacen ejercicio diariamente y para ello se toma
una muestra aleatoria de 350 individuos (150 son adolescentes y 200 adultos)
y se les pregunta si hacen ejercicio diariamente. Los resultados obtenidos son
los siguientes: en el estrato de adolescentes, 12 hacían ejercicio diariamente,
mientras que en el de los adultos 6.
104
Capítulo 5
El muestreo sistemático
La estadística produce
resultados muy precisos.
Cuando es bien utilizada
y se respetan sus principios.
OAML
L
A aleatoridad en la selección de la muestra da sustento a los métodos re-
visados en capítulos anteriores: un proceso complicado y costoso. Por tal
motivo, podemos usar el diseño de muestreo o de encuestas por muestreo sis-
temático, que es ampliamente utilizado para reducir el proceso de selección
de la muestra. Este diseño sólo requiere fijar un intervalo y de ahí recorrer
la población seleccionando las unidades que se encuentren en el punto se-
leccionado del intervalo. Ello, evidentemente facilita el trabajo de campo en el
muestreo y reduce sustancialmente los errores que se podrían cometer en caso
de usar un procedimiento más laborioso (Pérez, 2000 [3]).
Cuando se toma la muestra de una superficie, las unidades se extraen pre-
meditadamente de un plano cartesiano imaginario. De esta manera el tiempo
que se consumirá y el costo de selección por unidad muestral será menor
(Pérez, 2000 [3]).
Muestra sistemática
Es una muestra que se obtiene con una unidad muestral por cada
k unidades en la población de tamaño N, una vez que se obtuvo el
primer elemento, el cual se selecciona aleatoriamente dentro de los
primeros k elementos que conforman el marco de muestreo. De esta
manera, tomando el valor apropiado de k, se dice que se tiene una
muestra de 1 en k.
A este tipo de muestra la denotaremos como:
Y
sy
Regularmente, N es un múltiplo de k. A cada conjunto de k unidades se le
llama grupo. Cabe señalar que existe el muestreo sistemático cuando N no es
105
Capítulo 5. El muestreo sistemático
múltiplo de k.
El siguiente cuadro muestra el esquema de un muestreo sistemático, donde
N es un múltiplo de k.
Cuadro 5.1: Esquema de un muestreo sistemático
Grupo 1 2 3 . . . k
1 1 2 3 . . . k
2 k+1 k+2 k+3 . . . 2k
3 2k + 1 2k + 2 2k + 3 . . . 3k
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
j (j −1)k + 1 (j −1)k + 2 (j −1)k + 3 . . . jk
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n (n −1)k + 1 (n −1)k + 2 (n −1)k + 3 . . . nk = N
El cuadro (5.1) contiene las unidades que se seleccionan de la población,
donde la primera unidad seleccionada (k) es aleatoria.
La mayoría de los autores coinciden en señalar que éste diseño es quizá el
procedimiento de selección de la muestra que se conoce más ampliamente, y
que además presenta ventajas sobre la selección aleatoria simple entre las que
se pueden mencionar:
Rapidez y facilidad en la selección de los elementos de la muestra en la
población.
Ninguna sucesión grande de elementos en la población queda sin repre-
sentación.
Sé está menos expuesto a errores de selección que cometen los investi-
gadores en el campo.
Bajo costo, por la simplicidad de la selección.
Mejor organización y control en el trabajo de campo.
En la práctica la estimación de la varianza sistemática del estimador bajo
estudio presenta problemas, ya que se requieren cuando menos dos selec-
ciones aleatorias por cada intervalo de selección (k), es decir, dos o más mues-
tras sistemáticas para la misma población.
Conociendo la estructura de la población la anterior dificultad puede resol-
verse considerando al muestreo sistemático equivalente al muestreo aleatorio
simple y por lo tanto la varianza sistemática será aproximadamente igual a la
varianza aleatoria simple del estimador bajo estudio.
Es conveniente y oportuno indicar en éste momento para que poblaciones
es válida esta equivalencia.
106
5.1. Tipos de población por su estructura
Población aleatoria
Una población es aleatoria (Figura 5.1) si sus elementos están aleatoriamente
ordenados con respecto a la característica de interés. Kish L. (1972)[12], Scheaf-
fer et. al. (1987)[2] y Azorin F. (1972) [15], entre otros coinciden al indicar que el
muestreo sistemático bajo éstas condiciones es equivalente al muestreo aleato-
rio simple. Esto significa que la varianza bajo MAS es aproximadamente igual a
la varianza bajo muestreo sistemático. De esta forma, el muestreo sistemático
es equivalente al muestreo simple aleatorio.
5 10 15 20
0
2
4
6
8
1
0
X
Y
Figura 5.1: La dispersión del marco de muestreo de una población aleatoria
Población ordenada
Una población es ordenada (Figura 5.2) si los elementos dentro de la población
están ordenados de acuerdo con algún esquema y con respecto a la variable
de interés. Scheaffer et. al. (1987)[?] indica que una muestra sistemática de
ésta población proporciona más información que una muestra aleatoria sim-
ple por unidad de costo, debido a que la varianza sistemática del estimador
será menor que la varianza del mismo cuado se emplea el muestreo aleatorio
simple.
Ya que no se puede obtener una estimación directa de la varianza sistemáti-
ca del estimador se puede emplear una aproximación conservadora (la cuál
es mayor de la que se esperaría) estimando la varianza del estimador con las
expresiones dadas en el muestreo aleatorio simple.
Población periódica
Una población es periódica sí los elementos de la población tienen una variación
107
Capítulo 5. El muestreo sistemático
−1 0 1 2 3
6
7
8
9
1
0
X
Y
Figura 5.2: La dispersión del marco de muestreo de una población ordenada
cíclica con respecto a la variable de interés. Scheaffer et. al. (1987) [2] señala
que una muestra sistemática extraída de ésta población proporciona menos
información que una muestra aleatoria simple por unidad de costo. Como en
las situaciones anteriores la varianza sistemática del estimador no puede esti-
marse a partir de una sola muestra sistemática. se puede aproximar su valor
empleando las expresiones correspondiente que da el muestreo aleatorio sim-
ple, pero como es de esperarse ésta aproximación subestimará la varianza
verdadera (sistemática).
Como una alternativa para que ésta subestimación sea mínima se sugiere
cambiar varias veces el punto de inicio aleatorio con el propósito de mezclar
los elementos de la población y al mismo tiempo seleccionar la correspondi-
ente muestra sistemática. En consecuencia se puede suponer que la muestra
así extraída es sistemática y proviene de una población aleatoria.
Para lecturas adicionales véase por ejemplo, Kish L. (1972)[12] cap. 4, Azorin
F. (1972)[15] cap.21 y Scheaffer et. al. (1987)[2] cap. 7.
5.2. ¿Cómo seleccionar una muestra sistemática?
Primero se debe decidir el tamaño del intervalo ”1 en k” unidades, posteri-
ormente se selecciona aleatoriamente una unidad que se encuentre dentro del
intervalo de la primera hasta la k−ésima unidad y así se continuará hasta lle-
gar a N. Pero surge la pregunta de como seleccionar la k adecuada. En general,
para una muestra sistemática de n elementos en una población de N, k debe
ser menor o igual N/n; si se desconoce N, entonces se determina un tamaño
de muestra n aproximado y así se podría obtener una k estimada (Pérez, 2000
[3]).
108
En seguida se dan formas de como elegir el valor de k dependiente del
tamaño de la población:
I. Cuando el tamaño de la población, N, es múltiplo de n, (N = kn).
Notación:
N: tamaño de la población.
n: tamaño de la muestra.
k = N/n: intervalo de selección o muestreo.
Procedimiento:
1) Seleccionar aleatoriamente un número entero i (arranque o inicio
aleatorio) comprendido entre 1 y k, (1 ≤ i ≤ k ).
2) Luego de manera rígida o sistemática, (de aquí el nombre del proced-
imiento) tomar el elemento i + k, que está k lugares del i-ésimo en la
lista, el i +2k que está 2k lugares después, y así sucesivamente hasta
completar el tamaño n de la muestra. Note que la tabla de números
aleatorios u otro mecanismo de selección se emplea una sóla vez, en
i.
Por ejemplo, si N = 1, 000 y se decide un tamaño de n = 10, entonces
k =
1,000
10
=100. Por lo tanto, el primer valor de k será un valor entre 1 y
100, el cual se elige al azar. Suponga que el primer valor es 40, entonces
los elementos que conformarán la muestra son: el 40, 140, 240, 340, 440,
540, 640, 740, 840 y el 940.
II. Cuando el tamaño de la población, N, no es múltiplo de n, (N = nk).
Notación:
N: tamaño de la población.
n: tamaño de la muestra.
k = N/n: intervalo de selección o muestreo.
En la prática es frecuente que N no sea múltiplo de n, con lo cual la
muestra sistemática al final puede tener n o n −1 elementos.
Azorin F. (1972) señala que ésta diferencia de tamaños suele no tener
importancia cuando la población es de tamaño superior a 50. Por otro
lado, Kish L. (1972) indica que éste problema se puede resolver de varias
maneras y el investigador deberá seleccionar la más conveniente. De las
soluciones propuestas por dicho autor se describe la más usual: Consid-
erar el marco de muestreo (lista) como si fuera circular.
Procedimiento:
1) Considerar el marco lista como un círculo de manera que la última
unidad sea seguida por la primera.
2) Sea k el entero más próximo a N/n.
109
Capítulo 5. El muestreo sistemático
3) Seleccionar aleatoriamente un número entero entre 1 y N.
4) En seguida seleccionar cada k-ésima unidad hasta completar los n
elementos.
Por ejemplo, supóngase que N = 300 y se decide un tamaño de n = 9,
entonces
300
9
= 33.3333 y k = 33, ya que es el entero más próximo a 33.3333.
Además, supóngase que 270 es el entero seleccionado aleatoriamente en-
tre 1 y 300. Por tanto, los elementos que conformarán la muestra son: el
270, 3, 36, 69, 102, 135, 168, 201 y el 234.
III. Cuando se desconoce el tamaño de la población (N).
En este caso puede darse un valor tentativo de k; sin embargo, podría ser
muy grande y nos daría un tamaño de muestra menor que el requerido en
el estudio. Esto no representaría un problema si se tuviera la posibilidad
de tomar nuevamente la muestra y así seleccionar la k que proporcione el
tamaño requerido. Sin embargo, existen muchos casos en los que esto no
es posible y es necesario tener una precisión dada al principio. Esto hace
difícil la tarea de estimar un valor adecuado de k (Pérez, 2000 [3]).
5.3. La estimación de la media poblacional
Una vez obtenida la muestra, el objetivo será caracterizar la población por
medio de una muestra estimando los parámetros de mayor interés, como la
media y el total poblacional. Después se procede a estimar los parámetros con
sus correspondientes varianzas y por último los intervalos de confianza.
Estimación de la media y el total de la muestra sistemática
ˆ µ = ¯ y
sY
=
n
¸
i=1
y
i
n
ˆ τ
sY
= N¯ y
sY
A continuación se presentan los estimadores correspondientes a las varian-
zas de la media y del total.
5.3.1. La varianza de la media y del total.
ˆ
V (¯ y
sY
) =

N −n
N

s
2
n

V (ˆ τ
sY
) = N
2

N −n
N

s
2
n

.
110
El estimador de la varianza del total se obtiene multiplicando el estimador
de la varianza de la media por N
2
.
5.3.2. El intervalo de confianza de la media y el total
¯ y
sY
±t
n−1,
α
2

N −n
N

s
2
n

,
donde ¯ y
sY
es la media de la muestra sistemática.
ˆ τ
sY
±t
n−1,
α
2

N
2

N −n
N

s
2
n

.
Obsérvese que la estimación de la varianza es la misma que la presenta-
da en el muestreo simple aleatorio. Sin embargo, las varianzas poblacionales
no son las mismas. La varianza del estimador de la media de una muestra
sistemática es:
V (¯ y
sY
) =
σ
2
n
[1 + (n −1)ρ
XY
] .
En la fórmula anterior aparece la medida de correlación, ρ
XY
, que indica la
relación que existe entre los elementos de la muestra. Así pues, el muestreo
sistemático estará muy ligado a este indicador. Si ρ
XY
está alrededor de uno,
quiere decir que los elementos están estrechamente relacionados y esto pro-
ducirá una mayor varianza de la media que en el muestreo simple aleatorio,
por lo que este último será el más indicado. En caso contrario, si ρ
XY
está cerca
de cero, la estimación por muestreo sistemático es la más recomendada pues
la varianza es aproximadamente igual al muestreo simple aleatorio. (Scheaffer,
1987 [2]). Por lo tanto, es importante aclarar que los estimadores muestrales
de este capítulo son apropiados cuando el coeficiente de correlación (ρ
XY
) es
casi cero, de lo contrario la muestra debe ser seleccionada bajo MAS o MAE.
5.3.3. La selección del tamaño de la muestra.
Para determinar el tamaño de la muestra para estimar a µ, se procede como
en los capítulos anteriores. Primero, se elige un valor de d, es decir, la precisión
que se está dispuesto a aceptar en las estimaciones, y se iguala al producto de
un valor de t (con sus correspondientes grados de libertad) por la desviación
estándar de dicho estimador, como se representa a continuación:
d = t
(n−1,α/2)

V (¯ y
sY
) (5.1)
111
Capítulo 5. El muestreo sistemático
El tamaño de muestra para estimar la media
Despejando n de esta ecuación (5.1), se obtiene lo siguiente:
n =
N

t
(n−1,α/2)

2
σ
2
Nd
2
+

t
(n−1,α/2)

2
σ
2
donde la varianza poblacional σ
2
se puede sustituir por la muestral.
El tamaño de muestra para estimar el total
n =
N
2

t
(n−1,α/2)

2
σ
2
d
2
+N

t
(n−1,α/2)

2
σ
2
donde la varianza poblacional σ
2
se sustituye por la muestral
5.3.4. Ejemplos
Ejemplo 1. Una línea de producción de leche ultrapasteurizada elabora N=1,000
envases por hora (cada envase contiene un litro de leche). Se desea saber si
cada envase de leche cumple con el porcentaje de grasa y para ello se toma
una muestra sistemática de 10 envases. Primero se elige k.
k =
N
n
=
1, 000
10
= 100
Esto quiere decir que se debe muestrear cada 100 envases de leche, eligiendo
aleatoriamente el primer elemento entre los primeros 100. Los datos están en
el cuadro 5.2.
Cuadro 5.2: El porcentaje de grasa por envase de leche ultrapasteurizada
Núm. de muestra % de grasa
Envase 80 2.5
Envase 180 2.6
Envase 280 2.7
Envase 380 2.6
Envase 480 2.8
Envase 580 2.9
Envase 680 3.0
Envase 780 2.6
Envase 880 2.7
Envase 980 2.8
Efectúe el proceso de estimación de los parámetros siguientes:
a) El promedio de grasa por envase.
¯ y
s
=
y
1
+ y
2
+ y
3
+ ... + y
n
n
112
¯ y
s
=
2.5 + 2.6 + 2.7 + 2.8 + 2.9 + 3 + 2.6 + 2.7 + 2.8
10
= 2.72 ó 2.72%
de grasa por envase.
b) La varianza muestral ((S
2
))
S
2
s
=
n
¸
i=1
y
2
i
−n¯ y
2
n −1
S
2
s
=
(2.5)
2
+ (2.6)
2
+ . . . + (2.7)
2
+ (2.8)
2
−(10)(2.72)
2
10 −1
S
2
s
=
0.216
9
= 0.024
c) Encontrar la varianza y la desviación estándar de la media muestral.
S
2
¯ y
s
=

1, 000 −10
1, 000

0.024
10

= 0.002376
S
¯ y
s
=

S
2
¯ y
s
=

0.002376 = 0.04874.
d) Estime la cantidad total de grasa que se encuentra en los envases.
ˆ τ = N¯ y
s
= (1, 000)(2.72) = 2,720 gramos de grasa
e) Hallar el IC para el promedio de grasa por envase de leche.
¯ y
s
±t
n−1,α/2
S
¯ y
s
donde: ¯ y
s
= 2.72, S
¯ y
s
= 0.0484 y t
n−1,α\2
= t
10−1,0.025
= 2.2622
Por lo tanto:
2.72 ±(2.2622)(0.04874)
2.72 ±0.11026
2.6097 ≤ µ ≤ 2.8303
Es decir, con una confiabilidad de 95% se estima que el promedio de grasa
por envase de leche está entre 2.6097 y 2.8303.
f) Calcular el IC para el total con una confianza de 95%.
¯ y ±Nt
n−1,α\2
S
S¯ y
donde: ˆ τ
s
= 2,720, N = 1, 000, S
S¯ y
= 0.04874 y t
n−1,α\2
= t
10−1,0.025
= 2.2622
Por lo tanto:
2,720 ±(1, 000)(2.2622)(0.04874)
113
Capítulo 5. El muestreo sistemático
2,720 ±(1, 000)(0.11026)
2,720 ±110.26919
2, 609,7329 ≤ τ
s
≤ 2, 830.2671
Es decir, con 95% de confianza se estima que el total de grasa está entre
2,609.7329 y 2,830.2671.
g) Suponga que la muestra seleccionada corresponde a una muestra prelimi-
nar de tamaño n = 10. ¿Cuál es el tamaño de muestra para estimar el promedio
de grasa por envase, con una precisión de 0.05 por ciento de grasa por envase
y una confiabilidad de 95%?.
n =
N(t
n−1,α\2
)
2
S
2
s
Nd
2
+ (t
n−1,α/2
)
2
S
2
s
donde: N = 1, 000, t
n−1,α\2
= t
10−1,0.025
= 2.2622, S
2
s
= 0.024 y d = 0.05
Por lo tanto:
n =
(1, 000)(2.2622)
2
(0.024)
(1, 000)(0.05)
2
+ (2.2622)
2
(0.024)
= 47 envases (muestra)
h) Suponga que la muestra seleccionada representa una muestra prelimi-
nar de tamaño n = 10. ¿Cuál es el tamaño de muestra para estimar el total de
envases, con una precisión de 50 envases y una confiabilidad de 95%?
n =
N(t
n−1,α\2
)
2
S
2
s
d
2
+N(t
n−1,α\2
)
2
S
2
s
donde: N = 1, 000, t
n−1,α\2
= t
12−1,0,025
= 2.2622, S
2
s
= 0.024 y d = 50
por lo tanto:
n =
(1, 000)
2
(2.201)
2
(0.024)
(50)
2
+ (1, 000)(2.201)
2
(0.024)
= 47 envases (unidades mues-
trales)
Ejemplo 2. Un tráiler transporta N = 2, 500 sacos de maíz, que están enu-
merados del 1 al 2,500. Dado que los sacos no pesan lo mismo suponga que
quiere saber el peso promedio por saco y el total de maíz que transporta dicho
tráiler. Para ello se toma una muestra sistemática de n = 20 sacos. A contin-
uación elegimos k.
k =
N
n
=
2, 500
20
= 125
Esto quiere decir que debemos muestrear cada 125 sacos de maíz eligiendo
aleatoriamente el primer elemento entre los primeros 125. Los datos se pre-
sentan en el cuadro 5.3.
a) Estime el peso promedio en kg por saco de maíz.
114
Cuadro 5.3: El peso de los sacos de maíz (Kg)
n Muestra Peso (Kg)
1 Saco 10 71.89
2 Saco 135 74.24
3 Saco 260 77.60
4 Saco 385 82.94
5 Saco 510 73.17
6 Saco 635 77.09
7 Saco 760 66.29
8 Saco 885 75.17
9 Saco 1010 64.41
10 Saco 1135 80.08
11 Saco 1260 79.82
12 Saco 1385 73.15
13 Saco 1510 72.88
14 Saco 1635 81.15
15 Saco 1760 78.29
16 Saco 1885 74.62
17 Saco 2010 83.31
18 Saco 2135 73.36
19 Saco 2260 69.75
20 Saco 2385 77.04
¯ y
s
=
y
1
+ y
2
+ y
3
+ . . . + y
n
n
¯ y
s
=
71.89 + 74.24 + 77.60 +. . . + 77.04
20
= 75.3125
b) Halle la varianza muestral (S
2
).
S
2
s
=
n
¸
i=1
y
2
i
−n¯ y
2
n −1
S
2
s
=
(71.89)
2
+ (74.24)
2
+ (77.60)
2
+. . . + (77.04) −(20)(75.3125)
2
20 −1
S
2
s
=
483.0747
19
= 25.4249
c) Calcule la varianza y la desviación estándar de la media muestral.
S
2
¯ y
s
=

N −n
N

S
2
n

=

2, 500 −20
2, 500

25.4249
20

= 1.2611
S
¯ y
s
=

S
2
¯ y
s
=

1.2611 = 1.12297
d) El total de kg que hay en los 2,500 sacos de maíz.
ˆ τ
s
= N¯ y
s
= (2, 500)(75.3125) = 188, 281.25
115
Capítulo 5. El muestreo sistemático
e) Calcule un IC para el promedio de kilogramos de maíz por saco.
¯ y
s
±t
n−1,α\2
S
¯ y
s
donde: ¯ y
s
= 75.3125, S
¯ y
s
= 1.12297 y t
n−1,α\2
= t
20−1,0.025
= 2.0930
Por lo tanto:
75.3125 ±(2.093)(1.12297)
75.3125 ±2.3504
72.9621 ≤ µ ≤ 77.6629
Es decir, con una confiabilidad de 95% se estima que el valor del promedio
de kg por saco de maíz está entre 72.9621 y 77.6629.
f) Construya un IC para el total de kg de maíz.
ˆ τ ±Nt
n−1,α\2
S
¯ y
s
donde: ˆ τ
s
= 188, 281.25, N = 2, 500, S
¯ y
s
= 1.12297 y t
n−1,α\2
= t
12−1,0.025
= 2.0930
Por lo tanto:
188, 281.25 ±(2, 500)(2.0930)(1.12297)
188, 281.25 ±(2, 500)(2.3503)
188, 281.25 ±5875.9819
182, 405.201 ≤ τ
s
≤ 194, 157.299
Es decir, se estima que el total de kg de maíz que hay en los sacos está entre
182,405.201 y 194,157.299.
g) Suponga que la muestra seleccionada corresponde a una muestra prelimi-
nar de tamaño n=20. Calcule el tamaño de muestra para estimar el promedio
por saco de maíz, con una precisión de 0.5 kg por saco y una confiabilidad de
95%.
n =
N(t
n−1,α\2
)
2
S
2
s
Nd
2
+ (t
n−1,α\2
)
2
S
2
s
donde: N = 2, 500, t
n−1,α\2
= t
20−1,0.025
= 2.0930, S
2
s
= 25.4249 y d = 0.5
Por lo tanto:
n =
(2, 500)(2.0930)
2
(25.4249)
(2, 500)(0.5)
2
+ (25.4249)(2.0930)
2
= 378.1276 sacos de maíz
(muestra)
Por lo tanto, 379 es el tamaño de muestra que tiene una precisión de ±0.5
kg de maíz y 0.95 de probabilidad de incluir en el intervalo de estimación el
promedio verdadero.
116
h) Suponga que la muestra seleccionada representa una muestra prelimi-
nar de tamaño n = 20. ¿Cuál es el tamaño de muestra para estimar el total de
kg con una precisión de 1,250 kg de maíz y una confiabilidad de 95%?
n =
N
2
(t
n−1,α/2
)
2
S
2
d
2
+ N(t
n−1,α/2
)
2
S
2
donde: N = 2, 500, t
n−1,α\2
= t
20−1,0.025
= 2.0930, S
2
s
= 25.4249 y d = 1, 250
Por lo tanto:
n =
(2, 500)
2
(2.0930)
2
(25.4249)
(1250)
2
+ (2, 500)(2.0930)
2
(25.4249)
= 378.1276 sacos de maíz
(muestra)
Ejemplo 3. Una plantación tiene 6,000 plantas de caña de azúcar. Por el a-
rreglo de las plantas (en surcos) es fácil enumerarlas del 1 al 6,000. Suponga
que se está interesado en conocer los gramos promedio de sacarosa por planta
y el total de sacarosa en la plantación. Por lo tanto, se toma una muestra sis-
temática de n = 30. Como de costumbre, hallamos k primero.
k =
N
n
=
6, 000
30
= 200
Esto quiere decir que debemos muestrear cada 200 elementos (plantas),
eligiendo aleatoriamente a la primer planta de entre las primeras 200 (cuadro
5.4).
a) Calcule el promedio muestral.
¯ y
s
=
y
1
+ y
2
+ y
3
+ . . . + y
n
n
¯ y
s
=
11.06 + 10.61 + 14.41 +. . . 12.16
30
= 13.5645 gramos de sacarosa
por planta
b) Calcule la varianza muestral (S
2
s
).
S
2
s
=
n
¸
i=1
y
2
i
−n¯ y
2
n −1
S
2
s
=
(11.06)
2
+ (10.61)
2
+ (14.41)
2
+. . . + (12.16) −(30)(13.5645)
2
30 −1
S
2
s
=
181.4551
29
= 6.2571
c) Hallar la varianza y la desviación estándar de la media muestral.
S
2
¯ y
s
=

N −n
N

S
2
n

=

3000 −30
3000

6.2538
30

= 0.2075
S
¯ y
s
=

S
2
¯ y
s
=

0.2074 = 0.4554
117
Capítulo 5. El muestreo sistemático
Cuadro 5.4: El porcentaje de sacarosa por planta
Obs. Núm. de muestra % de sacarosa
1 50 11.06
2 250 10.61
3 450 14.41
4 650 14.45
5 850 9.46
6 1,050 13.47
7 1,250 14.68
8 1,450 13.99
9 1,650 9.72
10 1,850 11.37
11 2,050 12.29
12 2,250 11.22
13 2,450 13.25
14 2,650 15.78
15 2,850 14.65
16 3,050 15.01
17 3,250 16.85
18 3,450 15.93
19 3,650 13.28
20 3,850 15.39
21 4,050 12.83
22 4,250 14.49
23 4,450 20.38
24 4,650 11.33
25 4,850 16.22
26 5,050 15.83
27 5,250 15.68
28 5,450 11.70
29 5,650 9.45
30 5,850 12.16
118
d) Calcular el total estimado de sacarosa en la población.
ˆ τ
s
= N¯ y
s
= (6, 000)(13.5645) = 81, 388.00 gramos
e) Encontrar un IC para el promedio de sacarosa por planta de caña de
azúcar.
¯ y
s
±t
n−1,α\2
S
¯ y
s
donde: ¯ y
s
= 13.5645, S
¯ y
s
= 0.4554 y t
n−1,α\2
= t
30−1,0.025
= 2.0452
Por lo tanto:
13.5645 ±(2.0452)(0.4554)
13.5645 ±0.9317
12.6330 ≤ µ ≤ 14.4963
Es decir, con una confiabilidad de 95% se estima que el valor de los gramos
promedio de sacarosa por caña de azúcar se encuentra entre 12.6330 y 14.4963.
f) Construir un IC para el total de sacarosa por planta de caña de azúcar.
ˆ τ ±Nt
n−1,α\2
S
¯ y
s
donde: ˆ τ
s
= 81, 388, N = 6, 000, S
¯ y
s
= 0.4554 y t
n−1,α\2
= t
30−1,0.025
= 2.0452
Por lo tanto:
81, 386.84 ±(6, 000)(2.0452)(0.4555)
81, 386.84 ±(6, 000)(0.9316)
81, 386.84 ±5590.1517
75, 797.76736 ≤ τ
s
≤ 86, 978.23264
Es decir, con 95% de confianza se estima que el total (gramos) de sacarosa
en las plantas de caña de azúcar está entre 75,797.76736 y 86,975.6265.
g) Suponga que la muestra seleccionada corresponde a una muestra prelimi-
nar de tamaño n=30. ¿Cuál es el tamaño de muestra necesario para estimar el
promedio de sacarosa por planta de caña de azúcar, con una precisión de 0.5
gramos de sacarosa y una confiabilidad de 95%?.
n =
N
2
(t
n−1,α\2
)
2
S
2
s
Nd
2
+ (t
n−1,α\2
)
2
S
2
s
donde: N = 6, 000, t
(n−1,α\2)
= t
(30−1,0.025)
= 2.0452, S
2
s
= 6.2538 y d = 0.5
Por lo tanto:
n =
(6, 000)(2.0452)
2
(6.2538)
(6, 00)(0.5)
2
+ (2.0452)
2
(6.2538)
= 102.8941 plantas de caña de
azúcar (muestra)
119
Capítulo 5. El muestreo sistemático
h) Suponga que la muestra seleccionada representa una muestra prelimi-
nar de tamaño n=30. ¿Cuál es el tamaño de muestra para estimar el total de
sacarosa en la población, con una precisión de 3,000 gramos y una confiabili-
dad de 95%?
n =
N(t
n−1,α\2
)
2
S
2
s
d
2
+N(t
n−1,α\2
)
2
S
2
s
donde: N = 6, 000, t
n−1,α\2
= t
30−1,0.025
= 2.0452, S
2
s
= 6,2538 y d = 3, 000
Por lo tanto:
n =
(6, 000)
2
(2.0452)
2
(6.2538)
(3, 000)
2
+ (6, 000)(2.0452)
2
(6.2538)
= 102.8941 plantas de caña
de azúcar (muestra)
Ejemplo 4. Una línea por turno produce N = 1, 500 paquetes de microproce-
sadores, donde cada paquete contiene 10 microprocesadores, y se desea es-
timar el número de microprocesadores dañados por paquete. Se toma una
muestra sistemática de n = 15 paquetes. A continuación elegimos k.
k =
N
n
=
1500
15
= 100
Esto quiere decir que se debe muestrear cada 100 elementos (paquetes).
Los datos correspondientes se presentan en el cuadro 5.5.
Cuadro 5.5: El número de microprocesadores dañados por caja
Obs. Muestra Núm. de defectuosos
1 Paquete 15 3.00
2 Paquete 115 4.00
3 Paquete 215 5.00
4 Paquete 315 2.00
5 Paquete 415 1.00
6 Paquete 515 5.00
7 Paquete 615 1.00
8 Paquete 715 1.00
9 Paquete 815 2.00
10 Paquete 915 3.00
11 Paquete 1,015 4.00
12 Paquete 1,115 3.00
13 Paquete 1,215 2.00
14 Paquete 1,315 4.00
15 Paquete 1,415 2.00
a) ¿Cuál es el promedio de microprocesadores dañados por paquete?
¯ y
s
=
y
1
+ y
2
+ y
3
+ . . . + y
n
n
120
¯ y
s
=
3 + 4 + 5 + 2 + 1 + 5 + 1 + 1 + 2 + 3 + 4 + 3 + 2 + 4 + 2
15
= 2.8
b) Calcular la varianza muestral (S
2
).
S
2
s
=
n
¸
i=1
y
2
i
−n¯ y
2
n −1
S
2
s
=
(3)
2
+ (4)
2
+ (5)
2
+ . . . (2)
2
−(15)(2.8)
2
15 −1
S
2
s
=
26.4
14
= 1.8857
c) Hallar la varianza estimada de la media muestral.
S
2
¯ y
s
=

N −n
N

S
2
n

=

1500 −15
1500

1.8857
15

= 0.1245
S
¯ y
s
=

S
2
¯ y
s
=

0.1245 = 0.3528
d) Encontrar el número total de microprocesadores dañados.
ˆ τ
s
= N¯ y
s
= (1, 500)(2.8) = 4, 200
e) Construir un IC para el promedio de microprocesadores dañados con una
confiabilidad de 95%.
¯ y
s
±t
n−1,α\2
S
¯ y
s
donde: ¯ y
s
= 2.8, S
¯ y
s
= 0.3528, t
n−1,α\2
= t
15−1,0.025
= 2.1448
Por lo tanto:
2.8 ±(2.1448)(0.3528)
2.8 ±0.7566
2.0434 ≤ µ ≤ 3.5566
Es decir, se estima que el valor promedio de microprocesadores dañados por
paquete está entre 2.0434 y 3.5566.
f) Construir un IC para el total de microprocesadores dañados con una con-
fianza de 95%.
ˆ τ ±Nt
n−1,α\2
S
¯ y
s
donde: ˆ τ
s
= 4, 200, N = 1, 500, S
¯ y
s
= 0.3528, t
n−1,α\2
= t
15−1,0.025
= 2.1448
Por lo tanto:
4, 200 ±(1, 500)(2.1448)(0.3528)
4, 200 ±(1, 500)(0.7566)
4, 200 ±1, 134.9793
121
Capítulo 5. El muestreo sistemático
3, 065.0276 ≤ τ
s
≤ 5, 334.9723
Es decir, se estima que el total de microprocesadores dañados fluctúa entre
3,065.0276 y 5,334.9723.
g) Suponga que la muestra seleccionada corresponde a una muestra pre-
liminar de tamaño n = 15. ¿Cuál es el tamaño de muestra para estimar el
promedio de microprocesadores por caja, con una precisión de ±0.5 micro-
procesadores y una confiabilidad de 95%?
n =
N(t
n−1,α\2
)
2
S
2
s
Nd
2
+ (t
n−1,α\2
)
2
S
2
s
donde: N = 1, 500, t
(n−1,α\2)
= t
(15−1,0.025)
= 2.1448, S
2
s
= 1.8857 y d = 0.5
Por lo tanto:
n =
(1, 500)(2.1448)
2
(1.8857)
(1, 500)(0.5)
2
+ (2.1448)
2
(1.8857)
= 33.9138 paquetes de micro-
procesadores (muestra)
h) Suponga que la muestra seleccionada representa una muestra prelimi-
nar de tamaño n = 15. ¿Cuál es el tamaño de muestra para estimar el total,
con una precisión de ±750 microprocesadores y una confiabilidad de 95%?
n =
N
2
(t
n−1,α\2
)
2
S
2
s
d
2
+ N(t
n−1,α\2
)
2
S
2
s
donde: N = 1, 500, t
(n−1,α\2)
= t
(12−1,0.025)
= 2.1448, S
2
s
= 1.8857 y d = 750
Por lo tanto:
n =
(1, 500)
2
(2.1448)
2
(1.8857)
(750)
2
+ (1, 500)(1.8857)(2.1448)
2
= 33.9138 paquetes de micro-
procesadores (muestra)
5.4. Ejercicios
En los siguientes ejercicios estime los parámetros siguientes:
a) El IC para la media y el total con una confiabilidad de 95%.
b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar la media y el total de tal manera que
sean estimados con una precisión de 5% de la media y el total preliminar con
una confiabilidad de 95%?
Ejercicio 1. Asistieron N = 5, 000 personas a una fiesta, las cuales fueron
enumeradas del 1 al 5,000 al momento de llegar. Se desea conocer la cantidad
promedio de cervezas ingeridas por individuo, siendo ésta la única bebida alco-
hólica en la fiesta. Para ello se tomó una muestra sistemática de 25 personas
a quienes se les preguntó el número de cervezas que ingirieron. Véase en el
122
cuadro 5.6.
Cuadro 5.6: Datos de la muestra.
Obs. No. de Muestra Ingeridas Obs. No. De Muestra Ingeridas
1 Persona 25 7.5 14 Persona 2,625 7
2 Persona 225 6 15 Persona 2,825 3
3 Persona 425 5 16 Persona 3,025 6
4 Persona 625 7 17 Persona 3,225 6
5 Persona 825 5 18 Persona 3,425 6
6 Persona 1,025 4 19 Persona 3,625 5
7 Persona 1,225 7 20 Persona 3,825 6
8 Persona 1,425 3 21 Persona 4,025 5
9 Persona 1,625 8 22 Persona 4,225 4
10 Persona 1,825 3.5 23 Persona 4,425 4.5
11 Persona 2,025 4.5 24 Persona 4,625 5
12 Persona 2,225 6 25 Persona 4,825 7
13 Persona 2,425 6.5
Ejercicio 2. Una empacadora de limones de Tecomán, Colima, empaca N =
2, 000 cajas de limones por turno. Se desea estimar el número de limones daña-
dos por caja. Se toma una muestra sistemática de n = 20. Use la información
del cuadro 5.7.
Cuadro 5.7: Datos de la muestra.
Obs. Muestra Limones dañados Obs. Muestra Limones dañados
1 Caja 10 105 11 Caja 1,010 105
2 Caja 110 106 12 Caja 1,110 109
3 Caja 210 108 13 Caja 1,210 100
4 Caja 310 100 14 Caja 1,310 110
5 Caja 410 95 15 Caja 1,410 100
6 Caja 510 110 16 Caja 1,510 100
7 Caja 610 109 17 Caja 1,610 105
8 Caja 710 100 18 Caja 1,710 105
9 Caja 810 115 19 Caja 1,810 100
10 Caja 910 80 20 Caja 1,910 100
Ejercicio 3. En una colonia de la ciudad de Guadalajara hay N = 2, 500 casas,
las cuales se enumeraron del 1 al 2,500. La Comisión Nacional del Agua desea
estimar el gasto promedio de agua en cientos de litros por casa. Para ello tomó
una muestra sistemática de n = 12. Use la información del cuadro 5.8.

Cientos de litros
Ejercicio 4. En una empresa que se dedica a la digitalización de documentos,
se escanea N = 1, 500 cajas por día. Se desea conocer la cantidad de Docu-
mentos no Escaneados Adecuadamente (DNEA), por lo que se enumeraron las
123
Capítulo 5. El muestreo sistemático
Cuadro 5.8: Datos de la muestra.
Obs. No. de Muestra Litros

Obs. No. De Muestra Litros
1 Medidor casa no. 2300 2.5 7 Medidor casa no. 1048 2.8
2 Medidor casa no. 8 2.2 8 Medidor casa no. 1258 2.6
3 Medidor casa no. 216 2.7 9 Medidor casa no. 1464 2.5
4 Medidor casa no. 424 2.9 10 Medidor casa no. 1672 2.4
5 Medidor casa no. 632 2.4 11 Medidor casa no. 1880 3
6 Medidor casa no. 840 2.2 12 Medidor casa no. 2088 2.9
cajas del 1 al 1,500 y se tomó una muestra n = 15 cajas. Véase la información
del cuadro 5.9.
Cuadro 5.9: Datos de la muestra.
Obs. No. de Muestra DNEA Obs. No. de Muestra DNEA
1 Caja no. 60 2 9 Caja no. 860 5
2 Caja no.160 3 10 Caja no. 960 2
3 Caja no. 260 2 11 Caja no. 1060 3
4 Caja no. 360 4 12 Caja no. 1160 3
5 Caja no. 460 2 13 Caja no. 1260 2
6 Caja no. 560 3 14 Caja no. 1360 2
7 Caja no. 660 1 15 Caja no. 1460 4
8 Caja no. 760 4
5.5. La estimación de la proporción poblacional
Al igual que en los métodos anteriores, en ocasiones se desea estimar una
proporción, es decir, el objetivo es estimar la frecuencia de una característi-
ca en particular. De esta forma, la observación que posea la característica de
interés tomará el valor de 1 o 0 de otro modo. No es difícil justificar que la
variable medida tenga una distribución binomial con parámetros n y p, donde
n representa el tamaño de la muestra y p la proporción o frecuencia relativa
de éxitos en las n observaciones. Las ecuaciones que se presentarán a con-
tinuación son idénticas a las expuestas en la sección dedicada a proporciones
en el capítulo de muestreo simple aleatorio y poseen las mismas propiedades
estadísticas. Sin embargo, las varianzas de las poblaciones no necesariamente
son las mismas en ambos casos. Si nos referimos a una muestra sistemática
proveniente de una población aleatoria con un tamaño poblacional grande, las
varianzas pueden llegar a ser las mismas (Scheaffer, 1987 [2]).
5.5.1. El estimador de la proporción y el total
p
s
= ¯ y
s
=
n
¸
i=1
y
i
n
(5.2)
124
τ
s
= Np
s
(5.3)
5.5.2. La varianza estimada de la proporción y el total sis-
temático
S
2
p
s
=

N −n
N

p
s
q
s
n

(5.4)
S
2
τ
s
= N
2

N −n
N

p
s
q
s
n

(5.5)
donde q
s
= 1 −p
s
.
Por último, para estos estimadores (5.4 y 5.5) presentamos intervalos de
confianza, que nos indican los límites de la proporción y el total con una con-
fiabilidad de (1 −α) por ciento.
5.5.3. El intervalo de confianza para la proporción y el total
sistemático
p
s
±t
(n−1,α\2)

N −n
N

p
s
q
s
n

ˆ τ
s
±t
(n−1,α\2)
N

N −n
N

p
s
q
s
n

5.5.4. La selección del tamaño de muestra para la propor-
ción y el total
Para determinar el tamaño de muestra que estime p
s
o τ
s
se elige una pre-
cisión que estamos dispuestos a aceptar. Es decir,
d = t
(n−1,α/2)

S
2
p
s
, (5.6)
El tamaño de muestra para estimar la proporción
Despejando n de esta ecuación (5.6), obtenemos:
n =
N

t
(n−1,α/2)

2
p
s
q
s
Nd
2
+

t
(n−1,α/2)

2
p
s
q
s
Para fines prácticos la varianza poblacional se sustituye por la varianza mues-
tral.
125
Capítulo 5. El muestreo sistemático
El tamaño de muestra para estimar el total
n =
N
2

t
(n−1,α/2)

2
p
s
q
s
d
2
+ N

t
(n−1,α/2)

2
p
s
q
s
La varianza poblacional la podemos sustituir por la muestral, con fines prácti-
cos.
5.5.5. Ejemplos
Ejemplo 1. La administración de la Universidad de Colima desea conocer
la cantidad de alumnos que están satisfechos por las mejoras y los logros al-
canzados por el presidente de México. Para realizar dicha encuesta se elegirán
k alumnos entre los 10,000 estudiantes de la Universidad de Colima. Se pre-
tende obtener una muestra de 18 alumnos. A continuación obtenemos k:
k =
N
n
=
10, 000
18
= 555.5556
Dado que N no es multiplo de n por lo tanto k = 556, el entero más cercano.
Por ello, el primer alumno que será encuestado se elegirá aleatoriamente entre
el primero y el 10,000. Los datos se presentan en el Cuadro 5.10.
Cuadro 5.10: Los alumnos satisfechos e insatisfechos.
No. de alumno Respuesta
422 0
978 1
1,534 1
2,090 1
2,646 0
3,202 1
3,758 0
4,314 0
4,870 1
5,426 0
5,982 1
6,538 1
7,094 1
7,650 0
8,206 0
8,762 1
9,318 0
9,874 0
a) Determine la proporción verdadera de los alumnos satisfechos con el tra-
bajo del presidente.
126
p
s
=
n
¸
i=1
y
i
n
=
a
n
=
9
18
= 0.5 ó 50% de alumnos satisfechos
q
s
= 1 −p
s
= 1 −0.5 = 0.5 ó 50% de alumnos insatisfechos
b) La desviación estándar de la proporción muestral (S
p
).
S
p
s
=

N −n
N

p
s
q
s
n

donde: N = 10, 000, n = 18, p
s
= 0.5 y q
s
= 0.5
Por lo tanto:
S
p
s
=

10, 000 −18
10, 000

(0.5)(0.5)
18

=

(0.9982)(0.0139) =

0.9982 = 0.1177
c) Construya un IC de 95% para la proporción verdadera.
p
s
±t
n−1,α/2
S
p
s
donde: p
s
= 0.5, S
p
s
= 0.1177 y t
n−1,α\2
= t
17,0.025
= 2.1098
Por lo tanto:
0.5 ±(2.1098)(0.1177)
0.5 ±0.2484
0.2516 ≤ P
s
≤ 0.7484
Con 95% de confianza se estima que la proporción verdadera de alumnos
satisfechos está entre 0.2516 y 0.7484, es decir, entre 25.163 y el 74.84%.
d) Realice la estimación puntual del total verdadero de alumnos satisfechos.
ˆ τ = Np
s
donde: N = 10, 000 y p
s
= 0.5
Por lo tanto:
ˆ τ = (10, 000)(0.5) = 5, 000
e) Estime por intervalo del total verdadero de alumnos satisfechos, con una
confiabilidad de 95%.
ˆ τ ±t
(n−1,α\2)
NS
p
s
donde: N = 5, 000, p
s
= 0.1177, N = 10, 000 y t
(n−1,α\2)
= t
(17,0.025)
= 2.1098
Por lo tanto:
5, 000 ±(10, 000)(2.1098)(0.1177)
5, 000 ±(10, 000)(0.2484)
500 ±248.4
127
Capítulo 5. El muestreo sistemático
2, 515.7973 ≤ τ
s
≤ 7, 484.2027
Por lo tanto, el total de alumnos satisfechos está entre 2,515.7973 y 7,484.2027.
f) Suponga que n = 18 alumnos es una muestra preliminar. ¿Cuál es el
tamaño de muestra necesario para estimar la proporción verdadera con una
precisión de 15% de la proporción preliminar y una confiabilidad de 95%?
n =
N(t
(n−1,α\2)
)
2
p
s
q
s
Nd
2
+ (t
(n−1,α\2)
)
2
p
s
q
s
donde: N = 10, 000, p
s
= 0.5, q
s
= 0.5, t
(n−1,α\2)
= t
(17,0.025)
= 2.1098 y d = (0.15)(p
s
) =
(0.15)(0.5) = 0.075
Por lo tanto:
n =
(10, 000)(2.1098)
2
(0.5)(0.5)
(10, 000)(0.075)
2
+ (2.1098)
2
(0.5)(0.5)
= 194 por alumnos (mues-
tra)
g) Suponga que n = 18 estudiantes es una muestra preliminar. ¿Cuál es el
tamaño de muestra necesario para estimar el total con una precisión de 15%
del total preliminar y una confiabilidad de 95%?
n =
N
2

t
(n−1,α\2)

2
p
s
q
s
d
2
+N

t
(n−1,α\2)

2
p
s
q
s
donde:
N = 10, 000, p
s
= 0.5, q
s
= 0.5, t
(n−1,α\2)
= t
(17,0.025)
= 2.1098 y d = (0.15)(10, 000)(0.5) =
750
Por lo tanto:
n =
(10, 000)
2
(2.1098)
2
(0.5)(0.5)
(750)
2
+ (10, 000)(2.1098)
2
(0.5)(0.5)
= 194 alumnos (muestra)
Ejemplo 2. La Secretaría de Salud del estado de Colima está interesada en
conocer la cantidad de colimenses que al menos en una ocasión se ha enfer-
mado de dengue. Supóngase que N = 8, 000 personas y se pretende encuestar
a 16 personas. El primer paso es estimar k:
k =
N
n
=
8000
16
= 500
Esto significa que a la primera persona que se le preguntará será elegida
aleatoriamente entre 1 y 500, consecutivamente cada 500 se tomará a otra
persona ( véase en el Cuadro 5.11).
a) Realice la estimación puntual de la proporción de colimenses que han
padecido dengue.
128
Cuadro 5.11: Los colimenses que al menos en una ocasión se han enfermado
de dengue.
Núm. de personas Respuesta
187 0
687 1
1,187 0
1,687 0
2,187 0
2,687 0
3,187 1
3,687 1
4,187 0
4,687 0
5,187 0
5,687 1
6,187 0
6,687 0
7,187 0
7,687 0
p
s
=
n
¸
i=1
y
i
n
=
a
n
=
4
16
= 0.25 ó 25% de colimenses han padeci-
do dengue
q
s
= 1 −p
s
= 1 −0.25 = 0.75 ó 75% que no han padecido la enfer-
medad
b) Halle la desviación estándar de la proporción muestral (S
p
S
).
S
p
s
=

N −n
N

p
s
q
s
n

donde: N = 8, 000, n = 16, p
s
= 0.25 y q
s
= 0.75
Por lo tanto:
S
p
s
=

8, 000 −16
8, 000

(0.25)(0.75)
16

=

(0.998)(0.0117188) = 0.1081
c) Calcule un IC de 95% para la proporción verdadera.
p
s
±t
(n−1,α\2)
S
p
s
donde: p
s
= 0.25, S
p
s
= 0.01081 y t
(n−1,α\2)
= t
(15,0.025)
= 2.1314
Por lo tanto:
129
Capítulo 5. El muestreo sistemático
0.25 ±(2.1314)(0.1081)
0.25 ±0.2305
0.0195 ≤ P
s
≤ 0.4805
Por lo tanto, la proporción verdadera de colimenses que ha padecido dengue
alguna vez en su vida está entre 0.0195 y 0.4805, es decir, entre 1.95 y 48.05
por ciento.
d) Determine la estimación puntual del total verdadero de colimenses que
han padecido dengue alguna vez.
ˆ τ = Np
s
donde: N = 8, 000 y p
s
= 0.25
Por lo tanto:
ˆ τ = (8, 000)(0.25) = 2, 000 colimenses
e) Encuentre por intervalo del total verdadero de colimenses que ha padeci-
do dengue, con una confiabilidad de 95%.
ˆ τ ±t
(n−1,α\2)
NS
p
s
donde: ˆ τ = 2, 000, p
s
= 0.25 y N = 8, 000, t
(n−1,α\2)
= t
(15,0.025)
= 2.1314
Por lo tanto:
2, 000 ±(8000)(2.1314)(0.1081)
2, 000 ±(8, 000)(0.2305)
2, 000 ±1844.0
155.9574 ≤ τ
s
≤ 3844.0426
De ahí que el total de colimenses que han padecido dengue alguna vez en
su vida está entre 155.9574 y 3,844.0426.
f) Suponga que los datos conformaron una muestra preliminar. ¿Cuál es el
tamaño de muestra necesario para estimar la proporción verdadera con una
precisión de 0.075 y una confiabilidad de 95%?
n =
N(t
(n−1,α\2)
)
2
p
s
q
s
Nd
2
+ (t
(n−1,α\2)
)
2
p
s
q
s
donde: N = 8, 000, p
s
= 0.25, q
s
= 0.75, t
n−1,α\2
= t
15,0.025
= 2.1314 y d = 0.075
Por lo tanto:
n =
(8, 000)(2.1314)
2
(0.25)(0.75)
(8, 000)(0.075)
2
+ (2.1314)
2
(0.25)(0.75)
= 149 colimenses (unidades mues-
trales)
g) Suponga que n = 16 es una muestra preliminar. ¿Cuál es el tamaño de
130
muestra necesario para estimar el total con una precisión de 600 y una con-
fiabilidad de 95%?
n =
N
2
(t
(n−1,α\2)
)
2
p
s
q
s
d
2
+ N(t
(n−1,α\2)
)
2
p
s
q
s
donde: N = 8, 000, p
s
= 0.25, q
s
= 0.75, t
n−1,α\2
= t
15,0.025
= 2.1314 y d = 600
por lo tanto:
n =
(8, 000)
2
(2.1314)
2
(0.25)(0.75)
(600)
2
+ (8, 000)(2.1314)
2
(0.25)(0.75)
= 149 colimenses (mues-
tra)
Ejemplo 3. Se tiene una población de 300 estudiantes y se pretende saber
cuántos de ellos poseen licencia para conducir. Para realizar la estimación se
toma una muestra sistemática de 19 estudiantes. A continuación obtenemos k:
dado que
N
n
=
300
19
= 15.7895, entonce k = 16
Dado que N no es multiplo de n por ello k = 16 (el entero más cercano) y el
primer elemento se elige al azar entre el 1 y 300. La encuesta arrojó los datos
que están en el Cuadro 5.12.
Cuadro 5.12: Los estudiantes que tienen licencia para conducir
Núm. de estudiantes Respuesta
11 0
27 1
43 0
59 0
75 0
91 1
107 1
123 1
139 0
155 0
171 0
187 0
203 1
219 0
235 1
251 0
267 1
283 0
299 1
a) Realice la estimación puntual para la proporción de estudiantes que
cuentan con una licencia para conducir.
131
Capítulo 5. El muestreo sistemático
p
s
=
n
¸
i=1
y
i
n
=
a
n
=
8
19
= 0.4211 ó 42.11% de estudiantes con li-
cencia
q
s
= 1 −p
s
= 1 −0.4211 = 0.5789 ó un 57.89% sin licencia
b) La desviación estándar de la proporción muestral (S
p
).
S
p
s
=

N −n
N

p
s
q
s
n

donde: N = 300, n = 19, p
s
= 0.4211 y q
s
= 0.5789
Por lo tanto:
S
p
s
=

300 −19
300

(0.4211)(0.5789)
19

=

(0.936)(0.0120094)
=

0.0120094 = 0.1096
c) Calcule un IC de 95% para la proporción verdadera.
p
s
±t
(n−1,α\2)
S
p
s
donde: p
s
= 0.4211, S
p
s
= 0.1096 y t
(n−1,α\2)
= t
(18,0.025)
= 2.101
Por lo tanto:
0.4211 ±(2.101)(0.1096)
0.4211 ±0.2303
0.1907 ≤ P
s
≤ 0.6514
Lo anterior significa que la proporción verdadera de estudiantes que cuen-
tan con una licencia para conducir está entre 0.1907 y 0.6514, es decir, entre
19.07 y el 65.14%.
d) La estimación puntual del total verdadero de estudiantes que tienen una
licencia para conducir.
ˆ τ = Np
s
donde: N = 300 y p
s
= 0.4211
Por lo tanto:
ˆ τ = (300)(0.4211) = 126.3158
e) Construya un IC para el total verdadero de estudiantes que cuentan con
licencia para conducir, con una confiabilidad de 95%.
ˆ τ ±t
(n−1,α\2)
NS
p
s
donde: ˆ τ = 126.3158, N = 300, S
p
s
= 0.1096 y t
(n−1,α\2)
= t
(18,0.025)
= 2.101
132
Por lo tanto:
126.3158 ±(300)(2.101)(0.1096)
126.3158 ±(300)(0.2303)
126.3158 ±69.0931
57.2227 ≤ τ
s
≤ 195.4089
f) Suponga que n = 19 estudiantes es una muestra preliminar. ¿Cuál es el
tamaño de muestra necesario para estimar la proporción verdadera con una
precisión de 10% de la proporción preliminar y una confiabilidad de 95%?
n =
N(t
(n−1,α\2)
)
2
p
s
q
s
Nd
2
+ (t
(n−1,α\2)
)
2
p
s
q
s
donde: N = 300, p
s
= 0.4211, q
s
= 0.5789, t
(n−1,α\2)
= t
(18,0.025)
= 2.101 y d =
(0.10)(p) = (0.10)(0.4211) = 0.04211
Por lo tanto:
n =
(300)(2.101)
2
(0.4211)(0.5789)
(300)(0.04211)
2
+ (2.101)
2
(0.4211)(0.5789)
= 201 estudiantes (muestra)
g) Suponga que n = 19 estudiantes es una muestra preliminar. Por lo tanto,
¿cuál es el tamaño de muestra necesario para estimar el total verdadero con
una precisión de 10% del total preliminar y una confiabilidad de 95%?
n =
N
2
(t
(n−1,α\2)
)
2
p
s
q
s
d
2
+ N(t
(n−1,α\2)
)
2
p
s
q
s
donde: N = 300, p
s
= 0.4211, q
s
= 0.5789, t
(n−1,α\2)
= t
(18,0.025)
= 2.101 y d =
(0.10)(300)(0.42) = 12.633
Por lo tanto:
n =
(300)
2
(2.101)
2
(0.4211)(0.5789)
(12.633)
2
+ (300)(2.101)
2
(0.4211)(0.5789)
= 201 estudiantes (mues-
tra)
Ejemplo 4. Con la finalidad de saber la necesidad de implementar una cam-
paña de vacunación, el IMSS desea conocer cuantos de sus asegurados con-
trajeron gripe o tos por lo menos una vez en los últimos 6 meses. Tiene 12,000
pacientes, de los cuales decide tomar una muestra de 22 pacientes (cuadro
5.13)
N
n
=
12000
22
= 545.4545 ⇒k = 545
De igual forma como N no es multiplo de n por ello k = 545 y el primer ele-
mento se elige al azar de entre el 1 y 12,000.
a) La estimación puntual de la proporción.
133
Capítulo 5. El muestreo sistemático
Cuadro 5.13: Los asegurados que contrajeron gripe o tos por lo menos una vez
en los últimos seis meses
Núm. de paciente Respuesta
341 0
886 0
1,431 0
1,976 1
2,521 0
3,066 0
3,611 1
4,156 1
4,701 1
5,246 0
5,791 1
6,336 0
6,881 0
7,426 0
7,971 0
8,516 0
9,061 1
9,606 0
10,151 1
10,696 1
11,241 0
11,786 0
p
s
=
n
¸
i=1
y
i
n
=
a
n
=
8
22
= 0.3636 ó 36.4 %
q
s
= 1 −p
s
= 1 −0.36 = 0.6364 ó 63.6 %
b) La desviación estándar de la proporción muestral (S
p
s
).
S
p
s
=

N −n
N

p
s
q
s
n

donde: N = 12, 000, n = 22, p
s
= 0.36 y q
s
= 0.64
Por lo tanto:
S
p
s
=

12, 000 −22
12, 000

(0.3636)(0.6364)
22

=

(0.9982)(0.010447)
=

0.010453876 = 0.1025
c) Un IC de 95% para la proporción verdadera.
134
p
s
±t
(n−1,α\2)
S
p
s
donde: p
s
= 0.3636, S
p
s
= 0.1025 y t
(n−1,α\2)
= t
(21,0.025)
= 2.0796
Por lo tanto:
0.3636 ±(2.0796)(0.1025)
0.3636 ±0.2131
0.1505 ≤ P
s
≤ 0.5767
Por lo tanto, la proporción verdadera de asegurados que han contraído gripe o
tos en los últimos seis meses entre 15.05 y el 57.67%.
d) La estimación puntual del total.
ˆ τ = Np
s
donde: N = 12, 000 y p
s
= 0.3636
Por lo tanto:
ˆ τ = (12, 000)(0.3636) = 4, 363.6364 asegurados que han contraído
gripe o tos.
e) Un IC para el total verdadero de asegurados que han contraído gripe o
tos en los últimos seis meses, con una confiabilidad de 95%.
τ ±t
(n−1,α\2)
NS
p
donde: ˆ τ = 4, 363.6364, p
s
= 0.1025, N = 12, 000 y t
(n−1,α\2)
= t
(21,0.025)
= 2.0796
Por lo tanto:
4, 363.6364 ±(12, 000)(2.0796)(0.1025)
4, 363.6364 ±(12, 000)(0.2131)
4, 363.6364 ±2, 557.908
1, 806.5790 ≤ τ
s
≤ 6, 920.6937
f) Suponga que 22 asegurados constituyen una muestra preliminar. ¿Cuál
es el tamaño de muestra necesario para estimar la proporción verdadera con
una precisión de 10% de la proporción preliminar y una confiabilidad de 95%?
n =
N
2
(t
(n−1,α\2)
)
2
p
s
q
s
d
2
+ N(t
(n−1,α\2)
)
2
p
s
q
s
donde: N = 12, 000, p
s
= 0.3636, q
s
= 0.6364, t
(n−1,α\2)
= t
(21,0.025)
= 2.0796 y
d = (0.10)(p) = (0.10)(0.3636) = 0.03636
por lo tanto:
n =
(12, 000)(2.0796)
2
(0.3636)(0.6364)
(12, 000)(0.03636)
2
+ (2.0796)
2
(0.3636)(0.6364)
= 713 asegurados
(muestra)
135
Capítulo 5. El muestreo sistemático
g) Suponga que n = 22 asegurados en realidad es una muestra preliminar.
Por lo tanto, ¿cuál sería el tamaño de muestra necesario para estimar el total
con una precisión de 10% del total preliminar y una confiabilidad de 95%?
n =
N
2
(t
(n−1,α\2)
)
2
pq
d
2
+N(t
(n−1,α\2)
)
2
pq
donde: N = 12, 000, p
s
= 0.3636, q
s
= 0.6364, t
(n−1,α\2)
= t
(21,0.025)
= 2.0796 y
d = (0.10)(12, 000)(0.3636) = 436.32
Por lo tanto:
n =
(12, 000)
2
(2.07966)
2
(0.3636)(0.6364)
(436.32)
2
+ (12, 000)(2.0796)
2
(0.3636)(0.6364)
= 713 asegurados
(muestra)
5.6. Ejercicios
En los siguientes ejercicios estime los parámetros siguientes:
a) El IC para la proporción y el total con una confiabilidad de 95%.
b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar la proporción y el total de tal manera
que sean estimados con una precisión de 6% de la proporción y el total pre-
liminar con una confiabilidad de 95%?
Ejercicio 1. Una empresa constructora tiene empleados a N = 1, 200 albañiles
para una mega construcción. Con la finalidad de estimar el porcentaje de al-
bañiiles a los que les gusta la cerveza, se toma una muestra sistemática de
n = 12 albañiles. Los resultados se presentan en el cuadro (5.15).
Cuadro 5.15: Albañiles que consumen cerveza
Obs. No. Muestra Consume Obs. No. Muestra Consume
2 7 0 7 607 1
1 107 1 8 707 0
3 207 0 9 807 1
4 307 1 10 907 1
5 407 0 11 1007 1
6 507 1 12 1107 1
Ejercicio 2. Una empresa que produce N = 5, 000 colchones por semana, de-
cide tomar una muestra sistemática de n = 10 colchones, el objetivo es estimar
el porcentaje de colchones que no cumplen con los requerimientos de calidad.
Use la información del cuadro (5.16).
136
Cuadro 5.16: Muestra de colchones.
Obs. No. Muestra Cumple Obs. No. Muestra Cumple
1 210 1 6 2710 1
2 710 1 7 3210 1
3 1210 0 8 3710 1
4 1710 0 9 4210 1
5 2210 1 10 4710 1
Ejercicio 3. La embajada Francesa en México desea conocer el porcentaje de
colimenses que han visitado Francia, supóngase que la población del estado
de colima es de N = 10, 000 personas de las cuales se toma una muestra sis-
temática de n = 20 individuos. Use la información del cuadro (5.17).
Cuadro 5.17: colimenses que han visitado Francia.
Obs. No. Muestra Respuesta Obs. No. Muestra Respuesta
1 300 0 11 5300 0
2 800 0 12 5800 0
3 1300 1 13 6300 0
4 1800 0 14 6800 1
5 2300 1 15 7300 0
6 2800 0 16 7800 0
7 3300 1 17 8300 1
8 3800 0 18 8800 0
9 4300 1 19 9300 0
10 4800 0 20 9800 1
Ejercicio 4. La Secretaría de Turismo de México desea conocer el porcenta-
je de colimenses que han visitado la ciudad maya de Palenque, Chiapas. Se
supone que la población del estado de Colima es de N = 10, 000 personas. De
esta población se extrae la muestra sistemática de n = 10 individuos. Use la
información del cuadro (5.18).
Cuadro 5.18: colimenses que han visitado Palenque, Chiapas.
Obs. No. Muestra Respuestas Obs. No. Muestra Respuestas
1 100 0 6 5100 0
2 1100 0 7 6100 0
3 2100 1 8 7100 0
4 3100 0 9 8100 0
5 4100 1 10 9100 0
137
Capítulo 5. El muestreo sistemático
138
Capítulo 6
El muestreo por conglomerados en
una etapa
Nunca antes en su historia,
la estadística había sido
tan querida y repudiada.
Tan querida por ser útil,
objetiva y muy precisa.
Repudiada, por compleja,
laboriosa e ingeniosa.
OAML
E
N el estudio del diseño de encuestas o muestreos existen diferentes op-
ciones para estimar un parámetro. Esas opciones pueden ser diferentes
en cuanto a costo, precisión o facilidad de aplicación se refiere. En ocasiones
resulta absurdo intentar aplicar alguna de ellas a una población con ciertas
características. Por esto, ahora presentamos otro diseño de muestreo, que pro-
porciona herramientas valiosas.
En los diseños de encuestas las unidades muestrales se pueden definir de
diferentes formas. En el caso del muestreo por conglomerados, que revisamos
en este capítulo, a diferencia de los anteriores, las unidades muestrales (aho-
ra llamadas unidades de muestreo primarias o conglomerados) están consti-
tuidas por varios elementos (o unidades de muestreo secundarias); en estos
últimos se realizará la medición, mientras que los primeros nos auxilian para
hacer la selección aleatoria. Este es el principio del diseño.
Definición: La muestra por conglomerados
Una muestra obtenida aleatoriamente de coglomerados (de la misma
forma que en el muestreo simple aleatorio), en donde a las unidades
de muestreo primarias definidas les llamaremos conglomerados,
las cuales son grupos de elementos (o unidades de muestreo
secundarias), sobre las que se hará la medición o evaluación de la
característica de interés (Pérez, 2000 [3]). Es decir, en éste diseño se
extrae bajo MAS una muestra de tamaño n de conglomerados donde
cada conglomerado es una colección de elementos o conglomerados.
Como se sabe, si se desea realizar una selección aleatoria de unidades, debe-
mos contar con el marco de muestreo adecuado. En ocasiones no es posible
139
Capítulo 6. El muestreo por conglomerados en una etapa
tener el marco de muestreo u obtenerlo es costoso, además de que el costo del
muestreo crece al tener que medir unidades separadas entre sí por una gran
distancia física. En el muestreo por conglomerados este costo se reduce sus-
tancialmente, ya que al levantar la información de elementos contiguos o muy
cercanos entre sí se evita el costo de transportación y puede operarse también
aun sin tener un marco de muestreo completo.
Por ello el muestreo por conglomerados, en una, dos o más etapas, es un
diseño de muestreo efectivo para obtener una cantidad específica de informa-
ción, a un costo mínimo, cuando se presentan las siguientes situaciones:
Cuando no se encuentra disponible, no es confiable o es muy caro obtener
un marco que contenga la lista de los elementos de la población, sin em-
bargo, es posible disponer fácilmente de un marco que contenga la lista
de todos los conglomerados de la población.
Aún cuando fuese posible contar con un marco que contenga la lista de
todos los elementos de la población, la selección de una muestra aleatoria
simple ocasionaría costos excesivamente altos; esto se puede ver clara-
mente en poblaciones grandes y dispersas, es decir, el costo aumenta
como consecuencia de la distancia existente entre unidades de estudio.
6.1. ¿Qué puede ser un conglomerado?
En diseños como éste, es importante tener claro lo que será considerado
como conglomerado, ya que éstos pueden ser naturales o convenientemente
determinados. Dado que cada problema tiene características propias, entonces
la definición de conglomerados, también la tendrá. Por lo tanto, únicamente
se puede hablar de aspectos generales que es necesario que satisfagan los
conglomerados, los cuales son:
Que las unidades que conforman cada conglomerado sean lo más diferen-
tes entre sí, y además, que estén lo más próximo posible unas de otras,
es decir, que las unidades dentro de cada conglomerado sean lo más he-
terogéneas y cercas entre sí.
Que los conglomerados sean lo más similares entre sí, es decir, homogé-
neos entre sí.
Por ejemplo, en la población de un municipio deseamos conocer cierto
parámetro. Los conglomerados podrían agrupar manzanas, colonias o barrios.
La decisión se toma de acuerdo con la precisión que se quiera, la información
disponible, los objetivos o cualquier criterio que sea de interés para el inves-
tigador. Si se tratara del control de calidad de cajas de artículos electrónicos
podríamos designar a las cajas como conglomerados (sitios de muestreo) o en
el caso de la evaluación nacional de salud, se elegirían hospitales, centros de
salud, etcétera (Pérez, 2000 [3]).
140
Si una encuesta por conglomerados se aplicara a cajas que contienen pro-
ductos terminados, entonces en este caso todos los conglomerados contendrían
el mismo número M de productos terminados o elementos (unidades de muestreo
secundarias), debido a la uniformidad del proceso de producción y empaque.
En este ejemplo diremos que los conglomerados son de tamaño homogéneo,
pero es evidente que los casos con estas características no son los más fre-
cuentes y que en general encontraremos conglomerados de tamaños desiguales;
es decir, las colonias no tienen el mismo número de habitantes, los sitios de
muestreo forestal tampoco contendrán el mismo número de árboles, etc. Pero
las técnicas de muestreo probabilístico cubren estas posibilidades, por lo que
no hay de que preocuparse. En el diseño de muestreo el investigador elige los
conglomerados aleatoriamente y mide todos sus elementos. Además, esos ele-
mentos quedarán automáticamente seleccionados al elegir el conglomerado en
la muestra, es decir, cada conglomerado de la muestra será censado (Cochran,
1985 [1]).
En el diseño de muestreo por conglomerados en una etapa, se asume que
todos los elementos incluidos en los conglomerados seleccionados y que con-
stituyen la muestra serán estudiados. Además, cabe señalar que entre este
diseño y el aleatorio simple existe una gran similitud en cuanto a las expre-
siones relacionadas con el tamaño de muestra, con la diferencia que el aleato-
rio simple utiliza unidades muestrales elementales, mientras que el muestreo
por conglomerados, considera grupos de unidades elementales.
6.2. Una comparación con el muestreo estratifica-
do
Muestreo estratificado Muestreo por conglomera-
dos
Mayor precisión con relación
al muestreo simple aleatorio.
Menor precisión con relación
al muestreo simple aleatorio.
Los estratos deben contener
elementos que sean muy ho-
mogéneos entre ellos.
Los conglomerados deben
contener elementos lo más
heterogéneos posible entre
ellos.
Para obtener una mayor pre-
cisión, la diferencia debe ser
grande entre estratos.
Para una mayor precisión, los
conglomerados deben ser muy
similares.
La varianza de la estimación
de la media depende de la
variabilidad de los valores
dentro del estrato.
La varianza de la estimación
de la media depende de la
variabilidad que existe entre
las medias de los conglomera-
dos.
141
Capítulo 6. El muestreo por conglomerados en una etapa
Figura 1. Comparación gráfica del muestreo estratificado vs el de
conglomerados.
En el estratificado se seleccionan algunas unidades de cada estrato. En el
muestreo por conglomerados se seleccionan algunos de ellos y de los selec-
cionados se miden todas las unidades.
6.3. Acerca del tamaño del conglomerado
Es importante resaltar que el conglomerado debe ser de un tamaño ”mode-
rado” o de tal naturaleza que todas las observaciones (observación j en el con-
glomerado i) puedan obtenerse con relativa facilidad. Sin embargo, no es difícil
imaginar situaciones en las que el conglomerado sea grande. Por ejemplo, si
los conglomerados elegidos son conjuntos de viviendas de 120 manzanas y
de ellas deben ser elegidos todos los niños menores de 6 años, el conjunto a
censar sería demasiado grande, o si el conjunto fuera un archivero y tuviera
miles de hojas y fuera necesario calcular estimaciones por hoja; en tales casos
es razonable pensar que el esquema de muestreo por conglomerados en una
etapa no es apropiado, sino otro en dos etapas, Pérez (2000) [3].
Notación
N: el número de conglomerados en la población o unidades de muestreo pri-
marias (UMP) que cubre a toda la población, sin traslapes.
n: el número de conglomerados seleccionados de una muestra simple aleato-
ria.
M
i
: el número de elementos o unidades de muestreo secundarias (UMS) en el
conglomerado, i = 1, 2, ..., N.
M =
N
¸
i=1
M
i
: el número de elementos o unidades de muestreo secundarias en
la población.
¯
M: el número promedio de UMS por UMP (o conglomerado) en la población.
τ
i
= y
i
. : el total del conglomerado i.
¯ y
i.
=
M
i
¸
j=1
y
ij
M
i
: la media a nivel de UMS del conglomerado i.
142
¯ y
.
=
N
¸
i=1
y
i.
N
: el total promedio por UMP.
τ =
N
¸
i=1
τ
i
=
N
¸
i=1
M
i
¸
j=1
y
ij
: el total de la población.
µ =
τ
M
: la media a nivel de UMS.
y
ij
= : el valor de la j-ésima UMS en el i-ésimo conglomerado.
El punto en el subíndice simboliza todas las UMS del conglomerado i. Mi
se refiere al número de UMS que contiene el conglomerado i. Pudiera darse el
caso de que se seleccione sólo una parte del conglomerado, digamos m
i
entre
las Mi UMS, lo cual nos lleva al diseño de muestreo conglomerado en dos
etapas que no está al alcance de este libro.
6.4. La estimación de una media y un total pobla-
cional con M conocida
El muestreo por conglomerados es muy conveniente cuando el costo de
llegar a las unidades primarias es muy alto con relación al costo de medir las
unidades secundarias dentro de un conglomerado. Para elegir los conglomera-
dos (UMP) que estarán en la muestra, se sigue el mismo procedimiento que
en el muestreo simple aleatorio, por lo que los estimadores de la media, µ, y el
total, τ, se obtienen de manera similar. Sin embargo, es importante observar
que los datos del muestreo por conglomerados permiten obtener estimaciones
a diferentes niveles de la población. Es decir, en una encuesta sobre los sitios
para medir la cantidad de madera de árboles, las observaciones individuales
y
ij
incluyen los volúmenes por árboles que hay, τ
i
es el volumen total del sitio
(para un conglomerado incluido en la muestra, pues se contabilizan a todos
los árboles del sitio), τ es el volumen de toda la población y µ es el volumen
promedio por árbol.
A continuación se presentan los estimadores suponiendo una muestra aleato-
ria de n conglomerados y que cada uno contiene Mi elementos (Scheaffer, 1987
[2]).
6.4.1. El estimador de la media poblacional
ˆ µ = ¯ y
c
=
n
¸
i=1
y
i.
n
¸
i=1
M
i
=
n
¸
i=1
M
i
¸
j=1
y
ij
n
¸
i=1
M
i
(6.1)
143
Capítulo 6. El muestreo por conglomerados en una etapa
6.4.2. El estimador del total poblacional
ˆ τ
c
= M¯ y
c
= M

¸
¸
¸
¸
¸
n
¸
i=1
y
i.
n
¸
i=1
M
i

= M

¸
¸
¸
¸
¸
n
¸
i=1
τ
i
n
¸
i=1
M
i

(6.2)
Debe quedar muy claro que los estimadores (6.1 y 6.2) del promedio y del
total son de UMS en toda la población (Scheaffer, 1987 [2]). Si se substituye
n por N se obtendrían los parámetros µ y τ. Se necesita la varianza de estos
estimadores para conocer la dispersión de los datos y para saber la precisión
de las estimaciones. Estas varianzas se muestran a continuación.
6.4.3. La varianza estimada de ¯ y
c
y ˆ τ
c
ˆ
V (¯ y
c
) =

N −n
N

1
n

1
¯
M
2

n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
(6.3)
ˆ
V (ˆ τ
c
) =
ˆ
V (M¯ y
c
) = M
2
ˆ
V (¯ y
c
) (6.4)
= M
2

N −n
N

1
n

1
¯
M
2

n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
=

N
¯
M

2

N −n
N

1
n

1
¯
M
2

n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
= N
2

N −n
N

1
n

n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
Al conocer los estimadores de las varianzas de ¯ y
c
y ˆ τ
c
(6.3 y 6.4) se puede
calcular sus correspondientes intervalos de confianza, lo que dará los límites
en los que se encuentran las estimaciones, es decir, una idea acerca de la
precisión de las estimaciones. Es importante mencionar que los estimadores
de las varianzas obtenidos con las ecuaciones (6.3 y 6.4) son sesgadas, pero
pueden ser aceptables si n es "grande"(digamos n > 30) y el sesgo desaparecería
si los tamaños de los conglomerados fueran iguales (todas las M
i
iguales).
6.4.4. El intervalo de confianza de la media y el total
¯ y
c
±t
(n−1,α/2)

ˆ
V (¯ y
c
) (6.5)
ˆ τ
c
±t
(n−1,α/2)

ˆ
V (ˆ τ
c
) (6.6)
144
6.4.5. La determinación del tamaño de muestra
La precisión de las estimaciones depende del tamaño de la muestra y del
modo en que esté conformada. Así pues, en el diseño por conglomerados se
busca exactamente la situación inversa al diseño estratificado ya que formare-
mos conglomerados que sean homogéneos entre ellos, pero que en su interior
mantengan una marcada heterogeneidad. Es decir, que haya valores superio-
res a la media general y otros menores a ella, de tal forma que el diseño re-
sulte casi tan preciso como la selección aleatoria. Sin embargo, en algunas
ocasiones los conglomerados ya están definidos por algún esquema y no es
posible construirlos de tal forma que el diseño sea más eficiente, lo cual rep-
resenta una desventaja en cuanto a la precisión. Por otro lado, esta condición
también puede representar una ventaja ya que al utilizar un muestreo por
conglomera-do, no requerimos de un marco de muestreo de elementos.
Obsérvese que a diferencia de los diseños anteriores, la muestra por con-
glomerados también será definida por el tamaño relativo de los conglomera-
dos. Además, el tamaño del límite para el error de estimación depende de la
variación entre los totales de conglomerados, es así que confirmamos que para
obtener límites pequeños de error de estimación debemos seleccionar conglom-
erados con la menor variación posible entre estos totales.
Supondremos que el tamaño del conglomerado es fijo y nos interesa saber
el número n de conglomerados que seleccionaremos. De la misma manera que
en los diseños anteriores, al no conocer σ
2
c
o el tamaño promedio del conglom-
erado, se complica la decisión sobre el número de conglomerados necesar-
ios para conseguir una cantidad específica de información concerniente a un
parámetro poblacional. Si este fuera el caso, usaríamos los estimadores de σ
2
c
y
¯
M que podrían estar disponibles en encuestas previas o, en todo caso, obten-
erse a través de una encuesta piloto seleccionando una muestra preliminar,
digamos n, y con esta información podemos calcular el tamaño de muestra n.
Procediendo de manera análoga a los diseños anteriores,
¸
t
(n−1,α/2)

ˆ
V (
ˆ
θ)

es el error asociado a la estimación, llamado precisión, es decir,
d =
¸
t
n−1,α/2

ˆ
V (
ˆ
θ)

, (6.7)
donde
ˆ
θ representa el estimador del parámetro de interés.
De la expresión anterior (6.7) y con
ˆ
θ = ¯ y
c
se despeja n para obtener el
tamaño de muestra.
145
Capítulo 6. El muestreo por conglomerados en una etapa
El tamaño de muestra para estimar el promedio
n =
N

t
(n−1,α/2)

2
σ
2
c
N
¯
M
2
d
2
+

t
(n−1,α/2)

2
σ
2
c
σ
2
c
es estimada por s
2
c
=
n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
Para determinar el tamaño de muestra con base en τ
c
, se procede de forma
similar a la anterior dado que V (ˆ τ
c
) = V (M¯ y
c
) = M
2
V (¯ y
c
). Así, utilizando este
resultado es fácil llegar a la siguiente ecuación para el tamaño de muestra para
estimar τ.
El tamaño de muestra para estimar el total usando M¯ y
c
n =
N
2
(t
n−1,α/2
)
2
σ
2
c
d
2
+N

t
n−1,α/2

2
σ
2
c
σ
2
c
es estimada por s
2
c
=
n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
6.4.6. Ejemplos
Ejemplo 1. La Universidad de Colima tiene 10,000 estudiantes inscritos en
220 grupos con diferente número de estudiantes. Con la finalidad de estimar
el gasto promedio por estudiante en útiles escolares, se toma una muestra
aleatoria simple de 5 grupos, y de cada grupo se le pregunta a cada integrante
sobre su gasto en útiles escolares (cuadro 6.2).
146
Cuadro 6.2: El gasto en útiles escolares por estudiante (en pesos).
Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5
104 107 96 91 113
86 106 108 84 118
114 101 114 70 105
106 97 124 79 96
74 64 103 92 119
125 109 98 131 118
114 97 96 88 113
90 102 103 96 97
98 93 124 99 127
120 121 103 100 119
97 130 105 77 115
99 90 104 69 100
112 98 99 83 80
112 107 104 70 94
104 114 100 81 113
125 89 110 67 128
93 89 102 70 92
129 72 107 112 82
81 116 102 100 124
78 111 112 104 74
121 93 116 87 122
93 67 101 81 87
114 94 106 101 89
92 79 114 94 132
107 91 94 126 94
114 114 109 102 88
101 109 91 69 134
101 109 96 78 111
98 121 99 122 141
92 112 83 73 91
103 115 102 127
79 123 123
109 136
122 114
90
94
y
1.
= 3, 094 y
2.
= 3, 184 y
3.
= 3, 238 y
4.
= 3, 302 y
5.
= 3, 716
147
Capítulo 6. El muestreo por conglomerados en una etapa
Determine lo siguiente:
a) Encontrar la media.
ˆ µ = ¯ y
c
=
n
¸
i=1
y
i.
n
¸
i=1
M
i
=
n
¸
i=1
M
i
¸
j=1
y
ij
n
¸
i=1
M
i
donde:
N = 220: es el número total de grupos en la población
n = 5: el número de grupos o conglomerados seleccionados
M = 10, 000: el total de estudiantes en la población
M
1
= 30, M
2
= 32, M
3
= 32, M
4
= 36 y M
5
= 34 :tamaño de cada conglomerado
seleccionado
Por lo tanto:
¯ y
c
=
3, 094 + 3, 184 + 3, 238 + 3, 302 + 3, 716
30 + 32 + 31 + 36 + 34
=
16, 534
163
= 101.4356
b) Hallar el total.
ˆ τ
c
= M¯ y
c
donde: M = 10, 000: el total de estudiantes en la población
¯ y
c
= 101.4356: el gasto promedio en útiles escolares por estudiante
Por lo tanto:
ˆ τ
c
= (10, 000)(101.4356)= 1, 014, 355.8282 pesos
c) Calcular la varianza y la desviación estándar de la media.
ˆ
V (¯ y
c
) =

N −n
N

1
n
¯
M
2

n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
donde:
M = 10, 000 : el total de estudiantes en la población
N = 220 : el total de grupos
n = 5: el número de grupos o conglomerados seleccionados
¯
M =
M
N
= 45.45: el número promedio de estudiantes por grupo
¯ y
c
= 101.4356: el gasto promedio en útiles escolares por estudiante
148
Por lo tanto:
ˆ
V (¯ y
c
) =

10, 000 −5
10, 000

1
(5)(45.45)
2

×
(3, 094 −(101.4356)(30))
2
+ . . . + (3, 716 −(101.4356)(34))
2
5 −1
= 4.9391

ˆ
V (¯ y
c
) =

4.9391 = 2.2224
d) Construir un IC al 90% para la media poblacional µ
c
.
¯ y
c
±t
(n−1,α/2)

ˆ
V (¯ y
c
)
donde:
¯ y
c
= 101.4356: el gasto promedio en útiles escolares por estudiante
t
(n−1,α/2)
= t
(5−1,0.1/2)
= 2.1318

ˆ
V (¯ y
c
) = 2.2224
Por lo tanto:
101.4356 ±(2.1318)(2.2224)
101.4356 ±4.7377
96.6978 ≤ µ
c
≤ 106.1734
e) Calcular un IC de 90% para el total.
ˆ τ
c
±t
n−1,α/2
ˆ
V (ˆ τ
c
)
donde: ˆ τ
c
= 1, 014, 355.8282, t
n−1,α/2
= t
5−1,0.1/2
= 2.1318,

ˆ
V (ˆ τ
c
) = M

ˆ
V (¯ y
c
) = (10, 000)(2.2224)=22, 223.861
Por lo tanto:
1, 014, 355.8282 ±(2.1318)(22, 223.861)
1, 014, 355.8282 ±47, 378.1353
966, 977.6930 ≤ τ
c
≤ 1, 061, 733.9635
f) Suponer que n = 5 grupos es una muestra preliminar. ¿Cuál es el tamaño
de muestra necesario para estimar la media poblacional con una precisión de
4% de la media preliminar y una confiabilidad de 90%?
n =
N

t
n−1,α/2

2
σ
2
c
N
¯
M
2
d
2
+

t
n−1,α/2

2
σ
2
c
donde:
σ
2
c
es estimada por s
2
c
=
n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
149
Capítulo 6. El muestreo por conglomerados en una etapa
¯ y
c
= 101.4356: el gasto promedio en útiles escolares por estudiante
N = 220 : el total de grupos
n = 5: el número de grupos o conglomerados seleccionados
¯
M =
M
N
= 45.45: el número promedio de estudiantes por grupo
t
n−1,α/2
= t
5−1,0.1/2
= 2.1318
s
2
c
=
(3, 094 −(101.4356)(30))
2
+ . . . + (3, 716 −(101.4356)(34))
2
5 −1
= 52, 209.8943
d = (0.04)(101.4356) = 4.0574
Por lo tanto:
n =
(220)(2.1318)
2
(52, 209.8943)
(220)(45.45)
2
(4.0574)
2
+ (2.1318)
2
(52, 209.8943)
= 6.7616 grupos.
g) Suponer que n = 5 grupos es una muestra preliminar. ¿Cuál es el tamaño
de muestra necesario para estimar el total poblacional con una precisión de
4% del total preliminar y una confiabilidad de 90%?
n =
N
2
(t
n−1,α/2
)
2
σ
2
c
d
2
+N

t
n−1,α/2

2
σ
2
c
donde:
σ
2
c
es estimada por s
2
c
=
n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
ˆ τ
c
= 1, 014, 355.8282
N = 220 : el total de grupos
n = 5: el número de grupos o conglomerados seleccionados
t
n−1,α/2
= t
5−1,0.1/2
= 2.1318
s
2
c
=
(3, 094 −(101.4356)(30))
2
+ . . . + (3, 716 −(101.4356)(34))
2
5 −1
= 52, 209.8943
d = (0.04)(1, 014, 355.8282) = 40, 574.2331
Por lo tanto:
n =
(220)
2
(2.1318)
2
(52, 209.8943)
(40, 574.2331)
2
+ (220)(2.1318)
2
(52, 209.8943)
= 6.7616 grupos
Ejemplo 2. La empresa Peñafiel procesa 1, 000 rejas de refresco por día. Con
la finalidad de conocer si el proceso de producción cumple con el contenido de
carbohidratos, cierto día se selecciona una muestra aleatoria simple de 6 rejas
(cuadro 6.4).
a) Estimar el promedio de carbohidratos por refresco.
ˆ µ
c
= ¯ y
c
=
n
¸
i=1
y
i.
n
¸
i=1
M
i
=
n
¸
i=1
M
i
¸
j=1
y
ij
n
¸
i=1
M
i
150
Cuadro 6.4: El contenido de carbohidratos por reja de refresco
Reja 1 Reja 2 Reja 3 Reja 4 Reja 5 Reja 6
6.8 7.1 7.1 7.8 7.7 6.7
6.6 7.4 7.3 7.9 7.5 6.9
7.1 7 6.9 7.7 7.8 6.7
7 7.4 7 7.6 7.6 6.6
6.9 8 7.1 7.6 7.8 6.8
7.4 7.2 7.3 7.6 7.9 6.6
6.9 7.5 7.3 7.4 7.8 6.8
7 7.3 7.3 7.6 7.9 7.2
7 7.8 7.2 7.6 8 6.8
6.8 7.3 7.2 7.5 7.6 7.1
7.2 7.8 7.4 7.5 7.7 6.7
7.2 7.2 7.4 7.9 7.6 7
7.2 7.4 7.1 7.3 7.4 6.7
6.8 7.5 7.2 7.7 8 6.7
7.1 7.7 6.9 7.8 8 6.7
7.1 7.5 6.4 7.4 7.8 6.8
7.2 7.5 6.9 7.7 7.6 6.7
7.1 7.6 7.5 7.3 7.9 6.7
7 7.4 7.1 7.9 7.8 6.7
7.2 7.8 7.2 7.4 7.7 6.8
6.7 7.4 7.3 7.8 7.5 6.9
7.1 8.1 7.2 7.6 8 6.8
6.7 7.5 6.9 7.7 7.8 6.6
7.2 7.8 7.2 7.7 7.6 6.9
y
1.
= 168.3 y
2.
= 180.2 y
3.
= 171.4 y
4.
= 183 y
5.
= 186 y
6.
= 162.9
donde:
n = 6: el número de rejas seleccionadas
M = 24, 000: el total de refrescos producidos en ese día
M
1
= 24, M
2
= 24, M
3
= 24, M
4
= 24, M
5
= 24 y M
6
= 24: número de refrescos por
cada reja
Por lo tanto:
¯ y
c
=
168.3 + 180.2 + 171.4 + 183 + 186 + 162.9
24 + 24 + 24 + 24 + 24 + 24+
=
1, 051.8
144
= 7.3042 car-
bohidratos promedio por refresco.
b) La estimación del total de carbohidratos producidos
ˆ τ
c
= M¯ y
c
donde:
M = 24, 000: el total de refrescos producidos en ese día
¯ y
c
= 7.3042: el contenido promedio de carbohidratos por refresco
151
Capítulo 6. El muestreo por conglomerados en una etapa
Por lo tanto:
ˆ τ
c
= (24, 000)(7.3042)= 175, 300.8 carbohidratos producidos
c) La estimación de la varianza de la media.
ˆ
V (¯ y
c
) =

N −n
N

1
n
¯
M
2

n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
donde:
M = 24, 000: el total de refrescos producidos en ese día
N = 1, 000: las rejas de refresco producidas
n = 6: el número de rejas seleccionadas
¯
M =
M
N
=
24, 000
1, 000
= 24: el número promedio de refrescos por reja
¯ y
c
= 7.3042: el contenido promedio de carbohidratos por refresco
Por lo tanto:
ˆ
V (¯ y
c
) =

24, 000 −6
24, 000

1
(6)(24)
2

×
(168.3 −(7.3042)(24))
2
+. . . + (162.9 −(7.3042)(24))
2
6 −1
= 0.0239
d) Calcular un IC de 90% para la media poblacional.
¯ y
c
±t
(n−1,α/2)

ˆ
V (¯ y
c
)
donde:
¯ y
c
= 7.3042: el contenido promedio de carbohidratos por refresco
t
n−1,α/2
= t
6−1,0.1/2
= 2.0150

ˆ
V (¯ y
c
) = 0.1546
Por lo tanto:
7.3042 ±(2.0150)(0.1546)
7.3042 ±0.3116
6.9925 ≤ µ
c
≤ 7.6158
e) Calcular un IC de 90% para el total.
ˆ τ
c
±t
n−1,α/2
ˆ
V (ˆ τ
c
)
donde: ˆ τ
c
= 175, 300.8, t
n−1,α/2
= t
6−1,0.1/2
= 2.0150

ˆ
V (ˆ τ
c
) = M

ˆ
V (¯ y
c
) = (24, 000)(0.1536) = 3, 711.5380
Por lo tanto:
175, 300.8 ±(2.0150)(3, 711.5380)
175, 300.8 ±7, 478.9287
152
167, 821.0713 ≤ τ
c
≤ 182, 778.9287
Es decir, con 90% de confianza el total de carbohidratos en la población se
ubica entre 167, 821.0713 y 182, 778.9287
f) Suponga que n = 6 rejas es una muestra preliminar. ¿Cuál es el tamaño
de muestra para estimar la media verdadera con una precisión del 4% de la
media preliminar y una confiabilidad de 90%?
n =
N

t
n−1,α/2

2
σ
2
c
N
¯
M
2
d
2
+

t
n−1,α/2

2
σ
2
c
donde:
σ
2
c
es estimada por s
2
c
=
n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
¯ y
c
= 7.3042: el contenido promedio de carbohidratos por refresco
N = 1, 000 : las rejas de refresco producidas
n = 6: el número de rejas seleccionadas
¯
M =
M
N
=
24, 000
1, 000
= 24: el número promedio de refrescos por reja
t
(n−1,α/2)
= t
(6−1,0.1/2)
= 2.0150
s
2
c
=
(168.3 −(7.3042)(24))
2
+ . . . + (162.9 −(7.3042)(24))
2
6 −1
= 83.1520
d = (0.04)(7.3042) = 0.2922
Por lo tanto:
n =
(1, 000)(2.0150)
2
(83.1520)
(1, 000)(24)
2
(0.2922)
2
+ (2.0150)
2
(83.1520)
= 6.8201 rejas
g) Suponga que n = 6 rejas es una muestra preliminar. Por tanto, ¿cuál es el
tamaño de muestra para estimar el total verdadero con una precisión del 4%
del total preliminar y una confiabilidad del 90%?
n =
N
2
(t
n−1,α/2
)
2
σ
2
c
d
2
+ N

t
n−1,α/2

2
σ
2
c
donde:
σ
2
c
es estimada por s
2
c
=
n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
ˆ τ
c
= 175, 300.8
N = 1, 000 : las rejas de refresco producidas
n = 6: el número de rejas seleccionadas
t
n−1,α/2
= t
6−1,0.1/2
= 2.0150
s
2
c
=
(168.3 −(7.3042)(24))
2
+ . . . + (162.9 −(7.3042)(24))
2
6 −1
= 83.1520
d = (0.04)(175, 300.8) = 7, 012.032
Por lo tanto:
153
Capítulo 6. El muestreo por conglomerados en una etapa
n =
(1, 000)
2
(2.0150)
2
(83.1520)
(7, 012.032)
2
+ (1, 000)(2.0150)
2
(83.1520)
= 6.8201 rejas
Ejemplo 3. El gerente del periódico Ecos de la Costa desea estimar el número
promedio de ejemplares comprados por familia por mes en el estado de Colima.
Los costos de transportes de un lugar a otro son altos, por esta razón se listan
los 4, 000 hogares del estado en 400 conglomerados geográficos (manzanas) de
10 hogares cada uno, y se selecciona una muestra aleatoria simple de 5 con-
glomerados. Se realizan las entrevistas y los resultados están en el cuadro 6.5.
Realizar los cálculos que a continuación se piden.
Cuadro 6.5: Ejemplares comprados por familia.
Manzana 1 Manzana 2 Manzana 3 Manzana 4 Manzana 5
3 4 2 2 1
3 3 1 2 2
1 1 3 1 3
3 3 1 3 1
3 2 3 1 3
2 3 1 1 1
1 4 1 2 2
3 2 2 2 5
2 3 1 2 4
3 2 3 1 4
y
1.
= 24 y
2.
= 27 y
3.
= 18 y
4.
= 17 y
5.
= 26
a) Estimación de la media.
ˆ µ
c
= ¯ y
c
=
n
¸
i=1
y
i.
n
¸
i=1
M
i
=
n
¸
i=1
M
i
¸
j=1
y
ij
n
¸
i=1
M
i
donde: n = 5: el número de conglomerados seleccionados
M = 4, 000: el total de hogares en el estado
M
1
= 10, M
2
= 10, M
3
= 10, M
4
= 10 y M
5
= 10: tamaño de cada conglomerado
seleccionado
Por lo tanto:
¯ y
c
=
24 + 27 + 18 + 17 + 26
10 + 10 + 10 + 10 + 10
=
112
50
= 2.24 ejemplares por familia
b) Estimación del total.
ˆ τ
c
= M¯ y
c
154
donde: M = 4, 000: el total de hogares en el estado
¯ y
c
= 2.24: el promedio de ejemplares comprados por familia
Por lo tanto:
ˆ τ
c
= (4, 000)(2.24)= 8, 960 ejemplares comprados
c) Estimación de la varianza y la desviación estándar de la media.
ˆ
V (¯ y
c
) =

N −n
N

1
n
¯
M
2

n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
donde:
N = 400: el número de conglomerados geográficos
n = 5: el número de conglomerados seleccionados
M = 4, 000: el total de hogares en el estado
¯
M =
M
N
=
4, 000
400
= 10: el número promedio de hogares por conglomerado
¯ y
c
= 2.24: el número promedio de ejemplares comprados por familia
Por lo tanto:
ˆ
V (¯ y
c
) =

400 −5
400

1
(5)(10)
2

(24 −(2.24)(10))
2
+ . . . + (26 −(2.24)(10))
2
5 −1
= 0.0421

ˆ
V (¯ y
c
)=

0.0421 = 0.2051
d) Un IC de 90% para la media poblacional µ
c
.
¯ y
c
±t
(n−1,α/2)

ˆ
V (¯ y
c
)
donde:
¯ y
c
= 2.24: el número promedio de ejemplares comprados por familia
t
n−1,α/2
= t
5−1,0.1/2
= 2.1318

ˆ
V (¯ y
c
) = 0.2051
Por lo tanto:
2.24 ±(2.1318)(0.2051)
2.24 ±0.4372
1.8028 ≤ µ
c
≤ 2.6772
Es decir, con un 90% de confianza el número promedio de ejemplares com-
prados por familia se ubica entre 1.8028 y 2.6772.
e) Un IC de 90% para el total.
ˆ τ
c
±t
n−1,α/2
ˆ
V (ˆ τ
c
)
155
Capítulo 6. El muestreo por conglomerados en una etapa
donde: ˆ τ
c
= 8, 960, t
n−1,α/2
= t
5−1,0.1/2
= 2.1318,

ˆ
V (ˆ τ
c
= M

ˆ
V (¯ y
c
) = (4, 000)(0.2051) = 820.4145
Por lo tanto:
8, 960 ±(2.1318)(820.4145)
8, 960 ±1, 748.9981
7, 211.0019 ≤ τ
c
≤ 10, 708.9981
Es decir, con un 90% de confianza el total de ejemplares comprados en el
estado se encuentra entre 7, 211.0019 y 10, 708.9981.
f) Suponga que n = 5 conglomerados geográficos es una muestra prelimi-
nar. ¿Cuál es el tamaño de muestra para estimar la media verdadera con una
precisión de 10% de la media preliminar y una confiabilidad de 90% ?
n =
N

t
n−1,α/2

2
σ
2
c
N
¯
M
2
d
2
+

t
n−1,α/2

2
σ
2
c
donde:
σ
2
c
es estimada por s
2
c
=
n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
¯ y
c
= 2.24: el número promedio de ejemplares comprados por familia
N = 400 : el número de conglomerados geográficos
n = 5: el número de conglomerados seleccionados
¯
M =
M
N
=
4, 000
400
= 10: el número promedio de hogares por conglomerados
t
n−1,α/2
= t
5−1,0.1/2
= 2.1318
s
2
c
=
(24 −(2.24)(10))
2
+ . . . + (26 −(2.24)(10))
2
5 −1
= 21.3
d = (0.1)(2.24) = 0.224
Por lo tanto:
n =
(400)(2.1318)
2
(21.3)
(400)(10)
2
(0.224)
2
+ (2.1318)
2
(21.3)
= 18.4051 conglomerados
g) Suponga que n=5 conglomerados es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar el total verdadero con una precisión de 10%
del total preliminar y una confiabilidad de 90% ?
n =
N
2
(t
n−1,α/2
)
2
σ
2
c
d
2
+N

t
n−1,α/2

2
σ
2
c
donde:
σ
2
c
es estimada por s
2
c
=
n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
156
ˆ τ
c
= 8, 960
N = 400: el número de conglomerados geográficos
n = 5: el número de conglomerados geográficos seleccionados
t
n−1,α/2
= t
5−1,0.1/2
= 2.1318
s
2
c
=
(24 −(2.24)(10))
2
+ . . . + (26 −(2.24)(10))
2
5 −1
= 21.3
d = (0.1)(8, 960) = 896
Por lo tanto:
n =
(400)
2
(2.1318)
2
(21.3)
(896)
2
+ (400)(2.1318)
2
(21.3)
= 18.4051 conglomerados geográ-
ficos.
Ejemplo 4. Un investigador de la U de C desea estimar el total de emigrantes
en el estado de Colima, cuya población es de 200, 000. No existe una lista
disponible de personas de toda la población, por lo tanto, el estado es dividido
en 800 localidades. Para lograr tal objetivo toma una muestra de 12 localidades
y entrevista a todos los habitantes de las 12 localidades y obtiene los resultados
del cuadro 6.6.
Cuadro 6.6: Emigrantes de las 12 localidades.
Localidad Habitantes Total de emigrantes
por localidad por localidad
1 181 y
1.
= 10
2 316 y
2.
= 20
3 249 y
3.
= 14
4 73 y
4.
= 29
5 164 y
5.
= 42
6 120 y
6.
= 20
7 171 y
7.
= 18
8 241 y
8.
= 19
9 283 y
9.
= 10
10 115 y
10.
= 23
11 142 y
11.
= 24
12 188 y
12.
= 13
a) La estimación de la media.
ˆ µ
c
= ¯ y
c
=
n
¸
i=1
y
i.
n
¸
i=1
M
i
=
n
¸
i=1
M
i
¸
j=1
y
ij
n
¸
i=1
M
i
donde:
n = 12: el número de localidades seleccionadas
M = 200, 000: los habitantes en el estado
M
1
= 181, M
2
= 316, M
3
= 249, M
4
= 73, M
5
= 164, M
6
= 120, M
7
= 171, M
8
= 241,
157
Capítulo 6. El muestreo por conglomerados en una etapa
M
9
= 283, M
10
= 115, M
11
= 142, M
12
= 188 : total de habitantes por localidad
¯ y
c
=
10 + 20 + 14 +. . . + 23 + 24 + 13
181 + 316 + 249 +. . . + 115 + 142 + 188
=
242
2, 243
= 0.1079 emigrantes en pro-
medio
b) La estimación del total.
ˆ τ
c
= M¯ y
c
donde:
M = 200, 000: los habitantes en el estado
¯ y
c
= 0.1079: el promedio de emigrantes por localidad
Por lo tanto:
ˆ τ
c
= (200, 000)(0.1079)= 21, 580 emigrantes en total
c) La estimación de la varianza y la desviación estándar de la media
ˆ
V (¯ y
c
) =

N −n
N

1
n
¯
M
2

n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
donde:
N = 800: el número de localidades en las que está dividido el estado (conglom-
erados)
n = 12: el número de localidades seleccionadas
M = 200, 000: los habitantes en el estado
¯
M =
M
N
=
200, 000
800
= 250: el número promedio de habitantes por localidad (con-
glomerado)
¯ y
c
= 0.1079: el número promedio emigrantes por localidad
Por lo tanto:
ˆ
V (¯ y
c
) =

800 −12
800

1
(12)(250)
2

(10 −(0.1079)(181))
2
+ . . . + (13 −(0.1079)(188))
2
12 −1
= 0.0003

ˆ
V (¯ y
c
)=

0.0003 = 0.0164
d) Un IC al 90% para la media poblacional.
¯ y
c
±t
(n−1,α/2)

ˆ
V (¯ y
c
)
donde:
¯ y
c
= 0.1079: el número promedio emigrantes por localidad
t
(n−1,α/2)
= t
(12−1,0.1/2)
= 1.7959

ˆ
V (¯ y
c
) = 0.0164
158
Por lo tanto:
0.1079 ±(2.7959)(0.0164)
0.1079 ±0.0295
0.0784 ≤ µ
c
≤ 0.1374
Es decir, con 90% de confianza el número promedio de emigrantes en el estado
está entre 0.0768 y 0.1374
e) Un IC al 90% para el total
ˆ τ
c
±t
n−1,α/2
ˆ
V (ˆ τ
c
)
donde:
ˆ τ
c
= 21, 580
t
(n−1,α/2)
= t
(12−1,0.1/2)
= 1.7959

ˆ
V (ˆ τ
c
= M

ˆ
V (¯ y
c
) = (200, 000)(0.0164) = 3, 280.3971
Por lo tanto:
21, 580 ±(1.7959)(3, 280.3971)
21, 580 ±5, 891.2154
15, 891.2154 ≤ τ
c
≤ 27, 471.2154
Esto significa que con 90% de confianza el total de emigrantes en el estado
se ubica entre 15, 891.2154 y 27, 471.2154.
f) Suponga que n = 12 conglomerados (localidades) es una muestra pre-
liminar. ¿Cuál sería el tamaño de muestra necesario para estimar la media
poblacional con una precisión de 10% de la media preliminar y una confiabil-
idad de 90% ?
n =
N

t
n−1,α/2

2
σ
2
c
N
¯
M
2
d
2
+

t
n−1,α/2

2
σ
2
c
donde:
σ
2
c
es estimada por s
2
c
=
n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
¯ y
c
= 0.1079: el número promedio de emigrantes por localidad
N = 800: el número de localidades en las que está dividido el estado (conglom-
erados)
n = 12: el número de localidades seleccionadas
M = 200, 000: los habitantes en el estado
¯
M =
M
N
=
200, 000
800
= 250: el número promedio de habitantes por localidad
t
n−1,α/2
= t
12−1,0.1/2
= 1.7959
s
2
c
=
(10 −(0.1079)(181))
2
+ . . . + (13 −(0.1079)(188))
2
12 −1
= 204.8415
d = (0.1)(0.1079) = 0.01079
159
Capítulo 6. El muestreo por conglomerados en una etapa
Por lo tanto:
n =
(800)(1.7959)
2
(204.8415)
(800)(250)
2
(0.01079)
2
+ (1.7959)
2
(204.8415)
= 81.5390
Por lo tanto, el tamaño de muestra requerido para estimar la media verdadera
con una precisión de 0.01079 es de n = 82 conglomerados (localidades).
g) Suponga que n = 12 conglomerados (localidades) es una muestra prelimi-
nar. ¿Cuál es el tamaño de muestra para estimar el total poblacional con una
precisión de 10% del total preliminar y una confiabilidad del 90% ?
n =
N
2
(t
n−1,α/2
)
2
σ
2
c
d
2
+N

t
n−1,α/2

2
σ
2
c
donde:
σ
2
c
es estimada por s
2
c
=
n
¸
i=1
(y
i.
− ¯ y
c
M
i
)
2
n −1
ˆ τ
c
= 21, 580
N = 800: el número de localidades en las que está dividido el estado (conglo-
merados)
n = 12: el número de localidades seleccionadas
M = 200, 000: los habitantes en el estado
¯
M =
M
N
=
200, 000
800
= 250: el número promedio de habitantes por localidad
t
n−1,α/2
= t
12−1,0.1/2
= 1.7959
s
2
c
=
(10 −(0.1079)(181))
2
+ . . . + (13 −(0.1079)(188))
2
12 −1
= 204.8415
d = (0.1)(21, 580) = 2, 158
Por lo tanto:
n =
(800)
2
(1.7959)
2
(204.8415)
(2, 158)
2
+ (800)(1.7959)
2
(204.8415)
= 81.5390
Por lo tanto, el tamaño de muestra requerido para estimar el total poblacional
con una precisión de 2, 158 es de n = 82.
6.5. Ejercicios
En los siguientes ejercicios estime los parámetros siguientes:
a) El IC para la media y el total poblacional con una confiabilidad de 95%.
b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar la media y el total poblacional de tal
manera que sean estimados con una precisión de 5% de la media y el total
preliminar con una confiabilidad de 95%?
Ejercicio 1. La Secretaría de salud cuenta con 200 hospitales distribuidos en
el territorio nacional, dentro de los cuales tiene laborando a 6, 000 médicos con
160
estudios de postgrado. Con la finalidad de medir el nivel de satisfacción en el
trabajo de los empleados, se toma una muestra aleatoria simple de 6 hospi-
tales, en cada uno de estos hospitales se realiza un censo. (El nivel de sat-
isfacción se mide de 0 (nada satisfecho) a 10 (muy satisfecho)) (cuadro (6.7)).
Cuadro 6.7: Nivel de satisfacción de los médicos en cada hospital
Hospital 1 Hospital 2 Hospital 3 Hospital 4 Hospital 5 Hospital 6
6 9 8 8 6 9
7 8 7 8 6 8
8 7 6 7 9 7
7 8 5 9 8 6
8 6 9 8 9 5
7 5 6 8 6 4
9 9 5 9 7 8
6 7 8 8 9 9
6 6 9 8 8 9
6 6 7 7 7 7
7 8 9 6 6 7
8 8 8 5 9 9
9 8 9 9 8 8
7 7 10 7 7 7
8 9 9 8 6 6
7 8 9 9 9 7
6 7 7 6 8 8
5 6 8 5 10 9
8 6 8 9 10 9
7 6 7 8 9 9
4 7 6 7 8 8
7 7 6 6 7 8
6 8 6 5 6 7
6 8 7 4 5 7
6 8 8 8 9 6
6 8 9 6
7 6 8 4
7 7 8 8
7 8 8
6 6 7
6 7 6
5 9
9
10
8
161
Capítulo 6. El muestreo por conglomerados en una etapa
Ejercicio 2. El presidente municipal de Colima desea estimar el total de
basura producida en la ciudad. Se supone que la ciudad está conformada
por 300 manzanas, y que el número de viviendas es de 10, 000. Además, con
la finalidad de medir el promedio y total de basura producida por vivienda
semanalmente, se toma una muestra aleatoria simple de n = 8 manzanas. En
cada manzana se recaba toda la basura producida por cada vivienda. Use la
información del cuadro (6.8).
Cuadro 6.8: Kg. de basura producidos por vivienda semanalmente.
Mz 1 Mz 2 Mz 3 Mz 4 Mz 5 Mz 6 Mz 7 Mz 8
40 30 38 48 35 45 49 82
60 35 29 36 38 38 35 83
30 45 65 37 48 45 28 73
40 48 82 72 65 66 25 65
60 68 88 83 70 33 29 45
50 75 95 93 35 22 79 66
48 45 49 63 40
49 65 40
65
6.6. La estimación de la media y un total cuando
se desconoce M
6.6.1. ¿Qué sucede cuando se desconoce el tamaño de la
población M?
Con la información anterior, se puede estimar la media, el total o el inter-
valo de confianza para el total poblacional. Sin embargo, para utilizar las ex-
presiones anteriores se debe conocer M, pero en ocasiones no es posible saber
ese valor. A continuación se muestran los estimadores donde no es necesario
conocer M.
Es importante mencionar que los estimadores que a continuación se pre-
sentan se recomiendan cuando los tamaños de los concloglomerados son apro-
ximadamente iguales.
6.6.2. El estimador de la media y el total poblacional
Para hallar el estimador del total y la media poblacional se recurre a la
expresión del total promedio por conglomerado (¯ y
.
):
ˆ τ
c
= N¯ y
.
(6.8)
ˆ µ
c
= ¯ y
c
=
ˆ τ
c
M
aprox
(6.9)
162
donde ¯ y
.
=
n
¸
i=1
y
i.
n
=
n
¸
i=1
τ
i
n
, M
aprox
= N
¯
M y
¯
M =
n
¸
i=1
M
i
n
.
6.6.3. La varianza estimada de la media y del total.
ˆ
V (ˆ τ
c
) =
ˆ
V (N¯ y
.
) = N
2

N −n
N

1
n

n
¸
i=1
(y
i.
− ¯ y
.
)
2
n −1
(6.10)
ˆ
V (ˆ µ
c
) =
ˆ
V (¯ y
c
) =
ˆ
V (ˆ τ
c
)
M
2
aprox
=
1
¯
M
2

N −n
N

1
n

n
¸
i=1
(y
i.
− ¯ y
.
)
2
n −1
(6.11)
Nota: recuérdese que cuando no se conoce M, entonces
¯
M =
n
¸
i=1
M
i
n
Las varianzas (6.11 y 6.10) de estos estimadores nos indican la precisión de
los mismos. Los intervalos de confianza para estos estimadores se construyen
de forma habitual.
6.6.4. El intervalo de confianza de la media y del total.
¯ y
c
±t
(n−1,α/2)

ˆ
V (¯ y
c
)
ˆ τ
c
±t
(n−1,α/2)

ˆ
V (ˆ τ
c
)
6.6.5. Los tamaños de muestra para estimar la media y el
total
El tamaño muestral para estimar µ
n =
N(t
n−1,α/2
)
2
σ
2
t
Nd
2
+ (t
n−1,α/2
)
2
σ
2
t
donde σ
2
t
es estimada por s
2
t
=
n
¸
i=1
(y
i.
− ¯ y
.
)
2
n −1
Nota: El valor d es calculado con respecto al total promedio por conglomer-
ado

¸
¸
¸
¸
¸
¯ y
.
=
n
¸
i=1
y
i.
n

163
Capítulo 6. El muestreo por conglomerados en una etapa
El tamaño muestral para estimar τ
n =
N
2
(t
n−1,α/2
)
2
σ
2
t
d
2
+ N(t
n−1,α/2
)
2
σ
2
t
donde σ
2
t
es estimada por s
2
t
=
n
¸
i=1
(y
i.
− ¯ y
.
)
2
n −1
6.7. La estimación de una proporción poblacional
Muchas veces se quiere estimar la característica G específica de la población.
Por ejemplo: suponga que se desea conocer la proporción de personas en el
estado de Colima que padecen cierta enfermedad, o la preferencia por cierto
partido político, la aceptación de alguna cierta norma ecológica, etc. Por esto,
cuando se desea estimar una proporción y el total, si se conoce M, se deben
utilizar los mismos estimadores de la media y el total con M conocida que
fueron presentados en el apartado 6.5, sólo que ahora la variable respuesta
contendrá ceros y unos. En caso de desconocerse M, los estimadores de la
proporción y el total deben ser los mismos que se usaron en el apartado 6.6.
En ambos casos se realizan los cálculos exactamente como los ejemplos pre-
sentados en los apartados 6.5 y 6.6, respectivamente. Es importante recordar
que el muestreo por conglomerados se sugiere cuando:
Las unidades muestrales son grupos de elementos.
Se desea minimizar el costo por unidad muestreada.
Éste diseño puede combinarse con otros diseños; por ejemplo, el estrati-
ficado.
6.7.1. Ejemplos
Ejemplo 1. Un agrónomo tiene una parcela experimental de 10, 000 m
2
. Con
la finalidad de conocer la cantidad promedio por planta y el total de cacahua-
tes producidos, divide la parcela en tramos de 4m
2
, y selecciona una muestra
aleatoria de 15 tramos. Enseguida cuenta el número de cacahuates por planta.
El cuadro 6.9 muestra los totales por tramo. Resuelva lo que se le pide a
continuación.
a) La estimación de la media por conglomerado (tramo).
¯ y
.
=
n
¸
i=1
y
i.
n
=
n
¸
i=1
τ
i
n
donde:
n = 15: el número de tramos seleccionados
τ
i
= y
i.
: el total de cacahuates en el tramo i, i = 1, 2, . . . , 15
164
Cuadro 6.9: El total de cacahuates producidos por tramo
Tramo Plantas Total/tramo
T1 35 y
1.
= 1, 680
T2 34 y
2.
= 1, 360
T3 28 y
3.
= 1, 904
T4 33 y
4.
= 1, 485
T5 34 y
5.
= 2, 346
T6 27 y
6.
= 1, 809
T7 28 y
7.
= 1, 148
T8 33 y
8.
= 1, 320
T9 31 y
9.
= 1, 953
T10 35 y
10.
= 1, 645
T11 34 y
11.
= 2, 414
T12 29 y
12.
= 2, 146
T13 28 y
13.
= 1, 232
T14 26 y
14.
= 1, 404
T15 29 y
15.
= 1, 450
Por lo tanto:
¯ y
.
=
1, 680 + 1, 360 +. . . + 1, 404 + 1, 450
15
=
25, 290
15
= 1, 686.4 cacahuates por con-
glomerado (tramo)
b) La estimación del total poblacional
ˆ τ
c
= N¯ y
.
=
N
n
n
¸
i=1
y
i
donde:
¯ y
.
= 1, 686.4: el promedio de cacahuates por tramo (conglomerado)
N =
10, 000
4
= 2, 500: los tramos en los que se dividió la parcela
n = 15: los tramos seleccionados
Por lo tanto:
ˆ τ
c
= (2, 500)(1, 686.4) = 4, 216, 000 cacahuates por parcela.
c) La estimación de la media poblacional (por planta de cacahuate).
Como en este caso se desconoce M, se hace una aproximación para estimar la
media poblacional:
M
aprox
= N
¯
M = N
n
¸
i=1
M
i
n
donde:
165
Capítulo 6. El muestreo por conglomerados en una etapa
n = 15: el número de tramos seleccionados
N = 2, 500: el número de tramos en la población
M
1
= 35, M
2
= 34, M
3
= 28, M
4
= 33, M
5
= 34, M
6
= 27, M
7
= 28, M
8
= 33, M
9
= 31,
M
10
= 35, M
11
= 34, M
12
= 29, M
13
= 28, M
14
= 26 y M
15
= 29
¯
M =
35 + 34 +. . . + 26 + 29
15
= 30.9333
Por lo tanto:
M
aprox
= (30.9333)(2, 500) = 77, 333.3333
El estimador de la media poblacional es:
¯ y
c
=
ˆ τ
c
M
aprox
donde: ˆ τ
c
= 4, 216, 000 y M
aprox
= 77, 333.3333
Por lo tanto:
¯ y
c
=
4, 216, 000
77, 333.3333
= 54.5172 cacahuates en promedio por plan-
ta.
d) La varianza y la desviación estándar de la media poblacional.
ˆ
V (¯ y
c
) =
ˆ
V (ˆ τ
c
)
M
2
aprox
=
N
2
ˆ
V (¯ y
.
)
M
2
aprox
ˆ
V (¯ y
.
) =

N −n
N

1
n

n
¸
i=1
(y
i.
− ¯ y
.
)
2
n −1
donde:
M
aprox
= 77, 333.3333
¯ y
.
= 1, 686.4
n = 15: el número de tramos que fueron selecionados
N = 2, 500: el número de tramos en la población
ˆ
V (¯ y
.
) =

2, 500 −15
2, 500

1
15

(1, 680 −1686.4)
2
+. . . + (1, 450 −1, 686.4)
2
15 −1
= 10, 528.1337
Por lo tanto:
ˆ
V (¯ y
c
) =
(2, 500)
2
(10, 528.1337)
(77, 333.3333)
2
= 11.0026

ˆ
V (¯ y
c
) =

11.0026 = 3.3170
e) La estimación por intervalo de la media poblacional con una confianza de
90%.
¯ y
c
±t
(n−1,α/2)

ˆ
V (¯ y
c
)
donde: ¯ y
c
= 54.5172: cacahuates promedio por planta
t
(n−1,α/2)
= t
(15−1,0.1/2)
= 1.7613
166

ˆ
V (¯ y
c
) = 3.3170
Por lo tanto:
54.5172 ±(1.7613)(3.3170)
54.5172 ±5.8423
48.6749 ≤ µ
c
≤ 60.3595 cacahuates por planta
f) La estimación por intervalo del total poblacional con una confianza de
90%.
ˆ τ
c
±t
(n−1,α/2)
N

ˆ
V (¯ y
c
)
donde: ˆ τ
c
= 4, 216, 000, t
(n−1,α/2)
= t
(15−1,0.1/2)
= 1.7613

ˆ
V (ˆ τ
c
) = N

ˆ
V (¯ y
.
) = (2, 500)(

10, 528.1337) = 256, 516.7356
por lo tanto:
4, 216, 000 ±(1.7613)(256, 516.7356)
4, 216, 000 ±451, 805.5211
3, 764, 194.4788 ≤ τ
c
≤ 4, 667, 805.5211 cacahuates por parcela
g) Suponga que n = 15 tramos es una muestra preliminar. Determine el
tamaño de muestra para estimar la media por conglomerados con una pre-
cisión de 10% del promedio preliminar y una confiabilidad de 90%.
n =
N(t
n−1,α/2
)
2
σ
2
t
Nd
2
+ (t
n−1,α/2
)
2
σ
2
t
donde:
σ
2
t
es estimada por s
2
t
=
n
¸
i=1
(y
i.
− ¯ y
.
)
2
n −1
¯ y
.
= 1, 686.4: el promedio total de cacahuates por tramo (conglomerado)
y
i.
: el total de cacahuates en el tramo i,i = 1, 2 . . . , 15
N = 2, 500: los tramos en los que está dividida la parcela
s
2
t
=
(1, 680 −1686.4)
2
+ . . . + (1, 450 −1, 686.4)
2
15 −1
= 158, 875.2571
t
(n−1,α/2)
= t
(15−1,0.1/2)
= 1.7613, d = (0.1)(1, 686.4) = 168.64
Por lo tanto:
n =
(2, 500)(1.7613)
2
(158, 875.2571)
(2, 500)(168.64)
2
+ (1.7613)
2
(158, 875.2571)
= 17.2110 tramos (
unidades muestrales)
h) Suponga que n = 15 es una muestra preliminar. Determine el tamaño de
muestra para estimar el total con una precisión de 10% del total preliminar y
una confiabilidad de 90%.
167
Capítulo 6. El muestreo por conglomerados en una etapa
n =
N
2
(t
n−1,α/2
)
2
σ
2
t
d
2
+ N(t
n−1,α/2
)
2
σ
2
t
donde:
σ
2
t
es estimada por s
2
t
=
n
¸
i=1
(y
i.
− ¯ y
.
)
2
n −1
¯ y
.
= 1, 686.4: el total promedio de cacahuates por tramo (conglomerado)
y
i.
: el total de cacahuates en el tramo i, i = 1, 2 . . . , 15
N = 2, 500: los tramos en los que está dividida la parcela
s
2
t
=
(1, 680 −1686.4)
2
+ . . . + (1, 450 −1, 686.4)
2
15 −1
= 158, 875.2571
t
(n−1,α/2)
= t
(15−1,0.1/2)
= 1.7613
ˆ τ
c
= 4, 216, 000: el total estimado de cacahuates producidos en la parcela
d = (0.1)(4, 216, 000) = 421, 600
Por lo tanto:
n =
(2500)
2
(1.7613)
2
(158,875.2571)
(421,600) + (2500)(1.7613)
2
(158,875.2571)
= 17.2110 tramos (mues-
tra)
Ejemplo 2. Suponga que un predio que está localizado en la playa de Man-
zanillo tiene 1, 000 palmeras de coco. Un investigador desea conocer la canti-
dad promedio de agua de coco que producen, para lo cual toma una muestra
aleatoria de 8 palmeras, y mide la cantidad de agua por coco en cada palmera.
El cuadro 6.10 muestra el total de agua en litros. Resuelva lo siguiente.
Cuadro 6.10: El agua de coco por palmera (litros).
P1 P2 P3 P4 P5 P6 P7 P8
1.12 0.94 0.77 0.81 0.95 0.77 0.88 0.83
0.68 1.33 0.95 1.49 1.23 0.72 1.06 0.85
1.07 0.76 1.07 0.99 1.11 0.77 0.87 0.82
0.85 0.95 0.73 0.89 1.14 0.85 0.95 0.97
0.79 1.26 0.96 1.03 1.66 0.56 0.86 0.9
0.89 0.75 0.93 1.42 1.5 1.12 0.94 0.71
1.02 1.28 1.09 0.99 0.58 0.83 0.72
0.51 0.99 1.28 0.89 0.89
0.96 1.08
1.09
y
1.
= 6.93 y
2.
= 7.27 y
3.
= 8.45 y
4.
= 8.9 y
5.
= 7.59 y
6.
= 5.37 y
7.
= 9.45 y
8.
= 6.69
a) Calcular el promedio por conglomerado.
168
¯ y
.
=
n
¸
i=1
y
i.
n
=
n
¸
i=1
τ
i
n
donde:
n = 8: el número de palmeras seleccionadas
τ
i
= y
i.
: el total de litros en la palmera i, i = 1, 2, . . . , 8
por lo tanto:
¯ y
.
=
6.93 + 7.27 +. . . + 9.45 + 6.69
8
=
60.65
8
= 7.58125 litros por conglomerado
b) Estimar el total poblacional.
ˆ τ
c
= N¯ y
.
= N
n
¸
i=1
y
i
n
donde:
¯ y
.
= 7.5813: el promedio de litros por conglomerado (palmera)
N = 1, 000: el número de palmeras en el predio
n = 8: el número de palmeras seleccionadas
Por lo tanto:
ˆ τ
c
= (1, 000)(7.58125) = 7, 581.25 litros de agua de coco en el predio
c) Estimar el promedio de litros por coco (media poblacional).
Como en este caso se desconoce M, se hace una aproximación para hallar
la media poblacional:
M
aprox
=
¯
MN = N
n
¸
i=1
M
i
n
donde:
n = 8: el número de palmeras seleccionadas
N = 1, 000: el número de palmeras en el predio
M
1
= 8, M
2
= 7, M
3
= 9, M
4
= 8, M
5
= 6, M
6
= 7, M
7
= 10, M
8
= 8 cocos por cada
palmera seleccionada
¯
M =
8 + 7 + 9 + 8 + 6 + 7 + 10 + 8
8
= 7.875
Por lo tanto:
M
aprox
= (7.875)(1, 000) = 7, 875 cocos en la población de 1,000 palmeras
El estimador de la media poblacional es:
169
Capítulo 6. El muestreo por conglomerados en una etapa
¯ y
c
=
ˆ τ
c
M
aprox
donde: ˆ τ
c
= 7, 581.25 y M
aprox
= 7, 875
por lo tanto:
¯ y
c
=
7, 581.25
7, 875
= 0.9627 litros de agua producidos por cada coco
d) Calcular la varianza y la desviación estándar de la media poblacional.
ˆ
V (¯ y
c
) =
ˆ
V (ˆ τ
c
)
M
2
aprox
=
N
2
ˆ
V (¯ y
.
)
M
2
aprox
ˆ
V (¯ y
.
) =

N −n
N

1
n

n
¸
i=1
(y
i.
− ¯ y
.
)
2
n −1
donde:
M
aprox
= 7, 875
¯ y
.
= 7.5813
n = 8: el número de palmeras selecionadas
N = 1, 000: el número de palmeras (conglomerados) en la población
ˆ
V (¯ y
.
) =

1, 000 −8
1, 000

1
8

(6.93 −7.5813)
2
+ . . . + (6.69 −7.5813)
2
8 −1
= 0.21596
Por lo tanto:
ˆ
V (¯ y
c
) =
(1, 000)
2
(0.21596)
(7, 875)
2
= 0.00348

ˆ
V (¯ y
c
) =

0.00348 = 0.059
e) Construir un IC para la media poblacional con una confiabilidad de 90%.
¯ y
c
±t
(n−1,α/2)

ˆ
V (¯ y
c
)
donde:
¯ y
c
= 0.9627 litros de agua por coco
t
(n−1,α/2)
= t
(8−1,0.1/2)
= 1.8946

ˆ
V (¯ y
c
) = 0.059
Por lo tanto:
0.9627 ±(1.8946)(0.059)
0.9627 ±0.1118
0.8509 ≤ µ
c
≤ 1.0745
Esto significa que la media poblacional está entre 0.8509 y 1.0745 litros de agua
por coco.
170
f) Estime por intervalo el total poblacional con una confiabilidad de 90%.
¯ y
c
±t
(n−1,α/2)

ˆ
V (¯ y
c
)
donde:
ˆ τ
c
= 7, 581.25
N = 1, 000
t
(n−1,α/2)
= t
(8−1,0.1/2)
= 1.8946

ˆ
V (ˆ τ
c
) = N

ˆ
V (¯ y
.
) = (1, 000)(

0.21596) = 464.7111
Por lo tanto:
7, 581.25 ±(1.8946)(464.7111)
7, 581.25 ±880.4317
6, 700.8129 ≤ τ
c
≤ 8, 461.6817
Entonces, el total de litros de agua de coco en el predio está entre 6, 700.8129 y
8, 461.6817.
g) Suponga que n = 8 palmeras es una muestra preliminar. Determine el
tamaño de muestra para estimar la media por conglomerados con una pre-
cisión de 10% del promedio preliminar y una confiabilidad de 90%.
n =
N(t
(n−1,α/2)
)
2
σ
2
t
Nd
2
+ (t
(n−1,α/2)
)
2
σ
2
t
donde:
σ
2
t
es estimada por s
2
t
=
n
¸
i=1
(y
i.
− ¯ y
.
)
2
n −1
¯ y
.
= 7.5812: el total promedio de litros de agua de coco por palmera (conglomera-
do)
y
i.
: el total de litros de agua en la palmera i, i = 1, 2 . . . , 8
N = 1, 000: las palmeras en el predio
s
2
t
=
(6.93 −7.5812)
2
+ . . . + (6.69 −7.5812)
2
8 −1
= 1.7416
t
(n−1,α/2)
= t
(8−1,0.1/2)
= 1.8946
d = (0.1)(7.5812) = 0.75812
Por lo tanto:
n =
(1, 000)(1.8946)
2
(1.7416)
(1, 000)(0.7581264)
2
+ (1.8946)
2
(1.7416)
= 10.7594 palmeras (muestra)
h) Suponga que n = 8 palmeras es una muestra preliminar. Determine el
tamaño de muestra definitivo para estimar el total con una precisión de 10%
del total preliminar y una confiabilidad de 90%.
n =
N
2
(t
(n−1,α/2)
)
2
σ
2
t
d
2
+ N(t
(n−1,α/2)
)
2
σ
2
t
171
Capítulo 6. El muestreo por conglomerados en una etapa
donde:
σ
2
t
es estimada por s
2
t
=
n
¸
i=1
(y
i.
− ¯ y
.
)
2
n −1
¯ y
.
= 7.5812: el total promedio de litros de agua de coco por palmera (conglomera-
do)
y
i.
: el total de litros de agua en la palmera i, i = 1, 2 . . . , 8
N = 1, 000: las palmeras en el predio
s
2
t
=
(6.93 −7.5812)
2
+ . . . + (6.69 −7.5812)
2
8 −1
= 1.7416
t
(n−1,α/2)
= t
(8−1,0.1/2)
= 1.8946
ˆ τ
c
= 7, 581.25: el total de agua de coco en litros en el predio
d = (0.1)(7, 581.25) = 758.125
Por lo tanto:
n =
(1, 000)
2
(1.8946)
2
(1.7416)
(758.125)
2
+ (1, 000)(1.8946)
2
(1.7416)
= 10.7594 palmeras (muestra)
6.8. Ejercicios
En los siguientes ejercicios estime lo siguiente:
a) El IC para la media y el total poblacional con una confiabilidad de 95%.
b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar la media y el total poblacional de tal
manera que sean estimados con una precisión de 5% de la media y el total
preliminar con una confiabilidad de 95%?
Ejercicio 1. El dueño de una plantación forestal necesita estimar el volumen
total de biomasa en m
3
que tiene su plantación, lo que ha pensado es hacer un
muestreo por conglomerados. Para esto divide la plantación en 300 sitios, de
los cuales selecciona aleatoriamente 40 y dentro de cada uno de ellos mide el
volumen de todos los árboles incluidos. En este caso nuestras UMP (los con-
glomerados) son los sitios y las UMS son los árboles. Use los datos del Cuadro
(6.12).
Ejercicio 2. La Secretaría de Desarrollo Social cuenta con 25 estancias in-
fantiles esparcidas en el estado de Colima, donde padres confían diariamente
a sus hijos. Con el objetivo de conocer el nivel de conformidad de los padres
respecto a este servicio, se tomo una MAS de 5 guarderías y se realiza una
encuesta. (El nivel de conformidad se mide de 0 a 5), ver Cuadro (6.13).
172
Cuadro 6.12: Volumen de biomasa en m
3
Conglomerado M
i
y
i.
Conglomerado M
i
y
i.
1 508 1,709 21 558 2,440
2 302 1,075 22 598 2,005
3 693 3,087 23 532 2,057
4 598 1,729 24 599 2,562
5 459 1,497 25 607 1,853
6 695 2,725 26 609 2,698
7 476 2,143 27 640 3,066
8 675 2,945 28 659 1,948
9 432 1,355 29 589 1,942
10 567 2,267 30 674 2,413
11 657 2,724 31 508 1,870
12 650 2,537 32 302 987
13 667 3,284 33 693 3,258
14 598 2,370 34 598 2,700
15 548 2,026 35 459 1,750
16 657 1,987 36 583 2,007
17 508 1,479 37 476 1,231
18 499 1,668 38 675 2,701
19 549 2,163 39 432 1,669
20 543 2,463 40 567 1,904
173
Capítulo 6. El muestreo por conglomerados en una etapa
Cuadro 6.13: Resultados de los conglomerados censados
EI1 EI2 EI3 EI4 EI5
3 2 4 3 2
3 2 4 3 4
2 3 2 4 4
2 3 3 4 3
3 2 5 4 3
3 1 5 5 4
4 1 3 3 4
3 1 3 2 5
2 2 4 2 5
2 2 4 3 4
4 4 5 4 3
4 3 5 4 3
5 2 4 3 3
2 1 3 2 2
3 2 3 2 5
3 2 4 5 4
3 1 4 5
4 1 4 3
3 2 5 3
4 5 4
4 3 2
4
174
Capítulo 7
El muestreo basado en el método
de respuesta aleatorizada
Cuando la gente no quiere
cooperar con las respuestas,
la estadística y su ingenio
te ayudan a conseguirlo.
OAML
P
Ara que los resultados de una encuesta sean creíbles es necesario, entre
otros aspectos, que las preguntas tengan suficiente calidad o validez, lo
que exige asumir que las respuestas sean ciertas. Para creer en los resultados
de una encuesta es necesario creer también en las respuestas de las personas
que han sido entrevistadas. Sin embargo, tener respuestas verídicas es difícil.
Hay muchos problemas implícitos al tratar de conseguirlas y de que éstas sean
sinceras (Lohr, 2000 [9]).
Las personas tienen inclinaciones, tendencias propias, actitudes, distintas
formas de pensar, desconfianza, etc. Todas estas características pueden difi-
cultar, en algunas ocasiones, la calidad de las respuestas. En este sentido, uno
de estos problemas típicos es el que se ha denominado deseabilidad social. Por
ello es importante estar consciente de que las personas entrevistadas tienden
a responder en función de lo que consideran como bien visto socialmente. Por
ejemplo, el consumo de droga se cataloga como negativo, por lo que alguien
que haya consumido o consuma drogas tenderá con facilidad a responder ”no”
ante la pregunta ¿Ha usted consumido droga alguna vez? (Lohr, 2000 [9]).
Por otro lado, la deseabilidad social puede actuar de forma inconsciente,
es decir, que el individuo no controle intencionalmente su respuesta. La de-
seabilidad social también es preocupante cuando las preguntas se refieren a
cosas íntimas como las relaciones sexuales. En ese caso, las personas suelen
mostrar resistencia a exponerse ante extraños y son más sensibles a responder
según lo que se considera socialmente aceptable, por lo que se cubre la verdad
(Lohr, 2000 [9]). Es decir, cuando una encuesta incluye una o más pregun-
tas que se refieren a aspectos que pueden considerarse ”íntimos” hacen que
el entrevistado se sienta en peligro o apenado si la responde correctamente
(Méndez, I et. al. (2004) [16]. Por ello, debe garantizarse que las preguntas y
la forma de hacerlas sean ingeniosas y con calidad para obtener resultados
175
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
confiables.
Sin embargo, obtener respuestas confiables no es una tarea fácil debido a
que los encuestadores se enfrentan a varias dificultades, las cuales son inher-
entes a toda persona encuestada: inclinaciones, actitudes, formas de pensar,
comportamientos, tiempo disponible, desconfianzas y una propensión a man-
tener la intimidad. Esto a conllevado a que en las últimas décadas se realicen
un gran número de investigaciones para asegurarse de la calidad y veracidad
de las respuestas obtenidas sobre temas íntimos. De esta manera la necesi-
dad del hombre por hacerse de información que tiene carácter íntimo o por
combatir la no respuesta lo han conducido a desarrolar nuevas técnicas en la
metodología del muestreo, entre ellos: respuesta aleatorizada (Méndez C. E. I.
et. al., 2007[17]).
Respuesta aleatorizada
La técnica de respuesta aleatorizada es un método especialmente
diseñado para asegurar privacidad a los entrevistados en el estu-
dio de temas sensibles, delicados o embarazosos. Se intenta con el-
lo evitar sesgos de los estrevistados en ciertas conductas hacia la
respuesta socialmente más deseable. Es decir, le asegura al entre-
vistado que su respuesta sobre temas sensibles (falsa o verdadera)
no será conocida por el entrevistador, de ahí el nombre de respuesta
aleatorizada(RA); la respuesta se realiza al azar. Se ha utilizado para
analizar temas desde copiar en los exámenes, insolvencia, fraudes,
haber sido arrestado, conducir bajo los efectos del alcohol, infideli-
dad, tener hijos fuera del matrimonio, prácticas abortivas, etcétera..
Existen varios métodos para evitar la resistencia de las personas a respon-
der con sinceridad cuando el tema es delicado. Este capítulo presenta dos
métodos para estimar proporciones (método de Warner, 1965 y método de
Warner modificado propuesto por Horvitz et.al., 1967) sin obtener respues-
tas directas de las personas entrevistadas. Es decir, se estima la proporción
sin que el entrevistado revele su posición personal respecto a la pregunta del-
icada; por ello, el objetivo de estás técnicas es ayudar a que se den respuestas
veraces y se conserve lo confidencial del asunto. Para estos dos métodos se
presenta una forma sencilla de calcular el tamaño de muestra necesario y con
ello estimar la proporción con la precisión y confiabilidad fijadas bajo el MAS
y el MAE.
7.1. ¿Cuándo se utiliza esta técnica?
Cuando las personas que son entrevistadas, se niegan a contestar o dan
una respuesta falseada a preguntas sensitivas, que las ponen en aprietos
o les pueden ser dañinas en algún sentido.
Se utiliza para estimar el porcentaje de la poblacional que tiene la caraterís-
tica sensitiva.
176
Por características sensitivas o delicadas se entiende a las situaciones en
donde los entrevistados sienten dañada su intimidad al pedir que respondan
un cuestiorario. Por lo tanto, las preguntas sensitivas o delicadas sirven para
captar las características sensitivas de los entrevistados; las cuales se tienen
que manejar con cuidado debido a la no respuesta o a la respuesta falseada
contestando lo socialemente deseable.
7.2. Ventajas y desventajas
Ventajas Desventajas
Aumenta la probabilidad de
contestar la verdad que en
una pregunta directa
Aumento en la complejidad de
la pregunta
Mayor índice de respuesta Dificultad en entender el
método de aleatorización
Requiere de tamaños de
muestas grandes
7.3. El modelo de respuesta aleatorizada bajo el
MAS
Este método de respuesta aleatorizada fue desarrollado por S. L. Warner en
1965 y consiste en clasificar a las personas en los grupos A y B, respectiva-
mente. Cada persona estará en uno de los grupos, A o B . Sea π la proporción
de personas con ciertas caraterísticas de interés (grupo A). El objetivo es esti-
mar π sin preguntar a cada persona directamente si pertenece o no al grupo
A. A continuación se presenta el procemiento propuesto por Warner (1965):
I. Se construye un mazo de cartas, pero una fracción de ellas p, se marca
con la letra A (grupo A) y la fracción restante, 1−p, con las letras faltantes
del abecedario (grupo B).
II. Se selecciona una muestra aleatoria simple o estratificada de individuos
sin reemplazo de tamaño n de la población (N).
III. A cada individuo que va a responder se le enseña el mazo de cartas para
que vea que las cartas estan marcadas con las letras del abecedario.
IV. En seguida se baraja adecuadamente el mazo de cartas y se le pide al
individuo que seleccione una carta, pero que no nos diga con que letra
esta marcada.
V. A continuación se le explica que se le va a hacer una pregunta y que la
responda con "sí" o "no", pero resaltando que ponga mucha atención a la
pregunta.
VI. Responda a la pregunta ¿Tienes la característica sensitiva?, por ejemplo
¿ha consumido droga alguna vez?, si la carta que obtuvo esta marcada
177
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
con la letra A, por el contrario responda a la pregunta ¿No tienes la car-
acterística sensitiva?, para éste ejemplo, ¿Nunca has consumido droga?,
si obtuvo cualquier otra letra del abecedario.
VII. Se tiene que hacer enfasis en que debe de responder con la verdad a las
preguntas y que solamente tiene que responder una de ellas dependiendo
de la letra que obtuvo, es decir, si la la carta que obtuvo esta marcada
con la letra A debe responder con la verdadad a la pregunta delicada y
esta sería su única respuesta, lo mismo que si le toco cualquier otra letra
del abecedario debe de responder con la verdad a la segunda pregunta
pregunta y esta sería la única respuesta.
VIII. La carta elegida por un individuo tiene que ser reemplazada antes de
entrevistar a la siguiente persona.
IX. Este procedimiento se aplica a todos los n individuos.
X. Con las n respuestas de "sí" y "no" se hacen las estimaciones correspon-
dientes con los estimadores propuestos en éste capítulo.
El método de aleatorización que originalmente utilizó Warner es una aguja
giratoria en un disco con dos regiones delimitadas. La aguja apunta con prob-
abilidad p a la región A y 1 − p a la región A
c
. El entrevistado responde a la
pregunta Q
A
si la aguja señala a la región A, o a la pregunta Q
A
c si la aguja
señala a la región A
c
, de esta manera todo se conjuga a que el entrevistador
sólo anote sí o no para cada entrevistado.
Por ejemplo, supóngase que en el estado de Colima se desea estimar el
porcentaje de hombres casados por lo civil que tienen hijos ilegales (fuera del
matrimonio). Además supóngase que se extrae una muestra aleatoria simple
de n = 200 de la población de N = 10, 000. Así, cada uno de los hombres que
conforman la muestra recibe una ficha con las siguientes preguntas:
Q
A
: Pregunta 1: ¿tiene almenos un hijo fuera de su matrimonio?
Q
A
c: Pregunta 2: ¿no tiene hijos fuera del matrimonio?
La pregunta Q
A
(pregunta 1) será respondida por el entrevistado si la aguja
marca la región A, de lo contrario, si la aguja marca la región A
c
el entrevistado
responderá la pregunta Q
A
c (pregunta 2). Cada entrevistado responderá un sí
o no porque solamente contestará una de las dos preguntas dependiendo de la
región que marque la aguja (A o A
c
). Esto significa que se tendrán n repuestas
dicotómicas (sí o no) a partir de las cuales se derivará la estimación de interés
(porcentaje de respuestas afirmativas de la pregunta 1).
Por otro lado, es importante resaltar que el mecanismo de aleatorización
puede ser una baraja, un dado, una modena, una urna, etc., pero se debe
tener claro cuál es su eqeuivalente a la región A y su respectiva probabilidad.
Por ello, es importante recordar que el experimentador puede elegir arbitraria-
mente la fracción p de cartas marcadas con A, pero no debe ser igual a
1
2
. Tam-
poco se debe de usar p = 1 porque el entrevistado se daría cuenta que se le está
178
preguntando si pertenece o no al grupo A, o sea, lo que no quiere responder.
Un valor de
3
4
es usualmente adecuado. Este método requiere generalmente
un tamaño de muestra muy grande para obtener una varianza del estimador
razonablemente pequeña. Se necesita un tamaño de muestra grande debido a
que cada respuesta origina poca información sobre la proporción poblacional,
π. La técnica de respuesta aleatorizada que se ha presentado aquí es la más
simple de todas las que existen. Para mayor información al respecto, véanse los
artículos de Campbell y Joiner (1973); Leysieffer y Warner (1976); y Greenberg,
Kuebler, Albernathy y Horvitz (1971).
7.3.1. El estimador de la proporción y el total poblacional
Si suponemos que p =
1
2
, el estimador de máxima verosimilitud de π es:
ˆ π =
p −1
2p −1
+
a
(2p −1)n
y el estimador de máxima verosimilitud de τ es:
ˆ τ = Nˆ π
donde:
N : tamaño de la población,
a : el total de respuestas "sí" de los n entrevistados,
p : fracción de las letras en el mazo de cartas marcadas con la letra A.
7.3.2. La varianza estimada de los estimadores de la propor-
ción y del total
S
2
ˆ π
=

N −n
N

1
n
¸
1
16 (p −1/2)
2

ˆ π −
1
2

2
¸
S
2
ˆ τ
= N
2
S
2
ˆ π
= N
2

N −n
N

1
n
¸
1
16 (p −1/2)
2

ˆ π −
1
2

2
¸
A continuación se proporcionan los intervalos de confianza para los pará-
metros π y τ con una confiabilidad del (1 −α)100 %.
7.3.3. El intervalo de confianza de la proporción y el total
ˆ π ±Z
α/2

S
2
ˆ π
ˆ τ ±Z
α/2

S
2
ˆ τ
donde:
ˆ π = la proporción de interés
ˆ τ = el total de interés
179
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
Z
α/2
= el valor de tablas de la distribución normal

S
2
ˆ π
= la desviación estándar de la proporción de interés

S
2
ˆ τ
= la desviación estándar del total de interés
7.3.4. El tamaño de la muestra para la proporción y el total
El tamaño de muestra para estimar la proporción
Si se fija una precisión deseada con una confiabilidad de (1 − α)100 %, en-
tonces d = Z
α/2

S
2
ˆ π

. Por lo tanto, el tamaño de muestra se determina por la
ecuación:
n =
NZ
2
α/2
k
Nd
2
+ Z
2
α/2
k
donde:
k =
1
16 (p −1/2)
2

ˆ π −
1
2

2
N = el tamaño de la población
Z
α/2
= el valor de tablas de la distribución normal
p = la proporción de cartas que están marcadas con la letra A
d = la precisión fijada por el investigador
El tamaño de muestra para estimar el total
n =
N
2
Z
2
α/2
k
d
2
+NZ
2
α/2
k
donde:
k =
1
16 (p −1/2)
2

ˆ π −
1
2

2
N = el tamaño de la población
Z
α/2
= el valor de tablas de la distribución normal
p = la proporción de cartas que están marcadas con la letra A
d = la precisión fijada por el investigador
7.3.5. Ejemplos
Ejemplo 1. En el estado de Colima se realiza una encuesta con la intención
de estimar la proporción de estudiantes (N = 8, 000) en nivel medio superior y
superior que han consumido algún tipo de dróga. Dado que se trata de una
pregunta delicada, se usó el método de respuesta aleatorizada con p =
5
6
. Se
tomó una muestra aleatoria simple de n = 200 estudiantes. En los resultados
se encontraron 45 respuestas "sí" de los 200 entrevistados.
a) Calcule la proporción poblacional de interés.
ˆ π =
p −1
(2p −1)
+
a
(2p −1)n
180
donde: a =
n
¸
i=1
y
i
= 45, p =
5
6
y n = 200
Por lo tanto:
ˆ π =
5/6 −1
2(5/6) −1
+
45
(2(5/6) −1)200
= 0.0875 u 8.75% de estudiantes
han consumido algún tipo de droga
b) Obtenga el total de estudiantes que alguna vez han consumido algún tipo
de droga.
ˆ τ = Nˆ π
donde: n = 8, 000 y ˆ π = 0.0875
Por lo tanto:
ˆ τ = (8, 000)(0.0875) = 700 estudiantes
c) Calcule la varianza y la desviación estándar de la proporción muestral.
S
2
ˆ π
=

N −n
N

1
n
¸
1
16(p −1/2)
2

ˆ π −
1
2

2
¸
donde: N = 8, 000, ˆ π = 0.0875, p =
5
6
, n = 200
Por lo tanto:
S
2
ˆ π
=

8, 000 −200
8, 000

1
200
¸
1
16(5/6 −1/2)
2

0.0875 −
1
2

2
¸
= 0.001912676
S
ˆ π
=

S
2
ˆ π
=

0.001912676 =0.043734144
S
ˆ π
=

S
2
ˆ π
=

0.001912676 =0.043734144
d) Determine un IC de la proporción de interés con una confiabilidad de
95%.
ˆ π ±Z
α/2

S
2
ˆ π
donde: ˆ π = 0.0875, N = 8, 000, Z
α/2
= Z
0.025
= 1.96 y s
ˆ π=0.043734149
Por lo tanto:
0.0875 ±(1.96)(0.0437)
0.0875 ±0.085718932
0.001781068 ≤ π ≤ 0.173218932
Entonces, la proporción de estudiantes que alguna vez han consumido algún
181
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
tipo de droga está entre 0.178 y 17.32%.
e) Calcule el intervalo de confianza del total con una confiabilidad de 95%.
ˆ τ ±NZ
α/2

S
2
ˆ π
donde: ˆ τ = 700, N = 8, 000, Z
α/2
= Z
0.025
= 1.96 y s
ˆ π=0.043734149
por lo tanto:
(8, 000)(0.0875) ±(8000)(1.96)(0.0437)
(8, 000)0.0875 ±(8000)(0.0857)
700 ±685.7515
14.2486 ≤ τ ≤ 1, 385.7515
De ahí que el total de estudiantes en nivel medio superior y superior que algu-
na vez hayan consumido algún tipo de droga esté entre 14.2486 y 1385.7515.
f) Suponga que n = 200 estudiantes es una muestra preliminar. ¿Cuál es el
tamaño de muestra necesario para estimar la proporción poblacional con una
precisión de 5% de la proporción preliminar y una confiabilidad de 95%?
n =
N(Z
2
α/2
)k
Nd
2
+ Z
2
α/2
k
donde:
N = 8, 000 : el tamaño de la población
Z
α/2
= 1.96
p =
5
6
d = (0.05)(0.0875) = 0.004375
k =
1
16 (5/6 −1/2)
2

0.0875 −
1
2

2
= 0.3923
Por lo tanto:
n =
(8, 000)(1.96
2
)(0.3923)
(8, 000)(0.004375)
2
+ (1.96
2
)(0.3923)
= 330.285884 estudiantes
(unidades muestrales)
g) Suponga que n = 200 estudiantes es una muestra preliminar. ¿Cuál es el
tamaño de muestra necesario para estimar el total poblacional con una pre-
cisión del 5 % del total preliminar y con una confiabilidad de 95 %?
n =
N
2
Z
2
α/2
k
d
2
+NZ
2
α/2
k
donde:
N = 8, 000 : el tamaño de la población
Z
α/2
= 1.96
p =
5
6
d = (0.05)(700) = 35
182
k =
1
16 (5/6 −1/2)
2

0.0875 −
1
2

2
= 0.3923
por lo tanto:
n =
(8000)
2
(1.96
2
)(0.3923)
(35
2
) + (8000)(1.96
2
)(0.3923)
= 330.285884estudiantes (unida-
des muestrales)
Ejemplo 2. En el estado de Colima se realiza una encuesta para estimar la pro-
porción de personas que han robado alguna vez en su vida. Hay una población
de N = 15, 000. Dado que se trata de una pregunta delicada se usó el método
de respuesta aleatorizada con p =
5
6
. Se entrevistó aleatoriamente a n = 250
ciudadanos. Los resultados arrojaron 80 respuestas de "sí" de entre los 250
entrevistados.
a) Calcule la proporción de interés poblacional.
ˆ π =
p −1
2p −1
+
a
(2p −1)n
donde: a =
n
¸
i=1
y
i
= 80, p =
5
6
, n = 250
Por lo tanto:
ˆ π =
5/6 −1
2(5/6) −1
+
80
(2(5/6) −1)250
= 0.23 ó 23% de ciudadanos que
alguna vez han robado
b) Calcule el total de ciudadanos que alguna vez han robado.
ˆ τ = Nˆ π
donde: N = 15, 000 y ˆ π = 0.23
Por lo tanto:
ˆ τ = (15000)(0.23) = 3,450 ciudadanos
c) Estime la varianza y la desviación estándar de la proporción.
S
2
ˆ π
=

N −n
N

1
n
¸
1
16(p −1/2)
2

ˆ π −
1
2

2
¸
donde: N = 15, 000, ˆ π = 0.23, n = 250
Por lo tanto:
S
2
ˆ π
=

15, 000 −250
15, 000

1
250
¸
1
16(5/6 −1/2)
2

0.23 −
1
2

2
¸
= 0.00192576
183
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
S
ˆ π
=

S
2
ˆ π
=

0.00192576 = 0.043883482
d) Construya un IC de la proporción de interés con una confiabilidad de
95%.
ˆ π ±Z
α/2

S
2
ˆ π
donde: ˆ π = 0.23, Z
α/2
= Z
0.025
= 1.96, Sˆ π = 0.043883482
Por lo tanto:
0.23 ±(1.96)(0.0438)
0.23 ±0.086011625
0.143988375 ≤ π ≤ 0.316011625
Esto significa que la proporción de ciudadanos que han robado alguna vez
en su vida está entre 0.143988375 y 0.316011625, es decir, entre 14.39 y
31.60%.
e) Contruya un IC para el total con una confiabilidad de 95%.
ˆ τ ±NZ
α/2

S
2
ˆ π
donde: ˆ τ = 3,450, N = 15,000, Z
α/2
= Z
0.025
= 1.96 y Sˆ π = 0.043883482
Por lo tanto:
(15, 000)(0.23) ±(15, 000)(1.96)(0.0438)
(15, 000)(0.23) ±(15, 000)(0.0860)
3450 ±1290.17437
2,159.82563 ≤ τ ≤ 4,4740.17437
Esto significa que el total de ciudadanos que alguna vez han robado se en-
cuentra entre 2,159.82563 y 4,740.17437.
f) Suponga que n = 250 ciudadanos es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar la proporción verdadera con una precisión de
3 % de la proporción preliminar y una confiabilidad de 95 %?
n =
N(Z
2
α/2
)k
Nd
2
+ NZ
2
α/2
k
donde:
N = 15,000: el tamaño de la población
Z
α/2
= 1.96
p =
5
6
ˆ π = 0.23
d = (0.03)(0.23) = 0.0069
184
k =
1
16(5/6 −1/2)
2

0.23 −
1
2

2
= 0.4896
Por lo tanto:
n =
(15,000)(1.96
2
)(0.4896)
(15000)(0.004388)
2
+ (1.96
2
)(0.4896)
= 267.7214 ciudadanos (unidades
muestrales)
g) Suponga que n = 250 ciudadanos es una muestra preliminar. ¿Cuál es el
tamaño de muestra necesario para estimar el total poblacional con una pre-
cisión de 3 % del total preliminar y con una confiabilidad de 95 %?
n =
N
2
Z
2
α/2
k
d
2
+ NZ
2
α/2
k
donde:
N = 15, 000: el tamaño de la población
Z
α/2
= 1.96
p =
5
6
ˆ τ = 3, 450
d = (0.03)(3, 450) = 103.5
k =
1
16(5/6 −1/2)
2

0.23 −
1
2

2
= 0.4896
Por lo tanto:
n =
(15, 000)
2
(1.96
2
)(0.4896)
(103.5
2
) + (15,000)(1.96
2
)(0.4896)
= 267.7214 ciudadanos (mues-
tra)
Ejemplo 3. En el estado de Colima se realiza una encuesta con la intención de
estimar la proporción de ciudadanos que han usado juguetes sexuales alguna
vez en su vida. Se supone N = 7, 000. Como es una pregunta delicada se usó
el método de respuesta aleatorizada con p =
5
6
. Se entrevistó aleatoriamente a
n = 160 ciudadanos. Los resultados indican 40 respuestas de "sí" de entre los
160 entrevistados.
a) Calcule la proporción de interés.
ˆ π =
p −1
2p −1
+
a
(2p −1)n
donde: a = Σ
n
i=1
y
i
= 40, p =
5
6
y n = 160
por lo tanto:
ˆ π =
5/6 −1
2(5/6) −1
+
40
(2(5/6) −1)160
= 0.125 ó 12.5% de ciudadanos
Esto significa que la proporción de ciudadanos que alguna vez en su vida han
185
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
usado juguetes sexuales es de 0.125, es decir el 12.5 %
b) Realice la estimación del total de ciudadanos que alguna vez han usado
juguetes sexuales.
ˆ τ = Nˆ π
donde: N = 7,000 y ˆ π = 0.125
Por lo tanto:
ˆ τ = (7000)(0.125) = 875 ciudadanos
c) Obtenga la varianza y la desviación estándar de la proporción.
S
2
ˆ π
=

N −n
N

1
n
¸
1
16(5/6 −1/2)
2

ˆ π −
1
2

2
¸
donde: N = 7,000, ˆ π = 0.125, p =
5
6
, n = 160
por lo tanto:
S
2
ˆ π
=

7000 −160
7000

1
160
¸
1
16(5/6 −1/2)
2

0.125 −
1
2

2
¸
= 0.00257645
S
ˆ π
=

S
2
ˆ π
=

0.00257645 = 0.050758752
d) Construya un IC para la proporción de interés con una confiabilidad de
95 %.
ˆ π ±Z
α/2

S
2
ˆ π
donde: ˆ π = 0.125, Z
α/2
= Z
0.025
= 1.96 y S
ˆ π
= 0.050758752
Por lo tanto:
0.125 ±(1.96)(0.05007)
0.125 ±0.099487154
0.025512846 ≤ π ≤ 0.224487154
Esto significa que la proporción de ciudadanos que alguna vez en su vida
han usado juguetes sexuales está entre 0.02551 y 0.2244, o sea, entre 2.55 y
22.44%.
e) Obtenga un IC del total con una confiabilidad de 95 %.
ˆ τ ±NZ
α/2

S
2
ˆ π
donde: ˆ τ = 875, N = 7,000, Z
α/2
= Z
0.025
= 1.96 y Sˆ π = 0.050758
186
Por lo tanto:
(7, 000)(0.125) ±(7, 000)(1.96)(0.09948)
(7, 000)(0.125) ±(7, 000)(0.07740)
875 ±696.4100
178.5899 ≤ τ ≤ 1571.41008
Esto significa que el total verdadero de ciudadanos que alguna vez han usa-
do juguetes sexuales se encuentra entre 178.58 y 1,571.41.
f) Suponga que n = 160 ciudadanos es una muestra preliminar. ¿Cuál es el
tamaño de muestra necesario para estimar la proporción poblacional con una
precisión de 5 % de la proporción preliminar y una confiabilidad de 95 %?
n =
NZ
2
α/2
k
Nd
2
+ Z
2
α/2
k
donde:
ˆ π = 0.125
N = 7, 000: el tamaño de la población
Z
α/2
= 1.96
p =
5
6
d = (0.05)(0.125) = 0.00625
k =
1
16(5/6 −1/2)
2

0.125 −
1
2

2
= 0.4218
Por lo tanto:
n =
(7, 000)(1.96
2
)(0.4218)
(7, 000)(0.05075)
2
+ (1.96
2
)(0.4218)
= 250.045321 ciudadanos (mues-
tra)
g) Suponga que n = 160 ciudadanos es una muestra preliminar. ¿Cuál es el
tamaño de muestra necesario para estimar el total con una precisión de 5 %
del total preliminar y una confiabilidad de 95 %?
n =
N
2
Z
2
α/2
k
d
2
+ NZ
2
α/2
k
donde:
N = 7, 000: el tamaño de la población
Z
α/2
= 1.96
p =
5
6
ˆ τ = 875
d = (0.05)(875) = 43.75
k =
1
16(5/6 −1/2)
2

0.125 −
1
2

2
= 0.421875
Por lo tanto:
187
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
n =
(7000)
2
(1.96
2
)(0.4218)
(43.75)
2
+ (7000)(1.96
2
)(0.4218)
= 250.045321 ciudadanos (mues-
tra)
Ejemplo 4. En el estado de Colima se realiza una encuesta con la intención
de calcular la proporción de ciudadanos N = 5,000 que han vendido su voto
alguna vez en su vida. Dado que se trata de una pregunta delicada, se empleó
el método de respuesta aleatorizada con p =
5
6
. Se tomó una muestra aleatoria
simple de 250 ciudadanos a quienes se les entrevistó. En los resultados se
encontraron 60 respuestas de "sí".
a) Estime la proporción poblacional de interés.
ˆ π =
p −1
2p −1
+
a
(2p −1)n
donde: a = Σ
n
i=1
y
i
= 60, p =
5
6
y n = 250
Por lo tanto:
ˆ π =
5/6 −1
2(5/6) −1
+
60
(2(5/6) −1)250
= 0.11
Esto significa que la proporción de ciudadanos en el estado de Colima que
alguna vez en su vida han vendido su voto es de 0.11, es decir el 11 %
b) Calcule el total de ciudadanos que alguna vez han vendido su voto.
ˆ τ = Nˆ π
donde: N = 5,000 y ˆ π = 0.11
Por lo tanto:
ˆ τ = (5, 000)(0.11) = 550
Esto significa que el total de ciudadanos de Colima que alguna vez han vendido
su voto es de 550.
c) Haga la estimación de la varianza y la desviación estándar de la propor-
ción.
S
2
ˆ π
=

N −n
N

1
n
¸
1
16(p −1/2)
2

ˆ π −
1
2

2
¸
donde: N = 5, 000, ˆ π = 0.11, p =
5
6
, n = 250
Por lo tanto:
188
S
2
ˆ π
=

5, 000 −250
5, 000

1
250
¸
1
16(5/6 −1/2)
2

0.11 −
1
2

2
¸
= 0.00156
S
ˆ π
=

S
2
ˆ π
=

0.00156 = 0.039490758
d) Haga un IC de la proporción de interés con una confianza de 95 %
ˆ π ±Z
α/2

S
2
ˆ π
donde: ˆ π = 0.11, Z
α/2
= Z
0.025
= 1.96 y S
ˆ π
= 0.039490758
por lo tanto:
0.11 ±(1.96)(0.0395)
0.11 ±0.077401886
0.032598114 ≤ π ≤ 0.187401886
Por lo tanto, la proporción de ciudadanos que alguna vez en su vida han ven-
dido su voto está entre 0.03259 y 0.1874, es decir, entre 3.25 y 18.74%.
e) Cree un IC del total con una confiabilidad de 95 %.
ˆ τ ±NZ
α/2

S
2
ˆ π
donde: ˆ τ = 550, N = 5, 000, Z
α/2
= Z
0.025
= 1.96 y S
ˆ π
= 0.039490758
Por lo tanto:
(5, 000)(0.11) ±(5, 000)(1.96)(0.0395)
(5, 000)(0.11) ±(5, 000)(0.07740)
550 ±387.0094
162.9905 ≤ τ ≤ 937.0094
Esto significa que el total de ciudadanos que alguna vez ha vendido su voto
está entre 162.9905 y 937.0094 personas.
f) Suponga que n = 250 ciudadanos es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar la proporción verdadera con una precisión de
5 % de la proporción preliminar y una confiabilidad de 95 %?
n =
NZ
2
α/2
k
Nd
2
+ Z
2
α/2
k
donde:
ˆ π = 0.11 N = 5, 000: el tamaño de la población
Z
α/2
= 1.96
p =
5
6
d = (0.05)(0.11) = 0.0055
189
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
k =
1
16(5/6 −1/2)
2

0.11 −
1
2

2
= 0.4104
Por lo tanto:
n =
(5000)(1.96
2
)(0.4104)
(5000)(0.03949)
2
+ (1.96
2
)(0.4104)
= 271.110281 ciudadanos (mues-
tra)
g) Suponga que n = 250 ciudadanos es una muestra preliminar. ¿Cuál es
el tamaño de muestra necesario para estimar el total verdadero con una pre-
cisión de 5 % del total preliminar con una confiabilidad de 95 %?
n =
N
2
Z
2
α/2
k
d
2
+NZ
2
α/2
k
donde:
N = 5000: el tamaño de la población
Z
α/2
= 1.96
p =
5
6
ˆ τ = 550
d = (0.05)(550) = 27.5
k =
1
16(5/6 −1/2)
2

0.11 −
1
2

2
= 0.4104
Por lo tanto:
n =
(5000)
2
(1.96
2
)(0.4104)
(27.5)
2
+ (5000)(1.96
2
)(0.4104)
= 271.110281
Por lo tanto, el número estimado de unidades muestrales (ciudadanos) que
deben constituir a la muestra para tener una precisión de ±27.5 con 0.95 de
probabilidad de incluir en el intervalo de estimación al total es de 272 ciu-
dadanos.
190
7.4. Ejercicios
En los siguientes ejercicios estime los parámetros siguientes:
a) El IC para la proporción y el total con una confiabilidad de 95%.
b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar la proporción y el total de tal manera
que sean estimados con una precisión de 5% de la proporción y el total pre-
liminar con una confiabilidad de 95%?
Ejercicio 1. Un psicólogo está realizando un estudio para conocer el número
de homosexuales en el estado de Colima (N = 28, 000). Dado que se trata de
una pregunta delicada, se usó el método de respuesta aleatorizada con p =
5
6
.
Se tomó una muestra aleatoria simple de n = 200 hombres. En los resultados
se encontraron 45 respuestas de "sí" de los entrevistados.
Ejercicio 2. En el estado de Colima se está realizando un estudio de personas
que alguna vez han tenido tendencias de robo menor (N = 50, 000). Dado que
se trata de una pregunta delicada, se usó el método de respuesta aleatorizada
con p =
5
6
. Se tomó una muestra aleatoria simple de n = 200 personas. En los
resultados se encontraron 37 respuestas de "sí" de los entrevistados.
Ejercicio 3. Un psicólogo está realizando un estudio para conocer el número
de mujeres que han sufrido algún tipo de abuso sexual por parte de un famil-
iar (N = 10, 000). Dado que se trata de una pregunta delicada, se usó el método
de respuesta aleatorizada con p =
5
6
. Se tomó una muestra aleatoria simple de
n = 500 mujeres. Se encontraron 20 respuestas de "sí" de los entrevistados.
Ejercicio 4. Un médico desea hacer un estudio para conocer el número de
personas que han consumido algún tipo de droga prohibida en el municipio
de Coquimatlán del estado de Colima. (N = 5, 000). Dado que se trata de una
pregunta delicada, se usó el método de respuesta aleatorizada con p =
5
6
. Se
tomó una muestra aleatoria simple de n = 150 personas. En los resultados se
encontraron 90 respuestas de "sí" de los entrevistados.
7.5. El modelo de respuesta aleatorizada bajo el
MAE
Cuando la población es heterogénea se sugiere formar estratos para mejo-
rar la precisión de las estimaciones. Los criterios para formar los estratos son
exactamente los mismos que en el MAE. Por lo tanto, para cada estrato se
debe conocer su tamaño y no deben traslaparse y además se debe contar con
un marco de muestreo confiable para tener una tasa de respuesta en blanco
muy cercana a cero. Por otro lado, ya que se determine el tamaño de muestra
con la expresión correspondiente, la asignación de la muestra se realizará en
191
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
forma proporcional, por su simplicidad y aceptación práctica. El procedimien-
to del método de respuesta aleatorizada en MAE es exactamente el mismo que
MAS. Por lo tanto, cada individuo que conformará la muestra se entrevistará
con el mismo procedimiento del método de respuesta aleatorizada bajo el MAS,
con la diferencia que ahora el tamaño de muestra n se asigna en forma pro-
porcional a cada estrato, es decir, n = n
1
+ n
2
+ ... + n
E
.
A continuación se presentan los estimadores necesarios del método en su ver-
sión estratificada.
7.5.1. El estimador de la proporción y el total poblacional
ˆ π
st
=
N
1
ˆ π
1
+ N
2
ˆ π
2
+ .... + N
E
ˆ π
E
N
ˆ τ
st
= Nˆ π
st
Si p =
1
2
es igual en cada estrato, entonces el estimador de máxima verosimili-
tud de π
h
es :
ˆ π
h
=
p −1
2p −1
+
a
h
(2p −1)n
h
; h = 1, 2, ..., E
donde:
p : la fracción de letras en el mazo de cartas marcadas con la letra A,
a
h
: el total de respuestas afirmativas ("sí") de los n
h
entrevistados en el estrato
h,
Se necesita la varianza de estos estimadores para determinar la dispersión
de los datos y saber la precisión de las estimaciones.
7.5.2. La varianza de los estimadores de la proporción y to-
tal poblacional
S
2
ˆ π
st
=
E
¸
h=1

N
h
N

2

N
h
−n
h
N
h

1
n
h
¸
1
16(p −1/2)
2

ˆ π
h

1
2

2
¸
S
2
ˆ τ
st
= N
2
E
¸
h=1

N
h
N

2

N
h
−n
h
N
h

1
n
h
¸
1
16(p −1/2)
2

ˆ π
h

1
2

2
¸
Con los estimadores de las varianzas de ˆ π
st
y ˆ τ
st
se puede calcular intervalos
que contengan el valor del parámetro con una probabilidad preestablecida.
7.5.3. El intervalo de confianza para el promedio y total
poblacional
Los intervalos de confianza para π
st
y τ
st
son:
ˆ π
st
±Z
α/2

S
2
ˆ π
st
192
ˆ τ
st
±Z
α/2

S
2
ˆ τ
st
7.5.4. El tamaño de la muestra para estimar la proporción y
el total
El tamaño de muestra para estimar la proporción
Fijando la precisión d = Z
α/2

S
2
ˆ π
st

se tiene que:
n =
NZ
2
α/2
¸
E
h=1
W
h
K
h
Nd
2
+ Z
2
α/2
¸
E
h=1
W
h
K
h
donde:
K
h
=
1
16(p −1/2)
2

ˆ π
h

1
2

2
N = el tamaño de la población
ˆ π
h
= la proproción de interés en el estrato h
Z
α/2
= el valor de tablas de la distribución normal
p = la proporción de cartas que están marcadas con la letra A
d = la precisión fijada por el investigador
El tamaño de muestra para estimar el total
n =
N
2
(Zα/2)
2
Σ
E
h=1
W
h
K
h
d
2
+ N(Z
α/2
)
2
Σ
E
h=1
W
h
K
h
donde:
K
h
=
1
16(p −1/2)
2

ˆ π
h

1
2

2
N= el tamaño de la población
ˆ π
h
= la proproción de interés en el estrato h
Z
α/2
= el valor de tablas de la distribución normal
p= la proporción de cartas que están marcadas con la letra A
d= la precisión fijada por el investigador
7.5.5. Ejemplos
Ejemplo 1. Una investigadora de la U de C está interesada en estimar la pro-
porción de mujeres infieles en el estado (se encontró que las mujeres que están
casadas por lo civil es de N = 10, 000 ). Obviamente, es una pregunta delicada y
por eso se usó el método de respuesta aleatorizada. Además, la investigadora
cree que el nivel socioeconómico influye en la infidelidad, por lo que clasificó
a la población en tres estratos: clase baja, (estrato 1), media (estrato 2) y al-
ta (estrato 3). La población de cada estrato es de N
1
= 4, 500, N
2
= 3, 500 y
N
3
= 2, 000. Para el estudio se tomó una muestra aleatoria simple de n = 200
193
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
señoras distribuidas de la siguiente manera: n
1
= 80, n
2
= 65 y n
3
= 55 señoras.
Las respuestas de ”sí” en las entrevistas por estrato son: 14 para el estrato 1,
16 para el estrato 2 y 17 para el estrato 3. En este caso p =
5
6
.
a) Calcule la proporción de mujeres infieles en el estado.
ˆ π
st
=
N
1
ˆ π
1
+N
2
ˆ π
2
+.... + N
E
ˆ π
E
N
donde:
ˆ π
h
=
p −1
2p −1
+
a
h
2p −1
; h = 1, 2, ..., E, N
1
= 4, 500, N
2
= 3, 500, N
3
= 2, 000, n
1
=
80, n
2
= 65, n
3
= 55
a
1
= 14, a
2
= 16, a
3
= 17, p =
5
6
Por lo tanto:
ˆ π
1
=
5/6 −1
2(5/6) −1
+
14
(2(5/6) −1)80
= 0.0125
ˆ π
2
=
5/6 −1
2(5/6) −1
+
16
(2(5/6) −1)65
= 0.1199
ˆ π
3
=
5/6 −1
2(5/6) −1
+
17
(2(5/6) −1)55
= 0.2136
ˆ π
st
=
(4500)(0.0125) + (3500)(0.1199) + (2000)(0.2136)
10000
= 0.0901 ó 9%
de mujeres infieles
b) Determine el total de mujeres infieles en el estado
ˆ τ
st
= Nˆ π
st
donde:
N = 10,000 el total de mujeres casadas por lo civil en el estado de Colima
ˆ π
st
= 0.0901: la proporción de mujeres infieles en el estado
Por lo tanto:
ˆ τ
st
= (10000)(0.090) = 900.8304
Esto significa que el total de mujeres infieles en el estado de Colima es de
900.8304
c) Estime la varianza y la desviación estándar de la proporción.
S
2
ˆ π
st
=
E
¸
h=1

N
h
N

2

N
h
−n
h
N
h

1
n
h
¸
1
16(p −1/2)
2

ˆ π
h

1
2

2
¸
donde:
N = 10, 000 el total de mujeres casadas por lo civil en el estado
E = 3 los estratos en los que está dividida la población en estudio
N
1
= 4, 500, N
2
= 3, 500, N
3
= 2, 000
n
1
= 80, n
2
= 65, n
3
= 55
194
a
1
= 14, a
2
= 16, a
3
= 17
p =
5
6
ˆ π
1
= 0.0125
ˆ π
2
= 0.1192
ˆ π
3
= 0.2136
Por lo tanto:
S
2
ˆ π
st
=

4500
10000

2

4500 −80
4500

1
80
¸
1
16 (5/6 −1/2)
2

0.0125 −
1
2

2
¸
+

3500
10000

2

3500 −65
3500

1
65
¸
1
16 (5/6 −1/2)
2

0.1192 −
1
2

2
¸
+

2000
10000

2

2000 −55
2000

1
55
¸
1
16 (5/6 −1/2)
2

0.2136 −
1
2

2
¸
= 0.0019
S
ˆ π
st
=

S
2
ˆ π
st
=

0.0019 = 0.0438
d) Construya un IC para la proporción de interés con una confiabilidad de
95 %.
ˆ π
st
±Z
α/2

S
2
ˆ π
st
donde:
ˆ π
st
= 0.0901: la proporción de mujeres infieles en el estado
α = 0.05
Z
α/2
= 1.96

S
2
ˆ π
st
= 0.0438
Por lo tanto:
0.0901 ±(1.96)(0.0438)
0.0901 ±0.0859
0.0042 ≤ π
st
≤ 0.1760
Esto significa que la proporción de mujeres infieles casadas por lo civil en
el estado de Colima está entre 0.0042 y 0.1760.
e) Haga un IC del total de interés con una confiabilidad de 95 %.
ˆ τ
st
±Z
α/2

S
2
ˆ τ
st
donde:
ˆ τ
st
= 900.83042
N = 10,000 el total de mujeres casadas por lo civil en el estado de Colima

S
2
ˆ τ
st
= 0.0438
α = 0.05
Z
α/2
= 1.96
195
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada

S
2
ˆ τ
st
= (10, 000)(0.0438) = 438.1468
Por lo tanto:
900.8304 ±(1.96)(438.1468)
900.8304 ±858.7519
42.0785 ≤ τ
st
≤ 1, 759.5824
Esto significa que el total de mujeres infieles casadas por lo civil está entre
42.0785 y 1,759.5824.
f) Suponga que n = 200 mujeres es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar la proporción poblacional con una precisión
de 75 % de la proporción preliminar y una confiabilidad de 95 %?
n =
NZ
2
α/2
Σ
E
h=1
W
h
K
h
Nd
2
+ Z
2
α/2
Σ
E
h=1
W
h
K
h
donde:
K
h
=
1
16(p −1/2)
2

ˆ π
h

1
2

2
W
h
=
N
h
N
; h = 1, 2, 3
N = 10,000 : total de mujeres casadas por lo civil en el estado de Colima
Z
α/2
= 1.96
p =
5
6
K
1
=
1
16 (5/6 −1/2)
2

0.0125 −
1
2

2
= 0.3248
K
2
=
1
16 (5/6 −1/2)
2

0.1192 −
1
2

2
= 0.4175
K
3
=
1
16 (5/6 −1/2)
2

0.2136 −
1
2

2
= 0.4805
E
¸
h=1
W
h
k
h
=
4,500
10,000
(0.3248) +
3,500
10,000
(0.4175) +
2,000
10,000
(0.4805) = 0.3884
d = (0.75)(0.0901) = 0.0676
Por lo tanto:
n =
(10,000)(1.96)
2
0.3884
(10,000)(0.0676)
2
+ (1.96)
2
(0.3884)
= 316.5251 mujeres casadas
(muestra)
La asignación de la muestra en forma proporcional
n
1
=
N
1
N
n =
4,500
10,000
(317) = 143
n
2
=
N
2
N
n =
3,500
10,000
(317) = 111
196
n
3
=
N
3
N
n =
2,000
10,000
(317) = 63
Por lo tanto, la muestra requerida para cada estrato queda distribuida de la
siguiente manera: 143 mujeres para el estrato 1, 111 para el estrato 2 y 63
para el estrato 3.
g) Suponga que n = 200 mujeres es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar el total verdadero con una precisión de 75 %
del total preliminar y una confiabilidad de 95 %?
n =
N
2
(Z
α/2
)
2
Σ
E
h=1
W
h
K
h
d
2
+ N(Z
α/2
)
2
Σ
E
h=1
W
h
K
h
donde:
K
h
=
1
16(p −1/2)
2

ˆ π
h

1
2

2
W
h
=
N
h
N
; h = 1, 2, 3
N = 10,000 el total de mujeres casadas por lo civil en el estado de Colima
α = 0.05
Z
α/2
= 1.96
p =
5
6
K
1
=
1
16 (5/6 −1/2)
2

0.0125 −
1
2

2
= 0.3248
K
2
=
1
16 (5/6 −1/2)
2

0.1192 −
1
2

2
= 0.4175
K
3
=
1
16 (5/6 −1/2)
2

0.2136 −
1
2

2
= 0.4805
E
¸
h=1
W
h
k
h
=
4,500
10,000
(0.3248) +
3,500
10,000
(0.4175) +
2,000
10,000
(0.4805) = 0.3884
ˆ τ
st
= 900.83042
d = (0.75)(900.83042) = 675.6228
Por lo tanto:
n =
(10,000)
2
(1.96)
2
(0.3884)
(675.6228)
2
+ (10,000)(1.96)
2
(0.3884)
= 316.5251 mujeres casadas
(unidades muestrales)
Dado que el tamaño de muestra es el mismo, la distribución queda con 143
mujeres para el estrato 1, 111 para el estrato 2 y 63 para el estrato 3.
Ejemplo 2. Una persona está interesada en estimar la proporción de mujeres
jóvenes que han abortado en Manzanillo (el total de jóvenes es N = 15,000).
Además, la persona cree que el nivel social influye en tal problema, por lo que
clasificó a la población en dos estratos: clase baja (estrato 1) y clase alta (es-
trato 2), donde la población de cada estrato es N
1
= 10,000 y N
2
= 5,000. Para
el estudio se tomó una muestra aleatoria simple (n = 300) de la población obje-
197
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
tivo, que se distribuyó de la siguiente manera: n
1
= 200 y n
2
= 100 jóvenes. El
número de respuestas de ”sí” por estrato fue de 50 para el estrato uno y de 30
para el estrato dos. En este caso p =
5
6
.
a) Realice la estimación de la proporción de mujeres que han abortado en
Manzanillo.
ˆ π
st
=
N
1
ˆ π
1
+N
2
ˆ π
2
+.... + N
E
ˆ π
E
N
ˆ π
h
=
p −1
2p −1
+
a
h
(2p −1)n
h
; h = 1, 2, ..., E
donde:
N
1
= 10, 000 y N
2
= 5, 000
n
1
= 200 y n
2
= 100
a
1
= 50 y a
2
= 30
p =
5
6
Por lo tanto:
ˆ π
1
=
5/6 −1
(2 (5/6) −1)
+
50
(2 (5/6) −1) 200
= 0.125
ˆ π
2
=
5/6 −1
(2 (5/6) −1)
+
30
(2 (5/6) −1) 100
= 0.2
ˆ π
st
=
(10, 000) (0.125) + (5, 000) (0.2)
15, 000
= 0.15
Esto significa que la proporción de mujeres que han abortado en Manzani-
llo es de 0.15, es decir, el 15 %
b) Calcule el total de mujeres que han abortado en Manzanillo.
ˆ τ
st
= Nˆ π
st
donde:
N = 15, 000 el total de jóvenes que han abortado
ˆ π
st
= 0.15 la proporción de jóvenes que han abortado
Por lo tanto:
ˆ τ
st
= (15, 000)(0.15) = 2,250 mujeres
c) Obtenga la varianza y la desviación estándar de la proporción.
S
2
ˆ π
st
=
E
¸
h=1

N
h
N

2

N
h
−n
h
N
h

1
n
h
¸
1
16(p −1/2)
2

ˆ π
h

1
2

2
¸
donde:
N = 10, 000: el total de jóvenes que han abortado
E = 2: los estratos en los que está dividida la población del estudio
198
N
1
= 10, 000 y N
2
= 5, 000
n
1
= 200 y n
2
= 100
a
1
= 50 y a
2
= 30
p =
5
6
ˆ π
1
= 0.125
ˆ π
2
= 0.2
Por lo tanto:
S
2
ˆ π
st
=

10000
15000

2

10000 −200
10000

1
200
¸
1
16 (5/6 −1/2)
2

0.125 −
1
2

2
¸
+

5000
15000

2

5000 −100
5000

1
100
¸
1
16 (5/6 −1/2)
2

0.2 −
1
2

2
¸
= 0.0014
La desviación estándar de la proporción es igual a 0.0379.
d) Elabore un IC para la proporción de interés con una confiabilidad de 95 %.
ˆ π
st
±Z
α/2

S
2
ˆ π
st
donde:
ˆ π
st
= 0.15: la proporción de jóvenes que han abortado
α = 0.05
Z
α/2
= 1.96

S
2
ˆ π
st
= 0.0379
Por lo tanto:
(0.15) ±(1.96)(0.0379)
(0.15) ±(0.0742)
0.0758 ≤ π
st
≤ 0.2242
Entonces, se estima que la proporción de mujeres jóvenes que han aborta-
do en Manzanillo está entre 0.0758 y 0.2242.
e) Haga un IC del total de interés con una confiabilidad de 95 %.
ˆ τ
st
±Z
α/2

S
2
ˆ τ
st
donde:
ˆ τ
st
= 2,250

S
2
ˆ τ
st
= N

S
2
ˆ π
st
N = 15, 000 :el total de jóvenes

S
2
ˆ π
st
= 0.0379
α = 0.05
Z
α/2
= 1.96
199
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada

S
2
ˆ τ
st
= (15000)(0.379) = 567.8743
Por lo tanto:
2250 ±(1.96)(567.8743)
2250 ±1, 113.0132
1, 136.9868 ≤ τ
st
≤ 3, 363.0132
Por lo tanto, el total de mujeres jóvenes que han abortado está entre 1,136.9868
y 3,363.0132.
f) Suponga que n = 300 mujeres jóvenes es una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar la proporción verdadera con una pre-
cisión de 49 % de la proporción preliminar y una confiabilidad de 95 %?
n =
NZ
2
α/2
Σ
E
h=1
W
h
K
h
Nd
2
+ Z
2
α/2
Σ
E
h=1
W
h
K
h
donde:
K
h
=
1
16 (p −1/2)
2

ˆ π
h

1
2

2
W
h
=
N
h
N
; h = 1, 2, 3
N = 15,000: el total jóvenes
Z
α/2
= 1.96
p =
5
6
K
1
=
1
16 (5/6 −1/2)
2

0.125 −
1
2

2
= 0.4219
K
2
=
1
16 (5/6 −1/2)
2

0.2 −
1
2

2
= 0.4725
Σ
E
h=1
W
h
k
h
=
10, 000
15, 000
(0.4219) +
5, 000
15, 000
(0.4725) = 0.4388
d = (0.49)(0.15) = 0.0735
Por lo tanto:
n =
(15, 000)
2
(1.96)
2
(0.4388)
(15, 000)(0.0735)
2
+ (1.96)
2
(0.4388)
= 305.6316 mujeres jóvenes
(muestra)
La asignación de la muestra en forma proporcional
n
1
=
N
1
N
n =
10, 000
15, 000
(306) = 204 para el estrato 1
n
2
=
N
2
N
n =
5, 000
15, 000
(306) = 102 para el estrato 2
200
g) Suponga que n = 300 jóvenes es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar el total con una precisión de 49 % del total
preliminar y una confiabilidad de 95 %?
n =
N
2
Z
2
α/2
Σ
E
h=1
W
h
K
h
d
2
+ NZ
2
α/2
Σ
E
h=1
W
h
K
h
donde:
K
h
=
1
16 (p −1/2)
2

ˆ π
h

1
2

2
W
h
=
N
h
N
; h = 1, 2, 3
N = 15, 000: el total de jóvenes
α = 0.05
Z
α/2
= 1.96
p =
5
6
K
1
=
1
16 (5/6 −1/2)
2

0.125 −
1
2

2
= 0.4219
K
2
=
1
16 (5/6 −1/2)
2

0.2 −
1
2

2
= 0.4725
E
¸
h=1
W
h
k
h
=
10, 000
15, 000
(0.4219) +
5, 000
15, 000
(0.4725) = 0.4388
ˆ τ
st
= 2250
d = (0.49)(2250) = 1, 102.50
Por lo tanto:
n =
(15, 000)
2
(1.96
2
)(0.4388)
(1, 102.50)
2
+ (15, 000)(1.96
2
)(0.4388)
= 305.6316 mujeres jóvenes
(muestra)
Dado que el tamaño de muestra es el mismo, la distribución queda con 204
jóvenes para el estrato 1 y 102 para el estrato 2.
Ejemplo 3. Un sexólogo desea realizar una investigación para conocer el número
de mujeres que han tenido relaciones sexuales premaritales en la ciudad de
Colima (se encontró que el número de mujeres era de N = 40, 000). Además, se
piensa que el nivel de vida influye en la decisión de tener relaciones sexuales
antes del matrimonio, por lo que se clasificó a la población en tres estratos:
pobres (estrato 1), nivel medio (estrato 2) y ricas (estrato 3). La población de
cada estrato es N
1
= 19, 000, N
2
= 16, 000 y N
3
= 5, 000. Para el estudio se tomó
una muestra aleatoria simple de la población de mujeres distribuidas de la
siguiente manera: n
1
= 2, 000, n
2
= 1, 400 y n
3
= 600 mujeres. Las respuestas
de ”sí” en las entrevistas por estrato son: 520 para el estrato 1, 360 para el
estrato 2 y 180 para el estrato 3. En este caso p =
3
4
.
a) Calcule la proporción de mujeres que han tenido relaciones sexuales
antes del matrimonio.
201
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
ˆ π
st
=
N
1
ˆ π
1
+N
2
ˆ π
2
+.... + N
E
ˆ π
E
N
ˆ π
h
=
p −1
2p −1
+
a
h
(2p −1)n
h
; h = 1, 2, ..., E
donde:
N
1
= 19, 000, N
2
= 16, 000, N
3
= 5, 000
n
1
= 2, 000, n
2
= 1, 400, n
3
= 600
a
1
= 520, a
2
= 360, a
3
= 180
p =
3
4
Por lo tanto:
ˆ π
1
=
3/4 −1
2 (3/4) −1
+
520
(2 (3/4) −1) 2, 000
= 0.02
ˆ π
2
=
3/4 −1
2 (3/4) −1
+
360
(2 (3/4) −1) 1, 400
= 0.0142
ˆ π
3
=
3/4 −1
2 (3/4) −1
+
180
(2 (3/4) −1) 600
= 0.1
ˆ π
st
=
(19000) (0.02) + (16000) (0.0142) + (5000) (0.1)
40000
= 0.0277
Por lo tanto, se estima que la proporción de mujeres que han tenido relaciones
antes del matrimonio es de 0.0277 ó 2.77 %.
b) Determine el total de mujeres que han tenido relaciones sexuales antes
del matrimonio.
ˆ τ
st
= Nˆ π
st
donde:
N = 40, 000 : el total de mujeres en el estado de Colima
ˆ π
st
= 0.0277 : la proporción de mujeres que han tenido relaciones sexuales antes
del matrimonio
Por lo tanto:
ˆ τ
st
= (40, 000)(0.0277) = 1, 108.5714 mujeres
c) Estime la varianza y la desviación estándar de la proporción.
S
2
ˆ π
st
=
E
¸
h=1

N
h
N

2

N
h
−n
h
N
h

1
n
h
¸
1
16(p −1/2)
2

ˆ π
h

1
2

2
¸
donde:
N = 40, 000 : el total de mujeres en el estado de Colima
E = 3 : los estratos en los que está dividida la población bajo estudio
N
1
= 19, 000, N
2
= 16, 000, N
3
= 5, 000
n
1
= 2, 000, n
2
= 1, 400, n
3
= 600
a
1
= 520, a
2
= 360, a
3
= 180
202
p =
3
4
ˆ π
1
= 0.02
ˆ π
2
= 0.0142
ˆ π
3
= 0.1
Por lo tanto:
S
2
ˆ π
st
=

19000
40000

2

19000 −2000
19, 000

1
2000
¸
1
16 (3/4 −1/2)
2

0.02 −
1
2

2
¸
+

16000
40000

2

16000 −1, 400
16000

1
1400
¸
1
16 (3/4 −1/2)
2

0.0142 −
1
2

2
¸
+

5000
40000

2

5000 −600
5000

1
600
¸
1
16 (3/4 −1/2)
2

0.01 −
1
2

2
¸
= 0.0002
S
ˆ π
st
=

(0.0002) = 0.0133
d) Haga un IC para la proporción de interés con una confiabilidad de 95 %.
ˆ π
st
±Z
α/2

S
2
ˆ π
st
donde:
ˆ π
st
= 0.0277 : la proporción de mujeres que han tenido relaciones sexuales antes
del matrimonio
α = 0.05
Z
α/2
= 1.96

S
2
ˆ π
st
= 0.0133
Por lo tanto:
0.0277 ±(1.96)(0.0133)
0.0277 ±0.0260
0.0017 ≤ π
st
≤ 0.0538
Por lo que se estima que la proporción de mujeres que han tenido relaciones
sexuales antes del matrimonio está entre 0.0017 y 0.0538.
e) Construya un IC para el total de interés con una confiabilidad de 95 %.
ˆ τ
st
±Z
α/2

S
2
ˆ τ
st
donde:
τ = 412.7946
ˆ τ
st
= Nˆ π
st
N = 40, 000 : el total de mujeres en el estado de Colima

S
2
ˆ π
st
= 0.0133
α = 0.05
Z
α/2
= 1.96

S
2
ˆ τ
st
= (40, 000)(0.0133) = 531.5853
203
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
por lo tanto:
1, 108.5714 ±(1.96)(531.5853)
1, 108.5714 ±1041.8879
66.6835 ≤ τ
st
≤ 2, 150.4594.
Esto es, se estima que el total de mujeres que han tenido relaciones sexua-
les antes del matrimonio está entre 66.6835 y 2,1501.4594.
f) Suponga que n = 4, 000 personas es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar la proporción poblacional con una precisión
de 75 % de la proporción preliminar y una confiabilidad de 95 %?
n =
NZ
2
α/2
Σ
E
h=1
W
h
K
h
Nd
2
+ Z
2
α/2
Σ
E
h=1
W
h
K
h
donde:
K
h
=
1
16(p −1/2)
2

ˆ π
h

1
2

2
W
h
=
N
h
N
; h = 1, 2, 3
N = 5, 000 : el total de mujeres
Z
α/2
= 1.96
p =
3
4
K
1
=
1
16(3/4 −1/2)
2

0.02 −
1
2

2
= 0.7696
K
2
=
1
16(3/4 −1/2)
2

0.0142 −
1
2

2
= 0.7641
K
3
=
1
16(3/4 −1/2)
2

0.1 −
1
2

2
= 0.8400
E
¸
h=1
W
h
k
h
=
19, 000
40, 000
(0.7696) +
16, 000
40, 000
(0.7641) +
5, 000
40, 000
(0.84) = 0.7762
d = (0.75)(0.0277) = 0.0208
Por lo tanto:
n =
(40, 000)(1.96)
2
0.7762
(40, 000)(0.0208)
2
+ (1.96)
2
(0.7762)
= 5, 885.8636 mujeres (mues-
tra)
La asignación de la muestra en forma proporcional
n
1
=
N
1
N
n =
19, 000
40, 000
(5886) = 2, 796 para el estrato 1
n
2
=
N
2
N
n =
16, 000
40, 000
(5886) = 2, 354 para el estrato 2
n
2
=
N
2
N
n =
5, 000
40, 000
(5886) = 736 para el estrato 3
204
g) Suponga que n = 4, 000 es una muestra preliminar. ¿Cuál es el tamaño de
muestra para estimar el total con una precisión de 75 % del total preliminar y
una confiabilidad de 95 %?
n =
N
2
(Z
α/2
)
2
Σ
E
h=1
W
h
K
h
d
2
+ N(Z
α/2
)
2
Σ
E
h=1
W
h
K
h
donde:
K
h
=
1
16(p −1/2)
2

ˆ π
h

1
2

2
W
h
=
N
h
N
; h = 1, 2, 3
N = 40, 000 : el total de mujeres en el estado de Colima
α = 0.05
Z
α/2
= 1.96
p =
3
4
K
1
=
1
16(3/4 −1/2)
2

0.02 −
1
2

2
= 0.7696
K
2
=
1
16(3/4 −1/2)
2

0.0142 −
1
2

2
= 0.7641
K
3
=
1
16(3/4 −1/2)
2

0.1 −
1
2

2
= 0.8400
E
¸
h=1
W
h
k
h
=
19, 000
40, 000
(0.7696) +
16, 000
40, 000
(0.7641) +
5, 000
40, 000
(0.84) = 0.7762
ˆ τ
st
= 1, 108.5714
d = (0.75)(1, 108.5714) = 831.4286
Por lo tanto:
n =
(40, 000)
2
(1.96
2
)(0.7762)
(831.4286)
2
+ (40, 000)(1.96
2
)(0.7762)
= 5, 885.8636
Dado que el tamaño de muestra es el mismo que el obtenido en f), la dis-
tribución queda con 2,796 mujeres para el estrato 1, 2,354 para el estrato 2 y
736 para el estrato 3.
Ejemplo 4. ”Mensex” está interesada en estimar la proporción de hombres
con disfunción eréctil. El número de hombres es de N = 10, 000 en el munici-
pio de Temaltepec. Además,”Mensex” cree que los vicios que posea la persona
influyen en la disfunción eréctil, por lo que clasificó a la población en tres es-
tratos: fumadores (estrato 1), alcohólicos (estrato 2) y estresados (estrato 3).
La población de cada estrato es N
1
= 4, 000, N
2
= 4, 000 y N
3
= 2, 000. Para el
estudio se tomó una muestra aleatoria de la población de hombres distribuida
de la siguiente manera: n
1
= 100, n
2
= 200 y n
3
= 100. El número de respuestas
de "sí" en las entrevistas es de 55 para el estrato 1, 30 para el estrato dos y 20
para el estrato tres. Para este caso p =
3
4
.
a) Calcule la proporción de hombres con disfunción eréctil en el municipio
de Temaltepec.
205
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
ˆ π
st
=
N
1
ˆ π
1
+N
2
ˆ π
2
+.... + N
E
ˆ π
E
N
ˆ π
h
=
p −1
2p −1
+
a
h
(2p −1)n
h
; h = 1, 2, ..., E
donde:
N
1
= 4, 000, N
2
= 4, 000, N
3
= 2, 000
n
1
= 100, n
2
= 200, n
3
= 100
a
1
= 55, a
2
= 70, a
3
= 30
p =
3
4
Por lo tanto:
ˆ π
1
=
3/4 −1
2 (3/4) −1
+
55
(2 (3/4) −1) 100
= 0.6
ˆ π
2
=
3/4 −1
2 (3/4) −1
+
70
(2 (3/4) −1) 200
= 0.2
ˆ π
3
=
3/4 −1
2 (3/4) −1
+
30
(2 (3/4) −1) 100
= 0.1
ˆ π
st
=
(4, 000) (0.6) + (4, 000) (0.2) + (2, 000) (0.1)
10, 000
= 0.34
Por lo que se estima que la proporción de hombres con disfunción eréctil en el
Municipio de Temaltepec es de 0.34, es decir, el 34 %.
b) Calcule el total de hombres con disfunción eréctil en el Municipio de
Temaltepec.
ˆ τ
st
= Nˆ π
st
donde:
N = 10, 000 : el total de hombres en el municipio de Temaltepec
ˆ π
st
= 0.34
Por lo tanto:
ˆ τ
st
= (10, 000)(0.34) = 3, 400
Por lo que el total de hombres con disfunción eréctil en el municipio de Temal-
tepec es igual a 3,400.
c) Determine la varianza y la desviación estándar de la proporción.
S
2
ˆ π
st
=
E
¸
h=1

N
h
N

2

N
h
−n
h
N
h

1
n
h
¸
1
16(p −1/2)
2

ˆ π
h

1
2

2
¸
donde:
N = 10, 000 : el total de hombres
E = 3 : los estratos en los que está dividida la población en estudio
206
N
1
= 4, 000, N
2
= 4, 000, N
3
= 2, 000
n
1
= 100, n
2
= 200, n
3
= 100
a
1
= 55, a
2
= 70, a
3
= 30
P =
3
4
ˆ π
1
= 0.6
ˆ π
2
= 0.2
ˆ π
3
= 0.1
Por lo tanto:
S
2
ˆ π
st
=

4000
10000

2

4000 −100
4000

1
100
¸
1
16 (3/4 −1/2)
2

0.6 −
1
2

2
¸
+

4000
10000

2

4000 −200
3500

1
200
¸
1
16 (3/4 −1/2)
2

0.2 −
1
2

2
¸
+

2000
10000

2

2000 −100
2000

1
100
¸
1
16 (3/4 −1/2)
2

0.1 −
1
2

2
¸
= 0.0026
Y así, la desviación estándar es igual a S
ˆ π
st
=0.0505
d) Construya un IC para la proporción de interés con una confiabilidad de
90 %.
ˆ π
st
±Z
α/2

S
2
ˆ π
st
donde:
ˆ π
st
= 0.34 : proporción de hombres con disfunción eréctil en el municipio de
Temaltepec
α = 0.10
Z
α/2
= 1.645

S
2
ˆ π
st
= 0.0505
Por lo tanto:
0.34 ±(1.645)(0.0505)
0.34 ±0.0831
0.2569 ≤ π
st
≤ 0.4231
Esto significa que la proporción de hombres con disfunción eréctil del mu-
nicipio de Temaltepec está entre 0.2569 y 0.4231
e) Haga un IC para el total de interés con una confiabilidad de 90 %.
ˆ τ
st
±Z
α/2

S
2
ˆ τ
st
donde:
ˆ τ
st
= 3, 400

S
2
ˆ τ
st
= N

S
2
ˆ π
st
207
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
N = 10, 000 : el total de hombres en el municipio de Temaltepec

S
2
ˆ τ
st
= (10, 000)(0.0505) = 505.4899
Por lo tanto:
3, 400 ±(1.645)(505.4899)
3, 400 ±831.4568
2, 568.5432 ≤ τ
st
≤ 4, 231.4568
Esto significa que el total de hombres con disfunción eréctil está entre 2,568.5432
y 4,231.4568.
f) Suponga que n = 400 hombres es una muestra preliminar. ¿Cuál es el
tamaño de muestra para estimar la proporción poblacional con una precisión
de 18 % de la proporción preliminar y una confiabilidad de 90 %?
n =
N(Z
α/2
)
2
Σ
E
h=1
W
h
K
h
Nd
2
+ (Z
α/2
)
2
Σ
E
h=1
W
h
K
h
donde:
K
h
=
1
16(p −1/2)
2

ˆ π
h

1
2

2
W
h
=
N
h
N
; h = 1, 2, 3
N = 10, 000 : el total de hombres en el municipio de Temaltepec
Z
α/2
= 1.645
p =
3
4
K
1
=
1
16(3/4 −1/2)
2

0.6 −
1
2

2
= 0.9900
K
2
=
1
16(3/4 −1/2)
2

0.2 −
1
2

2
= 0.9100
K
3
=
1
16(3/4 −1/2)
2

0.1 −
1
2

2
= 0.8400
E
¸
h=1
W
h
k
h
=
4, 000
10, 000
(0.99) +
4, 000
10, 000
(0.91) +
2, 000
10, 000
(0.84) = 0.9280
d = (0.18)(0.34) = 0.0612
Por lo tanto:
n =
(10, 000)(1.645)
2
0.9280
(10, 000)(0.0612)
2
+ (1.645)
2
(0.9280)
= 628.2335
Entonces, 628 es el número estimado de unidades muestrales (hombres) que
deben constituir a la muestra para tener una precisión de ±0.0612 con 0.90 de
probabilidad de incluir en el intervalo de estimación la proporción verdadera.
La asignación de la muestra en forma proporcional
208
n
1
=
N
1
N
n =
4, 000
10, 000
(628) = 252 para el estrato 1
n
2
=
N
2
N
n =
4, 000
10, 000
(628) = 252 para el estrato 2
n
2
=
N
3
N
n =
2, 000
10, 000
(628) = 126 para el estrato 3
g) Suponga que n = 400 hombres es una muestra preliminar. ¿Cuál es el
tamaño de muestra necesario para estimar el total verdadero con una pre-
cisión de 18 % del total preliminar y una confiabilidad de 90 %?
n =
N
2
Z
2
α/2
Σ
E
h=1
W
h
K
h
d
2
+ NZ
2
α/2
Σ
E
h=1
W
h
K
h
donde:
K
h
=
1
16(p −1/2)
2

ˆ π
h

1
2

2
W
h
=
N
h
N
; h = 1, 2, 3
N = 10, 000 : el total de hombres en el municipio de Temaltepec
Z
α/2
= 1.645; p =
3
4
K
1
=
1
16(3/4 −1/2)
2

0.6 −
1
2

2
= 0.9900
K
2
=
1
16(3/4 −1/2)
2

0.2 −
1
2

2
= 0.9100
K
3
=
1
16(3/4 −1/2)
2

0.1 −
1
2

2
= 0.8400
E
¸
h=1
W
h
k
h
=
4, 000
10, 000
(0.99) +
4, 000
10, 000
(0.91) +
2, 000
10, 000
(0.84) = 0.9280
τ
st
= 3, 400
d = (0.18)(3, 400) = 612
Por lo tanto:
n =
(10, 000)
2
(1.645
2
)(0.9982)
(612)
2
+ (10, 000)(1.645
2
)(0.9280)
= 628.2335
7.6. Ejercicios
En los siguientes ejercicios estime los parámetros siguientes:
a) El IC para la proporción y el total con una confiabilidad de 95%.
b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar la proporción y el total, de tal manera
que la proporción y el total sean estimados con una precisión de 9% de la
proporción y el total preliminar con una confiabilidad de 95%?
Ejercicio 1. Una persona está interesada en estimar la proporción de jóvenes
209
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
menores de 18 años que han tenido relaciones sexuales en el estado de Colima
(N = 35, 000). Dado que se trata de una pregunta delicada, se usó el método
de respuesta aleatorizada. Además, la persona cree que el nivel social influye,
por lo que clasificó a la población en tres estratos: clase baja (estrato 1), clase
media (estrato 2), clase alta (estrato 3), donde la población de cada estrato es
N
1
= 15, 000, N
2
= 11, 000 y N
3
= 9, 000. Para el estudio se tomó una muestra
aleatoria simple (n = 800) de la población objetivo, se distribuyó de la siguiente
manera : n
1
= 200, n
2
= 250 y n
3
= 350 jóvenes. El número de respuestas de
"sí" por estrato fue de 70 para estrato uno, 130 para el estrato dos y 200 para el
estrato tres. Para este caso p =
5
6
.
Ejercicio 2. La Secretaría de Salud desea hacer un estudio para estimar la
proporción de personas menores a 45 años que han contraído algún tipo de
enfermedad de transmisión sexual (ETS) en el municipio de Manzanillo, Coli-
ma (N = 20, 000). Dado que se trata de una pregunta delicada, se usó el método
de respuesta aleatorizada. Además se cree que el nivel socioeconómico influye,
por lo que clasificó a la población en tres estratos: nivel bajo (estrato 1), nivel
medio (estrato 2), nivel alto (estrato 3), donde la población de cada estrato es
N
1
= 4, 000, N
2
= 10, 000 y N
3
= 6, 000. Para el estudio se tomó una muestra
aleatoria simple (n = 2,000) de la población objetivo, se distribuyó de la sigu-
iente manera: n
1
= 500, n
2
= 900, n
3
= 600 personas. El número de respuestas
de "sí" por estrato fue de 60 para el estrato 1, 100 para el estrato 2 y 123 para el
estrato 3. Para este caso p =
5
6
.
Ejercicio 3. Un psicólogo de la Universidad de Colima está interesado en
estimar la proporción de jóvenes estudiantes de dicha universidad menores
de 20 años que han sufrido algún tipo de maltrato por parte de sus padres
(N = 5,000). Dado que se trata de una pregunta delicada, se usó el método de
respuesta aleatorizada. Además se cree que el nivel social influye, por lo que se
clasificó a la población en tres estratos: clase baja (estrato 1), clase media (es-
trato 2), clase alta (estrato 3), donde la población de cada estrato es N
1
= 1, 000,
N
2
= 2, 500, N
3
= 1, 500. Para el estudio se tomó una muestra aleatoria simple
(n = 300) de la población objetivo, se distribuyó de la siguiente manera: n
1
= 50,
n
2
= 100, n
3
= 150 personas. El número de respuestas de "sí" por estrato fue de
20 para el estrato uno, 60 para el estrato dos y 70 para el estrato tres. Para este
caso p =
5
6
.
Ejercicio 4. Un sociólogo de la Universidad de Arizona EUA está interesado en
estimar la proporción de mujeres del estado de Colima menores a 25 años que
han tenido tendencias suicidas (N = 50, 000). Dado que se trata de una pregun-
ta delicada, se usó el método de respuesta aleatorizada. Además se cree que el
nivel social influye, por lo que se clasificó a la población en tres estratos: clase
baja (estrato 1), clase media (estrato 2), clase alta (estrato 3), donde la población
de cada estrato es N
1
= 15, 000, N
2
= 25, 000, N
3
= 10, 000. Para el estudio se tomó
una muestra aleatoria simple (n = 1, 000) de la población objetivo, se distribuyó
de la siguiente manera: n
1
= 200, n
2
= 500, n
3
= 300 personas. El número de
respuestas de "sí" por estrato fue de 8 para el estrato uno, 10 para el estrato
210
dos y 9 para el estrato tres. Para este caso p =
5
6
.
7.7. Alternativa al modelo de respuesta aleatori-
zada
Como alternativa al método de Warner, Horvitz et. al., (1967) sugirierón que
la cooperación de los entrevistados podría mejorar si el segundo enunciado (
pregunta 2) no fuese delicado y no tuviese relación con el primero. A contin-
uación se presenta esta variante de la idea original de Warner (1965) propuesta
por Horvitz et. al., (1967)[6]:
I. Se construye un mazo de cartas, pero una fracción de ellas p, se marca
con la letra A (grupo A) y la fracción restante, 1−p, con las letras faltantes
del abecedario (grupo B).
II. Se selecciona una muestra aleatoria simple o estratificada de individuos
sin reemplazo de tamaño n de la población (N).
III. A cada individuo que va a responder se le enseña el mazo de cartas para
que vea que las cartas estan marcadas con las letras del abecedario.
IV. En seguida se baraja adecuadamente el mazo de cartas y se le pide al
individuo que seleccione una carta, pero que no nos diga con que letra
esta marcada.
V. A continuación se le explica que se le va a hacer una pregunta y que la
responda con "sí" o "no", pero restaltando que ponga mucha atención a la
pregunta.
VI. Responda a la pregunta delicada, por ejemplo ¿ha consumido droga algu-
na vez? si la carta que obtuvo esta marcada con la letra A, por el contrario
responda a la pregunta inocua , por ejemplo, ¿naciste el mes de abril? si
obtuvo cualquier otra letra del abecedario.
VII. Se tiene que hacer enfasis en que debe de responder con la verdad a las
preguntas y que solamente tiene que responder una de ellas dependiendo
de la letra que obtuvo, es decir, si la la carta que obtuvo esta marcada con
la letra A debe responder con la verdadad a la pregunta delicada y esta
sería su única respuesta, lo mismo que si le toco cualquier otra letra del
abecedario debe de responder con la verdad a la pregunta inocua y esta
sería la única respuesta.
VIII. La carta elegida por un individuo tiene que ser reemplazada antes de
entrevistar a la siguiente persona.
IX. Este procedimiento se aplica a todos los n individuos.
X. Con las n respuestas de "sí" y "no" se hacen las estimaciones correspon-
dientes con los estimadores propuestos en éste capítulo.
211
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
7.8. Respuesta aleatorizada versión Horvitz bajo
MAS
A continuación se presentan los estimadores puntuales y por intervalo para
la proporción y el total, así como sus respectivos estimadores de tamaños de
muestra:
Estimador de la proporción y del total
ˆ π =
ˆ
φ −(1 −p)p
I
p
ˆ τ = Nˆ π = N

ˆ
φ −(1 −p)p
I
p

donde:
ˆ
φ =
a
n
, a = el total de respuestas afirmativas (sí) en la muestra de
tamaño n.
Varianza del estimador de la proporción y el total
ˆ
V (ˆ π) =

N −n
N

ˆ
V (
ˆ
φ)
p
2
=

N −n
N

ˆ
φ(1 −
ˆ
φ)
p
2
n
ˆ
V (ˆ τ) = N
2
ˆ
V (ˆ π) = N
2

N −n
N

ˆ
V (
ˆ
φ)
p
2
=

N −n
N

N
2
ˆ
φ(1 −
ˆ
φ)
p
2
n
Intervalo de confianza de la proporción y el total
ˆ π ±Z
α/2

ˆ
V (ˆ π)
ˆ τ ±Z
α/2
N

ˆ
V (ˆ π)
Tamaño de muestra para estimar la proporción
n =
NZ
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

Nd
2
+Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

Tamaño de muestra para estimar el total
n =
N
2
Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

d
2
+ N
2
Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

212
7.8.1. Ejemplos
Ejemplo 1. Se elige una muestra aleatoria simple de 350 de los 1,800 alum-
nos del bachillerato de la Universidad de Colima. Cada estudiante de la mues-
tra recibe una ficha con las siguientes preguntas:
Pregunta 1: ¿has fumado marihuana alguna vez?
Pregunta 2: ¿cumples años el primero de enero?
Se tiene de los expedientes de todos los alumos del bachillerato que p
I
=
1/365. Suponga que el mecanismo de aleatorización es una baraja con una
fracción de cartas marcas con la letra A igual a p = 0.7 y la fracción restante
con las letras sobrantes del abecedario. De los resultados de la encuesta se
tiene que 125 contestaron sí.
a). Estime la proporción de estudiantes que han fumado marihuana.
ˆ π =
ˆ
φ −(1 −p)p
I
p
donde: p
I
= 1/365, p = 0.7 y
ˆ
φ =
125
350
= 0.3571.
Por lo tanto,
ˆ π =
125
350
−(1 −0.7)
1
365
0.7
= 0.509.
b) Estime la varianza de la proporción muestral.
ˆ
V (ˆ π) =

N −n
N

ˆ
φ(1 −
ˆ
φ)
p
2
n
donde: N = 1800, n = 350, p = 0.7 y
ˆ
φ =
125
350
Por lo tanto,
ˆ
V (ˆ π) =

1800 −350
1800

125
350

1 −
125
350

0.7
2
(350)
= 0.00109.
c) Estime un intervalo de confianza de 95 % para la proporción poblacional.
ˆ π ±Z
α/2

ˆ
V (ˆ π)
donde: ˆ π = 0.5090, Z
α/2
= Z
0.025
= 1.96 y
ˆ
V (ˆ π) = 0.00109
Por lo tanto,
0.5090 ±(1.96)(

0.00109)
0.5090 ±(1.96)(0,0330)
0.4443 ≤ π ≤ 0.5737
d) Estime el total de estudiantes que ha fumado marihuana.
ˆ τ = Nˆ π
donde: N = 1800 y ˆ π = 0.5090
Por lo tanto,
ˆ τ = 1800(0.5090) = 916. Así, se tiene que el número de estudi-
213
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
antes del bachillerato de la Universidad de Colima que alguna vez han fumado
marihuana es de 916.
e) Estime un intervalo de confianza de 95 % para el total poblacional.
ˆ τ ±Z
α/2
N

ˆ
V (ˆ π)
donde: N = 1800, ˆ τ = 916, Z
α/2
= Z
0.025
= 1.96 y
ˆ
V (ˆ π) = 0.00109
Por lo tanto,
916 ±(1.96)(1800)(

0.00109)
799.7226 ≤ τ ≤ 1032.6774
f) Suponga que los 350 estudiantes encuestados son una muestra prelimi-
nar. ¿Cuál sería el tamaño de muestra necesario para estimar la proporción de
tal manera que sea estimada con una precisión de d = 0.05 y una confiabilidad
de 95 %?
n =
NZ
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

Nd
2
+ Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

donde: N = 1800, Z
α/2
= Z
0.025
= 1.96, d = 0.05, p = 0.7 y
ˆ
φ = 125/350
Por lo tanto,
n =
(1800)(1.96)
2

(125/350)(1 −125/350)
(0.7)
2

(1800)(0.05)
2
+ (1.96)
2

(125/350)(1 −125/350)
(0.7)
2
= 514.2661
g) Suponga que los 350 estudiantes encuestados son una muestra prelim-
inar. ¿Cuál sería el tamaño de muestra necesario para estimar el total de tal
manera que sea estimado con una precisión de d = 90 y una confiabilidad de
95 %?
n =
N
2
Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

d
2
+N
2
Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

donde: N = 1800, Z
α/2
= Z
0.025
= 1.96, d = 90, p = 0.7 y
ˆ
φ = 125/350
Por lo tanto,
n =
(1800
2
)(1.96)
2

(125/350)(1 −125/350)
(0.7)
2

(90)
2
+ (1800
2
)(1.96)
2

(125/350)(1 −125/350)
(0.7)
2
= 514.2661
Ejemplo 2. Se elige una muestra aleatoria simple de 180 empleadas de
214
una empresa automotriz del total de su población (N = 1, 500). Cada empleada
recibe una ficha con las siguientes preguntas:
Pregunta 1: ¿se te ha escapado una flatulencia o gas en una reunión impor-
tante?
Pregunta 2: ¿está el minutero de tu reloj entre 0 y 5?
Sabemos que p
I
= 1/12. Suponga que el mecanismo de aleatorización es una
baraja con una fracción de cartas marcas con la letra A igual a p = 0.75 y la
fracción restante con las letras sobrantes del abecedario. De los resultados de
la encuesta se tiene que 130 contestaron sí a la pregunta correspondiente.
a). Estime la proporción de empleadas que se les ha escapado un gas en
una reunión importante.
ˆ π =
ˆ
φ −(1 −p)p
I
p
donde: p
I
= 1/12, p = 0.75 y
ˆ
φ =
130
180
= 0.7222.
Por lo tanto,
ˆ π =
130
180
−(1 −0.75)
1
12
0.75
= 0.9352.
b) Estime la varianza de la proporción muestral.
ˆ
V (ˆ π) =

N −n
N

ˆ
φ(1 −
ˆ
φ)
p
2
n
donde: N = 1500, n = 180, p = 0.75 y
ˆ
φ =
130
180
Por lo tanto,
ˆ
V (ˆ π) =

1500 −180
1500

130
180

1 −
130
180

0.75
2
(180)
= 0.00174.
c) Estime un intervalo de confianza de 95 % para la proporción poblacional.
ˆ π ±Z
α/2

ˆ
V (ˆ π)
donde: ˆ π = 0.9352, Z
α/2
= Z
0.025
= 1.96 y
ˆ
V (ˆ π) = 0.00174
Por lo tanto,
0.9352 ±(1.96)(

0.00174)
0.8534 ≤ π ≤ 1
d) Estime el total de empleadas que se le ha escapado un gas.
ˆ τ = Nˆ π
donde: N = 1500 y ˆ π = 0.9352
Por lo tanto,
ˆ τ = 1500(0.9352) = 1402.8. Así, se tiene que el número de em-
pleadas en dicha empresa que se les ha escapado un gas en una reunión
importante es de 1403.
215
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
e) Estime un intervalo de confianza de 95 % para el total poblacional.
ˆ τ ±Z
α/2
N

ˆ
V (ˆ π)
donde: N = 1500, ˆ τ = 1402.8, Z
α/2
= Z
0.025
= 1.96 y
ˆ
V (ˆ π) = 0.00174
Por lo tanto,
1402.8 ±(1.96)(1500)(

0.00174)
1280.163 ≤ τ ≤ 1500
f) Suponga que las 180 empleadas encuestadas son una muestra prelimi-
nar. ¿Cuál sería el tamaño de muestra necesario para estimar la proporción de
tal manera que sea estimada con una precisión de d = 0.07 y una confiabilidad
de 95 %?
n =
NZ
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

Nd
2
+ Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

donde: N = 1500, Z
α/2
= Z
0.025
= 1.96, d = 0.07, p = 0.75 y
ˆ
φ = 130/180
Por lo tanto,
n =
(1500)(1.96)
2

(130/180)(1 −130/180)
(0.75)
2

(1500)(0.07)
2
+ (1.96)
2

(130/180)(1 −130/180)
(0.75)
2
= 235.692
g) Suponga que las 180 empleadas encuestadas son una muestra prelim-
inar. ¿Cuál sería el tamaño de muestra necesario para estimar el total de tal
manera que sea estimado con una precisión de d = 105 y una confiabilidad de
95 %?
n =
N
2
Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

d
2
+N
2
Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

donde: N = 1500, Z
α/2
= Z
0.025
= 1.96, d = 105, p = 0.75 y
ˆ
φ = 130/180
Por lo tanto,
n =
(1500
2
)(1.96)
2

(130/180)(1 −130/180)
(0.75)
2

(105)
2
+ (1500
2
)(1.96)
2

(130/180)(1 −130/180)
(0.75)
2
= 235.692
Ejemplo 3. Una investigadora de la Universidad de Colima desea estimar
el porcentaje de alumnas de nivel medio y superior de la institución que abor-
taron durante el 2007. Se toma una muestra aleatoria simple de 210 mujeres
de la población estudiantil de estos niveles(N = 4, 000). Cada una de estas mu-
216
jeres recibe una ficha con las siguientes preguntas:
Pregunta 1: ¿tuvo un aborto provocado durante el 2007?
Pregunta 2: ¿su matrícula en la U de C es impar?
Sabemos que p
I
= 1/2. Suponga que el mecanismo de aleatorización es una
baraja con una fracción de cartas marcas con la letra A igual a p = 0.7 y la
fracción restante con las letras sobrantes del abecedario. De los resultados de
la encuesta se tiene que 39 contestaron sí a la pregunta correspondiente.
a). Estime la proporción de alumnas que han tenido un aborto provocado
en el 2007.
ˆ π =
ˆ
φ −(1 −p)p
I
p
donde: p
I
= 1/2, p = 0.7 y
ˆ
φ =
39
210
= 0.1857.
Por lo tanto,
ˆ π =
39
210
−(1 −0.7)
1
2
0.7
= 0.051.
b) Estime la varianza de la proporción muestral.
ˆ
V (ˆ π) =

N −n
N

ˆ
φ(1 −
ˆ
φ)
p
2
n
donde: N = 4000, n = 210, p = 0.7 y
ˆ
φ =
39
210
Por lo tanto,
ˆ
V (ˆ π) =

4000 −210
4000

39
210

1 −
39
210

0.7
2
(210)
= 0.00139.
c) Estime un intervalo de confianza de 95 % para la proporción poblacional.
ˆ π ±Z
α/2

ˆ
V (ˆ π)
donde: ˆ π = 0.051, Z
α/2
= Z
0.025
= 1.96 y
ˆ
V (ˆ π) = 0.00139
Por lo tanto,
0.051 ±(1.96)(

0.00139)
0 ≤ π ≤ 0.1241
d) Estime el total alumnas que han tenido un aborto provocado.
ˆ τ = Nˆ π
donde: N = 4000 y ˆ π = 0.051
Por lo tanto,
ˆ τ = 4000(0.051) = 204. Así, se tiene que el número de alumnas
que han tenido un aborto provocado es de 204.
e) Estime un intervalo de confianza de 95 % para el total poblacional.
ˆ τ ±Z
α/2
N

ˆ
V (ˆ π)
217
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
donde: N = 4000, ˆ τ = 204, Z
α/2
= Z
0.025
= 1.96 y
ˆ
V (ˆ π) = 0.00139
Por lo tanto,
204 ±(1.96)(4000)(

0.00139)
0 ≤ τ ≤ 496.2964
f) Suponga que las 210 alumnas encuestadas son una muestra preliminar.
¿Cuál sería el tamaño de muestra necesario para estimar la proporción de tal
manera que sea estimada con una precisión de d = 0.07 y una confiabilidad de
95 %?
n =
NZ
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

Nd
2
+ Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

donde: N = 4000, Z
α/2
= Z
0.025
= 1.96, d = 0.07, p = 0.7 y
ˆ
φ = 39/210
Por lo tanto,
n =
(4000)(1.96)
2

(39/210)(1 −39/210)
(0.7)
2

(4000)(0.07)
2
+ (1.96)
2

(39/210)(1 −39/210)
(0.7)
2
= 228.1452
g) Suponga que las 210 alumnas encuestadas son una muestra preliminar.
¿Cuál sería el tamaño de muestra necesario para estimar el total de tal manera
que sea estimado con una precisión de d = 280 y una confiabilidad de 95 %?
n =
N
2
Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

d
2
+N
2
Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

donde: N = 4000, Z
α/2
= Z
0.025
= 1.96, d = 280, p = 0.7 y
ˆ
φ = 39/210
Por lo tanto,
n =
(4000
2
)(1.96)
2

(39/210)(1 −39/210)
(0.7)
2

(280)
2
+ (4000
2
)(1.96)
2

(39/210)(1 −39/210)
(0.7)
2
= 228.1452
Ejemplo 4. Se elige una muestra aleatoria simple de 135 funcionarios del
gobierno federal del total de N = 2, 000. Cada funcionario de la muestra recibe
una ficha con las siguientes preguntas:
Pregunta 1: ¿alguna vez ha conducido en estado de ebriedad?
Pregunta 2: ¿le gusta el fútbol?
218
Sabemos que p
I
= 0.7, el cual se obtuvo de un estudio previo reciente real-
izado a esta misma población. Suponga que el mecanismo de aleatorización es
una baraja con una fracción de cartas marcas con la letra A igual a p = 0.75 y
la fracción restante con las letras sobrantes del abecedario. De los resultados
de la encuesta se tiene que 100 contestaron sí a la pregunta correspondiente.
a). Estime la proporción de funcionarios que han conducido en estado de
ebriedad.
ˆ π =
ˆ
φ −(1 −p)p
I
p
donde: p
I
= 0.7, p = 0.75 y
ˆ
φ =
100
135
= 0.7407.
Por lo tanto,
ˆ π =
100
135
−(1 −0.75)0.7
0.75
= 0.7543.
b) Estime la varianza de la proporción muestral.
ˆ
V (ˆ π) =

N −n
N

ˆ
φ(1 −
ˆ
φ)
p
2
n
donde: N = 2000, n = 135, p = 0.75 y
ˆ
φ =
100
135
Por lo tanto,
ˆ
V (ˆ π) =

2000 −135
2000

100
135

1 −
100
135

0.75
2
(135)
= 0.00235.
c) Estime un intervalo de confianza de 95 % para la proporción poblacional.
ˆ π ±Z
α/2

ˆ
V (ˆ π)
donde: ˆ π = 0.7543, Z
α/2
= Z
0.025
= 1.96 y
ˆ
V (ˆ π) = 0.00235
Por lo tanto,
0.7543 ±(1.96)(

0.00235)
0.6593 ≤ π ≤ 0.8493
d) Estime el total de funcionarios que han conducido en estado de ebriedad.
ˆ τ = Nˆ π
donde: N = 2000 y ˆ π = 0.7543
Por lo tanto,
ˆ τ = 2000(0.7543) = 1508.6. Así, se tiene que el número de fun-
cionarios que han conducido en estado de ebriedad es de 1509.
e) Estime un intervalo de confianza de 95 % para el total poblacional.
ˆ τ ±Z
α/2
N

ˆ
V (ˆ π)
donde: N = 2000, ˆ τ = 1508.6, Z
α/2
= Z
0.025
= 1.96 y
ˆ
V (ˆ π) = 0.00235
Por lo tanto,
1508.6 ±(1.96)(2000)(

0.00235)
219
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
1318.571 ≤ τ ≤ 1698.629
f) Suponga que los 135 funcionarios encuestados son una muestra prelimi-
nar. ¿Cuál sería el tamaño de muestra necesario para estimar la proporción de
tal manera que sea estimada con una precisión de d = 0.08 y una confiabilidad
de 95 %?
n =
NZ
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

Nd
2
+ Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

donde: N = 2000, Z
α/2
= Z
0.025
= 1.96, d = 0.08, p = 0.75 y
ˆ
φ = 100/135
Por lo tanto,
n =
(2000)(1.96)
2

(100/135)(1 −100/135)
(0.75)
2

(2000)(0.08)
2
+ (1.96)
2

(100/135)(1 −100/135)
(0.75)
2
= 185.9025
g) Suponga que los 135 funcionarios encuestadas son una muestra prelim-
inar. ¿Cuál sería el tamaño de muestra necesario para estimar el total de tal
manera que sea estimado con una precisión de d = 160 y una confiabilidad de
95 %?
n =
N
2
Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

d
2
+N
2
Z
2
α/2

ˆ
φ(1 −
ˆ
φ)
p
2

donde: N = 2000, Z
α/2
= Z
0.025
= 1.96, d = 160, p = 0.75 y
ˆ
φ = 100/135
Por lo tanto,
n =
(2000
2
)(1.96)
2

(100/135)(1 −100/135)
(0.75)
2

(160)
2
+ (2000
2
)(1.96)
2

(100/135)(1 −100/135)
(0.75)
2
= 185.9025
7.9. Ejercicios
En los siguientes ejercicios estime lo siguiente:
a) Un intervalo de confianza para la proporción y el total con una confiabilidad
de 95 %.
b) Suponga que la muestra en cada ejercicio es una muestra preliminar. ¿Cuál
es el tamaño de muestra para estimar la proporción y el total de tal manera
que sean estimados con una precisión del 10 % con respecto a la proporción y
el total preliminar, respectivamente?
220
Ejercicio 1. Una investigadora desea estimar el porcentaje y total de mujeres
casadas que sufrieron de maltrato por parte de su pareja durante el 2007.
Supóngase que en el Municipio de Colima, Colima, se tiene una población de
matrimonios de N = 10, 000, de la cual se toma una muestra aleatoria simple de
n = 138 parejas (pero a quienes se les pregunta es a los esposos). Cada esposo
recibe una ficha con las siguientes preguntas:
Pregunta 1: ¿golpeo alguna vez a su esposa durante el 2007?
Pregunta 2: ¿el número de su credencia es par?
Sabemos que p
I
= 0.5. Supóngase que el mecanismo de aleatorización es
una baraja con una fracción de cartas marcadas con la letra A igual a p = 0.8
y la fración restante con las letras sobrantes del abecedario. De los resultados
de la encuesta se tiene que 65 respondieron sí.
Ejercicio 2. Un investigador desea estimar el porcentaje y total de mujeres
de 24 años han tenido relaciones sexuales con dos o más hombres (e distintos
momentos). Se toma una muestra aleatoria simple de n = 160 mujeres de esta
edad de un total de N = 15, 000. Cada una de estas mujeres (de la muestra)
recibe una ficha con las siguientes preguntas:
Pregunta 1: ¿has tenido relaciones sexuales con 2 o más hombres?
Pregunta 2: ¿naciste el 9 de Junio de 1984?
A partir de un censo preliminar se determino que del total de estas mujeres
el 9 % nació el 9 de junio de 1984. Por lo tanto, p
I
= 0.09. Supóngase que el
mecanismo de aleatorización es una baraja con una fracción de cartas mar-
cadas con la letra A igual a p = 0.85 y la fración restante con las letras sobrantes
del abecedario. De los resultados de la encuesta se tiene que 40 respondieron
sí.
Ejercicio 3. Una investigadora desea estimar el porcentaje de hombres (de
cierto municipio) entre 40 y 55 años que padecen o han padecido alguna vez
disfunción eréctil. Se toma una muestra aleatoria simple de n = 186 hombres
del total de la población (N = 8, 000). Cada uno de los hombres de la muestra
recibe una ficha con las siguientes preguntas:
Pregunta 1: ¿padece o ha padecido alguna vez disfunción eréctil?
Pregunta 2: ¿usted tiene 43 años?
De los registros del Centro de salud Municipal se obtuvo que el 19 % de es-
tos hombres tienen 43 años. Por lo tanto, p
I
= 0.19. Supóngase que el mecan-
ismo de aleatorización es una baraja con una fracción de cartas marcadas con
la letra A igual a p = 0.90 y la fración restante con las letras sobrantes del
abecedario. De los resultados de la encuesta se tiene que 48 respondieron sí.
Ejercicio 4. Un investigador desea estimar el porcentaje de mujeres (de cierta
ciudad) entre 16 y 20 años que padecen o han padecido alguna vez bulimia o
anorexia. Se toma una muestra aleatoria simple de n = 210 mujeres del total de
221
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
la población (mujeres entre 16 y 20 años, N = 4, 000). Cada uno de las mujeres
de la muestra recibe una ficha con las siguientes preguntas:
Pregunta 1: ¿padece o ha padecido alguna vez bulimia o anorexia?
Pregunta 2: ¿tu signo zodiacal es tauro?
Se cuenta con un marco de muestreo que específica la fecha de nacimiento
de estas mujeres, de donde a partir de éste se obtuvo que el 13 % de estas mu-
jeres pertence al signo tauro. Por lo tanto, p
I
= 0.13. Supóngase que el mecan-
ismo de aleatorización es una baraja con una fracción de cartas marcadas con
la letra A igual a p = 0.75 y la fración restante con las letras sobrantes del
abecedario. De los resultados de la encuesta se tiene que 100 respondieron sí.
7.10. Respuesta aleatorizada versión Horvitz bajo
MAE
De igual manera, cuando la población es heterogénea se sugiere formar
estratos para mejorar la precisión. Por ello, a continuación se presentan los
estimadores versión Horvitz bajo MAE:
Estimador de la proporción y el total estratificado
ˆ π
st
=
N
1
ˆ π
1
+N
2
ˆ π
2
+· · · + N
E
ˆ π
E
N
ˆ τ = Nˆ π
st
donde:
ˆ π
h
=
ˆ
φ
h
−(1 −p)p
I
p
.
ˆ
φ
h
=
a
h
n
h
.
p = la fracción de letras en el mazo de cartas marcadas con la letra A.
a
h
= el total de respuestas afirmativas (sí) de los n
h
entrevistados en el
estrato h ; h = 1, 2, ..., E.
Varianza de la proporción y el total estratificado
S
2
ˆ π
st
=
E
¸
h=1

N
h
N

2

N
h
−n
h
N
h

ˆ
φ
h
(1 −
ˆ
φ
h
)
p
2
n
h
S
2
ˆ τ
st
= N
2
E
¸
h=1

N
h
N

2

N
h
−n
h
N
h

ˆ
φ
h
(1 −
ˆ
φ
h
)
p
2
n
h
Intervalo de confianza para la proporción y el total
ˆ π
st
±Z
α/2

S
2
ˆ π
st
ˆ τ
st
±Z
α/2
N

S
2
ˆ π
st
222
El tamaño de muestra para estimar la proporción y el total
Para estimar la proporción
n =
NZ
2
α/2
E
¸
h=1
W
h
ˆ
φ
h
(1 −
ˆ
φ
h
)
p
2
Nd
2
+ Z
2
α/2
E
¸
h=1
W
h
ˆ
φ
h
(1 −
ˆ
φ
h
)
p
2
donde:
N = el tamaño de la población.
Z
α/2
= el valor de tablas de la distribución normal.
p = la fracción de cartas que están marcadas con la letra A.
d = la precisión fijada por el investigador.
W
h
=
N
h
N
ˆ
φ =
a
h
n
h
Para estimar el total
n =
N
2
Z
2
α/2
E
¸
h=1
W
h
ˆ
φ
h
(1 −
ˆ
φ
h
)
p
2
d
2
+ NZ
2
α/2
E
¸
h=1
W
h
ˆ
φ
h
(1 −
ˆ
φ
h
)
p
2
donde:
N = el tamaño de la población.
Z
α/2
= el valor de tablas de la distribución normal.
p = la fracción de cartas que están marcadas con la letra A.
d = la precisión fijada por el investigador.
W
h
=
N
h
N
ˆ
φ =
a
h
n
h
7.11. ¿Cuál método de respuesta aleatorizada es
mejor?
Dowling y Shachtman (1975)[18] han mostrado que la varianza del esti-
mador de interés (ˆ π) de la versión Horvitz (1967) es menor que la propuesta
originalmente por Warner (1965). Esto significa que usando la versión prop-
uesta por Horvitz (1967) se obtienen estimaciones de la proporción y el total
más precisas, por lo que se sugiere que el investigador use esta versión para
realizar sus estudios.
223
Capítulo 7. El muestreo basado en el método de respuesta aleatorizada
224
Apéndice A
Tablas de la distribución normal
estándar y de la distribución
t-student
225
Apéndice A. Tablas de la distribución normal estándar y de la distribución
t-student
1 D 2
Z
0
P(Z < Z
0
) =

Z
0
−∞
f
Z
(z)dz =

Z
0
−∞
1


e

z
2
2
dz = 1 −α/2
Cuadro A.1: Distribución normal estándar acumulada.
Z
Z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
226
1 ÷ o 2
t
0
P(T < t
0
) =

t
0
−∞
f
T
(t)dt =

t
0
−∞
1

νπ
[(ν + 1)/2]!
[ν/2]!

t
2
ν
+ 1

−(ν+1)/2
dt
Cuadro A.2: Puntos porcentuales de la distribución t-student.
α/2
ν 0.25 0.1 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005
1 1.0000 3.0777 6.3138 12.7062 31.8205 63.6567 127.3213 318.3088 636.6192
2 0.8165 1.8856 2.9200 4.3027 6.9646 9.9248 14.0890 22.3271 31.5991
3 0.7649 1.6377 2.3534 3.1824 4.5407 5.8409 7.4533 10.2145 12.9240
4 0.7407 1.5332 2.1318 2.7764 3.7469 4.6041 5.5976 7.1732 8.6103
5 0.7267 1.4759 2.0150 2.5706 3.3649 4.0321 4.7733 5.8934 6.8688
6 0.7176 1.4398 1.9432 2.4469 3.1427 3.7074 4.3168 5.2076 5.9588
7 0.7111 1.4149 1.8946 2.3646 2.9980 3.4995 4.0293 4.7853 5.4079
8 0.7064 1.3968 1.8595 2.3060 2.8965 3.3554 3.8325 4.5008 5.0413
9 0.7027 1.3830 1.8331 2.2622 2.8214 3.2498 3.6897 4.2968 4.7809
10 0.6998 1.3722 1.8125 2.2281 2.7638 3.1693 3.5814 4.1437 4.5869
11 0.6974 1.3634 1.7959 2.2010 2.7181 3.1058 3.4966 4.0247 4.4370
12 0.6955 1.3562 1.7823 2.1788 2.6810 3.0545 3.4284 3.9296 4.3178
13 0.6938 1.3502 1.7709 2.1604 2.6503 3.0123 3.3725 3.8520 4.2208
14 0.6924 1.3450 1.7613 2.1448 2.6245 2.9768 3.3257 3.7874 4.1405
15 0.6912 1.3406 1.7531 2.1314 2.6025 2.9467 3.2860 3.7328 4.0728
16 0.6901 1.3368 1.7459 2.1199 2.5835 2.9208 3.2520 3.6862 4.0150
17 0.6892 1.3334 1.7396 2.1098 2.5669 2.8982 3.2224 3.6458 3.9651
18 0.6884 1.3304 1.7341 2.1009 2.5524 2.8784 3.1966 3.6105 3.9216
19 0.6876 1.3277 1.7291 2.0930 2.5395 2.8609 3.1737 3.5794 3.8834
20 0.6870 1.3253 1.7247 2.0860 2.5280 2.8453 3.1534 3.5518 3.8495
21 0.6864 1.3232 1.7207 2.0796 2.5176 2.8314 3.1352 3.5272 3.8193
22 0.6858 1.3212 1.7171 2.0739 2.5083 2.8188 3.1188 3.5050 3.7921
23 0.6853 1.3195 1.7139 2.0687 2.4999 2.8073 3.1040 3.4850 3.7676
24 0.6848 1.3178 1.7109 2.0639 2.4922 2.7969 3.0905 3.4668 3.7454
25 0.6844 1.3163 1.7081 2.0595 2.4851 2.7874 3.0782 3.4502 3.7251
26 0.6840 1.3150 1.7056 2.0555 2.4786 2.7787 3.0669 3.4350 3.7066
27 0.6837 1.3137 1.7033 2.0518 2.4727 2.7707 3.0565 3.4210 3.6896
28 0.6834 1.3125 1.7011 2.0484 2.4671 2.7633 3.0469 3.4082 3.6739
29 0.6830 1.3114 1.6991 2.0452 2.4620 2.7564 3.0380 3.3962 3.6594
30 0.6828 1.3104 1.6973 2.0423 2.4573 2.7500 3.0298 3.3852 3.6460
40 0.6807 1.3031 1.6839 2.0211 2.4233 2.7045 2.9712 3.3069 3.5510
60 0.6786 1.2958 1.6706 2.0003 2.3901 2.6603 2.9146 3.2317 3.4602
120 0.6765 1.2886 1.6577 1.9799 2.3578 2.6174 2.8599 3.1595 3.3735
180 0.6759 1.2863 1.6534 1.9732 2.3472 2.6034 2.8421 3.1361 3.3454
210 0.6757 1.2856 1.6521 1.9713 2.3442 2.5994 2.8370 3.1295 3.3375
227
Apéndice A. Tablas de la distribución normal estándar y de la distribución
t-student
h h
Normal Uniforme discreta
S
2
=
h
2
36
S
2
=
h
2
12
+
h
6
h
h
Uniforme continua Elipse
S
2
=
h
2
12
S
2
=
h
2
16
h h
Triangular simétrica Triangular asimétrica
S
2
=
h
2
24
S
2
=
h
2
18
h
Triangular doble
S
2
=
h
2
8
Figura A.1: Varianzas de distribuciones finitas (S
2
), en función de su forma y
rango.
Donde h=rango=Máximo X
i
-Mínimo X
i
.
228
Cuadro A.3: Tabla de números aleatorios
1 2 3 4 5 6 7 8 9 10
1 7 5 3 8 2 5 1 6 6 4 5 0 9 0 6 5 4 8 4 3 3 2 9 0 5 0 0 3 2 6 2 7 5 0 4 5 4 4 7 1 0 0 6 3 9 5 9 4 5 4
2 9 2 8 4 1 2 0 5 6 6 6 9 8 8 0 8 3 2 2 6 0 6 3 8 0 1 2 1 3 0 2 9 2 0 5 4 7 0 5 4 1 2 0 7 2 7 5 7 6 9
3 1 2 3 2 3 1 8 6 4 4 0 5 0 9 0 4 4 4 2 4 1 8 8 3 9 2 8 2 9 0 0 8 1 6 3 9 4 9 3 3 1 0 9 5 7 5 6 9 4 8
4 0 8 6 0 2 5 1 2 9 6 7 4 6 0 0 6 8 9 7 5 3 7 7 8 9 0 0 5 5 5 6 8 2 9 0 5 7 4 2 2 7 3 9 6 4 4 7 5 4 9
5 8 0 3 9 9 8 2 3 7 6 0 0 3 8 8 4 4 5 7 3 3 9 8 8 1 6 5 8 3 8 9 5 9 5 5 7 4 0 4 6 6 7 4 0 7 0 8 0 5 4
6 5 9 3 4 3 6 6 1 3 0 3 6 4 3 4 1 5 8 3 8 2 6 0 4 9 3 0 5 2 5 1 9 0 5 3 7 3 7 6 8 8 8 4 4 0 8 8 5 1 8
7 0 0 1 5 7 8 2 0 6 7 7 1 2 3 1 5 7 4 4 5 3 3 7 9 3 4 2 3 5 1 0 1 0 1 5 0 4 5 1 6 6 0 5 3 1 8 3 5 4 6
8 1 2 0 6 9 4 6 3 0 2 5 8 6 2 4 1 1 7 2 5 5 5 0 1 4 7 8 6 0 5 2 3 8 4 0 3 6 9 1 0 8 3 5 8 9 3 1 9 1 9
9 7 8 7 6 8 4 8 6 8 0 0 7 4 0 4 0 3 9 6 5 0 6 5 9 0 1 2 5 6 4 8 7 6 9 3 2 4 5 8 6 8 5 1 2 5 2 6 6 3 9
10 1 2 2 9 1 5 0 7 4 1 2 9 6 5 8 3 3 6 3 6 4 0 3 4 5 6 7 2 2 2 3 3 0 5 5 5 8 7 5 0 2 1 0 2 4 1 5 0 7 8
11 3 8 7 5 8 1 4 8 7 1 3 0 2 7 3 2 2 2 1 7 2 5 5 3 9 7 5 2 3 2 0 2 1 1 9 2 0 7 6 7 1 7 7 7 5 4 9 0 6 0
12 6 4 3 5 9 0 6 4 1 2 5 6 5 5 3 5 0 5 2 1 4 9 6 9 5 2 7 2 9 1 1 9 9 6 3 8 1 7 8 2 3 9 5 7 0 3 3 4 5 7
13 6 7 0 8 5 9 0 2 2 1 1 2 1 4 3 2 4 7 9 7 4 0 4 6 8 7 0 3 9 3 5 9 8 3 0 8 5 7 5 5 6 5 4 4 5 0 8 3 3 5
14 4 6 8 9 0 5 9 5 9 2 7 7 6 1 0 3 6 6 6 4 6 2 3 3 6 9 4 4 5 6 9 4 9 5 8 6 0 7 9 1 6 0 0 8 3 3 5 0 7 8
15 7 5 8 9 6 4 7 7 3 2 0 0 2 5 6 5 6 9 1 9 8 8 7 5 3 9 9 8 6 5 9 8 7 0 9 2 2 5 7 5 6 3 2 3 8 8 5 0 0 8
16 8 7 2 5 2 4 6 1 3 5 8 0 7 5 1 0 5 9 8 7 3 6 3 2 0 4 1 2 4 9 7 3 5 4 4 7 5 1 0 4 8 6 8 5 3 5 9 9 8 2
17 3 3 1 7 1 3 3 5 5 1 7 6 5 3 3 2 7 3 6 5 4 9 2 5 6 0 7 8 3 2 9 0 8 2 0 9 4 7 3 4 6 3 9 0 6 5 8 6 6 9
18 5 3 2 1 4 6 5 3 7 0 5 6 1 2 1 6 8 0 2 7 0 3 8 5 0 0 2 7 2 0 5 6 5 4 5 9 3 5 9 3 2 5 2 4 9 4 4 0 7 4
19 6 7 2 8 4 1 9 3 9 4 9 5 1 0 0 9 6 6 7 5 0 6 3 4 8 3 6 9 5 0 1 7 9 8 3 5 7 5 8 3 9 3 6 3 5 3 7 8 7 9
20 9 4 8 0 0 2 7 7 3 6 4 4 9 0 6 4 5 5 3 7 5 3 0 9 8 0 2 8 2 0 6 3 1 6 1 9 3 4 8 8 1 4 4 5 5 8 4 7 7 4
21 5 5 7 4 3 8 6 5 4 7 5 5 5 1 9 9 8 7 5 9 9 1 3 8 8 5 5 7 4 7 7 3 9 1 6 6 8 8 8 9 0 8 6 9 7 9 4 9 0 3
22 6 0 8 4 7 4 3 4 5 6 6 4 9 5 1 0 8 0 9 2 5 8 9 6 5 9 8 8 4 4 8 9 8 6 9 8 1 8 7 6 3 5 3 5 4 7 2 2 9 4
23 5 4 2 1 8 3 4 0 1 4 6 9 1 2 7 9 7 8 1 0 3 1 9 9 5 6 2 8 1 8 8 3 8 7 1 4 9 1 5 9 1 5 6 1 4 1 5 0 2 3
24 9 5 9 1 0 9 2 8 1 4 9 9 0 5 1 4 6 0 0 6 9 5 4 7 4 7 0 5 5 7 7 7 1 2 3 3 5 2 7 3 8 1 9 1 6 4 5 5 2 0
25 9 2 0 3 8 2 4 9 8 3 3 2 7 2 6 9 9 1 2 2 2 4 7 1 6 9 8 5 5 6 2 6 5 4 7 0 6 0 5 4 4 6 0 4 8 5 2 6 7 6
26 6 1 8 6 6 3 1 9 5 0 7 5 2 7 3 3 1 8 1 5 0 8 2 8 9 1 2 2 8 5 7 8 9 4 3 1 6 3 2 6 8 5 2 8 9 5 2 3 1 4
27 1 8 1 9 2 7 1 9 8 6 5 8 5 3 9 6 6 8 5 8 2 3 6 4 3 6 0 0 3 3 8 5 9 8 3 2 8 5 7 6 7 8 3 1 5 7 9 6 9 5
28 1 1 9 4 7 4 3 1 7 2 2 4 6 7 2 0 2 7 8 3 8 8 9 6 6 3 1 3 0 6 3 3 8 2 2 9 5 1 6 4 3 1 0 9 7 6 8 7 6 2
29 7 7 5 3 6 0 3 3 6 1 4 6 2 3 9 0 7 7 8 3 0 7 0 2 8 4 3 7 2 7 1 8 2 7 8 5 1 9 2 4 4 9 4 4 1 9 5 8 9 9
30 6 1 1 9 5 5 2 5 4 6 1 5 4 0 4 5 6 6 5 9 0 4 9 0 6 4 5 8 0 3 4 0 0 8 9 1 8 7 5 2 3 5 9 5 5 9 7 5 9 5
31 9 6 0 8 6 3 7 2 4 7 4 7 8 7 6 2 9 0 9 6 0 5 9 7 9 5 0 2 7 8 1 2 4 8 6 3 7 9 3 3 7 0 8 9 4 5 3 5 9 5
32 5 7 9 4 8 8 8 0 4 4 0 9 4 2 7 3 1 5 0 7 2 9 8 6 9 5 3 6 8 6 6 1 1 8 4 5 1 0 4 2 0 1 7 3 3 3 7 1 2 2
33 0 0 0 7 1 4 5 3 3 0 3 1 6 3 3 3 4 9 9 8 0 5 3 3 7 6 5 8 7 1 9 8 6 8 0 7 6 3 6 1 7 6 4 4 4 7 9 1 5 2
34 6 4 1 3 1 6 0 0 5 4 6 8 3 0 8 6 7 0 8 6 6 6 0 2 8 9 8 9 9 4 1 0 2 3 8 9 0 9 2 9 6 5 6 3 1 2 1 7 9 9
35 7 4 8 7 1 1 6 8 4 8 8 1 1 7 8 5 8 1 0 8 6 6 9 7 6 3 1 9 3 8 3 7 9 5 2 5 2 2 6 6 1 3 0 6 4 5 0 6 1 5
36 3 2 4 9 0 2 7 2 4 6 0 7 5 3 1 6 3 1 9 3 4 8 2 4 1 8 9 5 7 0 5 7 0 6 2 2 4 0 5 1 3 7 5 0 1 4 2 4 5 2
37 5 4 1 1 4 0 9 8 8 6 6 0 6 9 0 5 0 1 0 5 0 1 3 3 3 7 4 6 1 2 1 3 8 9 5 8 1 0 1 5 9 0 4 4 3 0 9 7 2 6
38 7 5 6 3 9 0 0 3 3 6 4 3 2 9 5 4 7 2 6 0 3 7 4 3 3 4 9 4 2 2 6 5 0 9 8 8 1 8 4 9 1 4 6 9 8 1 7 1 9 4
39 0 2 1 7 1 9 2 7 1 3 1 3 8 3 9 7 9 1 9 1 3 0 0 5 0 8 4 0 5 5 4 3 1 8 0 1 4 3 7 8 1 7 3 2 2 2 1 1 8 8
40 3 8 5 7 3 9 8 4 7 4 5 9 6 0 6 0 4 6 9 8 8 3 9 1 9 0 3 7 0 2 6 9 7 6 3 1 5 9 8 5 0 6 7 1 0 8 6 8 0 8
41 7 8 4 0 6 2 3 7 0 6 4 8 5 2 4 5 6 7 1 6 2 6 5 7 6 5 0 5 9 9 9 8 9 2 3 6 1 4 7 3 8 3 7 0 5 5 8 7 1 8
42 1 5 9 8 9 9 6 4 0 5 6 6 2 9 5 1 0 2 6 4 8 5 6 5 6 8 0 2 1 0 6 2 3 7 8 1 5 0 6 5 6 4 8 7 5 9 1 7 6 2
43 1 1 0 5 8 0 2 6 5 8 3 3 5 4 2 4 3 6 6 3 4 4 3 3 4 7 3 6 3 6 1 1 7 9 5 0 3 5 7 7 9 3 3 3 0 0 0 1 6 2
44 3 9 6 9 4 0 8 3 5 9 3 8 0 5 3 5 2 3 4 0 7 1 9 0 1 1 2 7 4 8 7 2 1 5 9 9 0 2 3 8 9 0 2 0 3 4 1 1 7 3
45 4 5 0 4 1 3 4 5 2 8 7 9 4 1 7 2 7 9 9 2 1 1 5 5 0 9 0 4 4 6 1 3 2 8 2 9 8 3 8 1 8 0 5 6 8 9 6 0 6 6
46 3 3 6 1 8 1 2 1 4 2 6 5 4 0 7 5 8 1 4 2 6 5 6 2 5 9 2 4 9 4 2 9 9 3 1 3 2 8 2 8 8 4 4 1 9 5 8 7 2 9
47 0 1 5 4 7 3 8 6 4 0 6 5 1 0 1 2 6 1 5 9 5 3 3 4 7 7 3 7 5 0 0 4 0 5 9 2 9 5 8 0 3 0 0 1 1 6 2 7 7 4
48 4 6 1 2 0 9 7 2 4 3 3 0 2 3 6 2 7 9 1 1 1 3 3 4 0 4 3 9 7 9 0 1 4 8 8 2 8 1 9 9 1 9 0 2 3 0 0 4 1 1
49 2 6 1 9 9 0 0 2 1 4 5 8 6 4 1 6 5 5 1 2 8 6 3 9 9 5 8 3 1 4 4 2 2 4 0 2 5 9 6 9 8 7 0 6 0 1 5 1 8 6
50 7 2 4 3 1 7 0 5 1 3 1 4 5 8 3 2 4 7 8 8 5 3 4 1 3 2 6 6 2 0 4 4 6 9 0 4 0 4 5 3 5 0 3 6 2 7 4 1 0 7
229
Apéndice A. Tablas de la distribución normal estándar y de la distribución
t-student
230
Bibliografía
[1] Cochran, William. Técnicas de Muestreo. Compañía Editorial Continental,
S.A. México (1985).
[2] Scheaffer, R. L., Mendenhall, W. and Lyman, O. Elementos de Muestreo.
Grupo Editorial Iberoamérica (1987).
[3] Pérez, L. C. Técnicas de Muestreo Estadístico. Teoría, práctica y aplica-
ciones informáticas. Editorial Alfaomega-RA-MA (2000).
[4] Mood, A. M., Graybill, A. F. y Boes, D. Introduction to the Theory of
Statistics. McGraw Hill (1974).
[5] Bradburn, Norman M. and Seymour Sudman. Polls and Surveys: Under-
standing What They Tell Us. Jossey-Bass Publishers (1988).
[6] Hortvitz, D. G., B. V. Shah, and W. R. Simmons. The unrelated question
randomized response model. Proceedings of the Social Statistics Section,
American Statistical Association, 65-72 (1967).
[7] Siegel, S. Estadística no paramétrica. Trillas, México (1977).
[8] Danger, S., Huizing, N., Walker, A., Rowland, A., Anderson, R., Sciaccalu-
ga, R. EU Information Society Guide. Brussels, Belgium: The EU Com-
mittee on the American Chamber of Commerce in Belgium (1996).
[9] Lohr, S. L. Muestreo: Diseño y análisis. International Thomson Editores
(2000).
[10] Rendón S. G. Métodos Estadísticos (Muestreo, Diseños de Experimentales,
Estadística no paramétrica). Universidad Autónoma Chapingo (1997).
[11] Warner, S. L. Randomized Response: A Survey Technique for Eliminating Eva-
sive Answer Bias. Journal of the American Statistical Association, Vol. 60, No.
309(63-69), 1965.
[12] Kish, L. Muestreo de encuestas. México: Editorial Trillas (1972).
[13] Deming, W. E. Some Theory of Sampling. New York: Jonh Wiley and Sons (1950).
[14] Raj D. The Desing of Sample Surveys . New York: Mcgraw-Hill, Company Book
(1972).
[15] Azorin, F. Curso de muestreo y aplicaciones. Primera edición, Expaña: Ediciones
Aguilar S. A. (1972).
231
Bibliografía
[16] Méndez, I. Eslava, G. y P. Romero. Conceptos básicos de muestreo. IIMAS,
UNAM. Monografías. Vol. 12. No. 27 (1972).
[17] Méndez, C. E. I, Quintana C. R. H. Muestreo: Respuesta aleatorizada.[Disponible
en: http://www.dpye.iimas.unam.mx/finales2007/MuestreoRespuestaAleatorizada.ppt.]
Especialidad en Estadística Aplicada. IIMAS, UNAM. (2007).
[18] Dowling, F. A. Shachtman, R. H. On the Relative Efficiency of Randomized Re-
sponse Models. Jour. Amer. Stat. Assoc., 70, 84-87 (1975).
232

de las encuestas. Los capítulos 3 y 4 tratan sobre el muestreo aleatorio simple y estratificado, respectivamente. En el muestreo simple todas las muestras de tamaño n tienen la misma probabilidad de ser elegidas, mientras que en el estratificado la población total se divide en subpoblaciones o estratos con criterios claramente definidos. La idea central de la estratificación es reducir el costo de la investigación, porque muchas variables comparten características similares como gustos, sexo, hábitos alimenticios, ubicación geográfica, etc. De igual manera para reducir costos, el capítulo 5 presenta la técnica del muestreo sistemático, donde la muestra se compone de unidades extraídas dando saltos de k unidades de la población. Otra ventaja de este método es que sólo se fija un intervalo de selección de las unidades muestrales y por ello se evita el uso de métodos de aleatorización complejos. Para finalizar, los capítulos 6 y 7 cubren los métodos de muestreo por conglomerados en un etapa y de respuesta aleatorizada. El primer método ayuda a simplificar los muestreos exhaustivos cuando la población es demasiado grande y sus elementos comparten rasgos comunes. Por ejemplo, en las encuestas nacionales de los clientes bancarios, de los usuarios de servicios públicos o del control de calidad de ciertos medicamentos. Por su parte, el método de respuesta aleatorizada, que se complementa con el aleatorio simple o el estratificado, intenta resolver el problema de la falta de respuestas a preguntas sensibles como el uso de enervantes, relaciones sexuales o de otra índole. Además, para este caso se presenta el procedimiento desarrollado por S. Warner (1965) para obtener respuestas difíciles que ayuden estimar la proporción de personas con la característica de interés que se busca. Agradecimientos Queremos dar las gracias a todas las personas que influyeron positivamente en la realización de este libro. En especial, a nuestros alumnos de la Licenciatura en Informática, de Ingeniería en Telemática y los de la Facultad de Ciencias de la Universidad de Colima, por su paciencia, tolerancia y sugerencias para mejorar los borradores. También a los alumnos Martín Hugo del Toro Guzmán, Hugo Torres López Y Henry Nicole Ramírez de la Facultad de Ciencias, por su apoyo en la captura de la versión preliminar de los manuscritos. Los autores Colima, México

Índice general
1. Introducción 2. Conceptos básicos de estadística 2.1. ¿Qué es la estadística y para qué sirve? . . . . . . . . . . . . . . 2.2. Población y muestra . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. ¿Qué es una medición? . . . . . . . . . . . . . . . . . . . . . . . . 2.5. Las escalas de medición . . . . . . . . . . . . . . . . . . . . . . . . 2.6. Parámetros y estimadores . . . . . . . . . . . . . . . . . . . . . . 2.7. Sumatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9. La distribución normal . . . . . . . . . . . . . . . . . . . . . . . . 2.10. distribución normal estándar . . . . . . . . . . . . . . . . . . . La 2.11. Teorema Central del Límite . . . . . . . . . . . . . . . . . . . . El 2.12. distribución t-Student . . . . . . . . . . . . . . . . . . . . . . . La 2.13. Los tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . 2.14. marco de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . El 2.15. Pasos a seguir en el diseño de una encuesta . . . . . . . . . . . . 2.16. Las ventajas y desventajas del muestreo . . . . . . . . . . . . . . 2.17. Las características deseables en una investigación por muestreo 2.18. Errores de las encuestas . . . . . . . . . . . . . . . . . . . . . . . 2.19. Muestra preliminar o piloto . . . . . . . . . . . . . . . . . . . . . . 2.20. precisión de la estimación . . . . . . . . . . . . . . . . . . . . . La 2.20.1. lementos para elegir la precisión o margen de error . . . E 2.21. Uso de tablas para la distribución normal estándar y t-student 2.21.1. istribución normal estándar para n > 30 . . . . . . . . . D 2.21.2. istribución t-student para n ≤ 30 . . . . . . . . . . . . . . D 3. Muestreo aleatorio simple 3.1. Tipos de muestreo aleatorio simple . . . . . . . . 3.2. Selección de una muestra aleatoria simple . . . . 3.3. Estimación de la media poblacional . . . . . . . . 3.3.1. Estimador de la media y del total muestral 3.3.2. Estimación de la varianza . . . . . . . . . . 3.3.3. Estimación por intervalo . . . . . . . . . . 3.3.4. Determinación del tamaño de la muestra . 3.3.5. Ejemplos . . . . . . . . . . . . . . . . . . . 3.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . 3.5. La estimación de una proporción poblacional . . III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 3 3 4 5 6 7 8 9 10 11 12 13 14 15 17 18 22 23 24 24 25 26 28 28 30 33 34 35 36 37 37 38 40 42 51 52

3.5.1. La medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.2. El estimador de la proporción poblacional P y su relación con el estimador de una media poblacional . . . . . . . . . 3.5.3. La varianza de la población para una proporción . . . . . . 3.5.4. Los intervalos de confianza . . . . . . . . . . . . . . . . . . . 3.5.5. El tamaño de muestra requerido para estimar P . . . . . . 3.5.6. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52 52 53 54 55 56 63

4. El muestreo aleatorio estratificado 65 4.1. Ventajas de utilizar MAE . . . . . . . . . . . . . . . . . . . . . . . . 66 4.2. ¿Cómo seleccionar una muestra aleatoria estratificada? . . . . . . 67 4.3. La estimación de la media poblacional . . . . . . . . . . . . . . . . 67 4.3.1. El estimador de la varianza de la media estratificada . . . . 68 4.3.2. El intervalo de confianza para la estimación de la media estratificada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 4.3.3. El estimador del total estratificado . . . . . . . . . . . . . . 69 4.3.4. La varianza del estimador del total estratificado . . . . . . . 69 4.3.5. El intervalo de confianza . . . . . . . . . . . . . . . . . . . . 69 4.3.6. La determinación del tamaño de la muestra . . . . . . . . . 69 4.3.7. La asignación de la muestra . . . . . . . . . . . . . . . . . . 71 4.4. La selección de estratos . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.4.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 4.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 4.6. La estimación de la proporción poblacional . . . . . . . . . . . . . 88 4.6.1. El estimador de la proporción y total poblacional . . . . . . 89 4.6.2. Los intervalos de confianza para la proporción y total poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.6.3. El tamaño de muestra para estimar la proporción estratificada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.6.4. Asignación de la muestra . . . . . . . . . . . . . . . . . . . . 91 4.6.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5. El muestreo sistemático 105 5.1. Tipos de población por su estructura . . . . . . . . . . . . . . . . . 107 5.2. ¿Cómo seleccionar una muestra sistemática? . . . . . . . . . . . . 108 5.3. La estimación de la media poblacional . . . . . . . . . . . . . . . . 110 5.3.1. La varianza de la media y del total. . . . . . . . . . . . . . . 110 5.3.2. El intervalo de confianza de la media y el total . . . . . . . . 111 5.3.3. La selección del tamaño de la muestra. . . . . . . . . . . . . 111 5.3.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 5.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5.5. La estimación de la proporción poblacional . . . . . . . . . . . . . 124 5.5.1. El estimador de la proporción y el total . . . . . . . . . . . . 124 5.5.2. La varianza estimada de la proporción y el total sistemático 125 5.5.3. El intervalo de confianza para la proporción y el total sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

. . . . . . .4. . . . . .5. 176 7. 164 6. . . . . . . . . . . . . La determinación del tamaño de muestra . . . El estimador de la proporción y el total poblacional . .3. 193 7. . . . . . . La varianza estimada de la media y del total. . . ¿Qué puede ser un conglomerado? . . . .6. . . . . . .2. .3. . . . . . 172 7. ¿Qué sucede cuando se desconoce el tamaño de la población M ? . .4.1. . El estimador de la media poblacional . .5. . . . . . . . . . . . . . . . . 144 6. . 180 7. . . . . . . . . . .4. . . . . . . . . . . . . . 191 7. . . . . . . .5. 192 7. . . . . .3. . . . . . . . . . . . . . . . . . . . . . . . . . . .2. . La selección del tamaño de muestra para la proporción y el total . . 162 6. . . . .8. . .3. . . . . . . . . Ejemplos . . . . . . . . . 144 6. . . 209 7.2. . .4. . . . . . . . . 126 5. . . . . . . . . . . . Ejemplos . .6. . . . El modelo de respuesta aleatorizada bajo el MAE . . . La varianza estimada de los estimadores de la proporción y del total . . .5. . . .5. . . . . . El tamaño de la muestra para estimar la proporción y el total193 7. . . . . . . . . . . . . . 177 7. . . .5. . . . . . . . . . 145 6. . .3. . 177 7. . . . . . . . . . . . .3. . . . . . 191 7. 192 7. . . . . . . . . . . . . . . . .1. . . . Ejemplos . . . . . . . . . .5.4. . 136 6. . . . . . . El estimador del total poblacional . . . . . . . . .6.6. Ejercicios . . La estimación de una media y un total poblacional con M conocida 143 6. . . . . . . . . . . . . .6. . . . . . La varianza de los estimadores de la proporción y total poblacional . . . . . . . . .5. . . . . . . .1.6. ¿Cuándo se utiliza esta técnica? . . .4. . . . .4.5. 162 6. 162 6. . . . . . . 141 6. . . . . . . . . . . El tamaño de la muestra para la proporción y el total . . . . . . . . . .7. .4.1. . . . . El estimador de la media y el total poblacional . . El intervalo de confianza para el promedio y total poblacional192 7. . . . 179 7. . . . . . . . . Ejercicios . Ejercicios . . . . . . . . . . . .4. . 163 6. . . . . . . . Ejercicios . . .4. 143 6.1. . . . .6. . . Ejercicios . . . El modelo de respuesta aleatorizada bajo el MAS .2. . . . . Ejemplos . . . . Ejemplos . . . . .1. . . . . . . . . . . . . . . . . El estimador de la proporción y el total poblacional . El muestreo por conglomerados en una etapa 139 6. . .3. . . . . . . . . . . . . . . . . . . . . El intervalo de confianza de la media y el total . . . . . . .5. . . 211 7. . . . .5. . . . . 160 6. . . .7. . . . . .5. . . . . . . Una comparación con el muestreo estratificado . . .5. . . 146 6. . . . . . . . . . . . El muestreo basado en el método de respuesta aleatorizada 175 7. . Respuesta aleatorizada versión Horvitz bajo MAS .7. . . . . . . . . . . . . .2. . 144 ¯ ˆ 6. . 179 7.3. . . . . 142 6. La estimación de la media y un total cuando se desconoce M . . . . . 179 7. .3. . . El intervalo de confianza de la media y del total. . . El intervalo de confianza de la proporción y el total . . . . . . . . . .6. . . . . . . . . . . . .1. 140 6. . . 163 6. . . . . . . .5.3. . . . . . . . 180 7. . . . . . .5. . . .4. . Acerca del tamaño del conglomerado . . . . . . .3. 163 6. . 212 . . . . La estimación de una proporción poblacional . . .6. . . . . . . . . . . . . . . . . . . . Los tamaños de muestra para estimar la media y el total . . . . . . . . . . . . . . . . . . .2. . . . . . . . . . . . Ventajas y desventajas . . . . 125 5. . . 164 6. La varianza estimada de yc y τc . .4. . . . . . . . . . . . . Alternativa al modelo de respuesta aleatorizada .4. .8.

. . Ejercicios . . . . . . . . . . . . . . . Ejemplos . . . . . .1.8. . . . . . Respuesta aleatorizada versión Horvitz bajo MAE 7.11. . . . . . . . . . . . .7. . .10. 7. . . . . . . . . . . . .9. . . . . . . . . . 7. 213 220 222 223 A. . . . . Tablas de la distribución normal estándar y de la distribución tstudent 225 . . . . . . . ¿Cuál método de respuesta aleatorizada es mejor? . . . . . . .

.

. Forma de la distribución normal para la variable estatura (Y ) con media 90 cm. . . . . . . . . . . . . 107 5. Varianzas de distribuciones finitas (S 2 ). 2. . . . . .2.1. . . . . . . . . . . Z ∼ N (µ = 0. . . . . . 5 y 10 gados de libertad . Comparación de la distribución normal estándar con las distribuciones t-student con 1. . . es decir. . . . 108 A. . . . . . . . 228 III . . . . . 3.1. .Índice de figuras 2. . . . . . . . .2. . . . . σ 2 = 1) . . . . . . . . . . . . . . . . . . en función de su forma y rango. . . . .3. 2. . . . . . . . . . . . . Forma de la distribución normal estándar (Z).1. . La dispersión del marco de muestreo de una población ordenada . . y DE=5 cm. La dispersión del marco de muestreo de una población aleatoria . . . . . . . 12 13 15 5. . . . . . . . . . . . . .

.

5.3. . . . . . . . . . . . . .1. . . . . . 151 6. . . . . . .5. . . . .2. . . . . . . . . . . . . . . . . Calificaciones de los egresados de la Normal Superior . . . . . . . 6. . . . . . . . . . . . . . . Ejemplo 2 para el uso de las tablas de la normal estándar . .5. . . . . . . . . . . . . . . . . . . . .15. . . . . .18. . . . . . . . . . . . 5. . de nance. . 2.3. . . . . . El número de horas diarias que cada familia ve televisión .2. . . . . . . . . . . 4. . . . . .2. . . . . . . . . . .6. . . . . . . . . . . . Daño promedio a corazoón de las tres sepas en porcentaje. . . . . . . . . . . . . . . . . . . . 5. . . . . . . . .5.17. . . . Resultado del número más probable de coliformes fecales por 100 ml. 4. . .16. . . . . . . . . . . . . . . .11. . 5. . . 5. . . . . . . 5. . . . . . . . . . . . . . . . 154 V . . .5.8. . . Ejemplo para el uso de las tablas de la distribución t-student . . . Datos de la muestra. . . . colimenses que han visitado Palenque. . . Plantas por hectárea infectadas . . . 4. . . .1. 5. . . . . . . Faltas justificadas por año. . . . . . . .6. . . . . . . 5.10. . . El contenido de carbohidratos por reja de refresco . . . . . . . . . . . . . . .1. . . . . . Los alumnos satisfechos e insatisfechos. . . . Datos de la muestra.Índice de cuadros 2.13. . . . 5. . . . . . . . . 5. . . . . . . . . 4. . . . . . . . . . . . El peso de los sacos de maíz (Kg) . . . . . . . . . . Ejemplares comprados por familia. . . . . . . . 4. 5. . . . . 5. . Ejemplo 3 para el uso de las tablas de la normal estándar . . . . . . . . .3. . . . . . . . . . . . 2. . . . . . . . . . . .2. . Chiapas. . . . . . . smallcaption . . . . Los colimenses que al menos en una ocasión se han enfermado de dengue. . . . . 2. . . .12. 4. . . . . Los estudiantes que tienen licencia para conducir . . . . . Muestra de colchones. . . . . . 4. . . . . . Ejemplo 1 para el uso de las tablas de la normal estándar . 5. El porcentaje de grasa por envase de leche ultrapasteurizada . . El ingreso promedio mensual (miles de pesos) de las familias chiapanecas. . . colimenses que han visitado Francia. . . . . . . . . . Esquema de un muestreo sistemático . . . . . . 2. . . . . . . . . . . .7. . . . . . . .4. . . . . . . . . . . de agua. . .9. . 29 29 30 31 31 73 77 80 84 87 88 88 89 106 112 115 118 120 123 123 124 124 126 129 131 134 136 137 137 137 4. . . . El porcentaje de sacarosa por planta . . . . . . . 5. . . Albañiles que consumen cerveza . . . Datos de la muestra. . . . Datos de la muestra. . . . . . .4. . . . . 5. . . . . . . . El número de microprocesadores dañados por caja . . . . . . . . . . . . Porcentaje de tanino por kg. . Los asegurados que contrajeron gripe o tos por lo menos una vez en los últimos seis meses . . . . . . .7. . El gasto en útiles escolares por estudiante (en pesos).4. .4. . . . . . . .8. . . . . . . 5. 5. . . . . . . . . 147 6. . . . . . . . . . .

. . . .7. . . . . . . . . . Nivel de satisfacción de los médicos en cada hospital . . . . 227 A. . . . . . . . .1.6. . . . . . . . . . . . . . . Puntos porcentuales de la distribución t-student. 6. 6. . . . . . . . . . . . . . . . . . . . . . 6. . . . Kg. . . de basura producidos por vivienda semanalmente. .13.6. . . . . . smallcaption . . . . . .8. . . . . . . . . .10. . . . . . . . . 6. . . . 6. . .12.2. . . . . . . . . . El 6. . . . . . . . . . 157 161 162 165 168 173 174 A. . .3. . Distribución normal estándar acumulada. . . . . El total de cacahuates producidos por tramo . . . . . .9. . 226 A. . . . . . . smallcaption . . . . . . . Tabla de números aleatorios . . . . . . 229 . . . . . agua de coco por palmera (litros). . . . . Emigrantes de las 12 localidades. . . . . . . . . . .

a una donde el énfasis principal es la producción e intercambio de información. en el estudio de muestras. La información sobre la cantidad y calidad de un recurso para tomar tales decisiones pueden ser obtenidas mediante una evaluación exhaustiva. Por consiguiente. La tecnología está cambiando el mundo en que vivimos. así como los ciudadanos. la Internet y las tecnologías de la información han transformado el funcionamiento de las empresas. En las dos últimas décadas. En general. sino que también el comportamiento individual y colectivo de los individuos (Danger. La importancia de este cambio es comparable al de las revoluciones industriales de los siglos XVIII y XIX. actitudes y decisiones humanas estén basadas en el análisis de información parcial. se espera que las determinaciones hechas también pertenezcan a la población. las empresas privadas. es algo normal y cotidiano en las actividades humanas. las instituciones. Las tecnologías digitales han demostrado ser un potente motor del crecimiento económico y de la competitividad. implícitamente se acepta esa suposición. aunque siempre se corre el riesgo de que tal suposición no sea totalmente cierta.Capítulo 1 Introducción L cambios radicales en las tecnologías de la información y las telecomunicaciones han generado una enorme cantidad de información sin precedentes. se ha alterado no sólo la interacción humana con la información. El objetivo principal de las técnicas de muestreo es darle objetividad a ese riesgo. Los gobiernos. necesitan usar intensivamente información y datos para el análisis de fenómenos y toma de decisiones en circunstancias de gran complejidad e incertidumbre.. 1996 [8]). ya que exige cambios muy rápidos a los nuevos paradigmas. estos cambios continuos y evolutivos han transformado a la sociedad. es decir. principalmente por la carencia de recursos. En estudios 1 Os . concretamente en el uso del muestreo. Al hacer la evaluación con solamente una fracción de la población o del recurso. los métodos de investigación de los científicos y la forma en que los gobiernos prestan sus servicios a los ciudadanos. en la mayoría de las circunstancias no es posible o conveniente hacer la evaluación exhaustiva sobre toda la población. esto es. El uso del muestreo como un medio para obtener conocimiento y tomar decisiones. de una basada en la producción de objetos físicos. cuantificar o calificar todo el recurso (población). Sin embargo. et. los métodos de aprendizaje de los estudiantes. por ello se justifica que gran parte de los conocimientos. al.

sirve en un primer curso de muestreo estadístico aplicado. en los estudios demográficos y sociales. Los objetivos centrales que persigue este documento son: Presentar la forma adecuada de seleccionar una muestra. Por ello. este libro pretende ayudar a los investigadores. dirigido a estudiantes de nivel licenciatura.Capítulo 1. el muestreo se utiliza prácticamente en todas las áreas del conocimiento. 2 . En fin. etc. El material no supone conocimientos profundos sobre matemáticas o probabilidad y por lo tanto. Proporcionar ejemplos ilustrativos para cada uno de los esquemas de muestreo para facilitar su comprensión. tampoco realizar demostraciones formales. estudiantes y profesionales de las distintas áreas del conocimiento que frecuentemente se encuentran con estos problemas para que realicen sus actividades de una forma apropiada y eficaz. y en la industria. lo que denominaremos diseños de muestreo. elegir el esquema de muestreo. en cualquier área del conocimiento. Introducción de mercado. los ingresos y niveles de escolaridad en los habitantes de una ciudad o país. calcular el tamaño de la muestra y realizar las estimaciones correspondientes no es una tarea fácil para todas aquellas personas con poca formación en estadística. Exponer las fórmulas para calcular los estimadores.. considerando las características de las poblaciones de interés. Además. Exponer las fórmulas adecuadas para calcular el tamaño de una muestra para satisfacer las exigencias preestablecidas sobre la calidad de los estimadores. el muestreo sirve para conocer las preferencias de los consumidores de cierto producto. Sin embargo. para el control de calidad en el proceso de producción. para conocer los niveles de empleo y desempleo. la prevalencia y la incidencia de la drogadicción.

La estadística sirve para: Describir las diferentes medidas en un conjunto de objetos mediante el análisis de algunos de sus elementos. OAML 2.1. para poderla sentir. Sólo requiere de entrega. clasificar. el muestreo emplea una termi3 . Tomar decisiones sobre opciones diversas con información parcial contenida en un conjunto de datos.Capítulo 2 Conceptos básicos de estadística Que la estadística es bella. Como en todas las áreas del conocimiento. En lugar de hacer acopio de diversas definiciones y darnos a la tarea de compararlas. siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos. aceptaremos la siguiente: N Estadística ”La estadística es la ciencia que se ocupa de los métodos y procedimientos para recoger. hallar regularidades y analizar los datos. señalando su ambigüedad o insuficiencia. así como de realizar inferencias a partir de ellos. ¿Qué es la estadística y para qué sirve? E la literatura existen numerosas definiciones de la estadística. resumir. sin embargo. 1996). no lo vengo a presumir. éstos se pueden resumir en algunos de los puntos ya descritos con la finalidad de inferir sobre la población (estimación y prueba de hipótesis). con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones” (Johnson. Predecir el comportamiento de una medida o característica. en condiciones no observadas. Los usos y aplicaciones son innumerables.

éstos se analizan simplemente como números.Capítulo 2. Muestra. en el análisis no suelen incluirse las unidades de medición de los valores de una variable. lo que facilita enormemente su interpretación. etc. y presentar la simbología que se emplea en las técnicas de muestreo. seleccionados con alguna técnica. como peso. volumen.. Cabe mencionar que no es un requisito que los objetos sean de la misma naturaleza. La población es el conjunto que incluye todas las partes constitutivas de un recurso.. En general. En este libro se usará la población. y en general los métodos estadísticos. por lo que es conveniente revisar algunos de ellos. o al menos muy semejantes. y aunque con frecuencia no se distinguen explícitamente. metros cúbicos. Sin embargo. todas las computadoras dentro de una empresa o laboratorio pueden constituir un conjunto. Denominamos población al conjunto de objetos tanto como al conjunto de valores. centímetros. el contexto en que se usa el término de población deja en claro la referencia. Población y muestra Como se dijo. Conceptos básicos de estadística nología específica que define de manera apropiada los conceptos que se utilizan. las técnicas de muestreo. resulta conveniente recordar que los valores de una variable siempre representan dimensiones físicas o de otra naturaleza. 4 . en particular de la estadística. también los estudiantes y las sillas dentro de un salón de clases constituyen un conjunto. Población. Es un subconjunto de elementos o unidades. la población es un conjunto de números que tienen las unidades en que se hace la medición. Así. Es una colección de objetos o de entes que se caracterizan por poseer o compartir ciertas características (propiedades) en común. Por ejemplo. aunque la mayoría de los casos que involucra las técnicas de muestreo los objetos suelen ser de la misma clase. Conjunto Es una colección de objetos definidos y distinguibles cuya única propiedad indispensable es que sean identificados como pertenecientes a dicho conjunto. etc.2. que se refiere al conjunto de mediciones que se hacen sobre una característica de interés en todos y cada uno de los elementos del conjunto de objetos. y que estas dimensiones son medidas en unidades como kilogramos. 2. longitud. se aplican a un conjunto de datos propios de un conjunto de objetos. es decir. El segundo es una función del primero. de la población en estudio. A cada uno de los objetos que lo constituyen se le llama elemento. por lo que los resultados del análisis son coherentes si se usan las unidades de medición.

para ello se aplica un cuestionario a cada fami5 . muchos valores en ese intervalo no pueden ser observados. en un sentido amplio. En contraste. por ejemplo 1. podría haber un número variable de atributos. En general. es un proceso que tiene como propósito obtener conocimientos de las características generales de una población. Una variable discreta se puede medir en una escala que no incluye todos los valores posibles de un intervalo de los números reales. el número de libros en una biblioteca. mediante la muestra. discretas o de atributos. la población original son todos los estudiantes. es decir. entre otros. El peso de cada silla o de cada estudiante también es una variable. mide la característica de interés de todas las unidades de la población.3.Por ejemplo. El muestreo. al menos teóricamente. que estarán denominadas por el número que indica la dimensión y las unidades en que se miden. pero la población a la que las técnicas de muestreo se referirán son el conjunto constituido por las estaturas de esos estudiantes. si el recurso son los estudiantes de la Universidad de Colima y la característica de interés es su estatura promedio. como tener varios grupos étnicos. lo que permitiría hacer diversos grupos y cada elemento pertenecería solamente a uno de esos grupos o clases. La pertenencia a un grupo étnico es un ejemplo de un atributo.. etc. centímetros. 2. Digamos que pudiera ser de interés describir económica y socialmente las familias del estado de Colima. este tipo de variables incluye mediciones en kilogramos. afinando más y más el instrumento de medición. Ejemplos de este tipo de variables son los conteos. es aquella donde son posibles todos los valores dentro de un intervalo de los números reales. el censo es un proceso de revisión exhaustivo de la población. La altura de los estudiantes es una variable. Variables Una variable es una característica de los elementos de una población y se obtiene con una medición o una calificación. ya que prácticamente. como su nombre lo indica. por limitaciones de los instrumentos de medición. el número de personas de un lugar. también lo es la marca de computadoras portátiles que se encuentran en el mercado actual. cuya precisión puede ser incrementada indefinidamente. Una variable continua.75 metros podría ser uno de los elementos constitutivos del conjunto población. Las técnicas de muestreo se aplican directamente a conjuntos de valores medidos en escalas apropiadas para variables continuas. Las variables por atributos permiten la clasificación en función de la presencia de cierta propiedad en el elemento que desea evaluarse.

pero el muestreo que aquí estudiaremos es univariado. pero influye mucho en los resultados. un dato es el valor específico que tiene la característica de interés de un elemento de la población. La determinación del valor de la característica es la medición o la calificación. y la determinación del valor mediante algún método. En este libro un dato es un valor que ya ha sido determinado. 6 . el número de individuos que trabajan. en las que los conjuntos contienen números y la regla de asociación es una ecuación. entre otras. pero lo que no es válido es que un elemento del primer conjunto esté vinculado con más de un elemento del segundo. Este procedimiento incluye dos cosas: la forma de elegir el objeto. se toma solamente una variable a la vez. es decir. como ingreso mensual. Una lista de nombres y un grupo de estudiantes pueden ser una función si cada nombre de la lista corresponde a uno y sólo uno de los estudiantes.Capítulo 2. Pueden ser muchas las variables que se midan. para ello se toman mediciones de diferentes contaminantes: el conjunto de las mediciones del contaminante es la variable a la que se aplican los conceptos del muestreo. Para hacer una medición deben usarse las técnicas adecuadas. Las funciones que comúnmente abordaremos en este texto son funciones matemáticas. El conjunto de mediciones de cualquiera de estas variables medidas es el sujeto de aplicación de las técnicas de muestreo. Matemáticamente.4. En general la medición es la determinación del valor de la característica de interés de un elemento de la muestra. el tipo de ocupación. el número de integrantes de la familia. Conviene mencionar que dato se puede referir a un valor conocido o existente pero que aún no ha sido determinado. es decir. aunque el estudio incluya varias variables. ¿Qué es una medición? La medición es una tarea en la que la estadística no interviene directamente. Este es el tema que abordaremos a continuación. 2. Hemos mencionado que en el muestreo nos interesan los valores medidos del subconjunto muestra. que son seleccionados del conjunto población. dos conjuntos y una regla que asocia o vincula a cada elemento del primer conjunto con uno y sólo uno de los elementos del segundo conjunto. el proceso se realiza sobre todas y no más de una al mismo tiempo. Conceptos básicos de estadística lia con preguntas sobre su situación socioeconómica. Es prioritario considerar la forma en que se decide el elemento que se observará. A estos valores se les denomina datos. Función es otro terminó muy usado. que algunas veces representa un problema difícil y requiere tratamientos específicos. el concepto de función consta de tres elementos. Nótese que incluso todos los elementos del primer conjunto pueden estar vinculados al mismo elemento del segundo conjunto. Otro ejemplo puede ser la determinación de la calidad del aire en la Ciudad de México. En el este contexto experimento es el procedimiento que permite obtener un dato.

. pero los métodos estadísticos para analizar los datos de ambos casos pudieran ser los mismos.> sargento 1ro. Las escalas de medición Las reglas que clasifican los datos en distintas categorías se denominan escalas de medición: nominal. en particular las estadísticas de rango. La instrumentación. Sin embargo. intervalo y proporción (Siegel. simetría: si X=Y entonces Y=X. Las medidas que se pueden calcular en esta escala son: moda. Un último ejemplo es la llegada a la meta de un corredor en una competencia de 20 participantes: su clasificación C es tal que C ∈ {1. 1977 [7]). a veces. división o resta. selección y validez de las técnicas de medición son motivo de estudio de otras disciplinas. Por ejemplo. no puede definirse una distancia entre las observaciones. pero la comparación entre técnicas de medición sí son motivo de aplicación de los métodos estadísticos por lo que no abordaremos en este libro las técnicas de medición. azul. 20}. .Para medir la altura de los estudiantes se emplean técnicas muy distintas a las que miden la longitud de un virus o una bacteria. Las técnicas de medición son muy diversas y algunas son difíciles de ejecutar. casi nunca y nunca. pocas veces. así como los coeficientes de correlación con base en rangos. . Otro ejemplo es la definición de la jerarquía militar de un regimiento: teniente> subteniente> sargento 3ro. entonces X=Z. Escala ordinal La escala ordinal clasifica y ordena las observaciones. frecuencia.5. 2. los seres humanos se clasifican en hombres y mujeres. es decir.<. Escala nominal La escala nominal se utiliza para clasificar a la población en categorías. ordinal. así como calcular la moda y establecer relaciones de equivalencia. Las pruebas estadísticas admisibles para un conjunto de datos de esta naturaleza son las no paramétricas. multiplicación. =. y transición: si X=Y y Y=Z. Las relaciones admisibles en esta escala son: >. En este tipo de datos no existe una relación de orden ni se pueden realizar operaciones aritméticas como suma. la frecuencia con que un grupo de personas lee una revista científica podría clasificarse en: regularmente. los colores se clasifican en rojo. . se pueden establecer frecuencias y proporciones. el coeficiente de Sperman y el de Kendall. 7 . Las propiedades de las relaciones de equivalencia son: reflexión: X=X. Por ejemplo. Las pruebas estadísticas no paramétricas son admisibles para datos con esta escala de medición.> cabo. verde. coeficiente de contingencia y mediana. Sin embargo. 2. etc.

En esta medida. la suma de todos los valores después de elevarlos al cuadrado. la moda. Todas esas funciones son parámetros. ya que la unidad de medida y el punto cero son arbitrarios. muchos no tienen utilidad. Dentro de las técnicas paramétricas se permite el cálculo de medias. de la desviación estándar. 2. la suma de todos los valores correspondientes al gasto de agua por familia en una localidad (población). Las pruebas estadísticas admisibles son las t-student y la F de Snedecor. sin embargo. el más grande. en cambio otros manifiestan el interés de la evaluación. Admite también todas las operaciones matemáticas y de igual manera se pueden establecer relaciones de igualdad y orden.Capítulo 2. El peso en kilogramos de los estudiantes del primer semestre de Ingeniería en Software de la Facultad de Telemática de la Universidad de Colima. Conceptos básicos de estadística Escala de intervalo Esta escala incluye las dos anteriores. es decir. porque la suma representa el gasto total de agua en dicha localidad. etc. la desviación estándar. Los parámetros suelen ser representados por letras griegas como µ. Las pruebas estadísticas admisibles son todas las pruebas paramétricas. Por lo tanto. además de conocer la proporción. el coeficiente de variación. Por ejemplo. 8 . el que ocupa la posición central una vez que han sido ordenados ascendente o descendentemente. Esta escala necesita una unidad de medida y un punto cero arbitrario (no es el cero que pertenece a los reales). Por ejemplo.6. así como todas las pruebas estadísticas anteriores mas el coeficiente de variación y la media geométrica. la escala de proporción ubica al punto cero en el origen. σ. el valor que se repite el mayor número de veces y muchos otros más. Las pruebas estadísticas admisibles son las paramétricas y las no paramétricas. Ejemplo 2. porque necesitan el cero de los números reales. se debe conocer la distancia entre dos puntos. el total. Colima. Escala de proporción Además de todas las características anteriores. el promedio. Las únicas medidas que no se pueden obtener son el coeficiente de variación y la media geométrica. τ . Existe un número infinito de parámetros para una población dada. El diámetro en metros de una plantación de parotas localizadas en Tecomán. En esta escala la proporción de dos intervalos cualesquiera es independiente de la unidad de medida y del punto cero. Parámetros y estimadores Parámetros Sobre el conjunto población se pueden definir funciones muy diversas como el valor más pequeño. Ejemplo 1. clasifica. la temperatura en grados Celsius o Farenheit se mide en una escala de intervalo. ordena y además establece la proporción entre dos intervalos contiguos. el coeficiente de correlación de Pearson. la varianza.

mientras que un estimador es una función de los datos disponibles (muestra o censo) que se usa para estimar o calcular los parámetros. Sumatorias La sumatoria es muy importante para comprender mejor los conceptos detrás del muestreo. usualmente en forma numérica. ”k”.7. Estimadores Son funciones que se pueden proponer para calcular o estimar los parámetros. Si se simboliza por yi a cualquiera de esos datos. por ejemplo. como puede ser el caso de una tabla o una matriz que tiene renglones y columnas. Aclaremos mejor la diferencia entre parámetro y estimador. Un estimador es una función de los datos que sirve para calcular (en un censo) o estimar (en un muestreo) un parámetro. Existe un número infinito de estimadores. aunque convencionalmente se emplean letras intermedias minúsculas del alfabeto como ”i”. a cada parámetro le corresponde uno o más estimadores. digamos el i-ésimo de ellos. A ambos casos se les llamarán estimadores.la mediana. si se desea sumar el cuadrado de cada dato. como ”yij ”. etc. la suma de esos datos se simboliza empleando el operador de sumatoria (Σ). n y1 + y2 + · · · + y n = yi i=1 Se puede combinar otras operaciones matemáticas con la sumatoria. Es importante hacer notar que el subíndice puede emplear cualquier símbolo. pero si esas funciones se definen para los datos de una muestra. el porcentaje o proporción son algunos ejemplos de parámetros. o al revés. donde ”i” es el renglón y ”j” la columna. ”j”. Una definición general del parámetro es una constante que describe a la población. Además. entonces se realiza una estimación del parámetro. incluso los mismos datos pueden usar subíndices diferentes para indicar las operaciones apropiadas. Si existen más de dos criterios de clasificación podrán emplearse más de dos subíndices para identificar apropiadamente cada dato. Algunos parámetros y estimadores incluyen en su definición la suma de varios valores o datos. pero sólo algunos tienen interés práctico. la simbología apropiada es: n 2 y1 + 2 y2 + ··· + 2 yn = i=1 2 yi El subíndice señala una etiqueta que identifica a cada dato cuando éste aparece en una lista. 9 . Asimismo. un símbolo de dato como ”y” puede tener más de un subíndice cuando los datos tienen más de dos criterios o sentidos de clasificación. Si se definen sobre el conjunto población entonces se está calculando el parámetro.. y se tienen n datos. 2.

Variable aleatoria El concepto de variable aleatoria se relaciona con una característica o dimensión que tienen las unidades muestrales de una población.Capítulo 2. Así. cada uno asociado a una unidad muestral. un parámetro o un estimador. que son todos los valores que 10 . donde r es un número entero mayor que 1 y menor que n. i puede tomar valores entre 1 y n. Propiedades de las sumatorias n a) i=1 n c = c + c + c + · · · + c = nc n b) i=1 n cyi = c(y1 + y2 + y3 + · · · + yn ) = c yi i=1 c) i=1 (xi + yi ) = (x1 + y1 ) + (x2 + y2 ) + · · · + (xn + yn ) = x1 + y1 + x2 + y2 + · · · + x n + yn = (x1 + x2 + x2 + · · · + xn ) + (y1 + y2 + · · · + yn ) n n = i=1 n r xi + i=1 n yi d) i=1 yi = i=1 yi + i=r+1 yi . Ejemplo: 5 yi = (y1 + y2 ) + (y3 + y4 + y5 ) i=1 2 5 = i=1 yi + i=2+1 yi donde yi = cualquier valor 2. Por decir. Esos valores posibles forman un conjunto. si estamos hablando de la variable ’íngreso familiar en el estado de Colima” (y). En los ejemplos.8. para señalar que ese símbolo pertenece al objeto identificado con la etiqueta que se usa como subíndice. una variable aleatoria Y es una función que va del espacio muestral (constituido por las unidades muestrales) a otro espacio muestral que son los números reales o a un subconjunto de éstos. σy se refiere a la desviación estándar de la variable (de los datos de) y. que a dicho conjunto se denomina espacio muestral. Por ejemplo. Veamos varios ejemplos sobre el uso de la sumatoria y los subíndices. entonces yi representa el ingreso que tiene la familia i en el estado. y que puede tomar diferentes valores. Conceptos básicos de estadística En otras ocasiones se empleará un subíndice con algún otro símbolo. tal vez el de una variable. mientras que yi puede ser cualquier valor de la variable y.

Esta variable es conocida como la variable indicadora del conjunto yi y sólo toma los valores 1 ó 0. 2..1. puesto que sirve como punto de partida para el desarrollo de muchas técnicas de inferencia (Mood. Donde: E[Y ] = µ −∞ < µ < ∞ V ar(Y ) = σ 2 σ2 > 0 e y π son las constantes conocidas. 1974 [4]). Además.9. Entonces podríamos definir la función Y como una variable aleatoria como sigue: y(yi ) = 1 si yi = sí fuma 0 si yi = no fuma.1). σ 2 = 25). Para ejemplificar la forma de la distribución normal. σ 2 ).puede tomar la variable bajo un experimento aleatorio. Aunque con la corrección por continuidad es posible calcular probabilidades para cualquier posible valor k (Mood. 1974 [4]). La forma de la distribución se presenta en la figura 2. El lector debe notar que µ y σ 2 son los parámetros de la distribución. con una desviación estándar (DE) de 5 cm.. ya que para cualquier posible valor k de Y . no}. solamente pueden calcularse probabilidades para intervalos que pertenecen al espacio muestral de Y . La distribución normal tiene forma acampanada (Figura 2. Los puntos en que cambia la dirección de la concavidad de la campana se llaman puntos de inflexión. La distribución normal Esta distribución tiene gran importancia debido a que es un modelo adecuado para muchos sucesos naturales y por su sobresaliente papel en la teoría estadística (Teorema Central del Límite). cuando Y ∼ N (µ = 90. es decir. Es importante mencionar que debido a que la distribución normal es continua. Y ∼ N (µ = 90..45 por ciento (área sombreada en la figura 2. Decimos que una variable aleatoria Y se distribuye normal si su función de densidad es:  2  √ 1 e− (y−µ) si y ∈ R 2σ 2 fY (y) = 2πσ 2  0 de otra forma. et al. se desea saber si los miembros de un grupo de personas fuman o no.1). es decir. y 11 . et al. el porcentaje de niños con una estatura entre 80 cm y 100 cm es de 95. Por ejemplo. Y ∼ N (µ. que corresponde al hecho de que una persona dada (yi ) fume o no fume. El espacio muestral inicial es el grupo de personas y = yi y el segundo espacio muestral es S = { sí. P (Y = k) = 0. supóngase que se mide la estatura (Y ) en centímetros a una población de niños de 5 años de edad y se encuentra que su promedio es de 90 cm. con un solo pico o moda que es igual a la mediana y media porque es una distribución simétrica en torno a este punto. σ 2 = 25).

La ventaja estriba en que tiene media cero y varianza uno (Mood. et al. Se puede ver en la figura 2.1: Forma de la distribución normal para la variable estatura (Y ) con media 90 cm. 0.02 0. El área total bajo la curva es 1 ó 100 por ciento. es normal estándar porque su media es cero y su varianza es la unidad. puede calcularse con la distribución normal estándar.06 0.08 0 70 0. 12 . La distribución normal estándar Sea Y una variable aleatoria distribuida N (µ.01 0.07 75 80 85 90 Y 95 100 105 110 Figura 2.10. ya que es una distribución de probabilidad definida.2.. que tiene distribución N (0. o sea.6. 1). cualquier normal con media µ y varianza σ 2 . 2. la media igual a la mediana es igual a cero y su desviación estándar igual a la varianza es uno. Su función de densidad es:   √1 e− z22 si z ∈ R   2π fZ (z) =    0 de otra forma. es decir. por lo que la integración se obtiene empleando tablas de la normal estándar o con un software estadístico. Definamos la variable aleatoria Z = (Y − µ)/σ. 1974 [4]) y facilita el cálculo de probabilidades porque la variable aleatoria normal original es una función no integrable.04 0. La importancia de esta función de densidad de probabilidad radica en que las probabilidades en cualquier miembro de la familia. La forma de la variable aleatoria Z se ilustra en la figura 2. Conceptos básicos de estadística están situados a una distancia de σ unidades por encima y por debajo de la media µ. y DE=5 cm. σ 2 ).Capítulo 2.05 0.6 y 3.2 que los valores con mayor ocurrencia de la variable aleatoria Z están entre -3.03 0.

Su enunciado preciso es el siguiente: sean Y1 . 1) σy ¯ El Teorema Central del Límite establece que para un tamaño de muestra ¯ grande.3 -4 -2 0 Z 2 4 1) Figura 2. con 2 ¯ media µY y varianza σY . Z ∼ N (µ = 0.4 N 0 2 1 0. variables aleatorias independientes e idénticamente distribuidas).1 0. cuando n → ∞ De acuerdo con el resultado anterior y estandarizando la variable aleatoria. Yn una muestra aleatoria de una función de probabilidades fY (y) (es decir. independientemente 13 . . la ¯ distribución de la variable aleatoria Y es aproximadamente normal con media 2 µY y varianza σY /n. Este teorema provee una aproximación efectiva a las probabilidades determinadas por sumas de variables aleatorias independientes y explica la gran importancia de la distribución normal en la teoría de probabilidades. la expresión puede escribirse como ¯ Y − µY 2 σY n = ¯ Y − µY ∼ N (0. σ 2 = 2. σY /n). El Teorema Central del Límite El Teorema Central del Límite es de gran importancia porque en él se basan gran parte de los métodos estadísticos. . . Sea Y = (Y1 + Y2 + · · · + Yn )/n la media aritmética de las variables aleatorias que integran la muestra. es decir. Y2 . es decir.0.2: Forma de la distribución normal estándar (Z).0 0. .2 0. Para un tamaño de muestra n.11. la distribución de Y es aproximadamente normal. 2 ¯ Y ∼ N (µY .

E[t] = 0. la distribución del muestreo de Y es aproximadamente normal si una muestra simple al azar es lo suficientemente grande. 2. Var[t] = . De esta manera vemos que una variable aleatoria t-student tiene el mismo valor esperado que una variable aleatoria con distribución normal estándar. el valor ν esperado de t es cero. et al. 1) y χ2 es una variable χ2 (ν) (Ji cuadrada) independiente de Z.12. note que ν−2 cuando ν −→ ∞. La función de densidad t-student es simétrica con respecto a cero. ¯ Para casi todas las poblaciones. Gosset. Por tal motivo Gosset publicó su trabajo con el seudónimo ”Student”. y para ν > 3. por el irlandés W. al margen del tipo de distribución que siga la población. 1974 [4]). Var[t] −→ 1. no se requiere el teorema central del límite. pero ¿qué significa una muestra suficientemente grande? Esto dependerá de la naturaleza de la población muestreada y del grado de aproximación a la distribución normal requerido. la forma de ambas distribuciones es muy 14 . La distribución t-Student Es importante mencionar que la distribución t-student se publicó por primera vez en 1908. 1974 [4]). Además. Además. Su función de densidad es la siguiente:   1 [(ν + 1)/2]!  √  νπ [ν/2]! fT (t) =    0 t2 +1 ν −(ν+1)/2 si −∞ ≤ t ≤ ∞ de otra forma. Cuando la población muestreada tiene una distribución de probabilidad normal. el Teorema Central del Límite nos dice la naturaleza de la distribución de muestreo ¯ de Y para una muestra razonablemente grande.. et al. En esa época Gosset trabajaba en una cervecería irlandesa que desaprobaba la publicación de trabajos de investigación. la distribución de probabilidad de Y es exactamente normal para cualquier tamaño de muestra”. Puesto que a menudo no conocemos el tipo de población muestreada. Si Z es una variable N (0. para ν > 1..Capítulo 2. Por ello. utilizamos otro teorema que establece que ”si la población muestreada es una distribución ¯ de probabilidad normal. Conceptos básicos de estadística de la función de probabilidades de la variable aleatoria Y (Mood. como el caso de la función de densidad normal estándar. En este caso.S. Razón por la cual se le asigno el nombre a esta distribución de ”t-student”. entonces la variable aleatoria definida por: t= Z χ2 /ν tiene una distribución t-student con ν grados de libertad (Mood.

3. 5 y 10 gados de libertad 2.0 0. de seleccionar unidades que pertenecen a la población. donde se compara la distribución normal estándar con la distribucione t-student con 1. a partir de la distribución t-student cuando el tamaño de la muestra sea menor o igual a 30. de lo contrario obtenerlos de la distribución normal estándar. se observa que las dos funciones de densidad son simétricas respecto al origen.13. . 0. una variable normal estándar siempre tiene varianza de 1. Sin embargo.3: Comparación de la distribución normal estándar con las distribuciones t-student con 1.1 -4 -2 0 2 4 Figura 2. mientras que la varianza de una variable t-student es superior a 1.3.4 2 N t10 t3 t5 0 1 0. 5 y 10 grados de libertad.3 t1 0. 3. Ahora bien. que se diferencían en la manera de seleccionar 15 . para conocer una población con base en la muestra recurrimos a dos procedimientos generales. Esto se puede apreciar en la Figura 2. y comúnmente científica. pero la distribución t-student posee mayor masa de probabilidad en los extremos. Es decir. por medio de los cuales es posible hacer aseveraciones sobre los parámetros de una población apoyándose en la muestra.semejante. Los tipos de muestreo A manera de definición. En este sentido el muestreo consiste en un conjunto de métodos de muestreo.2 0. en el presente libro sugerimos obtener los valores de tablas que se utilizan para los ejemplos y ejercicios de los capítulos posteriores. Así. desde el punto de vista práctico las diferencias entre estas dos distribuciones son relevantes cuando el tamaño de muestra es menor o igual a 30. No obstante. un método de muestreo es una forma objetiva.

no se tendrá una estructura probabilística para desarrollar una teoría de muestreo.Capítulo 2. en ocasiones es la única alternativa viable (Bradburn. Este tipo de métodos de muestreo se desarrollará más adelante. Muestreo no probabilístico. el muestreo aleatorio estratificado. puede derivar estimaciones de los parámetros de inte-rés. de tal manera que otros investigadores podrían seleccionar muestras distintas y calcular otras estimaciones. la calidad de las estimaciones se establece con base en la intuición y la experiencia. sin embargo. Sucede lo mismo con las estimaciones que se apoyan en el análisis ocular de la población de interés. Comprende los métodos que usan un mecanismo aleatorio para la selección de las unidades de la muestra. Muestreo probabilístico. o a través de argumentos subjetivos. ya que la única manera de cuantificar la bondad de los resultados sería teniendo la población total.1998 [5]). Su característica principal es la forma subjetiva con que son seleccionadas las unidades de la población. como los métodos de muestreo son de fácil aplicación. el muestreo sistemático con iniciación aleatoria. Está claro que el investigador. A tales procedimientos comúnmente se les denomina muestreo probabilístico y muestreo no probabilístico. y después selecciona una muestra compuesta por una o más unidades que en su opinión son típicas con respecto a la característica que se desea estudiar. 1997 [10]). Algunos métodos de muestreo probabilístico son: el muestreo aleatorio simple. porque no involucran la selección ni la medición objetiva de las unidades. el muestreo por conglomerados. También se le conoce como muestreo de expertos o muestreo dirigido. cada uno de ellos engloba una serie de métodos de muestreo (Rendón. Incluye los métodos de muestreo donde la selección de las unidades de la muestra se realiza por medios subjetivos o procedimientos no aleatorios. el investigador observa toda la población o parte de ella. las estimaciones dependerán de la selección subjetiva del investigador. los resultados se obtienen con mayor rapidez y no implica mucho gasto. Otra característica importante en estos métodos de muestreo es que la calidad. Entonces. ni podrá averiguarse la bondad de las estimaciones muestrales en términos cuantitativos. ninguna de tales probabilidades es igual a cero. así como una probabilidad de ser incluida en la muestra. Además. al medir las unidades de esta forma seleccionadas.1998 [5]). Por el elemento subjetivo no hay una manera de cuantificar la bondad de los resultados muestrales. En este caso. en consecuencia. Cada unidad de la población tendrá una probabilidad conocida de ser seleccionada. Conceptos básicos de estadística las unidades de la población y el método usado para determinar el tamaño de la muestra. el muestreo de respuesta aleatorizada. el error o la precisión de los estimadores puede ser determinada y expresada en términos probabilísticos. Veamos a continuación algunos ejemplos de muestreo no probabilístico: Muestreo de juicio. puede pasar cuando 16 . Aunque el muestreo no probabilístico resulta inadecuado para el desarrollo de la teoría. (Bradburn. Asimismo. De hecho. etc. los métodos de este tipo de muestreo establecen una estructura probabilística que es la base para desarrollar la teoría del muestreo.

14. por ejemplo. Por estas razones. o marco muestral. De este modo. salidas de las tiendas de autoservicio. la muestra total quedará integrada por la suma de todas las cuotas. 17 . muchos individuos no desearán participar en el estudio. una muestra de voluntarios (Rendón. o en áreas específicas de la ciudad (Rendón. el estado civil. la muestra se restringe a una parte de la población. para fundamentar una estructura probabilística y desarrollar la teoría de muestreo. puede tomarse una muestra de maíz a cierta profundidad de la parte superior del barco (Rendón. etc. con las desventajas que ya fueron mencionadas. Muestreo de cuota. de todas las unidades de muestreo. Este método es ampliamente utilizado en las encuestas de opinión. y después entrevistar a cierto número (cuota) de personas de cada grupo. Muestreo de unidades accesibles. el sexo. donde es fácil el acceso o comunicación. El marco de muestreo El marco de muestreo.confiamos en la opinión experta de personas quien uno supone son conocedoras de las características de una población dada (Rendón. es decir. 2. real o virtual. 1997 [10]). No contar con un marco por lo tardado e impráctico de su elaboración. se tomará un número preestablecido de unidades al cual se le denomina cuota y que satisfaga las características del grupo de interés. Por ejemplo.. en parques. Para su aplicación. un investigador del observatorio vulcanológico de la Universidad de Colima está interesado en conocer la opinión de la población sobre un posible plan de emergencia frente a una eventual erupción volcánica. las comunidades aledañas al volcán. lleva a la necesidad de usar los métodos de muestreo no probabilístico. si el proceso de medición requiere de mucho tiempo. Por ejemplo. la población se divide en grupos tomando como base ciertas características generales. 1997 [10]). el método consiste en integrar una muestra con aquellas unidades que acepten formar parte de ella. Este método se usa principalmente en aquellas situaciones donde sea difícil el proceso de medición de las unidades. Por ejemplo. Una vez hechas las divisiones. para inspeccionar el maíz a granel que es transportado en un barco. resulta penoso y desagradable. El investigador podría dividir la población en grupos definidos según la edad. En este caso. 1997 [10]). 1997 [10]). se debe disponer de un marco de muestreo que permita la elección de las unidades mediante un procedimiento aleatorio. Obsérvese que en los métodos de muestreo probabilístico. Muestreo de voluntarios. Este método se usa frecuentemente cuando resulta difícil el acceso o la comunicación a las unidades de la población. o implica una gran concentración y esfuerzo mental. está constituido por un listado.

porque algunas poblaciones tienen características que demandarán tareas particulares al momento de obtener el marco de muestreo. Además es importante que se tenga el nombre completo. localización geográfica de cada unidad de muestreo para facilitar el levantamiento de la encuesta cuando las unidades muestrales son individuos. pero en la práctica es una tarea muy complicada. o bien solamente serán aplicables a la población definida por el propio marco de muestreo. en otras. Idealmente. A veces no todas las partes de la población quedan incluidas en alguna unidad muestral. debe quedar claro que los resultados solamente son aplicables a la población constituída por las personas en hogares que tienen teléfono y no a toda la población. en otras aplicaciones puede ser decisivo el hecho de no incluir algunas partes de la población en la muestra si esas partes excluidas se distinguen de las partes incluidas en alguna unidad de muestreo. dirección.15. se definen arbitrariamente por quien realiza el muestreo. 2. se dice que las unidades muestrales son excluyentes entre sí y exhaustivas sobre la población. Por eso. mientras que en otras bastaría con tener la posibilidad de generarlo para lograr el objetivo propuesto. En ocasiones las unidades de muestreo están ”naturalmente” definidas. Conceptos básicos de estadística Unidad de muestreo o unidad muestral Cada pieza acumulada constituye la población. El planteamiento de objetivos . ocupación. ya que tener teléfono puede representar una diferencia importante. donde N representa el número total de unidades muestrales de la población. Entenderemos que el marco de muestreo contiene una identificación única o etiqueta para cada unidad de muestreo. Pasos a seguir en el diseño de una encuesta 18 1.Capítulo 2. cada elemento de la población debe estar incluido en una y sólo una unidad muestral. Decimos que el marco de muestreo es real o virtual porque en ocasiones se puede tener físicamente la lista de todas las unidades. como en la evaluación de recursos mediante parcelas de muestreo circulares. Si en las Ciencias Sociales se aplica una encuesta telefónica a una cierta población. Hacer el listado de las unidades muestrales que conforman la población parece una labor simple. como puede ser un número progresivo desde 1 hasta N . No siempre se satisface cabalmente esta condición ideal y su aceptación depende de las condiciones en que se suscite. sexo. Sin embargo. y por lo tanto en el marco. Podría ser intrascendente si las partes que quedan excluidas no presentan una característica distintiva del resto de la población y las inferencias todavía se pueden aceptar como aplicables a la población. entonces las estimaciones serán sesgadas. A veces son colecciones de elementos de la población que cubren la población completa.

Al empezar a diseñar un plan de muestreo o una encuesta, es importante que se definan los objetivos, pues permitirán mantenerse en una línea de investigación sin perder tiempo con demasiados detalles. 2. La población bajo muestreo Es trascendental que se definan desde el principio las unidades muestrales que serán tomadas en cuenta y se establezcan reglas claras para que el encuestador las identifique al momento de ubicarlas y hacer la medición. Recuérdese que la población que se quiere muestrear debe coincidir con la población sobre la cual se desea tener información. 3. La característica de la realización de la encuesta o mediciones Es conveniente cerciorarse de que todos los datos sean pertinentes a la encuesta y que no se omitan datos esenciales. Particularmente, en el caso de poblaciones humanas existe la tendencia a hacer un número excesivo de preguntas innecesarias; nótese que un cuestionario demasiado largo produce una baja general en la calidad de las respuestas, tanto en las preguntas importantes como en las secundarias. 4. El grado de precisión deseado Los resultados de una encuesta de muestreo siempre están sujetos a un nivel de incertidumbre porque sólo se mide una parte de la población. Esta falta de certeza se puede reducir al aumentar la muestra y emplear mejores dispositivos de medición. Sin embargo, esto suele costar tiempo y dinero. En consecuencia, la especificación del grado de precisión deseado es un paso decisivo en la preparación de la encuesta o muestreo. Este paso es responsabilidad de la persona que va a utilizar los datos, ya que es quien suele entender la magnitud del error tolerable de una encuesta para hacerla compatible con una buena decisión. 5. Los métodos de medición Podemos escoger el método de medición y el método de inspección de la población. Los datos del estado de salud de una persona se pueden obtener de sus declaraciones, o de un examen médico. La encuesta puede emplear un cuestionario autoadministrado, entrevista en la que los entrevistadores simplemente lean un cuestionario prescrito o una entrevista no estructurada. La inspección puede hacerse por correo, visitas personales, teléfono o una combinación de los tres medios. Una parte importante del trabajo preliminar es la construcción de las formas de registro donde se asientan las preguntas y las respuestas. En los cuestionarios sencillos a veces es posible precodificar las respuestas, es decir, colocarlas de tal modo que se puedan transferir rutinariamente a una computadora. De hecho, para la construcción de buenas formas de registro se necesita preveer la estructura de las tablas de resúmenes finales para obtener las conclusiones. En seguida se enumeran algunos puntos que se deben de tomar en cuenta para el diseño de cuestionarios. Sin embargo, si usted va a escribir un 19

Capítulo 2. Conceptos básicos de estadística
cuestionario, consulte Tanur (1993) y Blair y Presser (1993) dos referencias útiles sobre este tema, debido a que los puntos que aquí se presentan son muy generales: a) Decida lo que quiere escribir; éste es el paso más importante para redactar un cuestionario. Escriba los objetivos de su encuesta y sea preciso para que se motive a las personas de la muestra a responder sin problema alguno. b) Siempre verifique sus preguntas, antes de realizar la encuesta. Lo ideal es que las preguntas se verifiquen mediante una encuesta piloto. Pruebe con diferentes versiones de las interrogantes y pregunten a los entrevistados en la prueba preliminar la forma en que interpretaron las preguntas. c) Elabore las preguntas de manera sencilla y clara. Las preguntas que pueden parecerle claras podrían no serlo para alguien que escucha toda la pregunta por teléfono o para otra persona con otro idioma materno. Belson (1981, 240) probó la pregunta "¿Qué proporción de tiempo que ve la televisión lo dedica a ver noticias?çon 53 personas. Sólo 14 de ellas interpretaron de manera correcta la palabra proporción como "porcentaje", "parte" o "fracción". Otras las interpretaron como ”cuanto tiempo” o ”cuales programas de noticias observa”. d) Utilice preguntas específicas en lugar de preguntas generales, de ser posible. e) Relacione las preguntas que elabore en el concepto de interés. f ) Decida si debe utilizar preguntas abiertas o cerradas. g) Informe sobre la pregunta que se planteó realmente. h) Evite preguntas que induzca o motiven al entrevistado a decir lo que usted quiere escuchar. i) Utilice preguntas de opción forzosa. j) Platee solo un concepto en cada pregunta. k) Preste atención al efecto del orden de las preguntas. 6. El marco de muestreo Antes de seleccionar la muestra, debemos dividir la población en unidades de muestreo. éstas deben cubrir toda la población y no traslaparse en el sentido de que todo elemento de la población pertenezca a una y solamente una unidad. Algunas veces la unidad apropiada es obvia, en otras no es sencillo escoger lo que será la unidad de muestreo. En el muestreo de los residentes de una ciudad, por ejemplo, la unidad puede ser una persona, los miembros de una familia o las personas que viven en una manzana. En el muestreo de una cosecha de limón la unidad puede ser un lote, una parcela o un área de terreno cuya forma y dimensiones son nuestra elección. 7. La selección de la muestra 20

Existe actualmente una gran variedad de planes para seleccionar una muestra. Por cada plan considerado se pueden hacer estimaciones del tamaño de la muestra partiendo de un conocimiento del nivel de precisión deseado y la varianza de la población. Los costos relativos y el tiempo empleado en cada plan se estudian antes de tomar una decisión (Lohr, 2000 [9]). 8. La encuesta piloto Es de gran utilidad probar el cuestionario y los métodos de campo en pequeña escala. Esto casi siempre ayuda a mejorar el cuestionario y puede evitar otros problemas serios, por ejemplo, que el costo fuera más que el esperado. 9. La organización del trabajo de campo Las encuestas extensas tienen muchos problemas de orden administrativo. Se debe supervisar al personal y entrenarlo para que apliquen las encuestas y los métodos de medición apropiadamente. De ahí que sea útil un procedimiento de verificación previo de la calidad de las respuestas. Se debe hacer un plan para manejar las respuestas en blanco, es decir, la falla del encuestador para obtener la información de ciertas unidades muestrales (Lohr, 2000 [9]). 10. Resumen y análisis de los datos Después de realizar las encuestas deben revisarse los cuestionarios obtenidos con la esperanza de corregir errores o cuando menos desechar los datos equivocados. Habrá que decidir respecto al cálculo en caso de omisión de respuestas o la eliminación de datos durante la revisión. Después se hacen los cálculos para las estimaciones. Como vimos, los mismos datos pueden servir para diferentes métodos de estimación. Un consejo práctico para la presentación de los datos es informar acerca de la magnitud esperada del error en las estimaciones más importantes. Una de las ventajas del muestreo probabilístico es que se pueden hacer tales enunciados (el error esperado). 11. La información para encuestas futuras Cuanta más información de una población se tenga inicialmente, más fácil será el diseño de una encuesta que arroje estimaciones adecuadas. Toda muestra obtenida es una guía potencial de futuros muestreos por los datos que revela sobre las medias, las desviaciones estándares y la naturaleza de la variabilidad de las medidas principales, así como los costos económicos. Las prácticas de muestreo avanzarán más rápidamente si se prevé lo necesario para reunir y registrar ese tipo de información. Hay otro aspecto importante en el que una muestra completa facilita la obtención de otras posteriores: el encuestador habilidoso aprende a reconocer los errores de ejecución y a evitar que se repitan. 21

Capítulo 2. Conceptos básicos de estadística

2.16.

Las ventajas y desventajas del muestreo

Las ventajas
Aunque el objetivo del muestreo, al igual que muchas otras disciplinas, consiste en emplear recursos mínimos para obtener determinada información, o bien en conseguir la máxima información con recursos prefijados (Bradburn,1998 [5]). Los criterios generales para el uso de las técnicas de muestreo se pueden resumir en los siguientes puntos: Se empleará el muestreo cuando la población sea tan grande que el censo exceda las posibilidades del investigador. Se tomarán muestras cuando la población sea suficientemente uniforme como para que cualquier muestra dé una buena presentación de la misma. Se tomarán muestras cuando el proceso de medida o investigación de los caracteres de cada elemento sea destructivo (consumo de un artículo para juzgar su calidad, determinación de una dosis letal, etcétera.). Se utilizará el muestreo cuando las personas respondan con desagrado y así disminuir el número de elementos que serán encuestados. Se utilizarán las técnicas de muestreo para reducir costos, considerando tanto el costo absoluto como el costo relativo (con relación a la cantidad de información obtenida). Este criterio suele conocerse como el criterio de economía. El muestreo es conveniente cuando la precisión (el ajuste del valor estimado al valor real de la característica en estudio) resulta ser muy buena. Este criterio suele conocerse con el nombre de criterio de calidad. El muestreo es conveniente cuando la formación del personal y la intensidad de los controles y supervisión son onerosos. En general, el muestreo será conveniente cuando constituya la solución de mayor eficiencia en el sentido del costo-beneficio.

Las desventajas
A veces el muestreo no es muy conveniente (Bradburn,1998 [5]). Por ejemplo: Cuando se necesita información de todos los elementos que conforman la población. Cuando sea difícil cumplir con los requisitos de las técnicas de muestreo probabilístico. 22

aconseje desestimar los métodos de muestreo. este criterio ha de tenerse siempre presente a la hora de planificar una investigación por muestreo. En el caso de censos y grandes encuestas es aconsejable la publicación de resultados preliminares basados en muestras o submuestras. Integración: Hay que tener una buena concepción global de la información y una buena comparabilidad. son las siguientes: Precisión: la proximidad al valor verdadero de las características poblacionales estimadas. 2. lo que puede suponer un uso limitado. Pertinencia: la capacidad de los resultados estadísticos obtenidos por muestreo para completar la información faltante. Cuando el costo por unidad. así como tener en cuenta la legislación vigente al momento del diseño del estudio por muestreo. Oportunidad: la utilidad de un estudio estadístico en función de su disponibilidad en el tiempo (puntualidad. Economía: las consideraciones sobre costos en las diferentes etapas de planificación. Las características deseables en una investigación por muestreo Las características óptimas a las cuales deberían ajustarse las investigaciones por muestreo.El muestreo exige menos trabajo material que una investigación exhaustiva. inspectores y supervisores). 23 . puede haber dificultades legales para utilizarlo (la protección de la privacidad. La información obtenida por muestreo ha de ser totalmente accesible. el levantamiento y procesamiento de datos. el secreto estadístico y la ley de la función estadística pública). que es mayor en las encuestas que los censos. Luego. Detalle y cobertura: la población que posee datos extensos puede complementar una investigación exhaustiva con una muestra.17. la evaluación. el análisis y la publicación pueden indicar la inconveniencia de una investigación exhaustiva. Accesibilidad: aunque se disponga de un banco de datos informatizado. rapidez y actualidad). La información obtenida en la investigación por muestreo ha de ser integrable y comparable con otras informaciones existentes o futuras. pero más refinamiento y preparación (conocimientos adecuados de los diseñadores y preparación de los entrevistadores.

ya sea porque la persona entrevistada no posee la información exacta o da una respuesta incorrecta a la característica de interés. Error de marco. 5. en la medición del ingreso familiar. como en el caso de poblaciones humanas. Conceptos básicos de estadística 2. Tales problemas ocurren al construir marcos incompletos. Este error se presenta a consecuencia de las fallas u obstáculos para medir algunas unidades de la muestra seleccionada. y se define como la diferencia entre el valor del estimador y el valor del parámetro. es decir. algunas características son difíciles de medir. Error de respuestas en blanco. la respuesta en blanco puede ocurrir por omisión o no localización de algunas unidades. Cuando la información se recolecta mediante una enumeración total se está expuesto a cometer los cuatro últimos errores. 2. en las encuestas puede haber varias fuentes de error (Bradburn. Error de medición. entonces estaremos expuestos a los cinco errores y en tal caso a los cuatro últimos se les denomina errores no debidos al muestreo. Es el error que se puede cometer en la edición. cuando sólo se estudia una fracción de la población.1998 [5]). Es el que se presenta debido a los problemas en la elaboración del marco de muestreo. por ejemplo. 4. las ganancias obtenidas en el negocio anterior. Error al que estamos expuestos cuando sólo se miden las unidades correspondientes a una muestra de la población. el número de abortos por persona. ya que será la fuente de información más inmediata para: 24 . Error de procesamiento. La muestra preliminar juega un papel importante en el diseño de un estudio por muestreo.18. Así. Errores de las encuestas En general.Capítulo 2. Error de muestreo o de estimación. Este error es particular para cada una de las muestras posibles de tamaño n. Ocurre al medir las características de una unidad. cuya selección se hace de acuerdo a los lineamientos que marca el diseño de muestreo que se utilizará en el estudio definitivo. Se presenta porque el método de medición puede estar sesgado o es impreciso y algunas veces. codificación y tabulación de la información obtenida de la encuesta. Si la recolección se realiza mediante un muestreo. etcétera. 3. o bien al incluir unidades ajenas a la población. Muestra preliminar o piloto Una muestra preliminar o piloto es una muestra que antecede a la definitiva. al no incluir todas las unidades de muestreo que son de interés. como las siguientes: 1. así como por la renuncia o imposibilidad de medir algunas unidades. el padecimiento de cierta enfermedad. 2.19. Tal es el caso.

denotada por d. Estimar los parámetros involucrados en la determinación del tamaño de muestra. 3. se define como: ˆ d = |θ − θ| ˆ Esto significa que debemos especificar que θ y θ difieren en valor absoluto en una cantidad menor que d. 6. incluyendo el cuestionario. La precisión de la estimación Cuando realizamos un estudio por muestreo es importante preguntarnos ¿cuál es la cantidad de error tolerable o la precisión de la estimación?. solamente cuando los métodos de selección. pues conoce el fenómeno en cuestión y lo delicado de las conclusiones que se desprendan del análisis. 4. en el muestreo probabilístico es usual referirse a la precisión de la estimación en los términos siguientes: a) Como un límite máximo que se fija de antemano para la varianza. De igual manera es común denominar al error máximo como precisión del estimador. b) Como un límite máximo de error y una confiabilidad. Definir la precisión de los estimadores cuando no se tiene idea de los valores entre los cuales ésta (precisión) puede considerarse razonable. entonces. la precisión del estimador. la desviación estándar o el coeficiente de variación del estimador. ésta se define como: Precisión: es el alejamiento o distancia máxima que el investigador está dispuesto a aceptar entre el estimador y el parámetro correspondiente (Cochran. 25 . Tener una primera aproximación del tiempo que se llevará en la realización del estudio. 2. usualmente la varianza y el coeficiente de variación. En este libro. Así.20. medición. Probar la factibilidad del cuestionario. θ denota al parámetro y θ su estimador. ˆ 1985 [1]). la medición de las variables y otros aspectos prácticos. La persona que utilizará los resultados del muestreo debe definir el error. este límite máximo para todos los diseños de muestreo a estudiar se fijará en términos de la desviación estándar del parámetro de interés. ambos establecidos de antemano. no hayan sufrido cambios o modificaciones severas. De este modo. Algunos autores sugieren que la muestra preliminar podrá considerarse como parte de la muestra definitiva. Probar la factibilidad de: los métodos de selección de las unidades muestrales. 5.1. 2. Tener una primera aproximación de los costos que se involucran en el estudio.

La determinación de un límite específico con su confiabilidad asociada (1 − α) nos ayuda a comparar diseños diferentes (métodos de selección de la muestra) para especificar el procedimiento que dé la precisión deseada con un costo mínimo. la elección adecuada de la precisión es fundamental para la toma de decisiones acertadas por lo que a continuación proporcionamos algunos elementos para su determinación.20. Ahora. sin embargo. si se desea estimar y comparar los porcentajes de personas que tienen diabetes en dos estados de la republica Mexicana. observándose con más frecuencia 90 % y 95 %.000 pesos mensuales para conocer el porcentaje de familias que viven en extrema pobreza. 1 − α = confiabilidad. es 1 − α. El postulado probabilístico siguiente especifica la relación entre los términos precisión y confiabilidad: ˆ P ⌊|θ − θ| ≤ d⌋ = 1 − α. Así.5 %. Si la variable a medir es dicotómica recomendamos una precisión menor del ocho por ciento. se expresa en porcentaje y los valores usuales son desde 80 %. aunque se interpreta con base en el de muestreo repetido (Cochran. Elementos para elegir la precisión o margen de error Para los investigadores no experimentados en el diseño de encuestas o estudios donde se necesitan muestras para hacer inferencia hacia la población fijar la precisión es una labor confusa. y se mide en términos de probabilidad. Sin 26 . 1985 [1]). para poder discriminar con mayor confiabilidad. generalmente.1) La ecuación anterior indica que la probabilidad de que la diferencia entre el estimador y el parámetro tome valores dentro de un intervalo delimitado por los valores −d y d. Conceptos básicos de estadística Confiabilidad: es el grado de seguridad deseado en la precisión. suponga que la secretaría de Economía desea estimar en el país el porcentaje de familias que tienen ingresos menores de 2. Debido a que cuando por primera vez se pregunta a estas personas el grado de precisión deseado a menudo confiesan que nunca han considerado el asunto y que no tienen idea de la respuesta. por tanto en este caso se puede elegir una precisión de 7 % y con los resultados obtenidos se tendrá una imagen bastante clara de el porcentaje de familias en esta situación.1. podríamos elegir una precisión de cinco por ciento. Por ejemplo. donde α toma valores entre 0 y 1. Sin embargo. si se tiene información de que los porcentajes en ambos estados son muy similares para poder tomar una decisión más certera sobre si el porcentaje de diabéticos entre los estados es distinto debemos de elegir un porcentaje de error mas pequeño digamos 2.Capítulo 2. 2. que es igual a ˆ P ⌊−d ≤ θ − θ ≤ d⌋ = 1 − α (2. La confiabilidad.

para fijar la precisión necesitamos una estimación tentativa del total. el investigador desea comparar en dicho estado los consumos promedios entre los distintos municipios que sabe tienen un desarrollo económico similar. como experto el sabe que el consumo promedio de calorías por niño debe ser de 400. Suponga que ya obtuvo el promedio preliminar (500 pesos mensuales por hogar). Por lo tanto. En este caso el nutriologo es un experto y tiene una idea bastante clara del valor del promedio. Por ejemplo si se desea estimar el total de drogadictos en el estado de Colima para el año 2008.05 ∗ 400 = 20). hay que dejar claro que si se determina la precisión usando la expresión que presentamos anteriormente. por lo tanto la precisión será d = 0. si la secretaría de economía además persigue implementar un programa para subsidiar con 1000 pesos mensuales a cada una de las familias en este estrato. por lo tanto una estimación con un error de 7 % puede provocar que al momento de implementar dicho programa el presupuesto para tal fin no alcance. centro y sur que sabe que de antemano son distintos la precisión es aceptable.05 por el promedio de la muestra preliminar.embargo. Pero. si el parámetro que se desea estimar es el total ya sea a partir de variables dicotómicas o continuas se procede de igual forma y se recomienda un error menor del 8 % del total preliminar. quizá sea necesario una precisión más pequeña. Supongamos que este es de 5000. suponga que no tiene la mínima idea. d=(porcentaje/100)* valor preliminar del parámetro a 27 . es decir el 5 % del total preliminar. suponga que un nutriólogo desea estimar el promedio de calorías consumidas de niños de 6 años de edad en el estado de Colima.05 ∗ 5000 = 250.05 ∗ 500 = 25. pero suponiendo que no tiene la mas remota idea de este valor. Por otro lado. él puede elegir una precisión de 20 calorías. Si la variable respuesta es continua de igual manera recomendamos una precisión menor del ocho por ciento del promedio verdadero o estimado. Además. que representa el 5 % del promedio de consumo recomendado (d = 0. por lo tanto la precisión que utilizará para calcular su muestra definitiva será igual a 25 que equivale al 5 % del promedio preliminar d = 0. suponga que un investigador desea conocer el consumo promedio en pesos de energía eléctrica por hogar en el estado X. el lector debe siempre recordar que la precisión se debe de calcular para el parámetro de mayor interés en su investigación ya que de lo contrario debe de determinar una precisión para cada parámetro y con ello obtener más de un tamaño de muestra lo cual además de desgastarlo lo puede confundir. por el contrario suponga que si solo es de su interés comparar los municipios del norte. el puede estimar este promedio con una muestra piloto y obtener su precisión también multiplicando el 0. Por lo tanto. Por ejemplo. Ahora. por lo que se sugiere un error más pequeño. en caso de que no se tenga idea de estos se pueden estimar a partir de una muestra preliminar (piloto). Si además. Esta forma de estimar la precisión del total es exactamente la misma (d=(porcentaje/100)* valor preliminar del parámetro a estimar) que para estimar la precisión para una proporción o un promedio. Esto significa que para poder estimar la precisión del promedio o el total se necesita tener idea del valor verdadero del promedio o total verdadero. También. por lo tanto él puede proceder a consultar a un experto en el tema o realizar un muestreo piloto y con base en esto tener una estimación tentativa del promedio.

21. Uso de tablas para la distribución normal estándar y t-student 2. es decir. Para encontrar tal probabilidad hacemos uso del Cuadro A. por lo cuál a menudo se utilizan los valores de ésta última distribución en vez de la primera.75).1(Apéndice A).05 de Z sobre la primer hilera. por ejemplo supongamos que se requiere encontrar: I.1. las dificultades de los encuestadores. P (Z < 1. Por otro lado.75. se llevan a cabo determinando las áreas bajo la grafica de la función de densidad de probabilidad. los valores de la distribución t-student son muy cercanos a los de la distribución normal estándar. Conceptos básicos de estadística estimar). ya que garantizan resultados bastante confiables y con costos razonables. encontramos que 28 . e interceptando la hilera y columna ya ubicadas. sugerimos en la medida de lo posible para estimar la precisión extraer una muestra piloto para obtener las estimaciones preliminares de los parámetros. ya que se pueden obtener resultados muy confiables con precisiones muy bajas. mientras que tratar de fijar el error en términos absolutos es complicado ya que un valor pequeño puede ser un error relativo (porcentaje) muy pequeño que requerirá tamaños de muestras muy grandes o muy grande que me proporcionara tamaños de muestra muy pequeños y resultados poco confiables. esto facilita el proceso porque es fácil fijar un error en términos de porcentaje ya que de esta manera uno tiene claro la magnitud del error. con media cero (µ =0) y desviación estándar uno (σ = 1). conocer la calidad del cuestionario. Casi siempre se usa la letra Z para indicar esta variable aleatoria normal especial.70 de Z sobre la primer columna y en la columna correspondiente al valor de 0. También es importante mencionar que el nivel de precisión se decidirá por la cantidad de recursos disponibles para el estudio. también es importante dejar claro que en la mayoría de las encuestas donde se trabaja con personas los márgenes de error mas usados son 3 % y 5 %. Finalmente. Como con otras variables aleatorias continuas los cálculos de probabilidad con cualquier distribución normal. los problemas del marco de muestreo y detalles que nos auxilien en el diseño de la encuesta definitiva. Lo mismo ocurrirá con el tamaño de muestra para el promedio y el total.Capítulo 2. 2. el tamaño de muestra requerido usando el mismo porcentaje de error para estimar la proporción o total será el mismo. Distribución normal estándar para n > 30 Es conveniente mencionar que cuando el tamaño de la muestra es mayor a 30. pero esto implica mayores costos. mejor conocida como distribución de probabilidad normal estándar.21. Se debe tener presente que Z representa a una variable aleatoria que tiene una distribución normal. en el cual nos ubicamos en la hilera correspondiente al valor de 1. La probabilidad de que una variable aleatoria de una distribución normal estándar sea menor a 1. La forma que se sugiere para determinar la precisión tiene la ventaja de que es en términos relativos no absolutos.

. 0.9599 0.98) es relativamente sencillo solamente recordando la siguiente relación: P (1. se busca en el Cuadro A.9999 1. Encontrar P (1. 0. 0. .5080 0.0000 0.5239 0. al obtener de tablas P (Z < 1.0000 0. .06 0. La probabilidad de que una variable aleatoria normal estándar se encuentre entre 1.9 0. . P (Z > Z0 ) = 1 − P (Z < Z0 ).0000 0.2.01 0. .9633 .5675 .05 0. 0. . . .0 0.5080 0.9452 0.5120 0. Por ello. 0.9656 0.5359 0.5398 .9525 0. . .9564 . II .3).00 0. 0.00 0.5040 0.5279 0.06 0.06 = 1.98.7 1. Cuadro 2.5517 .09 0. es decir.9999 1.9545 0. . . .9591 0.9505 0.90 0 0. . .9463 0. Por tanto. Sin embargo.5319 0. es decir. . con la cual únicamente es necesario hacer lo que se hizo en I. . 0.9999 1.5359 0.6 1.9515 0.5596 .9641 0.9554 0.9671 0. .0000 0. En este caso el valor de Z en la columna es de 0.0000 0. 0. . P (Z > Z0 ) = 0.64 < Z < 1.0000 0. .02 0.8 3.9625 . .5478 .5120 0.9495 0. ahora se tiene la probabilidad y se busca el valor de Z0 .5000 0. .98) = P (Z < 1.04 0. 0.5160 0.5753 .9495 se tiene que P (1. . 0. .9999 1.9693 0. .5517 .0000 0.80 3. 0.07 0.1: Ejemplo 1 para el uso de las tablas de la normal estándar Z Z 0. .10 .9616 0.64 < Z < 1.5438 .9582 .5636 .9999 1. 0. .975. 0. . . 0.05 0. . . .0000 0. 0. por lo que Z0 = 1.9999 1.0000 0. .9999 1.9608 . .9999 1. .09 0.9999 1.1(Apéndice A) el valor de probabilidad más cercano a 0.9744 .5675 .64 < Z < 1. . .9599 . 0.5438 .la probabilidad correspondiente es igual a 0.9761 − 0. .5753 .9999 1. .9 .9649 0. .9999 1. 0. .5714 . Por lo tanto. a continuación se muestra 29 . .98) = 0.0000 0.04 0. . 0. .975.9999 1.9999 1.1 para obtener la probabilidad de que una variable aleatoria normal estándar sea menor a un valor especifico Z0 .0000 0.98) = 0.9732 . .01 0. 0.1.64).9761 y P (Z < 1. .0000 0. 0. .64) = 0. 0.5478 . En este caso se procede de manera inversa que a I. 3. 1.98). 0. . .9999 1.5714 . .5636 .9633 0.08 0.9999 1. 0. .9573 . . 0. Cuadro 2.5319 0.1 . . ..9706 0. .64 y 1. hay que tener presente que en la práctica el investigador lo que fija para su estudio es la confiabilidad (1 − α) y para ésta confiabilidad se debe encontrar el valor de Z0 .2: Ejemplo 2 para el uso de las tablas de la normal estándar Z Z 0. . Ver Cuadro 2. 0. . esto es.9756 . .0000 III . . 3. .9599. . para cada componente de la resta .5199 0.8 1. . .02 0.5398 .5199 0. 0.9767 . .9750 .9582 0. Ahora supóngase que se requiere encontrar el valor de Z0 tal que la probabilidad de que una variable aleatoria normal estándar sea igual a 0. 0.9484 0. . 0.9761 . .08 0. 0. .9999 1.9495 = 0.0000 0. 0. 0.9999 1. . .5557 . 0.9726 . . .975).9678 0. .90 + 0. .9591 . .9664 0. 0. . .9474 0.9686 0.06 y en la hilera 1. .64 < Z < 1. 0.0000 0.0000 0. En seguida se obtienen los valores de Z para éste valor de la columna e hilera en que se ubica (ver Cuadro 2.0000 0. 1. 0.07 0. .9999 1. .0000 0. . . P (1.9616 .975 y se encuentra que éste es exactamente el mismo (0.03 0. 0.5239 0.9999 1. .5596 .98) − P (Z < 1.9699 0.96.9573 0. .5160 0.5040 0.9738 . .03 0.9608 0.5557 . solamente se ejemplifica el uso del Cuadro A.90.9713 .70 . 0.5279 0.9554 .9999 1. . .5000 0.0000 0. 0. Lo anterior se muestra en el Cuadro 2.9564 0. .0000 Debido a la relación existente.9535 0.9719 .9625 0. 0. 0.0267. .

Z0 = 1. .9756 . 0. .9251.44.2.9744 . 0. .9999 1. .9732 .1 (Apéndice A) el valor de probabilidad más cercano a 0. 0.9279 . 0. .9999 1.9495 .05 0. . . . en términos de probabilidad buscamos Z0 tal que P (Z < Z0 ) = 1 − 0. 0. . Así. . . . se obtienen los valores de Z de la columna e hilera en que se ubica (ver Cuadro 2. . . .64. 0. . 0. .5000 . 0. 0.07 0.075 . .9999 1. 0. 1.5199 . . .08 0. 0. .0000 0. 0.9292 .4 + 0. que expresado en términos de probabilidad es equivalente a encontrar Z0. . Por lo tanto.90 0. 0. Conceptos básicos de estadística como llegar a partir de una confiabilidad especificada al valor de Z0 = Zα/2 .0000 0.04 0. . .9999 1. . 0.05 . 0.9463 .9251 y se encuetra que es el mismo 0. 0. .04 = 1.3).9319 .1 (Apéndice A) el valor de probabilidad más próximo a 0. 0. 0. . 0.04 y el de la hilera 1. 0. .00 0.9236 .0000 Finalmente. Para este caso el valor de Z en la columa es igual a 0. Por lo tanto. . 0. 0. . Luego.02 0. 30 2. 0.9452 .3: Ejemplo 3 para el uso de las tablas de la normal estándar Z Z 0.9999 1.09 0. Suponga que el investigador decide para su estudio una confiabilidad de 90 %. .01 0. 0.Capítulo 2.9545 .9761 . . . . . .9999 1.925.9484 .9726 .05 tal que P (Z < Z0. 0.9738 . . .075 = 0.04 y el de la hilera 1. por lo que Z0 = Zα/2 = Z0. .9495. .5359 .0000 0. para éste valor. . 0. Si el investigador fija una confiabilidad de 1 − α y tiene un tamaño de muestra n. De igual manera el investigador fijará para su estudio la confiabilidad. 0. .15. . 0. sino aproximados. . . . 0. 0.0000 0. . . 0.0000 0. . . 3. . .0000 0. .9306 . . En seguida se obteinen los valores de Z para éste valor de la columna e hilera en que se ubica (ver Cuadro 2.9207 .00 . 0.5120 . .0000 0.21.5080 . para este caso el valor de Z en la columna es 0. 0. . esto implica que el valor de tablas que se desea es t0 = t(n−1. Distribución t-student para n ≤ 30 . . . . . .α/2) .9999 1.9535 . .9999 1.5160 . . . .9474 .0000 0.6. .6 + 0.9750 .95.05 = 1. este implica un α = 0.5279 . 0.9505 . . . . . . De esta manera.3).9525 . . para facilitar el uso de esta tabla. por lo que únicamente explicaremos como encontrar de tablas el valor de t0 para ésta distribución a apartir de la confiabilidad y tamaño de muestra especificados. 0.0000 0. Cuadro 2. 0.06 0. el nivel de significancia en término de proporción será α = 0. se busca en el Cuadro A.5239 .5040 . . . Un ejemplo más para garantizar el uso adecuado de esta tabla. . 0. 0.90 . .4. .03 0. . .6 . 1. Nuevamente se busca en el Cuadro A. .5319 . . Suponga que ahora el investigador decide una confiabilidad de 85 %. .9767 .9251 .80 3. el valor de tablas que se busca es Z0 = Zα/2 = Z0.9713 .9719 .4 . . en el Cuadro (2.9999 1. 0. .9515 .9222 .4) se presentan los valores de Zα/2 para los niveles de confianza más usuales. lo que implica que el valor de tablas que se busca es Z0 = Zα/2 = Z0. Es importante enfatizar que al usar esta tabla no se obtienen valores exactos.95 y se encuentra que éste es igual a 0.05 ) = 0. 0. .04 = 1.9265 . 1. .1.9192 . . .9999 1.

0150 . 0.2860 . Cuadro 2.6034 2.05 1. 1. 2. .3406 .9713 α/2 0. en el Cuadro A.6534 1.95.1295 0.7328 .1(en términos de proporción).01. . . .05 0.3138 .05 6. .6567 . . .8688 . 6. α/2 = 0. .005 2. 2. .0728 . 180 210 0.4: Valores de Zα/2 para los niveles de confianza de uso más común Nivel de confianza α α/2 Zα/2 90 % 0.2856 0.8370 0. .005 63.25 1.0321 .8205 . . . 3. . 4. .9600 97. Para encontrar tal valor. Por ejemplo.5).0. Suponga que otro investigador fija para su estudio una confiabiilidad de 98 % y cuenta con un tamaño de muestra de n = 16. 3. .2414 99 % 0. que es equivalente a buscar el valor de t0 talque P (t < t0 ) = 1 − 0. . . . .0025 127. .7062 .7531 . 1. . .8934 . .5: Ejemplo para el uso de las tablas de la distribución t-student ν 1 . .05 y en la intercepción se obtiene el valor de t0 = 2.5 % 0.6192 . .01 y en la intercepción de ésta hilera y columna se obtiene el valor de t0 = 2. En seguida en la primera columna se localizan los grados de libertad ν y en la segunda hilera el valor de α/2.9467 . 5. 1.05 = 0.01 0. . .0150 (ver Cuadro 2.05 . 15 . cuyos valores corresponden a una distribución t-student con ν = n − 1 grados de libertad que deja una probabilidad a la derecha de ellos de α/2. 2. 4. 0. para lo casos abordados en el presente libro ν = n−1. .3442 0. .9732 1.025 12. 0. se busca en el Cuadro A. . .5 ).0777 .3213 . . . . esto implica que α = 0. .6912 . . .1361 3. . y en la intercepción de ésta hilera y columna se obtiene el valor de t0 . . . . Para encontrar éste valor se hace uso del Cuadro A.3375 31 .6759 0.6449 95 % 0.5706 . 1. 1. .es decir. . suponga que un investigador fija para su estudio una confiabilidad de 90 % y que cuenta con un tamaño de muestra de n = 6.3472 2.7267 .Cuadro 2.01) . 2. Para encontrar éste valor de t0 .2 se busca en la primera columna los ν = 16 − 1 = 15 grados de libertad y en la segunda hilera el valor de α/2 = 0.0. .0005 636. 3.2863 1. .025 0. . 2. Por lo tanto. . .α/2) ) = 1 − α/2.0125 2.5994 0. Para cerciorarnos de que no habrá dudas para obtener los valores t0 de tablas proporcionamos otro ejemplo. . .1 3. se busca el valor de t0 tal que P (t < t0 ) = 1 − 0. . .6521 0.001 318.5758 que en términos de probabilidad equivale a encontrar t0 = t(n−1.2 en la primera columna los ν = 6 − 1 = 5 grados de libertad y en la segunda hilera el valor α/2 = 0. . 2.8421 2.01 31.6025 . 3.1314 .025 1. 4.3454 3.3088 .3649 .0000 . 1. . 5 . .6757 0.01 y el valor de tablas que se desea es t0 = t(15. . para usar la tabla se requiren únicamente los valores de α/2 y los grados de libertad que se obtienen en función del tamaño de la muestra. .7733 .4759 . Por lo tanto.6025 (ver Cuadro 2. 2. 3. entonces el valor de tablas que se desea es t0 = t6−1. 2. .2 (Apédice A). .α/2) tal que P (t < t0 = t(n−1.1 0. .

Conceptos básicos de estadística 32 .Capítulo 2.

es necesario que la selección de la muestra se haga mediante una técnica de muestreo probabilístico. La validez de tales inferencias depende fundamentalmente del diseño de muestreo. este caso debe considerarse como una forma de medición y la variable generada simplemente será solamente otra variable. OAML E muestreo sirve para determinar. Puede ocurrir el caso que de dos o más variables medidas se obtenga otra variable. no lo vengo a discutir. es decir. de la forma en que se obtuvo la muestra. Para que los principios de la probabilidad sean aplicables al hacer la inferencia. Con la información proveniente de la evaluación de la muestra. El evaluador decide la forma de seleccionar la muestra y el número de unidades muestrales que se evaluarán. 33 . y con esto podrá controlar la calidad de la información extraída y la precisión requerida. en el estudio del muestreo probabilístico solamente se trabaja con una variable a la vez. se pueden estudiar todas las variables pero una por una y al final conjuntar los resultados. que ayuda a decidir. las características que describan a la población.Capítulo 3 Muestreo aleatorio simple Que el muestreo es imperfecto. L Aunque es común en los estudios muestrales evaluar varias características o variables simultáneamente en cada sujeto o unidad muestral. y esta última sea la de interés. Si se requiere. podemos hacer inferencias sobre la población. Pero es el mejor amigo. La cantidad de información que la muestra aporte depende del tamaño de esta y de la variabilidad existente entre los elementos de la población en cuanto a la característica o variable de interés. de la mejor manera.

El procedimiento de selección consiste en seleccionar una unidad que tiene la posibilidad de ser incluida nuevamente en la muestra. Es decir. si el tamaño de la muestra es n y el de la población es N . Muestreo aleatorio simple con reemplazo En el muestreo con reemplazo. existen N n muestras diferentes. Muestreo aleatorio simple sin reemplazo En el muestreo sin reemplazo se pueden construir tantas muestras diferentes como combinaciones se pueden hacer de N elementos de tamaño n (N Cn ). El MAS es el más sencillo que veremos en este libro y nos dará las bases para desarrollar diseños más elaborados. (1972)[14]). ésta ya no podrá volver a ser seleccionada. al diseño que habiendo decidido que el tamaño de la muestra será de n unidades de muestreo (o simplemente de tamaño n). nos preguntamos ¿cuántas muestras posibles existen? Para responder esta pregunta tendríamos que analizar dos aspectos: la selección con reemplazo y la selección sin reemplazo. lo que haría suponer que todas las muestras posibles 34 . Tipos de muestreo aleatorio simple Si sabemos que cada muestra posible tiene la misma probabilidad de ser elegida. Esta opción genera fórmulas de estimación más fáciles.Capítulo 3. 1985 [1]). Conviene reiterar que la definición de MAS asigna la misma oportunidad a cada muestra posible. 3. le asigna la misma probabilidad de ser la elegida a cada una de todas las muestras posibles de ese tamaño.1. salvo en diseños específicos u otros más elaborados en los que las complicaciones teóricas sugieren simplificar los supuestos en que se sustenta su análisis. cantidad que se calcula con: N Cn = N! n!(N − n)! El procedimiento de integración de la muestra difiere en que una vez seleccionada una unidad. cualquiera de las muestras distintas que podemos obtener de la población tendrá la misma probabilidad de ser elegida (Cochran. pero en la práctica tiene poco sentido medir más de una ocasión la misma unidad muestral. Muestreo aleatorio simple Muestreo aleatorio simple (MAS) Se denomina muestreo aleatorio simple o completamente al azar. La definición anterior de MAS es equivalente a que cada una de las unidades de la población tienen la misma probabilidad de ser seleccionadas (Raj D.

que en este caso es el 10 (primer elemento de la muestra). Para que el lector pueda hacer uso de esta tabla a continuación se proporcionan dos ejemplos: a). el paso siguiente consiste en seleccionarlos y definir cuales serán. de ahí que el muestreo aleatorio simple con reemplazo se aproxime al aleatorio simple sin reemplazo. de tal manera que cada uno tenga la misma probabilidad de ser seleccionado.2. 3. Supongamos que queremos una muestra aleatoria de 4 personas de una población de 15 individuos debidamente enumerados del 1 al 15. siguiendo una ruta predeterminada y tomando tantas columnas como dígitos tenga N (tamaño de la población). Para obtener las 4 personas elegimos una hilera y una columna aleatoriamente del Cuadro A. es pertinente mencionar que este diseño de muestreo recibe diferentes nombres. Ahora podemos proceder en cualquier dirección para 35 . muestreo completamente aleatorio o muestreo irrestricto al azar. la definición se satisface simplemente dejando que cada unidad muestral tenga la misma oportunidad de ser incluida en la muestra. es conveniente aclarar el concepto cuando se usa una u otra denominación. lo cual sería imposible en poblaciones grandes. Afortunadamente. que será la que usaremos. También. a menos que se indique otra cosa. En lo sucesivo consideraremos el muestreo aleatorio simple sin reemplazo. 100! sin reemplazo es 100 C15 = = 2.3.3) que estén comprendidos entre 1 y N . Cuando el tamaño de la población (N ) es muy grande con respecto al tamaño de la muestra (n) y el muestreo se lleva a cabo con reemplazo. esa probabilidad es n/N y solamente necesitamos conocer una muestra. Por ello.53338 × 1017 y con reemplazo es 15!(100 − 15)! 10015 = 1 × 1030 muestras posibles. Selección de una muestra aleatoria simple Una vez que se ha determinado el número de elementos a extraer de la población. como muestreo simple al azar. la probabilidad de elección de cualquier unidad una sola vez también es muy pequeña. entre ellos: Empleando una tabla de números aleatorios Este método consiste en extraer n números de dicha tabla (Cuadro A. Suponemos que la hilera seleccionada es la 23 y la columna es la 4 y decidimos utilizar los últimos dos digítos del extremo derecho del grupo de 5. Recordándose que la extracción es sin reemplazo. Existen muchos métodos para este fin. Simplemente obsérvese que el número posible de muestras de una población con 100 unidades muestrales y una muestra de tamaño 15. De hecho. Para lo cual se inicia en cualquier punto de la tabla elegido al azar. la probabilidad de que una unidad muestral sea elegida dos veces es muy pequeña.deberían configurarse antes de seleccionarlas.

el siguiente número (inmediatamente debajo del 5.564. 5. 7. Extracción de papelitos numerados Este método es sencillo.291. encontramos que los restantes individuos que conformarán la muestra son: el 2. nuestra segunda persona en la muestra sería la 6. y consiste en hacer papelitos debidamente numerados entre 1 y N . pero laborioso si la población es grande.Capítulo 3.351.232.222. Siguiendo. 59 y 96. 0393 y el 4. nuestra tercera persona en la muestra es la 15.838) es el 0525. N yi Media de la población = µy = µ = i=1 N Otro parámetro de gran interés es el total (τy ) de la variable ”y” para toda la población. Entonces. pero solamente hay 15 elementos en la población. elegimos una hilera y una columna aleatoriamente del Cuadro A. Estimación de la media poblacional Al evaluar variables cuantitativas. 7. Así. Ahora supongamos que tenemos una población de 9. pero recordando que nuestra población solamente es de 15 personas los ignoramos y continuamos hacia abajo de la columna. Aparece un 07. nuestro segundo individuo en la muestra sería la 525.000 individos (enumerados del 1 al 9. Entonces. Si decidimos proceder hacia abajo de la columna. Si decimos proceder hacia abajo de la columna. 3. luego un 83. 83.3. 2. Para obtener los restantes individuos de la muestra podemos proceder en cualquier dirección. llegamos al 22. el tamaño de la muestra.456 . 8. Suponemos que la hilera seleccionada es la 5 de la columna 6 y decidimos utilizar los últimos 4 digítos del extremo derecho del grupo de 5.3. Muestreo aleatorio simple obtener los individuos que restan en la muestra. ignoramos el 22 y continuamos hacia abajo de la columna y nos encontramos el 15.605. Si seguimos.000) y necesitamos elegir una muetra aleatoria de 10 de ellos. la media (µ) de la variable ”y” es el parámetro que con mayor frecuencia nos interesa estimar. Este parámetro tiene la siguiente definición. De igual manera que el ejemplo anterior.838 (primer elemento de la muestra). Se mezclan perfectamente en una bolsa y se extraen sin reemplazo uno por uno hasta completar n. el siguiente número (inmediatamente debajo del 10) es el 06. cuya definición se presenta a continuación: N Total de la población = τy = N µy = i=1 yi 36 . así que nuestro cuarto elemento en la muestra es la persona 7. b). que en este caso es el 5. Por consiguiente. Para obtener la cuarta persona que conformará la muestra continuamos hacia abajo de la columna y nos encontramos un 58.

3.3) (3. 3. σ 2 también tiene su estimador muestral. Estimación de la varianza La varianza es otro parámetro importante de la población.3. Los estimadores son variables aleatorias que tienen propiedades estadísticas derivadas de la probabilidad. Los estimadores poseen algunas propiedades estadísticas deseables como el insesgamiento y la consistencia. la revisión y demostración de estas propiedades no es tema de este libro y los interesados pueden consultar algún libro de inferencia estadística (Mood. Este parámetro se define por la expresión 2 N 2 σY = σ 2 = i=1 (yi − µ)2 N −1 Al igual que µ y τ .3. mientras que las estimaciones son simplemente números con las unidades de medición correspondientes.4) 37 .1.En ocasiones se omite el subíndice ”y” ya que el contexto esclarece a qué variable se refiere.. el cual se obtiene de la muestra.1) (3. Este estimador se denota como n n 2 Sy = S 2 = i=1 (yi − y )2 ¯ n−1 = i=1 2 yi − n¯2 y n−1 Estimador de la media y la varianza de la media poblacional µy = µ ¯ 2 σy = ¯ 2 N − n σy N n (3.2) A los valores que arrojan estos estimadores (expresiones 3. sin embargo. también refleja la variabilidad que existe entre los valores de las variables.1 y 3. Como no tenemos acceso a todas las N unidades muestrales de donde proviene cada yi debemos definir estimadores de los datos de la muestra. simbolizada por σ . Estimador de la media y del total muestral n yi µ=y= ˆ ¯ i=1 n τ = Ny ˆ ¯ (3. et al.2. Con su ayuda se hacen inferencias probabilísticas sobre la estimación de la media. 1974 [4]).2) aportadas por Scheaffer (1987[2]) se denominan estimaciones.

Estimadores del total y la varianza del total poblacional µτ = τ = N µ ˆ 2 2 στ = N σy ˆ (3. recurrimos a utilizar sus estimadores (Scheaffer. 38 . en ocasiones suele omitirse si la fracción de muestreo es menor que 5 %. que también se puede expresar como [1 − (n/N )]. Muestreo aleatorio simple Al no conocer los parámetros incluidos en estas expresiones (3. Teniendo estos estimadores (3. donde el cociente (n/N ) es la fracción de muestreo (f ). cuando la muestra representa una proporción menor de la población.7 y 3. esto se presenta adelante detalladamente. en lo sucesivo simplificamos las expresiones y notación para facilitar su lectura.05. es decir. µ ó τ basándonos en la información de la muestra.6) f = n/N se llama fracción de muestreo y representa la proporción de la población que está incluida en la muestra. por lo que también se interpreta como la intensidad del muestreo.3 y 3.10 pueden simplificarse algebraicamente. esto es.6) y con las propiedades de la distribución normal. La importancia del factor de corrección se reduce a medida que la fracción de muestreo se hace más pequeña.3. la desviación estándar de los estimadores.9) (3.4. utilizamos sus estimadores muestrales. Estimadores del total y de la varianza del total muestral µτ = τ = N µ = N y ˆˆ ˆ ˆ ¯ 2 Sτ ˆ 2 Sy N − n =N n N 2 (3.Capítulo 3.5 y 3. la raíz cuadrada positiva de sus varianzas. Por lo general. 1987 [2]).5) (3.10) Las expresiones 3. o sea.3.8) Como no conocemos los parámetros incluidos en estas expresiones (3. El factor (N − n)/N se denomina corrección por población finita (CPF).9 y 3. Estimación por intervalo Debemos tener presente que lo que nos interesa estimar es la media o el total de la población. si f = (n/N ) < 0. podemos establecer estimaciones por intervalo.8). Por la reducción de esta magnitud. respectivamente. 3. Además. es decir. µy = µ = y ˆ¯ ˆ ¯ 2 Sy = ¯ 2 2 2 Sy n Sy N − n Sy = 1− = [1 − f ] N n N n n (3. se le conoce como error estándar de la media y del total. para el promedio y el total poblacional.7) (3.

n (3. y que en (α)100 % dará intervalos diferentes que no cubren el valor del parámetro. Si deseamos más confiabilidad el intervalo tendría que ampliarse como resultado de una t más grande. Por supuesto que siempre es deseable un intervalo pequeño. por esta razón es común utilizar los valores de Zα/2 de la variable normal estándar en lugar de los valores tn−1. τ y Sτ que ya hemos calculado. Intervalo de confianza para la estimación de la media y ± tn−1. El intervalo de confianza donde τ = N y . Nótese que implícitamente se acepta un error de α100 %. el error estándar depende de la variabilidad de la población y del tamaño de la muestra. suponiendo que los ¯ ¯ ˆ ˆ estimadores y y τ tienen una distribución normal.(α/2) Sy ¯ ¯ donde y0 indica el valor de la media muestral obtenido con la muestra especí¯ fica. significa que del total de muestras posibles de tamaño n. que el valor del parámetro no esté entre tales límites. La mayor confiabilidad se paga con menor precisión. Asimismo.(α/2) Sy ¯ ¯ donde Sy = ¯ N −n N 2 Sy . El tamaño de la muestra es el factor que podemos manipular para lograr una precisión deseada. y .11) Es necesario aclarar la interpretación del intervalo (3.(α/2) .2 2 esto es. ya que la varianza de y .(α/2) Sτ ˆ ˆ N2 (3. pero su amplitud depende del nivel de confiabilidad y del error estándar del estimador.(α/2) representa el valor de una variable t de Student con (n − 1) grados de libertad y que deja del lado derecho de la curva una probabilidad de α/2. Sτ = ˆ ¯ ˆ n N n N es la referencia de mayor importancia para los resultados de un muestreo. Es necesario mencionar que cuando el tamaño de la muestra es grande.11) que cubren el valor del parámetro. 39 .11) y el significado de los términos que aún no se han definido.(α/2) Sy ¯ ¯ y y0 + tn−1. El tamaño del intervalo nos indica la precisión que se ha logrado en la estimación del parámetro de interés. los valores de t son muy similares a los de una variable aleatoria con distribución normal estándar. ¯ ˆ se puede estimar por intervalo la media y total poblacional. y por lo ¯ tanto el error estándar. es cero cuando el tamaño de la muestra es igual al de la población. esto es. Desde el punto de vista del muestreo repetido. Nótese que cuando calculemos y0 − tn−1. Sy . aproximadamente (1 − α)100 % de ellas producirá intervalos del tipo (3. Por su parte. o aproximadamente normal. digamos mayor de 30. Este valor se obtiene de la distribución t de Student. tn−1.12) 2 2 Sy N − n Sy N − n =N . Intervalo de confianza para la estimación del total τ ± tn−1.

la precisión y confiabilidad fijadas de antemano por el investigador.(α/2) 1 − d2 2 t2 n−1. En la determinación de n se deben considerar tanto el aspecto teórico como el práctico. la cantidad de información que se captará. Por tanto. usamos su estimador. todo esto como parte de la teoría.1). el aspecto práctico tiene gran influencia en la decisión del tamaño de muestra a usar en definitiva.Capítulo 3. pero también se puede fijar en términos de la varianza y el coeficiente de variación. el esquema de muestreo a usar.(α/2) Sy ⇔ d = tn−1.13) se procede a despejar n: d = tn−1. respectivamente. ya que deben tomarse en cuenta factores como el dinero y el tiempo disponibles.(α/2) S n ⇔ = 1 1 − n N 1 d2 1 = 2 + 2 n tn−1. El procedimiento comprende la precisión del estimador con referencia a un error absoluto máximo permisible (la precisión) y una confiabilidad dada.(α/2) n 1 1 − n N (N − n)S 2 Nn n N S2 2 ⇔ d2 = t2 n−1. a partir de la expresión (3.(α/2) S N −n N S2 ⇔ d2 = t2 n−1. ¯ Hay que resaltar que la precisión en este caso (3.3. en este caso el parámetro θ = Y .α/2 es el valor de una variable aleatoria t de Student que deja del lado derecho de la curva una probabilidad de α/2. utilizando la relación de precisión y confiabilidad de la ¯ ¯ declaración (2. Tamaño de la muestra para estimar la media ¯ Vamos a estimar una sola media poblacional. Determinación del tamaño de la muestra Determinar el tamaño de muestra y tomar la decisión de cuál tamaño elegir. el tipo y la calidad de los materiales. pero en virtud de que el parámetro no se conoce. y Sy es la raíz cuadrada de la ¯ varianza de y .13) se fijó en términos de la desviación estándar. digamos Y . es necesario identificar el parámetro o los parámetros que se deben estimar. la elección del estimador o los estimadores. el objetivo del estudio.(α/2) S N 40 . mediante su estimador y bajo el MAS.(α/2) ¯ d2 = t2 n−1. asimismo. la cantidad de personal especializado que se necesita. los instrumentos necesarios para las mediciones. Muestreo aleatorio simple 3. etcétera. Además.4. es uno de los problemas importantes a que debe enfrentarse el usuario del muestreo. suponemos y tiene una distribución normal en con¯ secuencia establecemos la precisión como: d = tn−1. las especificaciones que se requieren hacer o que se desea que reúna un estimador. mientras que d y (1 − α) indican. Aquí se presentará un procedimiento para calcular un tamaño de muestra.13) donde tn−1.α/2 Sy ¯ (3. Formalmente. Por un lado. para estimar la media poblacional o el total poblacional bajo una medida de la calidad en la estimación. el desarrollo debe hacerse en términos de σ 2 y no ¯ 2 de Sy . Por otro lado.

(α/2) S 2 N d2 + t2 µ n−1. el cual es un valor conocido y que establece el investigador. pero podría ser que la estimación deseada fuera otro parámetro. El tamaño de muestra preliminar n′ se determina de manera arbitraria.14) ¯ n = tamaño de muestra estimado para estimar la media poblacional. así como del tiempo y las condiciones físicas y administrativas del estudio.(α/2) S n−1. pero no para el proceso de cálculo de estimaciones por intervalo de confianza. pero dependerá de los recursos económicos y humanos disponibles.(α/2) S (3. en este caso es el parámetro que se está estimando. se obtiene una ecuación que indica cómo calcular un tamaño de muestra para la estimación de una media poblacional. el cual es un valor conocido. dµ = alejamiento máximo permitido entre el estimador y el parámetro (la precisión). en términos de una precisión y una confiabilidad preestablecidas: n= 2 N t2 n−1.α/2 = valor de una variable aleatoria t de Student o normal estándar que tiene a la derecha de la curva una probabilidad de α/2. Este valor se conoce al fijar la confiabilidad deseada.(α/2) S n−1.(α/2) S Por lo tanto. Hemos usado el subíndice µ en la precisión d. Este valor se obtiene con los datos de una muestra preliminar de tamaño n′ . Y . En caso de no realizar una encuesta piloto para la estimación e la varianza se proponen las dos siguientes alternativas: Especificar el valor aproximado de la varianza con base en experiencia de estudios anteriores. tn−1. que es igual a: S 2 = n i=1 2 yi − n¯2 y N = tamaño de la población. para aclarar que se trata de la precisión referida a la media. . Además es importante mencionar que esta varianza muestral (S 2 ) será calculada con base en una muestra preliminar de tamaño n′ . Es una muestra estimada porque no se conoce la varianza poblacional (σ 2 ) y en su lugar se utiliza su estimador correspondiente (S 2 ). 41 n−1 .2 2 N d2 + t2 N t2 1 n−1. como el total τ o algún otro.(α/2) S = ⇔n= 2 2 n N t2 N d2 + t2 n−1. Está claro que a medida que se incremente n′ la estimación de la varianza poblacional será mejor. Especificar el valor aproximado de la varianza mediante el conocimiento que se tenga sobre la forma de la distribución y el rango de variación de los valores de la variable bajo estudio. la cual sólo será de utilidad para calcular el tamaño de muestra definitivo. S 2 = varianza muestral.

(α/2) S donde Sτ = ˆ N2 n: tamaño de muestra para estimar el total poblacional. 3.(α/2) S n= 2 2 dt + N t2 n−1. Conviene recordar que τ = N µ. IBM produce semanalmente N = 1. Tablas similares son presentas por Deming (1966)[13] y Kish (1950)[12]. La información sobre el número de fallas encontradas en cada una de las computadoras se muestra a continuación: 6. τ tiene una distribución norˆ mal y por tanto: d = tn−1. y dτ = N dµ . S 2 : varianza estimada en la población de interés. Despejendo n se obtiene una N n N n ecuación que indica cómo calcular un tamaño de muestra para la estimación de un total poblacional. 000 computadoras. 8. 7. donde aparecen formúlas sencillas de las varianzas de distribuciones a apartir de la forma y el rango de variación de la variable estudiada. y considerando el parámetro θ = τ . se puede usar la fórmula para el cálculo del tamaño de la muestra que más convenga. 5. Tamaño de muestra para estimar el total poblacional De igual manera utilizando la relación de precisión y confiabilidad de la declaración (2. a) Haga una estimación puntual del promedio de fallas por computadora. dτ : precisión de la estimación del total poblacional que estamos dispuestos a aceptar. 8. por lo tanto.Capítulo 3. 7. de donde el gerente de calidad seleccionó al azar una muestra n = 10 computadoras. sabiendo cómo pasar de una a otra en las estimaciones de µ ó τ .5. 7 y 6. y1 + y2 + · · · + y n n 6+7+9+8+5+4+7+8+7+6 = 6.1). en términos de una precisión y una confiabilidad preestablecidas: 2 N 2 t2 n−1. ˆ 2 2 N − n Sy N − n Sy = N . 4.α/2 Sτ . N : tamaño de la población. 9. Además.3.7 y= ¯ 10 y= ¯ b) Calcule la varianza muestral del número de fallas (S 2 ) n 2 yi − n¯2 y S2 = i=1 n−1 42 .1. Ejemplos Ejemplo 1. Muestreo aleatorio simple Se presenta el la Figura A.

. e) Realice una estimación puntual del total de fallas.4702 y tn−1.4702) 6.221 ¯ Sy = ¯ 2 Sy = ¯ d) Calcule un intervalo de confianza (IC) del promedio de fallas por computadora con una confiabilidad de 95 %.α/2 = t10−1.0.063.α/2 Sy ¯ ¯ donde: y = 6.7634 Es decir.0634) 6. Sy = 0.7±1. con una confiabilidad de 95 % se estima que el valor verdadero del promedio de fallas por computadora está entre 5.025 = 2.700 ˆ ¯ f) Calcule un IC del total de fallas con la confiabilidad de 95 % τ ± N tn−1.262)(0.700±(1.7634.7)2 = 2.99)(0.262 ˆ ¯ Por lo tanto.6366 y 7.2233) = 0. 000 − 10 2.0.6366≤ µ ≤7.700±(1.4 5. 6. 000.000)(1. . 000 10 √ 0.700±1.2333 9 c) Calcule la varianza y la desviación estándar de la media muestral del número de fallas 2 Sy = ¯ 2 Sy = ¯ N −n S2 N n 1.4 43 .221 = 0.2333 1. Sy = 0.7±(2. + 72 + 62 − 10(6.4702) 6.262 ¯ ¯ Por lo tanto.6≤ τ ≤7. N = 1. 6.262)(0.4702 y tn−1. τ = N y =(1.000)(6.S2 = 62 + 72 + .025 = 2.7.000)(2.α/2 = t10−1.α/2 Sy ˆ ¯ donde: τ = 6.763. 700. y ± tn−1.7)=6.4702 2 Sy = (0.636.0634 5.

¿Cuál sería el tamaño de muestra necesario para estimar el promedio de fallas de tal manera que el promedio tenga una precisión de 7 % del promedio preliminar (¯) y una confiabilidad de 95 %? y n= N (tn−1.05 de probabilidad de no incluir en el intervalo de estimación al promedio verdadero.469 fallas con 0.469)2 + (2. tn−1. También ˆ como el valor de d no está definido en forma explícita se calcula obteniendo 7 % del total poblacional preliminar (ˆ = 6.07)(6. g) Suponga que las computadoras seleccionadas son una muestra preliminar de tamaño n′ = 10. 700) = 469 τ y por lo tanto: 44 .6 y 7.025 = 2.262.7 ¯ Como el valor de d no está definido en forma explícita se calcula obteniendo 7 % del promedio preliminar (¯ = 6.763.4.2333. sino solamente las faltantes (n − n′ ) para completarlo. Es decir. Es decir. corroborar que el marco de muestreo está correcto y obtener una estimación de la varianza. y = 6.38 (0.α/2 )2 S 2 donde: N = 1.7) = 0. Porque el muestreo preliminar o piloto únicamente es útil para verificar que el cuestionario funciona bien al momento de aplicarlo. n = 50 es el número estimado de unidades muestrales (computadoras) para que la muestra tenga una precisión de ±0. tn−1.7). τ = 6. 000.α/2 )2 S 2 d2 + N (tn−1. h) Suponga que las computadoras seleccionadas son una muestra preliminar de tamaño n′ = 10. y Por lo tanto: (1.α/2 )2 S 2 donde: N = 1.2333) Entonces. Sin embargo. 000)(2.262)2 (2. Muestreo aleatorio simple Es decir.025 = 2. si en el muestreo piloto se encuentra que todo funciona correctamente. 000.0. n = 50 computadoras es el tamaño de muestra definitivo y todos los parámetros que se deseen estimar se deben de hacer tomando en cuenta este tamaño de muestra.262. d = (0. d = (0. ¿Cuál sería el tamaño de muestra definitivo para estimar el total poblacional de fallas de tal manera que sea estimado con una precisión de 7 % del total (ˆ) y con una confiabilidad de 95 %? La expresión τ para calcular el tamaño de muestra para estimar el total es: n= N 2 (tn−1.2333. con 95 % de confianza se estima que el total de fallas en la población está entre 5.α/2 )2 S 2 N d2 + (tn−1.0. 700.636. pues se utilizan las de la muestra piloto (n′ ). ya no se miden todas las unidades muestrales del tamaño de muestra definitivo (n).469.2333) n= = 49.Capítulo 3. En este ejercicio solamente se seleccionarían 40 computadoras al azar de la población porque n′ = 10. S 2 = 2. 700).α/2 = t10−1.07)(6.α/2 = t10−1.262)2 (2. Es decir. S 2 = 2.

Los datos son: 120. .9745 = 6. por lo que sólo faltará medir las unidades muestrales restantes considerando las que ya se midieron. 000)2 (2.025 = 2. Ejemplo 2. y ± tn−1.3333.2333) = = 49. 100.381 15 = 40. 80. 100. 65.4011 ¯ 637. y= ¯ y1 + y2 + · · · + y n n 120 + 150 + 100 + . 110. Sy = 6. 70.262)2 (2. 50. Esto procede siempre y cuando el muestreo piloto sea considerado apropiado. 427.9745 d) Calcule un intervalo de confianza (IC) del gasto promedio por estudiante. 100.0. 150.3333 15 b) Calcule la varianza muestral para el gasto (S 2 ) n 2 yi − n¯2 y S2 = i=1 n−1 120 + 1502 + 1002 + · · · + 652 + 1102 − (15)(90.38 2 + (1. . 90. La directora de Intercambio Académico y Becas de la Universidad de Colima selecciona una muestra de n = 15 estudiantes de la Facultad de Telemática cuya población es de N = 420 estudiantes. 60.33)2 S2 = 15 − 1 2 S 2 = 637.α/2 = t15−1. a) Haga una estimación puntual del gasto semanal promedio por estudiante. + 65 + 110 y= ¯ = 90.262)2 (2. tn−1.n= 11. 388 Nota: La n estimada es el tamaño de muestra definitivo. Esta nota es válida para todos los ejercicios posteriores incluso para los esquemas de muestreo presentados en los capítulos restantes . 90.2333) (469) 231.α/2 Sy ¯ ¯ donde: y = 90.381 c) Calcule la varianza y la desviación estándar de la media muestral para el gasto 2 Sy ¯ = Sy = ¯ N −n S2 420 − 15 = N n 420 √ 2 Sy = 40. 90. 80.145 ¯ ¯ Por lo tanto: 45 . y a cada uno de los estudiantes le pregunta su gasto semanal en pesos. 000)(2.4011. 001.05 (1.

173.706. tn−1. En otras palabras se debe seleccionar aleatoriamente una muestra de n = 69 estudiantes de la población de N = 420.0 pesos.2062 Es decir.0±(420)(2.α/2 )2 S 2 donde: N = 420.145)(6.6043≤ µ ≤104.33±(2.4011) 37. g) Suponga que los estudiantes seleccionados son una muestra preliminar de tamaño n′ = 15. N = 420.α/2 )2 S 2 N d2 + (tn−1.940.025 = 2.145.145)2 (637.6043 y 104.33±13. 940.706.4011. con una confiabilidad de 95 % se estima que el valor verdadero del gasto promedio por estudiante está entre 76.Capítulo 3.α/2 = t15−1.7291 76.940 ˆ ¯ Se estima que el gasto semanal total de los estudiantes es de 37.381) Por lo tanto.173.145)2 (637.4011) 90.381.0±(420)(13. Sy = 6.7291) 37.025 = 2.3333)=37. τ = N y =(420)(90. se estima que el gasto total de los estudiantes está entre 32.0±5766. Muestreo aleatorio simple 90. f) Calcule un IC del gasto total de los estudiantes con 95 % de confianza. d = 6 Por lo tanto: n= (420)(2.α/2 Sy ˆ ¯ donde: τ = 37.940. S 2 = 637.2222 32.α/2 = t15−1.0.7938 y 43.0624 Es decir.7938≤ τ ≤43.95 de probabilidad de incluir en el intervalo de estimación al promedio verdadero. ¿Cuál es el tamaño de muestra necesario para estimar el gasto promedio por estudiante de tal manera que el promedio se estime con una precisión de ±6 pesos y con una confiabilidad de 95 %? n= N (tn−1.940.940.145)(6.145 ˆ ¯ Por lo tanto: 37. lo que garantiza que se cumplirá la precisión especificada (d = 6 pesos) para el 46 . e) Realice una estimación puntual del gasto total de los estudiantes.2062. tn−1.381) = 69 (420)(6)2 + (2. 69 son las unidades muestrales (estudiantes) para tener una precisión de ±6 pesos con 0.0624. τ ± N tn−1.0.

de las cuales se seleccionó una muestra aleatoria de 12 .17)2 2 S = 12 − 1 S 2 = 5.520 pesos y una confiabilidad de 95 %? n= N 2 (tn−1.α/2 = t15−1. y= ¯ 12 y= ¯ b) Calcule la varianza muestral (S 2 ). 47 . 000 − 12 3. y1 + y2 + · · · + y n n 6+3+8+5+2+1+0+1+1+3+4+4 = 3. La información obtenida de cada una de las n = 12 familias se presenta a continuación: 6.0. 3. 2.6061 12 = 0.4653 = ¯ ¯ 0.381. Se desea información sobre el número de hijos que cada familia tiene en Estados Unidos. 000 familias.145)2 (637. S 2 = 637. ¿Cuál es el tamaño de muestra definitivo para estimar el total poblacional del gasto de los estudiantes tal que el total sea estimado con una precisión de 2.95. d = 2. 4. 520 Por lo tanto: n= (420)2 (2.4653.145.1667.145)2 (637. 1. h) Suponga que los estudiantes seleccionados son una muestra preliminar de tamaño n′ = 15. 0. 520)2 + (420)(2.6821 d) El total de colimenses que radica en Estados Unidos. n 2 yi − n¯2 y S2 = i=1 2 n−1 6 + 32 + 82 + · · · + 42 + 42 − (12)(3. 3. por familia.4653 La varianza estimada del promedio de hijos viviendo en Estados Unidos por √ 2 familia es de 0. 1. a) Obtener el promedio de hijos que vive en Estados Unidos. 5. 4. 000 5. El estado de Colima tiene N = 3.α/2 )2 S 2 d2 + N (tn−1. 1.025 = 2. La desviación estándar es igual a: Sy = Sy = 0. 8.6061 2 c) Calcule la varianza de la media muestral (Sy ).381) Ejemplo 3.381) = 69 (2. tn−1.promedio con una probabilidad de 0.α/2 )2 S 2 donde: N = 420. ¯ 2 Sy = ¯ N −n N S2 n = 3.

6821) 3. y ± tn−1. tn−1.500±(3.1667)=9.1667±(2. g) Suponga que la muestra seleccionada corresponde a una muestra preliminar de tamaño n′ = 12.6653 y 4.5 parientes y con una confiabilidad de 95 %? N (tn−1. con 95 % de confianza se estima que el total de colimenses que vive en Estados Unidos está entre 4.0822 Es decir.000)(3. 000)(0. Sy = 0. S 2 = 5. tn−1.9198 y 14.0822. tn−1.α/2 = t12−1.1667±1.201. 500.α/2 = t12−1. ¿Cuál es el tamaño de la muestra para estimar el promedio de hijos por familia que radica en Estados Unidos de tal manera que el promedio sea estimado con una precisión de 0.000)(2.6061) 48 .1667. τ ± N tn−1.2 4.9198≤ τ ≤14.Capítulo 3.5014 1. f) Calcule un IC del total poblacional con 95 % de confiabilidad.α/2 )2 S 2 donde: N = 3.025 = 2.004.0.0.α/2 = t12−1.201 ˆ ¯ Por lo tanto: 9.025 = 2.0.201)(0.6821.α/2 Sy ˆ ¯ donde: τ = 9.201)2 (5. 000.6061.5014) 9.500 ˆ ¯ e) Calcule un IC de 95 % de confianza del promedio de hijos por familia que vive en Estados Unidos. Sy = 0. con una confiabilidad de 95 % se estima que el valor verdadero del promedio de parientes por familia en Estados Unidos se encuentra entre 1.α/2 )2 S 2 n= N d2 + (tn−1.6061) = 105 (3.6821) 9.6680.201 ¯ ¯ Por lo tanto: 3.α/2 Sy ¯ ¯ donde: y = 3. N = 3. d = 0.201)(0.5 Por lo tanto: n= (3.995. 000)(2.500±(3. Muestreo aleatorio simple τ = N y =(3.504.6653≤ µ ≤4.6821. 000.025 = 2.6680 Es decir.500±4.201)2 (5.5)2 + (2.004.995.000)(1.

201)2 (5.α/2 )2 S 2 d2 + N (tn−1. El gobernador del estado de Colima.α/2 )2 S 2 donde: N = 3.201)2 (5. 15. y1 + y2 + · · · + y n n 16 + 13 + 18 + 15 + 22 + 21 + 10 + 11 + 8 + 33 + 34 + 24 = 18. 13. 34.8770 = 2.4242 2 Sy = ¯ 5. tn−1. S 2 = 5. 18.201. a) Calcule el promedio de drogadictos por colonia en el estado.025 = 2.75)2 S2 = 12 − 1 S 2 = 71.0.6061.4773 c) Calcule la varianza y la desviación estándar del promedio muestral. 10. En cada colonia se investigó el número de drogadictos.500 parientes y una confiabilidad de 95 %? n= N 2 (tn−1. La información obtenida de cada una de las n′ = 12 colonias se presenta a continuación: 16. 33.6061) Ejemplo 4.4773 12 = 5. 49 .α/2 = t12−1. El estado tiene N = 900 colonias de las cuales se seleccionó una muestra aleatoria de 12 colonias. d = 1.8770 5. 11. 2 Sy = ¯ Sy = ¯ Sy = ¯ √ N −n N √ S2 n = 900 − 12 900 71. 8. 22.h) Suponga que la muestra seleccionada es una muestra preliminar de tamaño n′ = 12.4242 d) El número total de drogadictos en el estado. n 2 yi − n¯2 y S2 = i=1 2 n−1 16 + 132 + 182 + · · · + 342 + 242 − (12)(18.6061) = 105 (1500)2 + (3000)(2. 000)2 (2. desea estimar el total de drogadictos que hay en la entidad. 24. 21. 500 Por lo tanto: n= (3. ¿Cuál es el tamaño de muestra para estimar el total de colimenses que vive en Estados Unidos tal que el total sea estimado con una precisión de 1. a través de la Secretaría de Salud.8770 = 2. 000.75 y = ¯ 12 drogadictos por colonia. y= ¯ b) Calcule la varianza muestral (S 2 ).

N = 900.025 = 2.1776 Es decir. (900)(2)2 + (2. tn−1. con una confiabilidad de 95 % se estima que el valor verdadero del promedio de drogadictos por colonia en el estado de Colima está entre 13.α/2 Sy ¯ ¯ donde: y = 18. τ ± N tn−1.α/2 )2 S 2 N d2 + (tn−1.072.82243≤ τ ≤21.0858 Es decir. tn−1. f) Calcule un IC para el total de drogadictos en el estado de Colima con 95 % de confiabilidad. Sy = 2.0858.22 12.201)(2. 875.α/2 )2 S 2 donde: N = 900.0. d = 2 Por lo tanto: n= (900)(2.201)(2.4242) 16.875±(900)(5. g) Suponga que n′ = 12 es una muestra preliminar.75±(2.75)=16.82243 y 21.4242.072.677.4241.4142≤ µ ≤24. con 95 % de confianza se estima que el total de drogadictos en el estado de Colima está entre 12.4142 y 24.875±(900)(2. y ± tn−1.α/2 = t12−1.201 ˆ ¯ Por lo tanto: 16.201)2 (71.025 = 2.3358 13.4773. tn−1.201.α/2 Sy ˆ ¯ donde: τ = 16.875±4. con una precisión de ±2 drogadictos y una confiabilidad de 95 %? n= N (tn−1.Capítulo 3.4773) = 79 colonias.677.α/2 = t12−1.3358) 16.0.0.025 = 2. Sy = 2.75±5.75.4773) 50 .1776.802.201 ¯ ¯ Por lo tanto: 18. Muestreo aleatorio simple τ = N y =(900)(18.α/2 = t12−1.201)2 (71.4242) 18. ¿Cuál es el tamaño de muestra para estimar el promedio de drogadictos por colonia.875 ˆ ¯ e) Calcule un IC para el promedio de drogadictos por colonia en el estado. S 2 = 71.

8.3. 6. Se seleccionaron a 9 grupos aleatoriamente. 4. S 2 = 71. (1. 5. 5.1. Para ello se toma una muestra de 15 limones aleatoriamente y a cada uno de ellos se le mide su diámetro.025 = 2. 6.4773. ¿Cuál es el tamaño de muestra para estimar el total de drogadictos en el estado.4. Se desea saber si el limón cumple con las especificaciones para el diámetro. 4. 7. 7. 4. desea estimar los alumnos a nivel bachillerato de la U de C que tienen una buena condición física para formar parte de la selección. 5. n= (900)2 (2.000 rejas. 4. 3. Ejercicios En los siguientes ejercicios estime lo siguiente: a) El IC para el promedio y el total con una confiabilidad de 95 %.6. donde el gerente de calidad seleccionó una muestra de N =15 rejas.α/2 )2 S 2 d2 + N (tn−1. 6.1. Ejercicio 2.201. Los resultados de lo que se desea estimar es la siguiente: 4. 4. La Secretaría de Turismo del estado de Colima. 4.6. 12. 2. 800)2 + (900)(2. 2. 12. En cada grupo se hicieron las pruebas necesarias. 6. con una confiabilidad de 95 %? Ejercicio 1. Ejercicio 4. 1. 1. 3. 4. 3. 5. 3. 9. 5.4773) = 79 colonias. 6. 5. 3. Los resultados son los siguientes: 3. 5. 6. 11. 8. 3. tn−1.h) Suponga que n′ = 12 es una muestra preliminar. 5. 800 Por lo tanto. 6.5.4. 4.α/2 )2 S 2 donde: N = 900. La información obtenida de los alumnos seleccionados es la siguiente: 5. 4. 2.2. 3. 1. En la caseta Guadalajara-Colima ingresan por día N=700 vehículos en promedio. 5.9.201)2 (71. 51 . Se seleccionan 20 vehículos aleatoriamente y a cada uno de los vehículos se revisa la cantidad de personas que vienen en él. b) Suponga que la muestra en cada ejercicio es una muestra preliminar.7. ¿Cuál es el tamaño de muestra para estimar el promedio y el total con una precisión del 5 % de la media y el total preliminar.9. La información sobre el número de mangos dañados por rejas se presentan a continuación: 4. 5. d = 1. 4.8. desea estimar la cantidad de personas que visitan el Estado provenientes de Jalisco por día.201)2 (71. 5. 7. Se tienen N =500 grupos y en promedio cada grupo tiene 40 alumnos. Una exportadora de limón por cada hora acondiciona N =1.800 limones. 6.1.0. Una empacadora de mango produce por hora N =1.α/2 = t12−1. La Secretaría del Deporte del Estado de Colima. 5.1. cada una tiene 100 mangos. 10(alumnos por grupo que tienen condición física decuada) Ejercicio3. 3. 2.4773) 3. con una precisión de 1800 drogadictos y una confiabilidad de 95 %? n= N 2 (tn−1.

Para esto. la proporción de individuos en la ciudad de Colima que cree en Dios. 3.2. PY . Para muchos atributos tal determinación puede ser muy sencilla. en un conjunto de N computadoras. Esta aplicación también se conoce como muestreo por atributos. para conocer la proporción de personas analfabetas de una población. aunque conviene adecuar la simbología. 3. por ejemplo. El estimador de la proporción poblacional P y su relación con el estimador de una media poblacional Una manera fácil de introducir esta estimación es aceptar que se trata de una variable Y que solamente puede tomar los valores de cero o uno. de las unidades muestrales que pertenecen a uno de dos grupos posibles. por lo que debe establecerse un criterio unívoco que permita calificar al paciente como sano o enfermo solamente. sea Py la proporción de la población de uno de los dos grupos que posee el atributo evaluado en Y . a veces es difícil determinar el atributo. etc. es una condición en la que se presenta una gradualidad desde sano hasta enfermo. La estimación de una proporción poblacional Otra tarea que suele ser de interés al estudiar una población es la determinación de la proporción. En ocasiones son más de dos grupos a los que pueden pertenecer las unidades muestrales. P o π. pero aun así se podría tener la posibilidad de análisis si se considera que una unidad muestral pertenece o no pertenece a uno de los grupos. este caso no lo consideraremos aquí.1. está definida por la siguiente expresión: N yi PY = P = i=1 N = A N donde A es el número de unidades de la población que posee el atributo. para calcular dicha proporción se hace la suma de todas las respuestas afirmativas (sí) y se divide sobre el total de respuestas (sí y no). Está claro que yi es igual a A. calificar a un paciente como enfermo o no. Por lo tanto. el MAS para proporciones no considera los estados intermedios. por ejemplo. La proporción de la población. esto se debe a que sólo se consideró dos grupos posibles.5.5. Es decir.Capítulo 3. pertenecer a cierta marca. Por ejemplo. donde cada unidad de muestreo podría pertenecer a determinado grupo debido a que posee cierto atributo. Sin embargo. la proporción que apoya a cierto partido político o iniciativa gubernamental. Muestreo aleatorio simple 3. la proporción de estudiantes de la Facultad de Telemática que tienen computadora portátil. La medición La medición consiste en determinar si la unidad de muestreo tiene el atributo que la haría pertenecer a la proporción que se desea conocer.5. ya que si la unidad de muestreo tiene el atributo 52 . Todos estos ejemplos tienen dos opciones de respuesta: sí o no. De esta manera podremos usar las fórmulas de los apartados anteriores.

Así. haciendo la sustitución en (3. q es un estimador de Q. por ser el caso de un muestreo necesitamos un estimador de este parámetro.17) representa el número de unidades en la población que tiene el atributo que se desea evaluar. La varianza de la población para una proporción Ahora definamos la varianza de la población usando las mismas expresiones que en el caso de una variable continua.5. simbolizado ˆ por P = p y definido por la expresión: n yi py = p = i=1 n = a n (3. Con la muestra definimos un estimador de la proporción de la población.18) donde a = i=1 yi en (3. que se define por la expresión: n n n 2 yi 2 yi − i=1 2 sy = i=1 (yi − y )2 ¯ n n−1 = i=1 n n−1 a2 a a 1− n = n = n−1 n−1 a− = npq n−1 (3. Si se realiza un muestreo. 53 .18) representa el número de unidades en la muestra que tiene el atributo que se desea evaluar. entonces . se entiende que no se puede tener acceso a todas las N unidades de la población. sino solamente a las n de la muestra. a = yi representa el número de unidades de la muestra que tienen el atributo de interés.16) tenemos: σ2 = N N 2 yi i=1 = i yi = N P N P (1 − P ) NPQ NP − NP2 = = N −1 N −1 N −1 (3.17) La expresión = i yi = N P en (3.16) Como la variable sólo toma valores de cero o uno. 3. es decir. Naturalmente. N N 2 σY = σ 2 = i=1 (yi − µ) N −1 = i=1 2 yi − N µ 2 N −1 N N 2 yi i=1 (3.3.15) De igual manera que la definición del parámetro. El complemento de P es Q = (1 − P ) en el caso de la población y de la muestra es q = (1 − p).de interés aporta un valor de uno y si no la tiene aporta un valor de cero.

3. es común considerar que n − 1 es aproximadamente igual a n.(α/2) Sp donde Sp = N −n N pq n El intervalo de confianza para la estimación del total poblacional τ ± N tn−1. Muestreo aleatorio simple En la práctica.(α/2) Sp ˆ 54 . Así. Media y varianza del estimador de P ˆ E[P ] = E[p] = P 2 Sp = (3. que implica una corrección que hemos omitido por su poca trascendencia práctica. Existen otros procedimientos que se conocen como aproximación usando la distribución normal. Total poblacional y varianza del estimador de τ τ = Np ˆ Sτ = N ˆ 2 N −n N 2 Sy n = N2 N −n N pq n La raíz cuadrada positiva de la varianza del estimador del total es el error estándar del estimador del total. El intervalo de confianza para la estimación de la proporción de la población p ± tn−1. Usando nuevamente el Teorema Central del Límite.20) N −n N 2 Sy n = N −n N En la práctica. se tiene que p se distribuye normalmente con los siguientes parámetros.4.19) pq n (3.Capítulo 3. p tiene aproximadamente una distribución normal con media P (estimada por p) y una varianza 2 2 σp (estimada por Sp ). la raíz cuadrada positiva de la varianza del estimador se conoce como error estándar del estimador de la proporción. con lo cual la expresión más usada para calcular la varianza muestral es: 2 Sy = pq Estimación de la varianza y el error estándar Esta estimación sigue un desarrollo paralelo a lo expuesto para una variable continua. Los intervalos de confianza Con el mismo procedimiento que el del caso de una variable continua obtenemos las expresiones para los intervalos de confianza.5.

respectivamente.5. esto significa que en el MAS para una proporción cuando no se dispone del tiempo y recursos para realizar un muestreo piloto que sirva para corroborar el marco de muestreo. éstas no se conocen.5) = 0. Sin embargo. Sin embargo. En otras palabras. respectivamente. existe el producto P Q o pq.(α/2) ]2 P Q p donde: dp : la precisión de estimación de la proporción poblacional que se está dispuesto a aceptar.(α/2) ]2 P Q n= N d2 + [tn−1. por lo que se estiman con p y q. recordemos que P puede ser interpretada como µ según la ecuación (3.donde Sp = N −n N pq n Varianza acotada de una proporción 2 2 Como puede observarse en las expresiones de σy y de Sp .25) para determinar el tamaño de muestra máximo (conservador).(α/2) ]2 P Q d2 + N [tn−1.5)(0. los problemas relacionados con el personal para levantar la encuesta y para estimar la varianza (S 2 = pq). P : es la proporción de interés. Q = (1 − P ).(α/2) ]2 P Q τ ˆ . Este método sólo debe usarse cuando se tenga un marco de muestreo confiable. 55 N 2 [tn−1. tenemos lo siguiente. en esas expresiones se puede apreciar que el tamaño de la varianza depende de ese producto para el tamaño de población y una muestra dadas. El tamaño de muestra requerido para estimar P Respecto al tamaño de muestra requerido. el cuestionario validado y encuestadores experimentados. no se conocen. El tamaño muestral requerido para estimar el total poblacional n= donde: dτ : es la precisión de estimación del total poblacional que se está dispuesto ˆ a aceptar. por lo que se estiman con p y q. Esta propiedad se puede emplear para suponer una varianza máxima antes de realizar el muestreo.14). P : es la proporción de interés. p = 0. Esto nos indica que las varianzas de la población y del estimador serán las máximas cuando P o p sean iguales a 0.5.19) y con el procedimiento que obtuvimos la ecuación (3. se supone varianza máxima (S 2 = pq = (0. el cuestionario. y los resultados finales siempre serán iguales o más precisos que lo esperado. El tamaño muestral para estimar P N [tn−1.5. 3. Q = (1 − P ). ya que en estas condiciones el producto mencionado tiene un valor máximo.5. Entonces.

6.234375 = 0.375 y q = 0. n yi p= i=1 n = a 30 = = 0. calcular lo siguiente: a) Cuantifique la proporción verdadera de los estudiantes que fuma.375 = 0.07 %. Sp = N −n N pq n donde: N = 430.2793≤ P ≤0. Zα/2 = Z0.625 ó 62. Muestreo aleatorio simple 3.4707. τ = Np ˆ donde: N = 430.375 56 .4707 Con 95 % de confianza se estima que la proporción verdadera de estudiantes que fuman en la Facultad de Medicina está entre 0.375 ó 37.375±0. p = 0.96)(0.0488 c) Calcule un IC de 95 % para la proporción verdadera.2793 y 0. p ± Zα/2 Sp donde: p = 0. Si la muestra indica que 30 de los estudiantes seleccionados fuman. p = 0.09565 0.Capítulo 3.5 % de estudiantes no fumadores b) La desviación estándar de la proporción muestral (Sp ). entre 27.0488.0488) 0. Sustituyendo estos valores en la ecuación anterior. n = 80. se seleccionó una muestra aleatoria de n = 80 estudiantes.96 Por lo tanto: 0. Con la finalidad de estimar la proporción de estudiantes que fuman en la Facultad de Medicina de la U de C . Sp = 0.5 % de estudiantes fumadores n 80 q = 1−p = 1−0.5. cuya población es de N = 430 estudiantes.8139)(0. se tiene que: Sp = 430 − 80 430 (0.025 = 1.375±(1. Ejemplos Ejemplo 1.625.375)(0.375. es decir.0029) = √ 0. d) Estimar el total verdadero de estudiantes que fuma en la Facultad de Medicina.93 y 47.625) 80 = (0.

625) = = 258 estu(16.25.4062.10)(ˆ)=(0.0375) 1. τ ± Zα/2 N Sp ˆ donde: τ = 161. f) Suponga que n = 80 estudiantes es una muestra preliminar. ¿Cuál es el tamaño de muestra para estimar el total poblacional con una precisión de 10 % del total poblacional preliminar (p) y una confiabilidad de 95 %? n= N 2 (Zα/2 )2 pq d2 + N (Zα/2 )2 pq donde: N = 430.025 = 1. Sp = 0.96 y d = (0.09565) 161.4062 Con 95 % de confianza se estima que el total de estudiantes que fuman en la Facultad de Medicina de la U de C está entre 120. p = 0. d = (0.33 (430)2 (1.375)(0.0938 y 202.1295 120.625) (430)(0.375)(0.0488) 161. Como la precisión tiene que ser 10 % de la proporción preliminar (p=0.96)(0. ¿Cuál es el tamaño de muestra para estimar la proporción verdadera con una precisión de 10 % de la proporción preliminar (p) y una confiabilidad de 95 %? n= N (Zα/2 )2 pq N d2 + (Zα/2 )2 pq donde: N = 430.0375: p por lo tanto: n= 387. N = 430. q = 0.96 Por lo tanto: 161.375) = 161.375)=0.16 diantes (unidades muestrales) n = 57 .625) 647.125)2 + (430)(1.25±(430)(0. con una confiabilidad de 95 %.125 Por lo tanto: 166479.10)(430)(0.625.96)2 (0.375). Zα/2 = Z0.375) = 16.25±(430)(1.025 = 1.375.625.25 ˆ e) La estimación por intervalo del total verdadero de estudiantes que fuman en la Facultad de Medicina de la U de C. q = 0.16 (430)(1.Por lo tanto τ = (430)(0.505 g) Suponga que n = 80 estudiantes es una muestra preliminar.0488.375)(0.96)2 (0.96)2 (0.25±41. Zα/2 = Z0.375.96)2 (0.625) = = 258 2 + (1. p = 0.10)(0.375)(0.0938≤ τ ≤202.

Muestreo aleatorio simple Ejemplo 2.96)(0.59 %.1358 0.44 58 . se seleccionó una muestra aleatoria de n = 50 computadoras.Capítulo 3.3041 y 0.0693 y Zα/2 = Z0.44±0. Sp = 0.44 ó 44 % computadoras infectadas n 50 q = 1 − p = 1 − 0. Un ingeniero en telemática es el responsable de un centro de cómputo con N = 2. 000. n = 50.96 Por lo tanto: 0. 000 y p = 0.44.0693) 0. 000 computadoras donde por descuido algunas computadoras se infectaron con el virus XXX.5759 Con 95 % de confianza se estima que la proporción verdadera de computadoras infectadas en la población está entre 0. 000 (0. o sea.56 Por lo tanto: Sp = 2.025 = 1.0049) = √ 0. y q = 0.44)(0.0693 c) Encontrar un IC de 95 % para la proporción verdadera.44 = 0.975)(0.44±(1. τ = Np ˆ donde: N = 2.56) 50 = (0.44. a) Estime la proporción verdadera de computadoras infectadas. Con la finalidad de estimar la proporción de computadoras infectadas. es decir.5759. p ± Zα/2 Sp donde: p = 0.56 ó 56 % computadoras limpias b) ¿Cuál es desviación estándar de la proporción muestral (Sp )? Sp = N −n N pq n donde: N = 2. 000 − 50 2. entre 30. p = 0. que contienen el virus XXX.41 y 57.0048048 = 0. n yi p= i=1 n = a 22 = = 0. Esta muestra indica que 22 de las 50 computadoras tienen el virus.3041≤ P ≤0. d) Hallar el total verdadero de computadoras infectadas.

0693) 880±(2.96 (2.07 Por lo tanto: n= (2. τ ± Zα/2 N Sp ˆ donde: τ = 880. q = 0.000)(0.000)(1.56) (140) 21493. 000)(1.44)(0.1358) 880±271. con una confiabilidad de 95 %.025 = 1.96)2 (0.Por lo tanto: τ = (2.44) = 880 ˆ e) Calcular un IC para el total verdadero de computadoras infectadas en la población. En el estado de Colima existen N = 3. Se desea estimar la proporción de familias que tiene ser59 . q = 0.0693. 000 familias que agrupan a toda la población.07 y una confiabilidad de 95 %? n= N (Zα/2 )2 pq N d2 + (Zα/2 )2 pq donde: N = 2.2787 y 1. p = 0.96)2 (0. N = 2. 000)2 (1. 000 y Zα/2 = Z0.7213.025 = 1.151.2787≤ τ ≤1. 000)(0.56) = = 177 2 + (2.1404 = = 177 2 + (1. 000.7466 g) Suponga que las n = 50 computadoras son una muestra preliminar.96 Por lo tanto: 880±(2.6 608. Sp = 0.44)(0.151. ¿cuál es el tamaño de muestra para estimar la proporción verdadera con una precisión de 0.14048 Ejemplo 3.96)2 (0.7213 Con 95 % de confianza se estima que el total poblacional de computadoras infectadas por el virus XXX está entre 608.44.56.56 y d = 0.96)2 (0. p = 0. 000.56) (2.44)(0. f) Suponga que n = 50 computadoras son una muestra preliminar.56) 1893. 000)(0.07) 10. Por lo tanto.44)(0.96 y d = 140 Por lo tanto: n= 3786280. Zα/2 = Z0. ¿Cuál es el tamaño de muestra para estimar el total verdadero con una precisión de 140 computadoras y una confiabilidad de 95 %? n= N 2 (Zα/2 )2 pq d2 + N (Zα/2 )2 pq donde: N = 2.96)(0.44. 000)(1.

Muestreo aleatorio simple vicio de Internet en su casa y se seleccionó una muestra preliminar de n = 100 familias. 60 . n = 100.20 = 0.96 De ahí que: 0.03933) 0.025 = 1. τ = Np ˆ donde: N = 3. n yi p= i=1 n = a 20 = = 0. Sp = 0.Capítulo 3.20 ó 20 % de familias poseen el servicio n 100 q = 1 − p = 1 − 0. 000.20 ± (1.20 ± 0.20) = 600 familias en el estado ˆ e) Calcular un IC para el total verdadero de familias con una confiabilidad de 95 %. Se encontró que 20 tenían servicio de Internet en su casa. p = 0. 000 y p = 0. entre 12.0016) = √ 0.71 %.1229 ≤ P ≤ 0.80) 100 = (0.80 u 80 % de familias no tienen servicio b) Hallar la desviación estándar estimada de la proporción muestral (Sp ).03933 y Zα/2 = Z0.1229 y 0.20 y q = 0.2771.20 Por lo tanto: τ = (3000)(0. p ± Zα/2 Sp donde: p = 0.20)(0.29 y 27. 000 − 100 3.96)(0. Donde: N = 3. d) Hallar el total verdadero de familias que tienen Internet.80 Por lo tanto: Sp = 3.2771 Con 95 % de confianza se estima que la proporción verdadera de familias que tienen Internet en su hogar está entre 0.001547 = 0.0771 0.20. o sea.03933 c) Calcular un IC de 95 % para la proporción verdadera. 000 (0.9667)(0. a) Realizar la estimación de la proporción verdadera de familias que tienen Internet.

7532 ≤ τ ≤ 831. 000)(1. 000)(1. 000. q = 0.0771) 600 ± 231.80.20)(0. Sp = 0. ¿cuál es el tamaño de muestra para estimar la proporción verdadera con una precisión de 0.07 y una confiabilidad de 95 %? n= N (Zα/2 )2 pq N d2 + (Zα/2 )2 pq donde: N = 3.8) = 121 familias (unidades mues(210)2 + (3000)(1.96)2 (0. p = 0.96)2 (0. que arrojó 70 automóviles estadounidenses. se seleccionó una muestra aleatoria de n = 250 autos. N = 3.03933 .025 = 1.80) (3000)(0. p = 0. Zα/2 = Z0.96)2 (0. 000.τ ± Zα/2 N Sp ˆ donde: τ = 600. 000 y Zα/2 = Z0. 000 automóviles. f) Suponga que n = 100 familias es una muestra preliminar.2468 Con 95 % de confianza se estima que el total de familias que tienen Internet en su hogar está entre 368. a) Haga la estimación puntual de la proporción verdadera de automóviles estadounidenses. 61 . q = 0.20.2)(0.3147 g) Suponga que n = 100 familias son una muestra preliminar.2468.07) 15.025 = 1.96)(0. 000)(0.968 (3.96 y d = 210 Por lo tanto: n= trales) (3000)2 (1.8) Ejemplo 4.80) = = 121 familias 2 + (1.03933) 600 ± (3.20)(0.96)2 (0. d = 0. ¿cuál es el tamaño de muestra para estimar el total verdadero con una precisión de 210 familias y una confiabilidad del 95 %? n= N 2 (Zα/2 )2 pq d2 + N (Zα/2 )2 pq donde: N = 3.07 Por lo tanto: n= 1843.20. En el estado de Colima hay N = 20.7532 y 831.3 368.80. Con la finalidad de estimar la proporción de autos estadounidenses.2)(0.96 entonces: 600 ± (3.

000 y Zα/2 = Z0. 000 (0. 000 − 250 20.96 62 .28 ± (1. con una confiabilidad de 95 %. 000.96 Por lo tanto: 0.28.28 ó 28 % autos estadounidenses n 250 q = 1 − p = 1 − 0.0007963 = 0. p = 0.28) = 5.02822 y Zα/2 = Z0. Sp = 0.2247 ≤ P ≤ 0. p ± Zα/2 Sp donde: p = 0.28 y q = 0. Sp = N − n pq N n donde: N = 20.28 ± 0.02822 c) Calcule un IC de 95 % para la proporción verdadera.72 ó 72 % otros autos b) Calcule la desviación estándar de la proporción muestral (Sp ).53 %.72 Por lo tanto: Sp = 20.02822) 0. τ = Np ˆ donde: N = 20. Sp = 0.025 = 1. 600 automóviles ˆ e) Hallar por intervalo el total verdadero de automóviles estadounidenses en el estado.9875)(0.00081) = √ 0.28)(0. 000)(0. τ ± Zα/2 N Sp ˆ donde: τ = 5. d) Encuentre el total verdadero de automóviles.02822.3353 Con 95 % de confianza se estima que la proporción de automóviles extranjeros en el estado está entre 22. p = 0.28 = 0.47 y 33. n = 250. N = 20.72) 250 = (0. Muestreo aleatorio simple n yi p= i=1 n = a 70 = = 0.28 Por lo tanto: τ = (20. 600.Capítulo 3.0553 0.025 = 1. 000.96)(0.

6. 000)(0. Zα/2 = Z0. b) Suponga que la muestra en cada ejercicio es una muestra preliminar. 000)(1. q = 0.96)2 (0.0553) 5.96)(0.72) (20. Ejercicios En los siguientes ejercicios estime los parámetros siguientes: a) El IC para la proporción y el total con una confiabilidad de 95 %.72) = 306 autos (muestra) (1000)2 + (20.025 = 1.8096 y 6706. 000)2 (1.96)2 (0.72) 3. 493. 000 Por lo tanto: n= (20.05 y una confiabilidad de 95 %? n= N (Zα/2 )2 pq N d2 + (Zα/2 )2 pq donde: N = 20.72.96)2 (0. 000)(1. 706.7745 g) Suponga que n = 250 automóviles es una muestra preliminar.28)(0.000 automóviles y una confiabilidad de 95 %? n= N 2 (Zα/2 )2 pq d2 + N (Zα/2 )2 pq donde: N = 20.28)(0. 000)(0.8299 ≤ τ ≤ 6.72) = = 306 autos (mues2 + (1.17 Con 95 % de confianza se estima que el total de automóviles está entre 4493. 600 ± (20.000.28. f) Suponga que n = 250 automóviles es una muestra preliminar.Por lo tanto: 5.28. 600 ± 1. q = 0.96)2 (0.72 y d = 0.96 y d = 1.02822) 5.05 Por lo tanto: n= tra) 15489. 106 4.3312 (20. p = 0.28)(0. ¿Cuál es el tamaño de muestra para estimar la proporción y el total de tal manera que la proporción y el total sean estimados con una precisión de 5 % de la proporción y el total preliminar con una confiabilidad de 95 %? Ejercicio 1. 600 ± (20. ¿cuál es el tamaño de muestra para estimar la proporción verdadera con una precisión de 0.000.1904. p = 0.28)(0. 000)(1.05) 50. ¿cuál es el tamaño de muestra para estimar el total verdadero con una precisión de 1. Con la finalidad de saber si la Sociedad Colimense que cuenta 63 .

Los resultados arrojaron que 35 personas están de acuerdo. 996 personas con una muestra al azar n = 5000 individuos. Los resultados muestran que 1. Con la finalidad de saber cuantas personas de la Ciudad de Colima utilizan tarjetas bancarias se llevó a cabo una encuesta. en Telemática. Los resultados arrojaron que 925 personas cuentan con tarjeta bancaria. la encuesta se realizó a n = 1. 500 personas. 570 personas conocen de los productos transgénicos. 000 personas tomadas al azar. Ejercicio 4. se realizó una encuesta tomando a n = 150 personas al azar de la población. 000 personas. Ejercicio 2. Se realizó la encuesta en el estado cuya población es de N = 567. Muestreo aleatorio simple con N = 10. en Telemática. la encuesta se realizó a n = 100 personas tomadas al azar de la población. La Secretaría de Salud del estado de Colima desea realizar una encuesta sobre si la población colimense conoce los productos transgénicos. Se lleva acabo la encuesta en el estado que cuenta con N = 10. está de acuerdo con la reforma a PEMEX. 000 personas. La Dirección de la Facultad de Telemática desea realizar una encuesta a la Sociedad Colimense para saber si saben el perfil de egreso de Ing. Ejercicio 3. 64 .Capítulo 3. La Ciudad de Colima cuenta con N = 6. Los resultados que arrojó la encuesta es que 15 personas conocen el perfil de egreso de Ing.

con respecto a la variable bajo estudio. Pero con datos y muestras. se puede usar otra característica para formar los estratos con la esperanza de lograr que los valores sean 65 . Cada unidad muestral debe estar incluida en sólo un estrato. n = h=1 nh En general los estratos naturales o convenientemente definidos deberán ser homogéneos internamente y heterogéneos entre ellos. y en cada uno de estos estratos o subpoblaciones se realiza un muestreo aleatorio simple con muestras respectivas de tamaño nh . éste capítulo brinda la opción del Muestreo Aleatorio Estratificado (MAE).Capítulo 4 El muestreo aleatorio estratificado En este mundo complejo. Por esta razón. así que la muestra estratifica de tamaño n es igual a la suma de todas las muestras de E cada estrato.. es decir.. C U ando Muestreo aleatorio estratificado (MAE) Si la población de N individuos se divide en E subpoblaciones o estratos que no se traslapan. aunque al no conocer esos valores. 1985 [1]). de manera que N = h Nh . . Las unidades que se incluyan en un estrato deben tener un valor similar en cuanto a la variable de interés. De una forma inteligente. nunca es fácil elegir. tú lo podrás conseguir. OAML el costo de la investigación es excesivo y la población es heterogénea.. o sea. Que trata de hacer aún más precisas las estimaciones que se pueden obtener con un diseño básico de muestreo como el aleatorio simple (Cochran. Los estratos contienen N1 . el muestreo aleatorio simple no es en principio una buena opción. E NE unidades muestrales. que te conduzca a un buen fin. con respecto a criterios que puedan ser importantes en el estudio y tratando en la medida posible que exista homogeneidad dentro de cada estrato. no debe haber traslapes entre los estratos.

como la siguiente: N : el número total de unidades muestrales en la población. 66 . como tamaño geográfico. ya que se pude usar personal especifico para cada estrato. las estimaciones podrían ser menos precisas o el costo sería demasiado elevado. Notación Para esta técnica de muestreo necesitamos una notación adicional que distingue los elementos de la población. niveles de estudio.1. III . etcétera (Pérez. Produce estimaciones más precisas que las que se obtienen a partir del muestreo aleatorio simple. h : un estrato. pues exigen un conocimiento detallado de la población. IV . Ventajas de utilizar M AE Algunos motivos para utilizar muestreo aleatorio estratificado en lugar de muestreo simple aleatorio son: I. i : alguna unidad muestral que siempre pertenece a algún estrato h. si la estratificación es bien definida. y se les aplica un muestreo aleatorio simple para elegir los elementos concretos que formarán parte de la muestra y obtener así las estimaciones de los parámetros que nos interesan. respectivamente. El muestreo aleatorio estratificado muy parecidos dentro de cada estrato. Wh = Nh /N : la ponderación. 4. n y nh . peso o tamaño relativo del estrato h. V.Capítulo 4. El costo por observación puede ser reducido mediante la estratificación de la población. género. El MAE se utiliza cuando la población es muy heterogénea y las consideraciones de costo limitan el tamaño de la muestra. El tamaño de muestra será menor. Nh : el número total de unidades en el estrato h. 2000 [3]). para la población estratificada habrá que determinarse dos tamaños de muestra: para la población y para cada estrato. fh = nh /Nh : la fracción de muestreo para el estrato h. yhi : el valor obtenido en la i-ésima unidad dentro del estrato h. Se puede obtener información de parámetros poblacionales para cada estrato de la población. Los estratos formados funcionan independientemente. Por otro lado. nh : el número de unidades en la muestra en el estrato h. edades. Si no se toma en cuenta la variabilidad y posiblemente los costos diferenciados y utilizamos el muestreo aleatorio simple. En ocasiones las dificultades que plantean los estratos son demasiado grandes. E : el número de estratos en la población. en comparación con el muestreo simple aleatorio. Se simplifica el trabajo administrativo y el de control. II .

debemos pensar que habrá niños. 67 . Por el contrario. será menor si el costo de la medición es elevado. Antes de seleccionar una muestra es preciso considerar qué tan grande debe ser la precisión de estimación y de acuerdo con esto seleccionar el tamaño de la muestra (Cochran. III .2. respetivamente. ya que es homogéneo. donde se supone que existen tres clases sociales bien definidas. 4. el tamaño de la muestra del estrato debe ser mayor si es muy variable o si contiene más unidades. II . es decir. En resumen. y que el tiempo de horas libres varía de un grupo a otro. donde τ es el total de la población. y entonces nos preguntamos. De esta manera resulta obvio que τ1 + τ2 + . También podemos entender que el número total de personas de la población es la suma de los elementos de los estratos. 4. ¿cuál es el total?.nh yhi yh = ¯ i=1 nh nh : la media muestral del estrato h. ya que cada uno tiene características y costos de medición distintos. nh 2 yhi − nh yh ¯2 2 Sh = i=1 (yhi − yh )2 ¯ nh − 1 = i=1 Si se desea conocer la cantidad de horas promedio que cierto grupo de personas de una ciudad ve la televisión. Otro ejemplo es el siguiente: si queremos conocer el ingreso promedio de las familias en Colima. Los elementos del estrato tiene alta variabilidad. La estimación de la media poblacional Supongamos que ya hemos tomado nuestra muestra aleatoria estratificada. Por ejemplo. por lo que el número de unidades también será diferente. + τE = τ .3. El estrato es más grande. ya que es lógico afirmar que las tendencias dentro de cada estrato son similares y son homogéneas. contestarnos preguntas como: ¿cuál es la media de nuestra población? o. nh − 1 : la varianza en el estrato h. El muestreo es más barato en el estrato. De esta manera dividimos la población en tres estratos. ¿cómo debemos usarla para estimar los principales parámetros?. podemos considerar las familias de la misma clase social como un estrato. 1985 [1]). Definiendo µh y τh como la media y el total para el estrato h. de un estrato dado se toma una muestra más grande si: I.. ¿Cómo seleccionar una muestra aleatoria estratificada? La selección de la muestra de cada estrato es diferente. jóvenes y adultos..

El muestreo aleatorio estratificado Para comprender mejor las expresiones que nos dará la estimación de µ y τ debemos tomar en cuenta que yh es un estimador insesgado de µh y que ¯ Nh N yh es un estimador insesgado del total del estrato τh = ¯ i=1 yhi . . . las yk con ¯ h = 1. consiste en leer el valor de t en las tablas de la t-student. y cuando es mayor de 30 utilizaremos la tablas Z de la normal estándar. Por lo tanto. (t V (¯estr )). E también son independientes. Hasta aquí todo parece razonable. como se hizo en el muestreo aleatorio simple. el cual hereda la ˆ propiedad de insesgamiento (Scheaffer. 4. + NE N1 N1 n1 NE nE E 2 Sh 2 N h − nh Nh Nh nh h=1 2 Sh nh 2 Sh nh = h=1 E 2 N h N h − nh N2 Nh 2 Wh = h=1 E N h − nh Nh = h=1 2 2 Wh Syh . τ . 1987 [2]). 68 . Dado que cada estrato se maneja de manera independiente. .1. Este estimador es insesgado. . El estimador de la media estratificada E N h yh ¯ yestr = ¯ h=1 N Nótese que se ha usado el subíndice estr en yestr para señalar que la esti¯ mación se hace con el muestreo estratificado. . el procedimien¯ y to para calcular el error de muestreo. El estimador de la varianza de la media estratificada 2 y Syestr = V (¯estr ) = ¯ 1 N2 1 = 2 N = E 1 2ˆ 2ˆ 2 ˆ N1 V (¯1 ) + N2 V (¯2 ) + . Cuando hay pocos grados de libertad en cada estrato. . tal como en el muestreo aleatorio simple. + NE V (¯E ) y y y N2 2 2 S1 SE 2 N E − nE 2 N 1 − n1 + .Capítulo 4. la varianza de yestr ¯ es la suma de las varianzas de las medias de cada estrato. 2. ¯ El siguiente paso es la obtención del intervalo de confianza de nuestra estimación.3. con la suma de los τh y de esta manera construir un ˆ ˆ estimador para la media de la población al dividir τ entre N . . como formar el estimador de τ .

α/2) ¯ h=1 Se ha revisado lo referente al estimador de la media estratificada. 4. 4. sin embargo. o el total de personas que visitan algún puerto durante Semana Santa.3. La determinación del tamaño de la muestra Ahora es tiempo de planear las unidades muestrales que se deben seleccionar aleatoriamente en toda la población.α/2) ¯ 2 Nh h=1 N h − nh Nh 2 Sh nh 4. 4. ¯ La varianza se deduce de la varianza de la media y hereda todas sus propiedades. y las de los estratos.3. 69 .3.4. debe existir por lo menos dos observaciones en cada estrato. + NE yE = ˆ ¯ ¯ ¯ ¯ h=1 N h yh . Para la estimación.3. . para constituir una muestra que satisfaga una precisión deseada. o quizá la cantidad de personas que consumen un producto A.5.3. el gasto total semanal de las familias.6. La varianza del estimador del total estratificado E ¯ ¯ V (N yestr ) = N 2 V (¯estr ) = N 2 y h=1 2 Wh N h − nh Nh 2 Sh . El estimador del total estratificado E τestr = N yestr = N1 y1 + N2 y2 + . .2. nh (4. El intervalo de confianza E N yestr ± t(n−1.1) La desviación estándar se necesita para crear un intervalo de confianza del total. El intervalo de confianza para la estimación de la media estratificada 1 N2 E 2 Nh h=1 E yestr ± t(n−1. en ocasiones el principal interés es conocer el total de la población. d.α/2) ¯ N h − nh Nh 2 2 Wh Syh ¯ 2 Sh nh yestr ± t(n−1.4. por ejemplo. tanto de la varianza de la media como del total.3.

por lo que a los estratos grandes les corresponden tamaños muestrales grandes. α : el nivel de significancia. se deberá tomar muestras pequeñas en estratos donde el costo sea alto y viceversa. La variabilidad de las observaciones del estrato. Anteriormente se revisaron los elementos estadísticos que se deben tomar en cuenta para obtener un tamaño de muestra preciso. ya que al incrementarse ésta.α/2) )2 h=1 2 W h Sh Wh = Nh /N dM = el tamaño del error que se desea aceptar en la estimación de la media. se puede recurrir a información más específica o adicional.α/2) donde ¯ V (θ) : la varianza del estimador de interés. 70 . El costo que representa muestrear cada estrato. Por último. el parámetro a estimar. El muestreo aleatorio estratificado Cuando se decide precisar el tamaño de muestra se debe tomar en cuenta varios factores. la calidad de la información que se obtenga en las estimaciones provendrá directamente de n. sin embargo. la precisión admisible. También es fácil inferir que si en algún estrato hay mucha variabilidad debe considerarse un tamaño de muestra mayor. Así. De aquí se puede concluir que cuanto mayor sea el tamaño muestral en los estratos.α/2) ) n= N d2 M 2 h=1 2 W h Sh E + (t(n−1. Para la asignación de la muestra a cada estrato también se requiere información sobre: El número total de elementos del estrato. la varianza poblacional y el nivel de confianza de la inferencia. existen otros factores que son fundamentales para tomar una decisión al respecto. Además. dependiendo de las estrategias de asignación. es importante considerar que si el costo de obtener una observación varía entre estratos. se obtendrá información más precisa. ¯ V (θ) El tamaño de muestra para estimar la media estratificada E N (t(n−1.Capítulo 4. como el tipo de muestreo. Para lograr una precisión deseada usamos: dM = t(n−1. la varianza de la media decrecerá. con el fin de minimizar el costo total del muestreo.

la asignación de n entre los estratos es proporcional al tamaño del estrato. Este procedimiento de asignación es recomendable cuando se sabe que los estratos tienen tamaños diferentes. . el muestreo estratificado involucra h estratos y por tanto también h tamaños de muestra. . nh = n. . De los estratos donde el costo por unidad sea alto. Por lo tanto. que la variabilidad entre estratos se desconoce. 4. dT = tamaño del error que se desea aceptar en la estimación del total. Así. . consiste en determinar una parte de n. . . la cual será proporcional al tamaño del estrato. n2 = n. se tomarán muestras más pequeñas. h. 71 . N N N Nh n = Wh n.El tamaño de muestra para estimar el total estratificado E N (t(n−1. existen diferentes métodos de asignación de la muestra. 2. es decir. pero puede suponerse ligeramente similar y que la variabilidad en el estrato más pequeño es menor que la del estrato más grande. . en la práctica se recurre con frecuencia a la denominada asignación proporcional.7.α/2) ) n= 2 2 h=1 2 W h Sh E . n1 . se asignará un tamaño de muestra mayor a los estratos más grandes y uno menor a los estratos más chicos. . Por su simplicidad. A los estratos que más aportan a la variabilidad. el cual es la suma de los h tamaños de muestra relacionados con los estratos. N i = 1. . . Asimismo. les corresponderá un tamaño de muestra mayor. suponiendo que ya se ha calculado el tamaño de la muestra n requerido. n2 . La asignación de la muestra Como se vio. es decir. El criterio de asignación proporcional. 2 W h Sh d2 + N (t(n−1. nh correspondientes a los estratos en que se divide la población. Se debe tener presente que el número de unidades de que consta el estrato influye en el tamaño de muestra. Algebraicamente el criterio está representado por: ni = o especificamente como: n1 = N1 N2 Nh n.α/2) )2 T h=1 Wh = Nh /N . . se asume que es igual o que no cambia entre estratos. . Los estratos más grandes requieren un tamaño de muestra mayor.3. en cuanto al costo por unidad. se tiene el tamaño de muestra total n. los estratos menos homogéneos.

cada problema es una nueva experiencia. Pero también podría tener el rango de salida de los datos y algunas frecuencias en categorías generales de la variable de interés o de alguna variable altamente correlacionada. ? ¿Cómo delimitar los estratos? ¿Se debe estratificar después de seleccionar la muestra? En ocasiones es una tarea sencilla debido a que los estratos están implícitos y se conoce el comportamiento con base en registros antiguos. porque muchas veces hasta el momento de diseñar la investigación se conocen los rangos de las estimaciones. por lo que a continuación se dan algunas ideas útiles. .4. pero ¿siempre es así? Definitivamente no. Sacamos por rangos la frecuencia de la variable de interés o en su defecto a una altamente correlacionada con ella y con estos resultados formamos una columna de datos. III . La selección de estratos En ocasiones es sencillo delimitar los elementos que corresponden a cada estrato. Este resultado es el ancho de la clase (AC). El muestreo aleatorio estratificado 4. . Elegimos el número de estratos que se desea obtener. II . AChi = h∗ AC. . Habrá que construirlos dado un interés particular. Se forman dos columnas más. Los pasos del método acumulativo de la raíz cuadrada de la frecuencia: I.Capítulo 4.. En estadística. ¿Con base en qué se delimitan los estratos? Una primera aproximación es el caso cuantitativo. 2. ¿Qué hago cuando. una constituida por la raíz de las frecuencias y otra por su raíz acumulada. En este caso podemos usar el sencillo "método acumulativo de la raíz cuadrada de la frecuencia".n y donde h representa el estrato h. Se divide la frecuencia acumulada final entre el número de estratos. Este trabajo puede resultar un poco complicado y tornarse desesperante en algunas ocasiones. VI . nuestra experiencia o simplemente en la naturaleza de los resultados que deseamos obtener. 72 . Se puede delimitar con las marcas de clase por estrato. eligiendo la raíz de la frecuencia acumulada más cercana a la marca de clase y así cada estrato estará formado por todas las clases de la variable original que correspondan a la marca de clase.. h = 1. la cual no necesariamente tiene una respuesta única y un razonamiento lógico para llegar a la solución más satisfactoria. IV . V. Se utiliza la siguiente ecuación.

.1612 plantas infectadas por parcela 780 b) Realice la estimación puntual del total de plantas infectadas.52) + (330)(73.57) + (180)(30. Los tamaños de los estratos son: N1 = 270. que en determinada etapa del cultivo se infectaron de alguna enfermedad. En Tecomán. .4. hay 780 parcelas sembradas con limón. + 46 + 64 = 54. . Considerando que el desarrollo de la enfermedad puede ser distinto de una variedad a otra.5 = = 57. El estimador de la media estratificada en este caso es.1: Estrato 1 (n1 = 21) 48 53 64 62 45 47 59 65 54 45 48 46 50 60 63 55 57 46 64 61 54 Plantas por hectárea infectadas Estrato 2 (n2 = 21) Estrato 3 (n3 = 21) 20 31 45 74 68 77 36 17 26 70 72 73 15 30 18 78 76 69 40 25 35 69 80 74 24 29 30 80 78 71 19 42 27 72 71 79 33 51 48 76 75 68 a) Realice la estimación puntual del promedio de plantas infectadas por hectárea. El estimador del total estratificado es: 73 . Colima.8095 y3 = ¯ 21 y1 = ¯ Por lo tanto: yestr = ¯ yestr ¯ (270)(54. Ejemplos Ejemplo 1. Suponga que para realizar las estimaciones se tomó una muestra de n = 63 parcelas.4.1. N2 = 180. + 79 + 68 = 73. De acuerdo con las condiciones ecológicas en la región se siembran tres variedades de limón. Se desea estimar el promedio de plantas por hectárea. N = N1 + N2 + N3 = 780. Cuadro 4. . + 27 + 48 y2 = ¯ = 30. yestr = ¯ N 1 y1 + N 2 y 2 + N 3 y 3 ¯ ¯ ¯ N donde: N1 = 270. N3 = 330. .5238 21 74 + 70 + 78 + . . N = 780 48 + 62 + 59 + . 581.1. Los datos se presentan en el cuadro 4. N2 = 180 y N3 = 330.5714 21 20 + 36 + 15 + . 780 44. la población de parcelas se estratificó en E = 3 estratos.80) .

52)2 2 = 107.1558 ± (1.7173 El promedio de plantas infectadas por hectárea en la población está entre 55. .5619 330 = 0.025 = 1. N3 = 330.6348 = 0.57)2 = 50.5943 y 58. n1 = n2 = n2 = n3 = 21. + 272 + 482 − (21)(30. 585.5943 ≤ µestr ≤ 58. N2 = 180.1612 ˆ Por lo tanto: τestr = (780)(57.736 plantas infectadas ˆ c) Calcule la varianza del promedio estratificado.5619 21 − 1 Por lo tanto: 2 Syestr ¯ Syestr ¯ 270 − 21 51. . .1612) = 44. El estimador de la varianza del promedio poblacional es: 2 2 N 1 − n1 N 2 − n2 N1 S1 N2 S2 + N N1 n1 N N2 n2 2 2 N3 N 3 − n3 S3 + N N3 n3 donde: N1 = 270. yestr = 57.7173. El muestreo aleatorio estratificado τestr = N yestr ˆ ˆ donde: N = 780 y yestr = 57. N = 780.7709 180 180 − 21 270 + = 780 270 21 780 180 2 330 − 21 15. .7967 ¯ 2 2 107. yestr ± Zα/2 Syestr ¯ ¯ donde:N = 780. . + 462 + 542 − (21)(54. 2 Syestr = ¯ 2 S1 = 2 2 482 + 622 + 592 + .Capítulo 4.2619 21 d) Estime por intervalo la media estratificada con una confiabilidad de 95 %. + 792 + 682 − (21)(73.96 ¯ Por lo tanto: 57.3571 21 − 1 202 + 362 + 152 + .4579 y Zα/2 = Z0. 74 .6348 + 780 √ 330 21 2 = Syestr = 0. .7967) 57.5551 55.96)(0.2619 S2 = 21 − 1 742 + 702 + 782 + .80)2 2 S3 = = 15.4579 ± 1.

7934 ¯ Por lo tanto: 44.025 = 1. f) Suponga que n = 63 es una muestra preliminar.1929 ± (780)(1.5619 6.96. Determine el tamaño de muestra para estimar la media con una precisión de ±3 % de la media estratificada y una confiabilidad de 95 %. 604.96)2 (48.4313 180 107. 581.2429 y 46.5839 780 48.3571 17.025 = 1.524.2409 ≤ τestr ≤ 46.7527 330 15.0449 El total de plantas infectadas por hectárea en la población está entre 43. Además.0449.978 43. N = 780.604.e) Halle por intervalo el total de plantas infectadas en la población con una confiabilidad del 95 % τestr ± N Zα/2 Syestr ˆ ¯ ˆ donde: τestr = 44.96 y Syestr = 0.7148 2 E N1 2 N2 2 N3 2 2 W h Sh = S + S + S = 48. 817. 817.03)(57. Zα/2 = Z0.96)2 (48.5550) 44.2619 24. d = (.7679) n= = 59 parcelas (muestra) (780)(1. 030.7679 donde: Z α = Z0.1611) = 1.7934) 44.7679) Asignación de la muestra en forma proporcional. asigne n a cada estrato en forma proporcional al tamaño del estrato.96)(0. 212.1929 ± 1.030.7679 N 1 N 2 N 3 h=1 Por lo tanto: (780)(1. 817. N1 n= N N2 n= n2 = N n1 = 270 (59) = 20 780 180 (59) = 14 780 75 .7146)2 + (1. E N (Zα/2 ) n= N d2 2 h=1 2 W h Sh E + (Zα/2 )2 h=1 2 W h Sh Estratos 1 2 3 Total 2 2 Ni Sh W h Sh 270 50.1929 ± (780)(1.

.05 de probabilidad de no incluir en el intervalo de estimación al total verdadero. es de 59 parcelas. segundo.96)2 (48. de acuerdo con el grado de estudios. Por tanto. 7 + 6 + 7 + . la población de N = 400 estudiantes que alberga la Facultad. Al suponer que podrían encontrarse diferencias según el grado de estudios: primero. Estrato 2 (segundo año): N2 = 100 alumnos. Determine el tamaño de muestra para estimar el total con una precisión de ±3 % del total estratificado y con una confiabilidad de 95 %. Estrato 3 (tercer año): N3 = 90 alumnos.1) a) Estime la media estratificada.3333.. y3 = ¯ 9 76 . N2 = 100. Es decir. asigne n a cada estrato en forma proporcional al tamaño. quedó estratificada de la siguiente manera: Estrato 1 (primer año): N1 = 120 alumnos..(A. 10 para el estrato 2. N3 = 90. + 3 + 4 = 3.. El muestreo aleatorio estratificado n3 = 330 N3 n= (59) = 25 N 780 g) Suponga que n =63 es una muestra preeliminar. Estrato 4 (cuarto año): N4 = 90 alumnos Se seleccionó una muestra de n = 40 alumnos: 12 para el estrato 1. tercero y cuarto año. se decidió usar el muestreo estratificado. De esta manera. la asignación proporcional es la misma. 14 en el estrato 2 y de 25 en el estrato 3.568 plantas y 0.96)2 (48.5556.7679 Por lo tanto: n= (780)2 (1. + 5 + 6 = 6. y2 = ¯ 10 3 + 3 + 3 + .628) = 1337.03)(44585. N = 400.Capítulo 4. Además. La Facultad de Telemática de la Universidad de Colima desea estimar el promedio y el total de faltas justificadas que tuvieron los alumnos en un año determinado. yestr = ¯ N 1 y1 + N 2 y 2 + N 3 y 3 + N 4 y 4 ¯ ¯ ¯ ¯ N donde: N1 = 120. + 6 + 6 = 5. E N (Zα/2 ) n= d2 + (Zα/2 2 2 h=1 E 2 ) 2 W h Sh 2 W h Sh E h=1 Aquí d = (0. la muestra a extraer de cada estrato será de 20 en el estrato 1.7679) De ahí que el número estimado de unidades muestrales (parcelas) que deben constituir la muestra con una precisión de ±1.568 y h=1 2 Wh Sh = 48. Ejemplo 2. 337.7679) = 59 (1337. y1 = ¯ 12 4 + 5 + 4 + .. N4 = 90. 9 para el estrato 3 y 9 para el estrato 4..568)2 + (780)(1.

S2 = 10 − 1 2 2 2 2 2 3 + 3 + 3 + .. . 9−1 Por lo tanto: 2 S ye = 120 120 − 12 1. .. N2 = 100.8889 100 10 90 − 9 1.2: Faltas justificadas Estrato 1 Estrato 2 Estrato 3 7 6 4 4 3 4 6 7 5 6 3 4 7 7 4 4 3 3 8 8 5 6 4 4 5 5 6 6 4 4 6 por año.00 = 4. N4 = 90. N3 = 90.8889. n3 = 9.3333)2 2 S1 = = 1. 77 . n4 = 9.2222.33) + (100)(5) + (90)(3.2728.02395 = 0. .675 faltas justificadas en promedio de todos = 400 b) Realice la estimación de la varianza y la desviación estándar de la media estratificada. . 2 Syestr = ¯ N1 N N3 + N 2 2 N 1 − n1 S1 N2 + N1 n1 N 2 2 N 3 − n3 S3 N4 + N3 n3 N 2 2 N 2 − n2 S2 N2 n2 2 2 N 4 − n4 S4 N4 n4 donde: N1 = 120. + 5 + 2 = 3. + 52 + 62 − (12)(6. 9−1 2 2 2 2 2 2 3 + 2 + 3 + . + 3 + 4 − (9)(3.2728 90 90 + + 400 90 400 √9 2 Syestr = Syestr = 0. . .5556)2 2 S3 = = 0. + 5 + 2 − (9)(3.2222) 2 S4 = = 1.5152 100 + 400 120 12 400 2 2 90 − 9 0.1547 2 2 100 − 10 0.02395 90 9 c) Calcule el total estratificado.22) 400 1870. N = 400.5152. . n1 = 12.55) + (90)(3. 9 Por lo tanto: yestr = ¯ yestr ¯ los grados. 12 − 1 2 2 2 2 2 2 4 + 5 + 4 + .4444 = 0. Estrato 4 3 3 2 2 3 5 4 2 5 y4 = ¯ 3 + 2 + 3 + .Cuadro 4. n2 = 10. (120)(6. 72 + 62 + 72 + . .4444. + 6 + 6 − (10)(5) 2 = 0.

e) Cuantifique por intervalo el total estratificado con una confiabilidad de 95 %. Syestr = 0. 991.991.3179 Esto quiere decir que total de plantas infectadas por hectárea está entre 1.6821 y 1.3201 1.1547) 1. τestr ± N Zα/2 Syestr ˆ ¯ donde: τestr = 1870.1547) 4. 870 ± 121. distribuya n entre los estratos en forma proporcional al tamaño del estrato.96)(0.9783 Esto significa que el promedio de fallas justificadas está entre 4.675 ¯ Zα/2 = Z0. 748.3201 1. Zα/2 = Z0. N = 780.3033) 1.675 ± (1.675) = 1870 faltas justificadas ˆ d) Halle el intervalo para la media estratificada con una confiabilidad de 95 %. 78 .675 ¯ Por lo tanto: τestr = (400)(4. El muestreo aleatorio estratificado yestr = N yestr ˆ ¯ donde:N = 400 y yestr = 4.96 Por lo tanto: 4. yestr = 4.1547 ˆ ¯ Por lo tanto: 1.748.3717 ≤ µestr ≤ 4. 870 ± 121. f) Suponga que n = 40 es una muestra preliminar.025 = 1.Capítulo 4.30330025 4.675 ± 0. 870 ± (400)(1.3179.96. yestr ± Zα/2 Syestr ¯ ¯ donde: N = 400.3717 y 4.6821 ≤ τestr ≤ 1. 870 ≤ (400)(0. ¿Cuál es el tamaño de muestra para estimar la media con una precisión de 5 % de la media estratificada y una confiabilidad de 95 %? Además.9783.025 = 1.96)(0.

96)2 (1.2222 3 90 0.0353 alumnos (unidades (93.0625 4 90 1.96)2 (1.0643) Asignación de la muestra en forma proporcional. d = (0.4545 2 100 0.7588 ≈ 16 400 90 (64) = 14. E N (Zα/2 ) n= 2 2 2 W h Sh h=1 E 2 ) d2 + N (Zα/2 2 W h Sh h=1 E Aquí d = (0.1829526 ≈ 14 400 90 (64) = 14.0643)) 79 .3250 Total 400 1.05)(4.0643 donde: Zα/2 = Z0.4444 0.96)2 (1.1829526 ≈ 15 400 g) Suponga que n = 40 es una muestra preliminar.0643) = 63.0643) = 63.23375.9106 ≈ 19 400 100 (64) = 15.675)(400) = 93.0643 Por lo tanto: n = muestrales) (400)2 (1.5)2 + (400)(1.96.8889 0.96)2 (1.2778 0.05)(4. E 2 W h Sh = h=1 N1 2 N2 2 N3 2 S + S + S N 1 N 2 N 3 Por lo tanto: n= (400)(1. asigne n a cada estrato en forma proporcional al tamaño.E N (Zα/2 )2 n= h=1 2 W h Sh E 2 W h Sh h=1 N d2 + Zα/2 2 2 2 Estratos Ni Sh W h Sh 1 120 1.2337)2 + (1. Determine el tamaño de muestra para estimar el total con una precisión de 5 % del total estratificado y una confiabilidad de 95 %.5 y h=1 2 Wh Sh =1. Además.5152 0.025 = 1. n1 = N1 n= N N2 n2 = n= N N3 n3 = n= N N4 n= n4 = N 120 (64) = 18.675) = 0.05353 alumnos (muestra) (400)(0.

N2 = 1. 14 en el estrato 3 y 15 en el estrato 4.3: El ingreso promedio mensual (miles de pesos) de las familias chiapanecas. centro y altos) y entre ellos existen diferencias marcadas respecto al ingreso.5 14 Por lo tanto: yestr = ¯ (2000)(11. 16 en el estrato 2 . Por otro lado. para realizar el estudio se estratificó al estado en k = 3 estratos: Estrato 1 (Zona costa): N = 2. el estado tiene 3 zonas geográficas bien definidas (costa. por ello. 000. Estrato 1 Estrato 2 Estrato 3 10 12 8 8 4 3 11 12 8 3 3 12 13 8 2 4 10 14 7 4 4 9 11 6 3 8 9 5 13 9 4 14 8 3 9 9 5 8 9 2 a) Realice la estimación puntual de la muestra estratificada.Capítulo 4. 11 para el estrato 2 y 14 para el estrato 3 (Cuadro 4. . N3 = 2. + 14 + 11 = 11. + 4 + 4 y3 = ¯ = 3..000. .0667 15 8 + 8 + 8 + . Ejemplo 3. 000 y1 = ¯ 10 + 11 + 12 + ... + 9 + 8 = 8.3). El muestreo aleatorio estratificado Nótese que la asignación proporcional es la misma. 500 Para las estimaciones se tomó una muestra preliminar de n = 40 familias: 15 para el estrato 1.50)) 6000 80 .0909 y2 = ¯ 11 4 + 3 + 2 + . 500 y Estrato 3 (Zona altos): N = 2.. la muestra a extraer de cada estrato será de 19 en el estrato 1. es decir.0909) + (2500(3. Estrato 2 (Zona centro): N = 1. 500. El gobierno del estado de Chiapas desea estimar el ingreso promedio mensual (miles de pesos) de las familias chiapanecas. Supóngase que el total de familias es de 6. yestr = ¯ N 1 y1 + N 2 y 2 + N 3 y 3 ¯ ¯ ¯ N donde: N1 = 2. 500.0667) + (1500)(8. Cuadro 4. 000. N = 6.

96 ¯ 2 Por lo tanto: 7.8846 S3 = 14 − 1 2000 2000 − 15 4. 019.06 1500 1500 − 11 = + 6000 2000 15 6000 1500 2 2500 − 14 0. N2 = 1.04583 + 6000 √ 2500 14 2 = Syestr = 0. 000. + 142 + 112 − (15)(11.96)(0.750375 ≤ µestr ≤ 7.1699 ± (1.4 (total de ingresos mensuales) ˆ c) Calcule la varianza y la desviación estándar del promedio estratificado. . 000. yestr ± Z α Syestr ¯ ¯ 2 donde: N = 6.1699) = 43.4196 6.0909)2 2 = 0. Z α = Z0.0667)2 = 4.8909 S2 = 11 − 1 42 + 32 + 22 + . 000)(7. n2 = 11. . . 000. .025 = 1.yestr = ¯ 43019. N = 6. yestr = 7. 2 Syestr = ¯ 2 N1 N 1 − n1 S1 + N N1 n1 2 S3 N 3 − n3 N3 + N N3 n3 N2 N N 2 − n2 N2 2 S2 n1 donde: N1 = 2.2141 ¯ 2 2 0. 500. + 92 + 82 − (11)(8. .1699 ¯ Por lo tanto: τestr = (6.1699. N3 = 2. . + 42 + 42 − (14)(3.1699 miles de pesos mensuales (promedio) 6000 b) Realice la estimación puntual del total estratificado. 000 y yestr = 7.6970 = 7. n3 = 14 2 S1 = Por lo tanto: Syestr ¯ 102 + 112 + 122 + .589541 81 .50)2 2 = 0. n1 = 15.04583 = 0. 500.8846 2500 = 0.0667 15 − 1 82 + 92 + 82 + .2140) 7. El estimador del total estratificado es: τestr = N yestr ˆ ¯ donde: N = 6.1699 ± 0.8909 11 Syestr ¯ d) Realice la estimación por intervalo de la media estratificada con una confiabilidad de 95 %.

1446 ≤ τestr ≤ 45.96)2 (1. 517. 019.8846 0.96)(0.96.2141) 43. Z α = Z0.6970 ± (6000)(1.025 = 1.2227 2. Además.6970 ± 2.Capítulo 4.96)2 (1.9469) Asignación de la muestra en forma proporcional 82 . N = 6. d = (. asigne n a cada estrato en forma proporcional al tamaño del estrato.9469 donde: Z α = Z0.3686 6.025 = 1. τestr ± N Z α Syestr ˆ ¯ 2 donde: τestr = 43019.000 4.9469) = 57.2493.502.9469 N 1 N 2 N 3 Por lo tanto: n= (6000)(1.537.6970.500 0.066 1.1496 y 45.6970 ± (6000)(0. f) Supóngase que n = 40 es una muestra preliminar.3585 2 E 2 W h Sh = h=1 N1 2 N2 2 N3 2 S + S + S = 1.2141 ˆ ¯ 2 Por lo tanto: 43. Determine el tamaño de muestra para estimar la media con una precisión de 5 % de la media estratificada y una confiabilidad de 95 %. 502.500 0. 537. e) Realice la estimación por intervalo del total estratificado con una confiabilidad de 95 %.750375 y 7.4195) 43.5985 40.1699) = 0.05)(7. El muestreo aleatorio estratificado Esto significa que el ingreso promedio de las familias en la población está entre 6. Syestr = 0.96. 019.2493 De ahí que el total de ingresos mensuales en las familias chiapanecas esté entre 40.3585)2 + (1.6349 familia (muestra) (6000)(0.8909 0.3556 1. 000.589541. 019. E N (Z ) α 2 2 h=1 2 W h Sh E n= N d2 + (Z α 2 )2 h=1 2 W h Sh Estratos 1 2 3 Total 2 2 Ni Sh W h Sh 2.000 1.

es decir.2116 6000 1500 (57. Estrato 2 (Clase media): N = 1600 familias y Estrato 3 (Clase alta): N = 600 familias La distribución de la muestra de tamaño n = 30 familias fue de 10 para el estrato 1.6349 familias (2.96)2 (1. + 9 + 10 y1 = ¯ = 7. 7 + 6 + 6 + .9849 y Por lo tanto: (6.000)(1. media y alta. + 6 + 6 = 6.6349) = 19. 000. asigne n a cada estrato en forma proporcional al tamaño. se sabe que en el estado existen tres estratos sociales bien definidos: clase baja. y2 = ¯ 15 83 .6349) = 14. yestr = ¯ ¯ ¯ ¯ N 1 y1 + N 2 y 2 + N 3 y 3 N donde: N1 = 1. 10 5 + 6 + 7 + . N3 = 600.0145 6000 g) Suponga que n = 40 es una muestra preliminar. 600. la población se dividió en k = 3 estratos. entonces se tiene la misma asignación en cada estrato.. Considerando que el número de horas de ver televisión puede ser distinto de estrato a estrato.. N2 = 1. K N Zα 2 n= d2 + N Z α 2 2 W i Si i=1 K Wi Si2 i=1 E 2 Wh Sh =1.4087 6000 2500 (57. la muestra a extraer de cada estrato será de 19 en el estrato 1.4969 h=1 donde: d = (0. .9469) (unidades muestrales) n= Dado que el tamaño de muestra es el mismo. Se desea estimar el número de horas promedio por día que cada familia ve televisión. N = 3.60.96)2 (1. los cuales son: Estrato 1 (Clase baja): N = 1000 familias. 200. Determine el tamaño de muestra definitivo para estimar el total con una precisión de 5 % del total estratificado y una confiabilidad de 95 %.9469) = 57.05)(43019. 15 para el estrato 2 y 5 para el estrato 3 (cuadro 4.200 familias.9849)2 + (6.000)2 (1. Además. En el estado de Colima hay N = 3. .4). Ejemplo 4.6349) = 24. Sin embargo.n1 = N1 n= N N2 n2 = n= N N3 n= n3 = N 2000 (57. a) Realice la estimación puntual de la muestra estratificada. 150.69670) = 2150. 15 en el estrato 2 y 24 en el estrato 3.

n2 = 15. τestr = N yestr ˆ ¯ donde: N = 3200 y yestr = 6..60 10 − 1 2 52 + 62 + 72 + . N3 = 600. 2 N1 N 1 − n1 N 2 − n2 S1 N2 = + N N1 n1 N N2 2 2 S3 N 3 − n3 N3 + N N3 n3 donde: N1 = 1.125 ¯ Por lo tanto: τestr = (3200)(6. + 62 + 62 − (15) (6) 2 S2 = = 1.60)2 2 S1 = = 1. + 92 + 102 − (10) (7.125 horas diarias en promedio = 3200 Por lo tanto: b) Calcule el total estratificado.00) 3200 19600 = 6. . El muestreo aleatorio estratificado Cuadro 4.1421 15 − 1 42 + 32 + 42 + 52 + 42 − (5) (4)2 2 S3 = = 0. N2 = 1. n3 = 5.Capítulo 4. + 5 + 4 =4 5 yestr = ¯ yestr ¯ (1000)(7. . .4: El número de Estrato 1(n1 = 10) 7 8 6 7 6 8 7 9 8 10 horas diarias que cada familia ve televisión Estrato 2(n2 = 15) Estrato 3(n3 = 5) 5 5 4 4 6 5 7 3 7 6 8 4 5 6 6 5 7 7 6 4 y3 = ¯ 4 + 3 + 4 + . N = 3. 000.60) + (1600)(6) + (600)(4. 600.50 5−1 2 Syestr ¯ 2 2 2 S2 n2 Por lo tanto: 84 .125) = 19.. 72 + 62 + 62 + . 600 horas totales por día ˆ c) Calcule la varianza y la desviación estándar del promedio estratificado. . 200 n1 = 10.

0378 d) Halle por intervalo de la media estratificada con una confiabilidad de 95 %.96 y Syestr = 0.600±(3. asigne n a cada estrato en forma proporcional al tamaño de cada estrato.872. f) Suponga que n = 30 es una muestra preliminar.2 Syestr Syestr 1000 1000 − 10 1.1521≤ τestr ≤20. 600. Zα/2 = Z0. N = 3.600±1.96)(0. Además.60 = 3200 1000 10 2 600 − 5 0.1945) 19.1945 ˆ Por lo tanto: 19.522764.96 Por lo tanto: 6. yestr = 6. τestr ± N Zα/2 Syestr ˆ ¯ donde: τestr = 19.522764 Esto significa que el promedio de horas por día que las familias de Colima ven televisión está entre 5.200)(1.1521 y 20.72723 y 6. 200.327.96)(0.600±(3. Determine el tamaño de muestra para estimar la media con una precisión de 5 % de la media estratificada y una confiabilidad de 95 %.3978) 19. yestr ± Zα/2 Syestr ¯ ¯ ¯ donde: N = 3. 200.025 = 1. el total de horas por día que las familias de Colima ven televisión está entre 18. e) Estime el intervalo del total estratificado con una confiabilidad de 95 %.125 ± 0.8479.50 600 + 3200 √ 600 5 = Syestr = 0.1945) 6.200)(0.8479 Entonces.72723 ≤ µestr ≤ 6. E N (Zα/2 ) n= N d2 donde: 2 h=1 2 W h Sh E + (Zα/2 )2 h=1 2 W h Sh 85 .327.0378 = 0.38122 5.125 ± (1.96 18.125 y Zα/2 = Z0.1945 2 + 1600 3200 2 1500 − 15 1600 1.872.1421 15 = 0.2025 = 1.272.

1429 0. es decir. 26 en el estrato 2 y 10 en el estrato 3.05)(419.96)2 (1. La asignación proporcional es la misma.05)(6.5714 600 0.60 0.0025 = 1. d = (.600 1.200 1.05 de probabilidad de no incluir en el intervalo de estimación al total verdadero es de 52 familias.30125)2 + (1.1652 E Zα/2 = Z0.1652 h=1 + NZα 2 donde: d = (0.30625 y 1.96)2 (1. 86 .0938 3.50 1.96)2 (1. Además.000 1.1985) = 52 (980)2 + (3200)(1. E n= N Zα 2 d2 2 2 W h Sh h=1 E 2 W h Sh h=1 E 2 Wh Sh =1. la muestra de cada estrato será 16 en el estrato 1. El muestreo aleatorio estratificado Estratos 1 2 3 Total 2 2 Ni Sh W h Sh 1.50 0.125) = 0.1652 Por lo tanto: n= trales) h=1 2 W h Sh = N1 2 N2 2 N3 2 S + S + S = N 1 N 2 N 3 (3200)(1.Capítulo 4. Determine el tamaño de muestra definitivo para estimar el total con una precisión de 5 % del total estratificado y con una confiabilidad de 95 %.96)2 (1.1985) El número estimado de unidades muestrales (familias) de la muestra para tener una precisión de ± 980 horas y 0.1945) = 52 familias (unidades mues(3200)(0.96. 600) = 980 y por lo tanto: n= (3200)2 (1. realizar la asignación de n a cada estrato en forma proporcional al tamaño.1945) Asignación de la muestra en forma proporcional N1 n= N N2 n= n2 = N N3 n3 = n= N n1 = 1000 (52) = 16 3200 1500 (52) = 26 3200 600 (52) = 10 3200 g) Suponga que n = 30 es una muestra preliminar.

600 2. y N3 = 3. cabe mencionar que egresan 3 carreras: Lic. Ejercicios En los ejercicios siguientes estime: a) El IC para la media y el total con una confiabilidad de 95 %. Preurbana Urbana Posturbana 350 920 1.6. 000 a la zona post-urbana. Cabe mencionar que este estudio se realizó en las 4 estaciones del año 2004 pero aquí presentamos solamente los resultados de primavera . de agua. y n3 = 3 metros para la zona post-urbana. Un investigador de la Facultad de Medicina de la U de C desea estimar el daño promedio de tres cepas causantes de la enfermedad de chagas.600 2. n2 = 5 (primaria) n3 = 8 (secundaria). en educación secundaria.600 2.5. Para el estudio se tomó una muestra de n = 15 metros distribuidos de la siguiente manera n1 = 4 metros para la zona Pre-urbana. Para realizar el estudio se realizó una muestra de n = 16 estudiantes. 000 metros pertenecen a la zona preurbana. 350 la cepa 2 87 .400 2. La QFB Patricia Edgwigis Valladares Celis. La población de egresados para el 2007 es de N1 = 30 de educación preescolar. Lic. distribuidos de la siguiente forma: n1 = 3 (preescolar). como bioindicadores de contaminación en el río Colima. n2 = 8 metros para la zona urbana. en educación primaria y Lic.5: Resultado del número más probable de coliformes fecales por 100 ml. con el objetivo de estimar el número de coliformes fecales. La Secretaría de educación (SEP) desea estimar el promedio de calificaciones de los egresados de la Normal Superior ”Gregorio Torres Quintero” del estado de Colima. 000 corresponden a la zona urbana. N2 = 8.600 920 1. 000 metros. cuya longitud es de N = 15. Cuadro 4. Los datos se presentan en el Cuadro 4.4. ¿Cuál es el tamaño de muestra para estimar la media y el total de tal manera que sean estimados con una precisión de 5 % de la media y el total preliminar con una confiabilidad de 95 %? Ejercicio 1. supóngase que 300 ratones tienen la cepa 1. N2 = 46 de educación primaria y N3 = 80 de educación secundaria.600 240 920 2.5. Ejemplo 3.400 1. de los cuales N1 = 4. Los resultados se presentan en el Cuadro 4. Por lo tanto.400 1.400 1.400 Ejercicio 2. b) Suponga que la muestra en cada ejercicio es una muestra preliminar. en educación preescolar.

7: Daño promedio a corazoón de las tres sepas en porcentaje. 7. Supóngase que la población tiene: de la variedad 1. Dado que existen 3 variedades diseña un esquema de muestreo estratificado. Defínase 88 . nuestro interés radicará en saber cómo se manifiesta la característica C en cada uno de los estratos.8).9 10.000 plantas.5 9.7 8. toma una muestra de n = 44 distribuida de la siguiente manera: n1 = 10 (variedad 1).9 8. 10. como se espera que el daño varie dependiendo de la cepa.6. Así.7. en otras palabras. de la 2.000. La estimación de la proporción poblacional Suponga que surge la necesidad de estimar la proporción de unidades muestrales que poseen un cierto atributo. Además.7 9. se toma una muestra estratificada de tamaño n = 50 de la población.0 9. 500 plantas.3 9.8 9.8 8. El muestreo aleatorio estratificado Cuadro 4.5 7.Capítulo 4. Cuadro 4.0 9. y de la variedad 3. 4. Cepa 1 Cepa 2 Cepa 1 (n1 = 15) (n2 = 17) (n3 = 18) 25 26 28 28 29 29 23 24 27 26 31 32 22 23 29 28 31 33 22 22 28 29 32 31 23 23 27 28 33 33 25 24 28 27 32 33 26 26 29 29 32 32 25 28 29 32 33 28 33 31 Ejemplo 4.2 8. n2 = 20 (variedad 2) y n3 = 14 (variedad 3).3 8.0 9. Ver Cuadro 4. En tal caso nos importa saber la proporción (ph ) de unidades muestrales que tienen la característica C en el estrato h. Ver Cuadro (4.7 8. Un agrónomo desea estimar el promedio de taninos que tienen los nances en el estado de Colima.0 y 350 la cepa 3.6: Calificaciones de los egresados de la Normal Superior Preescolar Primaria Secundaria 9.

6. Variedad 1 Variedad 2 Variedad 1 (n1 = 10) (n2 = 20) (n3 = 14) 04 06 06 04 07 05 05 05 05 07 04 07 06 05 07 03 06 05 04 06 05 05 06 06 05 05 07 07 04 06 05 07 03 06 05 06 02 05 05 05 05 05 07 04 yh. 4. Esta variable se comporta como una variable aleatoria del tipo binomial. + NE pE ) N E 1 Nh p h = N h=1 E τst = (N1 p1 + .8: Porcentaje de tanino por kg. De tal manera h=1 Nh ph es un buen estimador del total poblacional que cuenta con la característica C (Pérez. El estimador de la proporción y total poblacional pst = 1 (N1 p1 + .1. 1987 [2]).i = 1 éxito 0 fracaso que representa al i-ésimo componente del h-ésimo estrato. El éxito consiste en tener la característica C. la proporción de unidades muestrales que tienen la característica C (Scheaffer. + NE pE ) ˆ = h=1 Nh ph = N pst 89 . por lo que el estimador de la proporción de la característica de interés para el estrato h es: nh yh..... N ∗ ph también es un estimador insesgado del total en el estrato h que E cuentan con la característica C. De la misma manera.i ph = nh i=1 Y su varianza correspondiente es. 2 S ph = N h − nh Nh ph (1 − ph ) nh Obsérvese que ph es un estimador insesgado de Ph . 2000 [3]).Cuadro 4. de nance.

Nh Wh = N dM = el tamaño del error que se desea aceptar en la estimación de la media El tamaño de muestra para estimar el total estratificado 90 2 E Wh p h qh h=1 E + (t(n−1. El muestreo aleatorio estratificado El estimador de la varianza de la proporción y total poblacional 2 S ph = 2 Sτst ˆ 1 2 2 (N 2 S 2 + .α/2) )2 i=1 Wh p h qh .. construimos un intervalo que tiene la siguiente ecuación: 1 N2 E 2 Nh h=1 pst ± t(n−1. se procede de manera análoga a la determinación vista en el apartado anterior.α/2) ˆ N h − nh N p h qh nh τ ± N t(n−1.. Los intervalos de confianza para la proporción y total poblacional De forma tradicional.α/2) ˆ 1 N2 E 2 Nh h=1 N h − nh N p h qh nh 4. Se utiliza una mo2 dificación de la ecuación (4. + NE SpE ) E 2 2 Nh Sph (total.2.6) sustituyendo la estimación de la varianza σh por la varianza de la proporción estimada.Capítulo 4. que es ph qh .3.3. + NE SpE ) N 2 1 p1 E 1 2 2 = Nh Sph (proporción) 2 N h=1 2 2 2 2 = (N1 Sp1 + .α/2) n= N d2 M donde.) h=1 = 4. El tamaño de muestra para estimar la proporción estratificada En cuanto a la determinación del tamaño de muestra.6. El tamaño de muestra para estimar la proporción estratificada N t(n−1...6.

4. 2. nh = n. Esto es. 000 personas mayores de 60 años. algebraicamente el criterio está representado por: ni = o especificamente como: n1 = N1 N2 Nh n.6. Asignación de la muestra El criterio de asignación proporcional. N i = 1.5. N2 = 2. N1 = 2. 400 son hombres. 40 resultaron positivas en la prueba de la glucosa (padecen diabetes) y de los hombres. Ejemplos Ejemplo 1. la asignación de n entre los estratos es proporcional al tamaño de cada estrato. En el estado de Colima hay N = 5. N N N Nh n = Wh n. n2 = n. pst = n1 1 (N1 p1 + N2 p2 ) N donde: N = 5. . de las cuales N1 = 2. De las mujeres. . esto es.6. 600 son mujeres y N2 = 2. . .327731. p1 = i=1 n1 = 40 = 0. considera como tamaño de muestra de cada estrato una parte de n. . la cual será proporcional al tamaño del estrato. es decir.α/2) ) n= d2 T 2 2 h=1 Wh p h qh E + N (t(n−1. 400. 600. 50.α/2) )2 i=1 Wh p h qh Nh Wh = N dT = el tamaño del error que se desea aceptar en la estimación del total 4. . a) Estime la proporción estratificada. 120 91 . 000.E N (t(n−1. . Con la finalidad de estimar el porcentaje y el total de personas que padecen diabetes se tomó una muestra aleatoria de n = 220. . h.4. suponiendo que ya se ha calculado el tamaño de la muestra n requerido. De esta muestra n1 = 120 son mujeres y n2 = 100 son hombres. se estratificó a la población porque se sospecha que el padecimiento de la enfermedad es influido por el género. Nótese que a los estratos más grandes les corresponderá un tamaño de muestra mayor.

4133 ó 41.001767. S p1 = N1 n1 2600 120 p 2 q2 2400 − 100 (0.0017663) + (2400)2 (0. El muestreo aleatorio estratificado n2 p2 = i=1 n2 = 50 = 0.0321 Por lo tanto: 92 .Capítulo 4. 400.645 y Sp = 0.3333) + 2400(0.3333)(0.5. p2 = 0.33 % de enpst = 5000 5000 fermos con diabetes pst = b) Halle el total estratificado τ = N pst ˆ donde: N = 5.327731.0321 = 0. tα/2.6667 + 1200) = = 0.5)) 5000 2066.6667) N 1 − n1 2 = = 0. pst ± tα/2.002396)) 50002 √ 0. 006.4133) = 2.05 = 1. N2 = 2. p1 = 0. 000 y pst = 0.5 100 Por lo tanto: 1 (2600(0.n−1 = Zα/2 = Z0.n−1 Sph donde: pst = 0. 600.4133 Por lo tanto: τ = (5000)(0.4133.001030 Sp = 2 Sp = d) Calcular un IC para la proporción estratificada con una confianza de 90 %.5)(0.6667 1 (866.002396 S p2 = N2 n2 2400 100 Por lo tanto: 2 S ph = 1 ((2600)2 (0.001030 = 0. N1 = 2.6667 personas con diabetes ˆ c) Calcule la varianza y la desviación estándar de la proporción estratificada.5) N 2 − n2 2 = = 0. 2 S ph = 1 2 2 (N 2 S 2 + N2 Sp2 ) N 2 1 p1 donde: N = 5. p 1 q1 2600 − 120 (0. 000.

5 0.330.1156 2 2.n−1 = Zα/2 = Z0.645 y Sp = 0. e) Realice una estimación por intervalo para el total estratificado.645)(0.6667± (5000)(0. Determine el tamaño de muestra para estimar la media con una precisión de 0.2356) 3. 186.05 y una confiabilidad de 90 %.331715 ≤ τst ≤ 2.627542 Esto significa que el total de personas que padecen diabetes está entre 1.3333 0.7676 y 2.05) 13.4133± 0.12 Total 5.802.2356 N N Por lo tanto: n= (5000)(1. realice la asignación de n a cada estrato en forma proporcional al tamaño del estrato.4609255 La proporción verdadera de personas que padece diabetes está entre 35.0528 0. 775. τ ± N tα/2.000.4133± (1.2356) (5000)(0.400 0. tα/2.6667± 264 1.09 %.05.5657. E N (Zα/2 )2 n= h=1 p h qh E N d2 + (Zα/2 )2 h=1 p h qh Estratos Nh ph qh Wh p h qh 1 2.0528) 2006.0321) 2006.6667± (5000)(1.600 0. f) Suponga que n = 220 es una muestra preliminar. Además.645)(0.355066 ≤ P ≤ 0.645)2 (0.645)2 (0.1373 La asignación de la muestra en forma proporcional n1 = 2600 N1 n= (242) = 126 N 5000 93 .05 = 1.000 0. 304.50 y 46. d = 0.6667. N = 5. h=1 2 W h Sh = N1 N2 p 1 q1 + p2 q2 = 0.n−1 Sps t ˆ donde: τ = 2006.645.0321 ˆ Por lo tanto: 2006.0321) 0.6667 0.2356 E donde: Zα/2 = Z0.5 0.0.3344 = = 242 personas 2 + (1.05 = 1.

En la muestra de la línea uno (n1 ) se encontraron 4 defectuosos. debido a que las líneas de producción no son idénticas y se sospecha que el número de artículos defectuosos por líneas son diferentes. 3. en la muestra de la línea dos. se tomó una muestra aleatoria de n = 150 artículos distribuidos de la siguiente manera: n1 = 50 de la línea uno.2356) = 242 personas (100. a) Realice la estimación de la proporción estratificada. 50 p2 = i=1 n2 = 3 8 = 0.1) + 2500(0. Además.1142)) 6000 94 .2356) La asignación proporcional es la misma que en f).2356 Por lo tanto: n= (5000)2 (1. E N (Zα/2 ) n= 2 2 h=1 Wh p h qh d2 + N (Zα/2 )2 E d = (0. N3 = 2. La producción total por hora es de N = 6. Con la finalidad de estimar el porcentaje y total de artículos defectuosos producidos por hora. N2 = 1. pst = 1 (N1 p1 + N2 p2 + N3 p3 ) N n1 donde: N = 6. haga la asignación de n a cada estrato en forma proporcional al tamaño. N1 = 2.1143 30 n3 70 Por lo tanto: pst = 1 (2000(0. 006. 500. p1 = n2 n3 i=1 n1 = 4 = 0.645)2 (0.05)(2.08) + 1500(0.667) = 100. 000. El muestreo aleatorio estratificado n2 = 2400 N2 n= (242) = 116 N 5000 g) Suponga que n = 220 es una muestra preliminar.Capítulo 4.645)2 (0. Una empresa que produce artículos electrónicos tiene tres líneas de producción. 000 artículos por hora.3333)2 + (5000)(1. 500 artículos por hora. 000. Ejemplo 2. 500. n2 = 30 de la línea dos y n3 = 70 de la línea tres.1. La línea uno produce N1 = 2. Determine el tamaño de muestra para estimar la proporción con una precisión de 100. al estrato uno 126 y al estrato dos 116.3333 y una confiabilidad de 95 %. 000. y en la línea tres hubo 8 defectuosos. la dos N2 = 1. 500 artículos por hora y la tres produce N3 = 2.3333 y h=1 Wh ph qh =0.08. p3 = i=1 = = 0.

N 1 − n1 p 1 q1 2 S p1 = N1 n1 p 2 q2 N 2 − n2 2 S p2 = N2 n2 p 3 q3 N 3 − n3 2 S p3 = N3 n3 Por lo tanto: 2 S ph = 1 ((2000)2 (0.8857) = 0. 30 (0.8 articulos defectuosos por hora ˆ c) Calcule la varianza y la desviación estándar de la proporción estratificada.n−1 = Zα/2 = Z0.0992± (1. pst = 0. 2 S ph = 1 2 2 2 2 2 2 (N1 Sp1 + N2 Sp2 + N3 Sp3 ) 2 N = 2.1.645)(0.0014) + (1500)2 (0.92) = 0.0993.0992± 0.1143)(0.7142) = = 0.0242) 0.645. p1 = 0.0594≤ P ≤ 0. 000.0014 70 donde: N = 6. Sp = 0.0993) = 595. N1 p3 = 0. τ = N pst ˆ donde: N = 6. 50 (0.0029.9) = 0.1143. 500.000579 S ph = 2 Sp = 0.0993 por lo tanto: τ = (6000)(0.n−1 Sph donde: pst = 0.1 595. pst ± tα/2.08.08)(0.1)(0.0992 ó 9.0014)) 2 6000 √ = 0.0029) + (2500)2 (0.7142 pst = (160 + 150 + 285. N3 = 2. tα/2.0240 d) Calcular un IC para la proporción estratificada con una confianza de 90 %.000579 = 0.039809 0. = = = 2000 − 50 2000 1500 − 30 1500 2500 − 70 2500 (0. 000.1390 95 . 500.05 = 1.92 % 6000 6000 articulos producidos por hora b) Realice la estimación del total poblacional. N2 = 1. p2 = 0. 000.0242 Por lo tanto: 0.0014.

68.1143 0. Determine el tamaño de muestra para estimar la media con una precisión de 0.8. τ ± N tα/2.024) 595. f) Suponga que n=150 es una muestra preliminar.0245 1.05 = 1. Por lo tanto: N1 N2 N3 p 1 q1 + p 2 q2 + p3 q3 = 0.500 0.0892 E 2 W h Sh = h=1 donde: Zα/2 = Z0. 000.99 0.05) 15.8± (6000)(1.0892) = = 96 artículos 2 + (1. d = 0.92 y 832.8± 236.1 0.03948) 595.Capítulo 4.88 356.000 0.645)(0.4302 (6000)(1. E N (Zα/2 ) n= N d2 2 h=1 p h qh E + (Zα/2 )2 h=1 p h qh Estratos 1 2 3 Total Nh ph qh Wh p h qh 2.645)2 (0. N = 6.8857 0. Además.0892 N N N 1.05.n−1 = Zα/2 = Z0.05 y con una confiabilidad de 90 %.0422 6. asigne n a cada estrato en forma proporcional al tamaño del estrato.8± (6000)(0.94 y 13.2413 electrónicos (muestra) n = La asignación de la muestra en forma proporcional N1 n= N N2 n= n2 = N n1 = 2000 (96) = 32 6000 1500 (96) = 24 6000 96 .92 0.645)2 (0.645.8730 El total de artículos electrónicos defectuosos que se producen por hora está entre 358.555 ≤ τst ≤ 834. e) Realice una estimación por intervalo del total poblacional. 448.500 0.0892) (6000)(0.9 por ciento. El muestreo aleatorio estratificado La proporción verdadera de artículos electrónicos defectuosos que se producen por hora está entre 5.0225 2.n−1 Sps t ˆ ˆ donde: τ = 595.000 0. tα/2.0242 Por lo tanto: 595.645.05 = 1.08 0. Sp = 0.

n3 =

2500 N3 n= (96) = 40 N 6000

g) Suponga que n=150 es una muestra preliminar. Determine el tamaño de muestra para estimar la proporción con una precisión de ±300 y con una confiabilidad de 90 %. Además, distribuya n entre los estratos en forma proporcional al tamaño.
E

N (Zα/2 ) n= d2

2

2 h=1

Wh p h qh

+ N (Zα/2 )2
E

aquí d = (0.05)(6000) = 300 y
h=1

Wh ph qh = 0.0892

(6000)2 (1.645)2 (0.0892) n= = 95.0325 (300)2 + (6000)(1.645)2 (0.0892) La asignación proporcional es la misma que en el inciso anterior. Ejemplo 3. La Secretaría de Educación Pública del estado de Colima desea conocer el porcentaje y el total de personas que ven telenovelas. Suponga que la población de individuos en el estado es de N =10,000, de los cuales 30 % son niños (estrato 1), 50 % son jóvenes (estrato 2) y el resto son adultos (estrato 3). Se estratificó a la población de esa forma ya que los hábitos televisivos son muy diferentes entre niños, jóvenes y adultos. Para estimar el porcentaje y total de personas que ve telenovelas se tomó una muestra aleatoria de n=300 individuos distribuidos de la siguiente manera: n1 =90 del estrato uno, n2 =150 del estrato dos y n3 =60 del estrato tres. Los resultados fueron: en el estrato uno, 30 niños ven telenovelas; en el dos, 70; y en el estrato tres, 40. a) Haga la estimación de la proporción estratificada. pst =
n1

1 (N1 p1 + N2 p2 ) N

donde: N = 10, 000, N1 = 3, 000, N2 = 5, 000, N3 = 2, 000, p1 =
i=1

n1
n2 i=1

=

30 = 0.3333, 90 70 = 0.4666, 150 40 = 0.6666, 60 97

p2 =

n2
n3 i=1

=

p3 =

n3

=

Capítulo 4. El muestreo aleatorio estratificado
Por lo tanto: 1 (3000(0.3333) + 5000(0.4666) + 2000(0.6666)) 10000 4, 666.6667 1 (1000 + 2, 333.3333 + 1, 333.3333) = = 0.4667 pst = 10000 10000 o el 46.67 % de personas ven telenovelas pst = b) Calcule la estimación del total estratificada. τ = N pst ˆ donde: N = 10,000, pst = 0.4667 Por lo tanto: τ = (10, 000)(0.4667) = 4, 666.6667 personas ven telenovelas ˆ c) Estime la varianza y la desviación estándar de la proporción estratificada
2 S ph =

1 2 2 2 2 (N1 Sp1 + N2 Sp2 ) 2 N

donde: N = 5, 000, N1 = 1, 000, N2 = 3, 000, N3 = 2, 000, p1 = 0.3333, p2 = 0.4667, p3 = 0.6667, 2 N 1 − n1 p 1 q1 3000 − 90 (0.3333)(0.6667) 2 S p1 = = = 0.0024, N1 n1 3000 90 2 p 2 q2 5000 − 150 (0.4667)(0.5333) N 2 − n2 2 = = 0.0016, S p2 = N2 n2 5000 150 2 p 3 q3 2000 − 60 (0.6667)(0.3333) N 3 − n3 2 = S p3 = = 0.0036. N3 n3 2000 60 Por lo tanto:
2 S ph =

1 ((3000)2 (0.0024) + (5000)2 (0.0016) + (2000)2 (0.0035)) 2 10000 √ 0.00076 = 0.0276

= 0.00076 Sp =
2 Sp =

d) Calcular un IC para la proporción estratificada con una confiabilidad de 90 %. pst ± tα/2,n−1 Sph donde: pst = 0.4667, tα/2,n−1 = Zα/2 = Z0.05 = 1.645, Sp = 0.0276 Por lo tanto: 0.4667± (1.645)(0.0276) 98

0.4667± 0.0454 0.42228≤ P ≤ 0.51329 Esto significa que la proporción verdadera de personas que ve telenovelas está entre 42.13 y 51.21 %, con una confiabilidad de 90 %. e) Estime por intervalo el total estratificada con una confiabilidad de 90 %. τ ± N tα/2,n−1 Sps t ˆ donde: τ = 4, 666.6667, N = 10,000, tα/2,n−1 = Zα/2 = Z0,05 = 1.645 y Sp = 0.0276 ˆ Por lo tanto: 4666,6667± (10, 000)(1,645)(0,0276) 4666,6667± (10, 000)(0,04539) 4666,6667± 453,9811 4, 212.7259 ≤ τst ≤ 5, 120.6074 El total de personas que ve televisión está entre 4212.7259 y 5120.6074, con una confiabilidad de 90 %. f) Suponga que n = 300 es una muestra preliminar. Determine el tamaño de muestra para estimar la media con una precisión de 0.05 y una confiabilidad de 90 %. Además, realice la asignación de n a cada estrato en forma proporcional al tamaño del estrato.
E

N (Zα/2 ) n= N d2

2 h=1

p h qh
E

+ (Zα/2

)2
h=1

p h qh

Estratos Nh ph qh Wh p h qh 1 3,000 0.3333 0.6667 0.0667 2 5,000 0.4667 0.5333 0.1244 3 2,000 0.6667 0.3333 0.0444 Total 10,000 0.2355 donde: Zα/2 = Z0.05 = 1.645, d = 0.05,
E 2 W h Sh = h=1

N2 N3 N1 p 1 q1 + p 2 q2 + p3 q3 = 0.2356 N N N

Por lo tanto: 6, 374.1922 (10000)(1.645)2 (0.2355) = = 248.6284 per2 + (1.645)2 (0.2355) (10000)(0.05) 25.6374 sonas (unidades muestrales) n =

99

Capítulo 4. El muestreo aleatorio estratificado
Asignación de la muestra en forma proporcional N1 n= N N2 n= n2 = N N3 n3 = n= N n1 = 3000 (249) = 75 10000 5000 (249) = 125 10000 2000 (249) = 50 10000

g) Suponga que en realidad n = 300 es una muestra preliminar. Determine el tamaño de muestra definitivo para estimar la proporción con una precisión de ±500 y una confiabilidad de 90 %. Además, haga la asignación de n a cada estrato en forma proporcional al tamaño.
E

N (Zα/2 ) n=

2

2

Wh p h qh
h=1 E 2 ) h=1

d2 + N (Zα/2
E

Wh p h qh

donde: d = 500 y
h=1

Wh ph qh = 0.2356

por lo tanto: n= (10000)2 (1.645)2 (0.2355) = 249 personas (muestra) (500)2 + (10000)(1.645)2 (0.2355)

Entonces la asignación proporcional es la misma, es decir, que la muestra a extraer de cada estrato será de 75 del estrato 1, 124 del estrato 2 y 50 del estrato 3. Ejemplo 4. En la Facultad de Pedagogía se desea conocer el porcentaje y total de alumnos que han leído Cien Años de Soledad de Gabriel García Márquez. El número total de alumnos es de N = 600, de los cuales 29 % son de primer grado (estrato 1), 25 % de segundo grado (estrato 2), 23 % de tercer grado (estrato 3) y 23 % de cuarto grado (estrato 4). Se estratificó la población de esa forma debido a que los hábitos de lectura entre los grados son diferentes. Para estimar este porcentaje y el total se tomó una muestra aleatoria de n=40 individuos distribuidos de la siguiente manera: n1 =13 del estrato uno, n2 =12 del estrato dos, n3 =8 del estrato tres y n4 =7 del estrato 4. Los alumnos que han leído el libro fueron 7, 6, 5 y 5 en el estrato 1, 2, 3 y 4, respectivamente. a) Realice la estimación de la proporción estratificada. pst = 1 (N1 p1 + N2 p2 ) N

donde: N = 600, N1 = 174, N2 = 150, N3 = 138, N4 = 138, 100

7143.7143)) = 0.71428 7 p2 = n2 n3 i=1 = p3 = n3 n4 i=1 = p4 = n4 = Por lo tanto: 1 (174(0.625) + 138(0.52 ˆ El total de alumnos de esa facultad que leyó el libro es de 353.5385. p1 = 0.92 % alumnos leyeron el libro pst = b) Estime el total estratificado.2857) = 0.7143)(0. 13 6 = 0.02088.5892) = 353.02759.625. 7 donde: N = 600. p4 = 0.5385)(0.5385) + 150(0.5385.5892 Por lo tanto: τ = (600)(0. p3 = 0. τ = N pst ˆ donde: N = 600 y pst = 0.02767. 13 (0.625. N1 = 174. N4 = 138.n1 p1 = i=1 n1 n2 i=1 = 7 = 0.375) = 0.5454.500) + 138(0. 12 5 = 0. 8 5 = 0.500.0177.52 c) Estime la varianza y la desviación estándar de la proporción estratificada. 2 N 1 − n1 p 1 q1 174 − 13 2 S p1 = = N1 n1 174 2 p 2 q2 150 − 12 N 2 − n2 2 = S p2 = N2 n2 150 2 p 3 q3 138 − 8 N 3 − n3 2 = S p3 = N3 n3 138 2 p 4 q4 138 − 7 N 4 − n4 2 = S p4 = N4 n4 138 Por lo tanto: 101 .4615) = 0.500)(0. 8 (0. N2 = 150.625)(0. (0. 2 S ph = 1 2 2 (N 2 S 2 + N2 Sp2 ) N 2 1 p1 N3 = 138.5892 600 ó 58.500) = 0. p2 = 0. 12 (0.

N = 600.9533.1232 0.0056 = 0.5892± 0.710 y 434.0192)+(138)2 (0.0014 Sp = 2 Sp = d) Calcular el IC para la proporción estratificada con una confianza de 90 %.5137. τ ± N tα/2.0749) 353. tα/2.0626) 353.24 %.6108 285.645)(0. Además.4761 ≤ P ≤ 0.7124 Esto significa que la proporción verdadera de lectores varía entre 46.n−1 = Zα/2 = Z0. e) Estime por intervalo el total poblacional.0276)+(138)2 (0.52± (600)(0. con una confiabilidad de 90 %. El muestreo aleatorio estratificado 2 S ph = 1 ((174)2 (0.645 y Sp = 0. f) Suponga que n = 40 es una muestra preliminar.710 ≤ τst ≤ 434. asigne n a cada estrato en forma proporcional al tamaño del estrato.52± 37.Capítulo 4.n−1 = Zα/2 = Z0.52± (600)(1. con una confiabilidad de 90 %.645)(0.0177)+(150)2 (0.0749 ˆ Por lo tanto: 353.5892± (1.0749 = 0.05 = 1. Determine el tamaño de muestra para estimar la media con una precisión de 0. tα/2.05 = 1.60 y 71.0749) 0.645 y Sp = 0. pst ± tα/2.0749 Por lo tanto: 0.05 y una confiabilidad del 90 %.9533 El total de alumnos lectores fluctúa entre 285.0277)) 6002 √ 0.n−1 Sph donde: pst = 0.n−1 Sps t ˆ donde: τ = 353. E N (Zα/2 ) n= N d2 2 h=1 p h qh E + (Zα/2 )2 h=1 p h qh 102 .5892. con una confianza de 90 %.

0469 600 0.645)2 (0.500 0.025 = 1.0539 138 0. d = 0.2354 N N N por lo tanto: n= (600)(1.2354 por lo tanto: n= (600)2 (1.2354) = 179 personas (muestra) (600)(0.500 0.4615 0.Estratos 1 2 3 4 Total Nh ph qh Wh p h qh 174 0.2354) La asignación de la muestra es la misma.645.645)2 (0.2354) = 179 personas (muestra) (30)2 + (600)(1.7143 0.645)2 (0.645)2 (0.0721 150 0.375 0.2354) Asignación de la muestra en forma proporcional N1 n= N N2 n2 = n= N N3 n= n3 = N N4 n4 = n= N n1 = 174 (179) = 52 600 150 (179) = 45 600 138 (179) = 41 600 138 (179) = 41 600 g) Suponga que n=40 es una muestra preliminar.05)(600) = 30 y h=1 Wh ph qh = 0. Determine el tamaño de muestra para estimar la proporción con una precisión de ±30 y una confiabilidad de 90 %.05 y E 2 W h Sh = h=1 N2 N3 N1 p 1 q1 + p 2 q2 + p3 q3 = 0.2857 0.2354 donde: Zα/2 = Z0. Además.5385 0.0625 138 0.05)2 + (1.625 0. E N (Zα/2 ) n= 2 2 Wh p h qh h=1 E 2 ) h=1 d2 + N (Zα/2 Wh p h qh E donde: d = (0. 103 . haga la asignación de n a cada estrato en forma proporcional al tamaño.

2. Los resultados obtenidos son los siguientes: en el estrato de adolescentes. b) Suponga que la muestra en cada ejercicio es una muestra preliminar. respectivamente. estratificó a la población por géneros. 100 de la segunda y 50 de la tercera. Un agrónomo sembró tres variedades de manzana. 4 en la variedad dos y 6 en la variedad tres. 12 hacían ejercicio diariamente.Capítulo 4. Supóngase que en dicha población el 45 % son adolescentes. niños: n2 =150 y adultos: n3 =250. En total sembró 5. Ejercicio 4.000 son adolescentes y 3. El número de plantas dañadas por estrato es el siguiente: 15 plantas en la variedad uno.000 personas de los cuales 4. Ejercicio 3. En una población urbana de 3.000 son adultos. El muestreo aleatorio estratificado 4. Para estimar el porcentaje y total de personas que utilizan Internet se tomó una muestra aleatoria de 600 individuos distribuidos de la siguiente manera: adolescentes: n1 =200.500 personas del estado de Michoacán. ¿Cuál es el tamaño de muestra para estimar la proporción y el total estratificado de tal manera que la proporción y el total sean estimados con una precisión de 5 % de la proporción y el total preliminar con una confiabilidad de 95 %? Ejercicio 1. Para poder estimar la cantidad de personas que tiene altos niveles de colesterol. Dado que piensa que el género influye en la variable respuesta. Ejercicios En los siguientes ejercicios estime los parámetros siguientes: a) El IC para la proporción y el total estratificado con una confiabilidad de 95 %.500 a la tres. A un centro de salud asisten aproximadamente 7. Al momento de realizar las mediciones encontró que 3 mujeres y 5 hombres tenían un alto nivel de colesterol. se desea conocer la cantidad de personas que utilizan Internet. 30 y 40. 104 .7.500 a la dos y 1. el 30 % niños y el resto adultos. mientras que en el de los adultos 6. Con la finalidad de calcular el porcentaje y el total de plantas dañadas por una plaga X. Se desea conocer el porcentaje de personas que hacen ejercicio diariamente y para ello se toma una muestra aleatoria de 350 individuos (150 son adolescentes y 200 adultos) y se les pregunta si hacen ejercicio diariamente.000 pertenecen a la variedad uno. tomó una muestra aleatoria de 250 plantas distribuidas de la siguiente manera: 100 de la primera variedad.000 plantas distribuidas de la siguiente forma: 1. tomó una muestra aleatoria simple de 120 personas: 84 hombres y 36 mujeres. Un investigador estudió los niveles de colesterol sérico en 500 personas mayores de 45 años (300 mujeres y 200 hombres). Los resultados del número de personas que usan Internet por estrato son: 70. Ejercicio 2.

2000 [3]). que es ampliamente utilizado para reducir el proceso de selección de la muestra. De esta manera. A cada conjunto de k unidades se le llama grupo. Este diseño sólo requiere fijar un intervalo y de ahí recorrer la población seleccionando las unidades que se encuentren en el punto seleccionado del intervalo. podemos usar el diseño de muestreo o de encuestas por muestreo sistemático. OAML aleatoridad en la selección de la muestra da sustento a los métodos revisados en capítulos anteriores: un proceso complicado y costoso. Ello. N es un múltiplo de k. Muestra sistemática Es una muestra que se obtiene con una unidad muestral por cada k unidades en la población de tamaño N . se dice que se tiene una muestra de 1 en k. Cabe señalar que existe el muestreo sistemático cuando N no es 105 . Cuando es bien utilizada y se respetan sus principios. A este tipo de muestra la denotaremos como: Ysy Regularmente. el cual se selecciona aleatoriamente dentro de los primeros k elementos que conforman el marco de muestreo. De esta manera el tiempo que se consumirá y el costo de selección por unidad muestral será menor (Pérez. tomando el valor apropiado de k. una vez que se obtuvo el primer elemento. Por tal motivo. 2000 [3]). A L Cuando se toma la muestra de una superficie. las unidades se extraen premeditadamente de un plano cartesiano imaginario.Capítulo 5 El muestreo sistemático La estadística produce resultados muy precisos. evidentemente facilita el trabajo de campo en el muestreo y reduce sustancialmente los errores que se podrían cometer en caso de usar un procedimiento más laborioso (Pérez.

. El muestreo sistemático múltiplo de k. . El siguiente cuadro muestra el esquema de un muestreo sistemático. . . n (n − 1)k + 1 (n − 1)k + 2 (n − 1)k + 3 . . j (j − 1)k + 1 (j − 1)k + 2 (j − 1)k + 3 . ya que se requieren cuando menos dos selecciones aleatorias por cada intervalo de selección (k). La mayoría de los autores coinciden en señalar que éste diseño es quizá el procedimiento de selección de la muestra que se conoce más ampliamente. . k 2 k+1 k+2 k+3 .. . jk . 106 . . .. .1) contiene las unidades que se seleccionan de la población. . 2k 3 2k + 1 2k + 2 2k + 3 . Bajo costo.. . . . . 3k . . y que además presenta ventajas sobre la selección aleatoria simple entre las que se pueden mencionar: Rapidez y facilidad en la selección de los elementos de la muestra en la población. donde N es un múltiplo de k.. . Sé está menos expuesto a errores de selección que cometen los investigadores en el campo. k 1 1 2 3 . es decir. . nk = N El cuadro (5. donde la primera unidad seleccionada (k) es aleatoria. . . Mejor organización y control en el trabajo de campo. . . por la simplicidad de la selección.. . .. . . . . . . .1: Esquema de un muestreo sistemático Grupo 1 2 3 . . . Conociendo la estructura de la población la anterior dificultad puede resolverse considerando al muestreo sistemático equivalente al muestreo aleatorio simple y por lo tanto la varianza sistemática será aproximadamente igual a la varianza aleatoria simple del estimador bajo estudio.Capítulo 5. . En la práctica la estimación de la varianza sistemática del estimador bajo estudio presenta problemas. Ninguna sucesión grande de elementos en la población queda sin representación. dos o más muestras sistemáticas para la misma población. ... . . . Cuadro 5. Es conveniente y oportuno indicar en éste momento para que poblaciones es válida esta equivalencia.

De esta forma. (1972)[12]. al. debido a que la varianza sistemática del estimador será menor que la varianza del mismo cuado se emplea el muestreo aleatorio simple. al. (1972) [15].1) si sus elementos están aleatoriamente ordenados con respecto a la característica de interés. Scheaffer et. entre otros coinciden al indicar que el muestreo sistemático bajo éstas condiciones es equivalente al muestreo aleatorio simple. Población periódica Una población es periódica sí los elementos de la población tienen una variación 107 . Esto significa que la varianza bajo MAS es aproximadamente igual a la varianza bajo muestreo sistemático. (1987)[2] y Azorin F. Tipos de población por su estructura Población aleatoria Una población es aleatoria (Figura 5. Ya que no se puede obtener una estimación directa de la varianza sistemática del estimador se puede emplear una aproximación conservadora (la cuál es mayor de la que se esperaría) estimando la varianza del estimador con las expresiones dadas en el muestreo aleatorio simple.1: La dispersión del marco de muestreo de una población aleatoria Población ordenada Una población es ordenada (Figura 5.5.2) si los elementos dentro de la población están ordenados de acuerdo con algún esquema y con respecto a la variable de interés. el muestreo sistemático es equivalente al muestreo simple aleatorio. Kish L. Scheaffer et.1. (1987)[?] indica que una muestra sistemática de ésta población proporciona más información que una muestra aleatoria simple por unidad de costo. 10 Y 0 2 4 6 8 5 10 X 15 20 Figura 5.

Capítulo 5. El muestreo sistemático
10 Y 6 −1 7 8 9

0

1 X

2

3

Figura 5.2: La dispersión del marco de muestreo de una población ordenada

cíclica con respecto a la variable de interés. Scheaffer et. al. (1987) [2] señala que una muestra sistemática extraída de ésta población proporciona menos información que una muestra aleatoria simple por unidad de costo. Como en las situaciones anteriores la varianza sistemática del estimador no puede estimarse a partir de una sola muestra sistemática. se puede aproximar su valor empleando las expresiones correspondiente que da el muestreo aleatorio simple, pero como es de esperarse ésta aproximación subestimará la varianza verdadera (sistemática). Como una alternativa para que ésta subestimación sea mínima se sugiere cambiar varias veces el punto de inicio aleatorio con el propósito de mezclar los elementos de la población y al mismo tiempo seleccionar la correspondiente muestra sistemática. En consecuencia se puede suponer que la muestra así extraída es sistemática y proviene de una población aleatoria. Para lecturas adicionales véase por ejemplo, Kish L. (1972)[12] cap. 4, Azorin F. (1972)[15] cap.21 y Scheaffer et. al. (1987)[2] cap. 7.

5.2.

¿Cómo seleccionar una muestra sistemática?

Primero se debe decidir el tamaño del intervalo ”1 en k” unidades, posteriormente se selecciona aleatoriamente una unidad que se encuentre dentro del intervalo de la primera hasta la k−ésima unidad y así se continuará hasta llegar a N . Pero surge la pregunta de como seleccionar la k adecuada. En general, para una muestra sistemática de n elementos en una población de N , k debe ser menor o igual N /n; si se desconoce N , entonces se determina un tamaño de muestra n aproximado y así se podría obtener una k estimada (Pérez, 2000 [3]). 108

En seguida se dan formas de como elegir el valor de k dependiente del tamaño de la población: I. Cuando el tamaño de la población, N , es múltiplo de n, (N = kn). Notación: N : tamaño de la población. n: tamaño de la muestra. k = N/n: intervalo de selección o muestreo. Procedimiento: 1) Seleccionar aleatoriamente un número entero i (arranque o inicio aleatorio) comprendido entre 1 y k, (1 ≤ i ≤ k ). 2) Luego de manera rígida o sistemática, (de aquí el nombre del procedimiento) tomar el elemento i + k, que está k lugares del i-ésimo en la lista, el i + 2k que está 2k lugares después, y así sucesivamente hasta completar el tamaño n de la muestra. Note que la tabla de números aleatorios u otro mecanismo de selección se emplea una sóla vez, en i.

Por ejemplo, si N = 1, 000 y se decide un tamaño de n = 10, entonces 1,000 k = =100. Por lo tanto, el primer valor de k será un valor entre 1 y 10 100, el cual se elige al azar. Suponga que el primer valor es 40, entonces los elementos que conformarán la muestra son: el 40, 140, 240, 340, 440, 540, 640, 740, 840 y el 940. II. Cuando el tamaño de la población, N , no es múltiplo de n, (N = nk). Notación: N : tamaño de la población. n: tamaño de la muestra. k = N/n: intervalo de selección o muestreo. En la prática es frecuente que N no sea múltiplo de n, con lo cual la muestra sistemática al final puede tener n o n − 1 elementos. Azorin F. (1972) señala que ésta diferencia de tamaños suele no tener importancia cuando la población es de tamaño superior a 50. Por otro lado, Kish L. (1972) indica que éste problema se puede resolver de varias maneras y el investigador deberá seleccionar la más conveniente. De las soluciones propuestas por dicho autor se describe la más usual: Considerar el marco de muestreo (lista) como si fuera circular. Procedimiento: 1) Considerar el marco lista como un círculo de manera que la última unidad sea seguida por la primera. 2) Sea k el entero más próximo a N/n. 109

Capítulo 5. El muestreo sistemático
3) Seleccionar aleatoriamente un número entero entre 1 y N . 4) En seguida seleccionar cada k-ésima unidad hasta completar los n elementos. Por ejemplo, supóngase que N = 300 y se decide un tamaño de n = 9, 300 = 33.3333 y k = 33, ya que es el entero más próximo a 33.3333. entonces 9 Además, supóngase que 270 es el entero seleccionado aleatoriamente entre 1 y 300. Por tanto, los elementos que conformarán la muestra son: el 270, 3, 36, 69, 102, 135, 168, 201 y el 234. III. Cuando se desconoce el tamaño de la población (N). En este caso puede darse un valor tentativo de k; sin embargo, podría ser muy grande y nos daría un tamaño de muestra menor que el requerido en el estudio. Esto no representaría un problema si se tuviera la posibilidad de tomar nuevamente la muestra y así seleccionar la k que proporcione el tamaño requerido. Sin embargo, existen muchos casos en los que esto no es posible y es necesario tener una precisión dada al principio. Esto hace difícil la tarea de estimar un valor adecuado de k (Pérez, 2000 [3]).

5.3.

La estimación de la media poblacional

Una vez obtenida la muestra, el objetivo será caracterizar la población por medio de una muestra estimando los parámetros de mayor interés, como la media y el total poblacional. Después se procede a estimar los parámetros con sus correspondientes varianzas y por último los intervalos de confianza. Estimación de la media y el total de la muestra sistemática
n

yi µ = ysY = ˆ ¯
i=1

n

τsY = N ysY ˆ ¯ A continuación se presentan los estimadores correspondientes a las varianzas de la media y del total.

5.3.1. La varianza de la media y del total.
ˆ y V (¯sY ) = V (ˆsY ) = N 2 τ N −n N N −n N s2 n s2 n . 110

El estimador de la varianza del total se obtiene multiplicando el estimador de la varianza de la media por N 2 .

5.3.2. El intervalo de confianza de la media y el total
ysY ± tn−1, α ¯ 2 N −n N s2 , n

donde ysY es la media de la muestra sistemática. ¯ τsY ± tn−1, α ˆ 2 N2 N −n N s2 . n

Obsérvese que la estimación de la varianza es la misma que la presentada en el muestreo simple aleatorio. Sin embargo, las varianzas poblacionales no son las mismas. La varianza del estimador de la media de una muestra sistemática es: σ2 [1 + (n − 1)ρXY ] . n En la fórmula anterior aparece la medida de correlación, ρXY , que indica la relación que existe entre los elementos de la muestra. Así pues, el muestreo sistemático estará muy ligado a este indicador. Si ρXY está alrededor de uno, quiere decir que los elementos están estrechamente relacionados y esto producirá una mayor varianza de la media que en el muestreo simple aleatorio, por lo que este último será el más indicado. En caso contrario, si ρXY está cerca de cero, la estimación por muestreo sistemático es la más recomendada pues la varianza es aproximadamente igual al muestreo simple aleatorio. (Scheaffer, 1987 [2]). Por lo tanto, es importante aclarar que los estimadores muestrales de este capítulo son apropiados cuando el coeficiente de correlación (ρXY ) es casi cero, de lo contrario la muestra debe ser seleccionada bajo MAS o MAE. V (¯sY ) = y

5.3.3. La selección del tamaño de la muestra.
Para determinar el tamaño de la muestra para estimar a µ, se procede como en los capítulos anteriores. Primero, se elige un valor de d, es decir, la precisión que se está dispuesto a aceptar en las estimaciones, y se iguala al producto de un valor de t (con sus correspondientes grados de libertad) por la desviación estándar de dicho estimador, como se representa a continuación: d = t(n−1,α/2) V (¯sY ) y (5.1)

111

2.α/2) σ2 donde la varianza poblacional σ 2 se puede sustituir por la muestral.6 Envase 880 2.α/2) 2 σ2 2 N d2 + t(n−1.6 Envase 480 2. de muestra % de grasa Envase 80 2. Ejemplos Ejemplo 1.1). Primero se elige k. Los datos están en el cuadro 5. + yn ys = ¯ n 112 .. y1 + y2 + y3 + .6 Envase 280 2. eligiendo aleatoriamente el primer elemento entre los primeros 100.000 envases por hora (cada envase contiene un litro de leche). k= N 1.8 Envase 580 2. 000 = = 100 n 10 Esto quiere decir que se debe muestrear cada 100 envases de leche. Cuadro 5.5 Envase 180 2.α/2) σ2 donde la varianza poblacional σ 2 se sustituye por la muestral 5.8 Efectúe el proceso de estimación de los parámetros siguientes: a) El promedio de grasa por envase.α/2) 2 σ2 2 d2 + N t(n−1. se obtiene lo siguiente: n= N t(n−1.0 Envase 780 2.Capítulo 5. El muestreo sistemático El tamaño de muestra para estimar la media Despejando n de esta ecuación (5.7 Envase 380 2..7 Envase 980 2. El tamaño de muestra para estimar el total n= N 2 t(n−1. Una línea de producción de leche ultrapasteurizada elabora N =1.9 Envase 680 3.4.3.2: El porcentaje de grasa por envase de leche ultrapasteurizada Núm. Se desea saber si cada envase de leche cumple con el porcentaje de grasa y para ello se toma una muestra sistemática de 10 envases.

2.5 + 2.6 + 2.7 + 2.8 + 2.9 + 3 + 2.6 + 2.7 + 2.8 ys = ¯ = 2.72 ó 2.72 % 10 de grasa por envase. b) La varianza muestral ((S 2 ))
n 2 yi − n¯2 y

2 Ss =

i=1

n−1 (2.5)2 + (2.6)2 + . . . + (2.7)2 + (2.8)2 − (10)(2.72)2 2 Ss = 10 − 1 0.216 2 Ss = = 0.024 9

c) Encontrar la varianza y la desviación estándar de la media muestral.
2 Sys = ¯

Sys = ¯

0.024 1, 000 − 10 = 0.002376 1, 000 10 √ 2 Sys = 0.002376 = 0.04874. ¯

d) Estime la cantidad total de grasa que se encuentra en los envases. τ = N ys = (1, 000)(2.72) = 2,720 gramos de grasa ˆ ¯ e) Hallar el IC para el promedio de grasa por envase de leche. ¯ ys ± tn−1,α/2 Sys ¯ donde: ys = 2.72, Sys = 0.0484 y tn−1,α\2 = t10−1,0.025 = 2.2622 ¯ ¯ Por lo tanto: 2.72 ± (2.2622)(0.04874) 2.72 ± 0.11026 2.6097 ≤ µ ≤ 2.8303 Es decir, con una confiabilidad de 95 % se estima que el promedio de grasa por envase de leche está entre 2.6097 y 2.8303. f) Calcular el IC para el total con una confianza de 95 %. y ± N tn−1,α\2 SS y ¯ ¯ donde: τs = 2,720, N = 1, 000, SS y = 0.04874 y tn−1,α\2 = t10−1,0.025 = 2.2622 ˆ ¯

Por lo tanto: 2,720 ± (1, 000)(2.2622)(0.04874) 113

Capítulo 5. El muestreo sistemático
2,720 ± (1, 000)(0.11026) 2,720 ± 110.26919 2, 609,7329 ≤ τs ≤ 2, 830.2671 Es decir, con 95 % de confianza se estima que el total de grasa está entre 2,609.7329 y 2,830.2671. g) Suponga que la muestra seleccionada corresponde a una muestra preliminar de tamaño n = 10. ¿Cuál es el tamaño de muestra para estimar el promedio de grasa por envase, con una precisión de 0.05 por ciento de grasa por envase y una confiabilidad de 95 %?. n=
2 N (tn−1,α\2 )2 Ss 2 N d2 + (tn−1,α/2 )2 Ss

2 donde: N = 1, 000, tn−1,α\2 = t10−1,0.025 = 2.2622, Ss = 0.024 y d = 0.05

Por lo tanto: n= (1, 000)(2.2622)2 (0.024) = 47 envases (muestra) (1, 000)(0.05)2 + (2.2622)2 (0.024)

h) Suponga que la muestra seleccionada representa una muestra preliminar de tamaño n = 10. ¿Cuál es el tamaño de muestra para estimar el total de envases, con una precisión de 50 envases y una confiabilidad de 95 %? n=
2 N (tn−1,α\2 )2 Ss 2 d2 + N (tn−1,α\2 )2 Ss

2 donde: N = 1, 000, tn−1,α\2 = t12−1,0,025 = 2.2622, Ss = 0.024 y d = 50

por lo tanto: n = trales) (1, 000)2 (2.201)2 (0.024) = 47 envases (unidades mues(50)2 + (1, 000)(2.201)2 (0.024)

Ejemplo 2. Un tráiler transporta N = 2, 500 sacos de maíz, que están enumerados del 1 al 2,500. Dado que los sacos no pesan lo mismo suponga que quiere saber el peso promedio por saco y el total de maíz que transporta dicho tráiler. Para ello se toma una muestra sistemática de n = 20 sacos. A continuación elegimos k. k= N 2, 500 = = 125 n 20

Esto quiere decir que debemos muestrear cada 125 sacos de maíz eligiendo aleatoriamente el primer elemento entre los primeros 125. Los datos se presentan en el cuadro 5.3. a) Estime el peso promedio en kg por saco de maíz. 114

Cuadro 5.3: n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

El peso de los Muestra Saco 10 Saco 135 Saco 260 Saco 385 Saco 510 Saco 635 Saco 760 Saco 885 Saco 1010 Saco 1135 Saco 1260 Saco 1385 Saco 1510 Saco 1635 Saco 1760 Saco 1885 Saco 2010 Saco 2135 Saco 2260 Saco 2385

sacos de maíz (Kg) Peso (Kg) 71.89 74.24 77.60 82.94 73.17 77.09 66.29 75.17 64.41 80.08 79.82 73.15 72.88 81.15 78.29 74.62 83.31 73.36 69.75 77.04

y1 + y2 + y3 + . . . + yn n 71.89 + 74.24 + 77.60 + . . . + 77.04 = 75.3125 ys = ¯ 20 ys = ¯ b) Halle la varianza muestral (S 2 ).
n 2 yi − n¯2 y

2 Ss = 2 Ss

i=1

n−1 (71.89)2 + (74.24)2 + (77.60)2 + . . . + (77.04) − (20)(75.3125)2 = 20 − 1 483.0747 2 Ss = = 25.4249 19

c) Calcule la varianza y la desviación estándar de la media muestral.
2 Sys = ¯

N −n N
2 Sys = ¯

Sys = ¯

S2 n

=

2, 500 − 20 2, 500

25.4249 20

= 1.2611

1.2611 = 1.12297

d) El total de kg que hay en los 2,500 sacos de maíz. τs = N ys = (2, 500)(75.3125) = 188, 281.25 ˆ ¯ 115

Capítulo 5. El muestreo sistemático

e) Calcule un IC para el promedio de kilogramos de maíz por saco. ys ± tn−1,α\2 Sys ¯ ¯ donde: ys = 75.3125, Sys = 1.12297 y tn−1,α\2 = t20−1,0.025 = 2.0930 ¯ ¯ Por lo tanto: 75.3125 ± (2.093)(1.12297) 75.3125 ± 2.3504 72.9621 ≤ µ ≤ 77.6629 Es decir, con una confiabilidad de 95 % se estima que el valor del promedio de kg por saco de maíz está entre 72.9621 y 77.6629. f) Construya un IC para el total de kg de maíz. τ ± N tn−1,α\2 Sys ˆ ¯ donde: τs = 188, 281.25, N = 2, 500, Sys = 1.12297 y tn−1,α\2 = t12−1,0.025 = 2.0930 ˆ ¯ Por lo tanto: 188, 281.25 ± (2, 500)(2.0930)(1.12297) 188, 281.25 ± (2, 500)(2.3503) 188, 281.25 ± 5875.9819 182, 405.201 ≤ τs ≤ 194, 157.299 Es decir, se estima que el total de kg de maíz que hay en los sacos está entre 182,405.201 y 194,157.299. g) Suponga que la muestra seleccionada corresponde a una muestra preliminar de tamaño n=20. Calcule el tamaño de muestra para estimar el promedio por saco de maíz, con una precisión de 0.5 kg por saco y una confiabilidad de 95 %.
2 N (tn−1,α\2 )2 Ss n= 2 N d2 + (tn−1,α\2 )2 Ss 2 donde: N = 2, 500, tn−1,α\2 = t20−1,0.025 = 2.0930, Ss = 25.4249 y d = 0.5

Por lo tanto: n = (muestra) (2, 500)(2.0930)2 (25.4249) = 378.1276 sacos de maíz (2, 500)(0.5)2 + (25.4249)(2.0930)2

Por lo tanto, 379 es el tamaño de muestra que tiene una precisión de ±0.5 kg de maíz y 0.95 de probabilidad de incluir en el intervalo de estimación el promedio verdadero. 116

4554 117 .0. 500)(2. a) Calcule el promedio muestral. 500.06)2 + (10. y1 + y2 + y3 + .2074 = 0. .4249 y d = 1.41 + .61 + 14. k= 6.0930. 2 Sys = ¯ N −n N 2 Sys = ¯ Sys = ¯ √ S2 n = 3000 − 30 3000 6.4249) Ejemplo 3.0930)2 (25. Una plantación tiene 6.16 ys = ¯ = 13. .0930)2 (25. Suponga que se está interesado en conocer los gramos promedio de sacarosa por planta y el total de sacarosa en la plantación. . tn−1. ¿Cuál es el tamaño de muestra para estimar el total de kg con una precisión de 1. n 2 yi − n¯2 y 2 Ss = 2 Ss i=1 n−1 (11. eligiendo aleatoriamente a la primer planta de entre las primeras 200 (cuadro 5. .025 = 2. 250 Por lo tanto: n = (muestra) (2.2538 30 = 0. 000 N = = 200 n 30 Esto quiere decir que debemos muestrear cada 200 elementos (plantas). .000 plantas de caña de azúcar.α\2 = t20−1.16) − (30)(13.61)2 + (14. Ss = 25.5645)2 = 30 − 1 181.h) Suponga que la muestra seleccionada representa una muestra preliminar de tamaño n = 20. + (12. Como de costumbre.α/2 )2 S 2 2 donde: N = 2.41)2 + .α/2 )2 S 2 d2 + N (tn−1.2075 0.000.4249) = 378. 12. 500)2 (2. Por el arreglo de las plantas (en surcos) es fácil enumerarlas del 1 al 6. hallamos k primero. Por lo tanto. se toma una muestra sistemática de n = 30. + yn ys = ¯ n 11.2571 29 c) Hallar la varianza y la desviación estándar de la media muestral.06 + 10.4).250 kg de maíz y una confiabilidad de 95 %? n= N 2 (tn−1. .5645 gramos de sacarosa 30 por planta 2 b) Calcule la varianza muestral (Ss ).1276 sacos de maíz (1250)2 + (2.4551 2 Ss = = 6.

68 28 5.450 13.050 15. Núm.250 11.650 15.650 9.61 3 450 14.650 11.25 14 2.050 12.450 11.050 15.72 10 1.16 118 .650 9.Capítulo 5.83 27 5.850 15.06 2 250 10.47 7 1.33 25 4.99 9 1.49 23 4.37 11 2.29 12 2.450 20.01 17 3.050 12.46 6 1.85 18 3.68 8 1.050 13.45 30 5.450 13.78 15 2.45 5 850 9.28 20 3.22 26 5.850 11. de muestra % de sacarosa 1 50 11.250 14.38 24 4.22 13 2.250 15.41 4 650 14. El muestreo sistemático Cuadro 5.93 19 3.850 16.450 15.39 21 4.250 16.70 29 5.65 16 3.83 22 4.4: El porcentaje de sacarosa por planta Obs.250 14.850 14.650 13.850 12.

0452 ¯ ¯ Por lo tanto: 13. con una confiabilidad de 95 % se estima que el valor de los gramos promedio de sacarosa por caña de azúcar se encuentra entre 12. 000)(2.α\2 )2 Ss 2 donde: N = 6.00 gramos ˆ ¯ e) Encontrar un IC para el promedio de sacarosa por planta de caña de azúcar.84 ± (6.6330 ≤ µ ≤ 14.0.1517 75. τ ± N tn−1.5)2 + (2.α\2 )2 Ss 2 N d2 + (tn−1.0452)2 (6. 388. 000. f) Construir un IC para el total de sacarosa por planta de caña de azúcar.0452 ˆ ¯ Por lo tanto: 81.5645.α\2) = t(30−1.025 = 2.9317 12.2538) = 102. Sys = 0.5645) = 81.2538) 119 .5645 ± (2. con 95 % de confianza se estima que el total (gramos) de sacarosa en las plantas de caña de azúcar está entre 75.0. N = 6.0.5645 ± 0. 000)(2.4554) 13.α\2 Sys ˆ ¯ donde: τs = 81. 386.76736 ≤ τs ≤ 86.025 = 2.23264 Es decir. g) Suponga que la muestra seleccionada corresponde a una muestra preliminar de tamaño n=30.α\2 = t30−1.84 ± (6. τs = N ys = (6.975.6265.5 Por lo tanto: n= azúcar (muestra) (6. 00)(0.8941 plantas de caña de (6.5 gramos de sacarosa y una confiabilidad de 95 %?.4554 y tn−1.2538 y d = 0. Ss = 6.4963. con una precisión de 0.d) Calcular el total estimado de sacarosa en la población. 388.025) = 2. 386.α\2 Sys ¯ ¯ donde: ys = 13. n= 2 N 2 (tn−1.797.9316) 81. ys ± tn−1.0452)(0.0452.4555) 81. ¿Cuál es el tamaño de muestra necesario para estimar el promedio de sacarosa por planta de caña de azúcar.0452)2 (6.4554 y tn−1.4963 Es decir. 797. t(n−1. Sys = 0. 386. 000. 978.6330 y 14.84 ± 5590.0452)(0.76736 y 86. 000)(13.α\2 = t30−1. 000)(0.

00 Paquete 215 5.2538) de azúcar (muestra) n= Ejemplo 4. de defectuosos Paquete 15 3. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 número de microprocesadores dañados por caja Muestra Núm.00 Paquete 1.015 4. Los datos correspondientes se presentan en el cuadro 5.025 = 2. El muestreo sistemático h) Suponga que la muestra seleccionada representa una muestra preliminar de tamaño n=30. donde cada paquete contiene 10 microprocesadores. . 000)2 + (6.00 Paquete 415 1.00 Paquete 1.5.2538) = 102. Se toma una muestra sistemática de n = 15 paquetes.00 Paquete 715 1.00 Paquete 915 3.00 Paquete 1.00 Paquete 815 2. ¿Cuál es el tamaño de muestra para estimar el total de sacarosa en la población.215 2. Ss = 6.00 Paquete 315 2. 000 Por lo tanto: (6.5: El Obs.00 a) ¿Cuál es el promedio de microprocesadores dañados por paquete? ys = ¯ y1 + y2 + y3 + . con una precisión de 3.00 Paquete 1.00 Paquete 1. A continuación elegimos k.0452)2 (6. 500 paquetes de microprocesadores.0452)2 (6.Capítulo 5.000 gramos y una confiabilidad de 95 %? n= 2 N (tn−1.α\2 )2 Ss 2 donde: N = 6. 000. 000)(2. 000)2 (2.2538 y d = 3.00 Paquete 115 4. y se desea estimar el número de microprocesadores dañados por paquete.00 Paquete 615 1. + yn n 120 .α\2 = t30−1. Cuadro 5.0452.00 Paquete 515 5. Una línea por turno produce N = 1.0.315 4. k= 1500 N = = 100 n 15 Esto quiere decir que se debe muestrear cada 100 elementos (paquetes).α\2 )2 Ss 2 d2 + N (tn−1.115 3. tn−1.8941 plantas de caña (3. .415 2.

2 Sys = ¯ N −n N 2 Sys = ¯ S2 n √ = 1500 − 15 1500 1.1448 ˆ ¯ Por lo tanto: 4. τ ± N tn−1. 200 ± (1.3528) 2.8 ± 0.α\2 = t15−1.1448 ¯ ¯ Por lo tanto: 2.0. (2)2 − (15)(2. ys ± tn−1.5566 Es decir. Sys = 0.3528) 4.α\2 Sys ˆ ¯ donde: τs = 4. se estima que el valor promedio de microprocesadores dañados por paquete está entre 2. 500)(2. τs = N ys = (1. Sys = 0.1245 Sys = ¯ 0. tn−1. .8)2 2 Ss = 15 − 1 26. tn−1.1448)(0. N = 1. 500. 500)(2.3528.9793 121 .0434 ≤ µ ≤ 3. 200 ± 1.α\2 = t15−1. 134.5566.025 = 2.8857 Ss = 14 c) Hallar la varianza estimada de la media muestral.3528.1448)(0. 200. n 2 yi − n¯2 y 2 Ss = i=1 n−1 (3)2 + (4)2 + (5)2 + .025 = 2.4 2 = 1.1245 = 0.8857 15 = 0. f) Construir un IC para el total de microprocesadores dañados con una confianza de 95 %.7566) 4.0434 y 3. .α\2 Sys ¯ ¯ donde: ys = 2.0. 200 ± (1. 200 ˆ ¯ e) Construir un IC para el promedio de microprocesadores dañados con una confiabilidad de 95 %.8 15 b) Calcular la varianza muestral (S 2 ).8) = 4.8 ± (2.8. 500)(0.7566 2.ys = ¯ 3+4+5+2+1+5+1+1+2+3+4+3+2+4+2 = 2.3528 d) Encontrar el número total de microprocesadores dañados.

Capítulo 5. con una precisión de ±750 microprocesadores y una confiabilidad de 95 %? n= 2 N 2 (tn−1. siendo ésta la única bebida alcohólica en la fiesta. las cuales fueron enumeradas del 1 al 5.α\2) = t(15−1.5)2 + (2.8857) procesadores (muestra) n= h) Suponga que la muestra seleccionada representa una muestra preliminar de tamaño n = 15.0.9723.025) = 2.0276 ≤ τs ≤ 5.065. 500)2 (2.025) = 2.1448)2 (1. Para ello se tomó una muestra sistemática de 25 personas a quienes se les preguntó el número de cervezas que ingirieron.1448. Véase en el 122 .1448)2 (1. ¿Cuál es el tamaño de muestra para estimar el total.8857) = 33. Ss = 1. 500.9723 Es decir.8857 y d = 750 (1.α\2 )2 Ss 2 N d2 + (tn−1. g) Suponga que la muestra seleccionada corresponde a una muestra preliminar de tamaño n = 15.8857) = 33.α\2 )2 Ss 2 donde: N = 1.4. 500)(1.8857 y d = 0.9138 paquetes de micro(750)2 + (1.8857)(2. se estima que el total de microprocesadores dañados fluctúa entre 3. con una precisión de ±0. El muestreo sistemático 3. 500)(0. Se desea conocer la cantidad promedio de cervezas ingeridas por individuo.000 al momento de llegar. 065. 000 personas a una fiesta. ¿Cuál es el tamaño de muestra para estimar el promedio de microprocesadores por caja.α\2) = t(12−1. 500)(2. ¿Cuál es el tamaño de muestra para estimar la media y el total de tal manera que sean estimados con una precisión de 5 % de la media y el total preliminar con una confiabilidad de 95 %? Ejercicio 1. Asistieron N = 5. t(n−1. 334.5 microprocesadores y una confiabilidad de 95 %? n= 2 N (tn−1. 500.1448)2 procesadores (muestra) n= Por lo tanto: 5.0.334.0276 y 5.α\2 )2 Ss 2 d2 + N (tn−1.9138 paquetes de micro(1.α\2 )2 Ss 2 donde: N = 1. b) Suponga que la muestra en cada ejercicio es una muestra preliminar.1448)2 (1. Ss = 1. Ejercicios En los siguientes ejercicios estime los parámetros siguientes: a) El IC para la media y el total con una confiabilidad de 95 %. t(n−1.5 Por lo tanto: (1.1448.

425 Persona 1.825 Ingeridas 7 3 6 6 6 5 6 5 4 4. 500 cajas por día.510 Caja 1.5 4. Obs.425 Persona 4.625 Persona 3.710 Caja 1. 1 2 3 4 5 6 7 8 9 10 Muestra Caja 10 Caja 110 Caja 210 Caja 310 Caja 410 Caja 510 Caja 610 Caja 710 Caja 810 Caja 910 Limones dañados 105 106 108 100 95 110 109 100 115 80 Limones dañados 105 109 100 110 100 100 105 105 100 100 Ejercicio 3.7: Datos de la muestra. Para ello tomó una muestra sistemática de n = 12. En una empresa que se dedica a la digitalización de documentos.025 Persona 4.425 Persona 3. por lo que se enumeraron las 123 .825 Persona 2. Use la información del cuadro 5.5 6 5 7 5 4 7 3 8 3.310 Caja 1.610 Caja 1. Se desea estimar el número de limones dañados por caja. Una empacadora de limones de Tecomán. 11 12 13 14 15 16 17 18 19 20 Muestra Caja 1. de Muestra Persona 25 Persona 225 Persona 425 Persona 625 Persona 825 Persona 1.625 Persona 4. La Comisión Nacional del Agua desea estimar el gasto promedio de agua en cientos de litros por casa. Cuadro 5.5 6 6.825 Persona 4.425 No. Cuadro 5.210 Caja 1.500. ∗ Cientos de litros Ejercicio 4. Se desea conocer la cantidad de Documentos no Escaneados Adecuadamente (DNEA). Use la información del cuadro 5.410 Caja 1. Ingeridas 7.6: Datos de la muestra.625 Persona 2.025 Persona 2.910 Obs.6.cuadro 5. se escanea N = 1.225 Persona 2.7. las cuales se enumeraron del 1 al 2.810 Caja 1. Se toma una muestra sistemática de n = 20. Colima.110 Caja 1.5 Obs.625 Persona 1. 14 15 16 17 18 19 20 21 22 23 24 25 Obs.225 Persona 4. 000 cajas de limones por turno.8.010 Caja 1. De Muestra Persona 2. empaca N = 2.825 Persona 3. En una colonia de la ciudad de Guadalajara hay N = 2. 1 2 3 4 5 6 7 8 9 10 11 12 13 No.225 Persona 1.025 Persona 1.5 5 7 Ejercicio 2.225 Persona 3.025 Persona 3. 500 casas.

6 2. 1 2 3 4 5 6 No.9 cajas del 1 al 1.8 2. la observación que posea la característica de interés tomará el valor de 1 o 0 de otro modo. 1160 Caja no. 760 No. Medidor casa no. Si nos referimos a una muestra sistemática proveniente de una población aleatoria con un tamaño poblacional grande. Medidor casa no.4 3 2. 360 Caja no.7 2. Medidor casa no. 1987 [2]). Medidor casa no. Las ecuaciones que se presentarán a continuación son idénticas a las expuestas en la sección dedicada a proporciones en el capítulo de muestreo simple aleatorio y poseen las mismas propiedades estadísticas. el objetivo es estimar la frecuencia de una característica en particular. en ocasiones se desea estimar una proporción. 5. No es difícil justificar que la variable medida tenga una distribución binomial con parámetros n y p. 660 Caja no. Medidor casa no. Medidor casa no.2) 124 .1. 1 2 3 4 5 6 7 8 No. de Muestra Caja no. 60 Caja no. Véase la información del cuadro 5. Cuadro 5. Medidor casa no.160 Caja no. 9 10 11 12 13 14 15 Obs. 1360 Caja no. Medidor casa no. 1460 DNEA 5 2 3 3 2 2 4 5.9. 260 Caja no.Capítulo 5. las varianzas de las poblaciones no necesariamente son las mismas en ambos casos. De Muestra Medidor casa no. 560 Caja no.5. 1048 1258 1464 1672 1880 2088 Litros 2.9 2. No. Medidor casa no. 960 Caja no. Sin embargo. 1260 Caja no. El muestreo sistemático Cuadro 5.8: Datos de la muestra. Medidor casa no. 860 Caja no. de Muestra Caja no.4 2. 1060 Caja no. DNEA 2 3 2 4 2 3 1 4 Obs. las varianzas pueden llegar a ser las mismas (Scheaffer.2 2.5 2.5 2. La estimación de la proporción poblacional Al igual que en los métodos anteriores.500 y se tomó una muestra n = 15 cajas. 7 8 9 10 11 12 Obs. 2300 8 216 424 632 840 Litros∗ 2.2 Obs.9: Datos de la muestra. donde n representa el tamaño de la muestra y p la proporción o frecuencia relativa de éxitos en las n observaciones. es decir. El estimador de la proporción y el total n yi p s = ys = ¯ i=1 n (5. 460 Caja no.5. De esta forma. de Muestra Medidor casa no.

3) 5.2.4 y 5.5) presentamos intervalos de confianza. (5. d = t(n−1. La selección del tamaño de muestra para la proporción y el total Para determinar el tamaño de muestra que estime ps o τs se elige una precisión que estamos dispuestos a aceptar.4) (5.α/2) 2 S ps .6).5) 2 S τs = N 2 donde qs = 1 − ps . que nos indican los límites de la proporción y el total con una confiabilidad de (1 − α) por ciento.6) El tamaño de muestra para estimar la proporción Despejando n de esta ecuación (5.α/2) p s qs Para fines prácticos la varianza poblacional se sustituye por la varianza muestral. 5.α/2) p s qs 2 N d2 + t(n−1. Por último.5.τs = N p s (5. obtenemos: 2 n= N t(n−1. El intervalo de confianza para la proporción y el total sistemático ps ± t(n−1.α\2) τs ± t(n−1. Es decir. 125 .5.4.3. La varianza estimada de la proporción y el total sistemático 2 S ps = N −n N N −n N p s qs n p s qs n (5.α\2) N ˆ N −n N N −n N p s qs n p s qs n 5.5. para estos estimadores (5.

982 1 6. Cuadro 5.538 1 7.5.5.Capítulo 5. La administración de la Universidad de Colima desea conocer la cantidad de alumnos que están satisfechos por las mejoras y los logros alcanzados por el presidente de México.206 0 8. con fines prácticos.758 0 4.646 0 3. No.874 0 a) Determine la proporción verdadera de los alumnos satisfechos con el trabajo del presidente. Por ello. El muestreo sistemático El tamaño de muestra para estimar el total n= N 2 t(n−1. 000 = = 555.α/2) p s qs La varianza poblacional la podemos sustituir por la muestral.870 1 5.α/2) 2 p s qs 2 d2 + N t(n−1. el entero más cercano.000. Para realizar dicha encuesta se elegirán k alumnos entre los 10. el primer alumno que será encuestado se elegirá aleatoriamente entre el primero y el 10. Se pretende obtener una muestra de 18 alumnos. Los datos se presentan en el Cuadro 5.10. 5.426 0 5. 126 .318 0 9.5556 n 18 Dado que N no es multiplo de n por lo tanto k = 556. Ejemplos Ejemplo 1.10: Los alumnos satisfechos e insatisfechos.762 1 9. A continuación obtenemos k: k= N 10.650 0 8. de alumno Respuesta 422 0 978 1 1.314 0 4.534 1 2.094 1 7.090 1 2.202 1 3.000 estudiantes de la Universidad de Colima.

000)(0.1098)(0.5.1177) 0. ps = 0.025 = 2.1098 Por lo tanto: 0.5 Por lo tanto: τ = (10.α\2) N Sps ˆ donde: N = 5. τ = N ps ˆ donde: N = 10.9982)(0.5) 18 = (0.5 y qs = 0. 000)(2. 000 ± (10.2516 y 0.5 ± 0. N = 10. con una confiabilidad de 95 %. 000 ± (10.5 ó 50 % de alumnos insatisfechos b) La desviación estándar de la proporción muestral (Sp ). es decir.7484 Con 95 % de confianza se estima que la proporción verdadera de alumnos satisfechos está entre 0.1177) 5.0139) = √ 0.9982 = 0.5 ó 50 % de alumnos satisfechos n 18 qs = 1 − ps = 1 − 0. 000.1177 c) Construya un IC de 95 % para la proporción verdadera. 000 y t(n−1. ps = 0.1177 y tn−1.0.2516 ≤ Ps ≤ 0.5 = 0. τ ± t(n−1.7484.0.5 Por lo tanto: S ps = 10. 000.025) = 2. Sps = 0.1098)(0. 000 (0.α/2 Sps donde: ps = 0. ps ± tn−1.163 y el 74.5 ± (2. 000 ˆ e) Estime por intervalo del total verdadero de alumnos satisfechos.4 127 . 000 y ps = 0.5)(0.n yi ps = i=1 n = a 9 = = 0. n = 18. entre 25.5) = 5. d) Realice la estimación puntual del total verdadero de alumnos satisfechos.α\2) = t(17.α\2 = t17.1098 Por lo tanto: 5.2484 0.1177. S ps = N −n N p s qs n donde: N = 10.2484) 500 ± 248. 000 − 18 10.84 %. 000)(0.

7973 y 7.5) = 194 por alumnos (mues(10. 000)2 (2.15)(10.α\2) = t(17.5. f) Suponga que n = 18 alumnos es una muestra preliminar.075)2 + (2.2027 Por lo tanto. 000.1098)2 (0. qs = 0.α\2) )2 ps qs donde: N = 10.5) g) Suponga que n = 18 estudiantes es una muestra preliminar.1098)2 (0. La Secretaría de Salud del estado de Colima está interesada en conocer la cantidad de colimenses que al menos en una ocasión se ha enfermado de dengue. consecutivamente cada 500 se tomará a otra persona ( véase en el Cuadro 5.11).5)(0. t(n−1. 000)(0. ¿Cuál es el tamaño de muestra necesario para estimar la proporción verdadera con una precisión de 15 % de la proporción preliminar y una confiabilidad de 95 %? n= N (t(n−1. ps = 0.5.1098)2 (0.5.α\2) p s qs donde: N = 10. 000)(2.1098 y d = (0.5) Ejemplo 2.0.α\2) )2 ps qs N d2 + (t(n−1.484. 000)(2.5)(0.2027.15)(ps ) = (0. 000)(0.025) = 2.5) = 750 Por lo tanto: n= (10.1098 y d = (0.5)(0.025) = 2.5. El primer paso es estimar k: k= N 8000 = = 500 n 16 Esto significa que a la primera persona que se le preguntará será elegida aleatoriamente entre 1 y 500. a) Realice la estimación puntual de la proporción de colimenses que han padecido dengue. 128 . 515.1098)2 (0. 000 personas y se pretende encuestar a 16 personas. qs = 0.α\2) 2 p s qs 2 d2 + N t(n−1.5) = 194 alumnos (muestra) (750)2 + (10.5)(0. el total de alumnos satisfechos está entre 2.0.075 Por lo tanto: n= tra) (10. t(n−1. ¿Cuál es el tamaño de muestra necesario para estimar el total con una precisión de 15 % del total preliminar y una confiabilidad de 95 %? n= N 2 t(n−1. 484.Capítulo 5. El muestreo sistemático 2.5) = 0.7973 ≤ τs ≤ 7.15)(0. Supóngase que N = 8.515.α\2) = t(17. 000. ps = 0.

1081 c) Calcule un IC de 95 % para la proporción verdadera.187 0 1.187 0 7.687 1 4.0.025) = 2.α\2) = t(15.75) 16 = (0.25)(0. S ps = N −n N p s qs n donde: N = 8.687 0 5. ps = 0. Sps = 0.998)(0.187 0 2.75 ó 75 % que no han padecido la enfer- b) Halle la desviación estándar de la proporción muestral (SpS ).25 = 0.01081 y t(n−1. 000 − 16 8.687 0 2.25. 000 (0.687 0 3. ps ± t(n−1.187 0 4.187 0 6.α\2) Sps donde: ps = 0.25 y qs = 0. Núm.0117188) = 0.187 0 5. 000. de personas Respuesta 187 0 687 1 1.187 1 3. n = 16.687 0 n yi ps = do dengue medad i=1 n = a 4 = = 0.687 0 7.25 ó 25 % de colimenses han padecin 16 qs = 1 − ps = 1 − 0.Cuadro 5.687 1 6.1314 Por lo tanto: 129 .75 Por lo tanto: S ps = 8.11: Los colimenses que al menos en una ocasión se han enfermado de dengue.

25 ± (2. 000 ± (8000)(2. 000.025 = 2. 000 ± 1844. con una confiabilidad de 95 %.1081) 2. f) Suponga que los datos conformaron una muestra preliminar.75) g) Suponga que n = 16 es una muestra preliminar. d) Determine la estimación puntual del total verdadero de colimenses que han padecido dengue alguna vez.25 y N = 8.1314 y d = 0.4805.2305 0.1314)(0.25 ± 0. es decir. El muestreo sistemático 0.075 y una confiabilidad de 95 %? n= N (t(n−1.25) = 2.075 Por lo tanto: n= trales) (8.α\2) )2 ps qs N d2 + (t(n−1. ¿Cuál es el tamaño de 130 . la proporción verdadera de colimenses que ha padecido dengue alguna vez en su vida está entre 0.0 155.Capítulo 5. 000)(2.α\2) )2 ps qs donde: N = 8.844.0426.9574 y 3. 000.0.1081) 0. τ = N ps ˆ donde: N = 8.1314)2 (0.1314)(0.25)(0. τ ± t(n−1.4805 Por lo tanto.25 Por lo tanto: τ = (8.025) = 2. 000 y ps = 0. 000)(0. ps = 0. 000 ± (8.1314 ˆ Por lo tanto: 2.α\2) = t(15. t(n−1. 000 colimenses ˆ e) Encuentre por intervalo del total verdadero de colimenses que ha padecido dengue. ps = 0.075)2 + (2.0195 y 0.25. qs = 0.05 por ciento.75) = 149 colimenses (unidades mues(8.0.α\2 = t15. tn−1.75.0426 De ahí que el total de colimenses que han padecido dengue alguna vez en su vida está entre 155. 000)(0.2305) 2.25)(0. entre 1.95 y 48.α\2) N Sps ˆ donde: τ = 2.1314)2 (0. ¿Cuál es el tamaño de muestra necesario para estimar la proporción verdadera con una precisión de 0.0195 ≤ Ps ≤ 0.9574 ≤ τs ≤ 3844. 000. 000)(0.

25.12. qs = 0.25)(0.1314)2 (0.025 = 2. Cuadro 5. A continuación obtenemos k: dado que N 300 = = 15. 000)(2.α\2) )2 ps qs donde: N = 8.α\2 = t15.0.25)(0.muestra necesario para estimar el total con una precisión de 600 y una confiabilidad de 95 %? 2 N 2 (t(n−1. 131 .75) n = = 149 colimenses (mues(600)2 + (8.75) Ejemplo 3. de estudiantes Respuesta 11 0 27 1 43 0 59 0 75 0 91 1 107 1 123 1 139 0 155 0 171 0 187 0 203 1 219 0 235 1 251 0 267 1 283 0 299 1 a) Realice la estimación puntual para la proporción de estudiantes que cuentan con una licencia para conducir. 000)2 (2.1314)2 (0.75. 000. tn−1. Para realizar la estimación se toma una muestra sistemática de 19 estudiantes.7895. Se tiene una población de 300 estudiantes y se pretende saber cuántos de ellos poseen licencia para conducir.α\2) ) ps qs n= d2 + N (t(n−1.1314 y d = 600 por lo tanto: tra) (8. La encuesta arrojó los datos que están en el Cuadro 5. entonce k = 16 n 19 Dado que N no es multiplo de n por ello k = 16 (el entero más cercano) y el primer elemento se elige al azar entre el 1 y 300. ps = 0.12: Los estudiantes que tienen licencia para conducir Núm.

n = 19. N = 300. entre 19.α\2) N Sps ˆ donde: τ = 126.6514. ps = 0.0120094) c) Calcule un IC de 95 % para la proporción verdadera.89 % sin licencia b) La desviación estándar de la proporción muestral (Sp ).4211 = 0.5789 ó un 57. Sps = 0.α\2) = t(18.1907 ≤ Ps ≤ 0. es decir.4211) = 126.14 %.0120094 = 0.4211 ± (2.4211 Por lo tanto: τ = (300)(0. τ = N ps ˆ donde: N = 300 y ps = 0.025) = 2.α\2) Sps donde: ps = 0.4211 ± 0.101 ˆ 132 .3158 ˆ e) Construya un IC para el total verdadero de estudiantes que cuentan con licencia para conducir.1096) 0.101)(0.0. τ ± t(n−1. S ps = N −n N p s qs n donde: N = 300.4211 ó 42.07 y el 65. El muestreo sistemático n yi ps = cencia i=1 n = a 8 = = 0. con una confiabilidad de 95 %.1096 = = (0.6514 Lo anterior significa que la proporción verdadera de estudiantes que cuentan con una licencia para conducir está entre 0.1096 y t(n−1.1907 y 0.11 % de estudiantes con lin 19 qs = 1 − ps = 1 − 0.5789 Por lo tanto: S ps = 300 − 19 (0. Sps = 0.5789) 300 19 √ 0. ps ± t(n−1.0.1096 y t(n−1. d) La estimación puntual del total verdadero de estudiantes que tienen una licencia para conducir.4211)(0.025) = 2.936)(0.4211 y qs = 0.α\2) = t(18.3158.4211.2303 0.101 Por lo tanto: 0.Capítulo 5.

4211)(0.2227 ≤ τs ≤ 195.4211)(0.42) = 12.1096) 126.α\2) = t(18.4211. el IMSS desea conocer cuantos de sus asegurados contrajeron gripe o tos por lo menos una vez en los últimos 6 meses.4211)(0. t(n−1.04211 Por lo tanto: n= (300)(2.α\2) )2 ps qs donde: N = 300.5789) g) Suponga que n = 19 estudiantes es una muestra preliminar.2303) 126.101)2 (0. a) La estimación puntual de la proporción.101)2 (0.101)2 (0.000 pacientes. t(n−1.10)(p) = (0. ps = 0.0931 57.13) N 12000 = = 545.0.5789) Ejemplo 4.4545 ⇒ k = 545 n 22 De igual forma como N no es multiplo de n por ello k = 545 y el primer elemento se elige al azar de entre el 1 y 12.3158 ± (300)(0.000.3158 ± 69.4089 f) Suponga que n = 19 estudiantes es una muestra preliminar.025) = 2.3158 ± (300)(2.α\2) ) ps qs d2 + N (t(n−1.101)(0.4211)(0. qs = 0.α\2) )2 ps qs 2 donde: N = 300. Con la finalidad de saber la necesidad de implementar una campaña de vacunación. 133 .0. Tiene 12.4211. qs = 0.101)2 (0.025) = 2. ps = 0.5789.633)2 + (300)(2.5789) = 201 estudiantes (mues(12.101 y d = (0.633 Por lo tanto: n= tra) (300)2 (2. ¿cuál es el tamaño de muestra necesario para estimar el total verdadero con una precisión de 10 % del total preliminar y una confiabilidad de 95 %? n= N 2 (t(n−1.4211) = 0.5789) = 201 estudiantes (muestra) (300)(0.5789.04211)2 + (2.Por lo tanto: 126. Por lo tanto.α\2) = t(18.10)(300)(0.10)(0. ¿Cuál es el tamaño de muestra necesario para estimar la proporción verdadera con una precisión de 10 % de la proporción preliminar y una confiabilidad de 95 %? N (t(n−1. de los cuales decide tomar una muestra de 22 pacientes (cuadro 5.α\2) )2 ps qs n= N d2 + (t(n−1.101 y d = (0.

000 − 22 (0.696 1 11. El muestreo sistemático Cuadro 5.13: Los asegurados que contrajeron gripe o tos por lo menos una vez en los últimos seis meses Núm.010453876 = 0.606 0 10.336 0 6.6364 ó 63.976 1 2.241 0 11.066 0 3.010447) c) Un IC de 95 % para la proporción verdadera.611 1 4.36 y qs = 0. 000.701 1 5. n = 22.3636)(0. S ps = N −n N p s qs n donde: N = 12.061 1 9. 000 22 √ = 0.9982)(0. 134 .36 = 0.64 Por lo tanto: S ps = 12.881 0 7.431 0 1.6364) 12.4 % n 22 qs = 1 − ps = 1 − 0.151 1 10. ps = 0.786 0 n yi ps = i=1 n = a 8 = = 0.791 1 6.971 0 8.246 0 5.Capítulo 5.3636 ó 36.156 1 4. de paciente Respuesta 341 0 886 0 1.516 0 9.521 0 3.6 % b) La desviación estándar de la proporción muestral (Sps ).426 0 7.1025 = (0.

10)(0.6364 asegurados que han contraído ˆ gripe o tos.67 %.6364 ± (12. 557. 000)(0. 000)(0. 363.6364.3636.α\2) = t(21. ps = 0.025) = 2.0796 y d = (0.ps ± t(n−1.0796 ˆ Por lo tanto: 4. τ = N ps ˆ donde: N = 12.10)(p) = (0. 000)(0. con una confiabilidad de 95 %. t(n−1.1025) 4. 000)(2. 000 y t(n−1.5790 ≤ τs ≤ 6.03636 por lo tanto: n= (muestra) (12.0796 Por lo tanto: 0.3636) = 0.05 y el 57. τ ± t(n−1.0.α\2) = t(21.1025) 0.3636)(0.3636.α\2) N Sp donde: τ = 4.2131 0. ps = 0. d) La estimación puntual del total. qs = 0.6364 ± 2.6937 f) Suponga que 22 asegurados constituyen una muestra preliminar. N = 12.908 1.6364 ± (12. 363.3636) = 4.3636 ± (2. e) Un IC para el total verdadero de asegurados que han contraído gripe o tos en los últimos seis meses. 920.3636 Por lo tanto: τ = (12.2131) 4.6364) 135 .α\2) )2 ps qs donde: N = 12. Sps = 0.3636 ± 0.025) = 2.5767 Por lo tanto.0796)(0. 000)(2.α\2) = t(21. 806.6364.3636)(0. 363. 000.0796)(0.0.03636)2 + (2.6364) = 713 asegurados (12.0796)2 (0. 000 y ps = 0.1025. ¿Cuál es el tamaño de muestra necesario para estimar la proporción verdadera con una precisión de 10 % de la proporción preliminar y una confiabilidad de 95 %? n= N 2 (t(n−1.α\2) )2 ps qs d2 + N (t(n−1. 363.α\2) Sps donde: ps = 0. 363.1505 ≤ Ps ≤ 0. la proporción verdadera de asegurados que han contraído gripe o tos en los últimos seis meses entre 15.0796)2 (0.0.1025 y t(n−1.025) = 2.

Con la finalidad de estimar el porcentaje de albañiiles a los que les gusta la cerveza. 000.3636)(0. ps = 0. Muestra Consume 2 7 0 7 607 1 1 107 1 8 707 0 3 207 0 9 807 1 4 307 1 10 907 1 5 407 0 11 1007 1 6 507 1 12 1107 1 Ejercicio 2. 000)(2. 000 colchones por semana.6. Los resultados se presentan en el cuadro (5.32)2 + (12.0796 y d = (0. Ejercicios En los siguientes ejercicios estime los parámetros siguientes: a) El IC para la proporción y el total con una confiabilidad de 95 %.6364) = 713 asegurados (436.6364) 2 5.15).10)(12. Una empresa constructora tiene empleados a N = 1. No. t(n−1.α\2) = t(21. El muestreo sistemático g) Suponga que n = 22 asegurados en realidad es una muestra preliminar.15: Albañiles que consumen cerveza Obs.α\2) )2 pq donde: N = 12.07966)2 (0.32 Por lo tanto: n= (muestra) (12. Use la información del cuadro (5. b) Suponga que la muestra en cada ejercicio es una muestra preliminar. Cuadro 5. 200 albañiles para una mega construcción.Capítulo 5. se toma una muestra sistemática de n = 12 albañiles. qs = 0.16). Una empresa que produce N = 5.0796)2 (0. Muestra Consume Obs. ¿Cuál es el tamaño de muestra para estimar la proporción y el total de tal manera que sean estimados con una precisión de 6 % de la proporción y el total preliminar con una confiabilidad de 95 %? Ejercicio 1. 000)2 (2.6364. 136 . decide tomar una muestra sistemática de n = 10 colchones.3636.3636) = 436. el objetivo es estimar el porcentaje de colchones que no cumplen con los requerimientos de calidad.025) = 2.3636)(0. No. Por lo tanto. 000)(0.0.α\2) ) pq n= 2 d + N (t(n−1. ¿cuál sería el tamaño de muestra necesario para estimar el total con una precisión de 10 % del total preliminar y una confiabilidad de 95 %? N 2 (t(n−1.

18: colimenses que han visitado Palenque.16: Muestra de colchones. Cuadro 5. Muestra Respuesta Obs. Obs. Obs.17: colimenses que han visitado Francia. No. Muestra Respuesta 1 300 0 11 5300 0 2 800 0 12 5800 0 3 1300 1 13 6300 0 4 1800 0 14 6800 1 5 2300 1 15 7300 0 6 2800 0 16 7800 0 7 3300 1 17 8300 1 8 3800 0 18 8800 0 9 4300 1 19 9300 0 10 4800 0 20 9800 1 Ejercicio 4.18). Chiapas. No. No. De esta población se extrae la muestra sistemática de n = 10 individuos. Muestra Respuestas Obs. La Secretaría de Turismo de México desea conocer el porcentaje de colimenses que han visitado la ciudad maya de Palenque. Muestra Respuestas 1 100 0 6 5100 0 2 1100 0 7 6100 0 3 2100 1 8 7100 0 4 3100 0 9 8100 0 5 4100 1 10 9100 0 137 . No. 000 personas. La embajada Francesa en México desea conocer el porcentaje de colimenses que han visitado Francia.17). Use la información del cuadro (5. 000 personas de las cuales se toma una muestra sistemática de n = 20 individuos. Muestra Cumple Obs. Cuadro 5.Cuadro 5. supóngase que la población del estado de colima es de N = 10. Use la información del cuadro (5. Obs. Se supone que la población del estado de Colima es de N = 10. No. No. Chiapas. Muestra 1 210 1 6 2710 2 710 1 7 3210 3 1210 0 8 3710 4 1710 0 9 4210 5 2210 1 10 4710 Cumple 1 1 1 1 1 Ejercicio 3.

Capítulo 5. El muestreo sistemático 138 .

las unidades muestrales (ahora llamadas unidades de muestreo primarias o conglomerados) están constituidas por varios elementos (o unidades de muestreo secundarias). Es decir. ahora presentamos otro diseño de muestreo. laboriosa e ingeniosa. Tan querida por ser útil. objetiva y muy precisa. mientras que los primeros nos auxilian para hacer la selección aleatoria. sobre las que se hará la medición o evaluación de la característica de interés (Pérez. las cuales son grupos de elementos (o unidades de muestreo secundarias). Esas opciones pueden ser diferentes en cuanto a costo. OAML E el estudio del diseño de encuestas o muestreos existen diferentes opciones para estimar un parámetro. la estadística había sido tan querida y repudiada. a diferencia de los anteriores. Definición: La muestra por conglomerados Una muestra obtenida aleatoriamente de coglomerados (de la misma forma que en el muestreo simple aleatorio). N En los diseños de encuestas las unidades muestrales se pueden definir de diferentes formas. Este es el principio del diseño. en éste diseño se extrae bajo MAS una muestra de tamaño n de conglomerados donde cada conglomerado es una colección de elementos o conglomerados. Como se sabe. Repudiada. si se desea realizar una selección aleatoria de unidades. 2000 [3]).Capítulo 6 El muestreo por conglomerados en una etapa Nunca antes en su historia. en donde a las unidades de muestreo primarias definidas les llamaremos conglomerados. En ocasiones resulta absurdo intentar aplicar alguna de ellas a una población con ciertas características. que revisamos en este capítulo. En el caso del muestreo por conglomerados. debemos contar con el marco de muestreo adecuado. por compleja. En ocasiones no es posible 139 . Por esto. en estos últimos se realizará la medición. precisión o facilidad de aplicación se refiere. que proporciona herramientas valiosas.

y además. En el muestreo por conglomerados este costo se reduce sustancialmente. los cuales son: Que las unidades que conforman cada conglomerado sean lo más diferentes entre sí. Dado que cada problema tiene características propias.Capítulo 6. ya que al levantar la información de elementos contiguos o muy cercanos entre sí se evita el costo de transportación y puede operarse también aun sin tener un marco de muestreo completo. dos o más etapas. 140 . es decir. La decisión se toma de acuerdo con la precisión que se quiera. Por ejemplo. Si se tratara del control de calidad de cajas de artículos electrónicos podríamos designar a las cajas como conglomerados (sitios de muestreo) o en el caso de la evaluación nacional de salud. en la población de un municipio deseamos conocer cierto parámetro. entonces la definición de conglomerados. colonias o barrios. esto se puede ver claramente en poblaciones grandes y dispersas. únicamente se puede hablar de aspectos generales que es necesario que satisfagan los conglomerados. a un costo mínimo. es decir. se elegirían hospitales. es importante tener claro lo que será considerado como conglomerado. también la tendrá. además de que el costo del muestreo crece al tener que medir unidades separadas entre sí por una gran distancia física.1. Por ello el muestreo por conglomerados. centros de salud. que estén lo más próximo posible unas de otras. Aún cuando fuese posible contar con un marco que contenga la lista de todos los elementos de la población. cuando se presentan las siguientes situaciones: Cuando no se encuentra disponible. Por lo tanto. 2000 [3]). ya que éstos pueden ser naturales o convenientemente determinados. etcétera (Pérez. los objetivos o cualquier criterio que sea de interés para el investigador. El muestreo por conglomerados en una etapa tener el marco de muestreo u obtenerlo es costoso. es posible disponer fácilmente de un marco que contenga la lista de todos los conglomerados de la población. en una. es decir. ¿Qué puede ser un conglomerado? En diseños como éste. el costo aumenta como consecuencia de la distancia existente entre unidades de estudio. Que los conglomerados sean lo más similares entre sí. es un diseño de muestreo efectivo para obtener una cantidad específica de información. la selección de una muestra aleatoria simple ocasionaría costos excesivamente altos. homogéneos entre sí. que las unidades dentro de cada conglomerado sean lo más heterogéneas y cercas entre sí. no es confiable o es muy caro obtener un marco que contenga la lista de los elementos de la población. Los conglomerados podrían agrupar manzanas. sin embargo. la información disponible. 6.

es decir. 141 . 6. Para una mayor precisión. En el diseño de muestreo por conglomerados en una etapa. cada conglomerado de la muestra será censado (Cochran. los conglomerados deben ser muy similares. Muestreo por conglomerados Menor precisión con relación al muestreo simple aleatorio. Los estratos deben contener elementos que sean muy homogéneos entre ellos. Pero las técnicas de muestreo probabilístico cubren estas posibilidades. las colonias no tienen el mismo número de habitantes. La varianza de la estimación de la media depende de la variabilidad de los valores dentro del estrato. debido a la uniformidad del proceso de producción y empaque. etc. Una comparación con el muestreo estratificado Muestreo estratificado Mayor precisión con relación al muestreo simple aleatorio. es decir. por lo que no hay de que preocuparse. esos elementos quedarán automáticamente seleccionados al elegir el conglomerado en la muestra. con la diferencia que el aleatorio simple utiliza unidades muestrales elementales.Si una encuesta por conglomerados se aplicara a cajas que contienen productos terminados. entonces en este caso todos los conglomerados contendrían el mismo número M de productos terminados o elementos (unidades de muestreo secundarias). los sitios de muestreo forestal tampoco contendrán el mismo número de árboles. pero es evidente que los casos con estas características no son los más frecuentes y que en general encontraremos conglomerados de tamaños desiguales. mientras que el muestreo por conglomerados. En este ejemplo diremos que los conglomerados son de tamaño homogéneo. considera grupos de unidades elementales. 1985 [1]). la diferencia debe ser grande entre estratos. cabe señalar que entre este diseño y el aleatorio simple existe una gran similitud en cuanto a las expresiones relacionadas con el tamaño de muestra. En el diseño de muestreo el investigador elige los conglomerados aleatoriamente y mide todos sus elementos. La varianza de la estimación de la media depende de la variabilidad que existe entre las medias de los conglomerados. Para obtener una mayor precisión. Los conglomerados deben contener elementos lo más heterogéneos posible entre ellos. Además. se asume que todos los elementos incluidos en los conglomerados seleccionados y que constituyen la muestra serán estudiados.2. Además.

Notación N : el número de conglomerados en la población o unidades de muestreo primarias (U M P ) que cubre a toda la población. Por ejemplo. sino otro en dos etapas. En el muestreo por conglomerados se seleccionan algunos de ellos y de los seleccionados se miden todas las unidades. Pérez (2000) [3].3. Mi yij yi. el conjunto a censar sería demasiado grande.. Comparación gráfica del muestreo estratificado vs el de conglomerados. Acerca del tamaño del conglomerado Es importante resaltar que el conglomerado debe ser de un tamaño ”moderado ” o de tal naturaleza que todas las observaciones (observación j en el conglomerado i) puedan obtenerse con relativa facilidad. . τi = yi . En el estratificado se seleccionan algunas unidades de cada estrato. = ¯ j=1 Mi : la media a nivel de U M S del conglomerado i.. Sin embargo. ¯ M : el número promedio de U M S por U M P (o conglomerado) en la población. no es difícil imaginar situaciones en las que el conglomerado sea grande.. si los conglomerados elegidos son conjuntos de viviendas de 120 manzanas y de ellas deben ser elegidos todos los niños menores de 6 años. o si el conjunto fuera un archivero y tuviera miles de hojas y fuera necesario calcular estimaciones por hoja. 6. : el total del conglomerado i. N . N M = i=1 Mi : el número de elementos o unidades de muestreo secundarias en la población. n: el número de conglomerados seleccionados de una muestra simple aleatoria. El muestreo por conglomerados en una etapa Figura 1.Capítulo 6. Mi : el número de elementos o unidades de muestreo secundarias (U M S) en el conglomerado. sin traslapes. i = 1. en tales casos es razonable pensar que el esquema de muestreo por conglomerados en una etapa no es apropiado. 2. 142 .

El punto en el subíndice simboliza todas las U M S del conglomerado i. µ.4. = ¯ τ= i=1 i=1 N N : el total promedio por U M P . τ . La estimación de una media y un total poblacional con M conocida El muestreo por conglomerados es muy conveniente cuando el costo de llegar a las unidades primarias es muy alto con relación al costo de medir las unidades secundarias dentro de un conglomerado. A continuación se presentan los estimadores suponiendo una muestra aleatoria de n conglomerados y que cada uno contiene M i elementos (Scheaffer.1) Mi i=1 i=1 Mi 143 . τi es el volumen total del sitio (para un conglomerado incluido en la muestra. M yij = : el valor de la j-ésima U M S en el i-ésimo conglomerado. lo cual nos lleva al diseño de muestreo conglomerado en dos etapas que no está al alcance de este libro. 6. y el total.N yi. Sin embargo. τ es el volumen de toda la población y µ es el volumen promedio por árbol. y. µ = yc = ˆ ¯ i=1 n yij = i=1 j=1 n (6. se obtienen de manera similar. las observaciones individuales yij incluyen los volúmenes por árboles que hay. 6. τ µ= : la media a nivel de U M S.4. es importante observar que los datos del muestreo por conglomerados permiten obtener estimaciones a diferentes niveles de la población. digamos mi entre las M i U M S. N Mi τi = i=1 j=1 yij : el total de la población. se sigue el mismo procedimiento que en el muestreo simple aleatorio.1. Para elegir los conglomerados (U M P ) que estarán en la muestra. 1987 [2]). Pudiera darse el caso de que se seleccione sólo una parte del conglomerado. El estimador de la media poblacional n n Mi yi. por lo que los estimadores de la media. M i se refiere al número de U M S que contiene el conglomerado i. pues se contabilizan a todos los árboles del sitio). en una encuesta sobre los sitios para medir la cantidad de madera de árboles. Es decir.

4.5) (6.4. El muestreo por conglomerados en una etapa 6. − yc Mi )2 ¯ n−1 (yi. 1987 [2]). una idea acerca de la precisión de las estimaciones.4) se puede ¯ ˆ calcular sus correspondientes intervalos de confianza.2) del promedio y del total son de U M S en toda la población (Scheaffer. − yc Mi )2 ¯ n−1 ¯ = NM 2 i=1 n = N2 i=1 Al conocer los estimadores de las varianzas de yc y τc (6.     =M     Mi   n i=1 n i=1 τi      Mi  (6. El intervalo de confianza de la media y el total yc ± t(n−1.3. Se necesita la varianza de estos estimadores para conocer la dispersión de los datos y para saber la precisión de las estimaciones.4.   τ c = M yc = M  ˆ ¯   i=1 n i=1 yi.6) 144 .3 y 6.1 y 6.Capítulo 6. El estimador del total poblacional  n Debe quedar muy claro que los estimadores (6. − yc Mi )2 ¯ n−1 (yi.2) 6. pero pueden ser aceptables si n es "grande"(digamos n > 30) y el sesgo desaparecería si los tamaños de los conglomerados fueran iguales (todas las Mi iguales).α/2) ˆ ˆ y V (¯c ) ˆ τ V (ˆc ) (6. La varianza estimada de yc y τc ¯ ˆ n ˆ y V (¯c ) = N −n N 1 n 1 ¯2 M i=1 (yi. lo que dará los límites en los que se encuentran las estimaciones. Si se substituye n por N se obtendrían los parámetros µ y τ .2.3 y 6.3) (6.4) son sesgadas. Estas varianzas se muestran a continuación. Es importante mencionar que los estimadores de las varianzas obtenidos con las ecuaciones (6. 6.4.α/2) ¯ τc ± t(n−1.4) ˆ τ ˆ ˆ y V (ˆc ) = V (M yc ) = M 2 V (¯c ) ¯ n = M2 N −n N N −n N 1 n 1 n N −n N 1 ¯2 M 1 ¯ M2 1 n i=1 n (yi. es decir. − yc Mi )2 ¯ n−1 (6.

en algunas ocasiones los conglomerados ya están definidos por algún esquema y no es posible construirlos de tal forma que el diseño sea más eficiente. Es decir. se complica la decisión sobre el número de conglomerados necesarios para conseguir una cantidad específica de información concerniente a un 2 parámetro poblacional. Obsérvese que a diferencia de los diseños anteriores. al no conocer σc o el tamaño promedio del conglomerado. Si este fuera el caso. usaríamos los estimadores de σc y ¯ M que podrían estar disponibles en encuestas previas o. ˆ ˆ V (θ) (6. pero que en su interior mantengan una marcada heterogeneidad. digamos n. Supondremos que el tamaño del conglomerado es fijo y nos interesa saber el número n de conglomerados que seleccionaremos. lo cual representa una desventaja en cuanto a la precisión. en el diseño por conglomerados se busca exactamente la situación inversa al diseño estratificado ya que formaremos conglomerados que sean homogéneos entre ellos. obtenerse a través de una encuesta piloto seleccionando una muestra preliminar.α/2 ˆ ˆ V (θ) . el tamaño del límite para el error de estimación depende de la variación entre los totales de conglomerados. ˆ De la expresión anterior (6. 145 . d = tn−1. La determinación del tamaño de muestra La precisión de las estimaciones depende del tamaño de la muestra y del modo en que esté conformada. esta condición también puede representar una ventaja ya que al utilizar un muestreo por conglomera-do.4. Por otro lado. de tal forma que el diseño resulte casi tan preciso como la selección aleatoria. que haya valores superiores a la media general y otros menores a ella. es así que confirmamos que para obtener límites pequeños de error de estimación debemos seleccionar conglomerados con la menor variación posible entre estos totales. Además. Procediendo de manera análoga a los diseños anteriores.5. llamado precisión. Así pues.6. Sin embargo.7) y con θ = yc se despeja n para obtener el ¯ tamaño de muestra. en todo caso.α/2) es el error asociado a la estimación. y con esta información podemos calcular el tamaño de muestra n. es decir. no requerimos de un marco de muestreo de elementos.7) ˆ donde θ representa el estimador del parámetro de interés. t(n−1. la muestra por conglomerados también será definida por el tamaño relativo de los conglomerados. De la misma manera que 2 en los diseños anteriores.

− yc Mi )2 ¯ n−1 6. El tamaño de muestra para estimar el total usando M yc ¯ n= n 2 N 2 (tn−1. − yc Mi )2 ¯ n−1 Para determinar el tamaño de muestra con base en τc .4. se procede de forma similar a la anterior dado que V (ˆc ) = V (M yc ) = M 2 V (¯c ). 146 . utilizando este τ ¯ y resultado es fácil llegar a la siguiente ecuación para el tamaño de muestra para estimar τ . El muestreo por conglomerados en una etapa El tamaño de muestra para estimar el promedio 2 N t(n−1.α/2) σc n= 2 2 ¯ N M 2 d2 + t(n−1.α/2) σc n 2 2 σc es estimada por s2 = c i=1 (yi. Así. se toma una muestra aleatoria simple de 5 grupos. La Universidad de Colima tiene 10.6.α/2 2 σc 2 σc es estimada por s2 = c i=1 (yi. Con la finalidad de estimar el gasto promedio por estudiante en útiles escolares.2). y de cada grupo se le pregunta a cada integrante sobre su gasto en útiles escolares (cuadro 6. Ejemplos Ejemplo 1.α/2 )2 σc 2 d2 + N tn−1.Capítulo 6.000 estudiantes inscritos en 220 grupos con diferente número de estudiantes.

= 3. 716 147 . 238 y4. = 3.2: El gasto en útiles escolares por estudiante (en pesos). = 3. 184 y3. = 3. 094 y5.Cuadro 6. Grupo 1 104 86 114 106 74 125 114 90 98 120 97 99 112 112 104 125 93 129 81 78 121 93 114 92 107 114 101 101 98 92 Grupo 4 91 84 70 79 92 131 88 96 99 100 77 69 83 70 81 67 70 112 100 104 87 81 101 94 126 102 69 78 122 73 102 123 109 122 90 94 y2. 302 Grupo 2 107 106 101 97 64 109 97 102 93 121 130 90 98 107 114 89 89 72 116 111 93 67 94 79 91 114 109 109 121 112 103 79 Grupo 3 96 108 114 124 103 98 96 103 124 103 105 104 99 104 100 110 102 107 102 112 116 101 106 114 94 109 91 96 99 83 115 Grupo 5 113 118 105 96 119 118 113 97 127 119 115 100 80 94 113 128 92 82 124 74 122 87 89 132 94 88 134 111 141 91 127 123 136 114 y1. = 3.

45: el número promedio de estudiantes por grupo N yc = 101. M2 = 32. − yc Mi )2 ¯ 148 . τ c = M yc ˆ ¯ donde: M = 10. 302 + 3. M4 = 36 y M5 = 34 :tamaño de cada conglomerado seleccionado Por lo tanto: yc = ¯ 3.4356: el gasto promedio en útiles escolares por estudiante ¯ ˆ y V (¯c ) = (yi. 000: el total de estudiantes en la población M1 = 30. µ = yc = ˆ ¯ i=1 n yij = i=1 j=1 n Mi i=1 i=1 Mi donde: N = 220: es el número total de grupos en la población n = 5: el número de grupos o conglomerados seleccionados M = 10. n n Mi yi. El muestreo por conglomerados en una etapa Determine lo siguiente: a) Encontrar la media. 534 = = 101. 000: el total de estudiantes en la población yc = 101. 000 : el total de estudiantes en la población N = 220 : el total de grupos n = 5: el número de grupos o conglomerados seleccionados M ¯ M= = 45. 716 16. 094 + 3. n N −n 1 i=1 donde: ¯ N n−1 nM 2 M = 10. 000)(101. 184 + 3. 014.4356: el gasto promedio en útiles escolares por estudiante ¯ Por lo tanto: τc = (10. M3 = 32.Capítulo 6.8282 pesos ˆ c) Calcular la varianza y la desviación estándar de la media. 238 + 3.4356)= 1.4356 30 + 32 + 31 + 36 + 34 163 b) Hallar el total. 355.

716 − (101.0. 355.1318)(2. ˆ ˆ τ ˆ y V (ˆc ) = M V (¯c ) = (10.α/2 σc 2 donde: 2 σc es estimada por s2 = c n i=1 (yi.1318)(22.1353 966.α/2) = t(5−1.α/2 = t5−1. 378. 094 − (101. .1318. 733. 355.α/2 σc n= 2 2 ¯ N M 2 d2 + tn−1. 000 − 5 × 10.α/2 V (ˆc ) ˆ donde: τc = 1.1734 e) Calcular un IC de 90 % para el total. 355. tn−1.8282 ± (2. 223.2224 Por lo tanto: 101.8282. 014.1/2) = 2.0.1/2 = 2.Por lo tanto: ˆ y V (¯c ) = 1 10.2224) 101. 000 (5)(45. − yc Mi )2 ¯ n−1 149 .45)2 (3.8282 ± 47. . 014.6930 ≤ τc ≤ 1. ˆ τ τc ± tn−1.4356 ± 4.6978 ≤ µc ≤ 106.861 Por lo tanto: 1. 000)(2. 977.9391 = 2. ¿Cuál es el tamaño de muestra necesario para estimar la media poblacional con una precisión de 4 % de la media preliminar y una confiabilidad de 90 %? 2 N tn−1. yc ± t(n−1.4356 ± (2. + (3.α/2) ¯ ˆ y V (¯c ) donde: yc = 101.9391 5−1 √ ˆ y V (¯c ) = 4.4356)(30))2 + . 061. 223.4356: el gasto promedio en útiles escolares por estudiante ¯ t(n−1.2224)=22.7377 96.2224 d) Construir un IC al 90 % para la media poblacional µc .9635 f) Suponer que n = 5 grupos es una muestra preliminar.4356)(34))2 = 4. 014.861) 1.1318 ˆ y V (¯c ) = 2.

8943) = 6. (220)(45. . 355. 014.7616 grupos.0574 Por lo tanto: n= (220)(2.7616 grupos (40.8943 s2 = c 5−1 d = (0.1/2 = 2.α/2 = t5−1.8943) g) Suponer que n = 5 grupos es una muestra preliminar. .1318)2 (52.4356)(34))2 = 52. 094 − (101. 209. 094 − (101.4356: el gasto promedio en útiles escolares por estudiante ¯ N = 220 : el total de grupos n = 5: el número de grupos o conglomerados seleccionados M ¯ = 45. 574. n Mi n yi.1/2 = 2. 014.0. µ c = yc = ˆ ¯ i=1 n yij = i=1 j=1 n Mi i=1 i=1 Mi 150 .1318)2 (52.4356) = 4. 209.1318)2 (52. a) Estimar el promedio de carbohidratos por refresco.1318 (3.04)(101.8282 ˆ N = 220 : el total de grupos n = 5: el número de grupos o conglomerados seleccionados tn−1. 209. − yc Mi )2 ¯ n−1 τc = 1. Con la finalidad de conocer si el proceso de producción cumple con el contenido de carbohidratos.0574)2 + (2. 209.4356)(30))2 + . + (3. 716 − (101.4356)(30))2 + . 716 − (101. . cierto día se selecciona una muestra aleatoria simple de 6 rejas (cuadro 6.1318 (3.8943) Ejemplo 2. + (3.2331)2 + (220)(2.4).8282) = 40. 209.8943 sc = 5−1 d = (0.45)2 (4. 355.2331 Por lo tanto: n= (220)2 (2.0. El muestreo por conglomerados en una etapa yc = 101.45: el número promedio de estudiantes por grupo M= N tn−1. 574.α/2 = t5−1.Capítulo 6.α/2 n 2 σc i=1 (yi. ¿Cuál es el tamaño de muestra necesario para estimar el total poblacional con una precisión de 4 % del total preliminar y una confiabilidad de 90 %? n= donde: 2 σc es estimada por s2 = c 2 N 2 (tn−1. 209.8943) = 6. .1318)2 (52.04)(1. La empresa Peñafiel procesa 1.α/2 )2 σc 2 d2 + N tn−1.4356)(34))2 2 = 52. 000 rejas de refresco por día.

7 7.9 7.8 7.6 7.2 7 7.4 7 7.2 7.4 7.8 7.7 6. 000: el total de refrescos producidos en ese día yc = 7.9 7. = 168.1 7.1 7.3 7.4 y4.8 7.1 7.7 7.8 7.2 7.7 6.9 6.8 7.5 6.8 8 6.8 7.2 y3.3 7.8 = = 7.9 7.7 7 7.7 7 7. 000: el total de refrescos producidos en ese día M1 = 24.7 6.1 8.9 7.6 6.4 7.4 7.9 7.9 7.2 7.1 7.7 7.7 7.9 7.4 7.3 7.8 6.4 7.2 7.6 7.8 6. M5 = 24 y M6 = 24: número de refrescos por cada reja Por lo tanto: 168.9 7.8 6.6 7.2 7.4 7.1 7.3 + 180. = 162.9 donde: n = 6: el número de rejas seleccionadas M = 24.4 7.3 7.8 7.1 7.2 7.2 7.3 y2.7 7. M2 = 24.6 7.9 1. 051.6 6.5 6.5 7.4 7.6 7 7.3 7.9 8 7.7 8 6.9 7.1 7.5 7.7 6.7 7.1 7.2 + 171.6 8 6. = 180.4 7.7 7.5 6.3 7.2 7.5 7.5 6. = 171.6 7.9 6.3042: el contenido promedio de carbohidratos por refresco ¯ 151 .3 7.2 7.7 7.8 7.4: El contenido de carbohidratos por reja de refresco Reja 1 Reja 2 Reja 3 Reja 4 Reja 5 Reja 6 6.7 6.7 6.8 6.9 7.8 6. yc = ¯ b) La estimación del total de carbohidratos producidos τ c = M yc ˆ ¯ donde: M = 24.4 7.1 7.2 7.8 7.9 y1.6 7.Cuadro 6.8 6.4 6.6 8 6.3 7.8 7.2 7.6 6.9 7.1 7.4 + 183 + 186 + 162.8 7 7.8 6.6 7. M4 = 24.8 6.5 7.7 7.5 7. M3 = 24.6 6.7 7.6 6.2 7.1 7 6.3042 car24 + 24 + 24 + 24 + 24 + 24+ 144 bohidratos promedio por refresco. = 183 y5.8 6.8 7. = 186 y6.2 7.3 7.7 7.2 7.6 7.4 7.5 6.

.8 ± (2.1/2 = 2. 000)(7. 000: el total de refrescos producidos en ese día N = 1. n ˆ y V (¯c ) = N −n N 1 ¯ nM 2 i=1 (yi.0150 ˆ y V (¯c ) = 0.8 carbohidratos producidos ˆ c) La estimación de la varianza de la media.3042)(24))2 = 0.α/2 = t6−1.8 ± 7. 711.Capítulo 6.1546 Por lo tanto: 7. 478.0239 6−1 d) Calcular un IC de 90 % para la media poblacional.0150 ˆ ˆ τ ˆ y V (ˆc ) = M V (¯c ) = (24. 300.8.3042: el contenido promedio de carbohidratos por refresco ¯ Por lo tanto: 24.α/2 V (ˆc ) ˆ donde: τc = 175.6158 e) Calcular un IC de 90 % para el total. 000 − 6 1 ˆ y V (¯c ) = × 24. 300.α/2) ¯ ˆ y V (¯c ) donde: yc = 7.0.1536) = 3.3042: el contenido promedio de carbohidratos por refresco ¯ tn−1.0150)(0.α/2 = t6−1. 000)(0. 000 yc = 7.5380 Por lo tanto: 175.3042)= 175. El muestreo por conglomerados en una etapa Por lo tanto: τc = (24. 300. 000 ¯ M= = = 24: el número promedio de refrescos por reja N 1. 300.1546) 7. + (162.3042)(24))2 + . − yc Mi )2 ¯ n−1 donde: M = 24. 711.9287 152 .5380) 175.9 − (7.3 − (7. 000: las rejas de refresco producidas n = 6: el número de rejas seleccionadas M 24. 000 (6)(24)2 (168.0. yc ± t(n−1.3042 ± 0.1/2 = 2.0150)(3. ˆ τ τc ± tn−1. tn−1. .3116 6.3042 ± (2.9925 ≤ µc ≤ 7.

8) = 7. 821.1/2 = 2.167.3042: el contenido promedio de carbohidratos por refresco ¯ N = 1.2922 Por lo tanto: n= (1.0713 ≤ τc ≤ 182. 012.α/2 )2 σc d2 + N tn−1. − yc Mi )2 ¯ n−1 τc = 175.2922)2 + (2. 000 M ¯ = = 24: el número promedio de refrescos por reja M= N 1.0.0713 y 182.9287 f) Suponga que n = 6 rejas es una muestra preliminar.0150 (168.3042)(24))2 + . Por tanto. .032 Por lo tanto: 153 .0. 000)(2.α/2 σc 2 donde: 2 σc es estimada por s2 = c n i=1 (yi.0150)2 (83.1520) g) Suponga que n = 6 rejas es una muestra preliminar.1520) = 6.8201 rejas (1.9 − (7.0150 (168.1520 sc = 6−1 d = (0. − yc Mi )2 ¯ n−1 yc = 7. 778.3 − (7. 300.3042)(24))2 2 sc = = 83. ¿Cuál es el tamaño de muestra para estimar la media verdadera con una precisión del 4 % de la media preliminar y una confiabilidad de 90 %? 2 N tn−1. 778.3 − (7. ¿cuál es el tamaño de muestra para estimar el total verdadero con una precisión del 4 % del total preliminar y una confiabilidad del 90 %? n= donde: 2 σc es estimada por s2 = c n 2 N 2 (tn−1.04)(7. + (162. 821.04)(175. . con 90 % de confianza el total de carbohidratos en la población se ubica entre 167.α/2 = t6−1.8 ˆ N = 1.1/2) = 2. .3042)(24))2 2 = 83. 000 : las rejas de refresco producidas n = 6: el número de rejas seleccionadas tn−1.9287 Es decir.α/2) = t(6−1.3042) = 0. + (162.0150)2 (83.α/2 2 2 σc i=1 (yi. 300.9 − (7. . 000 t(n−1. 000)(24)2 (0. 000 : las rejas de refresco producidas n = 6: el número de rejas seleccionadas 24.1520 6−1 d = (0.3042)(24))2 + .α/2 σc n= 2 2 ¯ N M 2 d2 + tn−1.

Cuadro 6.5. M2 = 10. Realizar los cálculos que a continuación se piden. por esta razón se listan los 4. = 17 y5.Capítulo 6.032)2 + (1. 012. Los costos de transportes de un lugar a otro son altos. 000: el total de hogares en el estado M1 = 10. = 26 a) Estimación de la media.24 ejemplares por familia 10 + 10 + 10 + 10 + 10 50 b) Estimación del total. 000)(2. n n Mi yi.1520) = 6.0150)2 (83. El gerente del periódico Ecos de la Costa desea estimar el número promedio de ejemplares comprados por familia por mes en el estado de Colima. µ c = yc = ˆ ¯ i=1 n yij = i=1 j=1 n Mi i=1 i=1 Mi donde: n = 5: el número de conglomerados seleccionados M = 4. Se realizan las entrevistas y los resultados están en el cuadro 6. M4 = 10 y M5 = 10: tamaño de cada conglomerado seleccionado Por lo tanto: yc = ¯ 24 + 27 + 18 + 17 + 26 112 = = 2. Manzana 1 Manzana 2 Manzana 3 Manzana 4 Manzana 5 3 4 2 2 1 3 3 1 2 2 1 1 3 1 3 3 3 1 3 1 3 2 3 1 3 2 3 1 1 1 1 4 1 2 2 3 2 2 2 5 2 3 1 2 4 3 2 3 1 4 y1. = 24 y2.1520) Ejemplo 3. M3 = 10. = 18 y4. τ c = M yc ˆ ¯ 154 . 000)2 (2. 000 hogares del estado en 400 conglomerados geográficos (manzanas) de 10 hogares cada uno. = 27 y3.5: Ejemplares comprados por familia.0150)2 (83. y se selecciona una muestra aleatoria simple de 5 conglomerados.8201 rejas (7. El muestreo por conglomerados en una etapa n= (1.

n ˆ y V (¯c ) = N −n N 1 ¯ nM 2 i=1 (yi.donde: M = 4.2051 Por lo tanto: 2.2051 d) Un IC de 90 % para la media poblacional µc .1/2 = 2.1318)(0. e) Un IC de 90 % para el total.α/2 = t5−1.2051) 2. .6772 Es decir.6772.24 ± (2.α/2) ¯ ˆ y V (¯c ) donde: yc = 2.0421 = 0.1318 ˆ y V (¯c ) = 0.24)(10))2 + .24)(10))2 5−1 √ ˆ y V (¯c )= 0.0. yc ± t(n−1.α/2 V (ˆc ) ˆ 155 .24: el número promedio de ejemplares comprados por familia ¯ Por lo tanto: ˆ y V (¯c ) = 400 − 5 400 = 0. + (26 − (2. 960 ejemplares comprados ˆ c) Estimación de la varianza y la desviación estándar de la media. ˆ τ τc ± tn−1.8028 y 2. 000 M ¯ = = 10: el número promedio de hogares por conglomerado M= N 400 yc = 2.24: el número promedio de ejemplares comprados por familia ¯ tn−1. .8028 ≤ µc ≤ 2.24: el promedio de ejemplares comprados por familia ¯ Por lo tanto: τc = (4. 000: el total de hogares en el estado yc = 2. − yc Mi )2 ¯ n−1 donde: N = 400: el número de conglomerados geográficos n = 5: el número de conglomerados seleccionados M = 4.24)= 8.24 ± 0.0421 1 (5)(10)2 (24 − (2. 000: el total de hogares en el estado 4. con un 90 % de confianza el número promedio de ejemplares comprados por familia se ubica entre 1. 000)(2.4372 1.

2051) = 820. tn−1.0.0.3 s2 = c 5−1 d = (0.1/2 = 2.1)(2.4145) 8.1318 (24 − (2.1318)(820.1318)2 (21.0019 ≤ τc ≤ 10. − yc Mi )2 ¯ n−1 156 . f) Suponga que n = 5 conglomerados geográficos es una muestra preliminar. 960 ± 1.α/2 2 2 σc n i=1 (yi. 748.α/2 = t5−1.24: el número promedio de ejemplares comprados por familia ¯ N = 400 : el número de conglomerados geográficos n = 5: el número de conglomerados seleccionados 4.9981 Es decir.1318)2 (21. ¿Cuál es el tamaño de muestra para estimar el total verdadero con una precisión de 10 % del total preliminar y una confiabilidad de 90 % ? 2 N 2 (tn−1. 708. + (26 − (2.1/2 = 2.0019 y 10. 211. El muestreo por conglomerados en una etapa donde: τc = 8.1318.9981 7. .224 Por lo tanto: n= (400)(2.3) g) Suponga que n=5 conglomerados es una muestra preliminar. ¿Cuál es el tamaño de muestra para estimar la media verdadera con una precisión de 10 % de la media preliminar y una confiabilidad de 90 % ? 2 N tn−1. .4051 conglomerados (400)(10)2 (0.24)(10))2 + .α/2 σc 2 donde: 2 σc es estimada por s2 = c n i=1 (yi.α/2 = t5−1.24) = 0. 000)(0.4145 Por lo tanto: 8. 960. 000 M ¯ = = 10: el número promedio de hogares por conglomerados M= N 400 tn−1. − yc Mi )2 ¯ n−1 yc = 2.Capítulo 6. ˆ ˆ τ ˆ y V (ˆc = M V (¯c ) = (4. 708. con un 90 % de confianza el total de ejemplares comprados en el estado se encuentra entre 7.224)2 + (2. 960 ± (2.α/2 )2 σc n= donde: 2 σc es estimada por s2 = c d2 + N tn−1.24)(10))2 = 21.3) = 18.9981.α/2 σc n= 2 2 ¯ N M 2 d2 + tn−1. 211.

960) = 896 Por lo tanto: n= ficos.3) Ejemplo 4.1/2 = 2. = 24 12 188 y12.24)(10))2 + . M8 = 241. 000: los habitantes en el estado M1 = 181. = 29 5 164 y5.1)(8. . = 18 8 241 y8. (400)2 (2. cuya población es de 200.3 s2 = c 5−1 d = (0. = 20 3 249 y3. M4 = 73. Un investigador de la U de C desea estimar el total de emigrantes en el estado de Colima. = 42 6 120 y6. = 19 9 283 y9.0. por lo tanto. Localidad Habitantes Total de emigrantes por localidad por localidad 1 181 y1. M2 = 316. = 10 10 115 y10. 000.3) = 18.24)(10))2 = 21. M7 = 171.4051 conglomerados geográ(896)2 + (400)(2. 960 ˆ N = 400: el número de conglomerados geográficos n = 5: el número de conglomerados geográficos seleccionados tn−1.1318)2 (21. = 14 4 73 y4. el estado es dividido en 800 localidades.τc = 8.1318)2 (21. = 23 11 142 y11.1318 (24 − (2.6: Emigrantes de las 12 localidades. Cuadro 6. M6 = 120. M5 = 164. Para lograr tal objetivo toma una muestra de 12 localidades y entrevista a todos los habitantes de las 12 localidades y obtiene los resultados del cuadro 6. µ c = yc = ˆ ¯ i=1 n yij = i=1 j=1 n Mi i=1 i=1 Mi donde: n = 12: el número de localidades seleccionadas M = 200. No existe una lista disponible de personas de toda la población.α/2 = t5−1.6. 157 . = 13 a) La estimación de la media. n n Mi yi. = 10 2 316 y2. M3 = 249. + (26 − (2. . = 20 7 171 y7.

0164 d) Un IC al 90 % para la media poblacional.0164 158 . + (13 − (0. El muestreo por conglomerados en una etapa M9 = 283. .1079: el promedio de emigrantes por localidad ¯ Por lo tanto: τc = (200.1/2) = 1. + 115 + 142 + 188 2. 000)(0. M11 = 142. . . 580 emigrantes en total ˆ c) La estimación de la varianza y la desviación estándar de la media n ˆ y V (¯c ) = N −n N 1 ¯ nM 2 i=1 (yi. + 23 + 24 + 13 242 = = 0.Capítulo 6. 000: los habitantes en el estado yc = 0.1079: el número promedio emigrantes por localidad ¯ Por lo tanto: ˆ y V (¯c ) = 800 − 12 800 1 (12)(250)2 (10 − (0.α/2) = t(12−1. M12 = 188 : total de habitantes por localidad 10 + 20 + 14 + . .1079 emigrantes en pro181 + 316 + 249 + .1079)(181))2 + .α/2) ¯ ˆ y V (¯c ) donde: yc = 0.1079)(188))2 12 − 1 = 0. τ c = M yc ˆ ¯ donde: M = 200. − yc Mi )2 ¯ n−1 donde: N = 800: el número de localidades en las que está dividido el estado (conglomerados) n = 12: el número de localidades seleccionadas M = 200.0003 = 0. 243 medio yc = ¯ b) La estimación del total.1079)= 21.0.7959 ˆ y V (¯c ) = 0. M10 = 115.1079: el número promedio emigrantes por localidad ¯ t(n−1. 000 ¯ M= = = 250: el número promedio de habitantes por localidad (conN 800 glomerado) yc = 0. . 000: los habitantes en el estado M 200. yc ± t(n−1.0003 √ ˆ y V (¯c )= 0. .

3971 Por lo tanto: 21. 000 M ¯ = = 250: el número promedio de habitantes por localidad M= N 800 tn−1.Por lo tanto: 0.1079 ± 0. 580 ± (1.2154 ≤ τc ≤ 27.0164) = 3. ¿Cuál sería el tamaño de muestra necesario para estimar la media poblacional con una precisión de 10 % de la media preliminar y una confiabilidad de 90 % ? 2 2 N tn−1.1079)(188))2 s2 = = 204. 280. 580 ˆ t(n−1. con 90 % de confianza el número promedio de emigrantes en el estado está entre 0.1374 Es decir.α/2 V (ˆc ) ˆ donde: τc = 21. 580 ± 5.1079)(181))2 + . 000)(0. − yc Mi )2 ¯ n−1 yc = 0. 471.α/2 = t12−1.1/2 = 1.α/2 σc donde: 2 σc es estimada por s2 = c n i=1 (yi.8415 c 12 − 1 d = (0.2154. 891.0768 y 0.1374 e) Un IC al 90 % para el total ˆ τ τc ± tn−1.1079: el número promedio de emigrantes por localidad ¯ N = 800: el número de localidades en las que está dividido el estado (conglomerados) n = 12: el número de localidades seleccionadas M = 200.7959)(3.0784 ≤ µc ≤ 0.2154 y 27.7959)(0. + (13 − (0. 280. .7959 (10 − (0.α/2) = t(12−1. 471. f) Suponga que n = 12 conglomerados (localidades) es una muestra preliminar. 891.0295 0. 000: los habitantes en el estado 200.1079 ± (2.1/2) = 1.01079 159 .2154 Esto significa que con 90 % de confianza el total de emigrantes en el estado se ubica entre 15.α/2 σc n= 2 2 ¯ N M 2 d2 + tn−1.0.1079) = 0.0.2154 15.7959 ˆ τ ˆ y V (ˆc = M V (¯c ) = (200.1)(0.3971) 21.0164) 0. 891. .

158)2 + (800)(1. dentro de los cuales tiene laborando a 6.1/2 = 1. ¿Cuál es el tamaño de muestra para estimar el total poblacional con una precisión de 10 % del total preliminar y una confiabilidad del 90 % ? n= donde: 2 σc es estimada por s2 = c 2 N 2 (tn−1.5390 (800)(250)2 (0.Capítulo 6.5390 (2. 000 médicos con 160 . 580) = 2.7959)2 (204. Ejercicios En los siguientes ejercicios estime los parámetros siguientes: a) El IC para la media y el total poblacional con una confiabilidad de 95 %.8415) Por lo tanto. . b) Suponga que la muestra en cada ejercicio es una muestra preliminar. El muestreo por conglomerados en una etapa Por lo tanto: n= (800)(1.1079)(188))2 2 = 204. 580 ˆ N = 800: el número de localidades en las que está dividido el estado (conglomerados) n = 12: el número de localidades seleccionadas M = 200. el tamaño de muestra requerido para estimar el total poblacional con una precisión de 2.α/2 = t12−1. el tamaño de muestra requerido para estimar la media verdadera con una precisión de 0.α/2 2 2 σc n i=1 (yi.7959)2 (204.7959)2 (204. 158 Por lo tanto: n= (800)2 (1.8415) = 81. g) Suponga que n = 12 conglomerados (localidades) es una muestra preliminar.01079 es de n = 82 conglomerados (localidades). 000: los habitantes en el estado M 200.7959)2 (204.5.1079)(181))2 + . ¿Cuál es el tamaño de muestra para estimar la media y el total poblacional de tal manera que sean estimados con una precisión de 5 % de la media y el total preliminar con una confiabilidad de 95 %? Ejercicio 1. 000 ¯ M= = = 250: el número promedio de habitantes por localidad N 800 tn−1. 158 es de n = 82.01079)2 + (1. . + (13 − (0. La Secretaría de salud cuenta con 200 hospitales distribuidos en el territorio nacional. − yc Mi )2 ¯ n−1 τc = 21.8415) = 81.8415 sc = 12 − 1 d = (0.8415) Por lo tanto.7959 (10 − (0.0.α/2 )2 σc d2 + N tn−1.1)(21. 6.

se toma una muestra aleatoria simple de 6 hospitales. Con la finalidad de medir el nivel de satisfacción en el trabajo de los empleados.estudios de postgrado.7: Nivel de satisfacción de los médicos en cada hospital Hospital 1 6 7 8 7 8 7 9 6 6 6 7 8 9 7 8 7 6 5 8 7 4 7 6 6 6 6 7 7 7 6 6 5 9 10 8 Hospital 2 9 8 7 8 6 5 9 7 6 6 8 8 8 7 9 8 7 6 6 6 7 7 8 8 8 Hospital 3 8 7 6 5 9 6 5 8 9 7 9 8 9 10 9 9 7 8 8 7 6 6 6 7 8 8 6 7 8 6 7 Hospital 4 8 8 7 9 8 8 9 8 8 7 6 5 9 7 8 9 6 5 9 8 7 6 5 4 8 9 8 8 Hospital 5 6 6 9 8 9 6 7 9 8 7 6 9 8 7 6 9 8 10 10 9 8 7 6 5 9 Hospital 6 9 8 7 6 5 4 8 9 9 7 7 9 8 7 6 7 8 9 9 9 8 8 7 7 6 6 4 8 8 7 6 9 161 .7)). en cada uno de estos hospitales se realiza un censo. (El nivel de satisfacción se mide de 0 (nada satisfecho) a 10 (muy satisfecho)) (cuadro (6. Cuadro 6.

La estimación de la media y un total cuando se desconoce M ¿Qué sucede cuando se desconoce el tamaño de la población M ? Con la información anterior. para utilizar las expresiones anteriores se debe conocer M . pero en ocasiones no es posible saber ese valor.6. Además.8) (6. A continuación se muestran los estimadores donde no es necesario conocer M . de basura producidos por vivienda semanalmente. 6. con la finalidad de medir el promedio y total de basura producida por vivienda semanalmente. Use la información del cuadro (6.Capítulo 6. Se supone que la ciudad está conformada por 300 manzanas. Es importante mencionar que los estimadores que a continuación se presentan se recomiendan cuando los tamaños de los concloglomerados son aproximadamente iguales. 6.1. se puede estimar la media. el total o el intervalo de confianza para el total poblacional. El presidente municipal de Colima desea estimar el total de basura producida en la ciudad.6. Mz 1 Mz 2 Mz 3 Mz 4 Mz 5 Mz 6 Mz 7 Mz 8 40 30 38 48 35 45 49 82 60 35 29 36 38 38 35 83 30 45 65 37 48 45 28 73 40 48 82 72 65 66 25 65 60 68 88 83 70 33 29 45 50 75 95 93 35 22 79 66 48 45 49 63 40 49 65 40 65 6. ˆ ¯ µ c = yc = ¯ ˆ τc ˆ Maprox (6.2. ): y τ c = N y.9) 162 .8). El muestreo por conglomerados en una etapa Ejercicio 2. El estimador de la media y el total poblacional Para hallar el estimador del total y la media poblacional se recurre a la expresión del total promedio por conglomerado (¯. y que el número de viviendas es de 10. En cada manzana se recaba toda la basura producida por cada vivienda. Cuadro 6. Sin embargo. se toma una muestra aleatoria simple de n = 8 manzanas.6. 000.8: Kg.

donde y.6.α/2 )2 σt 2 donde σt es estimada por s2 = t i=1 (yi.    n   163 . entonces M = i=1 n Las varianzas (6.α/2) ¯ τc ± t(n−1. − y.11) Mi ¯ Nota: recuérdese que cuando no se conoce M .10) ˆ τ V (ˆc ) 1 ˆ µ ˆ y V (ˆc ) = V (¯c ) = 2 = ¯2 Maprox M N −n N 1 n i=1 (yi. )2 ¯ n−1 n (6. − y. Los intervalos de confianza para estos estimadores se construyen de forma habitual. La varianza estimada de la media y del total. ) = N 2 N −n N 1 n i=1 (yi. − y.n n n yi. 6.4. El intervalo de confianza de la media y del total. 6. = ¯  Nota: El valor d es calculado con respecto al total promedio por conglomer  n i=1 yi. yc ± t(n−1.α/2) ˆ ˆ y V (¯c ) ˆ τ V (ˆc ) 6. )2 ¯ n−1   ado y.6.α/2 )2 σt 2 N d2 + (tn−1.11 y 6.5. )2 ¯ n−1 n (6. n ˆ τ ˆ ¯ V (ˆc ) = V (N y. Maprox = N M y M = i=1 n n n . Los tamaños de muestra para estimar la media y el total El tamaño muestral para estimar µ n= n 2 N (tn−1.3. = ¯ i=1 τi = i=1 Mi ¯ ¯ .6.10) de estos estimadores nos indican la precisión de los mismos.

La estimación de una proporción poblacional Muchas veces se quiere estimar la característica G específica de la población. Éste diseño puede combinarse con otros diseños.5. respectivamente. por ejemplo.Capítulo 6.9 muestra los totales por tramo.α/2 )2 σt 2 d2 + N (tn−1. Por ejemplo: suponga que se desea conocer la proporción de personas en el estado de Colima que padecen cierta enfermedad. la aceptación de alguna cierta norma ecológica. En caso de desconocerse M .5 y 6. El cuadro 6. divide la parcela en tramos de 4m2 . el estratificado.α/2 )2 σt 2 donde σt es estimada por s2 = t i=1 (yi. = ¯ i=1 τi = i=1 n n donde: n = 15: el número de tramos seleccionados τi = yi. i = 1. los estimadores de la proporción y el total deben ser los mismos que se usaron en el apartado 6.1. . Por esto. Ejemplos Ejemplo 1. se deben utilizar los mismos estimadores de la media y el total con M conocida que fueron presentados en el apartado 6. Se desea minimizar el costo por unidad muestreada. 15 164 . si se conoce M . Es importante recordar que el muestreo por conglomerados se sugiere cuando: Las unidades muestrales son grupos de elementos. En ambos casos se realizan los cálculos exactamente como los ejemplos presentados en los apartados 6.6. a) La estimación de la media por conglomerado (tramo). Resuelva lo que se le pide a continuación. o la preferencia por cierto partido político. 000 m2 . − y. 6. 2. n n yi. . )2 ¯ n−1 6. . : el total de cacahuates en el tramo i. y. y selecciona una muestra aleatoria de 15 tramos. El muestreo por conglomerados en una etapa El tamaño muestral para estimar τ n= n 2 N 2 (tn−1. Enseguida cuenta el número de cacahuates por planta. . Un agrónomo tiene una parcela experimental de 10.6. Con la finalidad de conocer la cantidad promedio por planta y el total de cacahuates producidos. cuando se desea estimar una proporción y el total. sólo que ahora la variable respuesta contendrá ceros y unos.7.7. etc.

= 2. 360 + .Cuadro 6. = 1. 450 25. = 1. 953 T 10 35 y10. = 1. se hace una aproximación para estimar la media poblacional: n Mi ¯ Maprox = N M = N donde: 165 i=1 n . = 2. = 1. 404 T 15 29 y15. = 1. Como en este caso se desconoce M . 414 T 12 29 y12. 000 cacahuates por parcela. 320 T9 31 y9.4: el promedio de cacahuates por tramo (conglomerado) ¯ 10. 686. ˆ c) La estimación de la media poblacional (por planta de cacahuate). = 1. 500: los tramos en los que se dividió la parcela N= 4 n = 15: los tramos seleccionados Por lo tanto: τc = (2.4 cacahuates por con15 15 glomerado (tramo) y. 360 T3 28 y3. 500)(1. 346 T6 27 y6. 809 T7 28 y7.9: El total de cacahuates producidos por tramo Tramo Plantas Total/tramo T1 35 y1. 450 Por lo tanto: 1. = 1. 680 T2 34 y2. = 1. 645 T 11 34 y11. = ˆ ¯ yi n i=1 donde: y. 146 T 13 28 y13. = 1. . 232 T 14 26 y14. = 2. = ¯ b) La estimación del total poblacional n N τ c = N y. 904 T4 33 y4. = 1. 148 T8 33 y8. 216. 404 + 1. 680 + 1. 290 = = 1. = 1. = 1. .4) = 4. 000 = 2. 485 T5 34 y5. 686. = 1. + 1. 686.

0026 V (¯c ) = (77. 216.3333 El estimador de la media poblacional es: τc ˆ yc = ¯ Maprox donde: τc = 4.7613 166 .5172: cacahuates promedio por planta ¯ t(n−1. 4. + 26 + 29 ¯ = 30. 333. 216. M7 = 28. yc ± t(n−1.0026 = 3. M6 = 27.3333 y. = 1. M10 = 35. M4 = 33. . M12 = 29. El muestreo por conglomerados en una etapa n = 15: el número de tramos seleccionados N = 2.α/2) = t(15−1.4)2 + .3170 e) La estimación por intervalo de la media poblacional con una confianza de 90 %.3333 d) La varianza y la desviación estándar de la media poblacional. 500) = 77. 528.3333)2 √ ˆ y V (¯c ) = 11. − y. 333. M5 = 34. . 000 y Maprox = 77.5172 cacahuates en promedio por plan77. 333. M9 = 31. ˆ τ ˆ y V (ˆc ) N 2 V (¯.0. M2 = 34. )2 ¯ n−1 donde: Maprox = 77. . + (1. M3 = 28.4)2 2.9333)(2. 686. M11 = 34. 500: el número de tramos en la población M1 = 35. 686. . M14 = 26 y M15 = 29 35 + 34 + .1/2) = 1. 000 = 54. 333. ) = 2.1337 V (¯. 500 15 15 − 1 Por lo tanto: (2. 333. ) ˆ y V (¯c ) = 2 = 2 Maprox Maprox n ˆ y V (¯. 680 − 1686. ) = N −n N 1 n i=1 (yi.3333 ˆ Por lo tanto: yc = ¯ ta. M8 = 33.1337) ˆ y = 11. 500: el número de tramos en la población 1 (1.Capítulo 6. 500 − 15 ˆ y = 10.9333 M= 15 Por lo tanto: Maprox = (30. 450 − 1. 528. 500)2 (10.4 ¯ n = 15: el número de tramos que fueron selecionados N = 2.α/2) ¯ ˆ y V (¯c ) donde: yc = 54. M13 = 28.

667. .1)(1.α/2) = t(15−1. 500: los tramos en los que está dividida la parcela (1.2571) unidades muestrales) n = h) Suponga que n = 15 es una muestra preliminar.7613)(256.7356 por lo tanto: 4.α/2 )2 σt n i=1 (yi. t(n−1.i = 1.3170) 54. Determine el tamaño de muestra para estimar el total con una precisión de 10 % del total preliminar y una confiabilidad de 90 %. Determine el tamaño de muestra para estimar la media por conglomerados con una precisión de 10 % del promedio preliminar y una confiabilidad de 90 %. 875.7613)2 (158. 216. − y. 805.5211 cacahuates por parcela g) Suponga que n = 15 tramos es una muestra preliminar. 516. 528. 516.7613)(3. : el total de cacahuates en el tramo i. d = (0. 000 ± 451.0. 875. 764.0. τc ± t(n−1.α/2 )2 σt 2 N d2 + (tn−1. )2 ¯ n−1 y.7613. .6749 ≤ µc ≤ 60.7356) 4. 15 N = 2.4: el promedio total de cacahuates por tramo (conglomerado) ¯ yi.5172 ± (1.5172 ± 5.1337) = 256. 875.64)2 + (1.α/2) = t(15−1. ) = (2.2571) = 17. 216.2571 st = 15 − 1 t(n−1.8423 48. 000 ± (1.4788 ≤ τc ≤ 4.3595 cacahuates por planta f) La estimación por intervalo del total poblacional con una confianza de 90 %. 216. n= donde: 2 σt es estimada por s2 = t 2 N (tn−1.4)2 + .2110 tramos ( (2. 805.1/2) = 1. = 1. 680 − 1686. 2 .4) = 168. 000. 686.4)2 2 = 158. 500)(168. 686. 194.64 Por lo tanto: (2. 450 − 1. 500)(1. + (1.1/2) = 1.α/2) N ˆ ˆ y V (¯c ) donde: τc = 4. 686.5211 3. 167 . .ˆ y V (¯c ) = 3.7613)2 (158.3170 Por lo tanto: 54. . 500)( 10. .7613 ˆ √ ˆ τ ˆ y V (ˆc ) = N V (¯.

9 y5.49 0. P1 1. = 8.77 0.95 1. = 7.12 0.27 y4. 686.99 0.07 0.93 y2. 450 − 1.96 0. )2 ¯ n−1 y.93 1.4: el total promedio de cacahuates por tramo (conglomerado) ¯ yi.09 0.85 0.4)2 + . . 216.73 0.1/2) = 1.95 1.82 0.77 0.56 1. = 9. 168 . El cuadro 6.94 0. y mide la cantidad de agua por coco en cada palmera. 500: los tramos en los que está dividida la parcela (1.72 0.07 0.10 muestra el total de agua en litros. − y. i = 1. = 7.72 0.95 1. 000: el total estimado de cacahuates producidos en la parcela ˆ d = (0.2571 15 − 1 t(n−1.89 1. 000) = 421.59 y6. Un investigador desea conocer la cantidad promedio de agua de coco que producen.68 1.875.99 0. El muestreo por conglomerados en una etapa n= donde: 2 σt es estimada por s2 = t 2 N 2 (tn−1.Capítulo 6.99 1. = 1.08 1. 216.85 0. = 5. Resuelva lo siguiente.83 0.α/2 )2 σt 2 d2 + N (tn−1.71 0.0.α/2 )2 σt n i=1 (yi. 875.89 y1. 600 Por lo tanto: (2500)2 (1.875. 2 .58 P7 0. 686.28 P3 0.10: El agua de coco por palmera (litros). = 6.600) + (2500)(1.23 1.5 P6 0.2110 tramos (mues(421.86 0. .37 y8.α/2) = t(15−1.77 0. Suponga que un predio que está localizado en la playa de Manzanillo tiene 1.9 0.85 0.12 0.03 1.4)2 2 st = = 158.89 1.83 0.45 P8 0.95 0.94 1. = 8. 15 N = 2. 000 palmeras de coco. = 6. . : el total de cacahuates en el tramo i.7613 τc = 4.75 1.97 0.06 0.69 a) Calcular el promedio por conglomerado.26 0.33 0. para lo cual toma una muestra aleatoria de 8 palmeras.7613)2 (158.2571) n= = 17.14 1.2571) tra) Ejemplo 2.1)(4. .89 1. 680 − 1686.81 1. . + (1.02 0.42 0.79 0.66 1. Cuadro 6.76 0.28 P5 0.87 0.45 P4 0.11 1.09 y7.88 1.51 P2 0.96 y3.7613)2 (158.

Como en este caso se desconoce M . + 9. M7 = 10.875)(1.25 litros de agua de coco en el predio ˆ c) Estimar el promedio de litros por coco (media poblacional).45 + 6. M5 = 6. 000)(7.000 palmeras El estimador de la media poblacional es: 169 .69 60. 581. M4 = 8. . 8 por lo tanto: y. M2 = 7. y. . M3 = 9. = 7. 000) = 7. M8 = 8 cocos por cada palmera seleccionada 8 + 7 + 9 + 8 + 6 + 7 + 10 + 8 ¯ = 7. : el total de litros en la palmera i. .65 = = 7.5813: el promedio de litros por conglomerado (palmera) ¯ N = 1. = N ˆ ¯ i=1 n donde: y.27 + .875 M= 8 Por lo tanto: Maprox = (7. = ¯ i=1 τi = i=1 n n donde: n = 8: el número de palmeras seleccionadas τi = yi. yi τ c = N y. M6 = 7. 2. 875 cocos en la población de 1.58125) = 7. = ¯ 6. .58125 litros por conglomerado 8 8 n b) Estimar el total poblacional. 000: el número de palmeras en el predio M1 = 8. i = 1. se hace una aproximación para hallar la media poblacional: n Mi ¯ Maprox = M N = N i=1 n donde: n = 8: el número de palmeras seleccionadas N = 1.n n yi. . 000: el número de palmeras en el predio n = 8: el número de palmeras seleccionadas Por lo tanto: τc = (1.93 + 7. .

0. ) = N −n N 1 n i=1 (yi.93 − 7.5813)2 ˆ y V (¯.25 = 0.69 − 7. .9627 litros de agua por coco ¯ t(n−1.0745 Esto significa que la media poblacional está entre 0.Capítulo 6. 581.00348 V (¯c ) = (7. − y. )2 ¯ n−1 donde: Maprox = 7.8509 y 1.8946 ˆ y V (¯c ) = 0. 875 ˆ por lo tanto: yc = ¯ 7. = 7.25 y Maprox = 7. El muestreo por conglomerados en una etapa yc = ¯ τc ˆ Maprox donde: τc = 7. + (6.9627 litros de agua producidos por cada coco 7. 581.9627 ± (1.5813 ¯ n = 8: el número de palmeras selecionadas N = 1.059 e) Construir un IC para la media poblacional con una confiabilidad de 90 %. 875 d) Calcular la varianza y la desviación estándar de la media poblacional. .α/2) ¯ ˆ y V (¯c ) donde: yc = 0.059) 0. 170 .1/2) = 1. 000: el número de palmeras (conglomerados) en la población 1. 875 y. ) = = 0.059 Por lo tanto: 0. ˆ y ˆ τ N 2 V (¯. 000)2 (0.0745 litros de agua por coco.1118 0. 000 8 8−1 Por lo tanto: (1.8509 ≤ µc ≤ 1. 000 − 8 1 (6.α/2) = t(8−1.5813)2 + .8946)(0.00348 = 0.21596 1. 875)2 √ ˆ y V (¯c ) = 0. ) V (ˆc ) ˆ y = V (¯c ) = 2 2 Maprox Maprox n ˆ y V (¯.21596) ˆ y = 0.9627 ± 0. yc ± t(n−1.

7416) h) Suponga que n = 8 palmeras es una muestra preliminar.α/2) = t(8−1. 581.0.8129 ≤ τc ≤ 8. Determine el tamaño de muestra definitivo para estimar el total con una precisión de 10 % del total preliminar y una confiabilidad de 90 %. .7594 palmeras (muestra) n= (1.8946)(464.1/2) = 1.0.1)(7.25 ± (1. 8 N = 1. yc ± t(n−1.α/2) ¯ ˆ y V (¯c ) donde: τc = 7.7416) = 10. 581.25 ˆ N = 1.75812 Por lo tanto: (1.69 − 7.25 ± 880.93 − 7.21596) = 464. 000)(0.8129 y 8. . 000)(1. n= 2 N 2 (t(n−1. 000: las palmeras en el predio (6.8946 √ ˆ τ ˆ y V (ˆc ) = N V (¯.5812) = 0. 000)( 0. .5812)2 + . 700. . 581. . 2 . g) Suponga que n = 8 palmeras es una muestra preliminar.α/2) )2 σt 171 .7111) 7. n= donde: 2 σt es estimada por s2 = t 2 N (t(n−1. 461.8946 d = (0. − y. el total de litros de agua de coco en el predio está entre 6. i = 1.7416 8−1 t(n−1. 461.8946)2 (1.α/2) )2 σt 2 N d2 + (t(n−1.6817 Entonces.α/2) )2 σt n i=1 (yi.7581264)2 + (1. = 7.6817. 000 t(n−1.7111 Por lo tanto: 7.4317 6.α/2) = t(8−1. ) = (1.1/2) = 1. + (6.f) Estime por intervalo el total poblacional con una confiabilidad de 90 %. )2 ¯ n−1 y.α/2) )2 σt 2 d2 + N (t(n−1.8946)2 (1. Determine el tamaño de muestra para estimar la media por conglomerados con una precisión de 10 % del promedio preliminar y una confiabilidad de 90 %. : el total de litros de agua en la palmera i.5812: el total promedio de litros de agua de coco por palmera (conglomera¯ do) yi.5812)2 2 st = = 1. 700.

5812)2 + . El dueño de una plantación forestal necesita estimar el volumen total de biomasa en m3 que tiene su plantación.125)2 + (1.13). lo que ha pensado es hacer un muestreo por conglomerados. . i = 1.7594 palmeras (muestra) (758.1/2) = 1.25: el total de agua de coco en litros en el predio ˆ d = (0.5812)2 2 st = = 1.25) = 758.7416) n= = 10.8946 τc = 7. La Secretaría de Desarrollo Social cuenta con 25 estancias infantiles esparcidas en el estado de Colima.7416) 6. = 7. : el total de litros de agua en la palmera i. El muestreo por conglomerados en una etapa donde: 2 σt es estimada por s2 = t n i=1 (yi. 000)(1.12). En este caso nuestras UMP (los conglomerados) son los sitios y las UMS son los árboles.125 Por lo tanto: (1. .Capítulo 6. Ejercicio 2.93 − 7. . 581.69 − 7.1)(7. .8946)2 (1. 172 . Para esto divide la plantación en 300 sitios. 2 . donde padres confían diariamente a sus hijos.5812: el total promedio de litros de agua de coco por palmera (conglomera¯ do) yi. − y.8946)2 (1.α/2) = t(8−1. b) Suponga que la muestra en cada ejercicio es una muestra preliminar. Use los datos del Cuadro (6. Con el objetivo de conocer el nivel de conformidad de los padres respecto a este servicio. )2 ¯ n−1 y. 8 N = 1.7416 8−1 t(n−1. Ejercicios En los siguientes ejercicios estime lo siguiente: a) El IC para la media y el total poblacional con una confiabilidad de 95 %. de los cuales selecciona aleatoriamente 40 y dentro de cada uno de ellos mide el volumen de todos los árboles incluidos. + (6.0. ¿Cuál es el tamaño de muestra para estimar la media y el total poblacional de tal manera que sean estimados con una precisión de 5 % de la media y el total preliminar con una confiabilidad de 95 %? Ejercicio 1.8. . 000: las palmeras en el predio (6. se tomo una MAS de 5 guarderías y se realiza una encuesta. ver Cuadro (6. 581. (El nivel de conformidad se mide de 0 a 5). 000)2 (1.

231 2.948 1.143 27 640 2.057 2.698 3.066 1.904 173 .700 1. Conglomerado Mi 1.729 24 599 1.942 2.413 1.668 38 675 2.709 21 558 1.12: Mi 508 302 693 598 459 695 476 675 432 567 657 650 667 598 548 657 508 499 549 543 Volumen de biomasa en m3 yi.870 987 3.007 1.284 33 693 2.724 31 508 2.479 37 476 1.258 2.725 26 609 2.537 32 302 3.497 25 607 2.987 36 583 1.075 22 598 3.355 29 589 2.750 2.087 23 532 1.440 2.026 35 459 1.005 2.Cuadro Conglomerado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 6.463 40 567 yi.370 34 598 2.163 39 432 2.267 30 674 2.945 28 659 1.701 1.669 1.562 1.853 2. 2.

13: Resultados de los EI1 EI2 EI3 3 2 4 3 2 4 2 3 2 2 3 3 3 2 5 3 1 5 4 1 3 3 1 3 2 2 4 2 2 4 4 4 5 4 3 5 5 2 4 2 1 3 3 2 3 3 2 4 3 1 4 4 1 4 3 2 5 4 5 4 3 conglomerados censados EI4 EI5 3 2 3 4 4 4 4 3 4 3 5 4 3 4 2 5 2 5 3 4 4 3 4 3 3 3 2 2 2 5 5 4 5 3 3 4 2 4 174 . El muestreo por conglomerados en una etapa Cuadro 6.Capítulo 6.

Por ello es importante estar consciente de que las personas entrevistadas tienden a responder en función de lo que consideran como bien visto socialmente.Capítulo 7 El muestreo basado en el método de respuesta aleatorizada Cuando la gente no quiere cooperar con las respuestas. En este sentido. debe garantizarse que las preguntas y la forma de hacerlas sean ingeniosas y con calidad para obtener resultados 175 . desconfianza. el consumo de droga se cataloga como negativo. por lo que se cubre la verdad (Lohr. que las preguntas tengan suficiente calidad o validez. Para creer en los resultados de una encuesta es necesario creer también en las respuestas de las personas que han sido entrevistadas. la calidad de las respuestas. la deseabilidad social puede actuar de forma inconsciente. A ra Las personas tienen inclinaciones. por lo que alguien que haya consumido o consuma drogas tenderá con facilidad a responder ”no” ante la pregunta ¿Ha usted consumido droga alguna vez? (Lohr. 2000 [9]). al. etc. Es decir. Sin embargo. cuando una encuesta incluye una o más preguntas que se refieren a aspectos que pueden considerarse ”íntimos” hacen que el entrevistado se sienta en peligro o apenado si la responde correctamente (Méndez. La deseabilidad social también es preocupante cuando las preguntas se refieren a cosas íntimas como las relaciones sexuales. entre otros aspectos. Todas estas características pueden dificultar. uno de estos problemas típicos es el que se ha denominado deseabilidad social. 2000 [9]). en algunas ocasiones. OAML P que los resultados de una encuesta sean creíbles es necesario. distintas formas de pensar. Por otro lado. la estadística y su ingenio te ayudan a conseguirlo. actitudes. En ese caso. (2004) [16]. tendencias propias. I et. lo que exige asumir que las respuestas sean ciertas. 2000 [9]). tener respuestas verídicas es difícil. que el individuo no controle intencionalmente su respuesta. las personas suelen mostrar resistencia a exponerse ante extraños y son más sensibles a responder según lo que se considera socialmente aceptable. Por ejemplo. Por ello. es decir. Hay muchos problemas implícitos al tratar de conseguirlas y de que éstas sean sinceras (Lohr.

se niegan a contestar o dan una respuesta falseada a preguntas sensitivas. ¿Cuándo se utiliza esta técnica? Cuando las personas que son entrevistadas. fraudes. se estima la proporción sin que el entrevistado revele su posición personal respecto a la pregunta delicada.Capítulo 7. haber sido arrestado. Para estos dos métodos se presenta una forma sencilla de calcular el tamaño de muestra necesario y con ello estimar la proporción con la precisión y confiabilidad fijadas bajo el MAS y el MAE.. El muestreo basado en el método de respuesta aleatorizada confiables. Respuesta aleatorizada La técnica de respuesta aleatorizada es un método especialmente diseñado para asegurar privacidad a los entrevistados en el estudio de temas sensibles. actitudes. 176 . I. prácticas abortivas. 1967) sin obtener respuestas directas de las personas entrevistadas. desconfianzas y una propensión a mantener la intimidad.al. la respuesta se realiza al azar. 7. 1965 y método de Warner modificado propuesto por Horvitz et. tener hijos fuera del matrimonio. el objetivo de estás técnicas es ayudar a que se den respuestas veraces y se conserve lo confidencial del asunto. delicados o embarazosos. entre ellos: respuesta aleatorizada (Méndez C.. Sin embargo. 2007[17]). insolvencia.. E. obtener respuestas confiables no es una tarea fácil debido a que los encuestadores se enfrentan a varias dificultades. et. conducir bajo los efectos del alcohol. que las ponen en aprietos o les pueden ser dañinas en algún sentido. de ahí el nombre de respuesta aleatorizada(RA). formas de pensar. Esto a conllevado a que en las últimas décadas se realicen un gran número de investigaciones para asegurarse de la calidad y veracidad de las respuestas obtenidas sobre temas íntimos.1. Se ha utilizado para analizar temas desde copiar en los exámenes. al. De esta manera la necesidad del hombre por hacerse de información que tiene carácter íntimo o por combatir la no respuesta lo han conducido a desarrolar nuevas técnicas en la metodología del muestreo. Se utiliza para estimar el porcentaje de la poblacional que tiene la caraterística sensitiva. Se intenta con ello evitar sesgos de los estrevistados en ciertas conductas hacia la respuesta socialmente más deseable. tiempo disponible. Es decir. las cuales son inherentes a toda persona encuestada: inclinaciones. Es decir. por ello. etcétera. infidelidad. Existen varios métodos para evitar la resistencia de las personas a responder con sinceridad cuando el tema es delicado. Este capítulo presenta dos métodos para estimar proporciones (método de Warner. comportamientos. le asegura al entrevistado que su respuesta sobre temas sensibles (falsa o verdadera) no será conocida por el entrevistador.

si la carta que obtuvo esta marcada 177 . III. A o B . Se construye un mazo de cartas. Se selecciona una muestra aleatoria simple o estratificada de individuos sin reemplazo de tamaño n de la población (N ). Responda a la pregunta ¿Tienes la característica sensitiva?. respectivamente. V. El modelo de respuesta aleatorizada bajo el MAS Este método de respuesta aleatorizada fue desarrollado por S. por ejemplo ¿ha consumido droga alguna vez?. 7.3. A cada individuo que va a responder se le enseña el mazo de cartas para que vea que las cartas estan marcadas con las letras del abecedario. A continuación se presenta el procemiento propuesto por Warner (1965): I. L. pero resaltando que ponga mucha atención a la pregunta. II. Por lo tanto. VI. Warner en 1965 y consiste en clasificar a las personas en los grupos A y B. las cuales se tienen que manejar con cuidado debido a la no respuesta o a la respuesta falseada contestando lo socialemente deseable. las preguntas sensitivas o delicadas sirven para captar las características sensitivas de los entrevistados. El objetivo es estimar π sin preguntar a cada persona directamente si pertenece o no al grupo A. IV. En seguida se baraja adecuadamente el mazo de cartas y se le pide al individuo que seleccione una carta. A continuación se le explica que se le va a hacer una pregunta y que la responda con "sí" o "no". 1 − p. con las letras faltantes del abecedario (grupo B).2.Por características sensitivas o delicadas se entiende a las situaciones en donde los entrevistados sienten dañada su intimidad al pedir que respondan un cuestiorario. pero una fracción de ellas p. Ventajas y desventajas Ventajas Desventajas Aumenta la probabilidad de Aumento en la complejidad de contestar la verdad que en la pregunta una pregunta directa Mayor índice de respuesta Dificultad en entender el método de aleatorización Requiere de tamaños de muestas grandes 7. Cada persona estará en uno de los grupos. se marca con la letra A (grupo A) y la fracción restante. pero que no nos diga con que letra esta marcada. Sea π la proporción de personas con ciertas caraterísticas de interés (grupo A).

Con las n respuestas de "sí" y "no" se hacen las estimaciones correspondientes con los estimadores propuestos en éste capítulo. etc. Por ello. una modena. cada uno de los hombres que conforman la muestra recibe una ficha con las siguientes preguntas: QA : Pregunta 1: ¿tiene almenos un hijo fuera de su matrimonio? QAc : Pregunta 2: ¿no tiene hijos fuera del matrimonio? La pregunta QA (pregunta 1) será respondida por el entrevistado si la aguja marca la región A. El entrevistado responde a la pregunta QA si la aguja señala a la región A. La aguja apunta con probabilidad p a la región A y 1 − p a la región Ac . X. si la aguja marca la región Ac el entrevistado responderá la pregunta QAc (pregunta 2). pero no debe ser igual a .. Por ejemplo. 000. es decir. una urna. supóngase que en el estado de Colima se desea estimar el porcentaje de hombres casados por lo civil que tienen hijos ilegales (fuera del matrimonio).Capítulo 7. Tam2 poco se debe de usar p = 1 porque el entrevistado se daría cuenta que se le está 178 . pero se debe tener claro cuál es su eqeuivalente a la región A y su respectiva probabilidad. es importante resaltar que el mecanismo de aleatorización puede ser una baraja. IX. un dado. Cada entrevistado responderá un sí o no porque solamente contestará una de las dos preguntas dependiendo de la región que marque la aguja (A o Ac ). de lo contrario. Este procedimiento se aplica a todos los n individuos. de esta manera todo se conjuga a que el entrevistador sólo anote sí o no para cada entrevistado. para éste ejemplo. El muestreo basado en el método de respuesta aleatorizada con la letra A. Por otro lado. VIII. si obtuvo cualquier otra letra del abecedario. lo mismo que si le toco cualquier otra letra del abecedario debe de responder con la verdad a la segunda pregunta pregunta y esta sería la única respuesta. si la la carta que obtuvo esta marcada con la letra A debe responder con la verdadad a la pregunta delicada y esta sería su única respuesta. Así. por el contrario responda a la pregunta ¿No tienes la característica sensitiva?. VII. o a la pregunta QAc si la aguja señala a la región Ac . es importante recordar que el experimentador puede elegir arbitraria1 mente la fracción p de cartas marcadas con A. Esto significa que se tendrán n repuestas dicotómicas (sí o no) a partir de las cuales se derivará la estimación de interés (porcentaje de respuestas afirmativas de la pregunta 1). El método de aleatorización que originalmente utilizó Warner es una aguja giratoria en un disco con dos regiones delimitadas. La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar a la siguiente persona. Se tiene que hacer enfasis en que debe de responder con la verdad a las preguntas y que solamente tiene que responder una de ellas dependiendo de la letra que obtuvo. ¿Nunca has consumido droga?. Además supóngase que se extrae una muestra aleatoria simple de n = 200 de la población de N = 10.

Leysieffer y Warner (1976). lo que no quiere responder. La varianza estimada de los estimadores de la proporción y del total 2 Sπ = ˆ N −n N =N 2 1 1 1 ˆ 2 − π− n 16 (p − 1/2) 2 2 2 Sτ ˆ =N 2 2 Sπ ˆ N −n N A continuación se proporcionan los intervalos de confianza para los parámetros π y τ con una confiabilidad del (1 − α)100 %. a : el total de respuestas "sí" de los n entrevistados. 7. Albernathy y Horvitz (1971).3. véanse los artículos de Campbell y Joiner (1973). el estimador de máxima verosimilitud de π es: 2 a p−1 + π= ˆ 2p − 1 (2p − 1)n y el estimador de máxima verosimilitud de τ es: τ = Nπ ˆ ˆ donde: N : tamaño de la población. y Greenberg. El estimador de la proporción y el total poblacional Si suponemos que p = 1 . 7. La técnica de respuesta aleatorizada que se ha presentado aquí es la más simple de todas las que existen. Este método requiere generalmente 4 un tamaño de muestra muy grande para obtener una varianza del estimador razonablemente pequeña. Kuebler. 3 Un valor de es usualmente adecuado. π.preguntando si pertenece o no al grupo A. o sea.3. Para mayor información al respecto. El intervalo de confianza de la proporción y el total π ± Zα/2 ˆ τ ± Zα/2 ˆ donde: π = la proporción de interés ˆ τ = el total de interés ˆ 179 2 Sπ ˆ 2 Sτ ˆ . p : fracción de las letras en el mazo de cartas marcadas con la letra A.2.1. 1 1 1 ˆ 2 − π− n 16 (p − 1/2) 2 2 7.3.3. Se necesita un tamaño de muestra grande debido a que cada respuesta origina poca información sobre la proporción poblacional.

000) en nivel medio superior y superior que han consumido algún tipo de dróga. En el estado de Colima se realiza una encuesta con la intención de estimar la proporción de estudiantes (N = 8. se usó el método de respuesta aleatorizada con p = .3. Se 6 tomó una muestra aleatoria simple de n = 200 estudiantes. Ejemplos Ejemplo 1.4. Por lo tanto. En los resultados se encontraron 45 respuestas "sí" de los 200 entrevistados. en2 Sπ . Dado que se trata de una 5 pregunta delicada. El muestreo basado en el método de respuesta aleatorizada Zα/2 = el valor de tablas de la distribución normal 2 Sπ = la desviación estándar de la proporción de interés ˆ 2 Sτ = la desviación estándar del total de interés ˆ 7. el tamaño de muestra se determina por la tonces d = Zα/2 ˆ ecuación: n= donde: 2 2 N Zα/2 k 2 N d2 + Zα/2 k 1 1 ˆ k= 2 − π− 2 16 (p − 1/2) N = el tamaño de la población Zα/2 = el valor de tablas de la distribución normal p = la proporción de cartas que están marcadas con la letra A d = la precisión fijada por el investigador El tamaño de muestra para estimar el total n= donde: 2 N 2 Zα/2 k 2 d2 + N Zα/2 k 1 1 k= ˆ 2 − π− 2 16 (p − 1/2) N = el tamaño de la población Zα/2 = el valor de tablas de la distribución normal p = la proporción de cartas que están marcadas con la letra A d = la precisión fijada por el investigador 2 7.5.Capítulo 7.3. a) Calcule la proporción poblacional de interés. El tamaño de la muestra para la proporción y el total El tamaño de muestra para estimar la proporción Si se fija una precisión deseada con una confiabilidad de (1 − α)100 %. π= ˆ a p−1 + (2p − 1) (2p − 1)n 180 .

n donde: a = i=1 yi = 45. 000.001912676 √ 2 Sπ = Sπ = 0.0875. π = 0. 000 − 200 − 0.001912676 =0.0437) 0. N = 8. π ± Zα/2 ˆ 2 Sπ ˆ donde: π = 0. τ = Nπ ˆ ˆ donde: n = 8.0875 u 8.025 = 1.96 y sπ=0.001781068 ≤ π ≤ 0. p = .75 % de estudiantes 2(5/6) − 1 (2(5/6) − 1)200 han consumido algún tipo de droga π= ˆ b) Obtenga el total de estudiantes que alguna vez han consumido algún tipo de droga.0875 ˆ Por lo tanto: τ = (8.001912676 =0.173218932 Entonces.96)(0.0875 ± (1.043734144 ˆ ˆ 2 Sπ = ˆ 2 d) Determine un IC de la proporción de interés con una confiabilidad de 95 %. Zα/2 = Z0. 000 200 16(5/6 − 1/2) 2 = 0. 2 Sπ = ˆ N −n N 1 1 1 − π− ˆ n 16(p − 1/2)2 2 2 5 donde: N = 8.043734149 ˆ ˆ Por lo tanto: 0. 000. p = 5 y n = 200 6 Por lo tanto: 45 5/6 − 1 + = 0.0875 − 2 8. n = 200 ˆ 6 Por lo tanto: 1 1 1 8.043734144 ˆ ˆ √ 2 Sπ = Sπ = 0. la proporción de estudiantes que alguna vez han consumido algún 181 .0875 ± 0.0875) = 700 estudiantes ˆ c) Calcule la varianza y la desviación estándar de la proporción muestral.085718932 0. 000 y π = 0.0875. 000)(0.

2486 y 1385.05)(0. f) Suponga que n = 200 estudiantes es una muestra preliminar. 000 : el tamaño de la población Zα/2 = 1.2486 ≤ τ ≤ 1.96)(0.7515 De ahí que el total de estudiantes en nivel medio superior y superior que alguna vez hayan consumido algún tipo de droga esté entre 14. 385.3923) (unidades muestrales) estudiantes g) Suponga que n = 200 estudiantes es una muestra preliminar.0875 − 2 16 (5/6 − 1/2)2 (8. τ ± N Zα/2 ˆ 2 Sπ ˆ donde: τ = 700. Zα/2 = Z0.96 y sπ=0.0875) = 0.025 = 1.7515.0875) ± (8000)(1.3923) n= = 330. 000)(0. 000)(0.0857) 700 ± 685. ¿Cuál es el tamaño de muestra necesario para estimar el total poblacional con una precisión del 5 % del total preliminar y con una confiabilidad de 95 %? 2 N 2 Zα/2 k n= 2 2 d + N Zα/2 k donde: N = 8. ¿Cuál es el tamaño de muestra necesario para estimar la proporción poblacional con una precisión de 5 % de la proporción preliminar y una confiabilidad de 95 %? n= 2 N (Zα/2 )k 2 N d2 + Zα/2 k Por lo tanto: donde: N = 8.962 )(0.05)(700) = 35 182 .0437) (8.0875 ± (8000)(0.004375)2 + (1. El muestreo basado en el método de respuesta aleatorizada tipo de droga está entre 0. e) Calcule el intervalo de confianza del total con una confiabilidad de 95 %. N = 8. 000 : el tamaño de la población Zα/2 = 1.043734149 ˆ ˆ por lo tanto: (8.178 y 17.7515 14. 000)0.Capítulo 7.96 5 p= 6 d = (0. 000.3923 − 0. 000)(1.962 )(0.32 %.004375 2 1 1 k= = 0.285884 (8.96 5 p= 6 d = (0.

962 )(0. n = 250 6 π= ˆ Por lo tanto: 5/6 − 1 80 + = 0.962 )(0.por lo tanto: 1 1 k= 2 − 0.00192576 183 . a) Calcule la proporción de interés poblacional.23 − 250 16(5/6 − 1/2) 2 2 = 0. τ = Nπ ˆ ˆ donde: N = 15.450 ciudadanos ˆ c) Estime la varianza y la desviación estándar de la proporción. p = .3923 n = des muestrales) (8000)2 (1.3923) = 330. Hay una población de N = 15.23. n = 250 ˆ Por lo tanto: 2 Sπ = ˆ 15.3923) Ejemplo 2.23 ˆ Por lo tanto: τ = (15000)(0. 000.0875 − 2 16 (5/6 − 1/2) 2 = 0. Dado que se trata de una pregunta delicada se usó el método 5 de respuesta aleatorizada con p = . 000. π= ˆ n a p−1 + 2p − 1 (2p − 1)n donde: a = i=1 5 yi = 80. 000 y π = 0. 2 Sπ ˆ = 1 N −n 1 1 ˆ 2 − π− N n 16(p − 1/2) 2 2 donde: N = 15. π = 0. Los resultados arrojaron 80 respuestas de "sí" de entre los 250 entrevistados.285884estudiantes (unida(352 ) + (8000)(1. Se entrevistó aleatoriamente a n = 250 6 ciudadanos. 000 − 250 15.23) = 3. 000 1 1 1 2 − 0. En el estado de Colima se realiza una encuesta para estimar la proporción de personas que han robado alguna vez en su vida.23 ó 23 % de ciudadanos que 2(5/6) − 1 (2(5/6) − 1)250 alguna vez han robado b) Calcule el total de ciudadanos que alguna vez han robado.

82563 ≤ τ ≤ 4.39 y 31. f) Suponga que n = 250 ciudadanos es una muestra preliminar.60 %. Zα/2 = Z0.143988375 ≤ π ≤ 0.4740. ¿Cuál es el tamaño de muestra para estimar la proporción verdadera con una precisión de 3 % de la proporción preliminar y una confiabilidad de 95 %? n= 2 N (Zα/2 )k 2 N d2 + N Zα/2 k donde: N = 15.0860) 3450 ± 1290. entre 14.025 = 1. Zα/2 = Z0. 000)(0.000: el tamaño de la población Zα/2 = 1.96 5 p= 6 π = 0.03)(0.0438) 0.000. N = 15.23 ˆ d = (0.23.96)(0.23) ± (15.96)(0.96.96 y S π = 0.23) ± (15. El muestreo basado en el método de respuesta aleatorizada √ Sπ = ˆ 2 Sπ = ˆ 0. 000)(0. 000)(0.Capítulo 7. es decir.043883482 d) Construya un IC de la proporción de interés con una confiabilidad de 95 %.316011625 Esto significa que la proporción de ciudadanos que han robado alguna vez en su vida está entre 0.043883482 ˆ ˆ Por lo tanto: (15.143988375 y 0.0438) (15.025 = 1. e) Contruya un IC para el total con una confiabilidad de 95 %.0069 184 .17437 Esto significa que el total de ciudadanos que alguna vez han robado se encuentra entre 2. 000)(1.17437.159.23 ± 0. S π = 0. τ ± N Zα/2 ˆ 2 Sπ ˆ donde: τ = 3.23 ± (1.316011625.043883482 ˆ ˆ Por lo tanto: 0. π ± Zα/2 ˆ 2 Sπ ˆ donde: π = 0.450.82563 y 4.00192576 = 0.159.086011625 0.23) = 0.17437 2.740.

004388)2 + (1.7214 ciudadanos (unidades (15000)(0.125 ó 12. Se supone N = 7.5 2 1 1 − 0.4896) = 267.4896) Por lo tanto: n= tra) Ejemplo 3.Por lo tanto: 1 1 k= − 0.4896 n= muestrales) (15.4896) = 267. p = i=1 por lo tanto: π= ˆ Esto significa que la proporción de ciudadanos que alguna vez en su vida han 185 5/6 − 1 40 + = 0.962 )(0.000)(1. Los resultados indican 40 respuestas de "sí" de entre los 160 entrevistados. 000. 000)2 (1.7214 ciudadanos (mues(103.23 − 2 16(5/6 − 1/2) 2 2 = 0.96 5 p= 6 τ = 3.000)(1. a) Calcule la proporción de interés. 000: el tamaño de la población Zα/2 = 1. 450) = 103.962 )(0.962 )(0.962 )(0. ¿Cuál es el tamaño de muestra necesario para estimar el total poblacional con una precisión de 3 % del total preliminar y con una confiabilidad de 95 %? 2 N 2 Zα/2 k n= 2 2 d + N Zα/2 k donde: N = 15. Se entrevistó aleatoriamente a 6 n = 160 ciudadanos.4896 k= 16(5/6 − 1/2)2 2 (15.4896) g) Suponga que n = 250 ciudadanos es una muestra preliminar. π= ˆ p−1 a + 2p − 1 (2p − 1)n 5 y n = 160 6 donde: a = Σn yi = 40. Como es una pregunta delicada se usó 5 el método de respuesta aleatorizada con p = . En el estado de Colima se realiza una encuesta con la intención de estimar la proporción de ciudadanos que han usado juguetes sexuales alguna vez en su vida. 450 ˆ d = (0.03)(3.23 − = 0.52 ) + (15.5 % de ciudadanos 2(5/6) − 1 (2(5/6) − 1)160 .

Zα/2 = Z0.125 ± (1.02551 y 0.050758752 ˆ ˆ Por lo tanto: 0. π = 0.125.2244.5 % b) Realice la estimación del total de ciudadanos que alguna vez han usado juguetes sexuales.125.000. N = 7.96)(0.050758752 ˆ 2 = 0. 2 Sπ = ˆ 1 N −n 1 1 ˆ 2 − π− N n 16(5/6 − 1/2) 2 2 5 donde: N = 7. es decir el 12.125 ± 0. El muestreo basado en el método de respuesta aleatorizada usado juguetes sexuales es de 0.Capítulo 7.050758 ˆ ˆ 186 .224487154 Esto significa que la proporción de ciudadanos que alguna vez en su vida han usado juguetes sexuales está entre 0. π ± Zα/2 ˆ 2 Sπ ˆ donde: π = 0. o sea.00257645 d) Construya un IC para la proporción de interés con una confiabilidad de 95 %.125 − 7000 160 16(5/6 − 1/2) 2 √ 2 Sπ = 0.025 = 1. n = 160 ˆ 6 por lo tanto: 2 Sπ = ˆ Sπ = ˆ 1 7000 − 160 1 1 2 − 0.125 ˆ Por lo tanto: τ = (7000)(0. entre 2. τ = Nπ ˆ ˆ donde: N = 7. p = .025512846 ≤ π ≤ 0.125) = 875 ciudadanos ˆ c) Obtenga la varianza y la desviación estándar de la proporción.96 y S π = 0. e) Obtenga un IC del total con una confiabilidad de 95 %.05007) 0.000 y π = 0.000.44 %. Zα/2 = Z0.00257645 = 0.125.025 = 1.55 y 22.96 y Sπ = 0. τ ± N Zα/2 ˆ 2 Sπ ˆ donde: τ = 875.099487154 0.

75 2 1 1 = 0.125) = 0.4100 178.571.962 )(0.41. 000)(1.09948) (7.96 5 p= 6 τ = 875 ˆ d = (0. ¿Cuál es el tamaño de muestra necesario para estimar el total con una precisión de 5 % del total preliminar y una confiabilidad de 95 %? n= 2 N 2 Zα/2 k 2 d2 + N Zα/2 k Por lo tanto: donde: N = 7.962 )(0.4218) n= tra) g) Suponga que n = 160 ciudadanos es una muestra preliminar.125 − k= 16(5/6 − 1/2)2 2 187 . 000)(0. 000: el tamaño de la población Zα/2 = 1. 000)(1.96 5 p= 6 d = (0.5899 ≤ τ ≤ 1571.00625 2 1 1 k= = 0.125) ± (7.045321 ciudadanos (mues(7. ¿Cuál es el tamaño de muestra necesario para estimar la proporción poblacional con una precisión de 5 % de la proporción preliminar y una confiabilidad de 95 %? n= 2 N Zα/2 k 2 N d2 + Zα/2 k Por lo tanto: donde: π = 0. 000: el tamaño de la población Zα/2 = 1.4218 − 0. 000)(0.05)(0.58 y 1.125 ˆ N = 7.05075)2 + (1. f) Suponga que n = 160 ciudadanos es una muestra preliminar.05)(875) = 43. 000)(0.07740) 875 ± 696.125 − 16(5/6 − 1/2)2 2 (7. 000)(0.125) ± (7.Por lo tanto: (7.421875 − 0.4218) = 250.96)(0.41008 Esto significa que el total verdadero de ciudadanos que alguna vez han usado juguetes sexuales se encuentra entre 178.

p = i=1 Por lo tanto: π= ˆ 5 y n = 250 6 Esto significa que la proporción de ciudadanos en el estado de Colima que alguna vez en su vida han vendido su voto es de 0. Dado que se trata de una pregunta delicada.Capítulo 7.000 que han vendido su voto alguna vez en su vida. N −n 1 1 1 = ˆ 2 − π− N n 16(p − 1/2) 2 5 donde: N = 5. π = 0. 000. a) Estime la proporción poblacional de interés. π= ˆ p−1 a + 2p − 1 (2p − 1)n donde: a = Σn yi = 60.4218) = 250. p = .000 y π = 0.75)2 + (7000)(1. En los resultados se encontraron 60 respuestas de "sí". ˆ τ = Nπ ˆ ˆ donde: N = 5. Se tomó una muestra aleatoria 6 simple de 250 ciudadanos a quienes se les entrevistó. c) Haga la estimación de la varianza y la desviación estándar de la proporción.11. se empleó 5 el método de respuesta aleatorizada con p = . En el estado de Colima se realiza una encuesta con la intención de calcular la proporción de ciudadanos N = 5.962 )(0. 000)(0.4218) Ejemplo 4. es decir el 11 % b) Calcule el total de ciudadanos que alguna vez han vendido su voto.962 )(0.11 Por lo tanto: τ = (5. El muestreo basado en el método de respuesta aleatorizada n= tra) (7000)2 (1.045321 ciudadanos (mues(43.11.11) = 550 ˆ Esto significa que el total de ciudadanos de Colima que alguna vez han vendido su voto es de 550.11 2(5/6) − 1 (2(5/6) − 1)250 Por lo tanto: 188 . n = 250 ˆ 6 2 Sπ ˆ 2 5/6 − 1 60 + = 0.

e) Cree un IC del total con una confiabilidad de 95 %.187401886 Por lo tanto. 000)(0.05)(0.0055 189 . 000.039490758 ˆ ˆ Por lo tanto: (5. 000: el tamaño de la población ˆ Zα/2 = 1.96)(0. la proporción de ciudadanos que alguna vez en su vida han vendido su voto está entre 0.96 y Sπ = 0.74 %.25 y 18.11) = 0.039490758 ˆ ˆ por lo tanto: 0. f) Suponga que n = 250 ciudadanos es una muestra preliminar.11 N = 5.0094 personas. ¿Cuál es el tamaño de muestra para estimar la proporción verdadera con una precisión de 5 % de la proporción preliminar y una confiabilidad de 95 %? n= 2 N Zα/2 k 2 N d2 + Zα/2 k donde: π = 0.0395) 0.0395) (5. es decir.11 ± (1. entre 3. 000)(0. Zα/2 = Z0.025 = 1.96)(0.96 5 p= 6 d = (0.11) ± (5.039490758 ˆ 2 = 0.032598114 ≤ π ≤ 0.11 ± 0. Zα/2 = Z0. 000 − 250 1 1 2 − 0.0094 162.07740) 550 ± 387.11) ± (5.00156 = 0.0094 Esto significa que el total de ciudadanos que alguna vez ha vendido su voto está entre 162.077401886 0. τ ± N Zα/2 ˆ 2 Sπ ˆ donde: τ = 550.00156 d) Haga un IC de la proporción de interés con una confianza de 95 % π ± Zα/2 ˆ 2 Sπ ˆ donde: π = 0. 000 250 16(5/6 − 1/2) 2 √ 2 Sπ = 0.11 − 5. N = 5.03259 y 0.025 = 1. 000)(1.1874.96 y Sπ = 0.9905 y 937.9905 ≤ τ ≤ 937. 000)(0.11.2 Sπ = ˆ Sπ = ˆ 1 5.

96 5 p= 6 τ = 550 ˆ d = (0.962 )(0.11 − 2 16(5/6 − 1/2) 2 2 = 0.Capítulo 7.4104) Por lo tanto.11 − = 0.962 )(0.962 )(0. El muestreo basado en el método de respuesta aleatorizada 1 1 k= − 0.03949)2 + (1.4104) g) Suponga que n = 250 ciudadanos es una muestra preliminar.110281 ciudadanos (mues(5000)(0.95 de probabilidad de incluir en el intervalo de estimación al total es de 272 ciudadanos.4104) n= = 271. 190 .05)(550) = 27.5)2 + (5000)(1.4104) = 271.4104 k= 16(5/6 − 1/2)2 2 (5000)2 (1. ¿Cuál es el tamaño de muestra necesario para estimar el total verdadero con una precisión de 5 % del total preliminar con una confiabilidad de 95 %? n= 2 N 2 Zα/2 k 2 d2 + N Zα/2 k Por lo tanto: donde: N = 5000: el tamaño de la población Zα/2 = 1. el número estimado de unidades muestrales (ciudadanos) que deben constituir a la muestra para tener una precisión de ±27.5 con 0.4104 Por lo tanto: n= tra) (5000)(1.962 )(0.5 2 1 1 − 0.110281 (27.

para cada estrato se debe conocer su tamaño y no deben traslaparse y además se debe contar con un marco de muestreo confiable para tener una tasa de respuesta en blanco muy cercana a cero.7. Dado que se trata de una pregunta delicada. Ejercicio 4. Un psicólogo está realizando un estudio para conocer el número de homosexuales en el estado de Colima (N = 28. se usó el método de respuesta aleatorizada con p = . ¿Cuál es el tamaño de muestra para estimar la proporción y el total de tal manera que sean estimados con una precisión de 5 % de la proporción y el total preliminar con una confiabilidad de 95 %? Ejercicio 1. Un psicólogo está realizando un estudio para conocer el número de mujeres que han sufrido algún tipo de abuso sexual por parte de un familiar (N = 10. Se 6 tomó una muestra aleatoria simple de n = 150 personas. la asignación de la muestra se realizará en 191 . Se tomó una muestra aleatoria simple de 6 n = 500 mujeres. Se tomó una muestra aleatoria simple de n = 200 personas. se usó el método de respuesta aleatorizada con p = . 000). En los resultados se encontraron 90 respuestas de "sí" de los entrevistados. Dado que se trata de 5 una pregunta delicada. 7. En los resultados se encontraron 45 respuestas de "sí" de los entrevistados. se usó el método 5 de respuesta aleatorizada con p = . Los criterios para formar los estratos son exactamente los mismos que en el MAE. 000). Ejercicio 2. En el estado de Colima se está realizando un estudio de personas que alguna vez han tenido tendencias de robo menor (N = 50. Dado que se trata de una 5 pregunta delicada. Se encontraron 20 respuestas de "sí" de los entrevistados. Ejercicios En los siguientes ejercicios estime los parámetros siguientes: a) El IC para la proporción y el total con una confiabilidad de 95 %. 000). Ejercicio 3. 000). Por lo tanto. Por otro lado. 6 Se tomó una muestra aleatoria simple de n = 200 hombres. b) Suponga que la muestra en cada ejercicio es una muestra preliminar. El modelo de respuesta aleatorizada bajo el MAE Cuando la población es heterogénea se sugiere formar estratos para mejorar la precisión de las estimaciones. se usó el método de respuesta aleatorizada 5 con p = . Un médico desea hacer un estudio para conocer el número de personas que han consumido algún tipo de droga prohibida en el municipio de Coquimatlán del estado de Colima.5. ya que se determine el tamaño de muestra con la expresión correspondiente.4. Dado que se trata de una pregunta delicada. En los 6 resultados se encontraron 37 respuestas de "sí" de los entrevistados. (N = 5.

n = n1 + n2 + . El estimador de la proporción y el total poblacional ˆ πst = N1 π1 + N2 π2 + .Capítulo 7.5. 7.5... cada individuo que conformará la muestra se entrevistará con el mismo procedimiento del método de respuesta aleatorizada bajo el MAS. entonces el estimador de máxima verosimili2 tud de πh es : πh = ˆ ah p−1 + .2.5..3. El intervalo de confianza para el promedio y total poblacional Los intervalos de confianza para πst y τst son: πst ± Zα/2 ˆ 2 Sπst ˆ 192 . + nE . es decir. El procedimiento del método de respuesta aleatorizada en MAE es exactamente el mismo que MAS.. 7. . La varianza de los estimadores de la proporción y total poblacional E 2 Sπst = ˆ h=1 E 2 Sτst ˆ Nh N Nh N 2 N h − nh Nh 2 1 1 1 − πh − ˆ 2 nh 16(p − 1/2) 2 1 1 1 − πh − ˆ 2 nh 16(p − 1/2) 2 2 =N 2 h=1 N h − nh Nh 2 Con los estimadores de las varianzas de πst y τst se puede calcular intervalos ˆ ˆ que contengan el valor del parámetro con una probabilidad preestablecida. El muestreo basado en el método de respuesta aleatorizada forma proporcional.. A continuación se presentan los estimadores necesarios del método en su versión estratificada.. 7. Por lo tanto. por su simplicidad y aceptación práctica. + NE πE ˆ ˆ ˆ N τst = N πst ˆ ˆ 1 Si p = es igual en cada estrato.. ah : el total de respuestas afirmativas ("sí") de los nh entrevistados en el estrato h.1. con la diferencia que ahora el tamaño de muestra n se asigna en forma proporcional a cada estrato. 2p − 1 (2p − 1)nh h = 1.. E donde: p : la fracción de letras en el mazo de cartas marcadas con la letra A. Se necesita la varianza de estos estimadores para determinar la dispersión de los datos y saber la precisión de las estimaciones. 2.

Obviamente. 500 y N3 = 2. 500. El tamaño de la muestra para estimar la proporción y el total El tamaño de muestra para estimar la proporción 2 Fijando la precisión d = Zα/2 Sπst se tiene que: ˆ n= donde: 2 2 N Zα/2 E h=1 Wh Kh 2 Zα/2 E Wh Kh h=1 N d2 + 1 1 − πh − ˆ Kh = 2 16(p − 1/2) 2 N = el tamaño de la población πh = la proproción de interés en el estrato h ˆ Zα/2 = el valor de tablas de la distribución normal p = la proporción de cartas que están marcadas con la letra A d = la precisión fijada por el investigador El tamaño de muestra para estimar el total n= donde: 1 1 Kh = − πh − ˆ 2 16(p − 1/2) 2 N = el tamaño de la población πh = la proproción de interés en el estrato h ˆ Zα/2 = el valor de tablas de la distribución normal p= la proporción de cartas que están marcadas con la letra A d= la precisión fijada por el investigador 2 N 2 (Zα/2)2 ΣE Wh Kh h=1 d2 + N (Zα/2 )2 ΣE Wh Kh h=1 7.τst ± Zα/2 ˆ 2 Sτst ˆ 7. Ejemplos Ejemplo 1. Además. 000. (estrato 1). la investigadora cree que el nivel socioeconómico influye en la infidelidad.4. La población de cada estrato es de N1 = 4. media (estrato 2) y alta (estrato 3). por lo que clasificó a la población en tres estratos: clase baja.5.5. Para el estudio se tomó una muestra aleatoria simple de n = 200 193 . N2 = 3. Una investigadora de la U de C está interesada en estimar la proporción de mujeres infieles en el estado (se encontró que las mujeres que están casadas por lo civil es de N = 10. 000 ). es una pregunta delicada y por eso se usó el método de respuesta aleatorizada.5.

E. n2 = 65 y n3 = 55 señoras..0125 2(5/6) − 1 (2(5/6) − 1)80 16 5/6 − 1 + = 0.. N2 = 3. N2 = 3.0901 ó 9 % πst = ˆ 10000 de mujeres infieles π1 = ˆ b) Determine el total de mujeres infieles en el estado τst = N πst ˆ ˆ donde: N = 10.Capítulo 7. p = 6 Por lo tanto: 14 5/6 − 1 + = 0. 5 16 para el estrato 2 y 17 para el estrato 3.000 el total de mujeres casadas por lo civil en el estado de Colima πst = 0. El muestreo basado en el método de respuesta aleatorizada señoras distribuidas de la siguiente manera: n1 = 80. 000.090) = 900. n3 = 55 5 a1 = 14. n2 = 65. 500.. 000 n1 = 80. N1 = 4. 000 el total de mujeres casadas por lo civil en el estado E = 3 los estratos en los que está dividida la población en estudio N1 = 4.0125) + (3500)(0. a2 = 16. a3 = 17.8304 ˆ Esto significa que el total de mujeres infieles en el estado de Colima es de 900. .. n2 = 65. En este caso p = . 500.2136) = 0. h = 1. N3 = 2.. 500. + NE πE ˆ ˆ ˆ N donde: p−1 ah + ..0901: la proporción de mujeres infieles en el estado ˆ Por lo tanto: τst = (10000)(0.1199) + (2000)(0. N3 = 2. πst = ˆ N1 π1 + N2 π2 + .2136 2(5/6) − 1 (2(5/6) − 1)55 (4500)(0. Las respuestas de ”sí” en las entrevistas por estrato son: 14 para el estrato 1.8304 c) Estime la varianza y la desviación estándar de la proporción.1199 π2 = ˆ 2(5/6) − 1 (2(5/6) − 1)65 5/6 − 1 17 π3 = ˆ + = 0. 2. n1 = πh = ˆ 2p − 1 2p − 1 80. 500. n3 = 55 194 2 . 6 a) Calcule la proporción de mujeres infieles en el estado. E 2 Nh N h − nh 1 1 1 2 Sπst = − πh − ˆ ˆ N Nh nh 16(p − 1/2)2 2 h=1 donde: N = 10.

0438 ˆ α = 0.96)(0.0125 − 80 16 (5/6 − 1/2) 2 1 1 1 2 − 0.96 195 .1192 − 65 16 (5/6 − 1/2) 2 1 1 1 2 − 0.1760.0901 ± (1.2136 − 55 16 (5/6 − 1/2) 2 2 2 + + Sπst = ˆ 2 2 = 0. τst ± Zα/2 ˆ 2 Sτst ˆ donde: τst = 900.0901 ± 0.0438 ˆ Por lo tanto: 0. a2 = 16. e) Haga un IC del total de interés con una confiabilidad de 95 %.1192 ˆ π3 = 0.0019 √ 0.96 2 Sπst = 0.0125 ˆ π2 = 0.0042 y 0.0042 ≤ πst ≤ 0.0438) 0.0859 0.000 el total de mujeres casadas por lo civil en el estado de Colima 2 Sτst = 0.05 Zα/2 = 1.0901: la proporción de mujeres infieles en el estado ˆ α = 0. a3 = 17 5 p= 6 π1 = 0.a1 = 14.2136 ˆ Por lo tanto: 2 Sπst = ˆ 4500 10000 3500 10000 2000 10000 2 Sπst = ˆ 2 4500 − 80 4500 3500 − 65 3500 2000 − 55 2000 2 1 1 1 2 − 0. ˆ πst ± Zα/2 2 Sπst ˆ donde: πst = 0.1760 Esto significa que la proporción de mujeres infieles casadas por lo civil en el estado de Colima está entre 0.0438 d) Construya un IC para la proporción de interés con una confiabilidad de 95 %.0019 = 0.05 Zα/2 = 1.83042 ˆ N = 10.

2. ¿Cuál es el tamaño de muestra para estimar la proporción poblacional con una precisión de 75 % de la proporción preliminar y una confiabilidad de 95 %? n= donde: 2 N Zα/2 ΣE Wh Kh h=1 2 N d2 + Zα/2 ΣE Wh Kh h=1 2 1 1 Kh = − πh − ˆ 2 16(p − 1/2) 2 Nh Wh = .96)2 (0. f) Suponga que n = 200 mujeres es una muestra preliminar.1468) 900. 759.Capítulo 7.5824 Esto significa que el total de mujeres infieles casadas por lo civil está entre 42.5824.0676 Wh kh = Por lo tanto: n= (muestra) E (10.96)(438.000)(1.4805 − 0.000 : total de mujeres casadas por lo civil en el estado de Colima Zα/2 = 1.0785 ≤ τst ≤ 1.7519 42. 3 N N = 10. h = 1. El muestreo basado en el método de respuesta aleatorizada 2 Sτst = (10.8304 ± 858.0676)2 + (1.4175) + (0.000 h=1 d = (0.500 (317) = 143 10.4175 2 16 (5/6 − 1/2)2 2 1 1 = 0.500 2.96 5 p= 6 2 1 1 = 0.3884 = 316.0438) = 438.5251 mujeres casadas (10.96)2 0.000 196 .4805) = 0.000 10.500 (317) = 111 10.000 (0.0901) = 0.75)(0.0785 y 1.500 3.000)(0.8304 ± (1.3248) + (0.1468 ˆ Por lo tanto: 900.1192 − K2 = = 0.3884 10.2136 − K3 = 2 16 (5/6 − 1/2)2 4.3884) La asignación de la muestra en forma proporcional n1 = N1 n= N N2 n= n2 = N 4.3248 K1 = − 0.000 3.759.000 10.0125 − 2 16 (5/6 − 1/2)2 2 1 1 − 0. 000)(0.

3884 10. Ejemplo 2.500 3.000 h=1 τst = 900.83042 ˆ d = (0.6228 Por lo tanto: (10.4805) = 0.000 el total de mujeres casadas por lo civil en el estado de Colima α = 0.3248 K1 = 2 16 (5/6 − 1/2)2 2 1 1 = 0.83042) = 675.96 5 p= 6 2 1 1 − 0.000)2 (1.n3 = 2. donde la población de cada estrato es N1 = 10.96)2 (0.4805 − 0.000 y N2 = 5. la muestra requerida para cada estrato queda distribuida de la siguiente manera: 143 mujeres para el estrato 1.6228)2 + (10.3248) + (0. 111 para el estrato 2 y 63 para el estrato 3.000 Por lo tanto.000.0125 − = 0.000 Wh kh = (0. la distribución queda con 143 mujeres para el estrato 1.1192 − K2 = 2 16 (5/6 − 1/2)2 2 1 1 K3 = = 0. Para el estudio se tomó una muestra aleatoria simple (n = 300) de la población obje197 . h = 1.4175 − 0. Además. 111 para el estrato 2 y 63 para el estrato 3.96)2 (0.000).000 N3 n= (317) = 63 N 10.5251 mujeres casadas (675.75)(900.4175) + (0. 3 N N = 10.000)(1.05 Zα/2 = 1.000 10. Una persona está interesada en estimar la proporción de mujeres jóvenes que han abortado en Manzanillo (el total de jóvenes es N = 15. g) Suponga que n = 200 mujeres es una muestra preliminar. la persona cree que el nivel social influye en tal problema.000 10. ¿Cuál es el tamaño de muestra para estimar el total verdadero con una precisión de 75 % del total preliminar y una confiabilidad de 95 %? n= donde: N 2 (Zα/2 )2 ΣE Wh Kh h=1 d2 + N (Zα/2 )2 ΣE Wh Kh h=1 2 1 1 Kh = − πh − ˆ 2 16(p − 1/2) 2 Nh Wh = . 2. por lo que clasificó a la población en dos estratos: clase baja (estrato 1) y clase alta (estrato 2).500 2.3884) (unidades muestrales) n= Dado que el tamaño de muestra es el mismo.3884) = 316.2136 − 2 16 (5/6 − 1/2)2 E 4.

000 n1 = 200 y n2 = 100 a1 = 50 y a2 = 30 5 p= 6 Por lo tanto: 5/6 − 1 50 + = 0..15) = 2. 000) (0. En este caso p = .2) πst = ˆ = 0. 000 el total de jóvenes que han abortado πst = 0. 000) (0. 000 y N2 = 5..15.2 (2 (5/6) − 1) (2 (5/6) − 1) 100 (10. h = 1.Capítulo 7.15 la proporción de jóvenes que han abortado ˆ Por lo tanto: τst = (15. El muestreo basado en el método de respuesta aleatorizada tivo. . 000)(0.125) + (5. + NE πE ˆ ˆ ˆ N ah p−1 + .125 (2 (5/6) − 1) (2 (5/6) − 1) 200 5/6 − 1 30 π2 = ˆ + = 0. 000 π1 = ˆ Esto significa que la proporción de mujeres que han abortado en Manzanillo es de 0. que se distribuyó de la siguiente manera: n1 = 200 y n2 = 100 jóvenes.250 mujeres ˆ c) Obtenga la varianza y la desviación estándar de la proporción. 6 a) Realice la estimación de la proporción de mujeres que han abortado en Manzanillo. πst = ˆ N1 π1 + N2 π2 + . el 15 % b) Calcule el total de mujeres que han abortado en Manzanillo. E 2 Sπst ˆ = h=1 Nh N 2 N h − nh Nh 1 1 1 − πh − ˆ 2 nh 16(p − 1/2) 2 2 donde: N = 10..15 15. es decir.. El número de respuestas de ”sí” por estrato fue de 50 para el estrato uno y de 30 5 para el estrato dos. 2. τst = N πst ˆ ˆ donde: N = 15. 000: el total de jóvenes que han abortado E = 2: los estratos en los que está dividida la población del estudio 198 . E πh = ˆ 2p − 1 (2p − 1)nh donde: N1 = 10...

125 ˆ π2 = 0. 000 y N2 = 5.0379 ˆ α = 0. e) Haga un IC del total de interés con una confiabilidad de 95 %.05 Zα/2 = 1.15) ± (1. πst ± Zα/2 ˆ 2 Sπst ˆ donde: πst = 0.0379) (0.0379 ˆ Por lo tanto: (0. d) Elabore un IC para la proporción de interés con una confiabilidad de 95 %. se estima que la proporción de mujeres jóvenes que han abortado en Manzanillo está entre 0.15) ± (0.05 Zα/2 = 1. 000 n1 = 200 y n2 = 100 a1 = 50 y a2 = 30 5 p= 6 π1 = 0.0758 ≤ πst ≤ 0.125 − 200 16 (5/6 − 1/2) 2 2 2 = 0.96 2 Sπst = 0. τst ± Zα/2 ˆ 2 Sτst ˆ donde: τst = 2.N1 = 10.0379.0014 La desviación estándar de la proporción es igual a 0.96)(0.96 199 .2242 Entonces.250 ˆ 2 2 Sτst = N Sπst ˆ ˆ N = 15.15: la proporción de jóvenes que han abortado ˆ α = 0. 000 :el total de jóvenes 2 Sπst = 0.0758 y 0.2 − 100 16 (5/6 − 1/2) 2 1 1 1 2 − 0.2 ˆ Por lo tanto: 2 Sπst = ˆ 10000 15000 5000 15000 2 10000 − 200 10000 5000 − 100 5000 2 + 1 1 1 2 − 0.2242.0742) 0.

9868 ≤ τst ≤ 3. 000)(0. 000 E Σh=1 Wh kh = (0.0132 Por lo tanto.9868 y 3. 363. 2. 3 Wh = N N = 15.0132 1.363.15) = 0.4725) = 0. 000 (306) = 204 para el estrato 1 15.136.8743) 2250 ± 1.96)2 (0. 136.6316 mujeres jóvenes (15. el total de mujeres jóvenes que han abortado está entre 1.96)(567.125 − = 0. h = 1. 113. 000 (306) = 102 para el estrato 2 15. El muestreo basado en el método de respuesta aleatorizada 2 Sτst = (15000)(0.8743 ˆ Por lo tanto: 2250 ± (1.4388) La asignación de la muestra en forma proporcional N1 n= N N2 n2 = n= N n1 = 10. 000 200 .4219 2 16 (5/6 − 1/2)2 2 1 1 = 0.Capítulo 7.49)(0.4219) + (0. 000 d = (0.96 5 p= 6 2 1 1 K1 = − 0. 000 5.379) = 567. ¿Cuál es el tamaño de muestra para estimar la proporción verdadera con una precisión de 49 % de la proporción preliminar y una confiabilidad de 95 %? n= donde: 2 N Zα/2 ΣE Wh Kh h=1 2 N d2 + Zα/2 ΣE Wh Kh h=1 2 1 1 ˆ Kh = 2 − πh − 2 16 (p − 1/2) Nh .4725 − 0. 000 5.4388 15.0132. 000)2 (1.0735)2 + (1.96)2 (0.2 − K2 = 2 16 (5/6 − 1/2)2 10.4388) = 305. 000 15.0735 Por lo tanto: n= (muestra) (15. f) Suponga que n = 300 mujeres jóvenes es una muestra preliminar.000: el total jóvenes Zα/2 = 1.

En este caso p = . 000. 400 y n3 = 600 mujeres. nivel medio (estrato 2) y ricas (estrato 3). por lo que se clasificó a la población en tres estratos: pobres (estrato 1).4219 K1 = − 0. 4 a) Calcule la proporción de mujeres que han tenido relaciones sexuales antes del matrimonio. 000 τst = 2250 ˆ d = (0.05 Zα/2 = 1. 000 15.4219) + (0.125 − 2 16 (5/6 − 1/2)2 2 1 1 − 0.4725) = 0. N2 = 16. 201 .50)2 + (15. 000).962 )(0. Para el estudio se tomó una muestra aleatoria simple de la población de mujeres distribuidas de la siguiente manera: n1 = 2.96 5 p= 6 2 1 1 = 0. 3 Wh = N N = 15. 2.4725 2 16 (5/6 − 1/2)2 E Wh kh = h=1 5.4388) Dado que el tamaño de muestra es el mismo. h = 1. Ejemplo 3. 102. 000. Las respuestas de ”sí” en las entrevistas por estrato son: 520 para el estrato 1.g) Suponga que n = 300 jóvenes es una muestra preliminar. 000)2 (1. n2 = 1.4388) = 305.6316 mujeres jóvenes (1. Además. 000 (0.50 Por lo tanto: n= (muestra) (15. 000.2 − K2 = = 0. 000 10.49)(2250) = 1. 360 para el 3 estrato 2 y 180 para el estrato 3.4388 15. 000: el total de jóvenes α = 0. 000)(1. la distribución queda con 204 jóvenes para el estrato 1 y 102 para el estrato 2. ¿Cuál es el tamaño de muestra para estimar el total con una precisión de 49 % del total preliminar y una confiabilidad de 95 %? n= donde: Kh = 2 N 2 Zα/2 ΣE Wh Kh h=1 2 d2 + N Zα/2 ΣE Wh Kh h=1 2 1 1 ˆ 2 − πh − 2 16 (p − 1/2) Nh . se piensa que el nivel de vida influye en la decisión de tener relaciones sexuales antes del matrimonio. 000 y N3 = 5. La población de cada estrato es N1 = 19. Un sexólogo desea realizar una investigación para conocer el número de mujeres que han tenido relaciones sexuales premaritales en la ciudad de Colima (se encontró que el número de mujeres era de N = 40.962 )(0. 102.

N2 = 16. 000. a3 = 180 202 . .. 400. N3 = 5. se estima que la proporción de mujeres que han tenido relaciones antes del matrimonio es de 0.1) πst = ˆ = 0. 000 : el total de mujeres en el estado de Colima πst = 0. 000 3/4 − 1 360 π2 = ˆ + = 0.5714 mujeres ˆ c) Estime la varianza y la desviación estándar de la proporción. El muestreo basado en el método de respuesta aleatorizada πst = ˆ donde: N1 = 19.Capítulo 7.. + NE πE ˆ ˆ ˆ N ah p−1 + . N3 = 5. 000 : el total de mujeres en el estado de Colima E = 3 : los estratos en los que está dividida la población bajo estudio N1 = 19.0277 ó 2. 108. n3 = 600 a1 = 520.0277) = 1.02 2 (3/4) − 1 (2 (3/4) − 1) 2. a3 = 180 3 p= 4 Por lo tanto: N1 π1 + N2 π2 + . n2 = 1. N2 = 16.. τst = N πst ˆ ˆ donde: N = 40. h = 1. 000. 000 n1 = 2.1 π3 = ˆ 2 (3/4) − 1 (2 (3/4) − 1) 600 (19000) (0.0142 2 (3/4) − 1 (2 (3/4) − 1) 1..0142) + (5000) (0.. n3 = 600 a1 = 520. 000)(0. E 2 Sπst ˆ = h=1 Nh N 2 N h − nh Nh 1 1 1 − πh − ˆ 2 nh 16(p − 1/2) 2 2 donde: N = 40.0277 : la proporción de mujeres que han tenido relaciones sexuales antes ˆ del matrimonio Por lo tanto: τst = (40.02) + (16000) (0. 000. E πh = ˆ 2p − 1 (2p − 1)nh 3/4 − 1 520 + = 0. b) Determine el total de mujeres que han tenido relaciones sexuales antes del matrimonio. 000.77 %. a2 = 360. 2. n2 = 1. 400 180 3/4 − 1 + = 0. 000. 400. 000 n1 = 2. a2 = 360..0277 40000 π1 = ˆ Por lo tanto. 000.

05 Zα/2 = 1.05 Zα/2 = 1.01 − 600 16 (3/4 − 1/2) 2 1 1 1 2 − 0.0002 = (0.0133 ˆ Por lo tanto: 0.0017 y 0.0133) 0.0277 : la proporción de mujeres que han tenido relaciones sexuales antes ˆ del matrimonio α = 0.0133 ˆ α = 0. 000)(0.0260 0. πst ± Zα/2 ˆ donde: πst = 0.02 − 2000 16 (3/4 − 1/2) 2 Sπst ˆ 5000 5000 − 600 40000 5000 = 0. e) Construya un IC para el total de interés con una confiabilidad de 95 %.0538. 400 16000 2 1 1 1 2 − 0.96 2 Sτst = (40.96)(0.0142 ˆ π3 = 0. 000 16000 − 1.5853 ˆ 203 .0277 ± 0.3 p= 4 π1 = 0.0017 ≤ πst ≤ 0.0277 ± (1. 000 : el total de mujeres en el estado de Colima 2 Sπst = 0.0133) = 531. τst ± Zα/2 ˆ 2 Sτst ˆ donde: τ = 412.0538 Por lo que se estima que la proporción de mujeres que han tenido relaciones sexuales antes del matrimonio está entre 0.0002) = 0.02 ˆ π2 = 0.0133 2 Sπst ˆ 2 1 1 1 2 − 0.96 2 Sπst = 0.1 ˆ Por lo tanto: 19000 2 Sπst = ˆ 40000 + + 16000 40000 2 2 19000 − 2000 19.7946 τst = N πst ˆ ˆ N = 40.0142 − 1400 16 (3/4 − 1/2) 2 2 2 d) Haga un IC para la proporción de interés con una confiabilidad de 95 %.

3 Wh = N N = 5.96)2 0. 000 16. 000 19.0142 − K2 = 16(3/4 − 1/2)2 2 2 1 1 − 0.6835 y 2.5714 ± (1. 000 204 .84) = 0. 150.0208)2 + (1. 108.Capítulo 7.4594.1501. 000 5.96)(531.5853) 1. 000 (5886) = 736 para el estrato 3 40. f) Suponga que n = 4.96)2 (0. 885.7762 Wh kh = 40.02 − 16(3/4 − 1/2)2 2 2 1 1 = 0.1 − K3 = = 0. El muestreo basado en el método de respuesta aleatorizada por lo tanto: 1.7696) + (0. 000 personas es una muestra preliminar.75)(0.6835 ≤ τst ≤ 2.7641) + (0. ¿Cuál es el tamaño de muestra para estimar la proporción poblacional con una precisión de 75 % de la proporción preliminar y una confiabilidad de 95 %? n= donde: 2 N Zα/2 ΣE Wh Kh h=1 2 N d2 + Zα/2 ΣE Wh Kh h=1 2 1 1 Kh = − πh − ˆ 2 16(p − 1/2) 2 Nh .8400 16(3/4 − 1/2)2 2 E 16.7641 − 0. 000 : el total de mujeres Zα/2 = 1.5714 ± 1041. 000 (5886) = 2.0277) = 0. 000 (0. 000)(0. 000)(1.4594.8879 66. Esto es. h = 1. 2. 354 para el estrato 2 40.7762 n= = 5.0208 Por lo tanto: tra) (40.7696 − 0.8636 mujeres (mues(40.7762) La asignación de la muestra en forma proporcional N1 n= N N2 n= n2 = N N2 n2 = n= N n1 = 19. 796 para el estrato 1 40. se estima que el total de mujeres que han tenido relaciones sexuales antes del matrimonio está entre 66. 108.96 3 p= 4 2 1 1 K1 = = 0. 000 h=1 d = (0. 000 40. 000 5. 000 (5886) = 2. 000 40.

000 (0.02 − = 0. n2 = 200 y n3 = 100.96 3 p= 4 2 1 1 − 0. Además. 000 y N3 = 2.962 )(0.g) Suponga que n = 4. El número de respuestas de "sí" en las entrevistas es de 55 para el estrato 1. h = 1.354 para el estrato 2 y 736 para el estrato 3. 000 19.962 )(0. 4 a) Calcule la proporción de hombres con disfunción eréctil en el municipio de Temaltepec. 2. 000 40.7696) + (0. 000 en el municipio de Temaltepec.0142 − 16(3/4 − 1/2)2 2 2 1 1 = 0.5714) = 831. 000)2 (1. 000 : el total de mujeres en el estado de Colima α = 0. 000. Para este caso p = .4286)2 + (40.1 − K3 = 16(3/4 − 1/2)2 2 E 16. alcohólicos (estrato 2) y estresados (estrato 3).7762) = 5. ¿Cuál es el tamaño de muestra para estimar el total con una precisión de 75 % del total preliminar y una confiabilidad de 95 %? N 2 (Zα/2 )2 ΣE Wh Kh h=1 n= 2 2 ΣE W K d + N (Zα/2 ) h=1 h h donde: 1 1 − πh − ˆ Kh = 2 16(p − 1/2) 2 Nh Wh = . 2. por lo que clasificó a la población en tres estratos: fumadores (estrato 1). 885. Ejemplo 4.7641 − 0.796 mujeres para el estrato 1. 000 es una muestra preliminar.84) = 0.7762 Wh kh = 40.8400 − 0.05 Zα/2 = 1. 000)(1. N2 = 4. la distribución queda con 2. 3 N N = 40.75)(1. 000 5. 000. 205 . El número de hombres es de N = 10. 108. 000 40. ”M ensex” está interesada en estimar la proporción de hombres con disfunción eréctil.5714 ˆ d = (0. 30 para el estrato dos y 20 3 para el estrato tres.7641) + (0.”M ensex” cree que los vicios que posea la persona influyen en la disfunción eréctil. 000 h=1 τst = 1.8636 (831.4286 Por lo tanto: n= (40.7696 K1 = 16(3/4 − 1/2)2 2 2 1 1 K2 = = 0. Para el estudio se tomó una muestra aleatoria de la población de hombres distribuida de la siguiente manera: n1 = 100. La población de cada estrato es N1 = 4.7762) 2 Dado que el tamaño de muestra es el mismo que el obtenido en f). 108.

N3 = 2.2) + (2..6 2 (3/4) − 1 (2 (3/4) − 1) 100 70 3/4 − 1 + = 0.. 000. n2 = 200. E 2 Sπst ˆ = h=1 Nh N 2 N h − nh Nh 1 1 1 − πh − ˆ 2 nh 16(p − 1/2) 2 2 donde: N = 10. 000) (0..400. es decir.1 π3 = ˆ 2 (3/4) − 1 (2 (3/4) − 1) 100 (4.6) + (4.34 10. h = 1. b) Calcule el total de hombres con disfunción eréctil en el Municipio de Temaltepec. El muestreo basado en el método de respuesta aleatorizada πst = ˆ donde: N1 = 4.34. τst = N πst ˆ ˆ donde: N = 10. 000) (0. . 400 ˆ Por lo que el total de hombres con disfunción eréctil en el municipio de Temaltepec es igual a 3. a3 = 30 3 p= 4 Por lo tanto: N1 π1 + N2 π2 + . + NE πE ˆ ˆ ˆ N ah p−1 + ..Capítulo 7.2 π2 = ˆ 2 (3/4) − 1 (2 (3/4) − 1) 200 30 3/4 − 1 + = 0.1) πst = ˆ = 0. 000)(0.. E πh = ˆ 2p − 1 (2p − 1)nh 3/4 − 1 55 + = 0. 000 : el total de hombres en el municipio de Temaltepec πst = 0. a2 = 70. 2. 000.34) = 3. 000) (0. 000 π1 = ˆ Por lo que se estima que la proporción de hombres con disfunción eréctil en el Municipio de Temaltepec es de 0.. el 34 %. 000 : el total de hombres E = 3 : los estratos en los que está dividida la población en estudio 206 . c) Determine la varianza y la desviación estándar de la proporción.34 ˆ Por lo tanto: τst = (10. 000 n1 = 100. n3 = 100 a1 = 55. N2 = 4.

2569 y 0.0505 ˆ d) Construya un IC para la proporción de interés con una confiabilidad de 90 %. 000.645 2 Sπst = 0.0505 ˆ Por lo tanto: 0.0026 Y así.0505) 0. n3 = 100 a1 = 55.6 ˆ π2 = 0.1 ˆ Por lo tanto: 2 Sπst ˆ = + + 4000 10000 4000 10000 2000 10000 2 4000 − 100 4000 4000 − 200 3500 2000 − 100 2000 2 1 1 1 2 − 0.1 − 100 16 (3/4 − 1/2) 2 2 2 2 2 = 0.4231 e) Haga un IC para el total de interés con una confiabilidad de 90 %. τst ± Zα/2 ˆ donde: τst = 3. a3 = 30 3 P = 4 π1 = 0.2569 ≤ πst ≤ 0.34 : proporción de hombres con disfunción eréctil en el municipio de ˆ Temaltepec α = 0.4231 Esto significa que la proporción de hombres con disfunción eréctil del municipio de Temaltepec está entre 0. N2 = 4.34 ± 0. 000.6 − 100 16 (3/4 − 1/2) 2 1 1 1 2 − 0.645)(0.34 ± (1. n2 = 200. la desviación estándar es igual a Sπst =0.10 Zα/2 = 1. 400 ˆ 2 2 Sτst = N Sπst ˆ ˆ 207 2 Sτst ˆ .2 ˆ π3 = 0. πst ± Zα/2 ˆ 2 Sπst ˆ donde: πst = 0.2 − 200 16 (3/4 − 1/2) 2 1 1 1 2 − 0.0831 0. 000 n1 = 100.N1 = 4. a2 = 70. N3 = 2.

400 ± (1.5432 ≤ τst ≤ 4.9280) Entonces. 000 : el total de hombres en el municipio de Temaltepec Zα/2 = 1.0612 Por lo tanto: n= (10.645)2 (0. La asignación de la muestra en forma proporcional 208 . 400 ± 831.0612)2 + (1.4899) 3. 000 10.9280 = 628.4568 2.4899 ˆ Por lo tanto: 3. 000)(1.8400 16(3/4 − 1/2)2 2 E 4.Capítulo 7.231.9100 − 0.18)(0.645)2 0. 231. 000)(0.0505) = 505. h = 1.568. 000 : el total de hombres en el municipio de Temaltepec 2 Sτst = (10. 568.0612 con 0. ¿Cuál es el tamaño de muestra para estimar la proporción poblacional con una precisión de 18 % de la proporción preliminar y una confiabilidad de 90 %? n= donde: N (Zα/2 )2 ΣE Wh Kh h=1 2 + (Z 2 ΣE W K Nd α/2 ) h=1 h h 2 1 1 Kh = − πh − ˆ 2 16(p − 1/2) 2 Nh .99) + (0.645 3 p= 4 2 1 1 K1 = = 0. 000 10. 2.9280 Wh kh = 10.5432 y 4. 000)(0. El muestreo basado en el método de respuesta aleatorizada N = 10.9900 − 0.90 de probabilidad de incluir en el intervalo de estimación la proporción verdadera.4568 Esto significa que el total de hombres con disfunción eréctil está entre 2.1 − K3 = = 0.645)(505. 000 2. 000 (0. 000 h=1 d = (0. 628 es el número estimado de unidades muestrales (hombres) que deben constituir a la muestra para tener una precisión de ±0.2 − K2 = 16(3/4 − 1/2)2 2 2 1 1 − 0.6 − 16(3/4 − 1/2)2 2 2 1 1 = 0. f) Suponga que n = 400 hombres es una muestra preliminar. 3 Wh = N N = 10.2335 (10. 000 4.4568.84) = 0.91) + (0.34) = 0.

1 − 16(3/4 − 1/2)2 2 E 4. 000 10.6.9982) = 628. 000 h=1 τst = 3.6 − = 0. 400 d = (0. b) Suponga que la muestra en cada ejercicio es una muestra preliminar. h = 1.N1 n= N N2 n2 = n= N N3 n= n2 = N n1 = 4. 000 2. p = 4 2 1 1 − 0.84) = 0. 000)(1.18)(3.9900 K1 = 16(3/4 − 1/2)2 2 2 1 1 − 0. 2. 3 Wh = N N = 10.2335 (612)2 + (10. ¿Cuál es el tamaño de muestra necesario para estimar el total verdadero con una precisión de 18 % del total preliminar y una confiabilidad de 90 %? n= donde: 2 N 2 Zα/2 ΣE Wh Kh h=1 2 d2 + N Zα/2 ΣE Wh Kh h=1 2 1 1 Kh = − πh − ˆ 2 16(p − 1/2) 2 Nh . 400) = 612 Por lo tanto: n= (10. 000 4. 000 g) Suponga que n = 400 hombres es una muestra preliminar.8400 − 0. 000)2 (1.99) + (0. de tal manera que la proporción y el total sean estimados con una precisión de 9 % de la proporción y el total preliminar con una confiabilidad de 95 %? Ejercicio 1.6452 )(0.91) + (0. 000 10. 000 Wh kh = (0. 000 (628) = 252 para el estrato 1 10. 000 4. Una persona está interesada en estimar la proporción de jóvenes 209 .645. Ejercicios En los siguientes ejercicios estime los parámetros siguientes: a) El IC para la proporción y el total con una confiabilidad de 95 %.6452 )(0.9280 10. 000 2.9100 K2 = 16(3/4 − 1/2)2 2 2 1 1 K3 = = 0. 000 (628) = 252 para el estrato 2 10.2 − = 0. ¿Cuál es el tamaño de muestra para estimar la proporción y el total.9280) 7. 000 (628) = 126 para el estrato 3 10. 000 : el total de hombres en el municipio de Temaltepec 3 Zα/2 = 1.

donde la población de cada estrato es N1 = 4. n2 = 100. Para este caso p = . clase alta (estrato 3). 60 para el estrato dos y 70 para el estrato tres. se usó el método de respuesta aleatorizada. 000. se distribuyó de la siguiente manera: n1 = 500. se distribuyó de la siguiente manera : n1 = 200. se distribuyó de la siguiente manera: n1 = 200. clase media (estrato 2). n3 = 150 personas. Para el estudio se tomó una muestra aleatoria simple (n = 300) de la población objetivo. 6 Ejercicio 2. donde la población de cada estrato es N1 = 1. clase alta (estrato 3).000). Para el estudio se tomó una muestra aleatoria simple (n = 1. Además se cree que el nivel social influye. Dado que se trata de una pregunta delicada. la persona cree que el nivel social influye. n2 = 500. 000). n2 = 900. por lo que clasificó a la población en tres estratos: nivel bajo (estrato 1). 000. Para el estudio se tomó una muestra aleatoria simple (n = 800) de la población objetivo. 000. Colima (N = 20. Para el estudio se tomó una muestra aleatoria simple (n = 2. n3 = 300 personas. Para este caso p = . nivel medio (estrato 2). 6 Ejercicio 3. se usó el método de respuesta aleatorizada. Dado que se trata de una pregunta delicada. 6 Ejercicio 4. donde la población de cada estrato es N1 = 15. El número de respuestas de "sí" por estrato fue de 70 para estrato uno. por lo que se clasificó a la población en tres estratos: clase baja (estrato 1). Dado que se trata de una pregunta delicada. El número de respuestas de "sí" por estrato fue de 20 para el estrato uno. clase alta (estrato 3). nivel alto (estrato 3). por lo que se clasificó a la población en tres estratos: clase baja (estrato 1). 000. El número de respuestas de "sí" por estrato fue de 8 para el estrato uno. 130 para el estrato dos y 200 para el 5 estrato tres. N3 = 1. N2 = 25. se distribuyó de la siguiente manera: n1 = 50. N2 = 2. El número de respuestas de "sí" por estrato fue de 60 para el estrato 1. Para este 5 caso p = . Un sociólogo de la Universidad de Arizona EUA está interesado en estimar la proporción de mujeres del estado de Colima menores a 25 años que han tenido tendencias suicidas (N = 50. 000 y N3 = 6. 000). N3 = 10. 000. clase media (estrato 2). 000) de la población objetivo. n3 = 600 personas. se usó el método de respuesta aleatorizada. se usó el método de respuesta aleatorizada. 500. n2 = 250 y n3 = 350 jóvenes. La Secretaría de Salud desea hacer un estudio para estimar la proporción de personas menores a 45 años que han contraído algún tipo de enfermedad de transmisión sexual (ET S) en el municipio de Manzanillo. Un psicólogo de la Universidad de Colima está interesado en estimar la proporción de jóvenes estudiantes de dicha universidad menores de 20 años que han sufrido algún tipo de maltrato por parte de sus padres (N = 5.Capítulo 7. clase media (estrato 2). 000. donde la población de cada estrato es N1 = 15. 000. 000. 100 para el estrato 2 y 123 para el 5 estrato 3. Además se cree que el nivel socioeconómico influye. por lo que clasificó a la población en tres estratos: clase baja (estrato 1). 000 y N3 = 9. Además se cree que el nivel social influye. N2 = 10. Dado que se trata de una pregunta delicada. 500. Además. N2 = 11.000) de la población objetivo. 10 para el estrato 210 . 000). El muestreo basado en el método de respuesta aleatorizada menores de 18 años que han tenido relaciones sexuales en el estado de Colima (N = 35.

(1967) sugirierón que la cooperación de los entrevistados podría mejorar si el segundo enunciado ( pregunta 2) no fuese delicado y no tuviese relación con el primero.. Este procedimiento se aplica a todos los n individuos. IX.. por el contrario responda a la pregunta inocua . A continuación se presenta esta variante de la idea original de Warner (1965) propuesta por Horvitz et. pero una fracción de ellas p. V. 1 − p. pero restaltando que ponga mucha atención a la pregunta. A continuación se le explica que se le va a hacer una pregunta y que la responda con "sí" o "no". es decir. (1967)[6]: I. 211 . al. VII. por ejemplo. IV. II. pero que no nos diga con que letra esta marcada. Con las n respuestas de "sí" y "no" se hacen las estimaciones correspondientes con los estimadores propuestos en éste capítulo. 6 7. Se construye un mazo de cartas. se marca con la letra A (grupo A) y la fracción restante. Para este caso p = . X. Alternativa al modelo de respuesta aleatorizada Como alternativa al método de Warner. con las letras faltantes del abecedario (grupo B). III. Horvitz et. A cada individuo que va a responder se le enseña el mazo de cartas para que vea que las cartas estan marcadas con las letras del abecedario. al. por ejemplo ¿ha consumido droga alguna vez? si la carta que obtuvo esta marcada con la letra A. Se tiene que hacer enfasis en que debe de responder con la verdad a las preguntas y que solamente tiene que responder una de ellas dependiendo de la letra que obtuvo. lo mismo que si le toco cualquier otra letra del abecedario debe de responder con la verdad a la pregunta inocua y esta sería la única respuesta. VI. si la la carta que obtuvo esta marcada con la letra A debe responder con la verdadad a la pregunta delicada y esta sería su única respuesta. ¿naciste el mes de abril? si obtuvo cualquier otra letra del abecedario. VIII. Responda a la pregunta delicada. Se selecciona una muestra aleatoria simple o estratificada de individuos sin reemplazo de tamaño n de la población (N ).7.5 dos y 9 para el estrato tres. La carta elegida por un individuo tiene que ser reemplazada antes de entrevistar a la siguiente persona. En seguida se baraja adecuadamente el mazo de cartas y se le pide al individuo que seleccione una carta.

así como sus respectivos estimadores de tamaños de muestra: Estimador de la proporción y del total π= ˆ ˆ φ − (1 − p)pI p ˆ φ − (1 − p)pI p τ = Nπ = N ˆ ˆ a ˆ donde: φ = .8. El muestreo basado en el método de respuesta aleatorizada 7.Capítulo 7. Varianza del estimador de la proporción y el total ˆ π V (ˆ ) = N −n N ˆ ˆ V (φ) = p2 N −n N ˆ ˆ φ(1 − φ) p2 n N2 ˆ ˆ φ(1 − φ) p2 n ˆ τ ˆ π V (ˆ) = N 2 V (ˆ ) = N 2 N −n N ˆ ˆ V (φ) = p2 N −n N Intervalo de confianza de la proporción y el total π ± Zα/2 ˆ τ ± Zα/2 N ˆ ˆ π V (ˆ ) ˆ π V (ˆ ) Tamaño de muestra para estimar la proporción 2 N Zα/2 n= 2 N d2 + Zα/2 ˆ ˆ φ(1 − φ) p2 ˆ ˆ φ(1 − φ) p2 Tamaño de muestra para estimar el total 2 N 2 Zα/2 n= 2 d2 + N 2 Zα/2 ˆ ˆ φ(1 − φ) p2 ˆ ˆ φ(1 − φ) p2 212 . Respuesta aleatorizada versión Horvitz bajo MAS A continuación se presentan los estimadores puntuales y por intervalo para la proporción y el total. a = el total de respuestas afirmativas (sí) en la muestra de n tamaño n.

96 y V (ˆ ) = 0.025 = 1. se tiene que el número de estudiˆ 213 .5090 ± (1. a).5090 ˆ Por lo tanto. Ejemplos Ejemplo 1.96)(0.5090. τ = 1800(0. τ = Nπ ˆ ˆ donde: N = 1800 y π = 0.5090 ± (1. De los resultados de la encuesta se tiene que 125 contestaron sí.509.4443 ≤ π ≤ 0. p = 0. 125 125 1− 1800 − 350 350 350 ˆ π V (ˆ ) = = 0. n = 350.7 y la fracción restante con las letras sobrantes del abecedario.800 alumnos del bachillerato de la Universidad de Colima. 125 1 − (1 − 0.7 b) Estime la varianza de la proporción muestral.8.7 y φ = 350 Por lo tanto. ˆ π π ± Zα/2 V (ˆ ) ˆ ˆ π donde: π = 0. ˆ ˆ N − n φ(1 − φ) ˆ π V (ˆ ) = N p2 n ˆ 125 donde: N = 1800.7) 365 = 0.7. p = 0.5090) = 916. Suponga que el mecanismo de aleatorización es una baraja con una fracción de cartas marcas con la letra A igual a p = 0.7 c) Estime un intervalo de confianza de 95 % para la proporción poblacional.1.7 y φ = 350 Por lo tanto.00109 ˆ Por lo tanto.0330) 0. Zα/2 = Z0.00109. Cada estudiante de la muestra recibe una ficha con las siguientes preguntas: Pregunta 1: ¿has fumado marihuana alguna vez? Pregunta 2: ¿cumples años el primero de enero? Se tiene de los expedientes de todos los alumos del bachillerato que pI = 1/365. donde: pI = 1/365.96)( 0. ˆ φ − (1 − p)pI π= ˆ p ˆ 125 = 0. π = 350 ˆ 0.5737 d) Estime el total de estudiantes que ha fumado marihuana. Se elige una muestra aleatoria simple de 350 de los 1.3571. Estime la proporción de estudiantes que han fumado marihuana. Así. √ 0. 2 (350) 1800 0.00109) 0.

d = 0.96)2 = 514.2661 Ejemplo 2. ¿Cuál sería el tamaño de muestra necesario para estimar la proporción de tal manera que sea estimada con una precisión de d = 0.6774 f) Suponga que los 350 estudiantes encuestados son una muestra preliminar.96 y V (ˆ ) = 0.2661 g) Suponga que los 350 estudiantes encuestados son una muestra preliminar. ¿Cuál sería el tamaño de muestra necesario para estimar el total de tal manera que sea estimado con una precisión de d = 90 y una confiabilidad de 95 %? 2 N 2 Zα/2 n= 2 d2 + N 2 Zα/2 ˆ ˆ φ(1 − φ) p2 ˆ ˆ φ(1 − φ) p2 ˆ donde: N = 1800. ˆ π τ ± Zα/2 N V (ˆ ) ˆ ˆ π donde: N = 1800.7 y φ = 125/350 Por lo tanto. (125/350)(1 − 125/350) (0.96)2 (0. Zα/2 = Z0.00109) 799.025 = 1. τ = 916.96)(1800)( 0. √ 916 ± (1. d = 90. Zα/2 = Z0.96)2 = 514. e) Estime un intervalo de confianza de 95 % para el total poblacional.7)2 (18002 )(1. Zα/2 = Z0.05)2 + (1. El muestreo basado en el método de respuesta aleatorizada antes del bachillerato de la Universidad de Colima que alguna vez han fumado marihuana es de 916. p = 0.7)2 n= (125/350)(1 − 125/350) (1800)(0.00109 ˆ Por lo tanto.7 y φ = 125/350 Por lo tanto.96)2 (0.05 y una confiabilidad de 95 %? 2 N Zα/2 n= 2 N d2 + Zα/2 ˆ ˆ φ(1 − φ) p2 ˆ ˆ φ(1 − φ) p2 ˆ donde: N = 1800.7226 ≤ τ ≤ 1032. (125/350)(1 − 125/350) (0.96.7)2 (1800)(1. p = 0. Se elige una muestra aleatoria simple de 180 empleadas de 214 .7)2 n= (125/350)(1 − 125/350) (90)2 + (18002 )(1.96.05.025 = 1.Capítulo 7.025 = 1.

96)( 0.75 b) Estime la varianza de la proporción muestral. √ 0. Suponga que el mecanismo de aleatorización es una baraja con una fracción de cartas marcas con la letra A igual a p = 0.75) 12 = 0. 130 1 − (1 − 0.7222.8534 ≤ π ≤ 1 d) Estime el total de empleadas que se le ha escapado un gas. ˆ ˆ N − n φ(1 − φ) ˆ π V (ˆ ) = N p2 n ˆ 130 donde: N = 1500. 500). donde: pI = 1/12.9352. τ = 1500(0. Así. Zα/2 = Z0. Cada empleada recibe una ficha con las siguientes preguntas: Pregunta 1: ¿se te ha escapado una flatulencia o gas en una reunión importante? Pregunta 2: ¿está el minutero de tu reloj entre 0 y 5? Sabemos que pI = 1/12. τ = Nπ ˆ ˆ donde: N = 1500 y π = 0.00174) 0.00174 ˆ Por lo tanto.9352 ± (1.9352. p = 0. 215 . n = 180.75 c) Estime un intervalo de confianza de 95 % para la proporción poblacional.75 y φ = 180 Por lo tanto. De los resultados de la encuesta se tiene que 130 contestaron sí a la pregunta correspondiente.75 y φ = 180 Por lo tanto.96 y V (ˆ ) = 0. Estime la proporción de empleadas que se les ha escapado un gas en una reunión importante.025 = 1.75 y la fracción restante con las letras sobrantes del abecedario.9352) = 1402.8. ˆ φ − (1 − p)pI π= ˆ p ˆ 130 = 0. se tiene que el número de emˆ pleadas en dicha empresa que se les ha escapado un gas en una reunión importante es de 1403. a). p = 0. ˆ π π ± Zα/2 V (ˆ ) ˆ ˆ π donde: π = 0.una empresa automotriz del total de su población (N = 1. 130 130 1− 1500 − 180 180 180 ˆ π V (ˆ ) = = 0.9352 ˆ Por lo tanto.00174. π = 180 ˆ 0. 2 (180) 1500 0.

¿Cuál sería el tamaño de muestra necesario para estimar el total de tal manera que sea estimado con una precisión de d = 105 y una confiabilidad de 95 %? 2 N 2 Zα/2 n= 2 d2 + N 2 Zα/2 ˆ ˆ φ(1 − φ) p2 ˆ ˆ φ(1 − φ) p2 ˆ donde: N = 1500. τ = 1402. p = 0.07)2 + (1.025 = 1.692 g) Suponga que las 180 empleadas encuestadas son una muestra preliminar.96 y V (ˆ ) = 0. (130/180)(1 − 130/180) (0. (130/180)(1 − 130/180) (0. Zα/2 = Z0. 000).96)2 (0.96)2 (0.75 y φ = 130/180 Por lo tanto. El muestreo basado en el método de respuesta aleatorizada e) Estime un intervalo de confianza de 95 % para el total poblacional. Cada una de estas mu216 .692 Ejemplo 3.00174 ˆ n= 2 N d2 + Zα/2 ˆ ˆ φ(1 − φ) p2 ˆ ˆ φ(1 − φ) p2 ˆ donde: N = 1500.025 = 1.Capítulo 7.75)2 (1500)(1.75)2 (15002 )(1. ¿Cuál sería el tamaño de muestra necesario para estimar la proporción de tal manera que sea estimada con una precisión de d = 0.8.75)2 n= (130/180)(1 − 130/180) (1500)(0.07 y una confiabilidad de 95 %? 2 N Zα/2 ˆ π donde: N = 1500. d = 0. √ 1402. p = 0.96)2 = 235.07.75 y φ = 130/180 Por lo tanto. Se toma una muestra aleatoria simple de 210 mujeres de la población estudiantil de estos niveles(N = 4.96.163 ≤ τ ≤ 1500 f) Suponga que las 180 empleadas encuestadas son una muestra preliminar.96)(1500)( 0.75)2 n= (130/180)(1 − 130/180) (105)2 + (15002 )(1. Zα/2 = Z0. d = 105. Zα/2 = Z0.96)2 = 235.96.00174) 1280. ˆ π τ ± Zα/2 N V (ˆ ) ˆ Por lo tanto. Una investigadora de la Universidad de Colima desea estimar el porcentaje de alumnas de nivel medio y superior de la institución que abortaron durante el 2007.8 ± (1.025 = 1.

√ 0.051.00139) 0 ≤ π ≤ 0. 39 1 − (1 − 0.051.051 ± (1.00139. donde: pI = 1/2. n = 210.96 y V (ˆ ) = 0. ˆ ˆ N − n φ(1 − φ) ˆ π V (ˆ ) = N p2 n 39 ˆ donde: N = 4000. se tiene que el número de alumnas ˆ que han tenido un aborto provocado es de 204.72 (210) c) Estime un intervalo de confianza de 95 % para la proporción poblacional. p = 0. π = 210 ˆ 0. ˆ φ − (1 − p)pI π= ˆ p 39 ˆ = 0.7 y φ = 210 Por lo tanto.7 y la fracción restante con las letras sobrantes del abecedario.96)( 0. a). ˆ π τ ± Zα/2 N V (ˆ ) ˆ 217 .7 y φ = 210 Por lo tanto. τ = Nπ ˆ ˆ donde: N = 4000 y π = 0. V (ˆ ) = 4000 0. Estime la proporción de alumnas que han tenido un aborto provocado en el 2007. 39 39 1− 4000 − 210 210 210 ˆ π = 0. Suponga que el mecanismo de aleatorización es una baraja con una fracción de cartas marcas con la letra A igual a p = 0.7) 2 = 0.7 b) Estime la varianza de la proporción muestral. p = 0. ˆ π π ± Zα/2 V (ˆ ) ˆ ˆ π donde: π = 0. De los resultados de la encuesta se tiene que 39 contestaron sí a la pregunta correspondiente.051) = 204. e) Estime un intervalo de confianza de 95 % para el total poblacional.00139 ˆ Por lo tanto. Así.jeres recibe una ficha con las siguientes preguntas: Pregunta 1: ¿tuvo un aborto provocado durante el 2007? Pregunta 2: ¿su matrícula en la U de C es impar? Sabemos que pI = 1/2. τ = 4000(0.051 ˆ Por lo tanto. Zα/2 = Z0.1241 d) Estime el total alumnas que han tenido un aborto provocado.025 = 1.1857.

El muestreo basado en el método de respuesta aleatorizada ˆ π donde: N = 4000.00139 ˆ Por lo tanto. Zα/2 = Z0.96.7)2 n= (39/210)(1 − 39/210) (4000)(0. (39/210)(1 − 39/210) (0.96)2 = 228.96 y V (ˆ ) = 0.Capítulo 7.7 y φ = 39/210 Por lo tanto.96)2 (0. p = 0.96)2 (0. Se elige una muestra aleatoria simple de 135 funcionarios del gobierno federal del total de N = 2.2964 f) Suponga que las 210 alumnas encuestadas son una muestra preliminar.7)2 (4000)(1. √ 204 ± (1.025 = 1.07. (39/210)(1 − 39/210) (0.96)(4000)( 0.1452 Ejemplo 4.1452 g) Suponga que las 210 alumnas encuestadas son una muestra preliminar.96)2 = 228.7)2 n= (39/210)(1 − 39/210) (280)2 + (40002 )(1.025 = 1. ¿Cuál sería el tamaño de muestra necesario para estimar la proporción de tal manera que sea estimada con una precisión de d = 0. 000.7)2 (40002 )(1.00139) 0 ≤ τ ≤ 496.025 = 1. p = 0. Zα/2 = Z0. d = 280.7 y φ = 39/210 Por lo tanto. Zα/2 = Z0. τ = 204.07 y una confiabilidad de 95 %? 2 N Zα/2 n= 2 N d2 + Zα/2 ˆ ˆ φ(1 − φ) p2 ˆ ˆ φ(1 − φ) p2 ˆ donde: N = 4000. ¿Cuál sería el tamaño de muestra necesario para estimar el total de tal manera que sea estimado con una precisión de d = 280 y una confiabilidad de 95 %? 2 N 2 Zα/2 n= 2 d2 + N 2 Zα/2 ˆ ˆ φ(1 − φ) p2 ˆ ˆ φ(1 − φ) p2 ˆ donde: N = 4000.96. d = 0. Cada funcionario de la muestra recibe una ficha con las siguientes preguntas: Pregunta 1: ¿alguna vez ha conducido en estado de ebriedad? Pregunta 2: ¿le gusta el fútbol? 218 .07)2 + (1.

el cual se obtuvo de un estudio previo reciente realizado a esta misma población. √ 0.75 y φ = 135 Por lo tanto.00235.7543.00235) 0.6 ± (1.7543 ˆ Por lo tanto. τ = Nπ ˆ ˆ donde: N = 2000 y π = 0.6. se tiene que el número de funˆ cionarios que han conducido en estado de ebriedad es de 1509. donde: pI = 0. 100 − (1 − 0.025 = 1.7543 ± (1. V (ˆ ) = 2 (135) 2000 0. De los resultados de la encuesta se tiene que 100 contestaron sí a la pregunta correspondiente. Suponga que el mecanismo de aleatorización es una baraja con una fracción de cartas marcas con la letra A igual a p = 0. Zα/2 = Z0. ˆ ˆ N − n φ(1 − φ) ˆ π V (ˆ ) = N p2 n ˆ 100 donde: N = 2000.00235 ˆ .7543) = 1508.00235 ˆ Por lo tanto. 100 100 1− 2000 − 135 135 135 ˆ π = 0. Zα/2 = Z0.7.75 y la fracción restante con las letras sobrantes del abecedario. τ = 1508. a).75 y φ = 135 Por lo tanto.96)(2000)( 0.96 y V (ˆ ) = 0.6593 ≤ π ≤ 0.7.8493 d) Estime el total de funcionarios que han conducido en estado de ebriedad. ˆ π π ± Zα/2 V (ˆ ) ˆ ˆ π donde: π = 0.96)( 0.025 = 1.7 135 = 0. π= ˆ 0.Sabemos que pI = 0.7407. n = 135. ˆ π τ ± Zα/2 N V (ˆ ) ˆ Por lo tanto. Estime la proporción de funcionarios que han conducido en estado de ebriedad. e) Estime un intervalo de confianza de 95 % para el total poblacional. Así.7543.75 c) Estime un intervalo de confianza de 95 % para la proporción poblacional.75)0.00235) 219 ˆ π donde: N = 2000.96 y V (ˆ ) = 0. ˆ φ − (1 − p)pI π= ˆ p ˆ 100 = 0. τ = 2000(0. √ 1508. p = 0.75 b) Estime la varianza de la proporción muestral.6. p = 0.

¿Cuál es el tamaño de muestra para estimar la proporción y el total de tal manera que sean estimados con una precisión del 10 % con respecto a la proporción y el total preliminar. b) Suponga que la muestra en cada ejercicio es una muestra preliminar.96. d = 160.96)2 = 185. (100/135)(1 − 100/135) (0.025 = 1. respectivamente? 220 . p = 0.08)2 + (1.571 ≤ τ ≤ 1698.96)2 (0.96)2 (0.08.025 = 1. ¿Cuál sería el tamaño de muestra necesario para estimar la proporción de tal manera que sea estimada con una precisión de d = 0. (100/135)(1 − 100/135) (0. p = 0. El muestreo basado en el método de respuesta aleatorizada 1318. ¿Cuál sería el tamaño de muestra necesario para estimar el total de tal manera que sea estimado con una precisión de d = 160 y una confiabilidad de 95 %? 2 N 2 Zα/2 n= 2 d2 + N 2 Zα/2 ˆ ˆ φ(1 − φ) p2 ˆ ˆ φ(1 − φ) p2 ˆ donde: N = 2000.9025 g) Suponga que los 135 funcionarios encuestadas son una muestra preliminar.75)2 n= (100/135)(1 − 100/135) (2000)(0.75)2 (2000)(1.75 y φ = 100/135 Por lo tanto.629 f) Suponga que los 135 funcionarios encuestados son una muestra preliminar.75 y φ = 100/135 Por lo tanto. Ejercicios En los siguientes ejercicios estime lo siguiente: a) Un intervalo de confianza para la proporción y el total con una confiabilidad de 95 %.08 y una confiabilidad de 95 %? 2 N Zα/2 n= 2 N d2 + Zα/2 ˆ ˆ φ(1 − φ) p2 ˆ ˆ φ(1 − φ) p2 ˆ donde: N = 2000.9025 7.75)2 (20002 )(1. Zα/2 = Z0.96)2 = 185.96.Capítulo 7. d = 0.9. Zα/2 = Z0.75)2 n= (100/135)(1 − 100/135) (160)2 + (20002 )(1.

Una investigadora desea estimar el porcentaje de hombres (de cierto municipio) entre 40 y 55 años que padecen o han padecido alguna vez disfunción eréctil.8 y la fración restante con las letras sobrantes del abecedario. Ejercicio 2. De los resultados de la encuesta se tiene que 65 respondieron sí.09. Colima.90 y la fración restante con las letras sobrantes del abecedario. Por lo tanto. De los resultados de la encuesta se tiene que 48 respondieron sí. se tiene una población de matrimonios de N = 10. Ejercicio 4. De los resultados de la encuesta se tiene que 40 respondieron sí. Cada esposo recibe una ficha con las siguientes preguntas: Pregunta 1: ¿golpeo alguna vez a su esposa durante el 2007? Pregunta 2: ¿el número de su credencia es par? Sabemos que pI = 0. Cada uno de los hombres de la muestra recibe una ficha con las siguientes preguntas: Pregunta 1: ¿padece o ha padecido alguna vez disfunción eréctil? Pregunta 2: ¿usted tiene 43 años? De los registros del Centro de salud Municipal se obtuvo que el 19 % de estos hombres tienen 43 años. Por lo tanto. Una investigadora desea estimar el porcentaje y total de mujeres casadas que sufrieron de maltrato por parte de su pareja durante el 2007. Se toma una muestra aleatoria simple de n = 210 mujeres del total de 221 . pI = 0. 000. Se toma una muestra aleatoria simple de n = 186 hombres del total de la población (N = 8. Supóngase que el mecanismo de aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a p = 0. Cada una de estas mujeres (de la muestra) recibe una ficha con las siguientes preguntas: Pregunta 1: ¿has tenido relaciones sexuales con 2 o más hombres? Pregunta 2: ¿naciste el 9 de Junio de 1984? A partir de un censo preliminar se determino que del total de estas mujeres el 9 % nació el 9 de junio de 1984. Supóngase que el mecanismo de aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a p = 0. Supóngase que el mecanismo de aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a p = 0.85 y la fración restante con las letras sobrantes del abecedario. Un investigador desea estimar el porcentaje y total de mujeres de 24 años han tenido relaciones sexuales con dos o más hombres (e distintos momentos).19. Se toma una muestra aleatoria simple de n = 160 mujeres de esta edad de un total de N = 15.Ejercicio 1. de la cual se toma una muestra aleatoria simple de n = 138 parejas (pero a quienes se les pregunta es a los esposos). 000). pI = 0. Supóngase que en el Municipio de Colima.5. Ejercicio 3. Un investigador desea estimar el porcentaje de mujeres (de cierta ciudad) entre 16 y 20 años que padecen o han padecido alguna vez bulimia o anorexia. 000.

ah = el total de respuestas afirmativas (sí) de los nh entrevistados en el estrato h . h = 1. πh = ˆ Varianza de la proporción y el total estratificado E 2 Sπst ˆ donde: = h=1 E Nh N Nh N 2 N h − nh Nh 2 ˆ ˆ φh (1 − φh ) p 2 nh ˆ ˆ φh (1 − φh ) p 2 nh 2 Sτst ˆ =N 2 h=1 N h − nh Nh Intervalo de confianza para la proporción y el total πst ± Zα/2 ˆ τst ± Zα/2 N ˆ 2 Sπst ˆ 2 Sπst ˆ 222 . . N = 4. E. Respuesta aleatorizada versión Horvitz bajo MAE De igual manera. De los resultados de la encuesta se tiene que 100 respondieron sí. de donde a partir de éste se obtuvo que el 13 % de estas mujeres pertence al signo tauro. Por ello.Capítulo 7. nh p = la fracción de letras en el mazo de cartas marcadas con la letra A. 2.. cuando la población es heterogénea se sugiere formar estratos para mejorar la precisión. a continuación se presentan los estimadores versión Horvitz bajo MAE: Estimador de la proporción y el total estratificado πst = ˆ N1 π 1 + N2 π 2 + · · · + NE π E ˆ ˆ ˆ N τ = N πst ˆ ˆ ˆ φh − (1 − p)pI . pI = 0. 7.75 y la fración restante con las letras sobrantes del abecedario..13. 000). Por lo tanto. El muestreo basado en el método de respuesta aleatorizada la población (mujeres entre 16 y 20 años. Cada uno de las mujeres de la muestra recibe una ficha con las siguientes preguntas: Pregunta 1: ¿padece o ha padecido alguna vez bulimia o anorexia? Pregunta 2: ¿tu signo zodiacal es tauro? Se cuenta con un marco de muestreo que específica la fecha de nacimiento de estas mujeres.10.. p ah ˆ φh = . Supóngase que el mecanismo de aleatorización es una baraja con una fracción de cartas marcadas con la letra A igual a p = 0.

11. Esto significa que usando la versión propuesta por Horvitz (1967) se obtienen estimaciones de la proporción y el total más precisas. Zα/2 = el valor de tablas de la distribución normal. 223 . d = la precisión fijada por el investigador. p = la fracción de cartas que están marcadas con la letra A. d = la precisión fijada por el investigador. Nh Wh = N ˆ ah φ= nh Para estimar el total E N n= 2 2 Zα/2 Wh h=1 E ˆ ˆ φh (1 − φh ) p2 ˆ ˆ φh (1 − φh ) p2 2 d2 + N Zα/2 h=1 Wh donde: N = el tamaño de la población. p = la fracción de cartas que están marcadas con la letra A. Zα/2 = el valor de tablas de la distribución normal. ¿Cuál método de respuesta aleatorizada es mejor? Dowling y Shachtman (1975)[18] han mostrado que la varianza del estimador de interés (ˆ ) de la versión Horvitz (1967) es menor que la propuesta π originalmente por Warner (1965). por lo que se sugiere que el investigador use esta versión para realizar sus estudios.El tamaño de muestra para estimar la proporción y el total Para estimar la proporción E 2 N Zα/2 Wh h=1 E n= ˆ ˆ φh (1 − φh ) p2 ˆ ˆ φh (1 − φh ) p2 2 N d2 + Zα/2 h=1 Wh donde: N = el tamaño de la población. Nh Wh = N ˆ = ah φ nh 7.

El muestreo basado en el método de respuesta aleatorizada 224 .Capítulo 7.

Apéndice A Tablas de la distribución normal estándar y de la distribución t-student 225 .

7357 0.9884 0.9949 0.9778 0.9999 0.9987 0.2 2.9993 0.0000 0.7054 0.8 3.9292 0.9996 0.9726 0.5675 0.8264 0.8159 0.9850 0.8997 0.4 3.8749 0.4 2.6480 0. Z Z 0 0.9997 0.9970 0.7123 0.9893 0.9994 0.9394 0.8023 0.9192 0.5000 0.9968 0.9649 0.9699 0.9992 0.9998 0.6700 0.9772 0.8708 0.9997 0.9474 0.9999 0.9909 0.5714 0.9999 1.9918 0.0000 0.9994 0.7881 0.9999 0.9956 0.9913 0.5557 0.07 0.9236 0.9995 0.9535 0.9821 0.0000 0.9955 0.0000 0.9997 0.7 1.9 2 2.9985 0.9898 0.5359 0.9406 0.7642 0.6406 0.9948 0.9999 0.6985 0.9999 1.8413 0.7389 0.9996 0.8212 0.9999 1.8621 0.8485 0.9993 0.7549 0.9997 0.9032 0.9744 0.9969 0.9998 0.2 0.6554 0.7157 0.9925 0.9989 0.Apéndice A.8133 0.9999 0.9999 0.8078 0.9370 0.9994 0.6141 0.9857 0.9999 0.9999 0.5987 0.9896 0.7611 0.9099 0.9960 0.7486 0.9957 0.6844 0.9265 0.9641 0.9936 0.8888 0.9991 0.9993 0.8508 0.9788 0.1 0.9999 1.9995 0.9934 0.9999 0.8770 0.6 3.7823 0.9975 0.6293 0.6664 0.8907 0.9983 0.9998 0.9996 0.9591 0.9997 0.6772 0.8729 0.6 1.9495 0.9973 0.9999 0.9916 0.2 3.9854 0.7704 0.7580 0.0000 0.9999 1.5636 0.9959 0.9946 0.9812 0.9965 0.9990 0.8389 0.9938 0.5 1.08 0.9998 0.5160 0.9738 0.9147 0.6736 0.8 1.9798 0.9817 0.9911 0.9998 0.9319 0.9554 0.7088 0.9808 0.9279 0.9987 0.5517 0.9878 0.8461 0.7224 0.9484 0.6026 0.5948 0.9996 0.9906 0.9995 0.9929 0. Tablas de la distribución normal estándar y de la distribución t-student 1 2 Z0 Z0 Z0 P (Z < Z0 ) = −∞ fZ (z)dz = −∞ z2 1 √ e− 2 dz = 1 − α/2 2π Cuadro A.9678 0.9999 1.9864 0.9756 0.9999 0.5871 0.9998 0.8365 0.6591 0.4 0.9994 0.7291 0.9993 0.7794 0.9992 0.5478 0.4 1.9222 0.9980 0.5832 0.9989 0.7454 0.9 3 3.3 1.8665 0.8810 0.9981 0.6255 0.8186 0.9452 0.8686 0.7 3.0000 226 .9332 0.8051 0.9732 0.9932 0.8289 0.7967 0.9988 0.9997 0.5120 0.9995 0.9998 0.8 0.9463 0.1: Distribución normal estándar acumulada.8599 0.9826 0.9922 0.9115 0.9633 0.5 0.9999 1.9982 0.9999 1.6368 0.9943 0.9871 0.9999 0.8 2.9875 0.9986 0.6179 0.9719 0.9306 0.6879 0.5080 0.2 1.9656 0.9978 0.7673 0.8849 0.9994 0.8925 0.9974 0.9998 0.9985 0.0000 0.3 3.7910 0.8531 0.9564 0.8238 0.9988 0.9842 0.09 0.9976 0.9984 0.7 2.7190 0.9991 0.01 0.9964 0.6064 0.9987 0.6808 0.9997 0.9951 0.9162 0.9998 0.06 0.9977 0.9868 0.9049 0.03 0.9887 0.5398 0.6950 0.0000 0.9966 0.9881 0.9945 0.9515 0.9953 0.9972 0.9962 0.9573 0.9901 0.9207 0.04 0.6 0.8643 0.9992 0.8944 0.8869 0.9997 0.9999 0.7939 0.9686 0.8106 0.9693 0.9066 0.9984 0.5319 0.9251 0.9599 0.9986 0.9992 0.9998 0.0000 0.9429 0.9608 0.9793 0.9706 0.9177 0.5793 0.5239 0.9 0 0.9963 0.5040 0.6 2.9505 0.9995 0.9999 0.9989 0.9967 0.9952 0.9999 0.5 3.9931 0.9981 0.6217 0.9 1 1.6331 0.9625 0.9977 0.7995 0.9997 0.1 2.8554 0.9904 0.8438 0.05 0.5199 0.7422 0.5910 0.9999 0.9418 0.5438 0.9525 0.6443 0.7852 0.9830 0.7 0.9982 0.9861 0.1 1.9996 0.9999 1.9995 0.9990 0.9979 0.3 0.6915 0.9998 0.7734 0.1 3.5 2.6103 0.9671 0.9998 0.9997 0.9441 0.9961 0.9713 0.9998 0.9920 0.9582 0.9545 0.7324 0.9999 1.0000 0.9838 0.7019 0.02 0.9990 0.7764 0.9971 0.9382 0.9996 0.6517 0.9941 0.9616 0.8340 0.9803 0.9345 0.3 2.9979 0.8577 0.9357 0.9940 0.9890 0.9991 0.9999 0.7257 0.9834 0.9974 0.8962 0.9927 0.8980 0.9750 0.9999 0.5753 0.5279 0.9082 0.9783 0.9767 0.9761 0.6628 0.8315 0.9131 0.7517 0.9664 0.8790 0.9846 0.5596 0.8830 0.9015 0.

0003 1.4502 3.6912 0.7469 3.6870 0.4727 2.6192 31.9432 1.5083 2.0890 7.1595 3.0545 3.9240 8.5669 2.1314 2.8214 2.7787 2.5976 4.9646 4.3253 1.8946 1.0782 3.1009 2.0905 3.3060 2.8688 5.2208 4.6901 0.4398 1.5407 3.1405 4.7853 4.1318 2.0211 2.3830 1.4999 2.0484 2.1737 3.8193 3.3232 1.2520 3.6245 2.05 6.4966 3.1788 2.3178 4.7111 0.0796 2.0298 2.9208 2.7045 2.6041 4.2145 7.7011 1.1427 2.4786 2.7921 3.3852 3.0025 127.7328 3.1188 3.1534 3.9712 2.4602 3.8965 2.0555 2.9980 2.3271 10.6594 3.3334 1.3962 3.8453 2.5518 3.6765 0.0669 3.7247 1.7176 0.7033 1.7064 0.7500 2.1098 2.9768 2.9732 1.0321 3.7341 1.1058 3.6896 3.3901 2.3195 1.4668 3.0150 3.6810 2.4573 2.6534 1.7633 2.6884 0.1295 0.3031 1.7638 2.3088 22.0595 2.7733 4.5991 12.7181 2.3968 1. ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 180 210 0.9146 2.6924 0.3578 2.3212 1.6739 3.4995 3.8934 5.2010 2.0930 2.6844 0.4082 3.6034 2.7066 3.0469 3.7969 2.4370 4.7874 2.6991 1.1199 2.3562 1.6567 9.6577 1.0150 1.3646 2.0123 2.7531 1.8784 2.4149 1.7074 3.0293 3.6973 1.0452 2.2886 1.9799 1.0639 2.7251 3.8165 0.6105 3.5510 3.9296 3.3534 2.6834 0.9248 5.2968 4.6603 2.7764 2.7081 1.3368 1.7809 4.6503 2.3735 3.1352 3.8520 3.4079 5.1 3.6458 3.7062 4.6759 0.6830 0.8834 3.6377 1.6897 3.6864 0.5008 4.3114 1.2224 3.7454 3.8370 0.7874 3.2317 3.0860 2.1604 2.8409 4.9588 5.8982 2.7171 1.3472 2.2622 2.7459 1.6757 0.3027 3.3163 1.2281 2.4759 1.01 31.0000 0.1966 3.3406 1.6938 0.3069 3.1448 2.7959 1.3168 4.3137 1.6839 1.6892 0.3375 227 .6998 0.7613 1.9200 2.1732 5.4210 3.6025 2.4350 3.6807 0.005 63.4850 3.6786 0.8073 2.9713 α/2 0.5280 2.7027 0.8595 1.5395 2.7707 2.1040 3.7709 1.3178 1.0565 3.0777 1.3104 1.3257 3.3725 3.8599 2.1693 3.2856 0.3722 1.6521 0.8856 1.8325 3.7564 2.3634 1.7291 1.6840 0.2860 3.4620 2.7823 1.4671 2.7139 1.4469 2.0739 2.8188 2.7056 1.8421 2.001 318.3150 1.6858 0.7109 1.9467 2.6837 0.3502 1.9651 3.9216 3.8314 2.6955 0.6460 3.5272 3.0728 4.5176 2.6103 6.3304 1.5994 0.2076 4.7396 1.7407 0.3450 1.5524 2.8205 6.0005 636.6974 0.5050 3.1824 2.6876 0.0423 2.6706 1.7676 3.0380 3.5332 1.3442 0.4851 2.6828 0.4284 3.8125 1.5794 3.2863 1.6862 3.5706 2.2498 3.4922 2.2: Puntos porcentuales de la distribución t-student.3138 2.3454 3.7267 0.8609 2.8495 3.1361 3.6174 2.5814 3.7649 0.0518 2.0413 4.8331 1.1 2 t0 t0 t0 P (T < t0 ) = −∞ fT (t)dt = −∞ 1 [(ν + 1)/2]! √ νπ [ν/2]! t2 +1 ν −(ν+1)/2 dt Cuadro A.3649 3.7207 1.3125 1.3277 1.3213 14.4233 2.0247 3.0687 2.6848 0.25 1.2958 1.6853 0.4533 5.1437 4.3554 3.025 12.5869 4.5835 2.

Donde h=rango=Máximo Xi -Mínimo Xi .1: Varianzas de distribuciones finitas (S 2 ).Apéndice A. en función de su forma y rango. Tablas de la distribución normal estándar y de la distribución t-student h h Normal h2 S2 = 36 Uniforme discreta h2 h S2 = + 12 6 h h Uniforme continua h2 S2 = 12 Elipse h2 S2 = 16 h h Triangular simétrica h2 S2 = 24 Triangular asimétrica h2 S2 = 18 h Triangular doble h2 S2 = 8 Figura A. 228 .

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 7 9 1 0 8 5 0 1 7 1 3 6 6 4 7 8 3 5 6 9 5 6 5 9 9 6 1 1 7 6 9 5 0 6 7 3 5 7 0 3 7 1 1 3 4 3 0 4 2 7 5 2 2 8 0 9 0 2 8 2 8 4 7 6 5 7 3 3 7 4 5 0 4 5 2 1 8 1 7 1 6 7 0 4 4 2 4 5 2 8 8 5 1 9 5 3 1 6 6 2 1 3 8 3 6 3 3 1 0 7 2 7 3 0 8 8 2 1 2 2 8 7 8 2 9 0 8 1 9 5 1 0 9 0 1 8 4 1 6 1 5 4 9 0 6 0 6 5 1 1 4 8 4 2 0 9 4 5 6 6 9 5 5 8 9 9 5 7 1 8 0 4 4 1 1 3 6 9 4 3 9 8 4 7 3 7 9 1 3 7 7 0 8 5 9 4 1 4 2 9 3 2 1 3 2 9 3 7 9 8 1 8 9 5 0 6 2 1 4 4 0 3 7 8 0 8 6 2 7 6 5 6 8 1 1 1 0 4 9 1 3 6 9 8 4 1 8 7 0 9 1 5 2 1 5 8 6 8 4 4 5 1 0 9 5 4 4 3 6 1 2 8 4 3 9 2 3 7 4 0 5 3 8 4 6 1 2 0 0 9 9 2 9 0 0 3 1 3 9 0 7 1 0 8 1 2 6 2 6 8 0 4 6 0 9 7 6 3 5 9 7 6 3 4 2 4 1 1 3 3 2 7 8 5 0 6 7 9 0 2 8 3 6 2 8 4 2 8 7 0 0 2 6 5 6 2 3 1 0 3 6 7 8 4 2 5 7 1 5 3 3 7 5 4 0 8 9 9 9 1 3 5 2 0 3 0 8 2 8 3 7 4 7 4 6 3 5 1 6 2 2 5 Cuadro A.3: Tabla de números aleatorios 6 6 4 9 7 3 6 0 8 4 7 1 2 9 3 3 5 7 9 3 4 5 1 1 8 5 8 7 6 4 4 4 3 5 4 4 8 3 1 7 0 0 5 5 2 4 4 4 1 1 4 6 4 6 6 0 7 2 0 1 1 2 1 2 2 5 1 0 4 6 7 6 4 4 3 0 6 2 1 6 7 4 0 4 8 6 6 6 3 4 6 5 8 9 8 2 0 3 4 3 5 6 0 7 0 3 7 5 0 2 3 5 1 7 0 8 7 5 9 4 5 6 6 9 3 7 5 2 4 1 4 0 3 6 8 0 6 4 1 5 4 6 3 3 7 6 6 3 5 1 0 9 5 4 0 6 1 8 7 9 0 6 2 7 0 0 6 6 5 4 5 4 9 9 2 5 8 4 6 5 7 9 1 8 1 7 0 3 3 9 8 6 3 8 9 5 5 0 8 4 3 9 8 0 6 3 4 2 6 4 6 2 5 1 6 2 7 5 1 1 9 5 9 1 0 7 2 5 6 2 4 8 4 6 3 1 5 6 2 8 6 5 2 5 0 4 4 1 2 6 5 0 8 9 0 8 3 3 2 0 5 7 5 4 1 5 5 3 2 0 0 1 5 2 5 2 7 3 7 3 0 7 2 3 0 7 3 9 9 3 0 2 9 4 5 1 0 0 3 4 8 6 0 0 0 8 4 1 4 4 8 3 3 3 0 6 1 3 1 0 6 9 1 7 1 6 3 9 2 9 4 6 7 3 8 8 1 0 5 9 6 4 5 2 3 7 7 1 6 1 3 5 8 4 6 4 1 5 1 0 3 2 5 2 3 5 0 2 6 9 4 9 0 9 4 9 3 6 0 0 5 2 3 3 6 5 6 5 4 7 0 5 1 4 5 2 5 2 2 6 2 4 3 4 8 4 5 7 1 3 3 2 0 4 6 6 5 7 8 6 5 8 8 7 6 9 1 6 2 7 6 9 1 4 7 8 3 0 7 9 4 6 0 3 2 7 8 6 7 5 4 4 8 2 4 9 5 8 4 7 9 6 2 5 7 6 9 9 3 0 6 5 7 0 8 0 1 8 8 7 7 6 0 5 9 0 1 1 1 2 1 6 7 2 6 3 9 1 1 9 5 7 4 2 2 7 7 3 4 2 6 3 1 2 9 6 1 8 6 2 7 3 5 9 1 0 2 1 5 8 8 5 9 0 9 8 0 9 0 6 9 9 1 6 6 4 9 4 5 1 1 8 3 6 4 5 3 8 5 5 5 6 7 1 7 4 9 7 5 7 5 7 9 2 0 6 2 5 8 3 3 9 6 7 8 6 8 3 5 0 1 8 6 4 3 0 2 2 9 1 2 8 3 0 1 3 3 2 3 5 0 4 2 4 4 6 8 3 4 0 0 5 9 5 3 9 2 0 2 8 0 0 0 2 0 6 6 4 0 3 3 8 2 8 4 7 1 6 5 1 8 5 2 6 8 7 9 6 3 5 6 0 5 9 0 2 8 6 9 3 6 3 1 8 1 5 4 8 3 8 7 4 5 9 5 6 6 8 1 7 0 3 6 5 4 1 1 5 3 3 6 3 5 9 3 8 7 8 0 7 0 5 3 5 6 4 3 7 3 2 8 3 0 3 9 9 4 7 2 6 9 0 9 9 8 3 0 9 2 3 4 0 9 5 6 3 9 5 6 3 3 3 4 0 8 3 8 8 4 9 1 9 4 3 9 6 3 5 2 5 5 4 9 8 6 9 7 1 8 4 6 2 0 7 6 3 2 7 4 3 3 5 1 7 5 3 0 5 2 4 4 9 1 5 0 9 9 1 9 3 4 0 5 9 5 8 6 3 0 6 0 8 8 8 5 5 4 6 9 3 6 8 6 9 9 7 8 6 1 3 3 0 9 6 6 4 1 0 5 7 0 9 3 0 1 2 0 6 3 4 7 1 6 7 2 7 9 9 4 0 0 3 0 5 9 6 7 9 1 6 3 4 4 5 5 6 9 3 8 7 4 8 0 5 8 7 1 9 9 7 4 5 2 0 2 8 0 5 0 2 8 2 7 5 7 0 4 9 1 7 2 6 2 5 8 2 0 8 2 0 1 3 5 0 3 5 8 1 9 4 9 4 3 0 0 3 2 0 2 3 3 8 6 6 3 1 2 5 8 5 3 6 5 2 2 2 3 4 8 2 8 7 9 8 7 8 8 5 5 2 0 3 7 8 2 6 8 9 9 5 6 4 0 7 5 2 6 7 4 4 7 9 3 6 2 3 9 5 3 2 5 0 6 2 3 9 9 5 6 4 3 2 5 2 4 4 1 5 5 8 3 0 2 0 7 8 7 9 3 7 1 2 5 0 9 1 3 4 4 9 5 7 1 2 6 0 0 5 8 5 1 5 4 2 2 1 3 6 5 9 2 0 0 0 7 4 8 7 6 5 3 6 7 3 8 6 1 4 8 0 2 2 5 2 9 0 6 8 6 4 0 9 4 0 2 2 0 6 9 1 0 2 8 3 0 1 5 9 9 7 9 5 1 6 7 8 8 7 2 7 8 3 1 4 1 6 9 1 3 5 1 6 4 6 9 6 1 7 1 2 0 0 4 4 7 9 8 8 5 9 1 3 7 3 2 9 9 4 8 3 0 6 7 3 3 9 3 7 6 8 5 3 8 0 2 1 8 0 7 7 3 5 3 9 8 2 1 2 3 9 4 1 2 4 7 5 2 1 2 9 0 0 8 6 0 1 9 8 9 7 5 8 5 9 1 9 8 8 1 5 9 9 8 2 0 4 1 6 2 9 0 8 0 1 7 9 3 7 1 2 9 0 4 2 6 0 0 6 9 5 5 1 4 9 5 1 6 3 5 0 4 2 4 8 6 1 6 7 2 4 4 8 2 7 8 8 8 8 3 5 6 9 9 8 6 2 7 9 5 8 3 5 8 4 9 4 5 3 0 5 3 5 0 3 5 9 3 0 8 9 4 0 5 3 1 6 9 1 3 7 3 3 2 8 9 6 4 0 8 2 2 5 8 0 3 3 8 5 9 2 1 9 8 0 0 5 4 9 5 7 7 0 3 2 5 2 8 8 6 2 7 9 9 5 9 6 8 4 3 0 1 2 9 5 1 3 5 7 9 5 2 8 8 1 1 6 1 0 9 9 3 2 2 2 4 4 7 4 7 4 3 4 6 4 8 0 1 5 0 2 5 4 3 7 3 8 1 9 5 6 6 8 5 1 8 7 1 6 0 2 4 1 1 4 5 1 5 3 0 8 2 9 8 5 0 8 4 0 9 4 0 7 5 9 5 7 7 7 7 7 5 1 7 5 5 4 8 8 1 2 0 3 5 1 9 7 9 0 3 9 2 0 0 8 3 9 4 0 5 2 3 8 5 1 9 4 7 5 3 2 4 6 1 1 8 5 6 8 5 9 7 0 3 9 8 8 8 7 5 7 5 2 7 6 2 5 3 4 6 2 6 5 1 4 7 8 7 6 7 3 8 2 8 9 6 5 1 4 3 2 6 8 6 0 6 0 7 2 5 1 5 4 4 3 3 8 9 6 9 3 4 6 6 4 4 2 3 2 1 9 6 1 5 9 8 5 3 5 7 8 1 8 0 9 9 3 0 1 1 7 6 8 6 8 8 2 1 3 6 6 6 8 6 2 9 1 0