You are on page 1of 337

Estadística

para la investigación
social
. 2ª Edición
Luis Camarero (coordinador)
Alejandro Almazán
José M. Arribas
Beatriz Mañas
Antonio Félix Vallejos
Estadística para la investigación social 2.ª edición

Luis Camarero
Alejandro Almazán
José M. Arribas
Beatriz Mañas
Antonio Félix Vallejos
ISBN: 978-84-928I-207-3
IBERGARCETA PUBLICACIONES, S.L., Madrid 2013

Edición: 2.'
Reimpresión : I .'
N.• de páginas: 339
Formato: 17 X 24 cm

Materia CDU: Ciencia estadística. Teoría de la estadística. 311

Reservados los derechos para todos los países de lengua española. De confonnidad con lo dispuesto en el anículo _-o y siguien-
tes del código penal vigente, podrán ser casti gados con penas de multa y privación de li ben ad quienes reprodujeren o plagiaren, en
todo o en parte, una obra literaria, artística o científica fij ada en cualquier tipo de soporte si n la preceptiva autori z.a ión. ~ing una
pane de esta publicación, incluido el diseño de la cubierta, puede ser reproducida, al macenada o trasmitida de ninguna forma. ni
por ningún medio, sea éste electrónico, químico, mecánico, electro- óptico, grabación, fotocopia o cualquier otro, sin la pre\·ia auto-
rización escrita por pane de la editorial.

Diríjase a CEDRO (Centro Español de Derechos Reprográficos), www.cedro.org, si necesita fotocopiar o escanear algún fragmento
de esta obra.

COPYRIGHT © 2011 IBERGARCETA PUBLICACIONES, S.L.


info @ibergarceta.es

Estadística para la investigación social


Luis Camarero
Alejandro Almazán
José M. Arribas
Beatriz Mañas
Antonio Félix Vallejos

2.' edición, 1.'reimpresión


0 1: 231 /2013
ISBN: 978-84- 15452-76-8
Deposito Legal: M-25768-2013
Imagen de cubierta: © Claudio Baldini - fotolia.com

Impresión :
PRINT HOUSE, S.A.

IMPRESO EN ESPAÑA - PRINTED IN SPAJN

Nota sobre enlaces a páginas web ajenas: Este libro puede incluir referencias a sitios web gestionados por terceros y ajenos
a IBERGARCETA PUBLICACIONES , S. L., que se incluyen sólo con finalidad infonnativa. IBERGARCETA PUBLICACIO-
NES, S.L., no asume ningún tipo de responsabilidad por los daños y perjuicios derivados del uso de los datos personales que pucd3
hacer un tercero encargado del mantenimiento de las páginas web ajenas a IBERGARCETA PUBLICACIONES, S.L. , y del fun-
cionamiento, accesibi lidad y mantenimiento de los sitios web no gestionados por IBERGARCETA PUBLICACIONES , S.L
directamente. Las referen cias se proporcionan en el estado en que se encuentran en el momento de publi cación si n garantías, expre-
sas o implícitas, sobre la infonnaci ón que se proporcione en ellas.
Contenido

Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix

Capítulo l. Introducción a la historia de la Estadística


1. La Estadística y el Estado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2. La influencia de la Ilustración .................. . ..... . ....... ~ . . . . . . . . . 2
3. El azar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
4. El cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
S. Teoría de errores y estadística social . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
6. La Estadística matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
7. Sociología estadística y modelización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
8. Bibliografía comentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Capítulo 11. Fuentes de datos estad ísticos


l. Tipos y fuentes de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2. Fuentes de datos de censos y registros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3. Datos producidos mediante muestras representativas . . . . . . . . . . . . . . . . . . . . . 17
4. Los Institutos de Estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
S. Fuentes de datos accesibles en la web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Capítulo 111. Recogida y tratamiento de datos


1. De las características a las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2. Niveles de medición de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1. Nivel nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2. Nivel ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3. Nivel de intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3. De la observación al registro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4. Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
vi Estadística para la investigación social: Fundamentos para el análisis

5. Criterios de agrupación de los datos y tipos de frecuencias . . . . . . . . . . . . . . . 44


6. Elaboración y lectura de tablas de frecuencias con dos variables . . . . . . . . . 52
7. El problema de Jos límites reales en Ja creación de categorías para variables
de intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8. Formas de una distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

Capítulo IV. Estadísticos de resumen


1. Estadísticos de resumen: Ja media 60
l. l. La media como medida de concentración de Jos datos . . . . . . . . . . . . . . 60
1.2. Medias con tablas de datos agregados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
1.3. Uso de valores medios para comparar grupos . . . . . . . . . . . . . . . . . . . . . . . 66
1.4. Medias ponderadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2. Medidas de dispersión de los datos en variables de intervalo . . . . . . . . . . . . . 72
2.1. Desviación media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.2. Varianza y desviación típica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
2.3. Varianza y desviación en tablas con datos agregados . . . . . . . . . . . . . . . . 76
2.4. La relación entre media y desviación típica . . . . . . . . . . . . . . . . . . . . . . . . . 77
3. Otros estadísticos para conocer la estructura de los datos . . . . . . . . . . . . . . . . 80
3. l. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.2. Uso de Jos cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.3. La relación entre Ja media, mediana y moda y los tipos de distribución
90
APÉNDICE ....... .. ............................... ....... ............ . 93

Capítulo V. Representaciones gráficas


l . Utilidad de las representaciones gráficas 98
2. Tipos de gráficos según el problema a investigar . . . . . . . . . . . . . . . . . . . . . . . . 101
2.1. Descripción y comparación de categorías . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
2.2. Análisis y comparación de distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
2.3 . Análisis de series temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
2.4. Distribución conjunta de dos variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3. Elementos básicos para la construcción de gráficos . . . . . . . . . . . . . . . . . . . . . . 129
3.1. Aspectos formales de presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
3.2. Escalas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.3. Precauciones en Ja construcción e interpretación de gráficos . . . . . . . . 133
Bibliografía comentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Contenido vii

Capítulo VI. Teoría y cálculo de probabilidades


l. Introducción. Definición de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
l. l. Experimentos y sucesos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
1.2. Probabilidad a priori y frecuencia relativa . . . . . . . . . . . . . . . . . . . . . . . . . . 142
2. Cuestiones básicas del cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . 145
2.1. Espacio de sucesos y espacio muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
2.2. Técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
2.2.1. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
2.3. Cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . .. . . . . 154
2.3.1. Regla de la adición : unión de sucesos (simultáneos) . . . . . . . . . . 155
2.3.2. Regla de la multiplicación: sucesos condicionados o intersec-
ción de sucesos (secuenciales) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
2.4. La regla de Laplace redefinida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
3. Propiedades básicas de la probabilidad ....... ... .... . .. . ............. . . . 160
ANEXO l. Teoría de conjuntos ................... . .. . . ..... .. . ... .. . .... . . 162
ANEXO II. Técnicas de conteo (ordenaciones y agrupaciones) 168

Capítulo VII. Distribuciones de probabilidad


1. Función de probabilidad y variable aleatoria .... . ... . .................. . . 176
2. Valor esperado en las muestras de una población ....................... . 179
3. Distribuciones de probabilidad en la investigación social ............... . 182
4. Distribución uniforme ..... .. .. . ....... . .. . ..... . ................... .. . . 183
5. Distribución binomial .. . . . ............................................ . 188
5. l. Valor esperado en muestras para una variable nominal .. .... ....... . 193
6. Distribución normal ................................................... . 196
6.1. Distribución normal estandarizada . .... . ... . .... ... ...... ....... .. . 199
6.2. Cálculo de probabilidades en distribuciones normales .............. . 199
6.3. Aproximación de la binomial a la normal ......................... . 210
7. Distribución t de Student ........ ... .................................. . . 213
8. Resumen de las distribuciones vistas ................................... . 217

Capítulo VIII. Las muestras estadísticas : teoría y diseño


1. Las muestras en investigación social .. . ................................ . 220
2. ¿Qué es una muestra? ... .. ..................... . ................... . .. . 220
2.1. Universo y muestra ............................................... . 221
2.2. Error y sesgo ........ .. ........... . .... ..... .. .... ..... . . .. ....... . 222
2.3. Nivel de confianza .... ......... ... ............. . ...... ... ... . . . .. . 223
3. Muestreo aleatorio .............. . ............... ... ........ . .... . ..... . 224
3.1. Parámetro y estadístico ........................................... . 226
3.2. La distribución muestral ........ . ..... .. . ... .... .. ..... . . . ... .... . . 227
vii i Estadística para la investigación social: Fundamentos para el análisis

3.3. Nivel de confianza, error y tamaño muestra! . . . . . . . . . . . . . . . . . . . . . . . . 233


3.4. Teoría muestra! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
3.5. Cálculo del tamaño muestra! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
3.6. Poblaciones finitas e infinitas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
3.7. Muestras grandes y pequeñas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
3.8. El conocimiento de la varianza poblacional . . . . . . . . . . . . . . . . . . . . . . . . . 243
4. Diseño de muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
4.1. Marco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
4.2. Procedimientos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
4.3 . Muestreo estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
4.3.1. Diseño estratificado uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
4.3.2. La cuestión de la ponderación en diseños no proporcionales al
tamaño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
4.3.3. Diseño estratificado proporcional al tamaño y diseño de Ney-
man . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
4.4. Diseños de conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
4.5 . El muestreo por cuotas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
ANEXO l. La estimación de las varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
Bibliografía comentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266

Capítulo IX. Inferencia estadística : estimación de medias y proporciones


l. ¿En qué consiste la estimación? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
l. l. El comportamiento de los estimadores muestrales . . . . . . . . . . . . . . . . . . . 271
1.2. Intervalos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
1.3. Intervalos en el caso de muestras pequeñas . . . . . . . . . . . . . . . . . . . . . . . . . 278
1.3.1. Estimación de medias con muestras pequeñas . . . . . . . . . . . . . . . . 278
1.3.2. Estimación de proporciones con muestras pequeñas . . . . . . . . . . 279
2. Diferencias de estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
2.1 . Diferencia de medias en el caso de muestras independientes . . . . . . . . 282
2.2. Diferencias de estadísticos en muestras relacionadas . . . . . . . . . . . . . . . . 285
3. Estudio con datos reales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
ANEXO l. Cálculo de los intervalos de confianza de las muestras de tamaño 5
de la Población Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
Bibliografía comentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299

Soluciones a los ejercicios propuestos 301

Glosario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
Presentación

La importancia que tiene la estadística para la investigación social y política es tan grande
como el terror que suele despertar su aprendizaje. Este texto es consciente de ello. Los auto-
res dedicados desde hace tiempo a la investigación social y a la docencia estadística han
escrito un texto en el que continuamente concilian el rigor de los contenidos con la exposi-
ción intuitiva. El lector encontrará que primero nos preguntamos para qué hacemos esto, y
sólo tras responder a esta pregunta se puede mostar el amplio abanico de herramientas que la
estadística ofrece al analista, al investigador, al profesional de la sociología o de la ciencia
política.
Pero el texto se ha construido con más equilibrios. No se ha perdido en ningún momento
de vista que las herramientas estadísticas no son simplemente «abrelatas» de información,
sino que están en evolución constante en la medida en que la información sobre el mundo
social y político crece continuamente. Las herramientas estadísticas no se exponen en abs-
tracto sino, que en su exposición, se ligan directamente al funcionamiento cibernético de las
técnicas analíticas. Así el lector encontrará desde casos sencillos resueltos de forma simple
hasta el tratamiento mediante paquetes estadísticos de voluminosas fuentes de datos.
También, la experiencia nos ha permitido desarrollar un texto que potencie las capacida-
des del lector. Se ha organizado de menos a más con un argumento que permita que el texto
pueda servir a quien desea emprender el estudio de forma autónoma. No es un manual sim-
ple, de apoyo al profesor, sino sobre todo un libro para el alumno, para que desde su propio
ritmo, motivando su curiosidad de forma lógica, pueda desarrollar sus capacidades de autoa-
prendizaje.
Los autores nos hemos propuesto un último reto añadido a los anteriores: inyectar la ilu-
sión para que el día en que el lector cierre definitivamente este libro haya alcanzado el grado
de madurez y de ambición, necesarios para navegar en el creciente océano de las técnicas
estadísticas y para abordar con total seguridad textos más avanzados.
Por ello, por ser un libro tan ambicioso en su planteamiento, resulta limitado en sus con-
tenidos. Únicamente se centra en las bases que permiten hacerse un hueco en el entramado
teórico y práctico de la estadística. En su argumento, comenzamos por hacer un breve reco-
rrido por el pensamiento que desde la filosofía, desde las matemáticas y desde la interven-
ción social ha venido construyendo el moderno edificio estadístico (Capítulo 1). Todo tiene
su historia, y en este sentido, las formas de análisis estadístico de la realidad social no son
inmutables sino que responden a nuestras propias formas de entender la sociedad. Sólo desde
la comprensión de la estadística como artefacto social, antes que como artefacto matemático,
es posible interrogarse por el porqué, y descubrir sus diferentes usos.
X Estadística para la investigación social: Fundamentos para e l a á

Sin datos no hay análisis, por ello, a continuación comenzamo- exponiendo las distintas
formas de producir datos (Capítulo II). Es la primera etapa en e te peregrinaje por los usos
estadísticos. Datos producidos con fines sociales, pero desde interese -ociales y políticos y
que por ello, nos conducen a análisis determinados. Los datos ólo podrán er utilizados una
vez que sean dotados de sentido. Esta es la primera operación del e radí rico, y tal vez la
única: convertir los datos en información. Las operaciones sencilla de organización, orde-
nación y estandarización (Capítulo III) serán seguidas por otras de re umen con el fin último
de la comparación (Capítulo IV) y presentación (Capítulo V).
Pero la ambición del analista es mayor: los datos que se producen son ólo partes de la
realidad. Nunca podremos obtener todos los datos sobre ninguna realidad. Por ello, debere-
mos pensar en maneras de trabajar con fragmentos de la realidad. La probabilidad es la bisa-
gra que nos permite pasar de la parte al conocimiento del todo (Capítulo VI). El mundo visto
desde la probabilidad, aunque pueda parecer mágico, resulta muy instructivo. La gestión de
la incertidumbre nos permite ordenar y conocer la realidad (Capítulo VII). Y con las herra-
mientas y métodos de la probabilidad podemos llegar a comprender despacio la herramienta
multiusos que es la encuesta (Capítulo VIII). Saber mirar la parte para comprender el todo es
el arte del estadístico. Finalmente, qué hacer cuando hemos producido datos mediante en-
cuestas y cómo llegar a expresarnos con dichos datos, será el final del viaje (Capítulo IX).
A partir de ahí, el lector, y ese es nuestro deseo, podrá orientarse con la brújula que supo-
nen estos conocimientos en el ignoto territorio del análisis social. Estamos convencidos de
que lo hará con la firmeza suficiente para no dejarse llevar por las sirenas del análisis numé-
rico vacío ni caer en manos de los monstruos del empirismo abstracto de los que nos previ-
niera Wright Milis en La Imaginación Sociológica.
Esperamos que el lector sepa disculpar las imperfecciones de este libro, ya que, como
toda guía de viaje, puede que a veces el camino sugerido no sea el que el viajero hubiera
trazado por sí mismo.
Capítulo!

Introducción a la
historia de la Estadística

Con este primer capítulo pretendemos dar una breve panorámica de las distintas fases
por la que ha ido pasando la disciplina estadística. Desde los primeros recuentos orga-
nizados por las estructuras de poder y el Estado, hasta la Estadística matemática
actual , esta disciplina ha ido evolucionando en función de las necesidades sociales.

1. La Estadística y el Estado
2. La influencia de la Ilustración
3. El azar
4. El cálculo de probabilidades
5. Teoría de errores y estadística social
6. La Estadística matemática
7. Sociología estadística y modelización
8. Bibliografía comentada
2 Estadística para la investigación social

1. La Estadística y el Estado
El término «estadística» designaba en el siglo XVIII a la disciplina encargada de la organiza-
ción y sistematización de los conocimientos relativos al Estado. Aunque el interés por cono-
cer la población y la riqueza aparece asociado al reclutamiento y la fiscalidad desde la anti-
güedad, es con la aparición del Estado moderno cuando se convierte en una práctica
sistemática y centralizada.
En España, bajo el reinado de Felipe II comienzan a realizarse censos que, además de la
población y la riqueza del reino, incluyen aspectos geográficos, jurídicos y religiosos, pero a
medida que evolucionan las estructuras administrativas del Estado, este modo de producción
estadístico irá cambiando. A partir del siglo XVII, la nueva forma de hacer estadística está
asociada con el modelo alemán (Staatwissenschaft) que desarrolla la escuela de G. Achen-
wall en la Universidad de Gottingen.
La Estadística se desarrolla, por tanto, en condiciones y países diversos, dando lugar a
modelos como el inglés, que se desarrolla a partir de la aritmética política, el alemán, y el
modelo administrativo francés. El modelo alemán se interesó por las costumbres, la pobla-
ción, el clima, la riqueza, y cualquier aspecto relevante para la comunidad; en él prevalece la
descripción literaria sobre la numérica. El modelo inglés procedía de áreas más heterogé-
neas, y sobre todo de los estudios sobre mortalidad. En él participaron médicos, empresarios
y parlamentarios que elaboraban registros escritos. Su objeto son los cálculos destinados a
obtener informaciones que puedan inferirse al conjunto de la población, y su desarrollo re-
presentó el nacimiento de la demografía moderna. El modelo francés, aunque también utili-
zaba el cálculo numérico, estuvo más cerca del enfoque alemán. En general, el desarrollo de
las matemáticas, la astronomía y el cálcu lo de probabilidades determinó la existencia de las
primeras prácticas estadísticas.

2. La influencia de la Ilustración
Racionalismo y empirismo, las corrientes filosóficas que se desarrollan en pugna con el de-
terminismo, serán el caldo de cultivo de los avances estadísticos que se producen durante los
siglos XVII y xvm . Frente a Dios , las nuevas corrientes de la Ilustración colocan a la natura-
leza y al hombre como centro del universo. Frente al providencialismo y la fe religiosa, sur-
ge la creencia en la razón y el progreso, y en lugar de la tradición y la superstición, aparece
la ciencia que gobierna el mundo. Durante este período, las matemáticas y la filosofía alcan-
zaron una gran relevancia intelectual y en ese contexto se produjeron las primeras formula-
ciones del azar: si la humanidad había descubierto las leyes de la gravitación universal que
rigen el movimiento de los planetas, también podía descubrir las leyes que rigen el movi-
miento de lo incierto.
A partir de ese momento, el conocimiento procede de la experiencia y de la observación ,
y el valor de las teorías filosóficas estará más ligado a la observación de la naturaleza, y
menos a las fuentes autorizadas, procedan éstas de Aristóteles o de la Biblia. Sin renunciar
completamente a la religión, los pensadores del XVIII rechazaron la teología cristiana y de-
nunciaron la opresión a la razón que había ejercido la Iglesia. En este contexto se produjo la
Capítulo l. Introducción a la historia de la Estadística 3

famosa apuesta de Pascal, el llamado pari. Blaise Pascal (1623-1662), matemático, jansenis-
ta y filósofo, recurrió al cálculo de probabilidades para demostrar que se obtiene mayor ga-
nancia apostando por la existencia de Dios. Mediante el cálculo matemático enfrentó la ob-
servancia religiosa que conduce a la felicidad eterna (incierta) contra el disfrute de la vida
presente (más seguro). Al comparar la proporción entre la incertidumbre de ganar y la certi-
dumbre de lo que se apuesta, Pascal inauguró el cálculo de probabilidades que se convertirá
en la base de la estadística inferencia!.

3. El azar
La palabra «azar» es de origen árabe y es muy probable que fueran jesuitas españoles quie-
nes lo exportaran a Francia después de haber conocido los razonamientos de «lo probable»
que aparecen en textos musulmanes. La comparación que reduce a la nada el valor finito de
los bienes de la vida presente, frente a la felicidad eterna de la vida futura, ya estaba en los
argumentos apologéticos musulmanes de Algazel en el siglo XI, e incluso bajo la forma de
metáforas mercantiles: por ejemplo, si los mercaderes preferían ganar 10 en el futuro a 1 en
el presente. O expresado en otros términos: perder 1, para ganar 10.
La continua sucesión de cambios en la economía y la moral religiosa entre finales del
siglo XVIII y comienzos del siglo XIX favorecieron el desarrollo de la teoría de la probabili-
dad. El cálculo de probabilidades es, en su origen, un procedimjento destinado a dotar de
racionalidad a las decisiones que han de tomarse en situaciones de incertidumbre, y alguno
de los primeros planteamientos sobre la probabilidad se desarrollaron también en situaciones
tan frívolas como las apuestas y el juego.
En 1654 los razonamientos en busca de la proporción entre lo cierto y lo incierto ocupa-
ban la correspondencia de Pascal y Fermat para resolver un problema planteado por el Caba-
llero de Meré: se trataba de establecer un reparto justo en un juego de azar cuando se había
interrumpido la partida. Aunque el hecho de que un filósofo y un matemático se ocuparan de
un asunto tan mundano no era nuevo (Tartaglia y Cardano ya habían intentado calcular en el
siglo XVI la ventaja o la desventaja en diversos juegos de azar), la solución al problema cons-
tituyó un paso fundamental en la construcción de la teoría y el cálculo de probabilidades. El
problema de las partes, resuelto por Pascal y Fermat, partía de un juego que constaba de una
serie de partidas que se interrumpen antes del final y que requiere, por tanto, del reparto
equitativo de lo apostado y no j ugado. En la sol ución del problema, Pascal creyó haber en-
contrado un método universal para proceder en las situaciones de incertidumbre.
La solución consistió en igualar matemáticamente la magnitud de lo que se arriesga y de
lo que se espera ganar, o en el lenguaje de Pascal, asegurar la equivalencia entre lo que se
arriesga y lo que se tiene derecho a esperar, algo que estaba presente en la lógica jurídica de
los contratos que aseguran equidad a los contratantes. La originalidad, en todo caso, consis-
tió en añadir el lenguaje matemático y convertirlo en cálculo, pues la palabra «probabilidad»
se había utilizado ya en la Lógica de Port-Royal (1662), en cuyos últimos capítulos se abor-
da el asunto de la inferencia y la toma de decisiones («Algunas reglas para conducir la ra-
zón en el crédito de los asuntos que dependen de la fe humana», o, «Del juicio que se debe
hacer sobre accidentes futuros »). A partir de entonces se comenzó a razonar sobre la proba-
4 Estadística para la investigación social

bilidad de sucesos, utilizando su frecuencia de aparición. Se indicaba así el razonamiento


implícito en el cálculo de la esperanza matemática y se consideraba geométricamente la pro-
porción entre el bien y el mal que reportaría la ocurrencia de un evento, así como la probabi-
lidad de que sucediese o no. Se trataba, por tanto, de una serie de reflexiones para «hacernos
más razonables en nuestras esperanzas y nuestros temores».

4. El cálculo de probabilidades
Fueron muchos los matemáticos que a finales del siglo XVII aplicaron el cálculo de probabi-
lidades en el área jurídica y en los juegos de azar, sin embargo, en campos menos científicos
como el derecho mercantil se realizaban desde antiguo contratos aleatorios que incluían ele-
mentos de riesgo (seguros, sobre todo marítimos y de rentas) y especificaban las condiciones
de equidad y las reglas de intercambio de las mercancías . Reglas de compensación de ries-
gos que eran en su mayor parte cualitativas, puesto que en ningún caso se registraba la infor-
mación de la frecuencia de los sucesos, ni se confeccionaban estadísticas de ningún tipo. Los
seguros marítimos estuvieron regulados desde los tiempos medievales por códices legales,
manuales y archivos notariales, y puertos de ciudades como Barcelona o Valencia regularon
los distintos aspectos del negocio mercantil. Los Consulados del Mar tipificaban las cantida-
des a asegurar dependiendo de la carga, la estación del año, la ruta elegida, etc., y en cuanto
a las rentas, no se consideraba ninguna variable ni escalamiento de precios en función de las
características del asegurado.
El «Tratado de Rentas Anuales» de Johan de Witt (1671) fue uno de los primeros inten-
tos de aplicación de las matemáticas a contratos aleatorios. Su originalidad se basaba en esti-
mar la probabilidad de muerte en función de la edad, estableciendo proporciones, aunque en
la práctica de los seguros se siguió utilizando el cobro de un recargo fijo por capital asegura-
do. Hay que esperar hasta 1762 para que las empresas de seguro utilicen datos estadísticos y
modelos probabilísticas en el cálculo de las primas. La primera empresa que utilizó estos
nuevos métodos fue la compañía inglesa Equitable Society far the Assurance of Lives, aun-
que fue desautorizada al principio por el Royal Council porque consideraba sus métodos de
asignación del riesgo como pura especulación .
El concepto de probabilidad apareció de dos formas diferentes: la probabilidad objetiva,
que consideraba la incertidumbre como algo que forma parte de la naturaleza de las cosas, y
la probabilidad subjetiva, que se expresaba en grados de creencia ante los fenómenos que
son inciertos debido al desconocimiento de sus leyes. Jakob Bernoulli (1654-1705) en su
célebre obra Ars Conjectandi (1713), estableció una nueva concepción de Ja probabilidad
que unía las visiones objetiva y subjetiva en un mismo razonamiento. El teorema de Bernou-
lli, denominado «ley de los grandes números», reunió las probabilidades como frecuencias
observadas con las probabilidades teóricas a priori, en base a la lógica del suceso que se
repite en idénticas condiciones un gran número de veces. Así, afirma que la frecuencia de
aparición de un suceso tiene una probabilidad dada y tiende hacia ella cuando el número de
pruebas aumenta. La repetición de las pruebas constituye el soporte empírico de la teoría. Si
bien en el Ars conjectandi (Arte de Conjeturar), Bernoulli utilizaba el concepto de probabili-
dad como grado de certeza moral, en el mismo sentido que Leibniz, añadió un punto de vista
frecuentista, implícito en los juegos de azar. El enunciado de Bernoulli, será completado por
Capítulo l. Introducción a la historia de la Estadística S

Abraham de Moivre (1667-1754) al calcular la probabilidad de que la frecuencia de apari-


ción de un fenómeno se halle en un intervalo tan pequeño como se quiera. En 1730, De
Moivre dio a conocer lo que hoy conocemos como aproximación normal de una distribución
binomial.
En 1763, la Academia Real de Londres publicó la obra póstuma de Thomas Bayes
(1702-1761) Essay Towars Solving a Problem in the Doctrine of Chances , en Ja que asocia-
ba la información parcial sobre la ocurrencia de eventos a una hipótesis de probabilidad a
priori, llegando a una probabilidad a posteriori, más segura. Con ello pretendió mejorar la
racionalidad de una decisión a partir de conocimientos incompletos. Se trataba de una proba-
bilidad a la inversa (probabilidad de las causas) apropiada a Jos casos en que las probabilida-
des reflejan el estado de nuestros conocimientos (lo que ya se sabe). Si Bernoulli había pro-
porcionado la probabilidad de que al extraer bolas de una urna nos aproximemos a la
proporción conocida de bolas blancas y negras, Bayes facilitó la probabilidad de que la pro-
porción desconocida de la urna se aproximara a un resultado empírico de extracciones. La
principal aplicación que tuvo el teorema de Bayes a finales del siglo xvrn y principios del
XIX fue la estimación de la probabilidad de los juicios, es decir, la fiabilidad de las decisio-
nes de jueces y jurados. Como la probabilidad de que cada juez se equivocara en su veredic-
to era desconocida a priori, se recurrió a las frecuencias empíricas observadas para estimar Ja
probabilidad. La aplicación del Teorema de Bayes, a pesar de que sigue provocando dispu-
tas, ha servido de inspiración a los trabajos de muchos probabilistas posteriores.
Pierre Simon de Laplace (1749-1827), filósofo , astrónomo y matemático francés , recopi-
ló las diferentes teorías sobre Ja probabilidad en su trabajo Théorie Analitique des Probabili-
tés publicado en 1812. Con Laplace la teoría del azar se convirtió en un modelo teórico que
incluía Jos principales temas tratados con anterioridad. Una de las principales aportaciones
de Laplace consistió en el ajuste de funciones teóricas para las leyes del error en las medi-
ciones astronómicas. Desde entonces, las teorías sobre la probabilidad aparecen estrecha-
mente vinculadas a Ja astronomía, la geodesia y la demografía.
La síntesis del trabajo de Laplace, y del también astrónomo y matemático Karl F. Gauss
(1777-1855) resultará de gran utilidad un siglo después para la estadística matemática, pero
en su época, el objetivo era establecer la ley de probabilidad de una estimación estadística
utilizando Ja distribución de los errores de las mediciones astronómicas. En ese contexto,
Laplace enuncia y demuestra el Teorema del Límite Central que dice lo siguiente: aunque
los valores observados no siguen la ley normal (también llamada campana de Gauss), las
medias de esas mediciones sí lo hacen al aumentar indefinidamente el número de observa-
ciones. Laplace también realizó aproximaciones a las distribuciones de probabilidad e intro-
dujo Ja idea de estimación por intervalos. Es importante señalar que el interés inicial de La-
place por las probabilidades fue puramente matemático, y que su relación con el marqués de
Condorcet (17 43-1794) determinó su interés por la aplicación de la probabilidad a la pobla-
ción, la credibilidad de testigos y Ja fiabi lidad de los tribunales de justicia.
A instancias de Laplace, el gobierno de Napoleón diseñó un censo de la población de
Francia basado en cálculos probabilísticos. El procedimiento consistió en elaborar una mues-
tra representativa para determinar la relación entre la población y los nacimientos anuales, y
así poder calcular el número real de habitantes. En Ja referencia que hace Laplace en su
Essai philosophique sur les probabilités, termina con estas palabras: «lo que eleva su pobla-
6 Estadística para la investigación social

ción a 42 .529 .267 de habitantes, pudiéndose apostar 1.161 contra uno, a que el error de ese
resultado no excede de medio millón». Como vemos, las referencias a los juegos de azar
seguirán presentes durante mucho tiempo.

5. Teoría de errores y estadística social


Laplace había utilizado la distribución normal para analizar los errores de las observaciones
astronómicas en 1781, y alrededor de 1820 ya había logrado una importante síntesis entre la
probabilidad y el uso de sistemas de ecuaciones lineales, pero la distribución normal de La-
place-Gauss no hizo su entrada triunfal en las ciencias sociales hasta 1830 de Ja mano de
Adolphe Lambert Quetelet (1796-1874). Nacido en Gante y de formación astrónomo y mate-
mático, Quetelet fundó en 1833 el Real Observatorio de Bruselas, una institución que será
determinante en la creación de la oficina estadística del nuevo Estado belga.

Estudiando las tablas estadísticas, Quetelet observó que muchos resultados de los censos
de población, así como las medidas antropométricas de los soldados, mostraban distribucio-
nes de frecuencias con características similares a la curva de Laplace-Gauss. Las frecuencias
de las medidas biométricas mostraban Ja misma estructura que las tablas de errores, algo que
Quetelet conocía muy bien por sus trabajos astronómicos. Aquello le sugirió una interpreta-
ción sorprendente: se podía aplicar la curva de la distribución normal de errores a la biome-
tría, la ciencia que entonces se ocupaba de las medidas de las características físicas de los
hombres. Según Quetelet, la aparición de la curva en forma de campana en esas mediciones,
significaba que la naturaleza había pretendido hacer un tipo ideal al que llamó «hombre me-
dio », y las medidas extremas, no eran sino errores de la madre naturaleza. A partir de enton-
ces, el hombre medio se convirtió en un ideal asociado a una determinada visión de la natu-
raleza y de Ja nación.

Quetelet creyó haber encontrado una ley (la ley de los errores de la astronomía) que go-
bernaba la variabilidad humana, y la popularidad de sus trabajos hizo del hombre medio una
pasión estadística, un tipo ideal que portaba los rasgos físicos, morales e intelectuales de la
sociedad, de la nación. Quetelet con su descubrimiento pretendió ser el Newton de esa «otra
mecánica celeste» que permitiría encontrar las leyes del equilibrio social. El hombre medio
dejaba de ser una simple abstracción matemática, para convertirse en un ideal moral.

A Jo largo de su vida, Quetelet fue un exitoso propagador de la aplicabilidad del razona-


miento probabilístico a la cuestión social. Después de cuatro publicaciones de divulgación
sobre astronomía, física y cálculo, su obra se orientó hacia la estadística social, entonces
llamada estadística moral. Entre sus publicaciones hay que destacar «El Crecimiento del
hombre» (1881), donde utiliza un gran número de medidas de las tallas de la población, y
«Tendencias Criminales en diferentes edades» (1833). Pero fue su obra «Sobre el hombre y
el desarrollo de sus facultades o Ensayo de Física Social» (1835), la que le catapultó a la
fama. En estos escritos Quetelet mostraba como las medias de las características físicas, las
tasas del crimen, o del matrimonio, presentan una relación estable en el tiempo y entre paí-
ses, respecto a la edad y otras variables demográficas. A estas relaciones estables les llamó
«leyes del mundo social».
Capítulo l. Introducción a la historia de la Estadística 7

Pero más que sus obras y su atrevida transposición de la curva de errores de Gauss (no es
lo mismo hacer numerosas mediciones de un objeto, que hacer una medida de muchos obje-
tos) , la importancia de Quetelet estriba en su papel de divulgador e impulsor del uso del
cálculo de probabilidades. Quetelet jugó un gran papel en el desarrollo del movimiento esta-
dístico internacional: ya en Inglaterra contribuyó a la fundación de la sección estadística de
la Asociación británica para el avance de la ciencia (1833) así como de la Sociedad estadís-
tica de Londres (1834), y desde Bruselas organizó los primeros Congresos internacionales
de estadística, uno sobre meteorología y otro celebrado en 1854 donde se acordaron las pau-
tas de la nueva estadística administrativa internacional.
El siglo XIX fue un período de gran interés por la estadística, y los Estados y Academias
científicas, así como diferentes instituciones privadas, comenzaron a generar una cantidad de
datos estadísticos sin precedentes. La proliferación de trabajos sobre la población y la pobre-
za, junto al estímulo teórico del positivismo, contribuyeron a dar una nueva visión de la so-
ciedad industrial y favorecieron la creación de la disciplina estadística. Los desarrollos teóri-
cos más importantes en materia de muestras, por ejemplo, aparecieron ligados a la
resolución de los problemas sociales y entrañan una nueva concepción del hombre y la so-
ciedad.
En España, los estadísticos más destacados del siglo XIX fueron Ramón de la Sagra
(1798-1871) y Pascual Madoz, (1806-1870). Este último envió a Bruselas un grupo de jóve-
nes geógrafos para trabajar junto a Quetelet y modernizar las estadísticas del reino. Como
resultado, en 1856, se crea la Comisión de Estadística General del Reino, primer organismo
centralizado, encargado de toda la producción estadística. Su primera realización fue el cen-
so de 1857, elaborado con los criterios establecidos por el congreso internacional de Bruse-
las, y en el censo siguiente, el de 1860, los criterios internacionales para la confección de los
censos se extendieron a los territorios de ultramar .

6. La Estadística matemática
Por el lado anglosajón, Francis Galton (1822-1911) y Karl Pearson (1857-1936) hacen apor-
taciones desde la eugenesia y la biometría, mientras que Francis Ysidro Edgeworth (1845-
1926) y Udny Yule (1871-1951) lo hacen por el lado de la economía y la ciencia social. En
Ja Inglaterra de esta época, la preocupación por la pobreza y sus causas, presidió los trabajos
de eugenistas, economistas y sociólogos. Galton, impresionado por la teoría de su pariente
Charles Darwin (1809-1882), trasladó los principios de la evolución a la especie humana, en
forma de teoría eugenésica, asociando los valores cívicos y morales a los genéticos.
A partir de la clasificación de clases sociales realizada por Charles Booth (1840-1916)
para la aplicación de la Ley de Pobres, y de la ley binomial utilizada por Quetelet, Galton
pretendió demostrar que era posible mejorar la especie humana mediante la intervención en
la herencia genética. No centró su atención en el hombre medio como Quetelet, sino en sus
diferencias respecto a Ja medias, o Jo que es igual, en la variabilidad humana. Entre sus con-
tribuciones está la utilización de la regresión lineal para medir la influencia de la herencia
genética. Galton trabajó durante esos años con árboles genealógicos y con datos biométricos
de padres e hijos que mostraban las transformaciones morfológicas. La complejidad de los
8 Estadística para la investigación social

problemas matemáticos que se plantearon con estas investigaciones, hizo que Galton utiliza-
se a matemáticos como Karl Pearson y Francis Y sidro Edgeworth. Éste último, más interesa-
do en el problema teórico que en la eugenesia misma, acabó formalizando el análisis de la
varianza y el coeficiente de correlación, aunque más tarde fuera atribuido a Karl Pearson.
Karl Pearson (1857-1936), investigador muy próximo al movimiento eugenista, trabajó
activamente en la creación de una red de instituciones científicas dedicadas a la estadística
aplicada en los campos de la eugenesia y la genética, así como en la creación de la revista
Biométrica. George Udny Yule (1871-1951), ingeniero y físico, además de alumno y colabo-
rador de Pearson, será el autor del primer manual de estadística matemática moderno (An
lntroduction to the Theory of Statistics,1911), un referente obligado de toda la estadística
posterior. La preocupación por la pobreza y sus causas orientó el trabajo del matemático
Arthur L. Bowley (1869-1957) hacia el estudio de las condiciones de vida de las clases tra-
bajadoras inglesas, haciendo contribuciones importantes al desarrollo del muestreo y al uso
de los intervalos de confianza. El método estadístico representativo comenzó a aplicarse du-
rante este período a los estudios de vivienda, trabajo, desempleo y salud.
El primer tercio del siglo XX verá también el nacimiento de la sociedad de masas. La
incorporación de la cadena de montaje a los procesos productivos realizada por Ford, permi-
tirá inundar los mercados mundiales de productos fabricados en serie. Pero la venta de esas
mercancías, tal y como pondrá de manifiesto la depresión del año 1929 necesitaba de la es-
tructuración del consumo, algo que comienza a ser una realidad durante los años veinte con
la ayuda de la publicidad comercial y los estudios de mercado que utilizan la encuesta esta-
dística basada en el muestreo representativo.
Los años 1920 y 1930, fueron un período de grandes convulsiones sociales: la revolución
rusa había conmocionado el mundo y el movimiento obrero comenzaba a estar más y mejor
organizado. Los gobiernos comenzaron a sensibilizarse con la cuestión social y favorecen
los estudios estadísticos. En su reunión de 1925, el Instituto Internacional de Estadística
decidió legitimar en Roma el método representativo, y la sustitución de los recuentos censa-
les por muestras cuya validez se sustentaba en la aplicación del cálculo de probabilidades.
La encuesta estadística representativa se convirtió desde entonces en un instrumento funda-
mental para los estudios sociales, los estudios de mercado, y los estudios políticos de predic-
ción del voto, consolidando una nueva técnica estadística que partía del muestreo y el cálcu-
lo de probabilidades.

7. Sociología estadística y modelización


En el contexto centroeuropeo de los años 1920 surge la figura de Paul Lazarsfeld (1901-
1976), un astrofísico vienés que comienza a trabajar como sociólogo realizando estudios so-
ciales y comerciales para la socialdemocracia austriaca. En 1933 viajó a los EE.UU con una
beca de la fundación Rockefeller, donde aprendió el uso de las técnicas estadísticas aplica-
das a la investigación comercial y a los estudios de audiencias e intención de voto que se
desarrollaban en EEUU. Allí conoció el mundo de las empresas de investigación de merca-
dos norteamericanas, experiencia que le permite crear su propia empresa de investigación: el
«Bureau of applied social research». Después de la II Guerra Mundial terminará convirtién-
Capítulo l. Introducción a la historia de la Estadística 9

<lose en un referente internacional de la estadística y la sociología. Otra figura destacada de


la nueva estadística americana fue su colega y maestro Samuel Stouffer (1900-1960) , direc-
tor de las famosas encuestas del Research Branch Information and Education Division que
realiza Ja Armada Americana, durante la 11 Guerra Mundial y que publicará más tarde bajo
el título: The American Soldier.

Finalizada la guerra mundial, se crearon Institutos de Opinión Pública en todos los países
que quedaron bajo la influencia de los Estados Unidos, y a partir de entonces, la encuesta
estadística realizada con cuestionario precodificado, y basada en el muestreo aleatorio, se
convirtió en la práctica de investigación social dominante. Los modelos probabilísticos lle-
garán también a la economía desplazando las agregaciones censales de datos , y los estadísti-
cos se centran en la elaboración de contabilidades nacionales y la construcción de modelos
econométricos que van a hacer posible la previsión y la orientación de las políticas públicas.

En la actualidad, el empleo de ordenadores y el avance de la informática permiten la


manipulación y almacenamiento de grandes cantidades de datos estadísticos. La evolución
desde la vieja máquina electrocontable hasta los modernos ordenadores, así como la apa-
rición de Internet, ha revolucionado el tratamiento y análisis de la información estadística.
Las muestras representativas vuelven a ser sustituidas por el tratamiento completo de los
registros censales, y la llamada microestadística, o en términos más profesionales, la mine-
ría de datos, se ha convertido en una especialidad que experimenta un rápido y creciente
desarrollo .

En Ja actualidad puede decirse que las estadísticas se han desplazado de las oficinas y
centros especializados para invadir todos los ámbitos de la vida social. Los medios de comu-
nicación, la economía, el consumo, las actividades políticas están en conexión directa con
los centros de producción y difusión de estadísticas, y Ja economía, o el funcionamiento del
Estado social, continúan dependiendo de la producción continuada de datos estadísticos.

8. Bibliografía comentada
Arribas, J. M. , Almazán, A. , Villarejo C. Historia de la Estadística. DVD, UNED, 2000.
Producción audiovisual de la UNED que ha sido emitida en el programa «La aventura
del saber» de TVE. Se trata de una visión introductoria a la Historia de la Estadística que
se utiliza como material didáctico en la Escuela de Estadística del INSEE de París.

Arribas, J.M. «El desarrollo de la ciencia estadística durante el siglo XIX» en 150 aniversa-
rio de la creación de la Comisión de Estadística General del Reino, INE, 2007. El texto
forma parte de una publicación conmemorativa del INE, elaborada a propósito de la
creación del primer organismo estadístico centralizado de producción estadística.
Coumet, E., ¿Líl teoría del azar surgió por azar? Empiria n. 0 3, 2000, pp 210-241. Disponi-
ble a través de Internet en Dialnet. Es un texto fundamental para comprender los oríge-
nes de la teoría de la probabilidad. Su autor es uno de los fundadores del Seminario de
Historia de la Estadística y del Cálculo de Probabilidades de la Escuela de Altos Estu-
dios en Ciencias Sociales de París.
Capítulo II

Fuentes de datos
estadísticos

En este capítulo describiremos las diferentes fuentes y clases de datos, su localización


y disponibilidad. El desarrollo de la actividad social y administrativa genera una gran
cantidad de información estadística y, aunque sólo una pequeña parte se hace pública-
mente accesible, crece continuamente el número de instituciones que ofrecen los da-
tos estadísticos que producen. Haremos un recorrido por las fuentes de datos, centrán-
donos en aquellas que tienen especial interés para la investigación social y son más
accesibles.

1. Tipos de fuentes y de datos


2. Fuentes de datos de censos y registros
3. Datos producidos mediante muestras representativas
4. Los Institutos de Estadística.
5. Fuentes de datos accesibles en la web
12 Estadística para la investigación social

1. Tipos de fuentes y de datos


Gran parte de Ja información estadística generada por las Instituciones se pone a disposición
del público a través de publicaciones impresas o de internet. Muchas de esas informaciones,
esenciales para el desarrollo de la vida económica, política y social, como son el Índice de
Precios de Consumo, el Censo de Población, los barómetros de opinión , Ja Encuesta de Po-
blación Activa o el Estudio General de Medios, están fácilmente accesibles. En otras ocasio-
nes necesitaremos información que no es directamente accesible por pertenecer a asociacio-
nes o Instituciones privadas que no publican sus datos y será necesaria la solicitud y en su
caso la adquisición de Jos mismos. También es posible que necesitemos recurrir a publica-
ciones de datos organizados o reelaborados por otro investigador que no los produjo origi-
nalmente.
Llamaremos fuente primaria de datos a la información estadística bruta original y
fuente secundaria de datos a la información estadística elaborada sobre otra ya producida.
Algunas instituciones publican tanto datos de producción propia como datos producidos por
otras instituciones, como es el caso del Instituto Nacional de Estadística (INE), que además
de sus producciones pone a disposición de los usuarios datos provenientes de otras institu-
ciones públicas o de organismos internacionales.
Al iniciar una investigación buscaremos activamente las informaciones, los datos y los
análisis de estos datos que estén relacionados con nuestro tema de interés. Si bien los datos
a los que podemos acceder fueron generados originalmente para fines diferentes de nues-
tro objeto concreto, pueden ser sometidos a un análisis posterior, como referencia para
una nueva investigación, para apoyar un informe o bien aportando el material básico de
trabajo.
Los datos disponibles varían en el nivel de detalle o agregación con que se ofrecen. En
algunos casos se podrán consultar sólo algunas tablas estáticas de datos agregados en catego-
rías, como las que se publican impresas en papel. En otros casos encontramos tablas dinámi-
cas en las que se permite al usuario seleccionar la disposición, el contenido o el nivel de
agregación, como en las tablas que se ofrecen en Ja web del Instituto Nacional de Estadística
(INE). Finalmente en algunos casos se pueden obtener las informaciones originales comple-
tas con los datos detallados de cada individuo, bajo la forma de archivos informáticos de
texto que contienen los «microdatos». Por ejemplo, los barómetros realizados por el Centro
de Investigaciones Sociológicas (CIS) son públicamente accesibles a través de la web de la
institución y los datos están disponibles, tanto en forma de tablas marginales de datos agre-
gados, como en forma desagregada a nivel de los individuos, con la información de los mi-
crodatos dispuesta para su procesamiento informático.
La accesibilidad y diversidad de los datos estadísticos disponibles en ese formato, unido
al abaratamiento de Jos ordenadores personales y su creciente capacidad para procesar rápi-
damente los datos , facilitan una tarea que hace algunos años requería costosos equipos. Los
nuevos paquetes de software para el tratamiento estadístico de datos permiten leer los distin-
tos formatos ofrecidos.
Podemos establecer una tipología de Jos datos atendiendo a Ja forma en que se han pro-
ducido y tenemos tres tipos básicos: los censos, los registros y las encuestas. Los dos prime-
Capítulo 11. Fuentes de datos estadísticos 13

ros ofrecen una información referida a todos los elementos de una población mientras que
las encuestas se limitan a la información obtenida de una pequeña parte de la población.
El censo es una enumeración o recuento de todos los individuos de una población que
recoge determinadas características de los individuos. En España, entre los censos que ela-
bora el INE encontramos el censo de Población y Viviendas, el Censo Agrario y el Censo
Electoral 1 . En cuanto la periodicidad, el Censo de Población se realiza los años acabados
en 1, el Censo Agrario los años acabados en 9 y el Censo Electoral es un censo permanente y
su actualización es mensual, ya que es el censo único para todos los procesos electorales.
Los censos se refieren a territorios concretos y se realizan periódicamente, por Jo común,
cada 10 años, recogiéndose las informaciones de Jos elementos de la población de forma
simultánea, es decir, que se refieren a un momento dado. Son procesos muy costosos y su
elaboración requiere tiempo y un gran despliegue de medios, pero son esenciales para el
desarrollo de la actividad política, económica y social, proporcionan una información bas-
tante rica por la abundancia de características observadas y están en Ja base de otros tipos de
estadísticas, como las encuestas.

Ejercicio 1
Visite la página web del INE y, en el apartado de demografía y población, busque los resultados
detallados en versión accesible del último censo de población. Seleccionando las opciones de
los menús de la web, construya una tabla dinámica, referida a su provincia de residencia, con las
variables sexo y edad.

Los registros se producen generalmente en la actividad administrativa y se refieren a


colectivos o poblaciones específicos. En los registros se inscriben los datos de los individuos
y sus actos administrativos, en general contienen pocas informaciones, solamente las necesa-
rias para el servicio que los elabora y mantiene. A diferencia de los censos que tienen una
periodicidad fija, los registros se actualizan con frecuencia mediante un sistema de altas y
bajas. Muchos de los registros se originan en el ámbito privado de asociaciones o empresas y
son de difícil acceso, otros, en cambio, son de origen público y de acceso libre, como el
Registro Civil y el Padrón.
Las encuestas son instrumentos de obtención de datos que tienen como principal ventaja
que no necesitan reunir los datos de todos los miembros de una población, si no sólo de una
pequeña parte de la misma. Con los datos obtenidos de una muestra reducida de individuos
se pueden hacer estimaciones sobre la población con un margen de error que en ocasiones es
menor que el que se tendría en la manipulación y el cómputo de los datos de toda una pobla-
ción. El menor número de observaciones pennite aumentar la cantidad de datos diferentes
recogidos en cada individuo lo que se puede hacer un análisis mucho más rico que con los
censos o registros. Sin embargo, el limitado número de casos observados en una encuesta

1
El Censo Electoral es elaborado por la Oficina del Censo Electoral encuadrada en el INE, bajo la dirección de
la Junta Electoral. El censo electoral está compuesto por dos censos, el censo de electores residentes en España
(CER) y por el censo de electores residentes-ausentes que viven en el extranjero (CERA) y es único para toda clase
de elecciones, sin perjuicio de su posible ampliación para las elecciones Municipales y del Parlamento Europeo.
14 Estadística para la investigación social

limita las posibilidades de desagregación o partición detallada para los grupos poco numero-
sos en la población y escasamente representados en la muestra como para hacer un análisis
detallado.
Para comparar los diferentes tipos de datos es necesario tener en cuenta su coste, perio-
dicidad, amplitud, errores asumidos y accesibilidad los datos. El alto coste de los censos
tiene como contrapartida su amplitud, pues abarca toda la población. Las encuestas son
más económicas, y la información se obtiene inmediatamente, pero al emplear un pequeño
número de observaciones, que aunque es suficiente para hacer estimaciones de toda la po-
blación, produciría errores abultados para subpoblaciones en las que tengamos pocas uni-
dades muestrales. Sin embargo las encuestas proporcionan mayor cantidad de información
sobre cada elemento observado. Los registros, contienen pocas informaciones de cada ele-
mento de la población y están referidos a poblaciones específicas, pero se actualizan conti-
nuamente. A la hora de utilizar unos u otros datos debemos tener en cuenta todos estos
aspectos.

CUADRO l.
Ventajas e inconvenientes de los diferentes tipos de datos.

Censos • Incluyen a toda la población. • Coste económico elevado.


• Posibilidad de desagregación en • Periodicidad dilatada.
subpoblaciones.

Registros • Actualización frecuente . • Disponibles sólo para poblacio-


nes específicas.
• Incluyen pocas variables.
• Consulta restringida.

Encuestas • Costes menores. • Están sujetas a errores de mues-


• Información instantánea. treo.
• Pueden incluir mayor número de • Dificultades de desagregación de
variables. la información de forma detalla-
• Más posibilidades de verificación da por el tamaño limitado de la
de los datos. muestra.
• Necesita de la existencia previa
de censos para seleccionar la
muestra.

Los tres tipos de fuentes mencionados se complementan. De forma que la posibilidad de


realizar encuestas representativas de la población depende de la existencia de censos que
detallen la composición de esa población . Por tanto, los censos o registros sirven de soporte
y referencia a la hora de elaborar las encuestas mediante muestras representativas.
Por ejemplo, la encuesta de Población Activa (EPA) proporciona cifras sobre la pobla-
ción activa, utiliza a una muestra de 60.000 familias (200.000 personas) y recoge informa-
ción sobre los miembros del hogar, su situación laboral, los cursos de formación realizados,
las características del empleo, el contrato y lugar de trabajo, la búsqueda de empleo, la expe-
riencia laboral , etc. Pero esa muestra se basa en la selección de 3.484 secciones censales
Capítulo 11. Fuentes de datos estadísticos 15

donde se encuentran las viviendas que formarán parte de la muestra, es decir, se apoya en los
datos censales para poder seleccionar las unidades muestrales 2 .
En ocasiones encontramos datos de diferente tipo sobre un mismo objeto. El Registro del
INEM inscribe a las personas demandantes de empleo y/o que reciben subsidios o prestacio-
nes ; el registro se mantiene actualizado mediante altas y bajas. Al igual que la EPA el regis-
tro ofrece información sobre el empleo, pero si lo que queremos es saber el número de para-
dos la encuesta será más útil que el registro, pues no todos los parados se inscriben en el
registro. Sin embargo, si necesitamos saber el número de desempleados que reciben presta-
ciones o subsidios, su tipología y plazos, será útil recurrir a Jos datos registrados. El registro
del INEM recoge sólo a los demandantes de empleo por cuenta ajena, excluyendo bajas mé-
dicas y determinado tipo de trabajos temporales 3 , mientras que en Ja EPA considera parada a
Ja persona que no haya trabajado en la semana anterior a Ja consulta. Las definiciones de
«parado» empleadas en la encuesta y el registro son diferentes, Ja primera está construida
para conocer Ja situación de la población activa mediante estimaciones, y la segunda para la
gestión administrativa de prestaciones y derechos asociados al empleo.
Veamos también la relación entre el Censo de Población y Viviendas y Jos padrones mu-
nicipales. En el primero, elaborado por el INE, se recogen los datos de toda la población
cada 10 años mediante un cuestionario remitido a las viviendas, y los segundos son registros
administrativos que incluyen a los vecinos de cada municipio y son gestionados por los
ayuntamientos. Pero el Censo está basado en los datos padronales y una de sus funciones es
precisamente mejorar los datos del Padrón municipal. Por otra parte será el INE el encargado
de coordinar los padrones de todos los municipios. Los datos del Censo no constituyen cifras
oficiales de población, reservadas al Padrón, sino el recuento de la población y la recogida
de informaciones para el conocimiento de su estructura.
Al utilizar datos recogidos para otros fines diferentes a los de nuestra investigación, he-
mos de preguntarnos siempre acerca de Ja naturaleza de esos datos, su finalidad original, las
variables o el cuestionario empleados, para poder determinar la calidad o la utilidad de esos
datos para los objetivos de nuestra investigación. Puede suceder que las categorías recogidas
en las estadísticas disponibles no sean las más adecuadas para nuestros intereses. Por ejem-
plo, las estadísticas tradicionales sobre el trabajo femenino, realizadas desde Ja perspectiva
de la economía formal ofrecen una visión parcial de un fenómeno complejo, ocultando bajo
etiquetas como «Sus labores» trabajos domésticos y reproductivos esenciales para la socie-
dad que resultan invisibles 4 y que influyen en las condiciones del trabajo remunerado. Otros

2
La ficha técnica y el cuestionario de la encue sta pueden consultarse en: http://www.ine.es
3
Véanse la definiciones operativas de «contratos registrados» y «paro registrado» en las estadísticas del INEM
en: http://www.mtin.es
4
La preocupación por el subregistro del trabajo femenino en las estad ísti cas lleva a la propuesta de mejoras en
la producción y difusión de estadísticas con perspectiva de género para reconocer y valorizar el trabajo no retribui-
do de la mujer, para lograr una mejor comprensión de la situación de las mujeres mediante nuevas definiciones y
conceptos que describan no sólo los parámetros de la economía formal, sino también otras situaciones informales,
sumini strando inform ación más adecuada a la formulación de políticas, planes y proyectos, inspirados en el objetivo
estratégico H-3 de la IV Conferencia Mundial sobre la Mujer, realizada en Beijing en 1995: elaborar y difundir
datos desglosados por sexos para planificar y evaluar las políticas de igualdad y desarrollo.
16 Estadística para la investigación social

métodos de análisis sociológicos como las encuestas de empleo del tiempo serían más útiles
para poner en evidencia la compleja articulación temporal entre el trabajo doméstico y el
productivo. Con esto se quiere señalar la necesaria cautela a la hora de seleccionar los datos
a nuestro alcance, y la necesidad de un análisis crítico de los mismos para reelaborarlos o
para buscar otras fuentes que los amplíen o complementen.

2. Fuentes de datos de censos y registros


Entre los recuentos exhaustivos destaca por su relevancia el Censo de población y viviendas
debido a su utilidad para la elaboración de muestras representativas para las encuestas. El
censo recoge gran cantidad de información sobre las personas y las viviendas; respecto a las
personas se estudian las variables: edad, sexo, nacionalidad, situación de residencia, estado
civil, lugar de nacimiento, variables migratorias, formación , relación con la actividad econó-
mica, condición socioeconómica, nupcialidad, fecundidad, relaciones de parentesco, zona,
tamaño del municipio, estructura de los hogares y núcleos familiares; respecto a las vivien-
das: clase, zona, instalaciones, superficie útil en metros cuadrados, periodo de construcción,
número de habitaciones, régimen de tenencia y clase de propietario; y por tipo, número de
plantas, número de viviendas, clase de propietario, estado y periodo de construcción del edi-
ficio. El detalle proporcionado por las variables estudiadas permitirá el diseño de muestras
que representen a la población respecto a una o más de variables recogidas.
El Censo Agrario, ofrece datos para la evaluación de la agricultura y su estructura, y al
igual que el censo de población proporciona el marco necesario para realizar diseños mues-
trales para los estudios agrarios. Las unidades elementales para la recogida de la información
son las explotaciones, recogiéndose datos sobre la titularidad y su personalidad jurídica, la
gestión, la formación del jefe de la explotación, Ja superficie y las parcelas, el régimen de
tenencia, los riegos y su gestión, el aprovechamiento, los tipos de cultivos, si es una explota-
ción ecológica, el régimen de ayudas de la UE, la maquinaria, la ganadería, la mano de obra
y la comercialización.
Existen también censos elaborados por instituciones privadas, como los censos de esta-
blecimientos comerciales que se emplean para diseñar las muestras en la investigación de
mercados.
En cuanto a los registros, son muchas las instituciones o administraciones que generan
datos mediante registros, algunos de inscripción obligatoria, pero en el área que nos ocupa
destacaremos los más relevantes: el Padrón municipal, el Registro Civil, el Registro de Pres-
taciones públicas del Instituto Nacional de la Seguridad Social 5 y los registros de empleo del
INEM 6 . Además de estos registros esenciales para el desarrollo de la vida social y económi-
ca, los servicios estadísticos de los diferentes departamentos ministeriales generan también

5
El Instituto Nacional de la Seguridad social está encargado por ley a la elaboración y publicación de los datos
del registro, confeccionado a partir de la información recabada de más de 100 organismos, entidades y empresas.
6
La fuente de información es la Subdirección General de Informática y Estadística del Instituto de Empleo
Servicio Público de Empleo Estatal (INEM), que obtiene los datos estadísti cos mediante un a ex plotación de los
ficheros constituidos fundamentalm ente para la gestión del empleo.
Capítulo 11. Fuentes de datos estadísticos 17

sus propios registros, donde podremos encontrar informaciones específicas según sus com-
petencias. Por ejemplo, la Dirección General de Tráfico del Ministerio del Interior ofrece
datos de los accidentes con detalles específicos del tipo de vehículos implicados y sus ocu-
pantes, pero si estamos interesados en los accidentes en el transporte de mercancías la fuente
más adecuada será el Ministerio de Fomento.
En el ámbito privado podemos encontrar producciones estadísticas mediante registro,
por ejemplo la Oficina de Justificación de la Difusión de Jos medios de comunicación (OJD)
obtiene la verificación de la difusión de las publicaciones impresas o mediante intemet, se
trata de, un registro de la tirada de las ediciones impresas de publicaciones periódicas y un
recuento de las visitas en intemet de especial relevancia para el estudio de los medios y
su mercado. Muchas asociaciones mantienen registros de sus socios y su actividad.
Los avances informáticos permiten manejar y relacionar grandes cantidades de datos de
diferente origen sin más límites que la protección de los datos personales. En la actualidad
existen nuevas iniciativas como las bases de datos cruzadas: la colaboración de la Agencia
Tributaria, la Seguridad Social, la oficina del Catastro y Jos Institutos de Estadística estatal y
autonómicos, han permitido la creación de una base de datos integrada que reúne la informa-
ción cruzada y detallada de las bases de datos de dichas instituciones. Salvada la privacidad
de los datos, mediante un sofisticado procedimiento se pueden obtener informaciones deta-
lladas de las propiedades, rentas, historiales laborales, residencia, nivel de estudios, etc., con
un nivel importante de desagregación y su representación cartográfica. El futuro próxi-
mo apunta hacia una transformación del rol de los datos recogidos de forma exhaustiva, da-
das las nuevas posibilidades de almacenamiento y procesamiento impensables hace unas
décadas.

3. Datos producidos mediante muestras


representativas
La mayor parte de los datos estadísticos disponibles provienen de encuestas representativas.
La variedad de objetos investigados y de ámbitos de estudio es grande y hace difícil una
enumeración incluso somera, siendo necesaria una detallada búsqueda de estudios o publica-
ciones en función del objeto y ámbito de nuestro interés. Nos centraremos principalmente en
los datos ofrecidos por dos de las fuentes más importantes de encuestas de ámbito nacional
el INE y el CIS, organismos que ofrecen encuestas sobre diversos temas que pueden ser
consultadas en publicaciones periódicas o directamente en intemet y que proporcionan el
mayor nivel de desagregación en sus microdatos.

Al consultar una encuesta debemos tener en cuenta la forma en que fue realizada y el
tipo de muestra empleada, así como la disponibilidad para un período dado. Los datos de las
encuestas deben ser utilizados con las mismas cautelas mencionadas anteriormente, conside-
rando los objetivos originales para los que fueron realizadas, las variables empleadas y su
adecuación a nuestros objetivos concretos, además de la representatividad de la muestra y el
cuestionario utilizado.
18 Estadística para la investigación social

Si nos centramos en su aspecto temporal encontraremos encuestas que se repiten en el


tiempo y que proporcionan series temporales como los barómetros de opinión mensuales,
otras sin embargo son específicas y se realizan una sola vez, como la encuesta nacional de
inmigrantes de 2007, también hay encuestas que se desarrollan de forma continua en oleadas
trimestrales o con otra periodicidad. Algunas de estas encuestas que realizan consultas repe-
tidas forman un «panel», palabra inglesa que designa un estudio longitudinal en que las uni-
dades muestrales son observadas a intervalos de tiempo regulares y una parte de la muestra
es renovada periódicamente por nuevas unidades.
Por ejemplo, la Encuesta de Población Activa recoge la situación laboral de los miem-
bros de los hogares, con periodicidad trimestral y en cada trimestre la muestra se divide en 6
submuestras que por tumos de rotación renuevan los hogares que la componen. Estas mues-
tras de panel o continuadas pueden tener una duración bianual, como la Encuesta de Presu-
puestos Familiares que hace permanecer a los hogares en la muestra durante dos años reno-
vando la mitad de la muestra con esa periodicidad. Otras encuestas como los barómetros de
opinión realizados por el CIS o las encuestas sobre nivel y calidad de vida, el Índice de
Precios de Consumo (IPC), tienen una periodicidad mensual.
Algunas de las encuestas periódicas incluyen además módulos especiales únicos que no
forman series temporales y pertenecen a cada encuesta concreta, por ejemplo en los baróme-
tros de opinión del CIS, una parte de las preguntas del cuestionario permanece en cada estu-
dio, pero otra parte se dedica a algún tema concreto o de actualidad diferente cada vez. Tam-
bién en la EPA, de periodicidad trimestral se producen unos módulos especiales sobre temas
relacionados con el empleo que varían cada año.
Para algunas cuestiones concretas encontraremos que la series anuales disponibles son
limitadas debido a su reciente implantación, como la encuesta nacional sobre la percepción
de la ciencia y la tecnología, repetida en 2002, 2004, 2006 y 2008, en la que participan la
Fundación Española de Ciencia y Tecnología (FECYT) y el CIS .
En el ámbito de los medios de comunicación, Encuesta General de Medios, realizada por
la Asociación para la Investigación de Medios de Comunicación (AIMC), proporciona un
importante análisis del estado y tendencias de los medios en España y su evolución. La en-
cuesta realiza 43 .000 entrevistas al año, distribuidas en tres olas, y constituye la información
más completa sobre consumo de medios a escala nacional y autonómica.
En algunos casos, generalmente en las fuentes estadísticas públicas, las fuentes propor-
cionan los microdatos de las encuestas con Ja ficha técnica y el cuestionario empleado, y en
otros casos simplemente podremos obtener las tablas de datos agregados o series temporales
contenidas en las publicaciones y alguna referencia metodológica.

4. Los Institutos de Estadística


En España, el principal banco de datos estadísticos para todo el territorio es el INE, que
ofrece datos sobre muchos aspectos de la vida social: demografía, medio ambiente, educa-
ción, cultura, economía, etc., pero las Comunidades Autónomas tienen además sus propios
servicios o Institutos de Estadística:
Capítulo 11. Fuentes de datos estadísticos 19

CUADRO 2.
Institutos y servicios estadísticos de las Comunidades Autónomas

Andalucía: Instituto de Estadística de Andalucía


Aragón: Instituto Aragonés de Estadística
Balears (Illes): Institut Balear d'Estadística
Canarias: Instituto Canario de Estadística
Cantabria: Instituto Cántabro de Estadística
Castilla-La Mancha: Instituto de Estadística de Castilla-La Mancha
Castilla y León: Consejería de Hacienda
Cataluña: Institut d'Estadística de Catalunya
Comunidad de Madrid: Instituto de Estadística de la Comunidad de Madrid
Comunidad Valenciana: Instituto Valenciano de Estadística
Extremadura: Junta de Extremadura. Consejería de Economía, Industria y Comercio
Galicia: Instituto Galega de Estatística
Murcia, Región de: Centro Regional de Estadistica de Murcia
Navarra: Instituto de Estadística de Navarra
País Vasco: Euskal Estatistika Erakundea - Instituto Vasco de Estadística (EUST AT)
Principado de Asturias: Sociedad Asturiana de Estudios Económicos e Industriales
(SADEI)
Rioja, La: Consejería de Hacienda y Economía. Dirección, Economía y Presupuestos.

La producción estadística de los institutos autonómicos es desigual, no todos los institu-


tos autonómicos generan sus propios datos estadísticos, y algunos de ellos ofrecen sólo la
información producida en la actividad administrativa de la Comunidad Autónoma o los da-
tos del INE desagregados para su ámbito territorial. Otros institutos de comunidades tienen
sin embargo una producción estadística equivalente a la del INE, para su ámbito territorial.

En el ámbito europeo es necesario destacar el papel armonizador de las estadísticas pro-


ducidas por los países miembros por parte de la Oficina Estadística de la Unión Europea
(EUROST AT). El objetivo de Eurostat no es la producción de datos estadísticos, ya que uti-
liza los datos producidos por los Institutos de cada país miembro, sino su posterior elabora-
ción conjunta que procura la armonización de los datos de todos los países miembros. La
armonización de las estadísticas es necesaria para llevar a cabo una comparación confiable
de los resultados obtenidos en países o regiones diferentes. Dicha armonización proporciona
a las autoridades europeas la información necesaria para el diseño, ejecución, seguimiento y
evaluación de las políticas públicas comunes. Europa ha logrado, a través del trabajo de
coordinación de Eurostat, una armonización conceptual y metodológica importante que ofre-
ce la posibilidad de comparar cuantitativamente los efectos concretos de las políticas em-
prendidas. Muchas de las estadísticas económicas y sociales de cada país han sido conve-
nientemente modificadas en su estructura para adaptarse a las normativas de Eurostat, como
la EPA, modificada en 2005 o el antiguo Índice de Precios de Consumo (IPC) que pasa a ser
desde 1997 el Índice de Precios de Consumo Armonizado (IPCA) para permitir la compara-
ción con el resto de países europeos.
20 Estadística para la investigación social

Dentro del conjunto de operaciones estadísticas armonizadas en la Unión Europea el INE


realiza la Encuesta de Condiciones de Vida 7 , que junto a los datos equivalentes obtenidos en
cada país, proporciona estadísticas comparativas de la distribución de ingresos y la exclusión
social en el ámbito europeo. La encuesta tiene una estructura de panel que permite seguir en
el tiempo a las mismas personas, estudiar los cambios que se producen en sus vidas y cómo
reaccionan a las cambiantes condiciones y las políticas socioeconómicas.
Para poder hacer comparaciones entre países con organización territori al muy variada las
estadísticas europeas cuentan con diferentes niveles de desagregación de la información, pa-
ra dar cuenta de los ámbitos nacional , regional, provincial o municipal. Para recopilar datos
y elaborar las estadísticas regionales armonizadas, la Unión Europea establece una nomen-
clatura común de las unidades territoriales estadísticas (NUTS, siglas en francés de «Nomen-
clatura de las Unidades Territoriales Estadísticas») 8 .
La clasificación NUTS es jerárquica y subdivide cada Estado miembro en tres niveles:
NUTS 1, NUTS 2 y NUTS 3. Los niveles NUTS 2 y NUTS 3 son subdivisiones de los nive-
les NUTS 1 y NUTS 2 respectivamente. Los Estados miembros pueden optar por un mayor
grado de detalle y subdividir el nivel NUTS 3.
El Nivel NUTS 1 se refiere a estados federados, o grandes regiones, el NUTS 2 a las
regiones y el NUTS 3 a las provincias, departamentos o grupos de condados. La diversidad
de divisiones administrativas en Europa y sus diferentes tamaños lleva a establecer límites
cuantitativos para su definición. Aunque el límite de las unidades territoriales se basa en las
unidades administrativas existentes en los Estados miembros, para que las estadísticas regio-
nales sean comparables, las zonas geográficas deben tener una población comparable, de
forma que se establecen unos límites para cada nivel de desagregación:

Nivel Mínimo Máximo

NUTSl 3 millones 7 millones


NUTS2 800.000 3 millones
NUTS 3 150.000 800.000

Estos criterios generan una gran diversidad de situaciones con regiones de muy diferente
extensión y densidad. Las tablas estadísticas ofrecidas en Eurostat vienen acompañadas de
sus representaciones gráfica y de Ja cartográfica, que proporciona una visión general del
conjunto europeo.
En España el nivel Nuts 1 establece 6 grandes áreas. El nivel NUTS 2 se corresponde
con las Comunidades Autónomas y el nivel NUTS 3 a las provincias, tal y como podemos
ver en los mapas que figuran a continuación.

7
La ECV sustituye desde 2002 al Panel de Hogares de la Uni ón Europea (PHOGUE) que se elaboraba desde
1994, para adaptar la encuesta a las nuevas necesidades de informac ión para las políticas com unitarias.
8
La nomenclatura de regiones estadísticas europeas ha sufrido varios cambios desde su implantación. La últi-
ma versión puede consultarse en la web de Eurostat.
Capítulo 11. Fuentes de datos estadísticos 21

Mapa 1.
Grandes áreas europeas, nivel de agregación NUTS 1.

Share of women among employment


in high-tech sectors,
by NUTS 1 regions , 2007

D <= 15 3
D 15-<=30%
D 30-<=45 %
1111 > 45 %
D Data not available

lceland , Saarland (DE), Sachsen-Anhalt (DE): 2006


Data source: Eurostat
C EuroGeographics Association, fof the administraüve boundaries
Cartography: Euroslal - GISCO, 0712009

600 km (

Fuente: EUROSTAT

La nomenclatura NUTS establece también para el ámbito local dos niveles de Unidades
Administrativas Locales (UAL 1 y UAL 2) 9 que se refieren a unidades muy diversas como
municipios, cantones, distritos o comunidades . El nivel UAL 1 sólo existe en algunos países:
Alemana, Chipre, Estonia, Finlandia, Grecia, Hungría, Irlanda, Letonia, Lituania, Luxem-
burgo, Malta, Polonia, Portugal, Reino Unido, Eslovaquia, Eslovenia y República Checa. En
España solamente existe el nivel UAL 2, unidades que se corresponden con los 8.108 muni-
c1p10s.

9
Las siglas UAL son la traducció n al español de Loca l Administrative Units (LAU).
22 Est ad ística para la invest igació n socia l

Mapa 2.
Áreas con nivel de agregación NUTS 2.

Europaische Union, Kandidatenliinder Guadeloupe (FR) Martinique (FR)


und EFTA·Liinder
European Union, candidate countries
and EFTA countries
Union européenne, pays candidats
et pays AELE

NUTS/Statistische Regionen Ebene 2


NUTSJStatistical regions, leve! 2
NUTS/Régions statistiques n1veau 2

NlJTS200llund~R ....... SlandAnlrig200ll


NlJTS200l5MdNtrsbc:81~--.,,.~ol200ll
NIJTS2006el~miil~.o.m..tion ... débu!0.200B

Cl~-------
0~-- . --
º~--""""'""-.....__...,

lsland

Ejercicio 2
Visite la web de Eurostat y busque entre las estadísticas de indicadores estructurales, seleccio-
nando los relacionados con la cohesión social y entre éstos abra el indicador de riesgo de pobre-
za antes de las transferencias sociales , por género. Consulte la definición del indicador y las ta-
blas, gráficos y mapas que se ofrecen. Para fam iliarizarse con la web, utilice la ayuda de la
pág ina que bajo el rótulo «cierno» ofrece expl icaciones sobre la utilización interactiva.
Capítulo 11. Fue ntes de datos estadísticos 23

. Mapa 3.
Areas correspondientes al nivel de agregación NUTS 3.

NUTS 3 regions along coastlines

..,..
.

Fuente: EUROSTAT

5. Fuentes de datos accesibles en la web


Además de las tradicionales publicaciones de tablas estáticas de resumen, actualmente pode-
mos acceder a muchas de las fuentes de datos en intemet, disponibles con mayor o menor
grado de agregación de los datos. Y cada vez es más abundante el número de encuestas para
las que se ofrecen Jos rnicrodatos o datos originales de la encuesta con toda la información
24 Estadística para la investigación social

de cada individuo observado sin agregar o resumir. Los microdatos se contienen en una ma-
triz en la que cada fila corresponde a un individuo y las variables se representan en las co-
lumnas. Este formato nos permitirá un análisis mucho más adecuado a nuestros fines. Los
microdatos van acompañados de otros documentos, como el cuestionario empleado para re-
coger la información y los códigos empleados para cada variable, así como la tabulación que
permite la localización de cada variable o cada caso en la matriz de datos, cuestiones que
trataremos en el siguiente capítulo.
Presentamos a continuación una pequeña tabla de recursos básicos en internet, que pue-
den ser de especial interés para el estudiante de Ciencias Políticas o Sociología:

CUADRO 3.
Recursos estadísticos en Internet.

CIS INE
Página web del Centro de Investigaciones Página web del Instituto Nacional de Esta-
Sociológicas (CIS) http://www.cis.es dística (INE). http://www.ine.es
Actualmente pueden consultarse informa- El INE ofrece en su web multitud de datos
ción de toda la base de datos de encuestas de censos, registros o encuestas, clasifica-
realizadas por la institución desde 1978 en dos en categorías: medio ambiente, demo-
forma de tablas de resultados marginales grafía y población, Sociedad, Economía,
elaboradas con los datos de las principales Ciencia y Tecnología, sectores productivos
variables para todo el catálogo histórico de e internacional. En cada una de estas cate-
encuestas, que en su mayor parte son los gorías se presentan tanto los estudios reali-
barómetros mensuales, pero además en la zados por el INE como estudios realizados
base de datos podemos encontrar encuestas por ministerios u otras instituciones nacio-
monográficas sobre diversos temas: políti- nales o europeas. En la categoría internacio-
ca, economía, trabajo, población, medio nal, el INE ofrece datos y series temporales
ambiente, comunicación, cultura, deporte, de estadísticas realizadas por instituciones
ocio, ciencia y tecnología, educación, sani- internacionales obtenidas de diferentes ba-
dad, justicia o valores y actitudes. Y desde ses de datos o webs de organismos interna-
2007 podemos disponer de los microdatos cionales: datos demográficos, de educación,
de los últimos barómetros de opinión de economía, salud, condiciones de vida o
forma inmediata y gratuita. mercado laboral. Las fuentes originales de
los datos son: la división estadística de las
Naciones Unidas, el Banco Mundial, la
OCDE, la UNESCO, la OIT, la OMS o la
Unión Internacional de Comunicaciones.
De algunos estudios producidos por el INE
podemos construir y consultar tablas inter-
activas en las que seleccionamos las va-
riables de filas y columnas, el período o el
nivel de agregación, y también obtener mi-
crodatos de censos y encuestas, para su
procesamiento informático así como infor-
mación detallada de la metodología y los
cuestionarios empleados.
Capítulo 11. Fuentes de datos estadísticos 25

CUADRO 3. Continuación.

EUROSTAT AIMC-EGM
En la Web de EUROSTAT, la oficina esta- Página web de la Asociación para el estu-
dística europea podemos encontrar datos dio de los medios de comunicación (AIMC)
estadísticos de la economía, la sociedad y http://www.aimc.es/index.html
la cultura de los países miembros de la
Se ofrece la Encuesta General de Medios
Unión Europea, con perspectivas lineal y
(EGM) con los resultados de tres oleadas
transversal, con series temporales para los
anuales desde 1999. También se puede dis-
diferentes países. El proceso de avance de
poner de cifras sobre la audiencia de me-
la armonización de estadísticas producidas
dios impresos y de intemet. (Algunas de
por los países miembros de la UE, lleva a
las series temporales pueden ser también
la consolidación de un cuerpo cada vez
consultadas en las páginas del INE. )
mayor de estadísticos comparables y ade-
cuados a las decisiones políticas y los pro-
gramas europeos. OJD
http ://epp. euros tat. ec. europa. e u/portal/ Página web de la Oficina de Justificación
de la difusión http://www.ojd.es/
page/portal/eurostat/home/
En la web OJD interactiva podemos obte-
Nos interesarán especialmente los datos de ner los datos de la tirada y el número de
las encuestas de opinión pública elabora- lectores de cada medio impreso. También
dos por la Comisión Europea que nos per- se incluyen los datos de número de visitas,
miten la comparación entre países. Los usuarios y páginas de intemet certificadas
Eurobarómetros están disponibles desde por la institución.
1974 y se realizan dos al año, en primavera
y otoño. Existen también análisis de en-
cuestas temáticas de las que podemos obte-
ner el informe resumen en formato pdf y
los cuestionarios empleados:
http://ec.europa.eu/pu blic_opinion/
index_en.htm
Capítulo III

Recogida y
tratamiento de datos

La estadística pretende dar cuenta de grandes colectivos o de sucesos que se repiten ,


y su trabajo se orienta a reducir la complejidad de lo real ante la imposibilidad del análi-
sis exhaustivo. Pero su objeto no es la realidad en general , sino determinados aspec-
tos o características relevantes para la investigación y que son observados según crite-
rios específicos. Las operaciones estadísticas trabajan con conceptos definidos de
forma inequívoca y verificable, y la información recogida se transforma habitualmente
para ser tratada de forma matemática.

En este capítulo introducimos los conceptos e instrumentos básicos que se em-


plean en estadística para analizar poblaciones y trabajar con grandes conjuntos de
datos.

1. De las características a las variables


2. Niveles de medición de la variable
2.1. Nivel de medición nominal
2.2. Nivel de medición ordinal
2.3. Nivel de medición de intervalo
3. De la observación al registro
4. Distribuciones de frecuencias
5. Criterios de agrupación de los datos y tipos de frecuencias
6. Elaboración y lectura de tablas de frecuencias con dos variables
7. El problema de los límites reales en la creación de categorías para variables de intervalo
8. Formas de una distribución
28 Estadística para la investigación social

1. De las características a las variables


Una de las principales utilidades de la estadística en investigación social es la caracteriza-
ción de poblaciones o grupos poblacionales. Las poblaciones pueden ser conjuntos de perso-
nas pero también podemos formar poblaciones con otros elementos, como pueden ser naci-
mientos o desplazamientos laborales, u otro tipo de sucesos o de objetos, como suprimir
los alimentos consumidos por una familia. El término población lo utilizaremos de forma
genérica para referirnos no necesariamente a un conjunto social (o grupo de individuos
humanos) sino al conjunto de todos los elementos o sucesos a los que se refiere nuestra
investigación.
Las poblaciones pueden ser consideradas, dependiendo de su naturaleza, en un momento
concreto del tiempo. Así tenemos, por ejemplo, a la población constituida por los residentes
en Galicia según el censo de 2011 (que está referido a la noche del 1 de noviembre de ese
año). O también podemos considerar la población dentro de un intervalo de tiempo. Y así
tenemos, por ejemplo, los ingresos hospitalarios en una Comunidad Autónoma durante el
último semestre.
Los elementos que componen una población pueden a su vez ser poblaciones. Por ejem-
plo, la población compuesta por las asociaciones políticas que encontramos en un determina-
do ámbito territorial de acción política o las que componen las parroquias de una ciudad o
las provincias de un Estado.
Los elementos (o unidades) que componen una población presentan múltiples carac;terís-
ticas que los identifican. Por ejemplo, si estamos ante un conjunto de individuos humanos,
desde una perspectiva social nos interesarán de ellos características de índole «social» (que
pueden ser causas o efectos de «Comportamientos sociales»): el sexo, la ocupación laboral,
el nivel de estudios, el municipio de nacimiento, la edad, la ocupación del padre, el número
de hijos ... , por citar algunas características «sociodemográficas» o «socioeconómicas», aun-
que también podemos hablar de otras características «sociales» o «culturales», como son las
actitudes o las opiniones hacia determinadas cuestiones, y también de ciertos comportamien-
tos (caracterizados como «sociales») .
Toda investigación social está orientada por un determinado objetivo, y, por tanto, en
cada una de ellas interesarán unas limitadas características de la población objeto de estudio.
Y estas deben encontrarse bien definidas. Para ello hacemos uso del concepto de variable.
En estadística, podemos decir que una variable es una característica que al ser medida
en diferentes individuos (o unidades o sucesos) es susceptible de adoptar diferentes valores .
Hablamos aquí de individuos como las unidades o los elementos (o los sucesos elementales)
que componen (agregados) una población.
En una investigación, el conjunto de elementos o unidades sobre el que realizamos las
observaciones es la «población objeto de estudio» o población universo. Como ejemplos de
esta podemos señalar 1 «los residentes en territorio español», «los mayores de 18 años que
residen en España», «los parados mayores de 55 años », «los parados mayores de 55 años en

1
El masculino plural utilizado aquí para definir poblaciones es genérico, es decir, hablamos tanto de hombres
como de mujeres.
Capítulo 111. Recogida y tratamiento de datos 29

el sector de la construcción», «los que tienen entre 16 y 35 años», «los residentes en Catalu-
ña», «los extranjeros residentes en España», «los que viven en hogares unipersonales», «los
hogares que no cuentan con ningún miembro ocupado».
A los elementos sometidos a «Observación» en el proceso investigador los llamaremos
unidades de análisis, o, sencillamente, casos. Generalmente, ya lo hemos dicho, las unidades
son individuos humanos, pero también pueden ser empresas, familias, municipios, colegios,
provincias, países ... o sucesos -nacimientos, viajes, accidentes .. .-
Podemos decir que, en estadística social, una variable es un conjunto de valores que
clasifica a la población objeto de análisis en distintos grupos: cada valor de la variable
constituye un grupo de individuos (o unidades). Una variable, por tanto, clasifica a una po-
blación en distintos grupos (a través de distintas categorías clasificatorias). Para ello cada
variable debe generarse a partir de un único y coherente criterio clasificatorio y cumplir los
dos principios básicos de toda clasificación: debe, por un lado, ser exhaustiva, lo que quiere
decir que todos los elementos de la población deben poder ubicarse en alguno de los grupos,
y, por otro lado, todas las categorías que generan los grupos deben ser mutuamente ex-
cluyentes, lo que significa que cada elemento de la población sólo puede encontrarse en uno
y sólo uno de los grupos en los que clasificamos a la población. Así, por ejemplo, en la
variable «sexo» (para una población de individuos humanos) encontraremos dos valores, que
definen dos grupos de personas: «hombres» y «mujeres». Si la población que nos interesa es,
por ejemplo, la de «habitantes de Lugo», tenemos que, por una parte, cada uno de los habi-
tantes de Lugo tiene que ser «hombre» o «mujer» y que, por otra, aquel que es «hombre» no
puede ser «mujer» al mismo tiempo, porque los grupos generados en una variable son ex-
haustivos y mutuamente excluyentes. Para poblaciones compuestas, por ejemplo, por suce-
sos, la clasificación tiene que ser también excluyente -parto simple o múltiple, accidente de
día o de noche, etc.-. Y esto es así para permitir la contabilidad rigurosa de poblaciones,
que a su vez pueda permitir la comparación rigurosa entre distintas poblaciones o entre dis-
tintos grupos poblacionales. Ya que una vez hemos clasificado a la población en distintas
variables pertinentes para el estudio que estemos realizando (y que, en investigación social,
suelen recogerse agrupadas en un cuestionario, en lo que llamamos encuesta), procederemos
a contar «la población» que encontramos en cada uno de los grupos. Y este 'conteo ' o re-
cuento de individuos agrupados o agregados permitirá la comparación de poblaciones o gru-
pos poblacionales, que es la base de la investigación en estadística social.
Pongamos algunos ejemplos de variables de pertinencia «sociológica» con sus valores.
Sexo (hombre, mujer) , estado civil (soltero, casado, divorciado, viudo), edad (en años cum-
plidos), relación con la actividad laboral (inactivo, ocupado, parado), tamaño del municipio
de residencia (en número de habitantes), número de hijos, ingresos netos mensuales (en
euros), máximo nivel de estudios terminado (sin estudios, primarios, secundarios, universita-
rios). Estos son ejemplos de variables que nos dan información sociodemográfica o socioeco-
nómica de los individuos . Pero también podemos contar con variables de información actitu-
dinal u opinática sobre asuntos de relevancia social o política. Así, por ejemplo, la «actitud
hacia el aborto» (a favor, en contra) o la «intención de voto» (PP, PSOE,... ).
Las variables han de definir sus valores con la mayor precisión posible, que evite ambi-
güedades o equívocos. Hay variables que pueden definir sus valores de muy distintos modos.
Una de ellas, por ejemplo, es la relación con la actividad. Aquí hemos de definir con claridad
30 Estadística para la investigación social

lo que se entiende por «activo», para asignarle la etiqueta de «activo» siempre al mismo tipo
de gente. En esta variable también conviene precisar a qué nos referimos estrictamente cuan-
do hablamos de «parados», ya que este término ha ido cambiando con el tiempo, incluso
dentro del registro estadístico. En la Unión Europea, a partir del año 2001 , de acuerdo con
las normas aprobadas por la OIT en las 13.ª y 14.ª Conferencia Internacional de Estadísticos
del Trabajo (CIET), para las estadísticas sobre muestreo de población activa, se consideran
«desempleados » (o «parados») «las personas con edades comprendidas entre los 15 y los 74
años que se hallen: (a) sin trabajo durante la semana de referencia, es decir, que no dispon-
gan de un empleo por cuenta ajena o de un empleo por cuenta propia (durante al menos una
hora) ; (b) disponibles para trabajar, es decir, disponibles para iniciar una actividad por cuen-
ta ajena o por cuenta propia dentro del plazo de las dos semanas siguientes a la semana de
referencia; (c) en busca de trabajo activa, es decir, que hayan tomado medidas concretas para
buscar un empleo por cuenta ajena o un empleo por cuenta propia en un período de cuatro
semanas que se termine al final de la semana de referencia, o que hayan encontrado trabajo y
empiecen a trabajar en un período de tres meses como máximo» (y se establecen las medidas
concretas a que se hace referencia que vamos a obviar aquí).
Así, una vez definida con precisión en cada una de las variables la serie de atributos o
valores que clasificarán a la población, a cada uno de los individuos (o unidades) que com-
ponen esta población se le asignará, a través de un procedimiento empírico de observación y
registro, uno de esos atributos o valores. De tal manera que, por ejemplo, en la variable sexo,
veremos si un individuo es «hombre» o «mujer». Y dentro de la edad, veremos cuántos años
ha cumplido y le atribuiremos una edad. Este procedimiento no es sino una operación de
medida, en el más amplio sentido de la palabra.

2. Niveles de medición de las variables


Vamos ahora a observar los distintos tipos de variables y sus propiedades. Para ello partimos
del estudio realizado por el CIS en septiembre de 2011. El estudio se realizó mediante una
muestra representativa de la población española mayor de edad. Entre las distintas preguntas
que contenía el cuestionario vamos a fijamos en tres de ellas que producen tres tipos distin-
tos de variables:
La variable «sexo» nos clasifica a la población en dos grupos: hombres y mujeres.
La variable «calificación de la situación política» la obtenemos a partir de las res-
puestas dadas por los individuos que componen la muestra a la pregunta «¿Cómo
calificaría usted la situación política general de España: muy buena, buena, regular,
mala o muy mala?».
- La variable «edad» recoge todas las edades posibles de la población: 18 años, 19
años, 20 años, 21 años, 22 años, 23 años, etc.
En la Tabla 1 se han detallado estas variables así como sus valores.
Con cada una de estas variables aplicamos a cada individuo una «escala de medida» (en-
tendida esta de manera muy genérica).
Capítulo 111. Recog id a y tratamiento de datos 31

Tabla l.

N.º de Calificación de la N.º de N.º de


Sexo Edad
individuos situación política individuos individuos

Hombre 1.214 Muy buena 4 18 años 32

Mujer 1.25 1 Buena 63 19 años 35

Total 2.465 Regular 532 20 años 30

Mala 955 21 años 34

Muy mala 783 22 años 37

Ns ./Nc. 128 23 años 28

Total 2.465 24 años 39

25 años 48

26 años 35

27 años 40
.. .
...
... 2.105
...

.. .
...

97 años 1

Ne. 1

Total 2.465

Decíamos que una variable implicaba una clasificación de los elementos de una pobla-
ción. A las clases o grupos generados por una variable los denominamos «valores ». Toda
clasificación es un proceso de distinción de las unidades a clasificar. Pues bien, entre las
clases (es decir, entre los valores que pueden tomar las unidades) se pueden establecer diver-
sos tipos de di stinción, lo que supone diversos tipos de relaciones entre estas clases. Según
sean las relaciones que mantienen entre sí los valores de una variable tendremos distintos
tipos o niveles de medición.
32 Estadística para la investigación social

Tradicionalmente se ha distinguido entre clasificación, ordenación y medición, según el


tipo de distinción establecido entre las clases definidas por los valores de una variable (sien-
do cada uno de estos niveles más sofisticado que el que le antecede). En el primer caso sólo
distinguimos las clases en el nivel más elemental: sólo podemos decir que una es distinta de
otra. Si las clases pueden ordenarse entre sí según un principio jerárquico, subimos de nivel.
Y si la jerarquía o escala está graduada podemos establecer medidas entre las clases.
El primer caso, el de la mera clasificación, en donde sólo podíamos decir que una cate-
goría es distinta de otra, lo encontramos en las tres variables de nuestro ejemplo. Con respec-
to al «sexo» podemos decir que un individuo de la población que es «hombre» no es «mu-
jer»: el sexo nos distingue «hombres » de «mujeres ». En la «calificación de Ja situación
política» podemos decir, por ejemplo, que alguien que dice que es «muy buena» es distinto
del que dice que es «mala», o de aquel que dice que es «buena» o «regular» o «muy mala», o
que aquellos que dicen que la situación política es «buena» son distintos de aquellos que
sostienen que es «mala», etc. Si tenemos en cuenta la «edad», diremos, por ejemplo, que los
que tienen 18 años no tienen 23 , que tener 34 años es distinto que tener 67, etc.
En el segundo tipo de distinción generado por las «distintas» categorías clasificatorias de
una población, asociadas a los valores de una variable, el de la ordenación, las categorías
establecidas en este nivel se ordenan siguiendo un determinado principio <<jerárquico». Esto
es visible en la variable «calificación de la situación política», donde las posibles calificacio-
nes (o valores) se presentan ordenadas de mayor a menor calificación, desde «muy buena»
hasta «muy mala». Si optamos por el orden de mejor a peor calificación, tenemos que la
calificación de «muy buena» es mejor que Ja de «buena» y que esta es mejor que «regular»,
que es algo mejor que «mala», y esta, a su vez, mejor que «muy mala». Todos los valores se
ordenan mutuamente. En Ja variable «edad» también observamos un orden en todos los valo-
res. Generalmente la «edad» presenta sus valores ordenados de menos a más años cumpli-
dos. Y así vemos que los que tienen 18 años tienen menos edad que los que tienen 23 , y que
el que tiene 67 años tiene más edad que el que tiene 34, etc. La «edad» es una variable que
nos ordena la población, como también lo es en nuestro ejemplo la «calificación de la situa-
ción política». No podemos decir lo mismo del «sexo», en donde estrictamente no podemos
decir que los que son «hombres» presenten más sexo que los que son «mujer», o la inversa.
En el «sexo» (como categoría estadística clasificatoria) tan sólo podremos decir que una
«mujer» no es un «hombre», o que ser «mujer» es algo distinto que ser «hombre», y nada
más.
Al tercer tipo de distinción posible entre las unidades de una población (por medio de
una variable) lo llamábamos, de manera tradicional, medición, medición en sentido estricto.
¿Por qué en sentido estricto? Porque aquí no nos referimos ya a la medición en un sentido
laxo, vinculada a procedimientos de distinción y clasificación. En el caso de la medición en
sentido estricto contamos con una unidad de medida que conforma una escala. De tal manera
que los valores establecidos con esta escala se definen por el número de veces que estos
contienen esa unidad de medida. En nuestro ejemplo, sólo con la «edad» estamos ante una
medición en sentido estricto. Por ello sabemos que los individuos que tienen 23 años tienen
5 años más que los que tienen 18, y los que han cumplido 34 tienen 31 años menos que los
que de 65. En una variable de este «nivel» de medición conocemos la distancia exacta que
hay entre cada uno de los valores. O lo que es lo mismo, con una variable de este tipo, cono-
Capítulo 111. Recogida y tratamiento de datos 33

cernos la distancia exacta entre dos unidades poblacionales. Sabremos no sólo que un indivi-
duo tiene más (o menos) edad que otro, sino cuánta más (o menos) tiene, siendo el 'año' la
unidad que nos «mide» la distancia entre una edad de otra. En la «calificación de la situación
política» sabemos que la calificación de «muy buena» es más alta (o mejor) que la califica-
ción de «buena», pero no llegamos a saber la distancia exacta que separa «buena» de «muy
buena», ni si es la misma que separa «buena» de «regular», o «mala» de «muy mala», ni
siquiera podemos saber si todos los individuos encuestados consideran de igual modo la dis-
tancia que separa una categoría de otra: para unos la distancia entre 'buena ' y 'muy buena'
puede ser mínima, pero para otros puede ser muy grande; como esta distinción entre catego-
rías clasificatorias sólo llega hasta el nivel «ordinal», tan sólo sabemos que cada una de estas
categorías califica mejor o peor que otra la situación política.

Tenemos, como hemos visto, distintos tipos de «escalas de medida» (considerando este
concepto en un sentido muy amplio), «escalas» que vienen determinadas por el tipo de rela-
ciones que pueden establecerse entre las clases que definen los valores de una variable. Se
habla del nivel (máximo) de medición de una variable, según si la característica que estemos
observando permite sólo la clasificación, la ordenación, o además de las dos anteriores la
medición .

2.1. Nivel nominal


El nivel más básico de medición de una variable es el nivel nominal. Lo encontramos en las
ariables que sólo permiten hacer meras clasificaciones de las unidades de una población.
Encontramos un nivel máximo de medición nominal en aquellas variables cuyos valores sólo
distinguen a los elementos de la población entre sí, sin más. En estas variables sólo podemos
decir que un valor es distinto de otro.

Como ejemplos de estas variables, si nos centramos en poblaciones de individuos huma-


nos, tenemos el «sexo» (que distingue entre «hombres» y «mujeres»), la «provincia de naci-
miento» (que distingue entre «A Coruña», «Zaragoza», «Murcia», «Burgos», etc.), el «país
de origen de la población extranjera» en España (que distingue entre «Ecuador» , «Alema-
nia», «Rumanía», «Reino Unido», «Marruecos», etc.), el «partido al que se votó en las últi-
mas elecciones generales» (que distingue entre «PP», «PSOE», «IU», «CiU», «PNV»,
UPyD», etc.), el «estado civil», la «religión que se profesa», ...

Una escala nominal nos clasifica Jos elementos de una población. Clasificar, en sentido
"" tricto, un conjunto poblacional es introducir relaciones de equivalencia entre sus elemen-
o . A todos los elementos de una misma clase (de equivalencia) se les puede atribuir una
identidad. En este sentido, matemático, un «hombre» sería igual a otro «hombre» y una per-
-ona «nacida en Zaragoza» sería idéntica a otra «nacida en Zaragoza», de tal modo que po-
dríamos sumar entre sí todos los elementos de cada clase, y establecer el tamaño de cada una
e ellas, esto es, el número de elementos que contiene. Pero eso ya es contar, algo posterior a
a operación de medición clasificación, que sólo tiene en cuenta las relaciones entre las cla-
se y no el tamaño de cada una de ellas . La medición-clasificación de elementos (o unida-
d.e ) de una población es una tarea previa a la contabilidad de estos.
34 Estadística para la investigación social

Las clases básicas generadas en el nivel nominal son «clases de equivalencia». Una rela-
ción de equivalencia, como la que establecen entre sí los elementos de una misma clase,
presenta una serie de propiedades algebraicas: (1) es reflexiva (cada elemento es idéntico a
sí mismo: a = a), (2) es simétrica (si un elemento es idéntico a otro, éste lo será también al
primero: si a = b, entonces b = a), (3) es transitiva (si un elemento es idéntico a otro, y este
lo es a un tercero, el primer elemento será también idéntico a este último: si a = b y b = c,
entonces a = c).
Las variables de tipo nominal, cuyo nivel máximo de medición es nominal, también son
llamadas «cualitativas», ya que el atributo en cuestión que se asigna a cada una de las clases
no es numérico. En estas variables nominales los valores no expresan la cantidad poseída de
un determinado atributo, ya sea en términos relativos («más consideración positiva de la si-
tuación política», «menos nivel educativo»,... ) o absolutos («54 años» de edad, «2 hijos»,
«85 metros cuadrados» de vivienda habitual...): esto sólo lo harán las variables cuantitativas
(ordinales, en el primer caso, y de intervalo, en el segundo). Las variables nominales sólo
expresan la posesión o no de un determinado atributo (por ejemplo: ser «mujer», haber «na-
cido en Huelva», estar «casada», haber votado al «PP» en las últimas elecciones, ... ), en don-
de no cabe cantidad alguna.

2.2. Nivel ordinal


Algunas de las características observadas en una población a través de variables adecuadas
al objeto y a la finalidad de la investigación permiten, además de distinguir entre sí grupos o
elementos de la población, ordenar estos grupos o elementos. Estamos ante variables que
presentan un nivel de medición mayor que el nominal. En las clasificaciones producidas en
este nivel de medición, con este tipo de «escalas», escalas ordinales, encontramos un orden
en las clases resultantes. Todas las categorías clasificatorias en este nivel presentan un orden,
se encuentran ordenadas, según la cantidad relativa que posean de un atributo. Algunos auto-
res consideran que sólo a partir de estas escalas podemos hablar de medición, ya que supo-
nen (Jo que no se daba en las nominales) cierta linealidad de las categorías: el establecimien-
to de una dimensión, en la que observamos una diferencia cuantitativa, aunque sea sólo en
términos relativos (de más o menos cantidad de un atributo o una propiedad).
Entre los elementos clasificados en distintas «clases ordinales» se dan relaciones de or-
den, que verifican las siguientes propiedades algebraicas: (1) irreflexiva (un elemento no
puede ser mayor o menor que él mismo), (2) asimétrica (si a> b, entonces no podremos
decir que b > a) y (3) transitiva (si a > b y b > c, entonces a > c). En este nivel , entre las
distintas clases se establece una relación de orden. A diferencia de las operaciones que gene-
ra un nivel nominal, que son operaciones entre elementos (que producen «clases de equiva-
lencia»), aquí, en el nivel ordinal, hemos pasado a realizar operaciones entre clases, generan-
do un «orden de clases». De ahí la superioridad lógica (de medida) del nivel ordinal sobre el
nominal.
Varia bles de este tipo son: la «calificación de la situación política» (que, como hemos
visto, presenta el siguiente orden en las clases, de más positiva a más negativa, «muy bue-
na», «buena», «regular», «mala» y «muy mala»), el «nivel de estudios» (que de menor a
Capítulo 111. Recogida y tratamiento de datos 35

mayor, ordena a la población en estas categorías: «sin estudios», « estudios primarios», «es-
tudios secundarios», «estudios superiores», «estudios de postgrado»), Ja «clase o estatus so-
cial» de autoubicación (ordenada en «alta», «media alta», «media-media», «media baja»,
«baja»), ... Las ordenaciones que se establecen en estas variables son algo arbitrarias. En
estas escalas, para medir-clasificar lo mismo, podemos contar con, por ejemplo, cinco cate-
gorías, o siete, o tres, o simplemente dos. El número de estas categorías depende del asunto
investigado y de la discriminación «real» producida por las categorías. Así, por ejemplo, si
las clases sociales de autoubicación las reducimos a tres («clase alta», «clase media» y «cla-
se baja»), la mayor parte de la población se sitúa en la «clase media», por lo que la clasifica-
ción establecida de esta manera nos diferencia muy poco a la población. Además si tenemos
un número suficiente de categorías o clases en las que registramos a la población siempre
podremos reducirlo a un número menor: el registro, por ejemplo, de la «clase social» de
autoubicación en cinco categorías siempre nos permitirá, en el análisis, su reducción a 3. Sin
embargo, nunca podremos hacer lo contrario: si registramos sólo 3 categorías nunca podre-
mos realizar el análisis para un número más elevado. Este es el tipo de variables producidas
por las escalas de actitud, de gran uso en la investigación sociológica, en las que se mide el
grado de aceptación (o rechazo) de algo (un colectivo, una acción, etc.): estas escalas van de
una aceptación máxima a una aceptación mínima o de una aceptación máxima a un rechazo
máximo, pasando por un punto intermedio.
En este tipo de variables que presentan un nivel máximo de medición «Ordinal», los va-
lores se marcan con números, que también tienen algo de arbitrarios (como el número de
categorías en que se desglosan). Esta es la razón por la que, por ejemplo, el orden entre una
aceptación máxima y una mínima de algo, si utilizamos cinco categorías, podría ir en unos
casos desde un 5 hasta un 1, y en otros casos este orden podría oscilar entre un + 2 y un - 2,
utilizando escalas de números enteros, escalas que son en cierto sentido algo arbitrarias. Así,
cuando queremos «medir», por ejemplo, la «actitud hacia las grandes diferencias de ingre-
sos» por el grado de acuerdo con la expresión «las grandes diferencias de ingresos son nece-
sarias para la prosperidad del país» y este acuerdo se establece en cinco categorías («muy de
acuerdo», «algo de acuerdo», «ni de acuerdo ni en desacuerdo», «algo en desacuerdo» y
«muy en desacuerdo»), podemos asignar a estas categorías los números 5, 4, 3, 2 y 1, respec-
tivamente, de Ja misma manera que podemos asignarles los números + 2, + 1, O, - 1 y - 2
ó + 4, + 2, O, - 2 y - 4 ó 12, 10, 6, 2 y O. Lo único que marcan estos números es una
diferencia relativa en la posesión de una determinada propiedad o atributo. Si dejamos de
considerar estos números en su concepción ordinal y los consideramos como números, como
cantidades absolutas (numéricas) de algún atributo estaríamos convirtiendo una variable or-
dinal en una numérica, estaríamos subiendo un peldaño más en las escalas o niveles de medi-
ción.

2.3. Nivel de intervalo


Cuando no sólo distinguimos las distintas clases que componen una población, sino que ade-
más podemos ordenar estas clases según la cantidad mayor o menor que posean de una de-
terminada propiedad y además podemos conocer con exactitud numérica la diferente canti-
dad de esa propiedad que hay entre una clase y otra, en ese caso estamos ante una escala de
36 Estadística para la investigación social

intervalo. Una variable constituye una escala de intervalo si en ella conocemos las distancias
exactas que hay entre todos sus valores, es decir, si podemos conocer con precisión numérica
el intervalo existente entre dos valores cualesquiera de esta variable, esto es, la distancia que
separa un valor de otro.
En este tipo de escalas contamos con una unidad de medida, de la que carecíamos en las
escalas inferiores. Esta unidad es la que nos mide la diferencia exacta entre un valor y otro
de la escala. Iterando esta unidad conseguimos medir con exactitud una determinada propie-
dad o atributo de un objeto, de un elemento de la población. Así, por ejemplo, podemos fijar
la «edad» de un individuo adoptando el «año» cumplido como unidad de medida, como algo
que se repite un determinado número de veces en ese individuo y nos da la medida exacta de
su 'edad' . Al contar con una unidad de medida, muchos autores, consideran que sólo con
escalas de este tipo podemos realizar auténticas mediciones. Por eso las operaciones de me-
dición realizadas con estas escalas se suelen llamar mediciones en sentido estricto, mientras
que las que llevaban a cabo las escalas ordinales las podemos llamar ordenaciones y las de
las escalas nominales era meras clasificaciones o distinciones. Por eso en programas de aná-
lisis estadístico de datos como el SPSS o el PSPP sólo las variables que constituyen escalas
de intervalo se denominan «escalas» (escalas en sentido estricto).
Si nos centramos sólo en poblaciones humanas, ejemplos de variables de intervalo son,
siempre que se detallen numéricamente todos los valores que asumen los individuos de la
población considerada, la «edad» (en «años» cumplidos), los »ingresos mensuales brutos»
(en «euros»), el «tamaño de la vivienda habitual» (en «metros cuadrados»), el «número de
hijos», el «tamaño del municipio de residencia» (en «número de habitantes»), la «distancia
entre domicilio y trabajo» (en «kilómetros»), el «consumo de televisión » (en «número de
horas diarias» que se ve la televisión).
En las variables de intervalo conocemos la distancia exacta entre un valor y otro de la
variable. Así sabemos que entre un individuo que tiene 20 años y otro que tiene 40 hay 20
años de diferencia (el primero tiene 20 años menos que el segundo), que entre los ingresos
de alguien que gana al mes 1.234,67 euros y los de alguien que gana 2.145,80 euros hay
911 ,13 euros de diferencia (la segúnda persona gana 911 ,13 euros más que la primera).
Hablamos de variable de intervalo cuando el máximo nivel de medición que encontra-
mos en ella es el de intervalo. Ya que una variable de intervalo también presenta un nivel de
medición ordinal (si nos fijamos en la «edad», una persona que tiene 20 años tiene menos
edad que una persona que tiene 40) y un nivel de medición nominal (una persona que tiene
20 años tiene una edad distinta que de 40). A medida que vamos subiendo de nivel de medi-
ción, cada uno de ellos contiene al anterior.
Cuando agrupamos valores de una variable de intervalo y así generamos categorías de
valores agrupados, lo que estamos haciendo es convertir esa variable de intervalo en una
variable ordinal. Es lo que hacemos si la «edad» (en años cumplidos) de los individuos de
una población de más de 15 años la agrupamos en distintos tramos de edad, considerando
que estos «grupos de edad» pueden tener comportamientos más o menos homogéneos y con-
vertimos la variable original, de intervalo, en otra, ordinal, constituida por cinco grupos de
edad: «menores de 30» años, «de 30 a 44» años, «de 45 a 64» años, «de 65 a 79» años, y
Capítulo 111. Recogida y tratamiento de datos 37

«mayores de 79» años. Esta edad presentada en grupos es una variable ordinal: los grupos
están ordenados de menor a mayor edad.
Una escala de intervalo, en sentido estricto, cuenta con una unidad de medida (que nos
da la cantidad de una propiedad que posee cada elemento de la población) pero no cuenta
con un cero (no cabe la ausencia absoluta de la propiedad sometida a medición). En realidad,
apenas existen escalas de intervalo en sentido estricto. Una escala de intervalo sería la escala
Celsius para medir la temperatura de un objeto, que establece un cero arbitrario, que no es un
auténtico cero, ya que OºC no nos indica la ausencia de temperatura en un objeto.
Generalmente todas las escalas de intervalo con las que trabaja un sociólogo cuentan con
un cero absoluto, que marca el origen de la escala.
Y si tenemos un cero absoluto, una ausencia de una determinada propiedad que configu-
ra una clase de elementos de la población, la de aquellos que no presentan esa propiedad (y
que puede ser una clase vacía) 2 , entonces estamos hablando de una escala de razón. Es muy
difícil que una escala de intervalo no sea a su vez una de razón. Es por esto que podemos
considerar la escala de intervalo como la que define el nivel máximo de medición de una
variable.
Con estas escalas podemos conocer no sólo la distancia entre los distintos valores de la
escala (que era lo propio de las escalas de intervalo) sino también el número de veces que
cada uno de los valores establecidos contiene a otro, es decir, la razón de un valor en rela-
ión a otro: el número de veces que un valor es mayor que otro. Así, por ejemplo, una perso-
na que tiene 40 años tiene el doble de edad que uno de 20, y el que gana 2.145 ,80 euros al
mes gana 1,74 veces más que el que gana 1.234,67 euros, y el que reside en una vivienda de
40 metros cuadrados reside en una vivienda 4 veces más pequeña que el que lo hace en una
de 160 metros cuadrados.
Una escala de razón es también, como es lógico, de intervalo, y ordinal y nominal, al
mismo tiempo.
Resumiendo, en una variable nominal lo máximo que podemos decir es que un valor es
distinto de otro. En una ordinal sabemos que un valor es mayor o menor que otro. En una de
intervalo conocemos la distancia exacta que separa un valor de otro. Y en una variable de
razón conocemos el número de veces que un valor contiene a otro.
Para terminar este apartado hemos de realizar de modo muy resumido una muy impor-
tante advertencia sobre la medición. A veces se tergiversa una realidad empírica concreta
para someterla a un modelo matemático que la haga susceptible de medida. El lenguaje de la
medida, advierte Cicourel 3 , nos obliga a emplear clases de equivalencia que pueden tergiver-
sar arbitrariamente tanto las realidades empíricas a las que se aplica la medida como los
conceptos teóricos que se intentan medir. Siempre hay que determinar (empíricamente) la
adecuación entre el modelo matemático y aquello que este intenta representar.

2
Por ejemplo, en los barómetros mensuales del CIS , la población se define operati vamente como el conjunto de
españoles de ambos sexos de, 18 años o más y que residen en España en el momento de reali zarse la encuesta.
3
Cicourel, A. V.: El método y la medida en Sociología (1963], Madrid , Editora Nacional, 1982, pág. 56.
38 Esta dística para la investi gación social

3. De la observación al registro
Muchas veces necesitaremos generar nuestros propios datos , realizando las observaciones de
las características de una población o de una muestra de esa población. La recogida de la
información requiere una planificación que comienza por definir Ja población, decidiendo
después las características que se van a observar, y definir operativamente esas característi-
cas como valores de una variable que permita el tratamiento estadístico.

Después utilizaremos hojas de registro o cuestionarios para anotar la información de ca-


da caso. La forma más comúnmente utilizada para la recogida de datos será un cuestionario
en el que se formulan preguntas cuyas respuestas son anotadas. Las preguntas pueden formu -
lar de forma oral o por escrito, administrarse en entrevista personal , por correo, teléfono o
internet, pero las respuestas siempre se registran de forma tabulada y codificada.

Podemos ver un ejemplo de cuestionario en el utilizado para el registro de las respuestas


a las preguntas de los barómetros de opinión, donde se recogen los datos sobre las diferentes
cuestiones planteadas ya se trate de un hecho objetivo como ¿cuántos años tiene? o sobre
una cuestión de opinión que recoja una valoración subjetiva como ¿considera Ud. que la
situación económica es «mejor», «igual» o «peor» que la del año pasado? La pregunta tam-
bién puede referirse al grado de conocimiento sobre algo o a Ja intención de actuar de deter-
minada forma. Pero a veces las posibles respuestas posibles diseñadas no satisfacen la co-
rrespondencia entre las categorías definidas y Jos puntos de vista del entrevistado, que puede
percibir que ninguna de las respuestas posibles se corresponde con su forma de ver. En esos
casos se establece una categoría para incluir a los encuestados que no responden a una pre-
gunta. En algunas de las variables emplearemos la categoría de «No sabe» (NS) o «no con-
testa» (NC), que deberán tratarse de forma específica4 • En ocasiones puede ser útil elaborar
preguntas «abiertas» en las que el entrevistado responda en sus propios términos y lenguaje,
si bien deberán codificarse y clasificarse después en un número limitado de categorías según
algún criterio.

Ejercicio 1
Lea detenidamente el cuestionario del CIS de la Imagen 1 y determine el nivel de medición que
se ha empleado para las variables correspondientes a las preguntas P5, P7 y P9 del cuestio-
nario.

Los datos recogidos habrán de ser codificados estableciendo previamente los distintos
valores que cada variable puede tomar y por tanto las categorías de su clasificación. Antes

4
Los que no tien en ingresos, los que no tienen hijos, aquellos que no ven la tele, los que no tienen vivienda
(que podemos decir que tienen una vivienda de O metros cuadrados), los que están naciendo (y no tienen edad), los
que habitan en un municipio sin habitantes, etc.
Capítulo 111. Recogida y tratamiento de datos 39

Imagen 1.
Cuestionario empleado en los barómetros del CIS.

CIS
Centro de Investigaciones Sociológ icas
Departamento de Investigación

DICIEMBRE 2008

Comunidad Autónoma (10)(! 1) N' ESTUDIO N' CUESTIONARIO

2. 7 8 1
Provincia (12)(13)
(1)(2)(3X4l (5)(6)(7)(8)(9)

Municipio (14)(1 5)( 16)


{nombre municipio)

Tama~o de hábitat (17)(1 8)

Distrito (19)(20)

Sección (21 )(22)(23)

Entrevistador (24)(25)(26)(27)

Buenos días/tardes. El Centro de Investigaciones Sociológicas está reallz_ando un estud io sobre temas de interés general. Por este motivo solicitamos
su colaboración y se la agradecemos anticipadamente. Esta vivienda ha sido seleccionada al azar med iante métodos :;ile;atorios . Le 9;m1ntizamos e l
absoluto anonimato y secreto de sus respuestas en el más estricto cumplimiento de las Leyes sobre secreto estadistico y protección de datos
persona les . Una vez grabada la infonnación de forma anónima, Jos cuest ionarios individua les son destru idos inmed iatamente.

P.1 En primer lugar que rría preguntarle si tiene Ud .. . P.6 ¿Cuál es. a su ju icio. el principal problema que existe actualmente
en Espafla? ¿Y el segundo?¿ Y e l tercero?
- La naciona lidad espar'lola ........... .. .. 1 (28}
- La nacionalidad espaflola y otra . 2 (33)(34)
-Otra nacionalidad ..................... .... 3 --+FIN DE LA ENTREVISTA
(35)(36)
P.2 Refiriéndonos a la situación económ ica general de España , ¿cómo
la calfficarfa Ud .. muy buena , buena . regular, mala o muy mala? (37)(38)

- Muy buena .1 N.S. ... 98


- Buena . 2 N.C. .. ......... . 99
- Regular ........... 3
- Mala.. .. 4 (29) P.7 ¿Y cuál es el problema que a Ud., personalmente, ~ afecta más?
- Muy ma la . 5 ¿Y el segundo? ¿Y el tercero?
·N.S. 8
· N.C ................ 9 (39)(40)

P.3 Y, ¿cree Ud. que dentro de un aOo la situación económica del pais (41 )(42)
será mejor, igual o peor que ahora?
(43)(44)
- Mejor .............. 1
- Igual . .. ... 2 N.S............ .... 98
- Peor . .. ...... 3 (30) N.C ................ 99
-N.S ............. 8
· N.C. .. ...... 9 P.8 En la actua lidad , ¿se siente Ud. muy satisfecho/a, bastante
satisfecho/a , bastante insatisfecho/a o muy insatisfecho/a con la vida
P.4 Refiriéndonos ahora a la situaci6n oollttca general de Espafla , que lleva?
¿cómo la calificaria Ud .. m uy buena, buena , regular. mala o muy mala?
- Muy satisfechota .. .. ............. . .................. 1
- Muy buena ...... . 1 - Bastante satisfecho/a .. 2
- Buena . 2 - (NO LEER) Ni satisfecho/a ni insatisfecho/ a .... 3
- Regular ........... 3 - Bastante insatisfecho/a . . .............. 4 (45)
-Ma ta .............. 4 (31 ) - Muy insatisfecho/ a . .. ............................. 5
- Muy mala .. 5 ·N.S. 8
-N.S. 8 -N.C. 9
-N.C. ............... 9
P .9 (,Podr ia decirme en qué tipo de sodedad le gustaria más vivir?
P.5 Y, ¿cree Ud. que dentro de un año la situación política del pa is será
mej or, ig ual o peor que ahora? - Una sociedad con personas de diferente origen, cultura y
re ligrón .
- Mejor ............ 1 - Una sociedad en la que la gran mayoría de la gente tenga (46)
- Ig ual . . 2 el m ismo origen , cultura y relig ión . 2
- Peor .. . .. 3 (32) -N.S. .. ......................................... 8
-NS ...... .. ..... 8 -~~ 9
- N.C 9
40 Estadística para la investigación social

del proceso de recogida de datos se han definido operativamente las características en forma
de variables, y las diferentes modalidades de Ja característica como valores de la variable,
pero para registrar los datos también se emplea un sistema de codificación que asigna un
código, generalmente numérico, a cada valor de las variables. Por ejemplo, en la variable
Comunidad Autónoma asignaremos los valores del 1 al 17 a las Comunidades por orden
alfabético, y los códigos 18 y 19 a las Ciudades Autónomas de Ceuta y Melilla, y en la
variable sexo, asignaremos el valor 1 a Jos hombres y 2 a las mujeres. Con la codificación
del cuestionario se pretende evitar la ambigüedad en el tratamiento de las respuestas, esta-
bleciendo de forma teórica la clasificación de las diferentes respuestas que pudiéramos en-
contrar.
Al mismo tiempo, para que sea posible el tratamiento informático de los datos de los
individuos y las variables, deben disponerse en forma de matriz con filas y columnas de
números. Y para eso es necesario asignar a las variables un número de dígitos estableciendo
las columnas que ocuparán en la matriz de datos. Por ejemplo, para la edad, reservaremos
tres dígitos que se corresponderán con tres columnas de la matriz, y para el sexo sólo necesi-
taremos un dígito. En la Imagen 1 que presenta el cuestionario empleado en un barómetro
del CIS, podemos ver cómo se han tabulado los datos asignando las columnas que ocuparán
en la matriz de datos mediante los números entre paréntesis que aparecen junto a cada
variable. También podemos ver el código numérico asignado a cada respuesta posible.
Los datos recogidos mediante el cuestionario son grabados en una matriz de datos. Si
observamos la matriz de datos de un barómetro del CIS en la Imagen 2, sólo veremos filas y
columnas de números. Dicha matriz suele estar grabada en formato de archivo de texto sepa-
rado por tabuladores.
Los datos del barómetro están contenidos en esa matriz, pero para su lectura es necesario
localizar en la matriz las columnas que contienen la información de las variables y los códi-
gos asignados a los valores de las variables. Los datos estadísticos que proporcionan las in-
formaciones de los individuos sin agregar suelen llamarse microdatos, y van acompañados
de un listado de códigos para cada variable y la referencia de las columnas de la matriz de
datos donde se localizan, también se acompañan de las preguntas del cuestionario empleado
para recoger los datos.
Si observamos la matriz del Barómetro del CIS de la Imagen 2, podemos ver que en cada
fila, los 9 primeros dígitos están reservados a la identificación del estudio y el individuo que
responde al cuestionario, es decir, las 4 primeras columnas empezando por las izquierda son
el número de estudio n. 0 2781 y las S columnas que siguen se reservan para la numeración
del individuo encuestado. En las columnas 10 y 11 se registra la Comunidad Autónoma con
un código numérico de dos dígitos, en las columnas 12 y 13 se han registrado las provincias
con un código de dos dígitos numerados del 1 al Sl. En las columnas 14 a 16 de la matriz se
han registrado los municipios recogidos según una nomenclatura 5 .

5
Dependiendo de Ja legislación de cada país, habrá diferentes categorías según se contemple Ja posibilidad del
di vorcio, las parejas de hecho o Ja poligamia. En algunas legislaciones como la chilena se considera ser padre,
madre, hijo o hija como una de las categorías del estado civil.
Cap ít ulo 111. Recogida y tratamiento de datos 41

Imagen 2.
Datos del barómetro del CIS 2781 en formato de texto separado por tabulaciones ..

Arctwo E6ción Formato \'et .iyuda


2 78100548 8 9 010 o o 015332 1 4 7 129 2244'44448200 0 00000000 281111213233211 ...
278100549 8 9 010 o o 013222 s 4 1 8 2233333338200000000000 12111123322 3112
2 78100550 8 9 010 o o 015343 11524 1 81332322422281 7 22111822 3233233.
2 78100551 8 9 010 o o 0152.:12 4 8 8 6 3288.l.44448200000000000 2811112 3 38882 38.
278100552 8 9 010 o o 01.133221 711s 6 2144.:444341 7 12111132 3323222.
278100553 8 9 010 o o 015252 1 4962022 22384333381 7 231111332222222 .
2 781005SA 8 9 010 O O 015353 1 3 6 8 4288833338200000000000 221111828888888.
278100555 8 9 010 o o 013322 1 722 722 21223328281 7 2211112 3222 3221.
27 8100556 s 9 5950 o o 015389 11324 1 3222232239200000000000 2211112 333 3323 3.
275100557 8 9 5950 o o 015323 1 s 7 1 7 32444444441 7 3211112 333222 3 3
275100558 8 9 5950 o o 015333 4 11898 22223332381 7 18111222 3333233.
278100559 8 9 5950 o o 014 233 3 1 8 8 1 321323333391 7 2211112 33 33 32 33:
278100560 8 9 5950 o o 015333 1 518 8 21222222291 7 221111233333333 .
278100561 8 9 5950 o o 015353 1 4 99 2123322239200000000000 221111133383233 .
2'8100562 8 9 5950 o o 015353 1 8 499 31333322381 7 2211122 32832233.
2 78100563 8 9 5950 o o 015343 8 113 8131831282232291 7 1211112 333 33832 .
278100564 8 9 5950 o o 013343 1 716 1 71631282331391 338118123333223.
2 78101958 lJl 030 o o 013332 8 9 1 8 9 112232322381 7 2211113332222 32.
27 6101959 141 030 o o 015222 1 8 1 s 213224 32281 1 2211112 33383232
27 8101960 141 030 o o 015253 1 822 8 1 531222222221 7 231112 2 3 33222 33:
2 76101961 141 03 0 o o 01.ClSS 1 3 l 8 2288888888200000000000 921111233333238.
2;" 8101962 141 030 o o 015888 8 1 8 7 12 44 2442481 221111138323222 .
2 78101963 141 030 o o 013388 8 1 8 1 21344444.¡91 22111122 3222233.
2;"8101964 141 030 o o 015158 1 6 3 1 21222344291 231111233233232.
2 78101965 141 030 o o 01.4288 1 3 7 7' 8 22232483891 32111833 332 3222.
278101966 141 030 o o 015332 813 1 8 11311223423291 7 331111233182232:
27810196 7 lH 031 O O 015353 1 s 322 8 2128223228200000000000 24111122 3 3 33232:
278101968 l·H 031 O O 013322 1 6 1 6 21333333281 7 121111233332232:
2 78101969 031 o
141 o 015341 2 1 8 8 1 41222323-18200000000000 241111222223222:
27 81019 70 031 o
141 o 015353 8 1 7 s 1 728212 .322291 7 331111233333133 .
2 78101971 031 o
141 o 015342 1 4 1 483l282328200000000000 241111332211211 :
278101972 9160 o
141 o 015352 1 729 1 72931113211391 7 1411112 3222222 2:
2 78101973 9160 o
141 o 0-1 3253 824 8 2943J444 1 9200000000000 211111838233911:
278101974 9160 o
141 o 013831 1 8 7 7 111B224 1 91 7 13111123 32 32122:
278101975 9160 o
141 o 013 332 1 3 3 213 3 B2 3291 2411114 32 322122
278101976 9160 o
141 o 014232 1 4 22 21214323391 / 23111123 33 332 32:
2781019i7 9160 o
141 o 01333398 97 323284881 9200000000000 149999812822588.
21s10197S 1.n
9160 o o 014342 8 8 12282112291 7 132111122232233
278101979 9160 o
1-11 o 013399 1 97 21223322291 7 221111123333232
2 78101980 9160 o
l.:H o 013222 1 3 1 9122222229200000000000 221111133233233
21s1019a1 1.n 9160 o o 015332 1 419 1 312ll l2219200000000000 2211111333322 33:
278101982 141 030 o o 015252 8 8 21223333381 7 121111232?82222:
278101983 141 030 o o 015358 818 22 2133343439200000000000 131111312322233'
2'810198" 141 030 o o 01 5242 s 4 8 28333333381 7 121118332222233.
2"6101965 14 1 030 o o 013388 1 4 1 22223333281 7 22111122 33 ;222 3 3:
2'8101986 141 030 o o 014332 8 1 1 21223322281 7 131111233333233.
2i8101987 141 030 o o 01323298 12 2133333338200000000000 281 111888888588.
27 8101988 141 030 o o 01~288 1 8 4 s 2833333338200000000000 131 1112 333332 3 3.
27 8101989 141 030 o o 013888 8 4 9 2122332329200000000000 181 11122 33332 3 3.
278101990 141 030 o o 015888 1 1 4823332338200000000000 321111233322233
27 8101991 1 41 O•n O O 015352 12018 8 l 2212 2123822 00000000000 2 31111233333223"
2 78101992 141 0 ..: 1 o o 015242 1 821 1 82021131232.:!21 7 2?1118333323233 '
2 78101993 141 oi:i o o 01!343 1 8 7 1 8 732332233221 131118332122222:
2 78101994 141 º'l o o 014342 81813 8 1 21123332391 3411112333332~

En la columna 17 el tamaño del hábitat se registra en un solo dígito y utilizan los si-
guientes códigos numéricos del 1 al 7:

1 - Menos o igual a 2.000 habitantes


2 - 2.001a10.000 habitantes
3 - 10.001 a 50.000 habitantes
4 - 50.001 a 100.000 habitantes
5 - 100.001 a 400.000 habitantes
6 - 400.001 a 1.000.000 habitantes
7 - Más de 1.000.000 habitantes

Y así sucesivamente se asignan códigos y posiciones de tabulación a todas las variables


correspondientes a las preguntas del cuestionario y sus respuestas. La matriz de n filas y m
columnas, en la que los individuos están situados en las líneas y las variables en las colum-
nas, puede ser leída posteriormente mediante un paquete estadístico utilizando una sintaxis
que contiene las posiciones y los códigos de las variables así como los valores que toman.
42 Estadística para la investigación social

Ejercicio 2
Obtenga el listado de códigos del barómetro del CIS de diciembre de 2008 (estudio 2781) . Para
ello acceda a la web de la institución, siga el enlace «Acceso li bre y gratuito a los ficheros de
datos del CIS », y descomprima el archivo comprimido «fichero de datos», donde encontrará un
PDF con los códigos.

Como podemos ver en la Imagen 3, la lectura de la matriz de datos por un paquete esta-
dístico asigna las celdas de la tabla a los datos de la matriz, permitiendo visualizar los nom-
bres de las variables y los valores que toma en cada individuo. Las respuestas al barómetro
pueden ser ahora fácilmente tratadas estadísticamente y permite realizar los cálculos o recla-
sificaciones de los datos con las respuestas de las 2.487 personas entrevistadas.

Imagen 3.
Vista de la lectura del barómetro 2781 del CIS tras la lectura de los datos
por un software o paquete estadístico ..
ll!'!lill!l!!mll:limmliZ!lm!li!!!l........................111111111111::::::::::-::--::::::::::::-'.'~~-d 6~

-
E.. ~ yt:-libe:~ ~s
'"" Qat• !rarisform t!<>P
):1ew

¡;; , ,...
~ases 'r~s
¡:)_¡

~ y,.~ t.t.X -&°


1 s.~ 1 GoToc.,. 1 ' lnsertCMM lnsertl.Vau.ll* j Splt Fole w.,µc.... 1 value
11 ESH.C. f27Blf

ESTLD J et.ES J CCAA 1 FROY 1....., 1 T~ 1AAEA1 D!STR l SECCON 1ENTREY 1 Pl


1 P2 1 P3 1 .... 1 P5
1 P601
I~
1 2781 ,.. a 9 o 1 o o o o
-
1 5 3 3 2 1

.
2
2781 5'9 a 9 o 1 o o o o 1 3 2 2 2 a
3 o o o o o 1 5 3 3 1
2781 550 8 9 1
-
• 2781 551 8 9 o 1 o o o o 1 5 2
' 2 •
5
2781 552
• • o 1 o o o o 1
' 3 3 2
-
21

6 2761 553 8 9 o 1 o o o o 1 5 2 5 2 1

7
27$1 ,,, • 9 o 1 o o o o 1 5 3 5 3 1 1

• 2781 555
• 9 o 1 o o o o 1 3 3 2 2 1 1

• 2781 556
• 9 59 5 o o o o 1 5 3 a • 1 1
10
2781 557
• • 59 5 o o o o 1 5 3 2 3 1

11
2781 558
• 9 59 5 o o o
-
o 1 5 3
- 3 3 •
12 2781 559
• 9 59 5 o o o o 1
• 2 3 3 3
13 2781 560
• • 59 5 o o o o 1 5 3 3 3 1

11 2781 561
• • 59 5 o o o o 1 5 3 5 3 1
1

.
15
2761 562 9 59 5 o o o o 1 5 3 5 3 1

16
2761 563

,.,
• 9 59 5 o o o o 1 5 3 3
• 1

,,
17
2781
• 9 59 5 o o o o 1 3 3 4 3
1 ..:..1
1 •I

NoSpll

En la tabla, los valores de las variables están codificados y no son fácilmente identifica-
bles, por lo que es necesario asignarles etiquetas que nos permitan identificar fácilmente las
variables y sus valores en los resultados de los cálculos o tablas que elaboremos. En la Ima-
gen 4 pueden verse los mismos datos con las etiquetas de los valores, como la comunidad
autónoma, la provincia o las respuestas a las primeras preguntas Pl , P2, etc.
Capítulo 111. Recogida y tratamiento de datos 43

El paquete estadístico realiza listados, tablas y cálculos a partir de los datos de la matriz
original, pero también puede reclasificar los datos en otras categorías, codificando de otra
manera los valores de las variables, cambiar las etiquetas de los valores o crear nuevas varia-
bles, a partir de las originales mediante algún tipo de operación lógica o aritmética.
Imagen 4.
Vista de la lectura del barómetro 2781 del CIS con las etiquetas de los valores de las variables.
., ... '· ~il
I1ansform 80alYie l,!tli:ies
fie i:;dt ~;.,.
º"'ª ~ ~

~ llI f;i'. I ~
,'? f!r
8 Ql Jl ~ -t:
:;.,,. GoToCase Van.bies Foo
"""" 1 Inserte~ Inseit Vat~ble "'
Soli:Fie Weqt. Cases Select~~s
1:. °"""
vak.ietabels
ES"LQ j278ll

ESTUD 1 CLES 1 CCAA PROV


lf'l.NI TA/<11..fll 1AAJiA 1 DISTR 1SECOON1 ENTREY 1 PI P2 P3
1 id
2781 548 Ce5tla y leon lluro<" O Meíl0$ o q.ial a 2.000 liab(aotes Oa Mciond!tdad espenola Mvymal. Peor

2781 549 C~yleon 8ur90< O Menos o igual a 2.000 hablantes Oanacioo.:J"=iade--...panola Req.jao- IQU~

2781 550 Casth y Leoo Burgos O ~019Jola2.000hab«Ntes Oa Mcionalidód f'sp.?inol.!l Peo<

2781 551 Castky Leon Burgos O Menos o igual a 2.000 habi:antes 0.an.acior~espar.ola
"""'"""'
Muymc;la IQUól

2781 552 Ca~ilay Leoo Bugos O ~oiguala2.000habitantes O a n.:rc~d espanold Mala Peo<

2781 553 Casi:~ y Leon O Menos o igual a 2.000 habitantes O anacicrldllclad espanola Muy mola lQUól M

2781 C.Níla y Leoo


""""'
Burgos o Menos o il;J.Jcl .!i 2.000 Mbtarte-s Oa nac10r..:;lidad espanola
-~-

Muymai.>
55< Pea M

2781 555 Castla y Leoo o Meros o q.Jal a 2.(l((J habl.Yltes O e l'lbCIOMidad ~ Reoua. Peo<
-- - -- - --

Castila y Leon
-- -
"'""' IOOJOI a '1 0C000 habtnes Oci~espanola
----·-----·- -·- --
Muymai.>
2781 556 59
"'"°' Peo<

10 557 Cas.tla y le«i 100001 a 40C000 habl:artes 0 a MC~ espanold


2781 8urQOS 59 Muy- Peo<

11
Castilayleon l OOClOl a iOCroJ hM:litantes o-a naOOnaidad espanci!i Muy mala
""'~"
2781 556 59 Peo<

12 C.&Stla y Leon 100001 a 40000J habitlY'ltes O a~ espanola lQU~


2781 559 BurQOS 59 Malo
13 2761 Castla y LW1 lOOCíll a iOOOOO habitantes O cn.?ICioMlidMlespanda Peo<
560 59
,. 2781 561 C~ilayleon
"'"°'
Burgos 59 100001 a 40COJO Mbi:artes Oaoac~e--_.panola
"""'"""'
Muy- Peo< M

15 Castla y Leoo !{)()(()! a 40COOO habitantes O.a nadona&dad espanola


278 1 502 8urgos 59 Muy mal. Pe0< M

16 Castilayleon !OOO'Jl a 40Cú00 habttantes O<> MOOOahdad espanola PeO<


2781 563 Burgos 59 Muy-

17 2781 564 Castila y leon 59 !OO'JO! a 400COO hab«antes Oa nao:ooaid<!ld ~oki p""
"'"°' R09U"
.¡ 1 .¡.:Ji
I
Data View \'ari&lle lliew I
1 -¡¡¡;;;;¡¡-- W<>;#sdf NoSolt
1 '

Obsérvese que en la columna del municipio (MUN) figuran algunos casos con el código
de municipio «0», se trata de municipios pequeños para los cuales se ha ocultado el código
para preservar la privacidad de los datos de los individuos de la encuesta. Con ello se evita
que podamos identificar a personas concretas a partir de las informaciones de sus respuestas
a la encuesta.

4. Distribuciones de frecuencias
Una vez establecidas las clases o categorías de una variable haremos el recuento de los indi-
viduos que contiene cada categoría, y llamaremos frecuencia al número de casos en cada
una de ellas. Veamos un caso concreto: si tomamos la población española en el censo de
2001 y observamos el dato de la nacionalidad de cada individuo podremos clasificar a toda
44 Estadística para la investigación socia l

la población censada según su continente de nacionalidad. El continente de nacionalidad es


una variable nominal en la que se han establecido seis categorías, cinco correspondientes a
los continentes y una más para los casos de ausencia de nacionalidad. El recuento del núme-
ro de individuos en cada una de las categorías será la frecuencia. Así obtenemos la siguiente
distribución de frecuencias de la variable nominal «continente de nacionalidad»:
Tabla 2.
Distribución de las personas censadas en 2001 según su continente de nacionalidad.

Continente Número
de nacionalidad de personas

Europa 39.807.803
África 337.388
América 626.634
Asia 73.809
Oceanía 1.367
Apátridas 370

Total 40.847 .371


Fuente : INE.

En el caso de las variables con escalas de intervalo como la edad, llamaremos también
intervalos a las categorías definidas. Si hacemos categorías para clasificar a las personas
según su edad podemos agrupar las edades de diez en diez años, de cinco en cinco, etc., y
diremos que un individuo está situado en el intervalo de 20 a 25 años, o podremos saber el
porcentaje de la población que contiene el intervalo de O a 16 años.
Pero al establecer la amplitud de los intervalos es preferible que la agrupación responda
a criterios sociológicos y no sólo a una partición sistemática, por ejemplo, agruparemos la
edad de un conjunto de individuos en categorías relacionadas con hechos sociales como
la edad laboral, mayoría de edad, etc.

5. Criterios de agrupación de los datos


y tipos de frecuencias
Veamos ahora una variable de intervalo, tomando de nuevo los datos del censo de población
español de 2001 , en el que se ha obtenido la edad cumplida de cada persona censada en una
variable de intervalo. El registro de los más de 40 millones de personas censadas en España
sería inmanejable y difícilmente proporcionaría una idea clara de cómo se distribuye la edad
de la población sin recurrir a una distribución de frecuencias. El número de agrupaciones de
categorías para resumir las edades se mueve entre dos extremos poco prácticos: agrupar a
todas las edades en una sola categoría y hacer una categoría para cada edad concreta.
Pongámonos en este último caso, en el que se han agrupado a las personas de una misma
edad en la misma categoría, y mediante el recuento, sabemos cuántas personas censadas tie-
Capítulo 11 1. Recogida y t rata miento de datos 45

nen una edad concreta. En la siguiente tabla representamos la edad de toda la población es-
pañola en el censo detallando la distribución de las edades año a año ofrecidas por el Institu-
to Nacional de Estadística.

Tabla 3.
Distribución de edades del Censo de 2001 de año en año.

Edad Frecuencia (n;) Edad Frecuencia (n;) Edad Frecuencia (n;)

Ylenos de 1 409.749 34 676.608 68 424.297


1 394.110 35 668 .002 69 411.962
2 379.734 36 669.162 70 398.487
3 369.637 37 678.264 71 389.800
4 369.855 38 648.540 72 370.377
5 362.925 39 629.018 73 355.299
6 368.433 40 614.517 74 333.081
7 374.873 41 627 .215 75 322.100
8 395 .041 42 611.837 76 303.224
9 404.820 43 595 .180 77 289.410
10 404.343 44 579.460 78 270.830
11 413.467 45 544.498 79 255 .197
12 419.591 46 532.282 80 224.667
13 426.790 47 510.477 81 202.525
14 439.285 48 516.452 82 159.861
15 447 .095 49 505 .999 83 153.665
16 471.780 50 485.536 84 134.717
17 489.876 51 470.269 85 120.340
18 513.427 52 496.628 86 109.965
19 542.402 53 519 .200 87 95.844
20 577.312 54 462.142 88 82.975
21 610.932 55 464.073 89 69.670
22 635.818 56 474.022 90 55 .819
23 671.637 57 456.018 91 46.091
24 688.984 58 443.629 92 35.162
25 707.800 59 375.059 93 26.391
26 707.705 60 371.444 94 19.726
27 700.732 61 436.198 95 14.261
28 692.497 62 301.197 96 10.094
29 691.514 63 348.001 97 6.702
30 683.682 64 393.793 98 4.518
31 673.071 65 426.406 99 3.111
32 669.708 66 414.741 100 o más 4.218
33 675.510 67 4 12.983 Total 40.847.371
Fuente : INE.
46 Estadística para la investigación social

Llamamos frecuencia absoluta (n;) al número de veces que se repite un suceso (en este
caso tener una edad determinada) . Tendremos entonces una distribución de frecuencias ab-
solutas que nos informa de cuántos individuos hay en cada categoría de edad.
Una vez clasificadas las edades, representadas en la tabla anterior, podemos observar con
detalle el reparto de la población para cada edad, por ejemplo, en la categoría de los que
tienen exactamente 35 años hay 668.002 personas, también podemos ver que el grupo más
numeroso es el de los que tienen 25 años. Pero, si lo que queremos es resumir los datos para
obtener una visión general de la población, necesitaremos una agrupación menos detallada,
ya que la clasificación año a año nos proporciona un número demasiado elevado de catego-
rías (más de 100).
Podemos componer otras agrupaciones por simple adición de las frecuencias de las cate-
gorías que decidamos agrupar. Si establecemos categorías con una amplitud de 5 años, ob-
tendremos una distribución de frecuencias más sencilla de leer.
Tabla 4.
Distribución de edades del Censo de 2001 en grupos de edad quinquenales.

Edad Frecuencia (n;)

0-4 1.923.085
5-9 1.906.092
10-14 2.103.476
15-19 2.464.580
20-24 3.184.683
25-29 3.500.248
30-34 3.378.579
35-39 3.292.986
40-44 3.028.209
45-49 2.609.708
50-54 2.433.775
55-59 2.212.801
60-64 1.850.633
65-69 2.090.389
70-74 1.847.044
75-79 1.440.761
80-84 875.435
85-89 478.794
90 o más 226.093

Total 40.847.371
Fuente: INE.

El detalle en grupos de 5 años permite un análisis con menos detalle que la distribución
año a año, pues renunciamos a la información de cada edad concreta, pero se produce una
ganancia en la significación de los datos y evitaremos errores, ya que muchas veces los
Capítulo 111. Recogida y tratamiento de datos 47

encuestados, al ser preguntados por la edad, redondean, con lo que se producen valores más
altos en las cifras que terminan en O, es decir si tienen 39 dirán 40.
En la tabla de agrupación quinquenal se puede apreciar a simple vista que los dos grupos
de edad más numerosos están alrededor de la treintena, o que el grupo de edad de 60 a 65
años es menos numeroso que el precedente y el siguiente creando un escalón en la distri-
bución.
Siempre se puede resumir más la información empleando un número menor de catego-
rías haciendo que la sencillez de lectura aumente, pero con una pérdida importante de infor-
mación. El INE ofrece también tablas de «Edad en grandes grupos» clasificando a toda la
población en tres categorías:
Tabla S.
Distribución de edades del Censo de 2001 en grandes grupos de edad.

Años Frecuencia (n;)

Menos de 16 6.379.748
16-64 27.509.107
65 o más 6.958 .516

Total 40.847.371
Fuente: INE.

Al establecer el número y la amplitud de las categorías, debemos buscar un equilibrio


entre la pretensión de resumir lo inabarcable y el propósito de obtener representaciones con
toda la información relevante para nuestros propósitos. Los límites de las categorías tendrán
además algún sentido explícito, como cuando queramos comparar grupos específicos rela-
cionados con límites sociales o legalmente establecidos, como la mayoría de edad, la jubila-
ción o la obligatoriedad de la enseñanza, de modo que las categorías y sus límites depende-
rán de nuestro interés concreto.
Consultando la distribución de frecuencias absolutas podemos saber que las personas con
65 o más años son 6.958.519, pero ¿qué parte del total poblacional suponen?
Para establecer comparaciones entre los distintos grupos generados a partir de las catego-
rías de agrupación empleadas utilizaremos las fracciones respecto al total o frecuencias re-
lativas (fr) que nos darán información sobre la relación numérica entre una parte y el todo,
entre el número de casos de una categoría y el total poblacional. La anterior tabla de frecuen-
cias absolutas de la edad en grandes grupos, puede escribirse fácilmente en términos de fre-
cuencias relativas, dividiendo el efectivo de cada categoría o frecuencia absoluta (n;) por el
número total de individuos de la población (N):
El número total de casos de la población podemos expresarlo como la suma de las fre-
cuencias absolutas de todas las categorías

N = n 1 + n2 + · · · + n 11
48 Estad ística para la investigación social

La frecuencia relativa de Ja i-ésima categoría será igual al cociente entre la frecuencia


absoluta de esa categoría y el total poblacional:

fr; = n; /N

Realizando esa operación para cada una de las categorías de la tabla anterior (edad en
grandes grupos) obtenemos otra tabla con las frecuencias relativas, que representa Ja rela-
ción numérica entre el efectivo de cada categoría y el total de Ja población tomado como la
unidad:
Tabla 6.
Distribución de edades del Censo de 2001 en frecuencias relativas
para grandes grupos de edad.

Años fr
Menos de 16 0,1562
16-64 0,6735
65 o más 0,1704

Total 1,0000
Fuente: INE.

Lo que hemos hecho es establecer proporciones respecto al total de Ja población para


comparar las categorías y saber qué parte del total de individuos contiene una determinada
categoría de edad, por ejemplo, cuánto representan los menores 16 años respecto al total. En
nuestro caso la frecuencia relativa de menores de 16 años es 0,1562 que y puede expresarse
en porcentaje multiplicando por 100:

0,1562 X 100 = 15,62%

De esa forma, la frecuencia relativa de la siguiente categoría de las personas con edades
comprendidas entre los 16 y Jos 65 años será 0,6735 o un 67,35 %.
A menudo expresaremos las frecuencias relativas como porcentajes, pues estamos más
acostumbrados a hablar de «tantos por ciento» que de fracciones de Ja unidad. Y por lo gene-
ral será más frecuente encontrar la información de las tablas publicadas en este formato.
Tabla 7.
Distribución de edades del Censo de 2001 para grandes grupos de edad en porcentajes.

Años %

Menos de 16 15 ,62
16-64 67,35
65 o más 17,04

Total 100,00
Fuente: INE.
Capítulo 111. Recogida y tratamiento de datos 49

Para realizar determinados cálculos necesitaremos construir tablas que representen las
frecuencias absolutas o relativas de forma acumulada, de manera que podamos determinar
cuál es la frecuencia desde el origen de la variable hasta un valor dado. En el caso de las
edades del censo, podríamos saber cuántas personas tienen menos de una determinada edad.
Partiremos de la tabla 8 con la distribución de frecuencias absolutas (n¡) de las edades en
grupos de 1O años para construir las frecuencias acumuladas
Tabla 8.
Distribución de edades del Censo de 2001 en grupos de edad de 10 años.
Frecuencias absolutas.

Edad n;

0-9 3.829.177
10-19 4.568.056
20-29 6.684.93 1
30-39 6.671.565
40-49 5.637.917
50-59 4.646.576
60-69 3.941.022
70-79 3.287.805
80-89 1.354.229
90 o más 226.093

N 40.847.371
Fuente: INE.

Las frecuencias absolutas acumuladas (Na) para cada categoría se construyen sumando
la frecuencia de cada categoría las de las anteriores. La frecuencia absoluta acumulada de
la primera categoría será la frecuencia de esa misma categoría pues no hay otras anteriores:

Na 1 = n 1 = 3.829.177

La frecuencia acumulada de la segunda categoría será la suma acumulada anterior más la


frec uencia absoluta de la segunda categoría

Na 2 = Na 1 + n 2 = 3.829.177 + 4.568.056 = 8.397.233


Na 3 = Na 2 + n 3 = 8.398.233 + 6.684.931 = 15.082.164
De esta manera, la frecuencia acumulada de la í-ésima categoría será:

Na; = Na; - i + n;
En la tabla de las frecuencias absolutas acumuladas de la Tabla 9 podemos saber directa-
mente que el número de personas con menos de 40 años es 21.753.729, algo más de la mitad
de la población, o que el número de jóvenes con menos de 20 años es 8.397.223.
50 Estadística para la investigación social

Tabla 9.
Censo de 2001, distribución de edades en frecuencias absolutas y acumuladas.

Edad 11¡ Na;

0-9 3.829.177 3.829.177


10-19 4.568 .056 8.397.233
20-29 6.684.931 15.082.164
30-39 6.671 .565 21.753.729
40-49 5.637.917 27.391.646
50-59 4.646.576 32.038.222
60-69 3.941.022 35.979.244
70-79 3.287.805 39.267.049
80-89 1.354.229 40.621.278
90 o más 226.093 40.847.371

Total 40.847.371
Fueme: INE.

También es posible calcular las frecuencias acumuladas de forma inversa, es decir de mayor
a menor, obteniendo la distribución acumulada de la Tabla 10, en la que podemos ver el
número de personas con una edad superior a un límite establecido:
Tabla 10.
Censo de 2001, distribución de edades en frecuencias absolutas y acumuladas
de forma inversa.

Edad 11¡ Na;

0-9 3.829.177 40.847.371


10-19 4.568.056 37.018.194
20-29 6.684.93 1 32.450.138
30-39 6.671.565 25.765.207
40-49 5.637.917 19.093.642
50-59 4.646.576 13.455.725
60-69 3.941.022 8.809.149
70-79 3.287.805 4.868 .127
80-89 1.354.229 1.580.322
90 o más 226.093 226.093

Total 40.847.371
Fuente: INE.

Procediendo de la misma manera con las frecuencias relativas podemos acumularlas,


y conocer qué parte del total suponen los menores de una determinada edad. La frecuen-
cia relativa acumulada se obtiene con la misma lógica que la absoluta acumulada. En la
Capítulo 111. Recogida y tratamiento de datos 51

columna de la frecuencia relativa acumulada (Fra) de la Tabla 11 podemos leer que el


valor acumulado hasta los 20 años es 0,206 o en porcentaje el 20,6%, es decir, el 20,6% de
las personas censadas son menores de 20 años o lo que es lo mismo, el 79,4% son mayores
de 20 años.

En la misma tabla hemos representado los datos de la edad de la población en grupos de


5 años , representando en 5 columnas las frecuencias absolutas (n;), frecuencias relativas
(fr;), Frecuencias acumuladas (Na;), frecuencias relativas acumuladas (Fra;) y porcenta-
jes (% ).

Tabla 11.
Tabla resumen de las frecuencias de edades absolutas, relativas, acumuladas
y en porcentajes del Censo de 2001.

Frecuencia Frecuencia
Frecuencia Frecuencia
Edad % acumulada relativa
absoluta (n;) relativa (fr)
(Na ) acumulada (Fra)

0-4 1.923.085 0,04707977 4,70797741 1.923.085 0,047079774


5-9 1.906.092 0,04666376 4,6663762 3.829.177 0,093743536
10-14 2.103.476 0,05149599 5,14959947 5.932.653 O, 145239531
15-19 2.464.580 0,06033632 6,03363188 8.397.233 0,20557585
20-24 3.184.683 0,07796543 7,79654338 11.581.916 0,283541283
25-29 3.500.248 0,0856909 8,56909004 15.082.164 0,369232184
30-34 3.378.579 0,08271228 8,27122754 18.460.743 0,451944459
35-39 3.292.986 0,08061684 8,06168407 21.753.729 0,5325613
40-44 3.028.209 0,07413473 7,41347344 24.781.938 0,606696034
45-49 2.609.708 0,06388925 6,38892525 27.391.646 0,670585287
50-54 2.433.775 0,05958217 5,95821699 29.825.421 0,730167457
55-59 2.212.801 0,05417242 5,41724215 32.038.222 0,784339878
60-64 1.850.633 0,04530605 4,53060492 33.888.855 0,829645928
65-69 2.090.389 0,05117561 5,11756069 35.979.244 0,880821534
70-74 1.847.044 0,04521819 4,52181855 37.826.288 0,92603972
75-79 1.440.761 0,03527182 3,52718171 39.267.049 0,961311537
80-84 875.435 0,02143186 2,14318567 40.142.484 0,982743394
85-89 478.794 0,01172154 1,17215377 40.621.278 0,994464931
90 o más 226.093 0,00553507 0,55350686 40.847.371 1

Total 40.847.371 1 100


Fuente: INE.

Con estas simples operaciones de suma o división de las frecuencias se pueden represen-
tar los mismos datos de diferente forma y, como veremos más adelante, estos formatos nos
erán útiles para realizar determinados cálculos y representaciones gráficas que trataremos
en los siguientes capítulos.
52 Estad ística para la investigación social

Ejercicio 3
A partir del siguiente con las edades de un grupo de 80 personas :
42 60 60 38 60 63 21 66 56 57 51 57 44 45 35 56 59 60 40 24 42 21 39 39 34 45 39 28
30 35 4 7 53 49 50 49 38 45 28 41 47 42 53 32 58 23 41 63 28 54 33 35 43 48 48 27 38
54 38 40 63 48 33 35 61 47 41 55 53 27 20 21 43 27 27 54 52 53 29 30 53
establezca los intervalos de edad necesarios para clasificar las edades del grupo en 5 categorías
de igual ampl itud . Clasifique las 80 edades en las categorías creadas y elabore las tablas de
frecuencias absolutas, contando el número de casos de cada categoría y las frecuencias relati-
vas, calculando la fracción del efectivo de cada categoría respecto al total (N = 80).

6. Elaboración y lectura de tablas de frecuencias


con dos variables
En muchas ocasiones estaremos interesados en representar tablas con más de una variable.
Siguiendo con el ejemplo anterior de los datos del censo español de 2001 , podemos repre-
sentar la distribución de edades incluyendo además la distribución de otra variable recogida
en cada individuo, por ejemplo el sexo, en otra columna.
Tabla 12.
Distribución de edades en frecuencias absolutas según el sexo. Censo de 2001.

Edad Varones Mujeres Totales filas

0-9 1.965.536 1.863.641 3.829. 177


10-19 2.344.272 2.223.784 4.568.056
20-29 3.417.506 3.267.425 6.684.931
30-39 3.372.264 3.299.301 6.671.565
40-49 2.810.801 2.827.116 5.637.917
50-59 2.284.641 2.36 1.935 4.646.576
60-69 1.861.862 2.079.160 3.941.022
70-79 1.423.995 1.863.810 3.287.805
80-89 470.622 883.607 1.354.229
90 o más 61.383 164.710 226.093

Totales columnas 20.012.882 20.834.489 40.847.371

Si anteriormente hemos visto cómo se distribuía el número de personas según las cate-
gorías de edad establecidas ahora podremos comparar esas mismas distribuciones de forma
separada para hombres y para mujeres. Así, con la simple observación de las dos distribucio-
nes de frecuencias absolutas resultantes, podemos ver que el número de hombres es ligera-
mente mayor que el de mujeres en las edades más jóvenes, hasta los 40 años, para pasar a
predominar el número de mujeres respecto al de hombres en las edades superiores.
lectura de tablas de frecuencias de doble entrada, vemos que se han calculado los
rotales de cada fila y cada columna, a estos totales les llamaremos totales marginales de
Capítulo 111. Recogida y tratamiento de datos 53

filas o columnas. De esa manera podremos conocer el total de hombres y mujeres de una
edad concreta en los totales marginales de las filas, y podremos conocer el total de hombres
o bien de mujeres de cualquier edad en los totales marginales de las columnas.
Si queremos representar la tabla en porcentajes debemos elegir entre calcular el porcen-
taje sobre el total de cada columna o sobre el total de cada fila, según sea el aspecto que
queremos resaltar. Si calculamos los porcentajes sobre el total de las columnas obtenemos la
-iguiente tabla:
Tabla 13.
Distribución de edades en porcentajes según el sexo. Censo de 2001.

Edad Varones(%) Mujeres(%)

0-9 9,82 8,94


10-19 11 ,71 10,67
20-29 17,08 15,68
30-39 16,85 15,84
40-49 14,04 13,57
50-59 11 ,42 11,34
60-69 9,3 9,98
70-79 7,12 8,95
80-89 2,35 4,24
90 o más 0,31 0,79

Total 100 100


(20.012.8 82) (20.834.489)

Así podemos conocer la parte de varones o de mujeres respecto a sus respectivos totales
que hay en una determinada categoría de edad, por ejemplo el 17, 71 % de los hombres y el
15,68% de las mujeres tienen edades comprendidas entre 20 y 30 años. (Obsérvese que
uando se dan las cifras en porcentajes es frecuente acompañar entre paréntesis el total de
individuos sobre el que se ha hallado el porcentaje.)
Si por el contrario hallamos los porcentajes sobre los totales de las filas podremos cono-
cer cómo se reparte el número de hombres y mujeres en cada categoría de edad:
Tabla 14.
Distribución de edades en porcentajes para cada categoría de edad, según el sexo.
Censo de 2001.

Edad % hombres % mujeres Total

0-9 51,33 48,67 100 (3.829.177)


10-19 51,32 48,68 100 (4.568.056)
20-29 51,12 48,8 8 100 (6.684.931 )
30-39 50,55 49,45 100 (6.671.565)
54 Estadística para la investigación social

Tabla 14. (Continuación)

Edad o/o hombres o/o mujeres Total

40-49 49,86 50,14 100 (5.637.917)


50-59 49,17 50,83 100 (4.646.576)
60-69 47 ,24 52,76 100 (3.941.022)
70-79 43,31 56,69 100 (3.287 .805)
80-89 34,75 65 ,25 100 ( 1.354.229)
90 o más 27 ,15 72,85 100 (226.093)

(40.847.471)

La Tabla nos muestra la proporción entre hombres y m ujeres para cada uno de los 10
grupos de edad. Así podemos resaltar que hay aproximadamente la misma proporción de
personas de cada sexo hasta los 60 años, y que a partir de esa edad se diferencian progresiva-
mente, de modo que entre las personas de más de 90 años, sólo el 27, 15% son varones mien-
tras que entre las mujeres ese porcentaje es del 72,85%.

7. El problema de los límites reales en la creación


de categorías para variables de intervalo
Como hemos señalado más arriba, las variables de intervalo pueden ser de dos tipos: conti-
nuas y discretas. Son discretas cuando sólo pueden tomar un número finito de valores. Sien-
do por lo general estos valores los números naturales 1, 2, 3, .. . Son variables discretas, por
ejemplo, el número de hijos, el número de habitaciones de una vivienda o el número de ma-
trimonios de una persona.
Las variables continuas, por el contrario, pueden tomar un número infinito de valores en
cualquier intervalo dado. Como ejemplos de variables continuas podemos pensar en el tiem-
po, la distancia entre dos puntos, la renta disponible, etc. Así, en el caso de la variable edad
tomada desde la fecha de nacimiento, es posible encontrar una persona que tenga 16 años y 3
meses, pero también a otra de 16 años, 3 meses y dos semanas, y también 16 años, 3 meses,
dos semanas y tres días. La distancia también pueden ser 14 km o también 14 km y 300 m o
también 14 km, 300 m y 8 cm, etc.
Resulta ahora fácil comprender que cuando categorizamos variables discretas no existen
problemas de clasificación, ya que los límites de clase o categoría son idénticos a los límites
reales.
Por ejemplo, el número de personas que viven en una familia podemos agruparlo:
a) Menos de dos.
b) 3-4.
e) 5-7.
d) Más de 7.
Capítulo 111. Recogida y tratamiento de datos SS

En este caso los límites vienen dados de la siguiente forma:


a) De 1 hasta 2 (0 es imposible no hay ninguna familia sin ningún miembro) .
b) De 3 hasta 4.
e) De 5 hasta 7.
d) Desde 8 en adelante.

Supongamos ahora la misma categorización pero referida a una variable continua, como
la distancia en kilómetros entre dos puntos. En este caso los límites vienen dados de la si-
guiente manera:
a) De O hasta 2,49999999999.
b) De 2,5 hasta 4,4999999999.
e) De 4,5 hasta 7 ,49999999.
d) Mayor o igual de 7,5.

Esto es así porque aunque la variable es continua las medidas son siempre discretas. Por
ejemplo la distancia la mediremos en km y m (despreciando los cm, mm, ... ) y redondeare-
mos a la unidad que utilizamos . En este caso km. Así por ejemplo, una distancia de 4 km,
"00 m, y 60 cm con 4 mm será 4,3 km y la anotaremos, redondeando, como 4 km. Mientras
que 4 km, 700 m y 80 cm serán 4,7 km que anotaremos como 5 km. Por eso la clase 5-7,
tiene como límites reales de 4,5 hasta 7,49999.
Generalmente los decimales periódicos suelen omitirse y por ello la clasificación ante-
rior suele aparecer como:
a) De O hasta 2,5.
b) De 2,5 hasta 4,5.
e) De 4,5 hasta 7,5.
d) Mayor o igual de 7,5.

Pero la expresión de esta clasificación puede suponer una fuente de ambigüedad para los
asos que se encuentran en los límites de las categorías, es decir, ¿el valor 2,5 pertenece al
primer intervalo o al segundo? Para que la clasificación sea exhaustiva y mutuamente ex-
luyente ese valor deberá pertenecer a una sola categoría. Para ese fin se definen los límites
reales o verdaderos de las clases o categorías. En este caso, situamos el valor 2,5 en la se-
gunda categoría.
Esta precisión puede expresarse en términos matemáticos de la siguiente manera:
a) [0-2,5[
b) [2,5-4,5[
e) [4,5-7,5[
d) [7,5[
56 Estadística para la investigación social

(El símbolo [ ] señala un intervalo cerrado, en el que los límites pertenecen al intervalo,
][ señala que el intervalo es abierto en los extremos, por lo que ninguno de los dos lími-
tes pertenece al intervalo.
[[ señala un intervalo semiabierto, en el que el límite inferior pertenece al intervalo, pero
el superior no).
Al establecer el intervalo [0-2,5[ debe entenderse que que el valor superior del intervalo
no está incluido (sólo llega hasta 2,4999). Teniendo en cuenta que se trata de una variable
continua, para calcular la amplitud de un intervalo el límite superior de una categoría coinci-
de con el límite inferior de la categoría inmediatamente superior.
Existe una variable continua que generalmente tiene un tratamiento especial. Es la edad.
Supongamos ahora que la clasificación dada lo es de edades, así la misma categorización:
a) Menos de dos.
b) 3-4.
e) 5-7 .
d) Más de 7.

Se convierte en los siguientes límites


a) Desde O hasta 2,9999 [0-3[
b) Desde 3 hasta 4,9999 [3-5[
e) Desde 5 hasta 7,9999 [5-8[
d) Mayor o igual a 8 [8 [
En el caso de las edades no se produce redondeo (aproximación al valor entero más pró-
ximo), sino que se truncan los decimales al valor entero inferior. Por ejemplo, una persona
con 4 años, 11 meses y 8 ocho días decimos que tiene 4 años, nunca cinco, hasta su cumplea-
ños. Las edades son siempre edades cumplidas.
En definitiva, como puede ver los intervalos reales de las categorías dependen de la natu-
raleza de la variable con la que se esté trabajando.
No obstante si la variable fuera por ejemplo número de matrimonios de una persona, el
intervalo a) sería «De O hasta 2», ya que la variable si que puede tomar el valor «ninguno» o
«0».

8. Formas de la distribución
Para examinar una distribución de frecuencias recurriremos a menudo a su representación
gráfica, siendo la más común la que se conoce como histograma. La representación ofrece
una visión general de la distribución rápida y sencilla, a través de la forma que adopta una
distribución de frecuencias. Aunque las representaciones gráficas se tratarán detalladamente
en el Capítulo V vamos a presentar algunos ejemplos de posibles distribuciones de frecuen-
cias y la forma de su representación gráfica.
Capítulo 111. Recog ida y tratamiento de datos 57

Gráfico 1.
Distribución de frecuencias de las edades de 84 personas y su histograma.
40

Edad n; 35

20-29 4 30

30-39 8 25

40-49 15 20
50-59 22 15
60-69 35
10
Total 84 1
5
1
o 1
20-29 30-39 40-49 50-59 60-69

La distribución es ascendente hacia la derecha. Las frecuencias son mayores para los
,·alores más altos de la variable. Representa una población envejecida con frecuencias cre-
~íentes a medida que avanza la edad.

Gráfico 2.
Distribución de frecuencias de las edades de 88 personas y su histograma.
45

40

35

Edad n; 30 -
20-29 40 25 -
30-39 22 20 -
40-49 15
15 -
50-59 8
60-69 3 10 -
Total 88
5 1 1

o 1
20-29 30-39 40-49 50-59 60-69

La distribución desciende hacia la derecha. Las frecuencias descienden a medida que


aumenta el valor de la variable. Vemos una población joven con frecuencias decrecientes a
medida que avanza la edad.
También podemos encontrar distribuciones, con varios picos o frecuencias más altas
Gráfico 3).
La distribución del Gráfico 3 presenta dos valores mayores que los que les preceden y
uceden inmediatamente, también se aprecia cierto grado de simetría respecto a la categoría
entral de la cuarentena (40-49).
58 Estadística para la investigación social

Gráfico 3.
Distribución de frec uencias de las edades de 81 personas y su histograma.
Edad 25 - , - - - - - - - - - - - - - - - - - - - - - - ,

1-9 4
10-19 8

20-29 18

30-39 10 15 - + - - - --l
40-49 2
50-59 8 10 .....__ _ ___,

60-69 20
70-79
80-89
6
4
5+-
90-99 1
o~-~-~-~-~-~-~--~-~-~~

Total 81 0-9 10-19 20-29 30-39 40-49 50-69 ' 60-69 70-79 80-89 90-99

Atenderemos a la forma de la distribución según su posición en Jos ejes de representa-


ción y nos fijaremos en su asimetría y apuntamiento o curtosis. A partir de la representación
gráfica, diremos que una distribución es asimétrica positiva o negativa, dependiendo de que
las mayores frecuencias se agrupen a la izquierda o la derecha de un valor central en el eje
horizontal (abcisas). En cuanto al apuntamiento, diremos que una distribución es platicúrtica
(aplanada), cuando las frecuencias sean similares a lo largo del recorrido de Ja variable y no
se presenten frec uencias relativamente altas, leptocurtica (puntiaguda), cuando las frecuen-
cias más altas se concentran en unos pocos valores de la variable y mesocúrtica (una forma
intermedia entre las anteriores).
Pero no hay que olvidar que en la gráfica estamos representando intervalos o categorías y
que la forma que obtengamos dependerá en gran parte del número de categorías de la distri-
bución. Una categoría demasiado amplia puede ocultar diferencias dentro del intervalo, y al
reducir la amplitud de las categorías su número aumentaría. Es necesario encontrar un equi-
librio entre la visión más general y el detalle, según lo que pretendamos mostrar utilizaremos
una agrupación.
CapítuloW

Estadísticos de resumen

El objetivo del tratamiento estadístico de datos es resumir, en medidas claramente visi-


bles, una totalidad de datos inabarcable a primera vista con el fin de facilitar las compa-
raciones entre grupos poblacionales.
Mediante el análisis estadístico tratamos de concentrar la información disponible en un
conjunto reducido de valores que perm itan la descripción de los fenómenos estudiados
y faciliten las comparaciones de interés analítico entre poblaciones. Para establecer
comparaciones entre poblaciones , grupos sociales o procesos, usamos medidas que
resumen sus principales características. Denominamos genéricamente a esas medi-
das estadísticos.
En este capítulo se presentan los estadísticos más usuales para la caracterización de
las distribuciones. Comenzamos con la media aritmética como medida de tendencia
central e igualdad, y la varianza como medida de dispersión y de heterogeneidad. Am-
bas medidas, además de su interés como instrumentos de análisis , tienen una especial
relevancia como conceptos base del edificio que supone la estadística. Continuaremos
con otras medidas de utilidad en la descripción de fenómenos y caracterización de dis-
tribuciones, especialmente con el grupo de los cuantiles y la mediana. Finalmente, para
el lector que quiera llegar más lejos, se muestra en un apéndice las formas de dotar de
métricas a la información, parte que será desarrollada en profundidad en el Capítulo VII.

1. Estadísticos de resumen : la media


1.1. La media como medida de concentración de los datos
1.2. Medias con tablas de datos agregados
1.3. Uso de valores medios para comparar grupos
1.4. Medias ponderadas
2. Medidas de dispersión de los datos en variables de intervalo
2.1. Desviación media
2.2. Varianza y desviación típica
2.3. Varianza y desviación en tablas con datos agregados
2.4. La relación entre media y desviación típica
3. Otros estadísticos para conocer la estructura de los datos
3.1 . Cuantiles
3. 2. Uso de los cuantiles
3.3. La relación entre la med ia, mediana y moda y los tipos de distribución
APÉNDICE
60 Estadística para la investig ación social

1. Estadísticos de resumen: la media


Para comparar grupos entre sí a partir de una variable numérica, una buena estrategia es
«Construir» un valor «ficticio» que resuma el conjunto de la distribución, esto es, que la re-
presente. Necesitamos una medida de centralización (o «de concentración») de los datos. En
sentido estricto sólo podemos hablar de medidas de centralización en variables que presen-
ten un nivel de medición «de intervalo», variables «cuantitativas», es decir, que tomen valo-
res numéricos como la edad, los ingresos familiares, el salario, el número de metros cuadra-
dos de una vivienda, el número de miembros de un hogar, el peso, la distancia entre el
domicilio y el trabajo, el número de habitantes de un municipio, etc.

1.1. La media como medida de concentración de los datos


Cuando tenemos una variable cuantitativa, podemos obtener a partir de todos sus valores (y
del peso de estos en la población) un «valor medio» que nos resuma la distribución de los
datos. Así, se hace posible comparar distintas poblaciones a través de la comparación de sus
valores medios. La media aritmética es un «indicador» muy utilizado para resumir informa-
ción de una población o de un grupo poblacional y resulta un magnífico indicador para com-
parar grupos. El valor medio de una población ofrece información sobre esta en un solo dato.
Al reducir todos los valores de una distribución al valor medio, estamos suponiendo que
todos los elementos de la población tienen el mismo valor: el valor medio 1• Con esta suposi-
ción perdemos información -de los casos concretos- pero a la vez ganamos capacidad
analítica -representamos el conjunto-, como se verá en estas páginas.
La media aritmética (el valor medio) de una distribución de una variable se obtiene su-
mando los valores de todas las unidades (una a una) y dividiendo el resultado entre el total
de casos o unidades. Supongamos, por ejemplo, un concurso de gimnasia en el que las pun-
tuaciones de los jueces son 6, 8 y 8,5. La puntuación media asignada al gimnasta será 7,5 .

6 + 8 + 8,5 22,5
75=----
, 3 3

Si llamamos X a la variable y X¡ al valor que toma cada unidad i de una población total de
N unidades, el valor medio de X (x) será:

_ X1 + X2 + X3 + · · · + X¡ + ··· + X(N- 1) + XN
x=
N

Que podemos escribir también de esta forma más resumida:


N
Ix¡
- 1
x=--
N
1
Si tomamos la edad media de una población de 35.432 indi viduos como valor «representativo» del conjunto
de edades de esta población , lo que hacemos con esta operación es suponer que todos estos 35.432 individuos tienen
la misma edad: la media (valor que representa todas las edades de la población).
Capítulo IV. Estadísticos de resumen 61

Generalmente se utiliza el símbolo .X para indicar la media aritmética. En aquellos casos


en los que se quiere distinguir entre una media procedente de una muestra y de una pobla-
ión, se utiliza para indicar que los datos proceden de una muestra y la letra griega «mu» (µ)
para indicar que la media procede de una población.
Supongamos que tenemos una muestra de 12 individuos (Tabla 1) con las siguientes eda-
des (en años 2 ): 19, 22, 28, 27, 25, 27, 27, 29, 22, 28, 29 y 34. La edad media de esta muestra
-erá:

19 + 22 + 28 + 27 + 25 + 27 + 27 + 29 + 22 + 28 + 34 + 29 317
_T = =U= 26,41 años
12

Podemos agrupar las unidades con el mismo valor:


Tabla l.
Edades de un grupo de 12 personas.

Edad n

19 1
22 2
25 1
27 3
28 2
29 2
34 1

Total 12

Entonces sumamos cada valor de la variable por su peso en la muestra, es decir, con el
número de casos que contiene, o con su frecuencia en la distribución.

_ 19 X 1 + 22 X 2 + 25 X 1 + 27 X 3 + 28 X 2 + 29 X 2 + 34 X 1 317
x = ------------------------ = - = 26,41 años
12 12

Una tabla genérica, que recoge los datos de una distribución, quedaría como se muestra
en la página siguiente (Tabla 2).
Dicha tabla representa los valores de la variable X que clasifica a una población de N
unidades en k categorías (o valores), cada una de ellas con un determinado peso (o frecuen-
ia) n en la población. Para dicho formato -agrupado- de datos, la fórmula genérica del
ralor medio nos quedaría así:

x 1n 1 + x 2n 2 + x 3n 3 + ··· + X;n; + ··· + x (k- l)n(k - I) + xknk


x=
N

2
No hay que olvidar nunca las unidades en que se miden las variab les: años (para las edades), euros (para los
salarios) , kilómetros (para algu nas distancias), hijos (para el número de hijos), etc.
62 Estadística para la investigación social

Tabla 2.
Notación de una tabla de frecuencias.

X n

X1 11¡

X2 112

X3 113

X¡ 11¡

x <k-1) n (k- 1)
xk 11k

Total N

O, de manera más sintética:


k
I
11¡X¡
- 1
x= - k -

Ll1;
1

Nótese que
k
N = L 11; = 11 1 + 112 + 113 + ··· + 11; + ··· + 11(k- I) + 11k
1

Veamos una aplicación del estadístico de la media sobre datos reales. La información
que proporciona la Encuesta de Población Activa (EPA), correspondiente al primer trimestre
de 2012, sobre el tamaño de los hogares nos permite calcular el tamaño medio de hogar (ver
Tabla 3).

- X 13.111 +2 X 20.269 +3 X 13.986 + ··· + 16 X 2 171.344


x= . = 2,648 personas
64.712 64 712

Si en lugar de tomar las frecuencias absol utas hubiésemos tomado las relativas (propor-
ciones o porcentajes), el resultado - la media- hubiese sido el mismo. Por ejemplo, con
porcentajes:

J X 20,261 +2 X 31 ,322 +3 X 21 ,613 +3 X 21 ,613 + ··· + 16 X 0,003


x=
100
264,795
= 2,64795 ~ 2,648 personas
100
Capítulo IV. Estadísticos de resumen 63

Tabla 3.
Hogares según número de personas.

Número
n
de personas Porcentaje X¡l1¡
(cuestionarios)
(x)

1 13.111 20,261 13.111


2 20.269 31,322 40.538
3 13.986 21,613 41.958
4 12.859 19,87 1 51.436
5 3.229 4,990 16.145
6 889 1,374 5.334
7 241 0,372 1.687
8 76 0,117 608
9 27 0,042 243
10 12 0,019 120
11 3 0,005 33
12 6 0,009 72
13 0,002 13
14 1 0,002 14
15 o 0,000 o
16 2 0,003 32

Total 64.712 100 171.344


Fuente: EPA 2012. INE.

El tamaño medio de hogar es de 2,6 personas. Si todos los hogares tuvieran el mismo
nú mero de personas, en cada hogar habría 2,6 personas. Evidentemente esto es imposible
-un hogar será de 2 o de 3 personas-. Sin embargo, este dato nos permite comparar situa-
iones diferentes. Por ejemplo, obsérvese la Tabla 4:

Tabla 4.
Tamaño medio de los hogares, según nacionalidad del sustentador principal.

2006 2007 2008 2009 2010

Española 2,74 2,71 2,67 2,64 2,63


Extranjera 2,98 2,99 3,02 2,93 2,85
Otro caso 2,85 2,93 3,01 3,2 3,38

Total 2,76 2,74 2,71 2,68 2,67


Fuente: Encuesta de presupuesto familiares. INE.
Nota: En «Otro caso» se incluyen situaciones en que no consta la nacionalidad, o esta es doble
(española más otra).
64 Estadística para la investigación social

Esta tabla contiene en total 20 medias. Imagínese las tablas de frecuencias que serían
necesarias para recoger la misma información, y observe que con un examen simple de esta
tabla rápidamente podemos indicar:
a) que el tamaño medio de los hogares en España desciende, lo que quiere decir que
cada vez hay más hogares de menor tamaño y menos hogares «numerosos».
b) que las familias de inmigrantes tienen, por lo general, tamaños más grandes.
e) que las familias de inmigrantes también se encuentran en proceso de «adelgazamien-
to» de los hogares.

1.2. Medias con tablas de datos agregados


En algunos casos la información disponjble para calcular medias viene en tablas ya agru-
padas por intervalos. Supongamos que queremos conocer la edad media de una pequeña po-
blación de 80 personas -miembros de una cooperativa de cabreros 3- con las siguientes
edades:
CUADRO l.
Edades de los miembros de una cooperativa de cabreros (noroeste de Murcia, 1990).

42 60 60 38 60 63 21 66 56 57 51 57 44 45 35 56 59 60 40 24 42 21 39 39 34 45 39 28 30
35 47 53 49 5049 38 45 28 4147 42 53 32 58 23 4163 28 54 33 48 33 35 6147 4155 53
27 20 35 43 48 48 27 38 54 38 40 63 21 43 27 27 54 52 53 29 30 53

Pero supongamos que conocemos dicho conjunto de datos, no a partir de los datos bru-
tos, sino en forma de tabla ya elaborada con los grupos de edad agregados. Hemos agrupado
las edades de 10 en 10 años.
Tabla 5.
Edades agrupadas. Datos Cuadro l.

Edad Frecuencias
(x) (n)
20-29 14
30-39 17
40-49 22
50-59 18
60-69 9

Total 80

3
Se trata de los datos del Ejercicio 3 del Capítu lo III.
Capítulo IV. Estadísticos de resumen 65

En este caso, para realizar los cálculos que nos lleven a obtener la edad media necesita-
::nos un valor que nos represente cada uno de los intervalos en que hemos agrupado la edad.
E te será el valor central4 de los intervalos, su marca de clase. Y suponemos que el conjunto
de elementos contenidos en cada intervalo tiene ese valor. De esta manera calculamos la
media de las marcas de clase de todos los grupos de edad.

x
-= -
I X¡l1¡ 3.510
- = - - = 43 875 años
N 80 '

Tabla 6.
Cálculo de la media. Datos Cuadro l.

Marca
Frecuencia
Edad de clase (x· n)
(n)
(x)

20-29 25 14 350
30-39 35 17 595
40-49 45 22 990
50-59 55 18 990
60-69 65 9 585

Total 80 3.510

La edad media de esta población, partiendo de esos datos agregados, sería de 43,875
años.
Considerando los datos desagregados, si sumamos las edades de todos los individuos y
dividimos por el número de estos, la edad media es:

- '\""'X
¿ ., 42 + 60 + 60 + 38 + ... + 53 3.463
x =--= = 80 = 43,288 años
N 80

Evidentemente, con los datos agregados obtenemos un valor aproximado de la edad me-
dia «real». Con el uso de las tablas de datos agregados se pierde información respecto a la
que contienen Jos datos originales; no obstante, en muchas ocasiones en que trabajamos con
fuentes secundarias, los datos brutos -sin agrupar- resultan inaccesibles para el investiga-
dor. Como regla general, cuantos más intervalos contiene la tabla, la pérdida de información
e menor.

4
El intervalo 20-29 tiene 10 años de amplitud porque comienza en 20 y tennina en 29,999 ... (Las edades se
en tienden en años cumplidos). Para calcular el valor medio en este intervalo (suponiendo, que es lo que suponemos,
que todos los valores se distribuyen homogéneamente en su interior) dividimos la amplitud por la mitad: 10/2 = 5.
La marca de clase de cada intervalo (el valor medio: el que va a representar a todos los valores de ese intervalo) es
el límite inferior del intervalo más 5. Por ejemplo, 20 + 5 = 25, 30 + 5 = 35, etc.
66 Estadística para la investigación social

13. Uso de valores medios para comparar grupos


En ocasiones, para comparar grupos recurrimos a la información proporcionada por otras
variables, y lo hacemos a través de un estadístico que puede ser un valor medio.

Con un ejemplo extraído de la Encuesta de Fecundidad (1999 INE) podemos ver cómo
utilizar los valores medios para realizar comparaciones. En este caso se trata de observar
cuál de los siguientes grupos --católicos practicantes y no practicantes- tienen mayor fe-
cundidad.

Tabla 7.
Número de hijos nacidos vivos según creencia religiosa de las mujeres.

Mujeres que se declaran Mujeres que se declaran


«Católicas practicantes» «católicas no practicantes »

o 1.187 1.799
1 372 660
2 804 1.019
3 354 267
4 88 58
5 30 20
6 12 6
7 6 o
8 1 o
9 3 o
Total 2.857 3.829
Mujeres de 15-49 años. Encuesta de Fecundidad 1999. INE.

El indicador que vamos a utilizar es el número medio de hijos. Así, calculamos la media
para las mujeres católicas «practicantes» y para las «no practicantes». En la Tabla 8 pode-
mos seguir los cálculos para la obtención de las medias.

- I X;n; 3.693 ..
Xpracticante = --¡::¡- = .
2 857
= 1,29 hIJOS

- I X;n; 3.867 ..
Xno practicante =--¡::¡- = 3.829 = 1,01 hijOS

No hay que olvidar que la media es un valor de la variable considerada (en este caso, el
número de hijos), y por lo tanto se expresa siempre en las unidades de esa variable.

Observamos que el grupo de católicas practicantes tiene una fec undidad mayor que el
grupo de católicas no practicantes. La observación directa de las tablas de frecuencias difí-
cilmente nos hubiera permitido llegar a esta conclusión.
Capítulo IV. Estadísticos de resumen 67

Tabla 8.
Cálculo de la media. Datos Tabla 7.

úmero
Mujeres que se declaran Mujeres que se declaran
de hijos
«católicas practicantes» «Católicas no practicantes» xna xnb
nacidos
(na) (nb)
vivos (x)

o 1.187 1.799 o o
1 372 660 372 660
2 804 1.019 1.608 2.038
3 354 267 1.062 801
4 88 58 352 232
5 30 20 150 100
6 12 6 72 36
7 6 o 42 o
8 1 o 8 o
9 3 o 27 o
Total 2.857 3.829 3.693 3.867

Es importante recordar que la media, aunque expresada en la mi sma unidad que la varia-
ble, no pertenece necesariamente al conjunto de valores que definen el dominio 5 de la varia-
ble. El número de hijos es un valor entero y nadie puede tener, por ejemplo, 1,29 hijos. La
media es resultado de una aplicación matemática. Esta aplicación -la media- nos permite
operar con grandes conjuntos de información de una forma sencilla. Así, por ejemplo, hemos
podido responder a la cuestión de la influencia de las creencias religiosas en la fecundidad .
~1ás adelante, cuando se traten las medidas de dispersión, veremos otra interpretación de la
media como indicador de situación de máxima igualdad.

Ejercicio 1
Calcule el número medio de hijos para otros grupos religiosos :

Número Tiene
Otras
de hijos Protestante Musulmana sus propias No creyente
religiones
nacidos vivos creencias
o 12 23 25 206 215
1 6 9 12 51 49
2 5 8 18 78 53
3 2 6 10 13 13
4 3 1 5 2

5
Recordemos que el dom inio de una vari able es el conjunto de todos los valores posibl es que puede tomar
dicha variable.
68 Estadística para la investigación social

(Continuación)

Número Tiene
Otras
de hijos Protestante Musulmana sus propias No creyente
religiones
nacidos vivos creencias

5 o 1 1 1 1
6 o o 1 1 o
7 o o o o o
8 o o o o 1
9 o o o o o
Mujeres de 15-49 años. Encuesta de Fecundidad 1999. INE.

A veces, en el proceso de comparación de medias resulta de interés la construcción de


indicadores para valorar las diferencias observadas. El más usual es la representación de las
diferencias en porcentaje. Obsérvese el siguiente ejemplo que muestra el salario medio en
los distintos niveles de estudios de una población. Aquí tenemos el salario medio bruto (en
euros) de Ja población española según el nivel de estudios 6 :
Tabla 9.
Salario medio de la población española por nivel de estudios (2002)

Total 19.802,45

l. Sin estudios 12.903,30


II. Educación primaria 15.640,44
IJI. Educación secundaria I 15.679,54
IV. Educación secundaria II 21 .634,00
V. Formación profesional de grado medio 17.961,83
VI. Formación profesional de grado superior 20.990,63
VII. Diplomados universitarios o equivalente 25.760,28
VIII. Licenciados, ingenieros superiores y doctores 32.997,45
Fuente: Encuesta de Estructura Salari al. 2002. INE.

Para comparar grupos (generados por los distintos niveles de estudios) podemos servir-
nos en este caso de las diferencias de cada grupo con el valor medio de la población total.
Estas diferencias nos marcan «desigualdades» entre los grupos en un plano general, conside-
rando la totalidad de la población en bloque. Si quisiéramos observar las desigualdades con-
cretas entre dos grupos sólo haría falta calcular la diferencia de salario entre estos. Pero al
comparar grupos de una forma general establecemos diferencias relativas considerando Ja
distribución total de los salarios en el conjunto de la población española (resumida en su
valor medio). Las diferencias entre los salarios medios que encontramos en cada nivel de
estudios y el salario medio total de la población 7 se observan en el Gráfico 1.

6
Son datos de Ja Encuesta de Estructura Salarial 2002, del Instituto Nacional de Estadística (INE). Se considera
el nivel máx imo de estudios alcanzado.
7
INE: Nota de prensa (16 noviembre 2004).
Capítulo IV. Estadísticos de resumen 69

Gráfico 1.
Comparación del salario medio anual por niveles de estudio.
Desviación del salario medio en %
-40 - 20 o 20 40 60 80

1 l. Sin estudios

1 11. Educación primaria

111. Educación secu ndaria 1

D IV. Educación secundaria 11

e V. Formación profesional de grado medio.

:::J VI. Formación profesional de grado superior

1 VII. Diplomados universitarios o equivalente

1
VI 11. Licenciados, ingenieros superiores y doctores
Fuente: Encuesta de Estructura Social 2000, INE.

Como puede apreciarse, el sistema de cálculo ha sido:

X¡ -xT
D¡ = - _ - X 100
Xr

Siendo X¡ el salario medio de la categoría « Í» y Xr el salario medio del total. Así, pode-
mos expresar la diferencia en términos porcentuales, por ejemplo, para la categoría sin estu-
dios:
12.903,3 - 19.802,45
D¡ = X 100 = - 34,84%
19.802,45

Es decir, el salario de quienes no tienen estudios es un tercio menor que el del conjunto
de los trabajadores.

1.4. Medias ponderadas


En algunos casos vamos a encontrar distribuciones en las que las medidas vienen agrupadas
~n unidades colectivas. Cuando los datos se presentan agrupados debemos tener presente que
la media del conjunto no es igual a la media de los grupos. Esta desigualdad viene motivada
por el distinto tamaño de las unidades colectivas. Por ejemplo, para calcular el salario medio
de Europa no podemos hacer la media simple de los salarios de cada país. Si lo hiciéramos
así estaríamos dando el mismo peso a Luxemburgo que a España.
Para calcular medias cuando los datos vienen agrupados se utiliza Ja media ponderada.
El procedimiento ya lo hemos ilustrado en el apartado anterior al exponer el cálculo de me-
dias para datos agrupados. De forma genérica, vamos a definir Ja media ponderada como:

X¡p¡
x =--
LPi
70 Estadística para la investigación social

siendo <<p» la variable que contiene los valores de ponderación, generalmente el tamaño o
peso del grupo. Obsérvese que cuando los datos están agrupados, utilizamos n -la frecuen-
cia- como valor de k (véase en el Apartado 1.2. el ejemplo del cálculo de datos agregados
por intervalo para el cálculo de la edad media de los miembros de la cooperativa de cabreros).
La Tabla 10 contiene la esperanza de vida al nacimiento para 15 países europeos. La
esperanza de vida es la media de años que viviría un grupo de personas nacidas en el mismo
año.
Tabla 10.
Esperanza de vida en la UE-15 (2009).

Esperanza
de vida 2009

Bélgica 79,4
Dinamarca 78,3
Alemania 79,6
Irlanda 79,2
Grecia 79,5
España 81,1
Francia 80,9
Italia 81,4
Luxemburgo 80,0
Países Bajos 80,2
Austria 79,8
Portugal 78,9
Finlandia 79,3
Suecia 80,7
Reino Unido 79,8

UE-15 80,3
Fu ente: EUROSTAT.

Para calcular la media de la UE-15 , resultaría erróneo obtener la media de los valores de
los 15 países. Si sumamos las 15 medias (79,4 + 78,3 + ··· + 80,7 + 79,8 = 1.198,1) y di-
vidimos la suma entre los 15 países, obtenemos

1.198,1
_1_5_ = 79,9

En este cálculo hemos otorgado la misma importancia a países grandes como España, con
alta esperanza de vida, que a países pequeños como Finlandia con esperanza de vida baja.
La cifra que ofrece Eurostat, sin embargo, es diferente. Eurostat ha calculado la media
europea teniendo en cuenta el peso de cada país, es decir, considerando que hay más españo-
les que viven más y menos finlandeses que viven menos. Si aplicamos la fórmula anterior de
media ponderada obtenemos el siguiente resultado:
Capítulo IV. Estadísticos de resumen 71

Tabla 11.
Cálculo de la media ponderada. Datos Tabla 10.

Esperanza Población
de vida 2009 2009 X¡p¡
(x) (p)

Bélgica 79,4 10.753.080 853.794.552,00


Dinamarca 78,3 5.511.451 431.546.613,30
Alemania 79,6 82.002.356 6.527.387.537 ,60
Irlanda 79,2 4.450.030 352.442.376,00
Grecia 79,5 11.260.402 895.201 .959,00
España 81, 1 45 .828. 172 3.716.664.749,20
Francia 80,9 64.350.226 5.205.933.283,40
Italia 81,4 60.045 .068 4.887 .668.535,20
Luxemburgo 80,0 493.500 39.480.000,00
Países Bajos 80,2 16.485.787 1.322.160. 117,40
Austria 79,8 8.355.260 666.749.748 ,00
Portugal 78 ,9 10.627.250 838.490.025,00
Finlandia 79,3 5.326.314 422.376.700,20
Suecia 80,7 9.256.347 746.987.202,90
Reino Unido 79,8 61.595.091 4.915.288.261,80

Total 396.340.334 31.822.171.661,00

Luego,

_ X¡p¡ 31.822.171.661
x=~= = 80,29 ~ 80,3 años
¿ p¡ 396.340.334

Ejercicio 2
La siguiente tabla contiene las densidades de población de 15 países de Europa.

Seleccione la información que necesite y calcule la densidad demográfica de la UE-15.

Densidad (2009) Población Superficie


habitantes x km 2 (2009) km 2

Bélgica 356 ,0 10.753.080 30.158


Dinamarca 128,2 5.511.451 43.094
Alemania 229 ,3 82 .002.356 357.050
Irlanda 65 ,2 4.450.030 70.000
Grecia 86 ,2 11 .260.402 131.957
España 91 ,5 45.828.172 504.782
Francia 102,0 64.350.226 550.000
72 Estadística para la investigación social

(Continuación)

Densidad (2009) Población Superficie


habitantes x km 2 (2009) km 2

Italia 204,0 60 .045.068 301.263


Luxemburgo 192,5 493.500 2.586
Países Bajos 489,7 16.485.787 41 .864
Austria 101 ,5 8.355.260 83.858
Portugal 115,5 10.627.250 92.072
Finland ia 17,6 5.326.314 338.000
Suecia 22,7 9.256.347 450.000
Reino Unido 254,2 61 .595.091 242.500

2. Medidas de dispersión de los datos en variables


de intervalo
Una media resume una población. La media aritmética, como aplicación matemática, hace
corresponder a un conjunto de datos un único valor. Ahora bien, para poder sustituir toda
una distribución poblacional por su media, hemos de valorar en qué medida esta - la me-
dia- puede representar al conjunto de Ja población.

Una media conseguirá representar mejor a una población si la diferencia de los datos
respecto al valor medio -Ja dispersión- es reducida, y la representará peor cuando dicha
dispersión sea grande. Por ejemplo, el conocido caso de una pareja en Ja que uno de los
miembros se come todo el pollo representa Ja situación en la que los valores (O quien no
come nada, y 1 quien se come todo) quedan más lejos del valor medio (1/2 = 0,5 ).
Si los datos están muy agrupados en tomo a Ja media, esta será muy representativa, es
decir, conseguirá resumir de forma muy fiable el conjunto poblacional. Por el contrario, si
los datos están muy dispersos alrededor de Ja media, esta será poco representativa.

Para conocer Ja concentración de los datos alrededor de la media o, Jo que viene a ser lo
mismo, su dispersión, utilizamos medidas como la desviación media, la varianza o la desvia-
ción típica. Estas medidas son indicadores de las diferencias de todos los valores con rela-
ción a la media. Nos indican la dispersión o variabilidad de los datos de una población en
torno al valor medio de la variable que estemos considerando.

2.1. Desviación media


Una sol ución sencilla para calcular la dispersión respecto a la media puede ser la desviación
media (dm). La desviación media de una variable es la media (aritmética) de las diferencias
de todos los valores en relación con la media aritmética de Ja variable, esto es, la media de
las distancias entre cada uno de los valores de la variable y el valor medio.
Capítulo IV. Estad íst icos de resu men 73

La desviación de un valor en relación a la media es la distancia que lo separa de la me-


dia. Una distancia siempre es un valor absoluto, positivo 8 .
En el ejemplo del tamaño medio de hogar, estas desviaciones, para cada una de los valo-
:es serán:
Tabla 12.
Cálculo desviación media. Datos Tabla 3 (Hogares según número de personas).

Número
n -
de personas
(cuestionarios)
X¡ - x lx; - xi lx; - xln;
(x)
1 13.111 -1,65 1,65 21.633 ,15
2 20.269 -0,65 0,65 13.174,85
3 13.986 0,35 0,35 4.895 ,10
4 12.859 1,35 1,35 17.359,65
5 3.229 2,35 2,35 7.588,15
6 889 3,35 3,35 2.978,15
7 241 4,35 4,35 1.048 ,35
8 76 5,35 5,35 406,60
9 27 6,35 6,35 171 ,45
10 12 7,35 7,35 88 ,20
11 3 8,35 8,35 25 ,05
12 6 9,35 9,35 56,10
13 1 10,35 10,35 10,35
14 1 11,35 11 ,35 11,35
15 o 12,35 12,35 o00
16 2 13,35 13,35 26,70

Total 64.712 69.473 ,20

La desviación media de la distribución de las diferencias de todos los valores respecto al


,·alor medio será la siguiente:

I lx; - xl n¡ 69.473 ,2
dmx = ~ = = 1,07 personas
¿ n¡ 64.712

La desviación media del tamaño de hogar es de 1,07 personas.


Sin embargo , la desviación media res ulta difícil de interpretar si comparamos distribu-
iones de distinta naturaleza. En la práctica se util iza la varianza como indicador de disper-
ión, que como veremos a continuación, simplemente es la media de las diferencias elevadas
al cuadrado. Como se destacará al final de este capítulo, el teorema de Chebyshev, así como

8
El va lor absoluto de un número real «a» será igual al máxi mo de los val ores «a» y « - a» . Esto se escribe:
a 1 = máx {a, - a} . Por ejemplo, el valor absoluto de «4» será 4 y el valor absoluto de « - 4» será 4.
74 Estadística para la investigación social

el uso de la distribución Gaussiana de probabilidad, permiten una interpretación de esta me-


dida con independencia de la naturaleza de la variable que estemos considerando.

2.2. Varianza y desviación típica


Denominamos varianza (s2) al valor medio del cuadrado de las desviaciones de todos los
valores en relación a la media aritmética:

'\""' - 2
2 _ L.,(X; - X)
Sx - N

Si tomamos como ejemplo el caso de las puntuaciones (6, 8 y 8,5) que dieron los jueces a
la gimnasta, la media fue 7 ,5 -calculada en el Apartado 1.1- y la varianza será:

(6 - 7,5)2 + (8 - 7,5) 2 + (8,5 - 7,5) 2 = -1,5 2 + 0,5 2 + 12 = 2,25 + 0,25 + 1 = 3,5

Cuando tenemos datos agregados:

'L.,
\""' (X¡ - X
-)2 11¡
s2
X
=~----
N

A la raíz cuadrada de la varianza --que es una suma de cuadrados- la llamamos desvia-


ción típica (s). La desviación típica de una variable cualquiera X será:

S =
X
JI (X; - X )2
N

Para el caso de las puntuaciones de la gimnasta, la desviación típica será: }33 = 1,87.

Como en el caso de la media, suelen distinguirse los símbolos de varianza y desviación


típica en función de la procedencia de los datos: si proceden de una muestra se utilizas~ para
la varianza y sx para la desviación típica, y si proceden de poblaciones la notación utilizada
es u~ para la varianza y para la desviación típica.

Cuando trabajamos con datos agregados, las fórmulas simplemente multiplican las dife-
rencias al cuadrado de los valores respecto a la media [(x; - .X)2] por sus frecuencias [n;]:

S
X
=JI (x; - x) n;
N
2

Calcularemos primero la varianza y, a contin uación, su raíz cuadrada.

En el ejemplo que estábamos viendo más arriba sobre hogares según el número de perso-
nas, elaboramos la Tabla 13 para realizar este cálculo:
Capítulo IV. Estadísticos de resumen 75

Tabla 13.
Cálculo de la varianza. Datos Tabla 3.

Número
n - 2
de personas (X¡ - X) (X¡ - X) 2 (x¡ - x) n¡
(cuestionarios)
(x)

1 13.111 -1,65 2,72 35.694,70


2 20.269 -0,65 0,42 8.563 ,65
3 13.986 0,35 0,12 1.713,29
4 12.859 1,35 1,82 23.435,53
5 3.229 2,35 5,52 17.832,15
6 889 3,35 11 ,22 9.976,80
7 241 4,35 18,92 4.560,32
8 76 5,35 28,62 2.175,3 1
9 27 6,35 40,32 1.088,71
10 12 7,35 54,02 648 ,27
11 3 8,35 69,72 209,17
12 6 9,35 87,42 524,54
13 10,35 107,12 107,12
14 1 11,35 128,82 128,82
15 o 12,35 152,52 0,00
16 2 13,35 178,22 356,45

Total 64.712 107.014,82

La varianza de esta distribución de edades será:

35.694,70 + 8.563 ,65 + ... + 356,45


s; = 64.7 12 = 1,654

Y su desviación típica:
sx = fi,654 = 1,286 personas

Para establecer la dispersión de los datos en tomo a la media, normalmente se suele utili-
zar la desviación típica, y más si trabajamos con datos muestrales. En este caso, la desvia-
ión típica tiene un papel decisivo para fijar, a partir de la «media» obtenida en una muestra,
los límites entre los que se encontrará la «media» en el conjunto de la población9 .
Como se estudiará en el Capítulo VIII, cuando en lugar de trabajar con poblaciones tra-
bajamos con muestras, solemos utilizar las siguientes medidas:
• Cuasi-varianza
2 ¿ex¡ - x)2
s
Xn-1
=~---
n _ 1

9
Como se verá en el Capítulo IX .
76 Estadística para la investigación social

• Cuasi-desviación típica

s_
Xn-1
= }(x; -x)2
n _ 1

Como podemos observar, la única diferencia está en el denominador, que es n - 1 en


lugar del número de casos (N). Para tamaños de muestra grande, la diferencia entre la varian-
za y la cuasivarianza resulta inapreciable. Es importante tener en cuenta que la mayoría de
los programas estadísticos, por ejemplo SPSS o PSPP, calculan la cuasivarianza y la cuasi-
desviación típica. En otros programas y calculadoras electrónicas se ofrecen ambos estadísti-
cos, y suelen utilizarse las expresiones varianza poblacional, para la varianza, y varianza
muestra! para la cuasivarianza.

2.3. Varianza y desviación en tablas con datos agregados


Cuando nos encontramos con distribuciones de datos agregados en intervalos, el procedi-
miento de cálculo, al igual que se hizo con la media, consiste en sustituir el valor de x por la
marca de clase del intervalo.
Por ejemplo, para la conocida distribución de edades de la cooperativa de cabreros cuya
edad media era de 43,9 años, obtenemos lo siguiente:
Tabla 14.
Datos cálculo varianza con datos agregados.
Datos Cuadro 1 (edades cooperativa de cabreros).

Marca
Frecuencia
Edad de clase (x - x) (x - x)2n
(n)
(x)

20-29 25 14 353,44 4.948,16


30-39 35 17 77,44 1.316,48
40-49 45 22 1,44 31,68
50-59 55 18 125,44 2.257,92
60-69 65 9 449,44 4.044,96

Total 80 12.599,20

S
X
=}(X; N- x)2n; = 12.599,2
80
= 12,55 años

Ejercicio 3
Calcule la varianza y la desviación típica del número de hijos según la creencia religiosa de la
madre.
Utilice los datos de la Tabla 7 para católicas practicantes y no practicantes, y los de la tabla
del Ejercicio 1 para el resto de categorías de creencia religiosa.
Capítulo IV. Estadísticos de resumen 77

La relación entre media y desviación típica


=.::mos ahora un ejemplo hipotético para valorar la información que nos proporciona la va-
-~- Las Tablas 15, 16 y 17 presentan los datos de tres poblaciones en las que observamos
_, - tribución de las edades: estas tienen valores medios iguales y distintas desviaciones
~ . Aquí nos interesa conocer la «representatividad» de la media como valor resumen de
clistribución poblacional a través de su desviación típica, que para este caso podemos
-:~rvar fácilmente con la representación gráfica de los datos. El grado de «representativi-
~ es siempre, no hay que olvidarlo, algo relativo, que adquiere sentido en los estudios
parativos.
En la primera población, la A, la mayor parte de los casos permanecen agrupados en
o al valor central, que es el valor medio: es la población con menor dispersión respecto a
edad media. Es la que tiene, por tanto , la desviación estándar más pequeña.
Tabla 15. Población A Gráfico 2. Población A.
n;
Edad X¡ n; 3SO

300
_0-29 25 130 2SO
30-39 35 210
200
0-49 45 320
1SO
-o-59 55 210
60-69 65 130 100

so
Total 1.000 o
20-29 30-39 40-49 SO-S9 60-69
Edad
_ edia: .X = 45 años
:Je viación típica: Sx = 12,08 años
La segunda, la población B, presenta una distribución uniforme, con una mayor disper-
_-ón: tiene, por tanto, una desviación estándar mayor que la población A.
Tabla 16. Población B Gráfico 3. Población B.
n;
Edad X 1· 11¡ 3SO
300
20-29 25 200 2SO
30-39 35 200
200
40-49 45 200
1SO
50-59 55 200
100
60-69 65 200
so
Total 1.000 o
20-29 30-39 40-49 SO-S9 60-69
Edad
~1edia: .X = 45 años
Desviación típica: Sx = 14,14 años
78 Estadística para la investigación social

La tercera, la población C, es la de mayor dispersión de edades, porque la mayor parte de


los casos se encuentran en los valores extremos, muy alejados de la edad media. La desvia-
ción estándar es cuatro años mayor que la de la primera distribución.

Tabla 17. Población C Gráfico 4. Población C.


n;
Edad X¡ 11¡
350

300
20-29 25 300 250
30-39 35 150 200
40-49 45 100
150
50-59 55 150
100
60-69 65 300
50
Total 1.000 o
20-29 30-39 40-49 50-59 60-69
Edad

Media: .X = 45 años

Desviación típica: Sx = 16,43 años

En la primera distribución los datos aparecen concentrados alrededor del valor medio, en
la segunda se distribuyen de modo uniforme en tomo a este, y en la tercera aparecen concen-
trados en los extremos de Ja distribución, lejos de la media. Está claro que la representativi-
dad de la media va decreciendo en cada una de las distribuciones: la población A tiene el
valor medio que mejor representa a su población, mientras que el de la población C es el
peor representante.

Siempre que se resumen distribuciones o poblaciones a través de sus valores medios será
conveniente, si queremos ser precisos, acompañar cada valor medio con la desviación típica
de la distribución.

Sin embargo, en la realidad no comparamos casos hipotéticos, sino distribuciones reales


de medidas en unidades distintas y con medias diferentes. Una solución consiste en estanda-
rizar las medidas de dispersión con el fin de facilitar comparaciones entre distintos grupos. Y
esto lo hacemos a través de un coeficiente de variación (CV) , que es un coeficiente estanda-
rizado de dispersión de los datos, medido en unidades de media. Lo que hacemos a través de
este coeficiente es darle a las medias de cada población el valor 1, y así observamos en tomo
a este valor (idéntico para todas las poblaciones) la dispersión de los datos.

Para las poblaciones anteriores obtenemos los resultados que se muestran en la Ta-
bla 18.
Capítulo IV. Estadísticos de resumen 79

Tabla 18.
Coeficientes de variación. Datos Tablas 15,16 y 17.

Población Media Desviación Coeficiente


típica de variación

12,08
A 45 12,08 --=027
45 ,

14,14
B 45 14,14 - - =o 31
45 ,

16,43
c 45 16,43 - - = 037
45 ,

La población A, con el menor coeficiente -expresado en porcentaje, 27%- tiene los


datos más concentrados en tomo a la media. En la población C, el coeficiente de variación
~ ulta del 37 %, mostrando una dispersión mayor.

Si volvemos a la tabla de la encuesta de fecundidad (Tabla 19), podemos constatar, por


ejemplo, que las mujeres que se declaran «Católicas practicantes» presentan comparativa-
:nente una elevada fecundidad. Pero también su desviación típica es de las más elevadas. Sin
embargo, si observamos el coeficiente de variación vemos que la desviación típica es eleva-
da debido principalmente a que este colectivo tiene una media alta y no tanto a una gran
dispersión de los datos. Es decir, el coeficiente de variación nos informa de la variación real
de los datos neutralizando el efecto del tamaño de las medias.
Tabla 19.
Número de hijos nacidos vivos. Encuesta de Fecundidad 1999. INE.

Desviación Coeficiente
Media
típica de variación

Católica practicante 1,293 1,348 1,043


Católica no practicante 1,010 1,129 1, 118
Protestante 1,000 1,160 1,160
Musulmana 1,200 1,394 1,162
Otras religiones 1,368 1,357 0,992
Tiene sus propias creencias 0,780 1,069 1,371
No creyente 0,644 1,040 1,615
No sabe/no contesta 0,788 0,970 1,231

Total 1,086 1,222 1,125

Si observamos detenidamente los datos, vemos que los coeficientes de variación son
muy próximos en valor entre las distintas categorías de quienes se declaran pertenecer a al-
80 Estadística para la investigación social

guna religión (católicos, protestantes, musulmanes u otros). Esto quiere decir que podemos
comparar las medias entre las distintas creencias religiosas sin que ello suponga una pérdida
de información relevante. Las categorías situadas al final (especialmente el grupo que se
declara «No creyente»), aunque tienen las desviaciones típicas más bajas, muestran una
mayor dispersión relativa (coeficiente de variación). Efectivamente, en estos colectivos las
medias son comparativamente más bajas por la importancia que tiene el grupo de quienes no
tienen hijos, pero el valor más elevado del coeficiente de variación está indicando, a su vez,
una mayor dispersión relativa motivada por la presencia, también en estos colectivos, de fa-
milias numerosas.

3. Otros estadísticos para conocer la estructura


de los datos
En las variables numéricas existen otras medidas que también nos dan cuenta de cómo los
datos estructuran una distribución: el rango, la moda, la mediana, los cuantiles, el rango
intercuartílico .. . Para ciertos tipos de distribuciones de frecuencias , estos estadísticos pueden
ser preferibles frente a la media como indicadores de resumen.
Para introducirnos en la definición y el uso de estos estadísticos vamos a centrarnos en la
distribución de la variable edad de los contrayentes en los matrimonios celebrados en el año
2010, según su sexo 10 (Tabla 20).
Tabla 20.
Edad de los contrayentes en 2010 (INE). Frecuencias absolutas, porcentajes
y porcentajes acumulados.

% %
Edad % %
Hombres Mujeres acumulado acumulado
(x) hombres mujeres
hombres mujeres

14 1 o 0,001 0,000 0,001 0,000


15 o 1 0,000 0,001 0,001 0,001
16 1 7 0,001 0,004 0,001 0,005
17 7 59 0,004 0,035 0,005 0,039
18 23 224 0,013 0,132 0,019 0,171
19 121 632 0,071 0,372 0,089 0,544
20 285 968 0,167 0,570 0,256 1,114
21 551 1.339 0,322 0,789 0,578 1,903
22 885 2.002 0,517 1,180 1,095 3,083
23 1.357 2.826 0,793 1,665 1,888 4,748
24 2.068 4.213 1,208 2,482 3,096 7,230
25 3.053 5.878 1,784 3,463 4,880 10,693

10
Los datos proceden del Movimiento Natural de la Población (INE).
Capítulo IV. Estadísticos de resumen 81

Tabla 20. (Continuación)

% %
Edad o/o %
Hombres Mujeres acumulado acumulado
(x) hombres mujeres
hombres mujeres

26 4.609 8.060 2,693 4,749 7,573 15,442


27 6.561 10.303 3,833 6,070 11,406 21 ,513
28 8.826 12.012 5,157 7,077 16,563 28 ,590
29 11.059 12.936 6,461 7,622 23 ,024 36,212
30 12.434 13.177 7,265 7,764 30,289 43,976
31 12.890 12.585 7,531 7,415 37,820 51,391
32 12.772 11.712 7,462 6,901 45,282 58,291
33 11.711 10.031 6,842 5,910 52,124 64,202
34 10.411 8.806 6,083 5,188 58,207 69,390
35 8.979 7.268 5,246 4,282 63,453 73 ,672
36 7.760 6.084 4,534 3,585 67,987 77,257
37 6.615 5.096 3,865 3,003 71 ,852 80,260
38 5.561 4.265 3,249 2,513 75 ,101 82,773
39 4.756 3.638 2,779 2,143 77 ,879 84,916
40 4.081 3.075 2,384 1,812 80,264 86,728
41 3.438 2.595 2,009 1,529 82,272 88,257
42 2.968 2.223 1,734 1,310 84,006 89,567
43 2.637 1.959 1,541 1,154 85,547 90,721
44 2.362 1.775 1,380 1,046 86,927 91 ,767
45 2.089 1.577 1,221 0,929 88 ,148 92,696
46 1.868 1.515 1,091 0,893 89,239 93,588
47 1.701 1.301 0,994 0,767 90,233 94,355
48 1.516 1.203 0,886 0,709 91 ,119 95 ,064
49 1.389 1.049 0,812 0,618 91 ,930 95 ,682
50 1.361 989 0,795 0,583 92,725 96,265
51 1.232 870 0,720 0,513 93,445 96,777
52 1.085 772 0,634 0,455 94,079 97 ,232
53 1.008 677 0,589 0,399 94,668 97 ,631
54 857 582 0,501 0,343 95 ,169 97,974
55 828 509 0,484 0,300 95,653 98,274
56 709 467 0,414 0,275 96,067 98,549
57 664 359 0,388 0,212 96,455 98,760
58 650 350 0,380 0,206 96,834 98,967
59 551 289 0,322 0,170 97,156 99,137
60 493 222 0,288 0,131 97,444 99,268
61 477 184 0,279 0,108 97 ,723 99,376
62 482 195 0,282 0,115 98,005 99,491
63 446 131 0,261 0,077 98,265 99 ,568
64 353 115 0,206 0,068 98,472 99,636
82 Esta dística para la investigación social

Tabla 20. (Continuación)

% %
Edad % %
Hombres Mujeres acumulado acumulado
(x) hombres mujeres
hombres mujeres

65 338 120 0,197 0,071 98,669 99,707


66 301 88 0,176 0,052 98,845 99,758
67 281 62 0,164 0,037 99,009 99,795
68 209 48 0,122 0,028 99,131 99,823
69 174 51 0,102 0,030 99,233 99,853
70 185 50 0,108 0,029 99,341 99,883
71 112 35 0,065 0,021 99,406 99,903
72 118 27 0,069 0,016 99,475 99,919
73 116 19 0,068 0,011 99,543 99,930
74 116 16 0,068 0,009 99,611 99,940
75 86 11 0,050 0,006 99,661 99,946
76 88 21 0,051 0,012 99,713 99 ,959
77 80 14 0,047 0,008 99,759 99,967
78 58 13 0,034 0,008 99,793 99,975
79 45 8 0,026 0,005 99,819 99,979
80 67 8 0,039 0,005 99,859 99,984
81 47 4 0,027 0,002 99,886 99 ,986
82 41 4 0,024 0,002 99,910 99 ,989
83 34 3 0,020 0,002 99,930 99,991
84 24 2 0,014 0,001 99,944 99,992
85 17 4 0,010 0,002 99,954 99,994
86 17 1 0,010 0,001 99,964 99 ,995
87 16 1 0,009 0,001 99,973 99,995
88 9 2 0,005 0,001 99,978 99,996
89 14 1 0,008 0,001 99,987 99,997
90 4 1 0,002 0,001 99,989 99,998
91 7 2 0,004 0,001 99,993 99,999
92 4 1 0,002 0,001 99,995 99,999
93 1 o 0,001 0,000 99,996 99,999
94 3 o 0,002 0,000 99,998 99,999
95 2 o 0,001 0,000 99,999 99,999
96 1 1 0,001 0,001 99,999 100,000
97 o o 0,000 0,000 99,999 100,000
98 o o 0,000 0,000 99,999 100,000
99 1 o 0,001 0,000 100,000 100,000

Total 171.157 169.723 100% 100%


Fuente: Movimiento Natural de la Poblaci ón . 2010. INE.
Capítulo IV. Estadísticos de resumen 83

Gráfico 5.
Hombres que contrajeron matrimonio en 2010 por edad.

14 19 24 29 34 39 44 49 54 59 64 69 74 79 84 89 94 99
Edad
Fuente: Movimiento Natu ral de la Población 2010, INE .

Gráfico 6.
Mujeres que contrajeron matrimonio en 201 O por edad.
14.000

12.000

10.000

8.000

6.000

4.000
1 1
2.000

o
14 il'"
19 24 29 34 39
1111111111111111.
44

=-- ente: Movimiento Natural de la Población 2010, INE.


49 54 59
Edad
64 69 74 79 84 89 94 99

3 rango o recorrido de una variable es la distancia entre el valor máximo y el mínimo


- -ca. En el caso concreto de los hombres será 99 - 14 = 85 años, y para las mujeres
- 15 = 81 años .
.:..a modaes el valor más frecuente . Para los hombres la edad modal es de 31 años , es
. aquella a la que más hombres contrajeron matrimonio (12890), mientras que para las
.~e es de 30 años, edad a la que se casaron 13177 (en la Tabla 20 se encuentran som-
o dichos valores). La moda nos señala cual es el grupo o valor que concentra el mayor
~o de efectivos, esto es, el que presenta la frecuencia absoluta más alta de la distribu-

~ moda resulta un valor orientativo únicamente en distribuciones donde los datos se


:-entran en tomo a un valor -en términos matemáticos, donde sólo hay un máximo
. En otro tipo de distribuciones no tiene sentido hablar de moda, o bien hay que
84 Estadística pa ra la investigación social

hablar de varias modas. Por ejemplo, si en la distribución del número de hijos nos fijamos
en el colectivo de católicas practicantes, vemos que aunque el máximo --el valor modal-
es «0», la distribución es bimodal: o no se tienen hijos, o cuando se tienen el valor más
frecuente es «2».

Gráfico 7.
Mujeres «Católicas practicantes» según el número de hijos. Datos Tabla 7.
1.400 ~-------------------------

1 2 3 4 5 6 7 8 9 10
Número de hijos
Fuente: Encuesta de Fecundidad 1999, INE.

La mediana es el valor que divide la distribución en dos grupos del mismo tamaño. Para
los datos estudiados de edades al matrimonio, los valores medianos son 33 años para los
hombres y 31 para las mujeres. Ello quiere decir que el 50% de los hombres contrayentes
tendrá menos de 33 años y el otro 50% tendrá más de dicha edad. Igualmente ocurre con las
mujeres, de fonna que la mitad de las contrayentes será menor de 31 años y la otra mitad
será mayor de esa edad.

Para el cálculo de la mediana utilizamos habitualmente la distribución acumulada de


proporciones. Como vemos en la Tabla 20, el valor mediano para los hombres está entre 32
y 33 años, mjentras que para las mujeres se encuentra entre 30 y 31 años. Los programas
estadísticos habitualmente usados para el cálculo utilizan el valor entero inmediatamente su-
perior.

Tabla 21.
Estadísticos de la variable «edad al matrimonio>> . Datos Tabla 20.

Desviación
Media Mediana Moda Percentil 25 Percentil 75
típica

Hombres 35,47 9,00 33,00 31 ,00 30,00 38,00


Mujeres 32,89 7,63 31 ,00 30,00 28,00 36,00
Capítulo IV. Estadísticos de resumen 85

_ .1 . Cuantiles
~ la misma forma que hemos definido la mediana, podemos utilizar otros cortes en la dis-
ibución que dividan en grupos a la misma. De forma genérica llamamos cuantiles a estas
~edidas. Los cuantiles son Jos valores que dividen a la población en partes iguales (con el
~ - mo número de casos cada una de ellas) estando los valores ordenados de menor a mayor.

Así, por ejemplo, podemos dividir la población en cuatro grupos iguales: los denomina-
cuartiles. Los valores cuartiles dejan entre ellos el 25% de los casos (de la población),

sto es, la cuarta parte (~).


Tenemos 3 valores cuartiles. El primero (Q 1) deja entre él y el valor mínimo de la pobla-
- ón el 25% de los casos que presentan los valores más bajos 11 • El segundo cuartil (Q 2 ) deja
_ tre él y el valor mínimo las 2/4 partes (esto es, el 50%) de los casos de menor valor (el
_ ~gu ndo cuartil tiene el mismo valor que la mediana). El tercer cuartil (Q 3 ) hace lo propio
:un las 3/4 partes (con el 75%).
Entre el primer y el segundo cuartil encontraremos 1/4 parte de Ja población, igual que
tre el segundo y el tercero. Entre el tercer cuartil y el valor máximo de la distribución se
_ ontrará también 1/4 parte de la población.
Los tres valores cuartiles dividen la distribución en 4 partes iguales (cada una de ellas
.:on el 25% de Jos casos). Como podemos observar utilizando la distribución acumulada, los
_ artiles de la distribución sobre edades al matrimonio serán:
Tabla 22.
Cuartiles. Datos Tabla 20.

Hombres Mujeres

QI 30 28
Q 2 =Mediana 33 31
Q3 38 36

El número de grupos iguales en que podemos dividir la población puede variar. Así, ade-
:nás de los cuartiles, otros cuantiles muy utilizados son los quintiles, los deciles y los percen-
·1es. En realidad, podemos considerar los cuartiles, quintiles, deciles y demás valores de
_artición como casos particulares de los percentiles, que dividen la población en 100 grupos
:on el mismo peso cada uno de ellos (el 1% del total). De ahí que tengamos 99 valores
x rcentiles.
El primer valor percentil (P 1) deja por debajo de él al 1% de los valores más bajos de la
- tribución, el segundo (P 2) al 2%, el tercero (P 3 ) al 3%, y así sucesivamente hasta llegar al
P99 , que deja por debajo de él al 99% de los valores más bajos de Ja distribución (o por
;!ncima de él al 1% de los valores más altos) .

11
Gráficamente, el Q 1 deja por debajo de él (o a su izquierda, si representamos la distribución con un histogra-
;:na) al 25 % de la población que presenta los menores valores de esta.
86 Estadíst ica para la investi gación social

El primer valor cuartil coincidirá con el vigésimo quinto percentil [Q 1 = P25 ], el segundo
con el quincuagésimo [Q 2 = P50 ], etc.
El primer valor quintil (aquel que deja entre él y el valor mínimo 1/5 de la población)
coincidirá con el vigésimo percentil [K 1 = P 20 ] , el segundo con el cuadragésimo [K2 = P 40 ],
etcétera.
Y el primer valor decil será igual al décimo percentil [D 1 = P 10 ], el segundo al vigésimo
[D 2 = P20 ], etc.
Conviene advertir aquí que también se habla de cuartiles, quintiles, deciles, etc., para
referirnos, no ya a los valores de Ja distribución que marcan la separación entre grupos que
cuentan con una determinada proporción de casos (el 25%, el 20%, el 10%, etc.), sino tam-
bién a cada uno de esos grupos generados por los valores cuartiles, quintiles, deciles, etc. Por
tanto, no hay que confundir valores cuantiles y grupos cuantiles.
En los Gráficos 8 y 9 podemos observar gráficamente el cálculo de la mediana y de los
cuartiles para las distribuciones respectivas de edades al matrimonio de hombres y mujeres:
Gráfico 8.
Representación gráfica del cálculo de la mediana. Edad al matrimonio de los hombres 201 O.
Datos Tabla 20.
100
90 Frecuencias relativas acumuladas
80 %
70
60
so
40
30
20
10
o +----.--~~~i...,..~~~~~~~~~~~~~~.....----.-~..,-_,~-.-

14 19 24 29 34 39 44 49 54 59 64 69 74 79 84 89 94 99

10 Frecuencias relativas
%
8

o-1-.........~~~--1.~~~~~--=::=~~""""--~~...---.~-.---.~-r­
M ~ M ~ ~ ~ M ~ ~ ~ ~ ~ ~ ~ M ~ ~ ~
Edad

Con estas medidas podemos, a su vez, construir otras que nos informan de la variabi-
lidad de las distribuciones, destacando entre ellas el rango intercuartílico. Las distancias en-
tre los cuartiles contiguos nos darán información sobre la distribución de la población, espe-
cialmente la que separa el primer y el tercer cuartil, que llamamos recorrido o rango
Capítulo IV. Estad ísticos de resumen 87

Gráfico 9.
Representación gráfica del cálculo de los cuartiles. Edad al matrimonio de las mujeres. 201 O.
Datos Tabla 20.
100
90 Frecuencias relativas acumuladas
80 %
70 Q3
60
so
40 Q2
30
20 Ql
10
o
14 19 24 29 34 39 44 49 54 59 64 69 74 79 84 89 94 99

10
Frecuencias relativas
9
%
8
7
6
5
4
3
2
1
o
14 19 24 29 34 39 44 49 54 59 64 69 74 79 84 89 94 99
Edad

intercuartaico, y que se puede utilizar como medida de dispersión de los datos (en torno al
·a!or mediano 12 ).

En nuestro ejemplo, el recorrido intercuartílico es:


Hombres: 38-30 = 8 años
Mujeres: 36-28 años

Ejercicio 4
Calcule los siguientes cuantiles:
• De la distribución de edades al matrimonio de los hombres (Tabla 20):
- El segundo decil.
- El percenti l 85.
• De la distribución de edades al matrimonio de las mujeres (Tabla 20):
El cuatro decil.
- El percenti l 35.

12
Sobre el valor mediano de una distribución se habla un poco más abajo.
88 Estadística para la investigación social

3.2. Uso de los cuantiles


Si bien la media es el estadístico de tendencia central más habitual, en algunas situaciones
tiene mayor interés analítico la mediana o alguno de los cuantiles. Esto ocurre cuando la
media está alterada por valores extremos. Por ejemplo, la distribución de la edad al matrimo-
nio es una distribución muy asimétrica: de forma aproximada la mitad de los matrimonios se
producen entre 20 y 30 años (una década) y la otra mitad entre 30 y 60 (tres décadas) , y los
pocos valores de personas centenarias elevan la media de una forma importante. Es decir,
cuando hay fuerte asimetría los valores muy extremos condicionan la media, de tal forma
que esta pierde su capacidad interpretativa y merma, por tanto, su interés analítico. En cam-
bio, en distribuciones simétricas, la media, la mediana y la moda coinciden.
En esta situación de asimetría se encuentran las variables de carácter económico que mi-
den rentas e ingresos. Generalmente, los altos ingresos se concentran en pocas personas
mientras que la mayoría de la población se concentra en el área de menos ingresos. Bien
conocido, por ejemplo, es el poco valor que tiene la «renta per cápita», que es una media de
ingresos, para comparar países cuando hay grandes desigualdades.
Obsérvese la siguiente situación: en el país A el 90% de la población dispone de menos
del 0,3% del total de los ingresos del país. En el país B, la situación resulta muy igualitaria.
En el país B la renta per cápita -media- nos da una idea bastante precisa, si bien el 5% de
los ricos ( > 5.000 euros) suben la media desde 500 a 700 euros. En el país A, la renta per
cápita da una idea absolutamente falsa. Las medianas sin embargo, nos permiten una compa-
ración bastante más adecuada de la situación entre ambos países.
Tabla 23.
Comparación de la media y de la mediana. Datos ficticios.

País A País B

Renta Renta
en euros n en euros n

l 9.000 1 500
500 500 500 9.000
5.000 500 5.000 500

Total 10.000 Total 10.000

Media 275,9 Media 700,05


Mediana 1 Mediana 500

Ya hemos señalado que la mediana es un valor que deja por debajo de él al 50% de la
población con los valores más bajos, y por encima al 50% de valores más altos. Divide la
población en dos partes con igual número de casos. Equivale al segundo cuartil , al quinto
decil y al quincuagésimo percentil.
Capítulo IV. Estadísticos de resumen 89

El valor mediano, al ser menos sensible a los valores extremos que el valor medio, se
_ · ºza en lugar de este para establecer umbrales de pobreza en la distribución de rentas (o
gresos).
Además, el uso de cuantiles nos permite lecturas de gran valor analítico sobre la desi-
gualdad. Por ejemplo, los cuartiles de renta nos permiten definir al grupo de los más ricos.
?ara ello podemos emplear el tercer cuartil , valor que nos dice cuál es la renta mínima que
~- pone el 25 % de quienes acumulan mayores ingresos.

A partir de la mediana podemos utilizar otras medidas para definir el «umbral de pobre-
za>> (monetaria). El indicador más utilizado en la Unión Europea se establece en el 60% de la
ediana de los «ingresos por unidad de consumo». En España, en el año 2003 (según la
~cuesta de Condiciones de Vida 13 2004), la mediana fue de 10.464,6 € y el umbral de
:-<>breza (60% de la mediana) se estableció en 6.278,7 € 14 (10.464,6 x 0,6 = 6.278,7). Es
_;::cir, con metodología de la Unión Europea, para 2004 se considera en situación de pobreza
_los hogares con rentas inferiores a 6.278,7 € por persona, es decir, aquellos que tienen
:cntas que no alcanzan el 60% de la renta que tiene la mitad de la población.
Con dicha metodología -porcentaje respecto a la mediana- podemos definir umbrales
__e «pobreza extrema» cuando el porcentaje es inferior al 40% de la mediana, en este caso:
:Q.464 X 0,4 = 4.185,8 € .
A partir de dichos valores podemos calcular, mediante la distribución acumulada, el por-
:~ntaje de pobres: en este caso, el 19,9% de los españoles vivían con rentas inferiores al
.:mbral de pobreza y un 7,4% de las personas debajo del umbral de pobreza extrema.
Gráfico 10.
Deciles de la población clasificada como pobre.

~-----10_%_
.~
Á ~---1-0_
%_ _' \

10% 10% 10% 10% 10% 10% 10% 10%

Dec1 Dec2 Dec 3 Dec 4 Dec 5 Dec 6 Dec 7 Dec 8 Dec 9


1.923 3.117 3.766 4.200 4.581 4.965 5.293 5.594 3.796
o

6.278,7
1.569,7 4.709,1
3.139,4
Ingresos(€)
Fuente: Estudio descriptivo de la pobreza en España . Resultados basados en la Encuesta de Vida . 2004. INE .

13
INE: Estudio descriptivo de la pobreza en Espaiía: Resultados basados en la Encuesta Condiciones de Vida
:004, pág. 17 [http://www.ine.es/daco/daco42/sociales/estudiodesc.pdf]
14
Las estadísticas del INE para definir la pobreza se basan en los ingresos netos por unidad de consumo (u.e.)
=el hogar, entendiendo como tales los ingresos netos totales del hogar (renta di sponible del hogar) entre el número
.:e unidades de consumo. El número de unidades de consumo se calcula utilizando la escala de la OCDE modifica-
:l<I: dando un peso 1 al primer miembro del hogar de 14 años o más, 0,5 al resto de miembros de 14 años o más y 0,3
:i los menores de 14 años. El umbral de pobreza de la población se fija en el 60% de la mediana de la di stribución de
ingresos netos del hogar (del indi viduo) por unidad de consumo dentro de este. Se clasifica como «pobre» a todo
dividuo que tenga unos ingresos en su hogar por unidad de consumo inferiores al que marca el umbral.
90 Estadística para la investi gación social

La Tabla 24 muestra la forma habitual de presentación de los cuantiles de forma que


permita la comparación entre grupos, en este caso, los salarios --de la industria y servi-
cios- por Comunidad Autónoma. Media y mediana se acompañan de los cuartiles y de los
percentiles P 10 y P90 (que equivalen respectivamente a Jos deciles D 1 y D9 ).

Tabla 24.
Ganancia anual por trabajador.

Percentil Cuartil Cuartil Percentil


Media Mediana
10 inferior superior 90

Total nacional 22.790,20 8.643 ,66 13.602,53 19.017,09 28.255,45 40.811,42


Andalucía 20.913 ,38 7.394,96 12.539,58 17 .509,17 25.449,66 38.369,05
Aragón 22.3 16,69 8.683 ,56 14.176,97 19.552,41 27.478,90 39.028,27
Asturias 22.241 ,39 8.783,94 13.651 ,02 19.055,80 28 .121,34 38.782,20
Baleares 21.613 ,60 9.219,76 14.303,77 18.406,42 25 .579,52 36.976,78
Canarias 19.315,56 7.913 ,84 11.643,18 15.897,41 23.592,06 35.000,04
Cantabria 21.156,79 8.248 ,80 13.160,89 18.071 ,76 26.335,73 37.152,52
Castilla y León 20.960,87 7.430,51 12.848,71 17.669,77 25.971 ,30 37.418,49
Castilla-La Mancha 20.363,01 8.409,04 13.350,05 17.378,84 24.213,82 35.032,02
Cataluña 24.449,19 9.237,79 14.476,86 20.851,50 30.359,00 42.967,11
Comunidad
Valenciana 20.707,24 7.718 ,91 12.962,67 17.483,64 25 .120,03 36.714,50
Extremadura 19.480,55 7.611 ,02 12.770,80 16.122,46 23.058,78 34.433,40
Galicia 20.241 ,99 8.828 ,16 13.025,44 17.216,32 24.002,79 34.931,71
Madrid 25 .988 ,95 10.101,07 14.604,68 21.319,25 32.678,77 47.391,30
Murcia 20.863 ,37 7.481 ,65 12.589,39 17.436,29 24.931 ,06 37.678,29
Navarra 23.824,88 9.104,65 15.233,56 21.633,28 29.813,77 38.956,76
País Vasco 26.593 ,70 9.725,86 16.544,33 23.799,14 34.350,63 45.612,02
Rioja, La 21 .035,86 8.196,91 13.360,50 18.632,33 25 .442,22 36.600,81
Ceuta y Melilla 24.010,60 8.556,21 14.102,10 20.345,76 31.033,75 43.156,06
Fueme: Encuesta de estru ctura salari al. 20 1O INE.

3.3. La relación entre la media, mediana y moda y los tipos


de distribución
Los Gráficos 11 , 12 y 13 nos permiten relacionar los tres estadísticos centrales -media,
mediana y moda- para las distribuciones de edades al matrimonio. En dichas curvas pode-
mos observar una mayor concentración de los datos a la izquierda -en las edades más jó-
venes- y por ello la media es superior a la mediana. Este tipo de distribución se denomina
asimétrica, con asimetría positiva. Hay mayor asimetría en la distribución de hombres que
en la de mujeres, pues en esta última moda y media se encuentran muy próximas.
Capítulo IV. Estad ísticos d e resu men 91

Gráfico 11.
Edades al matrimonio. Hombres. Datos Tabla 20.
14.000 ~------------------------------

12.000 + - - - - - - - - - -_,_,_..___ _ _ _ _ _ _ _ _ __ - · - Media


10.000 +--- - - - - - ---IL-L--H-- - - - - - - - - - - --Med iana
-----Moda
8.000 +---------•-~-1-•--------------------

6.000 +--------~L-L-+---"~•--------------------

4.000
2.000 +---------1--L-L--~

oLl _ __ --<~-J_l_~_ _ _ _::::::::::;:::~,,.,,,...----------~


o 10 20 30 40 so 60 70 80 90 100
Edad

Gráfico 12.
Edades al matrimon io. Mujeres. Datos Tabla 20.
14.000 . - - - - - - - - - - -- - - - - - - - - - - - - - - - - - - - -
12.000 +--- - -- - - -/--'-l\c- - - - - - - -- - - - - - · - Media
10.000 + - - - - -- - --l- -'-t--..- - - - - - - - - - -- - --Mediana

8.000 + - - - - - - - -1---4-+-+- - - - - - - - - - - - -----Moda


6.000 + - - - - - - --J.- -1+-+-'\-- - - - - - - - - - - - - - - - - - -
4.000 + - - - - - - --l---'+-+-----'1- - - - - - - - - - - -- -- - - --
2.000 +------~'-----1+-+--~""'='-----------------

0 .J---~-~":,---+LL-~-~-=~~--~.---~-.,..-~~.,--~-,
o 10 20 30 40 so 60 70 80 90 100
Edad

Gráfico 13.
Defunciones por edad de la población española. 201 1.
16.000 .------------------------..~--------

14.000 1
--Mediana
12.000 + - - - - - - -
- - - Moda
10.000 +--- - - - - -
- · - Media

6.000 1
4.000 + - - - - - - - - - - - - - - - - -.,J''-----1--1--1----\- - - - - -

2 . 000 +--------------~,,-::.=---------1--1--.------\-------

o..l----.-.,-""""~:'.'.'.'.:=-.- ________...J..,._J__L__ _ --,--::~-,...--

o 10 20 30 40 so 60 70 80 90 100 110 120


Edad
Fuente: Movimiento Natural de la Población, INE .

En las di stribuciones simétricas, media, mediana y moda coinciden. Entre este tipo de
distribuciones, que se estudiarán en el Capítulo VII, destaca la normal.
92 Estadística para la investigación social

Por el contrario, si la concentración de las frecuencias se produce en los valores altos, la


asimetría es negativa y la media es inferior a la moda. Como ejemplo, obsérvese la distribu-
ción de las defunciones por edad de la población española en 2011. Nótese que es una distri-
bución bimodal, con un máximo local en «0» años debido a Ja mortalidad de las primeras
semanas de vida -mortalidad perinatal- y otro máximo en edades elevadas, 86 años, que
es la edad modal. La mediana se sitúa en 82 y la media en 80 años.
Capítulo IV. Estad ísticos de resumen 93

APÉNDICE
_ Iedidas de localización relativa
:::n los apartados anterioreshemos estudiado medidas de localización, como la Media y la
_!oda, junto a medidas de dispersión , como la Varianza y la Desviación estándar. Ahora
eremos algunas medidas de localización que se construyen a partir de la media y la desvía-
- ón estándar. Por ejemplo, en el caso anterior comprobamos que los hombres contraen ma-
::imonio, por regla general, más tarde que las mujeres, pues la edad media al matrimonio era
:.e 35,5 años para los hombres y de 32,9 para las mujeres. Resulta evidente que un hombre
_ e se casa con 40 años lo hace comparativamente «tarde» respecto al conjunto de la pobla-
_.ón. Pero, ¿lo hace más tarde que una mujer que se case con 33 años? Y un hombre que se
e con 32 años, ¿lo hace relativamente pronto respecto a su grupo?
Para responder a estas preguntas necesitamos una medida de la distancia respecto a la
edia. Una posible solución es utilizar la diferencia respecto a la media. Por ejemplo, un
mbre que se casa con 40 años lo hace 4,5 años más tarde que la media, mientras que un
mbre que lo hace con 32 años lo hace 3,5 años antes que la media. Sin embargo, esta
edida no está escalada. Un año de diferencia, ¿es mucho o es poco? La respuesta a esta
_ estión es: depende de la varianza. Por ejemplo, no es lo mismo un año de diferencia en
'.:na población en Ja que el 80% se casan entre 22 y 25 años que la misma diferencia en una
_ blación que concentra la misma proporción de matrimonios entre 16 y 52 años. Una solu-
:ión a este problema es estandarizar las diferencias entre los valores y sus medias. El mejor
:andidato a «patrón de medida» es la desviación típica, medida que, como vimos, resume el
;rado de concentración o de dispersión.

Los valores
.Jefin imos así los valores «Z», que son las diferencias del valor de un caso respecto a su
edia, diferencia que es estandarizada medi ante la desviación típica:

X· -x
Z=-' --
Sx

Utilizando este estadístico podemos determinar la localización relativa de cualquier va-


or. Tiene una gran utilidad porque cuando tratamos con colectivos diferentes nos permite
amparar la posición de un valor respecto a la media. Z es un valor estandarizado que se
obtiene después de transformar los valores de una distribución empírica en otros valores nor-
malizados, y nos indica a cuántas desviaciones estándar está cualquier valor (x;) respecto a la
media.
Por ejemplo, en nuestro caso:
• Para hombres de 40 años

40 - 35,5
z,, ' 40 = 9
= 0,5
94 Estadística para la investigación social

• Para hombres de 32 años

32 - 35,5
z"' 32 = 9 = -0,389

• Y para mujeres de 33 años

33 - 32,9
z m, 33 = = 0,013
7,63

Así, podemos señalar que mientras los hombres que se casan con 32 años, lo hacen rela-
tivamente temprano respecto al conjunto de hombres, las mujeres con 33 años no lo hacen ni
pronto ni tarde respecto a su grupo.
Más adelante, en el Capítulo VII, se ahondará en el uso y propiedades de las unidades z.
De momento, únicamente las hemos definido para acercarnos a la cuestión del uso de la
varianza como unidad de distancia. La cuestión que nos ocupa ahora es si al conocer las
medidas de resumen de una distribución, podríamos conocer la probabilidad de obtener cier-
tos valores. Por ejemplo, si conociéramos la edad media de las madres y su dispersión ¿po-
dríamos estimar el número de partos que habrá de madres entre 20 y 40 años?

La desigualdad de Chebyshev
Los estadísticos, además de resumir información, caracterizan distribuciones de datos y nos
sirven de orientación para el conocimiento de poblaciones y fenómenos sociales. Así, la me-
dia o la mediana nos sirven de indicadores sobre situaciones de igualdad o de desigualdad,
mientras que la varianza nos informa sobre la homogeneidad o heterogeneidad de la pobla-
ción. Cuando hay igualdad absoluta, todos los valores coinciden con la media y entonces la
varianza es O.
¿Cuál sería la situación opuesta? Aquella de máxima desigualdad. La pregunta no tiene
respuesta. Volvamos al célebre caso de dos personas y un pollo. La situación de igualdad
consiste en que compartan el pollo, y la situación de desigualdad, que sólo uno se coma el
pollo. Si ahora tenemos dos pollos, la situación de igualdad vendría determinada por que
cada uno se comiera un pollo, mientras la situación de máxima desigualdad sería aquella en
que uno se comiera los dos pollos. La desigualdad es mayor en este segundo caso. Sin em-
bargo, comparando el primer y el segundo caso no podemos decir que la igualdad sea mayor
o menor. Si bien la igualdad no puede definirse en términos absolutos, sí que puede estable-
cerse un indicador de forma sencilla para cada caso a través de la media.
El ejemplo sirve para mostrar que la posición de igualdad es definible -el valor me-
dio-, pero la de desigualdad lo es únicamente por el distanciamiento respecto a la posición
de igualdad. La pregunta entonces es: dado un conjunto de valores ¿hay alguna forma de
determinar cuáles pueden ser las distancias máximas respecto a la media, respecto a la situa-
ción de máxima igualdad?
Capítu lo IV. Estadísticos de resumen 95

El matemático ruso Chebyshev se preocupó de la cuestión de las distancias respecto a la


:::iedia y formuló la siguiente desigualdad:

Es decir, en una distribución el porcentaje (P) de casos que se encuentran a una distan-
:ia más allá de una cantidad (k) de desviaciones típicas (O"x) respecto a la media (µ), es
1
:.aferior a k2.

De esta forma, entre la media y dos desviaciones típicas (k = 2) encontraremos al menos


1 1
=I 75% de los casos, dado que más allá estará, como máximo, el k2 =
22
= 0,25 = 25%.

De la misma forma podemos llegar a las siguientes relaciones:

k p

2 P(µ - 20" ~ X ~ µ + 20") 75%

3 P(µ - 30" ~X ~ µ + 30") 89%

4 P(µ - 40" ~X~µ+ 40") 94%

En España, la edad media de las mujeres que dieron a luz en 2010 fue de 31,4 años, con
..:na desviación típica de 5,39 años. Con estos datos podemos inferir que al menos las tres
:uartas partes de las mujeres que dieron a luz estaban entre 31,4 - 2 x 5,39 = 20,6 años y
_: 1,4 +2 X 5,39 = 42,2.

Gráfico 14.
Edad de las madres que dieron a luz en 201 O.
40.000 -

35.000 ~

30.000 ~

25.000 -

20.000 -

15.000 -

10.000 -

5.000 -

o ~~~~-=-~~t=========~±=========~_:__::~,__~~~~-
10 15 20 25 30 35 40 45 50 55
Edad
Fuente : Movimiento Natural de la Población 2010, INE.
96 Estadística para la investigación social

Como podemos observar en el gráfico, la concentración de los valores en tomo a la me-


dia fue aún mayor. Concretamente, el 95% de las madres estaban entre 21 y 42 años. En el
Capítulo VII se analizarán las distribuciones normales, distribuciones en las que la concen-
tración de los casos es muy elevada (para k = 2, en el intervalo desde la media ± 2u, se
encuentran el 95,5% de los casos).
Esta desigualdad tiene distintas aplicaciones, pero la principal de todas es que nos permi-
te aproximamos al conocimiento de desviaciones típicas en situaciones en las que tenemos
poca información. O, por el contrario, nos permite conocer de forma aproximada los valores
máximos y mínimos -recorrido de la variable- si podemos estimar la varianza.
Para determinar la varianza conociendo el recorrido de una variable, dividimos el reco-
rrido entre 6 y asignamos ese valor como estimación de la varianza.
Si conocemos que el número de días de baja en una empresa oscila entre 1 y 13, pode-
mos indicar que la desviación típica será menor de 2. El recorrido se sitúa entre 13 - 1 = 12
días. Entre ± 3u estará el 90% de los casos (según Chebyshev), por lo tanto 12/6 = 2.
Para determinar el recorrido conociendo la media y la varianza, sumamos y restamos a la
media 3 veces la desviación típica para estimar el valor máximo y el valor mínimo.
Si conocemos que el salario medio en una empresa es de 2.100 euros y la desviación
típica de 200, entonces entre 2.700 y 1.500 se encontrará el salario de al menos el 90% de los
trabajadores.
Muchas de las distribuciones son normales o se asemejan bastante a la normalidad. Por
ello, generalmente las estimaciones, bien de los estadísticos -si conocemos el recorrido-,
bien de los valores máximo y mínimo - si conocemos los estadísticos- son todavía más
precisas . La desigualdad de Chebyshev es siempre aplicable a todo tipo de distribución.
Capítulo V

Representaciones gráficas

El presente capítulo aborda el estudio de una de las herramientas más utilizadas en el


análisis de fenómenos sociales : las representaciones gráficas . La correcta construc-
ción e interpretación de gráficos, a partir de los datos agregados que aparecen en una
tabla de frecuencias , resulta muy útil para encontrar respuestas a los problemas de
investigación planteados . Pero para construir un gráfico adecuado es necesario saber
primero el tipo de prob lema que queremos resolver, pues cada situación requiere una
clase de representación específica.

En primer lugar presentaremos la utilidad de las representaciones gráficas, así co-


mo la construcción y el significado de los principales tipos de gráficos según las carac-
terísticas del problema de investigación. Seguidamente estud iaremos los elementos
formales im prescindibles para construir un gráfico correcto capaz de aportar informa-
ción útil y veraz, y finalmente hablaremos de las cautelas que es preciso tener a la hora
de interpretar gráficos que, por presentar distorsiones o ser origen de ilusiones ópticas,
nos llevarían a obtener conclusiones alejadas de la realidad.

1. Utilidad de las representaciones gráficas


2. Tipos de gráficos según el problema a investigar
2.1. Descripción y comparación de categorías
2.2. Análisis y comparación de distribuciones
2.3 . Análisis de series temporales
2.4 . Distribución conjunta de dos variables
3. Elementos básicos para la construcción de gráficos
3.1. Aspectos formales de prese ntación
3.2. Escalas
3.3. Precauciones en la construcción e interpretación de gráficos
Bibliografía comentada
98 Estadística para la investigación social

l. Utilidad de las representaciones gráficas


Los datos agregados de una tabla de frecuencias nos ofrecen información detallada, a través
de las cifras que aparecen en cada una de las casillas, sobre las variables consideradas en
nuestro problema de investigación. Sin embargo, al manejar grandes cantidades de datos, es
difícil que podamos apreciar de forma instantánea y sintética las relaciones existentes entre
ellos si partimos directamente de las informaciones contenidas en las tablas de frecuencias.
Aquí radica la utilidad de los gráficos: el carácter instantáneo de la imagen permite poner de
manifiesto un conjunto de relaciones. Una buena representación gráfica debe tener como ob-
jetivo la transmisión del máximo de ideas de la forma más directa y sencilla posible. Es una
herramienta de trabajo que, construida adecuadamente, permite al investigador «descubrir»
las relaciones que existen en los datos.
Consideremos el siguiente ejemplo: supongamos que interesa estudiar la situación del
turismo en instalaciones alternativas a los alojamientos hoteleros 1 en una serie de comunida-
des autónomas españolas. Para ello, tenemos la siguiente tabla de frecuencias relativas (en
porcentajes) que indica el número de pernoctaciones de clientes durante el mes de junio de
2008 en distintos tipos de alojamientos (excluyendo los hoteles):

Tabla l.
Pernoctaciones en alojamientos turísticos (excepto hoteles)
en ocho Comunidades Autónomas. Junio de 2008.

Total :
Apartamentos Acampamentos Alojamientos de
alojamientos
turísticos (%) turísticos( %) turismo rural (%)
no hoteles (%)

Andalucía 65,7 31 3,3 100


Aragón 11 62,3 26,8 100
Castilla y León 2,6 40,7 56,7 100
Comunitat Valenciana 67 30,2 2,8 100
Extremadura 11 ,2 52,9 35,9 100
Galicia 14,7 60 25,3 100
Madrid 54,2 35,6 10,2 100
País Vasco 11 41 ,5 47,5 100
Fuente: Encuesta de ocupación hotelera 2008. INE.

Para apreciar de forma más intuitiva y directa las pautas de cada una de las regiones
consideradas respecto a la importancia de los distintos tipos de alojamientos, y poder compa-
rarlas entre sí, es útil la construcción de gráficos. Así, ordenando y agrupando conveniente-
mente la información del cuadro de doble entrada, podemos obtener la sucesión de gráficos
siguiente:

1
La proporción de pemoctaciones en hoteles es, en todos Jos casos, muy superior a Ja de Jos restantes tipos de
alojamiento.
Capítulo V. Representaciones gráficas 99

Gráfico 1.
:lemoctaciones en alojamientos turísticos (excepto hoteles) en ocho Comunidades Autónomas.
Junio de 2008.
"".,
67

COMUN ITAT "'so


VALE NCIANA

"o "'

ANDALUCÍA

'"
""
"
M AD RID "'so
"'
20

"o
""
"
60 Apart. Acamp . A. Rural

GALICIA
(%} (%} (%}
67 30,2 2,8
{
25,3 C. Valenciana
14,7
Andalu cía 65,7 31 3,3
"o Madrid 54,2 35,6 10,2
Galicia 14,7 60 25,3

"
"'
62,3 ___r-{ Aragón
Extremadura
11
11,2
11
62,3
52,9
41,5
26,8
35,9
47,5
ARAG ÓN
26,8 { País Vasco
Castilla y León 2,6 40,7 56,7

"o

52,9

EXTRE MADURA 35,9

""
"
PAÍS VASCO

CASTILLA Y LEÓN so ~ 1
~ ¡~'·'~--__ _,___-
i'°"
Fuente : Encuesta de ocupación hotelera 2008. INE
Apartam . Acamp . A. Rural
100 Estadística para la investigación social

Como puede observarse, los gráficos nos muestran información en distintos niveles. Por
un lado, desde un nivel más elemental, podemos ver la situación concreta de una comunidad
autónoma respecto a sus alojamientos turísticos en el período considerado: por ejemplo, la
importancia de los camping en Aragón, o la casi insignificante afluencia de clientes en apar-
tamentos turísticos en Castilla y León. Este tipo de información puede igualmente observar-
se al detalle en las cifras proporcionadas por las casillas del cuadro de doble entrada (Tabla
1), pero es difícil retener en la memoria esta multitud de informaciones elementales única-
mente a partir de la tabla. Su lectura resulta incómoda pues no destaca la información. La
ventaja de representar gráficamente los datos es que permite gestionar esa multitud, encon-
trar elementos parecidos, clasificarlos y posteriormente comparar los distintos grupos resul-
tantes. Gracias a la representación gráfica encontramos en nuestro ejemplo (Gráfico 1) que
durante el mes de referencia existen tres situaciones bien diferenciadas con respecto a la
importancia de los alojamientos turísticos en las regiones consideradas:
• Situación 1: comunidades donde la alternativa al hotel es en gran medida el aparta-
mento turístico, con escasa importancia del alojamiento rural. Es el caso de la Comu-
nitat Valenciana, Andalucía y, en menor grado, Madrid. Esta situación se relaciona
con la estacionalidad -especialmente en el turismo de costa- o con la duración tem-
poral de la estancia.
• Situación 2: comunidades donde son importantes las acampadas en alojamientos al
aire libre. Es el caso de Galicia, Aragón y, en menor medida, Extremadura. También
en este conjunto adquiere cierta importancia el alojamiento rural. Se trata del «turismo
de naturaleza».
• Situación 3: comunidades donde, siendo en proporción más importante el alojamiento
rural, se equilibra notablemente con la estancia en camping al aire libre. Aquí, a dife-
rencia de lo que ocurre en la situación 1, la estancia en apartamentos es testimonial. El
tipo es aquí menos definido que en los casos anteriores, pues se reparte entre el turis-
mo «rural» y «de naturaleza».
Esta información de conjunto es la que nos puede proporcionar la representación gráfica,
descubriendo agrupamientos y relaciones relevantes en los datos, útiles para comprender.
interpretar y, en su caso, tomar decisiones. También es posible obtener niveles intermedios
de información cuando interesa contemplar las características de determinados subconjun-
tos; por ejemplo, si nos centramos en estudiar el comportamiento de las comunidades que
comparten una determinada situación.
El investigador utiliza la información proporcionada por el gráfico, no sólo porque facili-
ta una descripción de las relaciones internas de los datos que la imagen pone de manifiesto.
sino porque es posible relacionar esa información con otras variables de interés y generar
nuevas preguntas de investigación y nuevas hipótesis. Así, por ejemplo, a partir de los resul-
tados del Gráfico 1, podemos preguntamos si existen diferencias en los perfiles de los turis-
tas en cada una de las tres situaciones descritas, qué características tienen las comunidade
que comparten la situación 2 para atraer el turismo «al aire libre» durante la época inmedia-
tamente anterior a la temporada veraniega, planteamos si el alto porcentaje de apartamento
turísticos en la Comunitat Valenciana y en Andalucía se debe al tradicional predominio del
turismo de «sol y playa», o bien tomar decisiones respecto a la posibilidad de incentivar el
Capítulo V. Rep resentaciones gráficas 101

·smo rural en determinadas regiones que, como Andalucía, tienen una escasa afluencia en
-sre tipo de alojamientos. Igualmente, podríamos estudiar la estacionalidad de los resultados
-=atizando el mismo estudio durante todos los meses del año.
Los gráficos para el tratamiento de la información son una herramienta que el investiga-
- r utiliza para descubrir relaciones, interpretar los resultados y tomar decisiones. De ahí
_ e las representaciones gráficas no sean imágenes «estáticas», sino que son «construidas» y
ceptibles de ser transfonnadas y reclasificadas hasta poner de manifiesto todas las rela-
- ones relevantes. Pero no solamente ayudan al investigador a analizar los datos , sino que
:::!Illbién aparecen frecuentemente en el infonne final a la hora de presentar los resultados de
investigación, o se utilizan a un nivel de divulgación general en los medios de comunica-
- ón. Tenemos en este caso un gráfico para la comunicación, que sirve para decir a los de-
, lo que se ha descubierto. Es conveniente entonces que, sin prescindir de los hallazgos
!lStantivos procedentes de los datos, estos gráficos sean una construcción simplificada que
:::iaximice la eficacia visual, permitiendo el acercamiento a la información tanto al experto
:orno al lector no especializado. Hay que extremar aquí el cuidado para representar los gráfi-
~ sin «ilusiones ópticas» que lleven a distorsionar los resultados, algo que ocurre con bas-
:::mte frecuencia en las imágenes gráficas publicadas en los medios de comunicación de ma-
: . De ello hablaremos en el último apartado del capítulo.
A pesar de sus posibilidades y ventajas, hay que tener en cuenta que un gráfico nunca
:onstituye un fin en sí mismo, sino un determinado momento en el proceso de investigación.
Corresponde al propio investigador, desde sus necesidades concretas, ver el contexto en el
~ e tiene sentido el empleo de las representaciones gráficas y, en su caso, decidir el procedi-
:niento gráfico que mejor responda a sus objetivos.

-· Tipos de gráficos según el problema a investigar


-n gráfico consiste en la representación de una distribución de datos mediante puntos, lí-
eas, áreas y otras formas geométricas asignando a cada valor su frecuencia (bien sea abso-
uta, relativa o acumulada) en la población. Cualquier construcción gráfica se origina en un
.:uadro de datos y su finalidad es la transcripción de relaciones entre conjuntos.
Existe una gran variedad de representaciones gráficas, pero hay que tener en cuenta que,
;>ar encima de todo, los gráficos deben aportar información útil, y para ello no es necesario
;ealizar construcciones sofisticadas, sino representaciones simples y eficaces que aporten in-
:ormaciones relevantes . La elección de uno u otro tipo de gráfico dependerá, tanto de los
bjetivos del análisis, es decir, de lo que el investigador desee destacar de la información,
orno de la naturaleza de los datos, es decir, del tipo de variable utilizada, distinguiendo
~ntre variables cualitativas y cuantitativas, y dentro de éstas, entre variables de tipo discreto
y continuo. Así, entre otras cuestiones, el investigador puede estar interesado en describir y
~ o mparar las distintas categorías de una variable nominal, analizar las distribuciones de va-
riables cuantitativas para después aplicar determinados procedimientos estadísticos, estudiar
el cambio y la evolució n de las variables a lo largo del tiempo o estudiar la variación conjun-
ra de distintas variables . Cada uno de estos propósitos precisa la elaboración de gráficos ade-
uados, cuyos métodos de representación expondremos a continuación.
102 Estadística para la investigación social

2.1. Descripción y comparación de categorías


Las representaciones gráficas cuyo objetivo es comparar las distintas categorías de las varia-
bles2 permiten al investigador descubrir determinados tipos o estructuras en los datos que no
aparecen explícitos en las tablas de frecuencias. En este tipo de análisis, utilizamos frecuen-
temente los diagramas de barras para variables cualitativas y cuantitativas de tipo discreto,
los gráficos de áreas para variables cuantitativas de tipo continuo, y Jos diagramas de secto-
res para variables cualitativas.

Diagrama de barras
Este gráfico se utiliza con variables cualitativas, aunque también se puede usar con varia-
bles cuantitativas de tipo discreto. Las barras del diagrama permiten comparar las distintas
categorías de una variable. En general, se representan los valores de la variable separados
entre sí en el eje horizontal, y la frecuencia o número de casos en el eje vertical. Para cada
valor de la variable tenemos una barra cuya altura equivale a su frecuencia (absoluta o en
forma de porcentaje). Como vimos anteriormente, es posible descubrir que los datos descri-
ben distintos tipos de situaciones:
Gráfico 2.
Pernoctaciones en alojamientos turísticos (excepto hoteles). Junio 2008.
%
100
90
80
70 6S,7

60
ANDALUCÍA SO

40
30
20
10 3,3
o
Apartamentos Acampamentos Aloj . Rurales

%
100
90
80
70
60 S6,7
CASTILLA Y LEÓN
so
40
30
20 ~

10 2,6
o
Apartamentos Acampamentos Aloj . Rurales
Fuente: Encuesta de ocupación hotelera 2008 . INE

2
Véase el ejemplo del Gráfico 1.
Capítulo V. Representaciones gráficas 103

En el caso de una variable cuantitativa discreta, en el eje horizontal se ordenan los valo-
~ de forma creciente de izquierda a derecha, tal y como muestra el Gráfico 3 a partir de los
::atos de la siguiente tabla:
Tabla 2.
Hogares según tamaño en el municipio de Madrid. Porcentajes.

Personas que habitan Frecuencia de


en el hogar hogares(%)

1 23,86
2 27,41
3 20,45
4 18,37
5 6,24
6 2,05
7 0,77
8 0,37
9 0,19
10 o más 0,30

Total 100
Fuente: Censo de Población y Viviendas 2001. INE.

Gráfico 3.
Hogares según tamaño en el municipio de Madrid.
%

27,41

0,37 0,19 0,3

1 2 3 4 5 6 7 8 9 10 o
Número de personas que ha bitan en el hogar más
Fuente: Censo de Pob lación y Viviendas 2001. INE

Así, construimos el Gráfico 3 donde el «número de personas» es una variable discreta.


?uede verse, de un solo golpe de vista, que la gran mayoría de los hogares madrileños son de
reducido tamaño , mientras que son proporcionalmente escasos los hogares en los que habi-
tan más de 6 personas.
104 Estadística para la investigación social

En ocasiones se utilizan variantes de este tipo de gráfico cuando interesa comparar los
datos de distintas poblaciones o de distintas categorías de una variable. El diagrama de ba-
rras apiladas (o compuestas) muestra en cada barra una población o una variable dividida
en las categorías que la componen, y donde cada categoría indica su importancia relativa
respecto al resto de categorías de la población o variable. Como Ja finalidad del gráfico es
comparar estructuras, es necesario el uso de porcentajes (donde cada barra representa el
100% de los casos) en lugar de frecuencias absolutas. Este gráfico solamente es eficaz, es
decir, es capaz de transmitir de forma instantánea información relevante, si el número de
categorías representado en cada una de las barras es reducido. De otra forma, sería difícil
percibir diferencias significativas entre las distintas poblaciones.
Gráfico 4.
Pernoctaciones en alojam ientos turísticos (excepto hoteles) en Andal ucía y Castilla y León.
Junio 2008.
%
100 ...-----~·

90 -!------f

80 -+----<

70 -+-----! 56,7

60 - + - - -
Alojamientos Rurales
so - + - - -
40 - + - - - • Acampamentos

30 - t - - - •Apartamentos
20 - + - - -
.,
10 - + - - -
2,6
O- + - - -
ANDALUCÍA CASTILLA Y LEÓN
Fuente: Encuesta de ocupación hotelera 2008. INE

En este ejemplo se percibe con claridad a través del gráfico la importancia relativa que
cada tipo de alojamiento tiene en cada una de las comunidades autónomas, a la vez que per-
mite la comparación entre ambas.

Gráfico de áreas

Cuando interesa comparar la estructura de dos poblaciones (o dos categorías de una variable)
según los valores adoptados por una variable continua (años, ingresos, etc.), es útil la cons-
trucción de un gráfico de á r eas apiladas. En este caso, las poblaciones quedan representa-
das como superficies que se apilan verticalmente, siendo el total la suma de las superficies.
No es muy recomendable representar en este gráfico cantidades absolutas, pues no facilitan
el análisis de los cambios que se van produciendo en cada uno de los estratos. Por tanto, si el
objetivo es obtener una mayor percepción de la estructura de las poblaciones comparadas,
estandarizamos las frecuencias de cada una de ellas utilizando proporciones o porcentajes
(sobre el total o sobre otro grupo de referencia) . Así, podemos observar el peso de cada una
de las poblaciones según sea el recorrido de la variable continua considerada.
Capítulo V. Representaciones gráficas 1 OS

La siguiente tabla representa la población activa en España, que se ha desagregado en


_ blación ocupada y población parada durante el período comprendido entre el primer tri-
- " tre de 2008 hasta el tercer trimestre de 2009:
Tabla 3.
Población activa en España desagregada en Ocupados y Parados.

Total Total
Ocupados Parados
Trimestres ocupados parados
(%) (%)
(miles) (miles)

2008TI 20.402,30 2.174,20 90,37 9,63


2008TII 20.425,10 2.381,50 89,56 10,44
2008TIII 20.346,30 2.598 ,80 88,67 11,33
2008TIV 19.856,80 3.207,90 86,09 13,91
2009TI 19.090,80 4.010,70 82,64 17,36
2009TII 18.945,00 4.137,50 82,08 17,92
2009TIII 18.870,20 4.123 ,30 82,07 17,93
Fuente: EPA. INE.

Con el fin de observar la estructura de la población activa, además de presentar las canti-
.J.ades poblacionales absolutas en miles de personas, se han calculado los porcentajes en ho-
:2ontal, es decir el porcentaje de ocupados y de parados sobre el total de activos de cada
'.!.ño. Como consideramos continua la variable «tiempo», representamos Ja distribución me-
::iante un gráfico de áreas apiladas:
Gráfico 5.
Población activa en España desagregada en Ocupados y Parados.
100% ~------~~~~~~~~~---~

90%

80%

70%

60%

50% Parados
40%
• Ocupados
30%

20%

10%

0%
2008TI 2008Tll 2008Tlll 2008TIV 2009TI 2009Tll 2009Tlll
Fuente: EPA. INE

A partir del Gráfico 5 podemos observar el peso relativo de cada uno de los colectivos de
activos a lo largo del período considerado. Así, se aprecia que el peso de los parados va
ganando magnitud, sobre todo desde el tercer trimestre de 2008 hasta el primero de 2009. La
106 Estadística para la investigación social

mayor proporción de parados respecto a los ocupados se produce en los dos últimos trimes-
tres considerados, en los cuales no se aprecian grandes cambios en los pesos relativos de
ambas poblaciones.

Diagrama de sectores
Un tipo de gráfico frecuentemente utilizado, sobre todo en los medios de comunicación, es
el diagrama de sectores (o de «tarta»). Útil únicamente cuando las variables presentan pocas
categorías, consiste en un círculo en el que se representa la población, subdividido en varias
partes o sectores, cada uno de los cuales representa una categoría de la variable considerada.
El arco de cada sector equivale a la frecuencia de cada categoría y, para conocerlo (en gra-
dos), se divide la frecuencia absoluta de la categoría entre el número total de casos de la
población, y el resultado se multiplica por 360. El software estadístico permite en la actuali-
dad la construcción automática de estos diagramas con, tan solo, la introducción de una tabla
de frecuencias adecuada.
A pesar de su impacto visual, los diagramas de sectores dejan de funcionar cuando las
variables presentan muchas categorías, pues el gráfico se vuelve confuso. En este caso, sólo
sería útil si hubiera una o dos categorías dominantes que abarcasen casi la totalidad del cír-
culo. Por otra parte, es más adecuado su uso al trabajar con proporciones o porcentajes que
con frecuencias absolutas, ya que se trata de mostrar la relación entre las partes y el total.
Obsérvese el siguiente gráfico:
Gráfico 6.
Ocupación masculina por sectores económicos Ocupación femenina por sectores económicos
IV trimestre de 2008 (%) IV trimestre de 2008 (%)

Servicios
Construcció~
18%

Construcción
Industria Servicios
20% 57%

Industria
9%
5%
Fuente: EPA (IV Trimestre 2008). INE
2%

En este caso (Gráfico 6) es posible establecer comparaciones entre las dos poblaciones
(hombres y mujeres) puesto que son poco numerosas las categorías en las que se divide la
variable «sectores económicos» y existen pocas categorías que predominen sobre el resto.
Vemos que para ambas poblaciones hay una categoría dominante, el sector «Servicios», pero
se aprecia claramente que existen diferencias importantes entre hombres y mujeres, tanto en
ese sector como en la «industria» y la «construcción».
En cambio, la representación de un diagrama de sectores para comparar poblaciones en
las que se estudia una variable con categorías como las siguientes (Figura 1) no tiene mucho
Capítulo V. Representaciones gráfi cas 107

~ntido,
pues resulta confuso, no es posible encontrar diferencias significativas ni nos aporta
ormación relevante:
Figura 1.

Población A Población B

Ejercicio 1
Construya una representación gráfica adecuada a partir de los siguientes datos sobre alumnos
matriculados en enseñanzas universitarias en España durante el curso 2007-2008:

Hombres Mujeres Total

Arquitectura e Ingenierí as Técnicas 152.188 49.556 201 .744


Diplomaturas 109.709 252.473 362.182
Licenciaturas 267.299 397.807 665.106
Arquitectura e Ingenierías 99.993 46.029 146.022
Títulos dobles 8.934 12.619 21.553

Total 638.123 758.484 1.396.607


Fuente: Estadística de la Enseñanza Universitaria en España. INE.

_.2. Análisis y comparación de distribuciones


Cuando interesa realizar un análisis exploratorio de los datos, es decir, obtener información
.::obre la forma de la distribución, el valor de determinados estadísticos de tendencia central y
de dispersión, y la existencia o no de casos atípicos, es preciso conocer el modo en que se
encuentran distribuidas las variables. Trabajaremos ahora en el nivel de intervalo o de razón
;:on variables cuantitativas de tipo continuo, y uti lizaremos representaciones gráficas que
ofrecen una vis uali zación global de la forma de la di stribución, así como de la concentración
: dispersión de los datos, faci litando la comparación gráfica entre distintas distribuciones.
Las representaciones más útiles son los histogramas, los polígonos de frecuencias, las oji-
ras, y los diagramas de caja.

Histograma
El histograma es Ja modalidad gráfica adec uada para el nivel de intervalo o de razón, y se
onstruye con variables cuantitativas de tipo continuo. Debido precisamente a ese carácter
108 Estadística para la investigación social

continuo (entre dos valores cualesquiera siempre podemos encontrar otro valor), los valores
de la variable deben agruparse en intervalos situados de forma creciente de izquierda a dere-
cha en el eje horizontal. A diferencia del diagrama de barras, donde trabajamos con variables
discretas y, por tanto, la frecuencia de cada categoría viene indicada por la altura de la barra
correspondiente, el histograma representa superficies. Ello quiere decir que, con variables
continuas, el peso de cada categoría se representa a través del área contenida en cada uno de
los rectángulos del histograma, siguiendo esta fórmula:

S=bxh
donde:
S: Superficie o área del rectángulo
b: Base del rectángulo
h: Altura del rectángulo
El procedimiento para construirlo es el siguiente: de cada intervalo se levanta un rectán-
gulo cuya área es proporcional a la frecuencia que representa, es decir, el producto de la base
del rectángulo (amplitud de cada intervalo) por la altura. Para facilitar la interpretación del
gráfico, es conveniente que los intervalos sean de la misma amplitud, de forma que la altura
del rectángulo pueda considerarse equivalente al número de casos que se dan en el intervalo
(su frecuencia). Sin embargo, si los intervalos son de distinta amplitud, la frecuencia de cada
categoría no puede considerarse equivalente a la altura del rectángulo, y es necesario calcu-
lar ésta a través de la fórmula anterior. Por otra parte, como trabajamos con una variable
continua no puede existir separación entre los rectángulos del histograma.
Consideremos el ejemplo de la Tabla 4: el número de matrimonios entre personas de
distinto sexo por grupos de edad de los cónyuges:

Tabla 4.
Matrimonios de distinto sexo por grupos de edad de los cónyuges en España (2007).

Edad Esposos Esposas

Menos de 15 o 2
De 15 a 19 años 472 2.059
De 20 a 24 años 9.990 22.696
De 25 a 29 años 62.769 78.818
De 30 a 34 años 69.047 57.651
De 35 a 39 años 29.408 20.806
De 40 a 44 años 12.748 9.303
De 45 a 49 años 6.900 5.094
De 50 a 54 años 4.271 2.701
De 55 a 59 años 2.582 1.340
60 y más 3.392 1.109

Total 201.579 201.579


Fuente: Movimiento Natural de la Población, 2007. INE.
Capítulo V. Representaciones gráficas 109

El número de intervalos que consideremos al construir la representación gráfica es im-


- rtante, pues ello incide en la apreciación de la forma de la distribución. Al agrupar los
ores de la variable reduciendo el número de intervalos se pierde información detallada,
; ro a la vez se perciben con mayor claridad ciertas características de la distribución. A su
=-z, si desagregamos la información y hacemos que los intervalos sean más numerosos y
.:cm un recorrido menor, la distribución adopta una forma que se acerca más al detalle de los
2.atos reales.
Para ilustrar esta cuestión, y teniendo en cuenta que la «edad» es una variable continua,
-ernos construido la serie de histogramas que aparece en el Gráfico 7. En los dos primeros,
.,_ e representan respectivamente el número de hombres y de mujeres que han contraído ma-
::imonio3 en España durante el año 2007, la varible «edad» se ha agregado en intervalos de
:2.Illaño 5. En el último histograma, que nuevamente representa el número de mujeres que
.:IB.n contraído matrimonio en España en 2007, se ha desagregado la información y los inter-
alos tienen un tamaño de 1 año.
Consideremos en primer lugar los gráficos donde la edad se ha agrupado en intervalos de
::trnaño 5. Como puede observarse, tanto para los hombres como para las mujeres, la mayor
:mte de los matrimonios ha tenido lugar en el tramo de edades que va desde los 25 a los 34
:.ños. Sin embargo, mientras que el intervalo modal es de 30 a 34 años para los hombres, es
:.e 25 a 29 años cumplidos para las mujeres. Comparando la forma descrita por ambas distri-
:uciones, vemos que en los tramos de edad más jóvenes, las mujeres han contraído matrimo-
- ·o con mayor frecuencia que los hombres, mientras que éstos superan en número de matri-
=ionios a las mujeres a partir de los 30 años.
En segundo lugar, en el histograma donde el tamaño del intervalo de la variable edad es
' pequeño, la distribución representada adopta una forma más suavizada que en los ante-
·ores. Por una parte, se pierde el impacto visual inmediato sobre la forma de la distribución
.:uando interesa observar poblaciones divididas en categorías más amplias, pero por otro
do, se gana en información detallada más cercana a la realidad. El gráfico que representa
mujeres que contraen matrimonio con intervalos de tamaño 5, considera de forma homo-
Iénea la frecuencia de las cónyuges contenidas en cada uno de los intervalos (vemos que hay
., go más de 20.000 mujeres en el intervalo de 35 a 39 años), mientras que en la representa-
=ión que desagrega la edad en intervalos de tamaño 1, se observan frecuencias distintas con-
·=-nidas en lo que el gráfico anterior había considerado homogéneo: en el intervalo 35-39
:illos existen cerca de 6.000 cónyuges de 35 años, un número más reducido a los 36, y así
: ucesivamente hasta los 39 años, edad en la que la frecuencia de las mujeres que han contraí-
~o matrimonio es aproximadamente la mitad de las mujeres que se casaron a los 35 años.
310 está relacionado con otra de las consecuencias de utilizar un tamaño mayor o menor de
·os intervalos, es decir, las variaciones al representar la escala del eje vertical. En el Gráfico
- e observa que en las representaciones donde el tamaño del intervalo es mayor, la cantidad
;náxima considerada en el eje de ordenadas es también mayor (90.000 personas con interva-
os de tamaño 5, frente a 20.000 con intervalos de tamaño 1). Ello se debe a que un intervalo
:nás amplio contiene un mayor número de casos que un intervalo más estrecho, por lo que es
:iecesario incrementar la cantidad máxima representada en el eje de ordenadas, hasta que el
gráfico dé cuenta de todos los casos contenidos.

3
Matrimonios entre personas de di stinto sexo.
110 Estad ística para la investig ació n soci al

Gráfico 7.
Hombres y mujeres que contraen matrimonio de distinto sexo en España (2007) .
Hombres. Variable edad con intervalos de tama ño: 5 años
90.000

80.000

70.000

60 .000
-
S0.000

40.000

30.000

20 .000
>---------.
10.000
. 1 Fi=----, -
r
O Menos lS 20 2S 30 3S 40 4S so SS 60 y mas
de lS Edad

Muj eres. Variable edad con intervalos de tamaño: 5 años


90.000

80.000 ~-

70.000

60.000

S0.000
-
1
40.000

30.000

20 .000 -
1
10.000
·~
o - - r

Menos lS 20 2S 30 3S 40 4S SO SS 60 y más
de lS Edad
Mujeres. Variable edad con intervalos de tamaño : 1 año
20.000 -
!
- - - - - - - - - - - - - - - - - - - -- - - - -
18.000 1

16.000 '
1
14.000
1
12.000 1
1
10.000
1
8.000
¡
6.000
i h
4.000
2.000
o U') l.D
Al
..... ..... ..... o
00 N ... l.D 00 o N ...m l.D
1íln1 rn-i...
00
...o ... ... ... ...
N l.D 00 oU') N ... l.D 00
.,,
Cll
N N N N N m m m m U') U') U') U')
'"'E
"O
.,, >
o Edad ol.D
e:
Cll
::¡;
Fuente: Movimiento Natural de la Población, 2007. INE
Capítulo V. Representaciones gráficas 111

Hasta ahora hemos comparado distintos gráficos según el mayor o menor tamaño de los
.:itervalos considerando que todos los intervalos de un mismo gráfico tienen igual amplitud.
-in embargo, es posible representar un histograma con intervalos de amplitud desigual cuan-
--= interesa considerar conjuntamente una parte del recorrido de la variable continua. En este
_ o debe respetarse la proporcionalidad de las áreas para que la representación sea correcta.
Supongamos que la población de hombres que contraen matrimonio en España durante
~- _007 aparece desagregada según los siguientes intervalos de edad:
Tabla 5.
Hombres que contraen matrimonio de distinto sexo en España (2007).

Edad Esposos
<20 472
20-29 72 .7S9
30-34 69.047
3S-39 29.408
40-S4 23.919
~SS S.974
Total 20 l .S79
Fu ente: Movi miento atura] de la Población , 2007. INE.

Hemos dicho que en el histograma la representación de los datos es proporcional a la


perficie. Por lo tanto, como la amplitud de los intervalos (y la base de los rectángulos del
~ · tograma) es diferente, debemos calcular la altura de cada rectángulo de forma que la su-
- rficie sea proporcional al porcentaje que representan. Para ello, despejando h de la fórmu-
de la superficie, tenemos que
s
h=-
b
Así, calculamos la altura que debe tener cada uno de los rectángulos del histograma y
:-epresentamos el gráfico correspondiente:

Edad Hombres o/o (S) b h = S/b


<20 472 0,2 20 0,01
20-29 72.7S9 36,1 10 3,61
30-34 69.047 34,2 s 6,8
3S -39 29.408 14,6 s 2,3
40-S4 23.919 11 ,9 IS 0,8
~ SS
4
S.974 3,0 30 0,1
Total 201.S79 100

4
Se ha considerado que la amplitud del interval o abierto ¿ 55 es 30 debido a que la esperanza media de vida
de los varones españoles se sitúa en 84 años.
112 Estad ística para la investigación social

Gráfico 8.
Hombres que contraen matrimonio de distinto sexo en España (2007).
Intervalos de amplitud desigual

h
8

7
-
6

-
2

1
o ~

20 30 35 40 55
Edad
Fuente: Movimiento Natural de la Población, 2007. INE

Como señalamos al comienzo del capítulo, una representación gráfica es una herramien-
ta que se construye y reconstruye hasta que nos permita observar relaciones relevantes en los
datos, por Jo que reducir o no el número de intervalos o utilizar amplitudes desiguales de los
mismos, dependerá siempre de los objetivos de la investigación y del tipo de información
que se desee proporcionar.

Polígono de frecuencias
Los polígonos de frecuencias (o diagramas de líneas) constituyen una alternativa a los histo-
gramas para facilitar la comparación entre distribuciones y, al igual que éstos, se utilizan con
variables cuantitativas de tipo continuo. A partir de un histograma, se trazan líneas rectas
desde Ja parte superior de los rectángulos que van uniendo las marcas de clase (los valores
centrales) de los intervalos. Retomando el ejemplo del Gráfico 7, construimos el polígono de
frecuencias a partir de los histogramas:
Capítulo V. Representaciones gráficas 113

Gráfico 9.
Hombres que contraen matrimonio en España en 2007
90.000

80.000

70.000

60.000

S0.000

40.000

30.000

20.000

10.000

o
<lS lS 20 2S 30 3S 40 4S so SS 60 y más
Edad

Mujeres que contraen matrimonio en España en 2007


90.000

80.000

70.000

60.000

S0.000

40.000

30.000

20.000

10.000

o
<1S lS 20 2S 30 3S 40 4S so SS 60 y más
Edad
Fuente: Movimiento Natura l de la Pob lación, 2007. INE
114 Estadística para la investigación social

El polígono de frecuencias que comprende ambas distribuciones sería el siguiente:

Gráfico 10.
Hombres y mujeres que contraen matrimonio en España en 2007 según edad.
90.000 ~---------------------------

80.000 + - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

..,._ Hombres

Mujeres

o-i+-
Menos lS 20 2S 30 3S 40 4S so SS 60 y más
de lS Edad
Fuente: Movimiento Natural de la Población, 2007. INE

Con este gráfico es posible comparar de forma instantánea ambas distribuciones. Puede
observarse que la distribución correspondiente a las mujeres que contraen matrimonio está
ligeramente «desplazada hacia la izqui erda» con respecto a la de los hombres, lo que indica
que las mujeres se han casado a edades más jóvenes que los hombres. También se observa en
la distribución femenina el «pico» existente en el intervalo de 25 a 30 años, mostrando que
una buena parte de las cónyuges se ha casado en ese intervalo de edad.

Ejercicio 2
Consu ltar el Movimiento Natural de la Población del banco de datos del INE y construir el polígo-
no de frecuencias de matrimonios para hombres y mujeres en España, por grupos de edad de
los cónyuges, del año 1997. Observar las diferencias con respecto al de 2007.

En el ejemplo propuesto, ambas poblaciones tienen el mismo tamaño (véase Tabla 4),
el uso de frecuencias absolutas para la construcción del gráfico no pl antea problemas. Si la
poblaciones a comparar fueran de distinto tamaño, conviene utili zar las frecuencias relativas
o porcentajes en el eje de ordenadas, debido a que el uso de las frecuencias absolutas podría
inducir a confusión. En el siguiente ejemplo (Gráfico 11 ), el número de trabajadores es dis-
tinto al de trabajadoras, por lo que es preciso utilizar los porcentajes de trabajadores/as res-
pecto al total para poder comparar las distribuciones.
Capítulo V. Representaciones gráficas 115

Gráfico 11.
Trabajadores en función de su ganancia respecto al SMl 5
(respecto al total de trabajadores) (2006).
%
45 ~~~~~~~~~~~~~~~~~~~~~~~~~

-+- Mujeres
-m- Hombres
15

o 1 2 3 4 5 6 7 8 Más de 8
SMI

El gráfico muestra que la distribución femenina alcanza un pico en el intervalo «1-2


~ es el SMI», donde hay relativamente más mujeres que hombres, para descender rápi-
~ente a medida que la ganancia salarial es mayor. Además de poner de manifiesto que
hombres perciben salarios más elevados que las mujeres, el gráfico muestra que los
- arios percibidos por las trabajadoras se concentran en los niveles retributivos infe-
:-:ores.
Los polígonos de frecuencias pueden emplearse también para representar distribuciones
frecuencias acumuladas. En este caso, el gráfico resultante se denomina ojiva. En el eje Y
: ~ indican las frecuencias o porcentajes acumulados, y en el eje X los límites de los interva-
- de la variable. Las ojivas se pueden usar para señalar gráficamente el número de casos
_ r encima o por debajo de un determinado valor, por lo que la forma de la ojiva será siem-
~ e creciente si se acumula hacia arriba y decreciente si se acumula hacia abajo. El Gráfico
~ - procede de la siguiente tabla, en la que también se ha calculado el porcentaje acumulado
:.e trabajadoras y trabajadores según su ganancia salarial:

5
Salario Mínimo Interprofesional (SMI): fija la cuantía retributi va mínima que percibirá el trabajador referida a
jornada legal de trabajo, sin distinción de sexo u edad de los trabajadores, sean fijos, eventuales o temporeros. Su
or es fijado cada año por el Gobierno a través de la publicación de un Real Decreto. Para el año 2006, el SMI
.,_- daba fijado en 540,90 €. En el año 2009 la cuantía es de 624 €.
116 Estad ística para la investigación social

Tabla 6.
Trabajadoras y trabajadores según su ganancia salarial. Porcentaje acumulado.

Trabajadoras Trabajadores Porcentaje acumulado Porcentaje acumulado


(%) (%) trabajadoras trabajadores

De O a 1 SMI 14,13 5,69 14,13 5,69


De 1 a 2 SMI 42,66 31,31 56,79 37,00
De 2 a 3 SMI 23,05 31,60 79,84 68,60
De 3 a 4 SMI 10,73 14,12 90,57 82,72
De 4 a 5 SMI 5,22 7,92 95,79 90,64
De 5 a 6 SMI 2,19 4,33 97,98 94,97
De 6 a 7 SMI 1,10 2,54 99,08 97,51
De 7 a 8 SMI 0,56 1,51 99,64 99,02
Más de 8 SMI 0,36 0,98 100,00 100,00
Fuenre: Encuesta de Estructura salarial en España, 2006. INE.

A partir de estos datos podemos representar el polígono de frec uencias acumuladas u


ojiva correspondiente, por ejemplo, a la distribución de trabajadoras:
Gráfico 12.
Trabajadoras según su ganancia salarial. Porcentaje acumulado.
%
100

90

80

70

60

--+ so
40

30

20

10

o
o 1 3 4 5 6 7 8 Más de 8

SMI
Me
Fuente: Encuesta de Estructura salarial en España, 2006. IN E

El Gráfico 12 permite apreciar la proporción de casos de valor inferior a determinado


valor de la variable considerada, en nuestro caso, el Salario Mínimo Interprofesional. Así, i
estamos interesados en saber la proporción de trabajadoras que perciben menos de 4 veces e
SMI, el gráfico nos indica que se trata de la gran mayoría de trabajadoras (aproximadamente
Capítulo V. Represe ntaciones gráficas 117

_ 90%). Inversamente, también podemos observar los valores de la variable que quedan por
:zbajo de una determinada proporción de casos. Por ejemplo, si queremos ver gráficamente
~ valor de la mediana (valor que deja por debajo de él el 50% de los casos), se observa, sin
- esidad de hacer ningún cálculo, que es algo inferior a 2 veces el SMI.
Observando la forma de la distribución, vemos que entre O y 3 veces el SMI la curva
...:: iende con gran pendiente debido a que, por debajo de 3 veces el SMI, se encuentra apro-
~ adamente el 80% de las trabajadoras . A partir de ese nivel salarial, la curva se va hacien-
- cada vez más plana, pues representa cada vez un menor porcentaje de mujeres (las de
- yor nivel salarial).

Ejercicio 3
partir de los datos de la tabla 6, construya la ojiva correspondiente al porcentaje de trabajado-
·es según su nivel salarial e indique gráficamente los valores de la variable que corresponden al
ri mer y tercer cuartil.

Si la distribución de frecuencias representada se asemeja a una distribución normaf', con


~ número mayor de casos en los intervalos centrales de la distribución, la ojiva tomará una
.:.xma que recuerda a una S.
Representemos el diagrama de líneas de la distribución de hombres que contraen matri-
nio en España en el 2007 7 , desagregando los intervalos de edad que aparecen en la tabla
- . j unto al correspondiente polígono de frecuencias acumuladas. Observamos que, aunque Ja
tribución muestra una asimetría positiva, la ojiva resultante nos recuerda a una forma en
~- de manera que para aquéllos valores de la variable «edad» donde la distribución de fre-
__ encias absolutas contiene un mayor número de casos, la pendiente de la ojiva será mayor,
::rientras que para los valores que presentan una menor frecuencia , es decir, los representa-
en los extremos de curvas semejantes a la distribución normal, la pendiente de la ojiva
_ ~a tenúa.

En el Gráfico 13 se observa la correspondencia entre la curva de frecuencias absolutas y


de frecuencias acumuladas: la pendiente de Ja ojiva es mínima hasta la edad de 22 años,
- iéndose progresivamente mayor hasta los 34-35 años , momento a partir del cual , la pen-
-·ente vuelve a suavizarse, mostrando que hay menor número de matrimonios en las edades
, avanzadas.

Diagrama de caja
::- te tipo de representación tiene como finalidad la evaluación de la forma de las distribucio-
~e . Se trata de un gráfico basado en los cuartiles, que ofrece información sobre la simetría y
:oncentración de la distribución. Es especialmente útil para detectar casos atípicos, es decir,
_ os extremos en las colas de la distribución que podrían distorsionar análisis posteriores.
. í, este gráfico indicará cuándo la distribución tiene valores extremadamente altos o bajos.
onsiste en una caja rectangular cuyos lados superior e inferior muestran el recorrido inter-

6
Ver Capítulo 7.
7
Matrimonios entre personas de di stinto sexo.
118 Estadística para la investiga ció n social

Gráfico 13.
Hombres que contraen matrimonio en España en 2007.
20.000 - . - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
18.000 - t - - - - - - - - - - - - - - - - - - - - - - - - - - - -
16.000 -t--------~P--~-----------------~

14.000 +-----------~-------------------~

12.000 -t--------E--'---+-----------------
Frecuencias
absolutas 1 0.000 -t----------~-------------------
8 . 000 +-----------~-------------------~

6.000 -+-------4~-~~--~---------------~
4 . 000 +-------#---~---t---__, _____________

2.00:t:=~~===::::::::::::E::::~~;;;~
..... '° ce v v' '° O N <O
ce "'
.,
U")

"O
""'
1
1
(")
L() L() L() L() LO ·ro
E
1 >-
"'oe
.,
1
º
<O

250.000 , - - - - - - - - - > - - - - - - - ; - - - - ' - - - - - - - - : - - - - - - - - -

200.000 ¡ - - -: ---:-:-----=:::::;:;:;;;;;;;;;;;;;;;;;;¡;;¡;;;;;;;;;;;¡¡¡-

Frecuencias
acumuladas
100.000 -t------;-----r-,r-------------------

50.000

U"l<OceONv<OceON'=t<O ceON'=t<OceONv<Oce(f)
.,
.-< NNNNNC".>C".>C".>C".l (") v v V V v LO LO LO LO L() •(I)
E
"O
>-
"'oe
., º
<O

Fuente: Movimiento Natural de la Pob lación, 2007. INE

cuartílico 8 , es decir, la distancia entre el primer y el tercer cuartil, que corresponde al cin-
cuenta por ciento de los casos.- El rectángulo se divide por una línea que indica la posición de

8
Es así en el caso de que Ja caja esté dispuesta vertical mente, tal como se ve en el ejemplo. Si Ja caja estu viera
di spuesta horizontalmente, el primer y tercer cuartil vendrían indicados por los lados izquierdo y derecho del rec-
tángulo.
Capítulo V. Representacion es gráficas 119

mediana. De los lados que indican la posición del primer y el tercer cuartil sobresalen
~crpendicularmente unas líneas (una a cada lado) llamadas «bigotes», cuya longitud señala a
-,.-é distancia se encuentran Jos casos extremos, hasta un cierto límite a partir del cual, cual-
-:.:;ier caso aparece indicado individualmente, siendo interpretado entonces como un «caso
'pico». Este tipo de observaciones requiere una atención especial, ya que pueden corres-
- nder a errores en la medida o en el tratamiento de Jos datos, o bien contener información
-=levante sobre el comportamiento de Ja variable. Es importante definir Ja longitud de los
- igotes», pues de ello depende la definición de lo que consideremos como caso atípico,
..:..:mque normalmente el gráfico se construye de forma que entre un extremo y otro se en-
__ entre el 95 % de los casos. Esquemáticamente, la composición de un diagrama de caja se-
- Ja siguiente:
o Casos atípicos
- -

3Q

25% casos

95% casos Me

25% casos
lQ

- -
o Casos atípicos

Consideremos un ejemplo para ilustrar el funcionamiento de este diagrama. La siguiente


Ja, que se ha acompañado del cálculo de la mediana y del primer y tercer cuartil, refleja el
- írnero de nacimientos que han tenido lugar en España durante el año 2006 según los años
_..!Illplidos de la madre. La información se ha desagregado según el estado civil de la madre
_ rre «casadas» y «no casadas»:
Tabla 7.
Número de nacimientos en España durante el año 2006 por edad de la madre.

Nacimientos Nacimientos Nacimientos


Edad de Ja madre
totales madre casada madre no casada

Menos de 15 167 1 166


15 460 22 438
16 1.303 104 1.199
17 2.434 271 2.163
18 3.917 653 3.264
19 5.417 1.218 4.199
20 6.738 1.893 4.845
120 Estadística para la investigación social

Tabla 7. (Continuación)

Nacimientos Nacimientos Nacimientos


Edad de la madre
totales madre casada madre no casada

21 7.768 2.490 S.278


22 8.8S8 3.333 S.S2S
23 10.237 4.398 S.839
24 l2.3S2 6.072 6.280
2S lS.206 8.S27 6.679
26 18.69S 11.777 6.918
27 22.304 lS .332 6.972
28 27 .7S3 20.23S 7.S18
29 32.728 2S.148 7.S80
30 37.07S 29.221 7.8S4
31 39.377 3l.63S 7.742
32 39.076 31.827 7.249
33 37.698 30.879 6.819
34 34.977 28.466 6.Sl 1
3S 30.S90 24.760 S.830
36 2S.037 20.040 4.997
37 19.0Sl 14.978 4.073
38 14.761 11.437 3.324
39 10.731 8.124 2.607
40 7.292 S.381 1.911
41 4.S2S 3.262 1.263
42 2.839 2.014 82S
43 1.636 1.103 S33
44 861 S81 280
4S SIO 342 168
46 296 200 96
47 112 7S 37
48 80 SS 2S
49 44 27 17
SO y más S2 3S 17

Total 482.9S7 34S .916 137.041


Fuente: Movimiento natural de la población, 2006. INE.

Nacimientos Nacimientos Nacimientos


totales madre casada madre no casada
Primer cuartil 28 29 24
Mediana 31 32 29
Tercer cuartil 34 3S 33
Capítulo V. Re presentaciones gráficas 121

A partir de los datos de las tablas vamos a construir el diagrama de caja correspondiente a
los nacimientos totales según la edad de Ja madre. Se ha acompañado este diagrama con el
polígono de frecuencias de dicha distribución para observar mejor Ja correspondencia entre las
formas de ambos gráficos y, por tanto, entre Ja información aportada por cada uno de ellos:
Gráfico 14.
olígono de frecuencias y Diagrama de caja para Nacim ientos totales según edad de la madre.
Año 2006.
Edad
::¡:
¡\J
so - 89478

"'"
.~

""
N
45 - '""J
729

97 34
297041
359372
305202

"o 40 -
"
"'m
;;,
35 -
N
m 1 1
~ 30 - 1 1

~
25
;;
N
N

~ 20
"'" . l!S420
l '2473
12220
~

0
"'"V
15 - G25 8575
o o o o
8o 8o
- s ::: ~ 8 § § o
o
o
~
~ ~ :G ~ :!) s "' 10 -
1
Nacimientos totales
Fuente: Movimiento natural de la población, 2006. INE

Como puede apreciarse, los lados superior e inferior de «la caja» vienen determinados
_ r la posición del primer y tercer cuartil respectivamente (28 y 34 años). Aunque el recorri-
de la distribución es amplio (desde menos de 15 años hasta algo más de los 50), observa-
os que el 50% de los casos queda concentrado en el tramo de edades que va de los 28 a los
: -. años , intervalo que coincide con el de mayor frecuencia en el polígono de frecuencias de
distribución. La edad de 31 años queda representada por una línea gruesa en el interior de
caja, dado que corresponde a la mediana. Vemos, por tanto , una distribución que presenta
mitad de los casos concentrada en un tramo de edad relativamente corto. Los casos por
.:ebajo del primer cuartil y por encima del tercero, hasta englobar el 95 % de la distribución,
·enen indicados por los «bigotes» de la caja, cuyos límites quedan entre los 19 y los 43
::..5os. Más allá de esas edades se encuentran los casos extremos, que presentan frecuencias
ucho menores, y vienen señalados por los pequeños círculos identificados por el número
~ ~c aso.

Podemos también comparar distintas distribuciones mediante el diagrama de cajas. Con-


derando los datos del ejemplo, vamos a representar las distribuciones de nacimientos de
::iadres «casadas» y de madres «no casadas» con el fin de observar si existe alguna diferen-
:ia significativa en la forma de ambas distribuciones:
122 Estad ística para la investigación social

Gráfico 15.
Diagrama de caja para Nacimientos según estado civil de la madre. Año 2006.

50 - 382~401115
89478
[257610
62515 7293-&
399372 .
-~ 5231
3857
-
45
-- 97344

40 -
35 -
"O
~30 -
w

25 -

20 - 3127611..__
100347
99630
46213
15 - 457974 1216
--
10 -

1 1

Casada No casada
Estado civil
Fuente: Movimiento natural de la población, 2006. INE

Efectivamente encontramos diferencias. La distribución de madres casadas presenta una


mayor concentración: el recorrido intercuartílico es menor en el caso de las madres casadas
y los «bigotes» de la caja presentan un recorrido menos amplio que en el caso de las madre
no casadas. A su vez, el gráfico revela que para las madres casadas, los casos correspondien-
tes a edades menores a los 20 años y más allá de los 44 (los límites de los bigotes) son poco
frecuentes. En cambio, la distribución de nacimientos de madres no casadas presenta una
menor concentración, ya que el recorrido intercuartílico es más amplio y sólo aparecen caso
extremos más allá de los 46 años. La forma de la caja indica que existe una asimetría positi-
va en la distribución de madres no casadas, lo que pone de manifiesto una distribución má
rejuvenecida (tiene lugar una mayor concentración de nacimientos a edades más tempranas
en comparación con las madres casadas). Vemos, por ejemplo, que el grueso de nacimiento
de madres muy jóvenes (menos de 20 años) corresponde a mujeres no casadas, mientras que
esos casos son extremos para las madres casadas.

2.3. Análisis de series temporales


En algunos casos, el interés se centrará en estudiar el cambio y la evolución de las variable
a lo largo del tiempo. Para ello se utilizan gráficos que representan series temporales o va-
riaciones de determinadas cantidades a lo largo del tiempo. Esta es una importante aplica-
ción de los diagramas de líneas, y su uso se hace extensivo a todos los niveles de medición.
Capítulo V. Representaciones gráficas 123

empre que tengamos datos de la misma variable en distintos momentos del tiempo. Para la
_ nstrucción de este tipo de gráficos situamos en el eje horizontal los intervalos temporales
:neses, años, etc.) y en el eje vertical las frecuencias (absolutas o relativas) de las variables
_ nsideradas.
Para reflej ar la evolución de una cantidad a lo largo del tiempo utilizamos un diagrama
-~ líneas simple, que admite la representación de frecuencias absolutas, porcentajes o índi-
-~ . En el ejemplo siguiente se ha representado la evolución del número medio de hijos por
-.ujer en España desde el año 1975 hasta la actualidad:
Gráfico 16.
Evolución del número medio de hijos por mujer en España.

2,5 ,

2 ~
1,s ¡--------=,,,.._.__;;;;;;;;~::====::::::;;;;;;;;__-

Fuente: Indicadores demográficos básicos. INE

El gráfico ilustra Ja caída de la fecund idad que ha tenido lugar desde mediados de los
-os 70 hasta alcanzar un mínimo durante la segunda mitad de los 90, y el repunte de los
·timos años hasta llegar a una media próxima a 1,5 hijos por mujer.
También podemos representar conjuntamente los distintos valores de una variable y ob-
: ervar su variación a lo largo del tiempo. En esta tabla figura el porcentaje de hogares con
eso a intemet en tres países de la Unión Europea desde el año 2002 hasta el 2007:
Tabla 8.
Hogares con acceso a internet.
(Porcentajes respecto al total de hogares nacionales).

Dinamarca Italia Portugal

2002 56% 34% 15%


2003 64% 32% 22%
2004 69% 34% 26%
2005 75 % 39% 31 %
2006 79% 40% 35%
2007 78% 43 % 40%
Fuente: ICT lndicators Database. Unión Internacional de Telecomunicaciones.

Para observar cómo evoluciona de forma conj unta la variable considerada en cada uno
e los países del ejemplo, construimos una serie temporal como la que sigue:
124 Estadística para la investigación social

. Gráfico 17.
Evolución del porcentaje de hogares con acceso a Internet.
%
100

90

80

70

60
50
~
--------- ----- - - - Dinamarca

40

-- - - - -- - - - - - Italia

--
- - - Portugal

-- -
30

20
-
10

o
2002 2003 2004 2005 2006 2007
Fuente: ICT lndicators Database. Unión Internacional de Telecomunicaciones

Los tres países del ejemplo parten de situaciones distintas durante el lustro considerado.
Aunque todos muestran una dinámica ascendente respecto a la proporción de hogares con
acceso a internet, Dinamarca presenta una proporción en el 2002 muy superior a la de Italia
y Portugal, creciendo rápidamente hasta llegar a un «techo» en el año 2006, momento a par-
tir del cual desciende levemente la proporción de hogares. El crecimiento en Italia ha sido
más lento e irregular y de menor cuantía, tal como muestra la curva correspondiente en el
gráfico. Finalmente, Portugal, que parte de una situación más modesta que Italia, experimen-
ta un crecimiento más rápido que dicho país respecto a la proporción de hogares con acceso
a internet, pues ambas curvas tienen a confluir en el último año del período considerado.

Ejercicio 4
Construya una representación gráfica adecuada a partir de los datos de la siguiente tabla:
Tasa de paro en España. Media anual.
Tasa de paro (%)
2001 10,55
2002 11,47
2003 11,48
2004 10,97
2005 9,16
2006 8,51
2007 8,26
2008 11,34
Fuente: Encuesta de Población Activa. /NE.

2.4. Distribución conjunta de dos variables


Cuando lo que interesa es representar la distribución conjunta de dos variables para observa:
la relación que existe entre ellas, un tipo de representación útil e intuitiva es el diagrama dt
Capítulo V. Representaciones gráficas 125

ersión o nube de puntos. Este tipo de gráfico consiste en mostrar un elemento a través de
: valores emparejados de dos variables mediante un gráfico cartesiano con dos ejes perpendi-
- ares. Es costumbre representar en el eje X la variable que se considera la «causa» (variable
ependiente), mientras que en el eje Y se representa la variable considerada como «efecto»
ariable dependiente) de la primera. Sin embargo, no siempre dicha relación es obvia, y el grá-
- -o simplemente presenta la forma en que los valores de las variables varían conjuntamente.
Aparte de representar los patrones conjuntos de dos variables, los diagramas de disper-
·n resultan útiles para detectar los outliers, es decir, observaciones que se alejan extrema-
=.::mente de la tendencia central de los datos de la distribución. Pueden aparecer por errores
:.e medida o de tratamiento de los datos, por deberse a casos que no pertenecen a la pobla-
- ón objeto de estudio, o simplemente responder a desviaciones en el comportamiento de la
:rriable, que merecen una atención especial. Una vez detectados, se puede decidir si el par
- datos es significativo o si se debe a un error en la obtención de la información.
La siguiente distribución relaciona dos variables: el PIB per cápita de los 27 países inte-
;:antes de la Unión Europea en el año 2007 y el número de usuarios de intemet por cada 100
- -bitantes de cada uno de esos países en ese mismo año:
Tabla 9.
m per cápita9 y número de usuarios de internet por cada 100 habitantes en la UE (2007).
Usuarios de intemet
Países UE PIB per cápita
por cada 100 habitantes
Alemania 40.162,20 72
Austria 44.652,30 67
Bélgica 43.469,90 67
Bulgaria 5.177,60 31
Chipre 27.465,20 38
Rep. Checa 16.880,80 49
Dinamarca 57.256,60 81
Estonia 15 .932,10 64
Finlandia 46.370,50 79
Francia 40.089,90 51
Grecia 28.111,30 33
Hungría 13.777,40 52
Irlanda 59.539,60 57
Italia 35.585,20 54
Letonia 11.930,20 55
Lituania 11.307,60 49
Luxemburgo 108.217,20 78
Malta 18.227,30 45
Países Bajos 46.669,10 84
Polonia 11.008,00 44
Portugal 20.990,50 40
Rumanía 7.523,10 24

9
PIB per cápita a precios corrientes expresados en dólares noneamericanos.
126 Estadística para la investigación social

Tabla 9. (Continuación)
Usuarios de intemet
Países UE PIB per cápita
por cada 100 habitantes
Eslovaquia 13.701,60 56
Eslovenia 22.936,50 53
España 32.450,80 52
Suecia 49.873,20 80
Reino Unido 45.549,30 72
Fuente : ICT Indicators Database. Unión Internacional de Telecomunicaciones.

Podemos construir un diagrama de dispersión que muestre la variación conjunta de am-


bas variables para cada uno de los países, de tal forma que cada punto del espacio represente
la posición de un país según el par (x, y), donde el eje de abscisas (X) representa el PIB pe:-
cápita y el eje de ordenadas (Y) el número de usuarios de intemet por cada 100 habitante :
Gráfico 18.
PIB per cápita y número de usuarios de Internet por cada 100 habitantes en los países de la UE..
Año 2007.
90
P.Baj +
80 Fin + +;ue +o in
Lux +

70 Al + + R.Un
Bel * Aus
+ Est
d; 60
E Let ~ Eslvq + + Ir +
.! +HJ! n Eslvn + lt +
..
.E 50
'g
Lit +
Poi +
fi. Ch
+ Ma l
Esp Fr

.g40 Por+
+ chi
"'::> + sul + Gre
~ 30
+ Rum
20

10

o
o 20.000 40.000 60.000 80.000 100.000 120.000
PIB per cápita
Fuente: ICT lndicators Database. Unión Internacional de Telecomunicaciones

El gráfico nos muestra una cierta asociación positiva entre las variables consideradas, de
tal forma que a medida que progresa la renta per cápita parece aumentar igualmente el nú-
mero de usuarios de intemet. Si nos fijamos bien, el diagrama presenta una figura en «esca-
lera» donde quedan diferenciados dos grupos de países y algunas situaciones particulares.
Un grupo estaría formado por el «primer escalón» donde se encuentran los países que se han
incorporado desde el año 2004 a la UE, es decir, los pertenecientes a Europa Central y del
Este (Estonia, Letonia, Eslovaquia, Eslovenia, Polonia) y la isla de Malta. Se observa que
tienen una renta per cápita no superior a los 25.000 dólares y, con la excepción de Estonia.
un número de internautas no superior a 60 por cada 100 habitantes. El segundo grupo estaría
Capít ulo V. Representaciones gráficas 127

omprendido por aquellos países del «segundo escalón» (Alemania, Reino Unido, Suecia,
Finlandia) con mayor tradición en la Unión Europea, mayor desarrollo económico y mayor
acceso a Internet. Aparte de estos grupos bien diferenciados, el diagrama nos muestra de
-orma individualizada casos particulares como el de Bulgaria y Rumanía, últimos en entrar
en la Unión, con menores niveles desarrollo, el caso de Luxemburgo, que aparece como un
outlier por su elevada renta per cápita, las «situaciones de transición» entre los dos grupos
rincipales que presentan España, Italia y Francia, y la situación atípica de Irlanda con un
otable desarrollo económico y un nivel de acceso a Internet moderado.

Ejercicio 5
Construya e interprete adecuadamente el diagrama de dispersión que corresponde a la siguiente
serie de datos:
Índice de mortalidad infantil y esperanza de vida al nacer en los países de la U.E. (2007).

Países Índice de Esperanza


mortalidad infantil de vida al nacer
Alemania 4 79
Austria 4 80
Bélgica 5 79
Bulgaria 12 73
Chipre 5 79
Rep. Checa 4 76
Dinamarca 4 78
Estonia 6 71
Finlandia 4 79
Francia 4 81
Grecia 4 79
Hungría 7 73
Irlanda 4 79
Italia 4 81
Letonia 9 73
Lituania 8 73
Luxemburgo 3 79
Malta 5 79
Países Bajos 5 80
Polonia 7 76
Portugal 4 78
Rumanía 15 72
Eslovaquia 8 75
Esloven ia 4 78
España 4 81
Suecia 3 81
Reino Unido 6 79
Fuente: Undata. Naciones Unidas

(Índice de mortalidad infantil: número de muertes de niños menores de 5 años por cada 1.000
nacimientos vivos.)

Hasta aquí hemos tratado de describir e interpretar las representaciones gráficas más úti-
_e para el investigador social. Con el fin de sintetizar la información expuesta, el siguiente
:uadro presenta, a modo de esquema, los principales problemas de investigación a los que
:ma representación gráfica adecuada puede contribuir a dar respuesta:
128 Estadística para la investigación social

CUADRO l.
Tipos de gráfico según el problema de investigación.

Ejemplo de
Problema de Investigación Tipo de gráfico
representación gráfica

Diagrama de barras

Descripción y comparación
de categorías
Diagrama de barras apiladas
lli
Gráfico de áreas apiladas

Diagrama de sectores

Histograma

Polígono de frecuencias

Análisis y comparación
de distribuciones

Ojiva

Diagrama de cajas

Análisis de series temporales Diagrama de líneas ~


1 ' '
ti t2 t3 t4

Distribución conjunta de dos variables Diagrama de dispersión


L ~
.
Capítulo V. Representaciones gráficas 129

3. Elementos básicos para la construcción de gráficos


Para construir un gráfico adecuadamente no sólo basta con identificar el tipo de problema al
que queremos dar respuesta en nuestra investigación. Es además imprescindible contemplar
:ma serie de elementos que permiten obtener una representación correcta de los datos.
Trataremos, en primer lugar, los elementos formales que todo gráfico debe incluir para
identificar claramente los datos representados y el origen de los mismos. Seguidamente ha-
laremos de la escala de los ejes del gráfico; no todos los datos pueden representarse en el
mismo tipo de escala, y es necesario elegirla adecuadamente para evitar que el gráfico pro-
uzca una impresión distorsionada de la información. Finalmente, llamaremos la atención
: bre las precauciones necesarias a la hora de interpretar gráficos construidos con escalas
:nadecuadas y con ejes que han sufrido algún tipo de manipulación .

.l. Aspectos formales de la presentación


:>ara una correcta representación gráfica es necesario tener en cuenta una serie de elementos
= nnales 10 :
• Fuente: con el fin de permitir consultas directas a la información, es necesario indicar
a pie de gráfico la fuente de origen de los datos representados. Si el gráfico se acompa-
ña de la tabla de datos a partir de la cual se ha construido, la fuente puede figurar a pie
de tabla.
• Títulos y subtítulos: ubicado, en general, en la zona superior central del gráfico, el
título debe indicar claramente la variable a la que corresponde la información y el ám-
bito de la misma; de forma sintética, debe ofrecer el máximo de información sobre lo
que se representa. Los subtítulos figurarán debajo del título en un tamaño de letra infe-
rior, aportando información complementaria para la comprensión del gráfico.
• Año o período: su inclusión es necesaria para tener una referencia temporal de la in-
formación representada.
• Etiquetado de los ejes: las etiquetas deben explicar aquello que está representado tanto
en el eje vertical como en el horizontal, así como la unidad de medida de los datos
(absolutos, miles, porcentajes, etc.) .
• Diferenciación de las categorías: es importante identificar cada una de las categorías
en las que se distribuyen los datos (barras, sectores, histogramas, etc.) a través de eti-
quetas breves y fáciles de leer; además, para una mayor diferenciación visual, las cate-
gorías pueden distinguirse mediante colores, sombreados o diferentes tipos de trazos
(líneas continuas, discontinuas, puntos, etc.). El software estadístico (SPSS, hojas de
cálculo) permite en la actualidad obtener representaciones gráficas donde esta diferen-
ciación visual es generada de forma automática por el propio programa.
• Base: el cero siempre debe mostrarse cuando constituya la base de las escalas.

10
Alaminos ( 1993:10-15).
130 Estad ística para la investigación social

• Discontinuidad en el eje vertical: cuando representamos valores elevados y una buena


parte del gráfico resulte superflua (lo que ocurre frecuentemente en las series tempora-
les), no es obligatorio comenzar la escala en el cero. En tal caso, se puede establecer
una discontinuidad en el eje vertical siempre que ésta se señale con una línea dentada
que va desde el cero hasta el primer valor representado de la escala. Sin embargo, nun-
ca debe efectuarse una discontinuidad en el eje correspondiente a las cantidades com-
paradas cuando se trate de un gráfico de barras, pues se estaría tratando como super-
flua una parte del gráfico que, en realidad, no lo es.
En el siguiente ejemplo se representa Ja cantidad de personas registradas en el Padrón
Municipal en España durante el período 1998-2008. Como estamos interesados en observar
la tendencia que describe Ja serie temporal utilizaremos un diagrama de líneas:
Gráfico 19.
Población residente en España (miles de personas). Serie 1996-2008.
(Cifras del Padrón Municipal a 1 de enero de cada año)

44

Población
en (miles) 42

2000 2001 2002 2003 2004 2005 2006 2007 2008


Años
Fuente: Padrón Municipal. INE

Como la serie es creciente y parte de frecuencias cercanas a Jos cuarenta millones de


personas, no sería necesario representar la escala completa del eje vertical, pues todo el e -
pacio entre el cero y la frecuencia absoluta más baja (la correspondiente a 1998) quedarí
inutilizado. Como puede observarse, el eje vertical muestra una marca de discontinuidad en
su base (a través de una línea quebrada) indicando que, aunque no figura en Ja propia repre-
sentación, la escala continúa y tiene su origen en el cero.

3.2. Escalas
Las escalas son distintos sistemas de representación numérica cuyo uso depende del fenóme-
no social estudiado y de la información relevante que se desea transmitir. Es importante uti-
lizar la escala adecuada para evitar que el gráfico pueda ofrecer una impresión distorsionadz.
de los datos.
Capítulo V. Representaciones gráficas 131

La escala aritmética es la más usual y corresponde a la representada en Jos ejes cartesia-


-o . Se caracteriza por estar igualmente espaciada, de forma que la distancia entre cada va-
~ ción es Ja misma. Así, cambios iguales en la variable producen un movimiento igual en el
;ráfico, bien sea en cantidades absolutas o en porcentajes. Los ejemplos ofrecidos a lo largo
:_e este capítulo corresponden a representaciones construidas con escala aritmética.

Sin embargo, al representar únicamente cambios absolutos, la escala aritmética puede


lugar a distorsiones al acentuar ópticamente los crecimientos y decrecimientos de las
.:..::I
:!riables. De ahí que sea preferible el uso de la escala logarítmica cuando el recorrido de
- variables es de gran amplitud y cuando interesa reflejar los cambios relativos. En este
_ -o es más útil que la escala aritmética para reflejar dichos cambios sin peligro de distorsio-
- - ópticas. La forma más habitual consiste en encontrar una escala aritmética en el eje X y
escala logarítmica en el eje Y, dando lugar entonces a un gráfico semilogarítmico.

Para la construcción de un gráfico en escala logarítmica utilizamos normalmente Jogarit-


en base diez 11 y, por ello, la escala del eje de ordenadas viene representada por poten-
de base diez. Este eje no puede comenzar en cero, pues el logaritmo de cero no está
.:cfinido, debiendo entonces comenzar en una potencia de diez (10 1, 102 , etc.) dependiendo
:=l valor más bajo a representar. Una vez representados Jos datos , la distancia vertical o
~ndiente de la curva indicará el porcentaje de cambio. Así, una línea de pendiente positiva
·cará un crecimiento exponencial de los valores de la variable, mientras que una línea
-~ª correspondería a un crecimiento lineal.

Supongamos que queremos estudiar la inflación que presentan dos países africanos du-
:mte los últimos años: Zimbabwe y Angola. En la Tabla 10 se refleja la evolución de los
?recios al Consumo de ambos países utilizando números índices 12 y tomando el año 2000
_ mo base 100:
Tabla 10.
Índice de Precios al Consumo. Base: 2000 = 100.
Año Angola Zimbabwe

2000 100,00 100,00


2003 1.045,80 2.255,80
2004 1.501,20 8.625,80
2005 1.846,00 34.688,90
2006 2.091,60 415 .115 ,00
2007 2.347,70 101.748.844,00
Fuente: Undata. aciones Un idas.

11
Un logaritmo en base 1O nos dice Ja potencia a Ja que tiene que ser elevado 1O para obtener determinado
ero. Por ejemplo, el logaritmo de 10.000 es 4 porque 104 = 10.000.
12
Un número índice es una medida estadística que permite estudiar las variaciones de la magnitud de un fenó-
no en distintos momentos del tiempo. Así, se escoge una situación como punto de referencia inicial (base) y se
-:!111i te a ella el resto de observaciones para poder realizar comparaciones. En nuestro ejemplo, el Índice de Precios
· Consumo que se ha tomado como situación de partida es el del año 2000, de manera que el IPC de años posterio-
se compara con el de ese año para observar las variaciones de los precios en los años sucesivos.
132 Estadística para la investigación social

Vemos que el recorrido de las variables es de gran amplitud, por lo que utilizaremos un
gráfico semilogarítimo para reflejar mejor los cambios relativos, donde los años vendrán re-
presentados en el eje X en escala aritmética, y el IPC en el eje Y en escala logarítmica:

Gráfico 20 13 .
Evolución del Índice de Precios al Consumo. Base (2000 = 100). Escala logarítmica.
- Zim babwe
1.000.000.000 - Angola

100.000.000

10.000.000 /
1.000.000
I
/
100.000
/
/
10.000
/
,,,,,. ~V
- ¡_.---

- -r
1.000

/ .,,,.. ,,.,..
/.
_...
~ - ...
100 1

2000 2001 2002 2003 2004 2005 2006 2007


Fuente: Undata. Naciones Unidas

Dado que nos interesa comparar las variaciones en el índice de precios de ambos paíse_
durante un período de tiempo, para interpretar correctamente este gráfico no debemos fijar-
nos en las cantidades absolutas, sino en la pendiente de las curvas, es decir, en el incrementa
que experimenta la magnitud durante una unidad de tiempo. En el ejemplo considerado, 1
curva que representa la evolución de los precios en Zimbabwe presenta mayor pendiente que
la correspondiente a Angola, sobre todo a partir del año 2005. Ello indica que en aquel paL
los precios han experimentado un aumento exponencial, es decir, un crecimiento muy rápido
en el tiempo. En cambio, en el caso de Angola se observa que, aunque los precios también

13
Se ha dibujado la curva con línea discontinua en el período 2000-2003 debido a que no disponemos de infor-
mación relativa a los años 2001 y 2002.
Capítulo V. Representacio nes gráficas 133

han subido durante el período considerado, la menor pendiente de la curva indica que dicho
recimiento ha sido lineal y, por tanto , más lento.

~3 . Precauciones en la construcción e interpretación de gráficos


representaciones gráficas son útiles para presentar información de manera sintética, in-
diata y comprensible sobre el fenómeno social investigado. Sin embargo, es frecuente
ervar gráficos construidos de forma inadecuada, sobre todo cuando van dirigidos a fines
- vulgativos. Por ello, se hace necesario contemplar determinados elementos que nos permi-
:.!11 tener una actitud crítica ante la información gráfica presentada, desvelando posibles dis-
iones en la representación de los datos.
En primer lugar, la condición imprescindible de una buena representación gráfica es la
.:ontemplación rigurosa de los aspectos formales señalados anteriormente. Una vez que ello
"' ha tenido en cuenta, conviene prestar atención especial a una serie de cuestiones que dan
_ gar a un mal uso de los gráficos, bien sea por descuido o en respuesta a determinados
tereses en la presentación de los datos . En un esfuerzo de síntesis, podemos señalar dos
::pos de problemas que conducen a desvirtuar la información de Ja cual procede una repre-
:"'ntación gráfica incorrecta:
l. Empleo inadecuado de escalas.
2. Manipulación en los ejes.

l . Empleo inadecuado de escalas


orno ya adelantábamos en el epígrafe correspondiente, el uso de una escala aritmética es
:nadecuado para representar cambios relativos en las variables. Estos cambios deben valorar-
:"' utilizando una escala logarítmica. Cuando se usa una escala aritmética para comparar el
recimiento de distintas series a Jo largo del tiempo, se produce la ilusión óptica de conside-
::rr que la serie que alcanza una mayor cantidad es la que experimenta un mayor crecimiento.
Para ilustrar esta distorsión, consideremos el siguiente ejemplo: supongamos que tene-
:nos una serie de datos -hipotéticos- sobre la evolución de la variable «salario» en dos
JOblaciones distintas:

Tiempo Población A Población B


1 1 550
2 10 800
3 50 1.050
4 100 1.100
5 250 1.400

A partir de esta tabla vamos a construir dos gráficos, uno en escala aritmética y otro en
e cala logarítmica:
134 Estadística para la investigación social

Gráfico 21.
Evolución del salario en dos poblaciones (escala aritmética).
1.500

1.200
"'
·~
~
"'eo 900
E
"'"'
"'C 600 - - - Población A

·;:"'

- - - -- --
"'C
- - Población B
:::>
300

o
t1 t2 t3 t4 tS
Tiempo

Gráfico 22.
Evolución del salario en dos poblaciones (escala logarítmica).
10.000

1.000

100
[
,
-- - --- - - - Población A

,, ,,
10 - - Población B

,,
1
t1 t2 t3 t4 tS
Tiempo

El Gráfico 21, representado en escala aritmética, produce la impresión de que Jos salario_
de Ja población B experimentan un mayor crecimiento que los de la población A. Pero est2.
interpretación no es correcta: si observamos el Gráfico 22, cuyo eje vertical está representa-
do en escala logarítmica, podemos comprobar que es realmente la población A Ja que experi-
menta un mayor crecimiento en los salarios, hecho que, como sabemos, se aprecia por 1
mayor pendiente de la curva de esta población con respecto a la de la población B.
El ejemplo muestra que los cambios relativos deben estudiarse a partir de una escal
logarítmica, pues, como se ha dicho, Ja escala aritmética acentúa ilusoriamente el crecimien-
to de la variable con frecuencias absolutas más elevadas.

2. Manipulación en los ejes


Es fundamental el tratamiento adecuado de las escalas de los ejes X y Y, pues de ello depen-
de que se pueda interpretar correctamente la relación que existe entre las cantidades repre-
Cap ítulo V. Re presentaci ones gráficas 135

entadas en el gráfico. La manipulación (consciente o no) de los ejes, expandiendo o con-


rrayendo las escalas, produce efectos ópticos tendentes a acentuar o disminuir las tendencias
que describen los datos.
El siguiente gráfico representa correctamente dos series al mantener un espaciado ade-
~u adoen las escalas de ambos ejes:
Gráfico 23.

Veamos a continuación el efecto producido por Ja manipulación en los ejes en distintos


p-áficos que representan las mismas series de datos. En primer lugar, observemos tres gráfi-
::os cuyo efecto consiste en suavizar la tendencia de las series de datos :

Gráfico 24. Gráfico 25.


:o~-------------
9+--------------
8+--------------
7+--------------
6+--------------
- .... .... _......--
3 -1--------._...-~_._ _ __
.... - ~
: +-!-..-. --.
. . .-~
. ---. .-..-----------~--
.
i ~~
o~_,,.
. . .'--.~•,,,....,_~
::__________
1994 1995 1996 1997 1998 1999 1994 1995 1996 1997 1998

Gráfico 26.
10
9
8
7
6

---- - - ---
5

-
4
3

------
e-
2
~--
1
o
1994
- -- = - :;-
1995
1
1996
1
1997
1
1998
136 Estadística para la investigación social

El efecto distorsionado de reducir las tendencias responde al interés de producir una ilu-
soria impresión de «estabilidad» en la serie. En el Gráfico 24 se ha contraído el eje Y, al
añadir cantidades que resultan superfluas a la hora de interpretar los datos, mientras que en
el Gráfico 25 se ha expandido el eje X aumentando el espaciado de la escala. Finalmente,
como puede observarse en el Gráfico 26, la tendencia disminuye todavía más con el efecto
combinado de expandir el eje X y contraer el eje Y.
También es posible encontrar representaciones gráficas que producen el efecto contrario,
es decir, acentuar la tendencia de la serie de datos:

Gráfico 27. Gráfico 28.


5 ~--------------

4 +-----,
~----------
2,: +
1 - - -_ ,__

1,5 ......=-_ ___:_ . L __ _ _, ,_ _ _ _ _ __

1 +---/-----~

o,5 +-~
/ _ _ _ _ _ _ _ _ _ __
/
I""-- 00 O'I 0 ...-1 N ('!"') "'1' Lfl !,,O l""--
O'l Q) <J) 00000000 o ~.~-~~--~--~--~--~
C"IO'IO'IOOOOOOOO
'1"""'1'1"""'1..-(NNNNNNNN 1994 1995 1996 1997 1998 1999

Gráfico 29.

1,5 1-
1+--1-
I
0,5 t-1
o
en o ..-< '<t
"'oo "'oo
l/1 CX) N M
'<t
en
en
..-<
en
en
..-<
"'enen "'enen
..-< ..-<
en
en
..-<
en
en
..-<
o
o
N
o
o
N
o
o
N
o
o
N
o
o
N
l/1
o
o
N N N

En este caso vemos que el interés se centra en presentar tendencias más acentuadas de le
que realmente son, es decir, evoluciones más importantes de las variables de forma ficticia.
En el Gráfico 27 se contrae el eje X añadiendo más unidades temporales de las necesarias
para la correcta interpretación del gráfico, y en el Gráfico 28 se expande el espaciado en L
escala del eje Y (la distancia entre O y 1, 1 y 2, y así sucesivamente, es mayor que en e
Gráfico 23). Como en el caso anterior, la intervención conjunta en ambos ejes multiplica
distorsión acentuando todavía más la tendencia, tal y como puede observarse en el Gráfico 2J
Si, como hemos señalado desde el comienzo, la utilidad y el sentido de una represen
ción gráfica es descubrir e interpretar las relaciones existentes entre los datos, tal objetivo _:
desvirtúa con gráficos cuyos ejes se encuentran manipulados en la forma aquí descrita. P
ello, es necesario extremar el cuidado en la construcción de las escalas de los ejes y en
Capítulo V. Rep resentaciones gráf icas 137

-·erpretación de gráficos que puedan dar lugar a ilusiones ópticas. En cualquier caso, es
_ nveniente que junto al gráfico aparezca la tabla con los datos a partir de los cuales se ha
truido; ello permitirá tener un punto de referencia y verificar la información representada.

Ejercicio 6
::1siguiente gráfico pretende representar los datos de la siguiente tabla. Señale las incorreccio-
"'es y los elementos que faltan para que el gráfico sea adecuado.

Índice de precios de vivienda. Base (2007 = 100).

Trimestres IPV

2007TI 97,55
2007Tll 100,337
2007Tlll 101,417
2007TIV 100,696
2008TI 100,323
2008Tll 100,012
2008Tlll 98,352
2008TIV 95,262
2009TI 92,71
2009Tll 92,301
Fuente: Estadística del IPV. INE
138 Estadística para la investigación social

Bibliografía comentada
Alaminas, A. (1993): «Gráficos». Cuadernos metodológicos. Madrid. CIS.
Texto muy útil para el investigador social que, de forma sintética y rigurosa, presenta los tipo
de representación gráfica más útiles en las ciencias sociales y todos aquellos elementos formale
necesarios para una construcción gráfica correcta.
Bertin, J. (1988): La gráfica y el tratamiento gráfico de la información. Madrid. Taurus.
Tratado sobre la gráfica que aborda las reglas que operan en la construcción racional de gráfi-
cos. Basándose en los principios de la semiología gráfica, el texto profundiza en las reglas para
Ja construcción de gráficos verdaderamente útiles para la investigación, alejados de los «grafis-
mos» habituales en Ja comunicación que tienen una intención más estética que informativa.
Capítulo VI

Teoría y cálculo
de probabilidades

Antes de introducirnos en la estadística inferencia! (aquella que permite hacer afirma-


ciones sobre la distribución de una característica en una población a partir de lo obser-
vado en una muestra), debemos dar un rodeo por la teoría de la probabilidad, que está
en su base. Aqu í presentamos esta teoría y el cálculo que de ella se deriva de manera
muy formal , muy abstracta: como un juego matemático. El ejercicio (depu rado) de abs-
tracción que aquí se plantea ayudará, sin duda, a tratar estas cuestiones con la clari-
dad que exigen. Es un ejercicio previo a la hora de enfrentarnos , como haremos en el
capítulo siguiente, a las distribuciones de probabilidad que soportan y a la vez generan
las técnicas de muestreo.

1. Introducción. Definición de probabilidad


1.1. Experimentos y sucesos aleatorios
1.2. Probabilidad a priori y frecuencia relativa
2. Cuestiones básicas del cálculo de probabilidades
2.1. Espacio de sucesos y espacio muestra\
2.2. Técnicas de conteo
2.2.1. Combinaciones
2.3. Cálculo de probabilidades
2.3.1. Regla de la adición: unión de sucesos (sim ultáneos)
2.3.2. Regla de la multiplicación: sucesos condicionados o intersección
de sucesos (secu enciales)
2.4. La regla de Lap\ace redefinida
3. Propiedades básicas de la probabilidad
ANEXO l. Teoría de conjuntos
ANEXO 11. Técnicas de conteo (ordenaciones y agrupaciones)
140 Estadística para la investigación social

l. Introducción. Definición de probabilidad


La teoría de la probabilidad se ocupa de fenómenos que se producen al azar, es decir, de
fenómenos aleatorios o estocásticos. Está asociada a procesos cuyos resultados no se pue-
den determinar con exactitud, a los que sólo podemos atribuirles una probabilidad de ocu-
rrencia.
Que nos toque la lotería, que nos casemos, que suframos un accidente de tráfico, que no
divorciemos entre los 40 y los 44 años, que tengamos un trabajo acorde con nuestro nivel de
estudios, que nos vuelva a tocar la lotería, que muramos después de los 70 años, ... son ejem-
plos de fenómenos aleatorios que pueden darse. Por otra parte, en el contexto de una investi-
gación social, que nos aparezca un concreto tipo de personas (sean agricultores o universita-
rios o votantes del PP o jóvenes o residentes en municipios de menos de 15.000 habitante .
... ) en una cantidad determinada en una muestra extraída (aleatoriamente) de la población
española, también será, obviamente, resultado de un proceso aleatorio. Estas son cuestione
que entran dentro de la teoría y del cálculo de probabilidades, que vamos a introducir aquí de
modo muy formal, porque (con toda probabilidad) es la mejor manera de que se entiendan
con claridad.
Podemos definir la probabilidad como un número de O a 1 que se le asigna a un fenóme-
no para indicar su posibilidad de ocurrir. Le asignamos una probabilidad de O a un fenómene
que no puede ocurrir, que es imposible que ocurra. Por ejemplo, que no muramos nunca
Mientras que a un fenómeno que ocurrirá con absoluta certeza se le asigna una probabilida
de 1. Por ejemplo, que muramos algún día. Y un fenómeno que tiene la misma posibilidac
de suceder que de no suceder tendrá una probabilidad de 0,5. Por ejemplo, que salga cara a:
lanzar una moneda al aire.

1.1. Experimentos y sucesos aleatorios


Aquí hablamos de experimento para referirnos a un proceso (o actividad) sometido a ciert
control que conduce a un resultado observable, que nos permite una observación empírica
Con un experimento producimos, bajo ciertas condiciones controlables, un determinado fe-
nómeno.
En un experimento determinista, bajo las mismas condiciones, siempre obtendremos
mj smo resultado cada vez que lo realicemos: siempre podremos, por lo tanto , predecir e
resultado. Por contra, en un experimento aleatorio sólo podemos conocer con anterioridad !:.
probabilidad de ocurrencia de sus resultados posibles: nunca podremos predecir con exacti-
tud el resultado que se obtendrá al realizarse 1 •
De manera más general, ante procesos que ocurren de manera espontánea o natural , e5
decir, cuya producción no está controlada por el investigador, podríamos hablar simple-
mente de fenómenos (naturales) determinados o necesarios (resultado de procesos determi-

1
Si aplicamos calor constante en una cocina de gas butano a un cacerola de agua fría , sabemos que ésta llegan
a su punto de ebullición. Sin embargo, si extraemos una persona al azar del conjunto de la población español a nu n
podremos saber, de antemano, si va a ser un hombre o una mujer: sólo podremos decir que tenemos una probabili-
dad muy próxima a 0,5 de que sea un hombre.
Capítulo VI. Teoría y cálculo de probabilidades 141

tas) y de fenómenos aleatorios o estocásticos (resultado de procesos aleatorios). Aquí, sin


::mbargo, nos centraremos en los experimentos, ya que, en última instancia, lo que nos
mteresa es el proceso controlado de producción de muestras para la investigación social 2 .
Un suceso es cada uno de los resultados posibles de un experimento 3 .
En un experimento aleatorio tenemos una serie de sucesos posibles, cada uno de ellos
:on una probabilidad de ocurrir.
Entre estos sucesos posibles podemos destacar unos sucesos individuales, elementales.
·-n suceso elemental o simple es cada uno de los resultados individuales obtenidos en un
::xperimento simple.
El conjunto de todos los sucesos o resultados posibles elementales de un experimento se
.::enomina espacio muestra! (o universo de elementos).
Ejemplos de experimentos aleatorios ordinarios són: (a) tirar un dado, (b) tirar un dado
.:iez veces consecutivas, (c) extraer una carta de una baraja española, (d) extraer dos cartas,
;:) seleccionar tres personas de un conjunto de cinco, etc.
El espacio muestra! (U) del experimento (a), «tirar un dado », estará compuesto por todos
resultados o sucesos elementales posibles.
Ucal = {l , 2, 3, 4, 5, 6}
Dentro de este experimento, podemos elaborar sucesos compuestos, a partir de los ele-
ntales posibles. Por ejemplo, el suceso «obtener un número menor de 4», que estaría com-
- esto de los siguientes sucesos elementales: «obtener 1», «obtener 2» u «obtener 3».

sx <4 = {l , 2, 3}
El espacio muestra! del experimento (e), «seleccionar tres personas de un conjunto de
_ co», será, si llamamos a las cinco personas a, b, e, d y e, el siguiente.
UceJ = {abe, abd, abe, acd, ace, ade, bcd, bce, bde, cde}
Estamos aquí ante un experimento compuesto (compuesto de una serie de experimentos
_::mentales, con resultados de un solo elemento). En este caso vamos a llamar conjuntó
estral al espacio muestral generado.
Un suceso compuesto dentro de este experimento sería, por ejemplo, «extraer tres perso-
- iendo una de ellas e».

: Un fenómeno aleatorio natural es, por ejemplo, Ja cantidad de agua de llu via que cae durante un año en una
~ d determinada: nunca podremos saber de antemano cuánto lloverá el próximo año en esa ciudad, sólo conoce-
su probabilidad teniendo en cuenta las lluvias registradas en años anteriores. El in vestigador no produce el
meno. En cambio, un experimento aleatorio es un fenómeno provocado, en el que se controlan, hasta cierto
· . sus condiciones de producción, de manera que pueda repetirse bajo las mismas condiciones. Por ejemplo, en
= po de Ja investigación social, un experimento de este tipo se da cuando extraemos una muestra 50 mujeres del
to de la población española femenina, muestra en Ja que todos Jos elementos de esta población tienen Ja
a posibilidad de aparecer. Si conocemos la proporción de solteras en Ja población, sólo sabremos, de antema-
probabilidad de que nos aparezca en Ja muestra un determinado número de solteras, pero nunca tendremos
~za de ello.
3
En Jugar de suceso algunos manuales hablan de evento o acontecimiento.
142 Estadística para la investigación social

Un experimento aleatorio siempre podrá repetirse, con lo que conseguimos un experi-


mento compuesto, formado por una serie de experimentos elementales independientes suce-
sivos. Por ejemplo, el experimento (b), «tirar un dado diez veces consecutivas», es un expe-
rimento compuesto sucesivo. También podemos encontrar experimentos compuesto
simultáneos, como, por ejemplo, «tirar diez dados simultáneamente» o el (d) citado más arri-
ba, «extraer dos cartas de una baraja española».
En estadística social la probabilidad se introduce en el muestreo4 . En éste nos interesa
conocer la probabilidad que tiene un subconjunto de una población de aparecer en una mues-
tra, o, lo que es lo mismo, la probabilidad de que una determinada clase de personas de una
población nos aparezca en una muestra de ésta.
Si en un colegio hay 100 alumnos, de los cuales 40 son nmos y 60 nmas, y si, por
sorteo, elegimos un alumno que represente al colegio, ¿q ué probabilidad hay de que sea
una niña? Es el problema (el tipo de problema) de probabilidad más simple que nos pode-
mos encontrar, y que desarrollamos a continuación.

1.2. Probabilidad a priori y frecuencia relativa


El espacio muestra! de este experimento estaría compuesto de dos sucesos posibles: «elegir
un niño» o «elegir una niña». Estos dos sucesos son mutuamente excluyentes: está claro que
o sacamos un niño o sacamos una niña; nunca pueden darse simultáneamente los dos resul-
tados.
Para hallar la probabilidad pedida podemos aplicar lo que se conoce como la regla de
Laplace. Ésta dice que «la probabilidad de un acontecimiento es la relación del número de
casos que le son favorables entre el número de todos los casos posibles», siempre que to-
dos sean «igualmente posibles», es decir, que tengan la misma probabilidad a priori de
suceder 5 .
Para esto suponemos que repetimos el experimento hasta obtener todos los casos posi-
bles, que en este ejemplo son 100 (ninguno con más probabilidad de ocurrencia que otro)6.
Contamos con 100 elecciones posibles. De tal modo que en 40 ocasiones habremos obtenido
un niño y en 60 una niña. Los casos favorables a nuestro suceso, es decir, los casos en que hz
resultado elegida una niña, son 60.

4
Sobre el establecimiento de leyes y la repetición de los acontecimientos. Es en este contexto en el que se
desarrolla la cuestión de la probabilidad durante el siglo XIX: se debatía sobre la posibilidad de constitución de um>
ciencia de los hechos humanos, de una ciencia de lo histórico. En su origen, la probabilidad se sitúa en el debate
teológico: en el debate sobre la determinaci ón o libertad de los actos humanos o, más generalmente, sobre la cau
lidad o la contingencia en la naturaleza, a fin de cuentas, sobre la omnipotenci a divina. Todo saber científico (alg
que hemos olvidado de modo rotundo) nace en el seno del debate teológico. A nosotros, en el acotado contexto de
este manual, sólo nos interesa la probabilidad encuadrada en la teoría de muestras, en un contexto praxeológi
muy acotado, si bien no deberíamos olvidar las cuestiones teo lógico-políticas supuestas en éste, que nos ayudarían
entenderlo mucho mejor, au nque se sitúan, obviamen te, fuera de los límites de este texto.
5
Es la definición de probabilidad en un ciada en su Théorie analytique des probabi/ités ( 1812) y que aquí cita-
mos en su tercera edición de 1820 (pág. 181 , entre otras).
6
Estamos hablando simplemen te de las extracciones, en su aspecto formal , y no del contenido de éstas, de
resultado. No se debe confundir «casos» con «sucesos».
Capítulo VI. Teoría y cálculo de probabilidades 143

Todos los casos son equiprobables. Y los resultados posibles son mutuamente excluyen-
s. Son las condiciones básicas para poder aplicar la definición de probabilidad de Laplace.

P (sacar una niña) = 60/100 = 0,6

En términos generales esto se expresaría de la siguiente manera. Sea N el número total


• casos o de ocasiones (igualmente probables) que se realiza un experimento aleatorio y n
_ número de estos casos que son favorables a Ja ocurrencia de un suceso S, es decir, el
- JIDero de veces que S puede suceder (en un espacio de sucesos mutuamente excluyentes).
~ronces , la probabilidad de que S ocurra será:

P(S) = n/N

Como n ha de ser necesariamente un valor menor o igual a N, el valor de una probabili-


.:_d nunca podrá ser mayor de N/N, o sea, nunca podrá ser mayor de l. En el peor de los
__:: enarios podemos tener un suceso que nunca se realice, es decir, con ningún caso favora-
: e. por lo que su probabilidad será O/N, esto es, O.
El valor de la probabilidad de un suceso estará siempre comprendido entre el O y el 1.

O~ P(S) ~ 1

Experi mentalmente, para llegar a conocer la probabilidad del suceso de nuestro ejemplo
"'legir una niña») hay que suponer que repetimos el experimento, que consiste en extraer o
! egir uno de los alumnos del colegio, un número de veces muy elevado (que en teoría sería
=finito).
Hemos registrado las frecuencias del suceso «elegir una niña» en los reiterados casos
_ que hemos realizado el experimento. Por convenio (desde Bernoulli), se suele hablar de
'rito de un suceso cuando éste se realiza en el experimento, y de fracaso , cuando no se da.
~q uí hablamos de casos favorables y desfavorables. Marcamos los resultados favorables (si
- cenemos una niña) en el experimento con un 1 y los otros (si no obtenemos una niña) con
O. Las primeras 80 extracciones que hemos registrado han sido:

1011011001 1001010110 1100110011 0101110100 1100100111 1101011010


1110110101 1001101101

Hay que tener en cuenta que cada vez que realicemos sucesivamente el experimento (en
a serie de experimentos elementales sucesivos independientes), la secuencia concreta de
-e ultados será distinta: la secuencia de los primeros ochenta resultados será distinta en cada
asión 7 . No nos importa. Lo que nos interesa es que, para un número muy elevado de casos,
· frecuencia relativa o proporción acumulada de los resultados favorables se aproxima a Ja
:m>babilidad «real»« del suceso. Y esto sucede en todas las secuenci as concretas de resulta-
.:os: todas tienden hacia la probabilidad «real» del suceso. Veamos pues, a través de la Ta-
_la 1, hacia qué valor tiende esa frecuencia, observando los 80 primeros resultados que he-
os obtenido al azar.

7
Con este número de casos es prácticamente imposible que se repita la misma secuencia de resultados
144 Estadística para la investigación social

Tabla l. Tabla l. (Continuación)


Proporción Proporción
acumulada acumulada
N.º de caso Resultado N.º de caso Resultado
de éxitos de éxitos
(resultados = 1) (resultados = 1)
1 1 1,00 41 1 0,56
2 o 0,50 42 1 0,57
3 1 0,67 43 o 0,56
4 1 0,75 44 o 0,55
5 o 0,60 45 1 0,56
6 1 0,67 46 o 0,54
7 1 0,71 47 o 0,53
8 o 0,63 48 1 0,54
9 o 0,56 49 1 0,55
10 1 0,60 50 1 0,56
11 1 0,64 51 1 0,57
12 o 0,58 52 1 0,58
13 o 0,54 53 o 0,57
14 1 0,57 54 1 0,57
15 o 0,53 55 o 0,56
16 1 0,56 56 1 0,57
17 o 0,53 57 1 0,58
18 1 0,56 58 o 0,57
19 1 0,58 59 1 0,58
20 o 0,55 60 o 0,57
21 1 0,57 61 1 0,57
22 1 0,59 62 1 0,58
23 o 0,57 63 1 0,59
24 o 0,54 64 o 0,58
25 1 0,56 65 1 0,58
26 1 0,58 66 1 0,59
27 o 0,56 67 o 0,58
28 o 0,54 68 1 0,59
29 1 0,55 69 o 0,58
30 1 0,57 70 1 0,59
31 o 0,55 71 1 0,59
32 1 0,56 72 o 0,58
33 o 0,55 73 o 0,58
34 1 0,56 74 1 0,58
35 1 0,57 75 1 0,59
36 1 0,58 76 o 0,58
37 o 0,57 77 1 0,58
38 1 0,58 78 1 0,59
39 o 0,56 79 o 0,58
40 o 0,55 80 1 0,59
Capítulo VI. Teoría y cálculo de probabilidades 145

Se hace evidente que a medida que empíricamente aumentamos el número de casos la


habilidad sobre el total de éstos se aproxima a 0,6. Es decir, en el límite, cuando N (el
de los casos) tiende a infinito, encontramos la probabilidad que buscamos 8 .
Gráfico 1 9 .
Proporción de éx itos en extracciones consecutivas.

1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 l 1 1 1 1 1 1 1 1 1 1 1 1 1 1 l 1 1 1 1 l 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 2 3 4 s s 1 s 9101112131415'16171819ai21=:!12i;!;27iB2!1ll31323334353l37:Jm(J41<!434«5W4l41!1l51S1Sl5455$5758!ll!nl1616364650067fffilill71727374 JSro7778J911l

Debe quedar claro que las probabilidades a priori no pueden obtenerse nunca por méto-
empíricos. Desde éstos, para acercarnos a una probabilidad a priori, tenemos que hacer
ejercicio imaginario: la repetición infinita de un experimento, cuya realización, obvia-
nte, nunca será posible. Una probabilidad a priori supone, sin embargo, intuitivamente la
=alización de un ejercicio de este tipo.
Los procedimientos y las reglas matemáticas que se dan en el cálculo de probabilidades,
":mdamento de la estadística inferencia!, toman como punto de partida esa noción intuitiva
_ extraña) que es la probabilidad a priori.
A continuación, para comprender las propiedades matemáticas de las probabilidades,
- propiedades que nos permiten realizar cálculos con ellas, se hace necesario aplicar las
iones básicas de la teoría de conjuntos.

~- Cuestiones básicas del cálculo de probabilidades


__a teoría de conjuntos, desarrollada a fines del siglo XIX por George Cantor, supone una
~portació n clave para el cálculo algebráico, con una renovación importante en la conside-
:ación del número como elemento básico, y da un fuerte impulso al pensamiento lógico
:ormal.

8
Ésta es, desarrollada por Jacob Bemoulli en su obra póstuma Ars conjectandi ( 1713), la primera expresión
;:ooocida de lo que Poisson llamará en 1835 «ley de los grandes números». Esta ley se conoce también como «ley
1 azar» de BenoulLi o ley de Laplace-Gauss.
9
Representamos aquí los resultados obtenidos (en términos de frecuencias relativas acumuladas) tras un núme-
;:o suficientemente alto de extracciones sucesivas (80), manteniendo en todas ellas el mismo conjunto original ( 100
:?.!umnos) , ya que cada uno de los sucesivos alumnos que extraemos lo volvemos a ingresar al conjunto antes de
oceder a la sigui en te extracción, porque estos experimentos sucesivos son independientes entre sí, de tal manera
que el resultado del anterior no influye de ningún modo en el siguiente.
146 Estadística para la investigación social

Las cuestiones más elementales de la teoría de conjuntos (las definiciones de conjunto.


subconjunto y universo, junto con las operaciones básicas de unión e intersección de conjun-
tos) nos fijan las bases para el cálculo de probabilidades.
Para entender con más facilidad lo que sigue puede y debe verse el «ANEXO I. Teoría
de conjuntos» al final de este capítulo.

2.1. Espacio de sucesos y espacio muestral


Vamos a comenzar con un ejemplo. Una mujer tiene tres hijos: Adela, Marcelo y Herminia.
En una atracción de feria, sólo hay plazas para dos. La madre tendrá que realizar una «selec-
ción de dos hijos » para que monten en Ja atracción, esto es, extraer una muestra de 2 elemen-
tos de un conjunto de 3: este es el experimento aleatorio en el que nos introducimos. ¿Quié-
nes serán Jos dos afortunados que suban a la atracción?
Los elementos o las unidades muestra/es que tenemos, que conforman el universo (o 1
población) del experimento, son tres: Adela, Marcelo y Herminia.
Y el conjunto de estas unidades constituye el espacio muestra/ (E) de nuestro experimen-
to: E= {Adela, Marcelo, Herminia} = {A, M, H}, que no es sino Ja población o univer o
de elementos sobre el que aplicamos este experimento y que nos va a definir los resultado:
posibles. En este espacio, sobre esta población, el experimento «seleccionar dos niños de
entre los tres» define un conjunto muestra!, un determinado conjunto de resultados o mue -
tras posibles, compuesto por los siguientes sucesos:
l. que resulten seleccionados Adela y Marcelo;
2. que los seleccionados sean Herminia y Adela; y
3. que sean Marcelo y Herminia.
Este conjunto lo escribimos así: {(A, M), (H, A), (M, H)}.
Este conjunto muestra!, definido por el experimento, será un subconjunto de todo el es-
pacio de sucesos generado por los elementos que conforman el espacio muestra! {A, M, H}
El espacio de sucesos ('¡g) estará compuesto por todos los conjuntos que podemos formar co
las unidades muestrales, esto es, por todas las muestras posibles que podemos extraer de
espacio muestra!: <¡g = { 0, (A), (M), (H), (A, M), (H, A) , (M, H), (A, M, H)}.
Observe que el espacio de sucesos contiene el conjunto vacío { 0 } que representa
suceso imposible: por ejemplo, que quienes monten en la atracción no sean ni Marcelo, IL
Herminia, ni Adela, o que una pareja de niños sea la compuesta por Adela y Adela. Obsen·:
también que el propio conjunto de sucesos elementales, es decir, el universo, es un elemen
del espacio de sucesos. El conjunto vacío es el complementario del universo. La extrañez..:.
que en el lector puede producir la inclusión del conjunto vacío -o suceso imposible- en e
espacio de sucesos se puede desvanecer al observar que todo suceso tiene un complement -
rio. Por ejemplo, el complementario de (A) es (M, H). Seleccionar a Adela es lo mismo qu::
no seleccionar a Marcelo y Herminia. Por lo tanto, si el conjunto universo es un suce o
también lo será el conjunto vacío.
Capítulo VI. Teoría y cálculo de probabilidades 147

En la investigación social no nos interesan los individuos concretos, sino unas determi-
- as características de estos, como pueden ser sus identidades sex uales, sus edades, etc.
- etomemos nuestro ejemplo. Supongamos que nos interesa conocer simplemente la compo-
~ó n por sexo de las parejas resultantes, es decir, si ambos afortunados son niñas, o si son
--o y niña. En este caso, las unidades muestrales que tenemos constituyen el siguiente espa-
- o muestra/ elemental (o universo poblacional): E = {niña, niño, niña}.
En este experimento se pueden producir los siguientes resultados posibles, atendiendo al
"XOde los seleccionados:
a) se seleccionan dos niñas: (Adela, Herminia);
b) se seleccionan un niño y una niña: (Adela, Marcelo), (Herminia, Marcelo).
El conjunto muestral de este experimento compuesto, según el nombre de los niños, se-
- · {(Adela, Marce lo), (Herminia, Marcelo), (Adela, Herminia)}.
Tendríamos un resultado (suceso) «imposible»: nunca podríamos seleccionar a dos ni-
,; -: y un resultado «seguro»: siempre seleccionaremos al menos a una niña.
El conjunto muestra/, con todos los resultados posibles, si nos fijamos en el sexo de los
"leccionados, será: {(niña, niño) , (niña, niño), (niña, niña), (niña, niña), (niño, niña), (niño,
=.!ful)}. O, en términos más gráficos: { (~e)), (~e)), (~~), (~~), (ó~), (e)~)}.
En este experimento, según la regla de Laplace, la probabilidad de que se subiesen un
-o y una niña en la atracción sería 2/3; y la probabilidad de que se subiesen dos niñas sería
:.= 113.
Recapitulemos los conceptos:
Un suceso elemental es uno de los resultados posibles de un experimento aleatorio ele-
ental.
El espacio muestra[ (E) o universo de un experimento aleatorio está constituido por to-
los elementos (o unidades muestrales) que combinados entre sí producen los resultados
_ ibles de aquel. También podemos decir que es el conjunto de elementos (o población)
bre el que se aplica el experimento.
Un suceso es, por tanto, un subconjunto del espacio muestra! del experimento.
El espacio de sucesos ('¡g ) es el conjunto de todos los sucesos (de todos los subconjuntos
¡osibles) del espacio muestra!, el conju nto de todas las muestras que se pueden generar con
elementos del universo, entre las que incluiríamos la muestra que contiene todos los ele-
:nentos (el suceso seguro) y la muestra que no contiene ninguno (el suceso imposible).
Los resultados en una determinada población de un experimento compuesto (de otros
-imples) generan un subconjunto específico del espacio (total) de sucesos que configura esa
:xiblación: un subespacio de sucesos al que podemos denominar conjunto muestral.
Y así, si agrupamos los sucesos del espacio muestra/ según un determinado criterio defi-
:údo en un experimento (por ejemplo, el número total de elementos que contienen, o el nú-
;nero de elementos que contienen con unas determinadas características), esto nos generará
.ii tintos conjuntos muestrales. Por ejemplo, en una población de 100 personas podemos de-
:lnir el conjunto muestra! compuesto por todas las muestras aleatorias posibles de 20 perso-
148 Estadística para la investigación social

nas. Y dentro de este conjunto podríamos establecer, atendiendo a una característica que nos
interesase de estas personas, otro subconjunto muestral, que podría ser el compuesto por las
muestras de 20 personas de esta población que contuviesen, por ejemplo, menos del 40% de
mujeres.
Consideramos siempre los sucesos dentro de un conjunto muestral considerado, es decir.
dentro de un conjunto de sucesos que reúnen una característica determinada y que, en cieru:
sentido, constituyen un universo de sucesos posibles.
Dentro de cada uno de éstos, cada suceso contará con un complementario. Un suces
complementario de otro será el que contenga todos los elementos que le faltan a éste den
de un determinado universo de sucesos . El suceso complementario de S (que también seco-
noce como su contrario u opuesto) se escribe S.
Veamos un par de ejemplos muy simples para fijar estos conceptos.
Si tenemos una población constituida por 5 personas {a, b, e, d, e} y queremos extrae:-
una muestra de 2 personas en la que aparezca c, el conjunto muestra! a tener en cuenta se _
el conj unto de todas las muestras posibles de 2 personas, esto es, {ab, ac, ad, ae, be, bd, be
cd, ce, de}. Este conjunto estaría compuesto de estos 10 elementos, de los cuales 4 contiener:
la c. El suceso que estamos buscando contiene, por lo tanto, los siguientes elementos de_
espacio de sucesos considerado: {ac, be, cd, ce}. Es decir, en 4 casos de los 10 posibles _;
verifica nuestro suceso. ¿Cuál será, entonces, la probabilidad de que una muestra de 2 perso-
nas de una población de 5 contenga la c? Aplicando Ja regla de Laplace (número de cas .::
favorables entre casos posibles) dicha probabilidad será de 4110 = 0,4. Si sustituimos la
por cualquier otra persona (a, b, do e) obtendremos la misma probabilidad.
¿Y cuál sería, en esta misma población, la probabilidad de extraer, de entre todas las
muestras de 2 personas, una muestra que no contuviese Ja c? El conjunto muestral (o univer-
so de sucesos) a considerar sería el constituido por todas las muestras de tamaño 2. Y e
suceso «extraer una muestra de 2 elementos que no contenga la c» será el constituido por las
siguientes muestras: {ab, ad, ae, bd, be, de}. Éste es el suceso complementario del anteri
(«extraer una muestra de 2 elementos que contenga la e»). El total de sucesos a considerar es
el mismo considerado anteriormente: está constituido por todas las muestras de tamaño =
que podamos extraer de la población citada y cuyo número es 10. Por lo tanto, la probabili-
dad que buscamos es de 6/10 (6 casos favorables entre 10 posibles), esto es, 0,6.
Observamos aquí que la probabilidad de un suceso más la probabilidad de su comple-
mentario es igual a l. En un determinado conjunto muestral, siempre que no se dé un suce
se dará, necesariamente, su complementario.

Ejercicio 1
Supongamos que tenemos una población formada por 5 personas {a, b, c, d, e} y queremos co-
nocer el espacio de sucesos, es decir, todos los posibles subconjuntos que se pueden formar a
partir de los elementos de esta población.
a) Enumere todos los posibles subconjuntos del espacio de sucesos de esta población.
b) ¿Cuántos sucesos forman finalmente este espacio?
Capítulo VI. Teoría y cálculo de probabilidades 149

Ejercicio 2
-enemos un ramo formado por 4 flores de distintos colores (roja, blanca, rosa, amarilla) y quere-
-ios regalar únicamente 3 de ellas. Para ello, ped imos a una mano inocente que seleccione 3
· res al azar:

a) ¿Cuántos posibles ramilletes de 3 flores podrían formarse?


:>) ¿Cuál es la probabilidad de que el ramillete contenga una flor amarilla?

Ejercicio 3
vonsideremos nuevamente la población de 5 personas {a, b, e, d, e}. Si extraemos una muestra
- eatoria de 2 individuos:

a) ¿Cuál es la probabilidad de que en la muestra seleccionada aparezca el individuo «a»?


) ¿Cuál es la probabilidad de que en la muestra seleccionada aparezca al menos un individuo
con letra alfabéticamente anterior a la «e»?

Supongamos ahora que tenemos dos grupos poblacionales A y B (de 4 y de 3 individuos


_-pectivamente) y que en éstos distinguimos a los individuos que votan al partido «i» (iz-
-;.nierda) y a los que votan al partido «d» (derecha), que se distribuyen dentro de cada grupo
_e la siguiente manera: A = {i, d, d, i}; B = {d, d, i}. Si extraemos de manera aleatoria una
uestra que contenga un individuo del grupo A y otro del grupo B, ¿qué probabilidad tene-
:nos de que nos salgan dos individuos de derecha?

Para esto tendremos que hallar todas las muestras posibles (de tamaño 2). Éstas serían:
id, id, ii, dd, dd, di, dd, dd, di, id, id, ii}, en total 12 muestras (4 x 3). Vemos que en 4
_e estas muestras figuran dos individuos de derecha. Aplicando la regla de Laplace, tenemos
ue la probabilidad buscada es 4 (casos favorables) entre 12 (casos posibles), esto es,
12 = 1/3 = 0,33.

Ejercicio 4
Siguiendo con el ejemplo de las poblaciones A = {i, d, d, i} y B = {d, d, i}, si extraemos aleatoria-
mente una muestra que contenga un individuo de A y un individuo de B:

a) ¿Cuál sería la probabil idad de que en la muestra aparezca al menos un individuo de izquier-
da (i)?
b) ¿Y cuál la probabilidad de que en la muestra aparezca al menos un individuo de derecha (d)?

Ejercicio 5
Consideremos ahora únicamente la población A = {i, d, d, i}. Si extraemos una muestra de 2
individuos de esta población :

a) ¿Cuál sería la probabilidad de que los dos sean de derecha (d)?

b) ¿Y la probabilidad de que al menos uno de ellos sea de izquierda (i)?


150 Estadística para la investigación social

Hasta aquí hemos visto ejemplos con muy pocos casos. Si tratásemos con grandes pobla-
ciones y muestras de cierto tamaño nos resultaría tremendamente laborioso la enumeración
pormenorizada, como hemos hecho hasta ahora, de todas las muestras posibles que reúnen
una determinada característica. En estas situaciones utilizaremos técnicas de conteo que no
permitan calcular el número de muestras a tener en cuenta sin necesidad de enumerarlas una
a una.

2.2. Técnicas de conteo


Cuando hablamos de medida nos referimos a la relación que se establece entre los elemento
de un conjunto de valores (conjunto que constituye una variable), es decir, a la relación en-
tre los valores de la variable. Así hablamos de los niveles de medida que se pueden dar entre
los valores de una variable (nominal, ordinal, de intervalo y de razón) según las relacione
que se pueden establecer entre esos valores. Una variable es un conjunto de valores, valore
que califican a todos los elementos de una determinada población, permitiendo la clasifica-
ción de éstos. Una variable X es un conjunto de k valores [X= {x 1, x 2 , x 3, ...,X;, ... , xk _ 1, xd ]
en el que agrupamos los N elementos de una determinada población P. Cada uno de los valo-
res constituye un grupo de elementos de una población. El conteo básico nos da el número
de elementos que encontramos dentro de cada uno de los valores, esto es, la frecuencia de
cada valor, es decir, el número de veces (n;) que éste se repite en una población [L: n; = N] .
En las Tablas 2 y 3 presentamos dos ejemplos de cómo se distribuye una población entre
los valores de una variable.

Tabla 2. Tabla 3.
Población de Velilla de San Antonio Población en España, distribuida
(Madrid), distribuida según su edad 10 • según su estado civil 1 1•
Edad (años) n Estado civil n

Menos de 10 1.354 Soltero/a 17.682.302


De 10 a 19 1.017 Casado/a 19.104.621
De 20 a 29 1.397 Divorciado/a 1.161.090
De 30 a 39 2.034 Viudo/a 2.647.848
De 40 a 49 1.323 Total (N) 40.595.861
De 50 a 59 541
De 60 a 69 274
De 70 a 79 188
Más de 79 74
Total (N) 8.202

La operación de conteo más básica nos permite conocer el número de elementos que
presenta un conjunto, esto es, su cardinal. Para ello agrupamos los elementos en base deci-

10
Se trata de población residente en viviendas famj Ji ares, segú n el Censo de Población de 2001.
11
En este caso se trata también de población residente en viviendas familiares seg ún el Censo de 2001.
Capítulo VI. Teoría y cálculo de probabilidades 151

'llal, formando conjuntos de diez elementos (y conjuntos de conjuntos de diez elementos).


Y sólo trabajaremos con la serie de números naturales más el cero. Un conjunto podrá tener
-· 15, 24, 3.876 o 20 millones de elementos, o incluso podría no tener ningún elemento, pero
:iunca podrá contener un número fraccionado o negativo de elementos: no encontraremos
unca conjuntos con 2,27 ni con - 76 elementos.
Ahora podemos redefinir Ja regla de Laplace. Podemos decir que «la probabilidad de un
suceso es igual a su cardinal entre el cardinal del espacio muestral (o del universo de suce-
50 ) en el que se inscribe».

En términos de población, variables y valores, es decir, en términos de investigación so-


ioestadística, diremos que «la probabilidad de extraer un individuo (al azar) perteneciente a
grupo de una determinada población es igual al peso relativo de ese grupo en la pobla-
-ºón», y para ello calculamos la proporción de ese grupo en Ja población (dividiendo el ta-
:::iaño del grupo entre el tamaño de Ja población).
Si observamos Ja distribución de Ja población de Ja Tabla 2, ¿cuál sería Ja probabilidad
:.e extraer en Velilla de San Antonio un individuo de más de 79 años?
Esta probabilidad es igual a la proporción del grupo de más de 79 años dentro del total de
· población.
P(x > 79) = 74/8202 = 0,0090

Si en esta tabla trabajásemos con las frecuencias relativas de las categorías en vez de con
números (absolutos) de casos que encontramos en cada una de ellas, obtendríamos direc-
:::mente Ja probabilidad buscada.
Tabla 4.
Edad (años) fr
Menos de 10 0,1651
De 10 a 19 0,1240
De 20 a 29 0,1703
De 30 a 39 0,2480
De 40 a 49 0,1613
De 50 a 59 0,0660
De 60 a 69 0,0334
De 70 a 79 0,0229
Más de 79 años 0,0090
Total (N) 1,0000

Ejercicio 6
Teniendo en cuenta los datos de la Tabla 3 sobre la población española distribuida según su
estado civil {datos del Censo de Población de 2001 ):
a) ¿Cuál es la probabilidad de extraer, del conjunto de la población española, una persona que
sea soltero/a?
b) ¿Y cuál es la probabilidad de extraer una persona que no sea soltero/a?
152 Estad ística para la investigaci ón social

Ejercicio 7
Según los datos ofrecidos por el INE en el Censo de 2011 , la población andaluza distribuida por
provincias es la siguiente:

Tabla 5.
Población andaluza distribuida por provincias.

Población por provincias n

Almería 688.736
Cádiz 1.244.732
Córdoba 802.575
Granada 922.100
Huelva 5 19.895
Jaén 667.484
Málaga 1.594.808
Sevilla 1.930.941

Total (N) 8.37 1.270

Vamos a realizar un sorteo entre la población andaluza, para el cual extraemos aleatoriamente
una persona de tal Comunidad:
a) ¿Cuál es la probabilidad de extraer una persona cuya provincia tenga sal ida al Mar Mediterrá-
neo ?
b) ¿Cuál es la probabilidad de extraer una persona de una provincia de interior?
c) ¿Y cuál es la probabil idad de extraer una persona residente en una provincia que limite con el
mar?

Ejercicio 8
Considere la Tabla 2 (Población de Velilla de San Antonio distribuida según su edad) y la Tabla 3
(Población en España distribuida según estado civil):
a) ¿Cuál es la probabilidad de extraer, del conjunto de la población española, un individuo resi-
dente en Velilla de San Antonio?
b) Y considerando únicamente la población de Vel illa, ¿cuál es la probabilidad de extraer una
persona entre los habitantes de esta localidad que tenga menos de 40 años?

La adición, como operación (o suma, si atendemos al resultado), es la más elementa::


técnica de conteo.
La multiplicación (o producto) es una adición de grupos 12 (o conj untos) con el mismc
numero de elementos o una adición repetida un determinado número de veces de todos lo:
elementos de un mismo grupo (o conjunto) 13 .

12
Cuando aquí hablamos de «grupos» no hablamos de grupos en sentido algebráico (como grupos abeli an
etc.) : simplemente nos referimos a grupos como «Conj untos», como colecciones de elemen tos, y en sentido ~
sociológico, como conj untos de personas que reú nen unas característi cas determi nadas.
Capítulo VI. Teoría y cálculo de probabilidades 153

Para poder calcular las probabilidades de una composición de sucesos o de un suceso


:ompuesto , utilizaremos las reglas de adición y de multiplicación de probabilidades que de-
.::niremos más abajo.
Pero ahora volvamos al asunto del cálculo del número de muestras que reunen unas ca-
~ terísticas determinadas en un a población, necesario para conocer las probabilidades de
;;xtracción de estas muestras en el seno de esa población.

_.2.1. Combinaciones
etomemos esa población de cinco elementos {a, b, c, d, e} que habíamos fijado un poco
:nás arriba. ¿Cómo podremos calcular sin tener que enumerarlos todos los subconjuntos de
:os elementos que podemos formar en esta población (población que vamos a llamar U)?
Ya sabemos que el conjunto de todos los subconjuntos de dos elementos, es decir, el
:onj unto muestra! de éstos (que es un subconjunto del espacio de sucesos que conforman
-odos los subconjuntos posibles de la población), es el siguiente:

rg (U)carctz = {{a, b}, {a, c}, {a, d}, {a, e},{b, c}, {b, d}, {b, e}, {c, d}, {c, e}, {d, e}}

::::n total son 1O subconjuntos.


¿Cómo podemos calcular este número sin necesidad de realizar esta enumeración? Para
;;llo recurrimos al concepto de combinaciones: las combinaciones de S elementos tomados
.:e 2 en 2 nos darán ese número.

Con las combinaciones podemos calcular el número de subconjuntos (o muestras) de un


_eterminado número (r) de elementos que podemos extraer de una población cualquiera (de
elementos). Las combinaciones de n elementos tomados en grupos de r serán:

cll ,r = (n)r n!
= r! . (n - r)!

Donde n! (11 factorial o factorial de 11) es el producto de Jos n primeros números naturales
iendo n un número natural) 14 • Es decir,

n! = 1 ·2·3· 4· ·· · ·(n-2)·(11- l)·11

13
Adición y multiplicación son las dos reglas fundamentales del cálculo algebráico: las famosas «cuatro re-
glas» que aprendían nuestros abuelos (ya que trabajaban sólo con números naturales) quedan reducidas a dos, ya
:;ue la sustracción puede considerarse una adición y la división una multiplicac ió n (ya que ahora trabajamos tam-
,ién con números enteros y racionales).
Actualmente, los matemáticos trabajan con los siguientes conjuntos de números: naturales (f\J), enteros ('11.), ra-
=ionales (Q), reales (~) y complejos (C). Los reales se componen de los racionales (0) y los irracionales: dentro de
racionales encontramos los números enteros. Los complejos están compuestos por los reales y los imaginarios .
.~í tenemos que f\J e '?l. e Q e ~ e C .
14
Si n = O, entonces (por convenio, ya que O no es un número natural) O! = 1.
154 Est ad íst ica pa ra la investigació n social

o, lo que es lo mismo, ya que la multiplicación es una operación conmutativa:

n! =n'(n- l)·(n-2) · · .. ·4·3·2· 1

Podríamos reducir la fórmula de las combinaciones a esta otra 15 :

e
n,r
= (n) =
r
_n_·(_11_-_l_)_··_·_··_(1_1_-_r_+_l_)
r!

En este punto, para comprender bien la formulación de las combinaciones se hace ir::-
prescindible leer el «ANEXO 11. Técnicas de conteo (ordenaciones y agrupaciones)», que :
encuentra al final de este capítulo.

Ejercicio 9
Supongamos que una asociación está formada por 15 personas y se necesita formar una com·
sión seleccionando al azar un conjunto de asociados:
a) ¿Cuántas muestras de 6 socios podemos extraer?
b) ¿Y de 3 socios?

Ejercicio 1 O
Supongamos que tenemos una población fo rmada por 100 personas. ¿Cuántas muestras de 1C
pe rsonas distintas resu ltarán si realizamos una selección aleatoria?

2.3. Cálculo de probabilidades


Ya sabemos lo que es un suceso elemental: un suceso con un solo elemento. Un suceso com-
puesto es una composición de sucesos elementales. Esta composición se realiza por medi
de dos operaciones: unión o intersección 16 •

15
Podemos observar que
11! = /1 · (n - ! )!
11 ! = /1 '(n - 1) '(11 - 2) !
n! = n'(n - l)'(n - 2)'(11- 3)!
etc.

Como res necesariamente un número narural menor o igual que n (r ~ 11 ), ya que es imposib le encontrar sur:
conjuntos con mayor número de elementos que el conjunto del que proceden, entonces

11 ! = /1 · (n - 1) '( n - 2)' .. · · (n - r + 1) '(n - r) !

Por lo que la fórmula se podría desarrollar de la siguiente manera:

C =(n)= 11! =11·(11 - l ) ····· (n - r + l)· (11 - r)!=11 ·(11 - l )···· · (11 - r+l)
"·' r r!·(n-r)! r!·(n-r)! r!
16
Estas operaciones corresponden con las que, en el campo de la lógica proposicional, llevan a cabo los opera-
dores lógicos «O» ( v ) e «y» ( /\ ).
Capítulo VI. Teoría y cálculo de probabilidades 155

Como todo suceso se puede descomponer en una serie de sucesos elementales, un suceso
puesto puede ser composición de varios sucesos cualesquiera (sean o no elementales).
Para el cálculo de probabilidades se hace necesario conocer si los sucesos con los que
::.:nos a trabajar son o no mutuamente excluyentes, en el caso de que estemos ante sucesos
ultáneos, o, en el caso de que sean sucesivos o secuenciales, si el anterior condiciona al
terior, es decir, si la realización del primero modifica Ja posibilidad de realización del
~ndo.

Dos (o más) sucesos son mutuamente excluyentes si no tienen ningún elemento común.
-= o supone que cuando uno ocurre no puede ocurrir el otro: son sucesos que no pueden
.:..... e simultáneamente.
Por ejemplo, no podemos extraer de una población un individuo que sea a la vez ateo y
ólico practicante ni otro que sea casado y soltero al mi smo tiempo.
Se dice que un suceso está condicionado por otro anterior (o es dependiente de él) si la
encía del primero condiciona la probabilidad de que ocurra el segundo.
Por ejemplo, si tenemos una población de 7 mujeres y 3 hombres, al extraer sucesivamente
- personas sin reposición, la probabilidad de que Ja segunda sea hombre se ve indudable-
nte afectada según hayamos obtenido un hombre o una mujer en la primera extracción.
Estaremos ante sucesos independientes o no condicionados en aquellos casos en que el
- erior no influye en nada en el resultado de uno posterior. Es el caso, por ejemplo, del sexo
-~ los nacidos. Y no sólo en un ámbito poblacional extenso, como un municipio o una re-
- 'n, sino incluso en el seno de una misma familia. Que haya nacido una niña no influye en
en el sexo del siguiente nacimiento.

:3.1. Regla de la adición: unión de sucesos (simultáneos)


-i S 1 y S2 son dos sucesos mutuamente excluyentes (es decir, sin ningún elemento común),
probabilidad de que ocurra S 1 o S2 es igual a Ja suma de las probabilidades de que ocurra
-~ a uno de ellos por separado 17 .»

Si consideramos la totalidad de la población española tal como se di stribuye en la Ta-


: a 3, la probabilidad de encontrarnos en ella un soltero o un viudo sería la suma de Ja proba-
:ilidad de encontrarnos un soltero y de la probabilidad de encontrarnos un viudo. Esto es,
• - .682.320/40.595.861 + 2.647.848/40.595 .861 = 0,4356 + 0,0652 = 0,5008. Obtendremos
! mismo resultado si agrupamos a lo/as soltero/as y a lo/as viudo/as y calculamos Ja proba-
ilidad de este agrupamiento, que será (17.682.320 + 2.647.848)/40.595.861 = 20.330.168/
..!Q.595.861 = 0,5008. Esto es así porque hemos tomado grupos constituidos por categorías
·alores) de una misma variable y por definición Jos grupos que genera una variable son
:nutuamente excluyentes: un individuo no puede tomar dos valores a la vez dentro de una
~s ma variable.

17
Téngase en cuenta que aqu í habl amos con una o inclusiva. Véase lo dicho a este respecto en la nota anterior.
156 Estadística para la investigación social

Como Ja adición es una operación conmutativa, en Ja que

entonces

Lo dicho aquí para dos sucesos es válido también para una serie indefinida de ellos.

La regla de la adición de las probabilidades se puede generalizar para todos los suceso_
sean o no mutuamente excluyentes, diciendo lo siguiente.
«Si S 1 y S2 son dos sucesos cualesquiera, la probabilidad de que ocurra S 1 o S2 es igual _
la suma de las probabilidades de que ocurra cada uno de ellos por separado menos la prob -
bilidad de que ambos ocurran conjuntamente. »

Y en el caso de que los sucesos sean mutuamente excluyentes, como

entonces

Veamos un ejemplo de sucesos cuya realización no se excluye mutuamente, esto es, u-


cesos que comparten elementos. Será un ejemplo con grupos poblacionales que tienen indi-
viduos en común en el seno de una población.
Tenemos una población de 20 personas (que llamaremos población K) , que se distribu):"
según sexo y estado civil de la siguiente manera:
Tabla 6.
Población K, según sexo y estado civil.

Hombres Mujeres Total

Solteros/as 6 6 12
No solteros/as 3 5 8

Total 9 11 20

¿Cuál sería la probabilidad de encontrar (al azar) en el seno de esta población una perso-
na que fuese «mujer» o fuese «Soltera»? En este caso tenemos que hay «mujeres solteras»,
decir, que los grupos en cuestión no se excluyen mutuamente, que hay individuos que perte-
necen a ambos grupos al mismo tiempo. Por lo tanto, la probabilidad que buscamos es igu~
a la probabilidad de encontrar una mujer (11/20 = 0,55) más la de encontrar una pers o~
soltera (12/20 = 0,6) menos Ja probabilidad de encontrar una mujer soltera (6/20 = 0,3). E
Capítulo VI. Teoría y cálculo de probabilidades 157

:..... ir, la probabilidad de encontrar en esta población una persona que sea mujer o sea soltera
de 0,55 + 0,6 - 0,3 = 0,85. Si observamos directamente en la tabla las frecuencias de los
;:upos considerados (en las celdas afectadas) vemos que esa probabilidad es igual a
- 6 + 5)/20 = 17/20 = 0,85.

:.3.2. Regla de la multiplicación: sucesos condicionados o intersección de sucesos


(secuenciales)
· hemos advertido que para el cálculo de probabilidades hemos de tener en cuenta la de-
~endencia o la condicionalidad de Jos sucesos en su composición sucesiva. Aquí vamos a
_.zl ular la probabilidad de una secuencia de sucesos condicionados.
Cuando tenemos una secuencia de sucesos y la ocurrencia de un suceso S2 se ve condi-
.::onada por la ocurrencia previa de otro S1, «la probabilidad de que se den S1 y (luego) S2 es
gual a la probabilidad de que se de S 1 por la probabilidad de que se de S2 una vez se ha dado
: ». Ésta es Ja regla de la multiplicación de probabilidades para sucesos condicionados o
..ependientes.

A Ja probabilidad de que se dé S2 una vez se ha dado S1 (si Ja realización del suceso S1


:ondiciona Ja realización de S2 ) se Ja denomina probabilidad condicionada de S2 una vez se
- dado S1 [P(S 2 /S1)J.
Las probabilidades condicionadas se determinan de manera específica en cada caso con-
:reto en que aparecen.
Veamos un ejemplo a partir de los datos de la tabla anterior [Tabla 5]. Ahí nos encontrá-
:iamos ante una población de 20 personas que se distribuían según sexo y estado civil de una
:nanera específica [véase la tabla]. Vamos a extraer una persona de esta población. ¿Qué
:irobabilidad tenemos de que sea un «hombre soltero»?
En el conjunto de Ja población, el grupo de «hombres solteros» está compuesto por 6
;iersonas. Por lo tanto, la probabilidad de que al coger un individuo de esta población sea un
ombre soltero es de 6/20, que es igual a 0,3.
Si descomponemos el suceso, la probabilidad de sacar un hombre es de 9/20 = 0,45, y la
robabilidad de sacar un/a soltero/a es de 12/20 = 0,6. De esta manera, la probabilidad de
-acar un hombre que sea soltero es de 0,45 x 0,6 = 0,27. En este caso, hemos considerado
os sucesos «extraer un hombre» y «extraer un soltero» como independientes, cuando no lo
:on, ya que hay «hombres solteros».
Los sucesos en cuestión son dependientes. Y para componer su probabilidad conjunta
hemos de argumentar del modo siguiente. Suponemos que hemos extraido un hombre, ¿qué
robabilidad tenemos de que sea soltero? La probabilidad de sacar un hombre es 0,45.
Y dentro del conjunto de hombres, la probabilidad de que sea soltero es de 6/9 = 0,67.
En este caso la probabilidad compuesta es de 0,45 x 0,67 = 0,3. El mismo resultado obten-
dremos alterando la secuencia de sucesos. Suponemos que hemos extraído una persona sol-
rera, ¿qué probabilidad tenemos de que sea un hombre? La probabilidad de sacar alguien
:altero es de 12/20 = 0,6. Y dentro de lo/as soltero/as la probabilidad de sacar un hombre es
158 Estadística para la investigación social

de 6112 = 0,5. La probabilidad compuesta (de sacar un hombre habiendo sacado una perso-
na soltera) es de 0,6 x 0,5 = 0,3 .
Aquí ya hemos mostrado que, ante sucesos condicionados, obtendríamos la misma pro-
babilidad si la secuencia de los sucesos se invirtiese, y S1 se produjese después de S2 . En este
caso:

Es decir:

Al igual que para la adición de probabilidades, lo dicho para dos sucesos es válido tam-
bién para una serie indefinida de éstos.

P(S 1 n S2 n S3 n · · · n Sn) = P(S 1) · P(S2 /S1) · P(S 3/ (S2 n S 1)) · ···

··· ·P(Sn/CSn - i nS11 _ 2 n ··· nS 1))

También podemos particularizar lo dicho para sucesos cuya secuencia no esté condicio-
nada, ya que esto, bien visto, no es sino un caso concreto de sucesos condicionados, porqllf
el suceso S2 habiéndose producido antes S1 es igual al suceso S2 , independientemente de si ~
ha producido o no S 1 . Es decir,

Esto lo podemos enunciar de la siguiente manera: «si S 1 y S2 son dos sucesos indepen-
dientes o no condicionados, la probabilidad de que ocurra S1 y conjuntamente S2 es igual
producto de las probabilidades de que ocurra cada uno de ellos por separado. » 18

Obviamente, también en este caso, entre sucesos independientes, y como la multiplica-


ción es una operación conmutativa, en la que

tendremos que

Hay que advertir que para aplicar esta regla particular de la probabilidad conjunr.:
(y sucesiva) de sucesos independientes , la que dice que

se debe ser extremadamente cauteloso al considerar la dependencia o independencia de 1 _


sucesos en cuestión, porque pueden producirse malentendidos que hagan absurdos nuestr _
cálculos. De hecho, en los manuales de estadística se suele decir que un suceso S2 es inde-
pendiente de otro S 1 si su probabilidad condicionada es igual a la no condicionada, es deci:í

18
Esto es lo que no ocurría en el ejemplo anterior, en el que calculábamos la probabilidad de extraer de '
población K un «hombre soltero». Ya que ? (hombre)· ? (soltero) #?(hombre y soltero).
Capítulo VI. Teoría y cálculo de probabilidades 159

P (S2 /S 1) = P(S2 ), algo que nos encierra en una tautología. Y también, de modo igualmente
· · tológico, se define la probabilidad condicionada de un suceso en función de su intersec-

Seguramente no existan, al menos en el terreno de lo social, sucesos independientes, pe-


. en ocasiones, podemos considerarlos como tales. En todo caso la dependencia o la inde-
-endencia debe argumentarse teóricamente.
En términos de población, variables y grupos dentro de una población, es decir, en los
:.=rminos concretos de la investigación sociológica, estamos apuntando hacia la «dependen-
» o «independencia» de las variables en cuestión en el seno de una población determina-
- es decir, hacia el tema de en qué medida la distribución de la población en una variable
- uye o no en cómo se distribuye la población en otra variable, tema que se resuelve a
_vés del concepto de «valores esperados» en la distribución conjunta de las variables.

Ejercicio 11
Jna determinada población se distribuye del modo siguiente según nivel de renta y nivel de estu-
::ios:
Tabla 7.
Nivel de renta Nivel de estudios
Elementales Medios Superiores
Total
(E) (M) (S)
Baja (B) 34 14 3 51
Alta (A) 4 10 15 29
Total 38 24 18 80

Calcule las probabilidades de encontrar los siguientes casos en el conjunto de esta población:
a) Un individuo de estudios Elementales y de renta Alta.
b) Un individuo de estudios Superiores y de renta Alta.
e) Un individuo con nivel de estudios menor a los Superiores.
d) Un individuo de estudios Elementales y de renta Baja.
e) Un individuo de estudios Superiores o de renta Alta.
f) Dos individuos de estudios Superiores.

-.4. La regla de Laplace redefinida


..\hora, después de conocer estas reglas de cálculo, podemos establecer más adecuadamente
a regla de Laplace, que nos da la definición clásica de la probabilidad y que enunciaremos
de la siguiente manera:
160 Estadística para la investigación social

Sea E un experimento aleatorio cualquiera y N el número total de casos en que éste se


lleva a cabo [c 1, c 2, ••• , cN].
Suponemos que cada caso es equiprobable (ninguno tiene más oportunidades que otro de
darse), es decir, que la probabilidad de cada uno de Jos casos es P(c;) = l!N.
Si Ses un suceso cualquiera de E que se realiza en n casos [c 1, c 2 , ... ,e,,] de los N totale_
[n ~N], entonces la probabilidad de S será P(S) = l!N + l!N + ···(n veces)· ·· + l!N = n/f;_
También podemos escribir esta probabilidad de la siguiente manera:
n

P(S) = L P(c;) = P(c 1) + P(c2) + ··· + P(c,) = l/N + l /N + ··· (n ) · · · + l /N = n/N


i=l

3. Propiedades básicas de la probabilidad


Ahora también podemos explicitar algunas propiedades que presenta la probabilidad.
1. La probabilidad del suceso seguro (que es el suceso que reune todos los elementos ci=
un universo y que ocurre necesariamente en todo caso, ya que aglutina todos los resultad :
posibles de un experimento) es igual a l. [Si extraemos una persona de una población cie-
por cien femenina ésta siempre será una mujer.]

P(U) = 1
Esto mismo se puede expresar diciendo que «la probabilidad de la unión de todos 1
sucesos de un espacio muestra! es igual a l».
Sea U= {S 1, S2, S3, ••• , S,,}, como S 1 u S2 u S3 u··· u S,, = U, entonces

1.1. (Corolario). «La probabilidad de la unión de un suceso con su complementario


igual a l». [En una población compuesta por hombres y mujeres sólo podremos extraer
hombre o una mujer.]
P(S 1 u S 1) =1
Esto quiere decir que
P(S 1) + P(S 1) = 1
Si llamamos p a la probabilidad de un suceso y q a la de su complementario, escribir:--
mos:
p+q=l
O, lo que es lo mismo,
p=l-q
q=l-p
Capítulo VI. Teoría y cálculo de probabilidades 161

2. La probabilidad del suceso imposible (aquel que no cuenta con ningún elemento,
uel que nunca podrá darse) ( 0) es igual a O. [La probabilidad de extraer un hombre de una
_ blación enteramente compuesta por mujeres es nula.]

P( 0) =O

Esto es equivalente a decir que «la probabilidad de que se den conjuntamente todos los
Jcesos de un determinado espacio muestra! es igual a 0», ya que nunca podrán realizarse
i:IDUltáneamente todos los sucesos.
Sea U= {S 1, S2 , S3 , • •• , S,,}, como S 1 n S2 n S3 n ··· n S,, = 0, entonces

2.1. (Corolario). La probabilidad de que ocurra un suceso y su complementario a la vez


_- igual a O. [Un hombre (en la lógica clásica) no es una mujer.]

P(S¡ Í\ S¡) =o
3. La probabilidad de un suceso oscila entre O y l. Nunca podrá ser menor que O ni
:nayor que 1.

O ~ P (S) ~ 1

Es posible, tal como hacen algunos manuales hoy en día, considerar la probabilidad no
=n términos de proporción (de O a 1) sino de porcentaje (de O a 100), ya que el uso de por-
_entajes suele ser más habitual en la vida cotidiana y, por consiguiente, hoy en día, se está
.::iás familiarizado con los porcentajes que con las proporciones. Los resultados son equiva-
entes.
162 Estadística para la investigación social

ANEXO l. Teoría de conjuntos


Conjunto
Un conjunto es «una colección bien definida de objetos», un grupo de elementos 19 .
Se puede describir/definir un conjunto de dos modos: bien enumerando uno a uno todo_
sus elementos o bien por la característica distintiva que comparten todos ellos (en este últi-
mo caso tenemos, por ejemplo, el conjunto de estudiantes de 1. 0 de Ciencias Ambientales de
la Universidad de Alicante, el conjunto de hombres mayores de 75 años en la población es-
pañola, el conjunto de socios del Deportivo de la Coruña o el conjunto de habitantes de Ja-
randilla de la Vera, por referirnos sólo a conjuntos de personas). Podemos decir, por lo tanto.
que un conjunto se identifica por enumeración o por definición.
Todo conjunto se extrae de un universo de elementos que llamamos población, en donde
pueden definirse o de donde pueden extraerse una multitud de conjuntos.
El conjunto de elementos que nos interesa estudiar sociológicamente (que suele ser un
grupo de personas) forma parte de un ámbito poblacional de referencia.
Un conjunto siempre forma parte de un universo (poblacional) . Este universo también es
un conjunto, el conjunto universal, conjunto marco en el que se inscriben todos Jos conjunto_
considerados en una determinada cuestión.

Los conjuntos se escriben con letras mayúsculas. Los elementos que los componen, coc
minúsculas.
Sea C un conjunto compuesto por los elementos a, b, c, d. (En este caso definimos e
conjunto C por enumeración.)
e= {a, b, c, d}

19
En la concepción clásica de los conjuntos (desarrollada por Frege a partir de la lógica clásica) se trata de Y
si un elemento pertenece o no a un determinado conjunto: en este contexto un elemento «es» o «no es». En la lógi
difusa, que se ha desarrollado con la Inteligencia Artificial, a cada elemento del universo se le asocia un grado re
pertenencia (entre O y 1) al conjunto, conjunto difuso. En la lógica difusa, por oposición a la lógica discreta, no •
trata de ver si uno es o no es, sino si uno es más o menos que otro. Las operaciones que se realizan entre conjun
difusos son distintas de las que establecemos entre conjuntos clásicos, que son a los que aquí, en este texto,
limitamos.
Capítulo VI. Teoría y cálculo de probabilidades 163

El cardinal de un conjunto es el número de sus elementos.


Así, en nuestro ejemplo, el cardinal de C es 4.
Si un elemento cualquiera x pertenece a un conjunto cualquiera A, lo escribimos de la
:iguiente manera:
XEA

Con nuestro conj unto e anterior, podemos decir que a E e, b E e, c E e y d E C.


Un conjunto es igual a otro si tiene los mismos elementos.

·ariable como conjunto


·na variable (X) puede considerarse como un conjunto de valores (x;).

Estos valores clasifican las unidades de una determinada población sometida a recuento.
Cada valor, de acuerdo con el número de veces que se repita en la población, contará con
Jna determinada.frecuencia [x 1 - t n 1, x 2 - t n 2, .. ., X; - t n;, ... ].
Una población puede considerarse como un conjunto de unidades.
A una población le aplicamos una variable para clasificar sus elementos según sus va-
ores .
Cada valor constituye un subconjunto de una población, con un determinado número de
:rnidades (s u frecuencia).

ubconjunto
Un subconj unto de Ces un grupo de elementos de C.
Por ejemplo, C 1 = {b, c, d}.
Si C 1 es un subconjunto de C, decimos que C 1 está contenido en C, y Jo escribimos así:

C1 e: C

Un subconjunto es también un conjunto de elementos.


C 1 es un subconjunto de C si todo elemento de C 1 pertenece también a C.
Para todo conjunto C tenemos dos subconjuntos especiales :
-- El conjunto vacío ( 0 ), un conjunto extraño pero necesario para el cálculo: conjunto
que no contiene ningún elemento, o que sólo se contiene a sí mismo , 0 = { 0 }.
El conjunto total (C), otro extraño subconjunto, también necesario para el cá lculo: un
subconjunto que contiene todos los elementos del conj unto considerado.
164 Estadística para la investigación social

Conjunto muestral y subconjuntos muestrales


A su vez, para todo conjunto podemos definir un conjunto fonnado con todos sus subconjun-
tos como elementos: es el conjunto de partes de un conjunto, que podemos llamar conjunto
muestral20 . Los elementos de este conjunto serán conjuntos de elementos.
En nuestro ejemplo, tendremos el conj unto de partes de C o conjunto muestra! de C.
formado por todos los subconj untos que se pueden formar con los elementos de C:
cg (C) = {0, {a}, {b}, {c}, {d}, {a, b}, {a, c}, {a, d}, {b, e}, {b, d}, {e, d}, {a, b, e},
{a, b, d}, {a, e, d}, {b, e, d}, {a, b, e, d}}
Todo universo poblacional (U) (ámbito acotado de elementos que pueden agruparse en
una serie determinada de conjuntos) es, decíamos, un conjunto.
En un universo poblacional podemos generar con sus elementos toda una serie de con-
juntos, el conjunto muestral de ese universo de elementos (cg(U)). También podemos generar
distintos subconjuntos muestrales, definidos por alguna característica común.
Supongamos que nuestra población es la definida por el conjunto C de nuestro ejemplo.
que vamos a llamar para la ocasión U. El conj unto muestra! de U lo encontramos enumerado
un poco más arriba de este texto. Pues bien, podíamos considerar dentro de éste distinto:
subconjuntos muestrales: el conj unto de todas las muestras (subconj untos) de 2 elementos, e
conjunto de todos los subconjuntos de 3 elementos que podemos formar con todos los ele-
mentos de la población U, etc.
El conjunto de todas las muestras de tamaño 2 (o cardinal 2) será:

cg (U)card2 = {{a, b}, {a, e}, {a, d}, {b, e}, {b, d}, {e, d}}
Y el conjunto de todas las muestras de tamaño 3 será el siguiente:
"g(U)card3 = {{a, b, c}, {a, b, d}, {a, c, d}, {b, e, d}}
El primero estará compuesto de 6 elementos y el segundo de 4.

Operaciones con conjuntos: unión e intersección de conjuntos


Sea una población universo U= {a, b, c, d, e, f, g, h}.

a e e
b f d

g h

20
Normalmente este conj unto suele llamarse «espacio muestra] » y así encontraremos esta definición en numercr
sos textos de teoría de conjuntos. En este manual, cuando hablamos de sucesos aleatorios, hemos restringido la dencr
minación de «espacio muestra!» al conjunto de sucesos elementales que pueden darse en un experi mento aleatorio. E:;
teoría de conjuntos, esto equivaldría al conjunto de subconjuntos que contienen un sólo elemento. Así, en este texto.
hemos optado por denominar «conjunto muestra! » al conj unto de todos los subconjuntos posibles de un universo de
elementos, al que también podemos ll amar «conjunto muestra! total ». En teoría de la probabilidad este «conjunte
muestra] total » lo hemos denominado «espacio de sucesos», y en él se definen distintos subconjuntos muestrales (dis-
tintos tipos de subconjuntos, que denominarnos específicamente «conjuntos muestrales») o subespacios de sucesos.
Capítulo VI. Teoría y cálculo de probabilidades 165

:Je esta población se extraen dos conjuntos A = {a, b, e, f} y B = {c, d, e, f}.

o o
e a

f d b d

g h g h

Un elemento pertenecerá a la unión de A y de B (A u B) si pertenece a A o a B 21 •


Los elementos que pertenecen a A u B son los siguientes:
elementos que pertenecen a A y no a B ,
- elementos que no pertenecen a A y sí a B,
- elementos que pertenecen a A y también a B.
Pertenecerán al conjunto unión de A y B tanto Jos elementos comunes a A y a B como los
~ ementos no comunes a ambos conjuntos.

En nuestro ejemplo:
A u B = {a, b, e, d, e, f}

g h

Un elemento pertenecerá a Ja intersección de A y de B (A n B) si pertenece a A y a B.


Los elementos que pertenecen a A n B son los elementos que pertenecen a A y simultá-
;:ieamente a B.
Pertenecerán al conjunto intersección de A y de B los elementos comunes a A y a B.
En nuestro ejemplo:
AnB={e,f}

21
Ésta «O» no es una «O» de len guaje común, que es exclusiva. Es una « O» lógica, que es inclusiva. En lógica
matemática la expresión p o q será verdadera en los siguientes casos: (a) si pes verdadera (y q es falsa) , (b) si q es
verdadera (y pes fa lsa), (c) si pes verdadera y q también es verdadera.
166 Estadística para la investigación social

Conjunto complementario
Dentro de un universo poblacional, el conjunto complementario (A) del conjunto A contiene
todos los elementos de la población que no pertenecen a A. También se denomina conjunte
opuesto.
En nuestro ejemplo,
A= {c, d, g, h}

o
e

f d

g h

La unión de un conjunto con su complementario nos da el conjunto universal.

Au A= {a, b, c, d, e, f, g, h} =U

o
e

f d

g h

La intersección de un conjunto con su complementario es el conjunto vacío.

A n A= 0

o
e

f d

g h

Conjuntos mutuamente excluyentes


Decimos que dos conjuntos son mutuamente excluyentes o disjuntos si no tienen ningún ele-
mento en común.
A y B son mutuamente excluyentes si A n B = 0 .
Un conjunto y su complementario son mutuamente excluyentes.
Capítulo VI. Teoría y cálculo de probabilidades 167

Ejercicio 12
Una determinada población se distribuye del modo siguiente según nivel de renta y nivel de estu-
dios:
Tabla 8.

Nivel de renta Nivel de estudios

Elementales Medios Superiores


Total
(E) (M) (S)
Baja (B) 34 14 3 51
Alta (A) 4 10 15 29

Total 38 24 18 80

¿Qué número de elementos tiene cada uno de los siguientes conjuntos?


a) (S)
o) (B)
c) (M u S)
d} (M n S)
e) (B u M)
f) (B n A)
g) (B n M)
h} (E u (M u S))
i) (E n (M u S))
j) (E u (M n S))
k) (B n (M u S))
168 Estadística para la investigación social

ANEXO 11. Técnicas de conteo (ordenaciones


y agrupaciones)
Principio de multiplicación
Este principio se muestra, por ejemplo, cuando tenemos dos conjuntos, queremos extraer do.::
elementos (uno de cada uno de ellos) y queremos conocer el número de extracciones (
muestras) posibles.
Éste es el caso, ya citado, de dos grupos poblacionales A y B (de 4 y de 3 individuo.::
respectivamente), dentro de los cuales hemos distinguido a los individuos de izquierda («i>
y a los de derecha («d»), que se distribuyen dentro de cada grupo de la siguiente manera.
A = {i, d, d, i}; B = {d, d, i}. ¿Cuál será el número de muestras posibles que contengan ~
individuo del grupo A y otro del grupo B? Enumerándolas una a una, el conjunto de esta.5
muestras es {id, id, ii, dd, dd, di, dd, dd, di, id, id, ii}, que presenta un cardinal de 12. Par:.
calcular este número directamente sólo tendríamos que multiplicar 4 x 3 (4 individuos d
conjunto A x 3 individuos del conjunto B).
En este cálculo hemos aplicado el principio multiplicativo, que podemos enunciar así:
«Si hay que realizar k operaciones y la primera se puede hacer de n 1 maneras y la segun-
da de 112 maneras, ... y así sucesivamente hasta la k-gésima, que se podrá realizar de 11k mane-
ras, entonces el número de maneras de realizar el total de las k operaciones sucesivas será
producto 11 1 ·112 · 11 3 · • • • • 11Ck _ J ) · 11k» .
Este principio también se puede aplicar, por ejemplo, en el caso de que queramos cono-
cer el número de muestras de un determinado tamaño que podemos formar de un conjun
cualquiera, siempre que realicemos estas muestras extrayendo sucesivamente los elementc_
que finalmente las compondrán y realicemos cada una de las sucesivas extracciones una v~
hayamos repuesto en el conjunto el elemento extraido anteriormente. Nunca podremos aph-
car (sin un previo ejercicio mental que aquí vamos a obviar) este principio si extraemos to-
dos los elementos de la muestra simultáneamente.
Supongamos que tenemos un conjunto de 4 elementos {a , b, e, d}. Si realizamos mues-
tras con dos extracciones sucesivas (con reposición), ¿cuál será el número de muestras q
podemos formar ? En la primera extracción podemos obtener cada uno de los 4 element _
(a, b, e, d) , igual que en la segunda extracción (ya que, al realizarse habiendo repuesto en
conjunto el primer elemento extraído, es independiente de la primera extracción). Por lo trur-
to, aplicando el principio multiplicativo, tenemos 4 x 4 muestras posibles, es decir, 16, qu=
enumeradas, son las siguientes: {aa, ab, ac, ad, ba, bb , be, bd, ca, cb, ce, cd, da, db , de, de
Este principio se hace mucho más visible si aplicamos un diagrama de árbol, con ~
alternativas que se abren en las sucesivas extracciones o elecciones.
Capítulo VI. Teoría y cálculo de probabilidades 169

l.ª extracción 2.ª extracción

Podemos caracterizar estas agrupaciones o extracciones sucesivas de elementos con dos


:actores: el orden de posición y los elementos que pueden ocupar cada una de las posiciones,
ues no estamos sino ante ordenaciones de elementos. Así, en nuestro ejemplo anterior, te-
emos dos posiciones ordenadas que cubrir [__ ] (determinadas por la primera y la segunda
extracción) y cuatro elementos posibles que pueden ocupar la primera y otros cuatro (los
mismos) que pueden ocupar la segunda. El número de ordenaciones posibles será por tanto
• · 4, es decir,16.

Permutaciones
Un caso particular del principio multiplicativo es el que se da cuando calculamos el número
de permutaciones que podemos realizar con los elementos de un conjunto.
Una permutación es una determinada ordenación de todas las que se pueden hacer con
rodos los elementos de un conjunto. En cada una de estas ordenaciones entrarán todos los
elementos del conjunto considerado si n repetirse ninguno de ellos. En cada permutación,
para un conjunto de n elementos tendremos que cubrir n posiciones.
170 Estadística para la investigación social

El número de permutaciones posibles para un conjunto de n elementos, aplicando el


principio multiplicativo, será:

Pn = n- (11 - 1) · (11 - 2) · (11 - 3) · · · · · 4 · 3 · 2 · 1

Ya que en la primera posición podemos colocar 11 elementos (cualquiera de los elemen-


tos del conjunto), pero en la segunda posición podremos colocar un elemento menos (11 - 1).
ya que el que hemos colocado en la primera no puede aparecer ya en la segunda, y así suce-
sivamente, hasta cubrir las 11 posiciones: en la última posición sólo podremos colocar el últi-
mo elemento que nos queda.
El número que nos resulta (el producto de los 11 primeros números naturales) se llama
factorial de 11 y se escribe 11!
11! = 1·2 · 3 · 4 · · · · · (11 - 3) · (n - 2) · (11 - 1) · n

Como la multiplicación es una operación conmutativa («el orden de los factores no altera
el producto»), también podemos expresar 11! de la siguiente manera:

11! = n · (n - 1) · (n - 2) · (11 - 3) · · · · · 4 · 3 · 2 · 1
Así, el número total de permutaciones de 11 elementos será:

pn = 11!

Veamos un ejemplo. Si tenemos un conjunto de 5 elementos {a, b, c, d, e}, podem _


ordenar éstos de las siguientes maneras:

abcde acbde adbce aebcd


abced acbed adbec aebdc
abdce acdbe adcbe aecbd
abdec acdeb adceb aecdb
abecd acebd adebc aedbc
abedc acedb adecb aedcb
bacde bcade bdace beacd
haced bcaed bdaec beadc
badce bcdae bdcae becad
badec bcdea bdcea becda
baecd bcead bdeac bedac
baedc bceda bdeca bedca
cabde cbade cdabe ceabd
cabed cbaed cdaeb ceadb
cadbe cbdae cdbae cebad
cadeb cbdea cdbea cebda
caebd cbead cdeab cedab
caedb cbeda cdeba cedba
Capítulo VI. Teoría y cálculo de probabilidades 171

dabce dbace dcabe deabc


dabec dbaec dcaeb deacb
dacbe dbcae dcbae debac
daceb dbcea dcbea debca
daebc dbeac dceab decab
daecb dbeca dceba decba
eabcd ebacd ecabd edabc
eabdc ebadc ecadb edacb
eacbd ebcad ecbad edbac
eacdb ebcda ecbda edbca
eadbc ebdac ecdab edcab
eadcb ebdca ecdba edcba

Son Jos modos posi bles de extraer sucesivamente los cinco elementos del conjunto
:irado.
Si aplicamos Ja regla multiplicativa de cálculo, el número de estos modos posibles es:

p5 = 5 . 4 . 3 . 2 . 1 = 5 ! = 120

Estaremos siempre ante un caso de permutaciones cuando queramos calcular el numero


_e modos en que podemos extraer uno a uno, y sin reposición, todos los elementos de una
;ioblación (de tamaño n).

·ariaciones
~i no queremos extraer todos los elementos (n) de un conjunto, sino sólo una parte de ellos
r), los modos en que podemos extraerlos se conocen como variaciones.
Si tenemos un conjunto de n elementos, a una ordenación de un número r de éstos Ja
llamamos variación de r elementos de un conjunto de n. (Está claro que r < n.)
Retomemos el ejemplo anterior. ¿Cuántas maneras tendremos de extraer 3 elementos del
"onjunto formado por {a , b, c, d, e}?
Tenemos 3 posiciones para cubrir[ ___]. En la primera posición podremos colocar cual-
quiera de Jos 5 elementos del conjunto. En la segunda, cualquiera de los 4 elementos restan-
ces. Y en la tercera, cualquiera de los 3 que nos quedan.
Aplicando el principio multiplicativo, el número de maneras de ordenar 3 elementos de
un conjunto de 5, es decir, el número de variaciones de 3 elementos de un conjunto de 5
erá:

V5 , 3 = 5 · 4 · 3 = 60
172 Estadística para la investigación social

Si las enumeramos, tendremos las siguientes ordenaciones posibles:

abe acb adb aeb


abd acd adc aec
abe ace ade aed
bac bca bda bea
bad bcd bdc bec
bae bce bce bed
cab cba cda cea
cad cbd cdb ceb
cae cbe cde ced
dab dba dca dea
dac dbc dcb deb
dae dbe dce dec
eab eba eca eda
eac ebc ecb edb
ead ebd ecd edc

De manera general, podemos decir que el número de variaciones de r elementos de


conjunto de n será:

v n,r = n. (n - 1). (n - 2) ..... (n - r + 2). (n - r + 1)

Combinaciones
Como hablamos de las combinaciones en el cuerpo principal del texto [en el Apartado 2.2.l
no vamos a repetir aquí lo dicho. Simplemente recordaremos que una combinación no e.
una ordenación: es un subconjunto de elementos. En este caso no estamos ante extracione-.
sucesivas de los elementos de un conjunto, sino ante una extracción simultánea de un gru
de elementos de éste.
En nuestro. ejemplo anterior, la combinación «abe» es el conjunto constituido por 1 .
elementos {a, b, e}, lo que quiere decir que es la misma que la «acb», la «bca», la «bae>>.
«cba» o Ja «cab», ya que todas contienen los mismos elementos y el orden en que los colo-
quemos es indiferente, ya que estamos ante una extracción simultánea de todos ellos.
El número de combinaciones de n elementos tomados de r en r, esto es, el número ~
subconjuntos de r elementos que podemos extraer de un conjunto de tamaño n, decíam
que era:

e =
n · (n - 1) .. · .. (n - r
~~~~~~~~~~-
+ 1)
11 , r r!

Si observamos, en el numerador tenemos el número de ordenaciones posibles de n ele-


mentos tomados de r en r, es decir, el número de variaciones de r elementos de un conjum
den.
Capítulo VI. Teoría y cálculo de probabilidades 173

Aquí hemos dicho, si consideramos nuestro ejemplo, que la variación «abe» era distinta
:e la «bea», la «bed» distinta de la «dbe», etc. Y el número de variaciones posibles de tres
::.ementos del conjunto de 5 {a, b, e, d, e} era:

V5 , 3 = 5 · 4 · 3 = 60

Como las variaciones que contienen los mismos elementos constituyen una sola combi-
ción (ya que el orden en las combinaciones es irrelevante), esta cifra (aplicando el princi-
- o multiplicativo a la inversa) la tenemos que dividir por el número de veces que se repiten
· ordenaciones que contienen los mi smos elementos, que, en este caso, son las permutacio-
que podemos formar con 3 elementos, y que son:

El número total de muestras de tamaño 3 que podemos formar en una población de 5


=:ementos será:
5 . 4. 3 60
e5 • 3 = - - =-=10
3 . 2. 1 6

Estas diez muestras son las siguientes:

abe abd abe


aed aee
ade
bed bee
bde
ede
Capítulo VII

Distribuciones
de probabilidad

En el capítulo anterior se expuso la noción de probabilidad . La probabilidad es utilizada


para reducir la incertidumbre. Ahora se mostrará la capacidad que tiene de producir
orden. En la investigación social, en donde el trabajo con muestras ocupa un primerísi-
mo plano , necesitamos de un tratamiento probabilístico de la información. Con el
muestreo se introduce el pensamiento probabilístico en la investigación. Nos introduci-
mos en éste a partir de la idea de esperanza matemática, para a continuación ilustrar
distintas funciones teóricas de probabilidad de gran utilidad: uniforme, cuando espera-
mos que todos los sucesos que se produzcan sean iguales; binomial, cuando todos los
sucesos se producen según un patrón único binario de éxitos y fracasos ; normal, cuan-
do actúan numerosas causas que pueden reducirse, en último término, a distribuciones
binomiales; y t de Student, una forma particular de la distribución normal, que se aplica
en situaciones en las que sólo observamos un número muy pequeño de casos. Las
aplicaciones prácticas llegarán en los siguientes capítulos.

1. Función de probabilidad y variable aleatoria


2. Valor esperado en las muestras de una población
3. Distribuciones de probabilidad en la investigación social
4. Distribución uniforme
5. Distribución binomial
5.1. Valor esperado en muestras para una variable nominal
6. Distribución normal
6.1. Distribución normal estandarizada
6.2. Cálculo de probabilidades en distribuciones normales
6.3. Aproximación de la binomial a la normal
7. Distribución t de Student
8. Resumen de las distribuciones vistas
176 Estadística para la investigación social

1. Función de probabilidad y variable aleatoria


Observemos cómo se distribuye la población de la provincia de Soria según su edad (agrega-
da en 5 grupos) a través de la siguiente tabla 1 :
Tabla l.
Población de Soria según grupos edad.
Edad n
Menos de 20 años 15.375
20-34 18.132
35-49 18.860
50-64 13.990
65 y más años 2 24.360
Total 90.717
Fuente: Censo de Población 2001. INE.

Consideramos aquí los grupos de edad como variables nominales, como conjuntos aisl -
dos entre sí que no se pueden segmentar y no como intervalos numéricos 3 . Podemos repre-
sentar estos datos con un diagrama de barras de la siguiente manera:
Gráfico 1.
Población de Soria en grupos de edad. Valores absolutos.
30.000

25.000

20.000

15.000

10.000

5.000

«0-20» «20-35» «35-50 » «50-65 » «65-80»

1
La fecha de referencia de este registro poblacional es 1/11/2001 , correspondiente al Censo de Población -
2001. Los datos desagregados (con la edad año a año) se pueden consultar en la página web del INE. También -
podemos encontrar agrupados de cinco en cinco años.
2
Para los cálculos nos resulta imprescindible cerrar el último intervalo, constituido por los mayores de 64.:::..
Soria había sólo 35 personas mayores de 100 años y, sin embargo, de 65 años había 1.108. Si consideramo
intervalo muy amplio, la representación nos distorsionaría la percepción adecuada de los datos , porque en el e -
mo derecho apenas tenemos casos. Así que optamos por fijar el extremo derecho de este último intervalo (de
gente de más edad) en la «esperanza de vida al nacer» en España en 2001, que es un valor medio para el conjunto
la población española y que está próxima a los 80 años: éste será, por lo tanto, el valor máximo que vamos a dar_
edad de la población soriana, 80 años. Los tratamientos de datos en la investigación social (o en cualquier
exigen multitud de decisiones de este tipo.
3
En este momento de desarrollo explicativo, aquí no podemos considerar la edad como una variable numé;:;¡
conti nu a para clasificar Ja población. Esto Jo haremos más adelante, cuando introduzcamos el concepto de «fun
de densidad».
Capítulo VII. Distribuciones de probabilidad 177

Supongamos que extraemos al azar del registro de la población soriana la ficha de un


~·viduo. ¿Cuál sería la edad más probable de éste? Indudablemente, la de mayor frecuen-
- · el valor modal. En este caso, como estamos trabajando con grupos de edad, lo más pro-
le es que nos aparezca un individuo «de 65 o más años».
Cada uno de los grupos en los que hemos agregado a la población tendrá asociada una
:.e erminada probabilidad, según cual sea su frecuencia relativa, esto es, su peso en el con-
to de la población. Ésta será la probabilidad de que un individuo, extraído al azar de esta
- blación, pertenezca a ese grupo 4 .
De esta manera podemos establecer una tabla que nos diga cómo se distribuyen las pro-
:2bilidades de estos grupos. Ésta se obtiene asignando a cada grupo en que se divide la
:: blación su frecuencia relativa.

Tabla 2.
Grupos de edad de la población de Soria. Frecuencias relativas.

Edad Ír = P

Menos de 20 años 0,1695


20-34 0,1999
35-49 0,2079
50-64 0,1542
65 y más años 5 0,2685

Total 1,0000

Gráfico 2.
Grupos de edad de la población de Soria. Frecuencias relativas.

«0-20 » «20-35 » «35-50» «50-65» «65-80 »

4
El supuesto experimento aleatorio que genera estas probabilidades consiste en la extracción (aleatoria, claro
está) de un indi viduo de la población. Ésta es la cuestión que interesa especialmente a la investigación social.
5
Hemos considerado este intervalo a efectos de cálculo como «de 65 a 80 años». Vid. Nota 2.
178 Estadística para la investigación social

Aquí observamos, por ejemplo, que la probabilidad de extraer aleatoriamente un indi


duo menor de 20 años es de 0,1695. Ésta es la probabilidad que tiene asignada en esta pobla-
ción el grupo de menores de 20 años. También podemos ver esta probabilidad, en vez de e-
proporción, en porcentaje (0,1695 x 100 = 16,95 %) . De igual modo podemos ver la proba-
bilidad de cualquiera de los grupos de edad en los que hemos dividido a la población.
Esto es lo que llamamos una distribución de probabilidad. En este caso estamos ante un:.
distribución de probabilidad empírica, con datos concretos.
Como vemos, tenemos una variable, y cada valor que puede tomar ésta tiene asociad
una probabilidad de ocurrencia. A la regla que asigna probabilidades a cada uno de los valo-
res de una variable se le puede llamar función aleatoria o de probabilidad. A la variabl::
asociada a una función de probabilidad la llamaremos variable aleatoria.
La distribución de probabilidad de una variable aleatoria describe cómo se distribuye:;
las probabilidades de los diferentes valores de esa variable. La distribución de probabilida:
se describe mediante unafunción de probabilidad.
Allí donde generalmente, para todas las funciones , se escribe f (x), cuando hablamos -
una función aleatoria escribiremos p(x): a cada valor de «X» le corresponde una determina
probabilidad «p ». La tabla de frecuencias relativas que hemos presentado en el ejemplo.
que representa la distribución de probabilidad se traduciría en la función definida a la derec~
Tabla 3.
Grupos de edad de la población de Soria.
Distribución de probabilidad.

X p(x) 0,1695 si 0 <X< 20


0,1999 si 20 ~X< 35
0 <X< 20 0,1695
p(x) = 0,2079 si 35 ~X< 50
20 ~X < 35 0,1999
35 ~X< 50 0,2079 0,1542 SI 50 ~X< 65
50 ~X< 65 0,1542 0,2685 SI 65 ~X< 80
65 ~X< 80 0,2685

La función, en este caso, vendría definida empíricamente. A un conjunto determinado


valores se le asigna su probabilidad de suceder: cada uno de los cinco intervalos de e
tiene asignado una probabilidad (según su peso específico en la población).
En otros casos, como veremos más adelante, las probabilidades se determinan a través
una función teórica (a través de una fórmula matemática), que genera una distribución teón-
ca de probabilidad.
Una de las distribuciones teóricas de mayor uso práctico es la normal, cuyas probabil id:~
des, para el campo de los números reales, se generarían a través de la fórmula

1 1 (X - µ) 2

J (x) = ¡;:;: e 2 (J 't/x E IR


a y2n
Capítulo VII. Distribuciones de probabilidad 179

Es una distribución de datos numéricos continuos y se define por dos parámetros básicos
.:e ésta, que son, por otra parte, los que mejor resumen esta distribución continua de datos: su
edia (µ) y su desviación típica ((J) 6 . Más adelante hablaremos con más detalle de la distri-
_ución normal, ya que es un elemento central en la estadística teórica.
No hay que olvidar que el contexto en que hablamos de variable aleatoria y de distribu-
:ión/función de probabilidad es el de los «experimentos aleatorios». Y, por ello, Ja variable
~eatoria define Jo que en este contexto llamábamos «espacio muestra] ». Y los valores de
_ ta variable, evidentemente, formarán el «campo de sucesos posibles», cada uno de ellos
:on una detenrunada probabilidad de ocurrencia.
Y de igual modo que las variables pueden ser discretas o continuas así tendremos distri-
-uciones de probabilidad discretas y continuas.
En toda función de probabilidad p(x) se cumple lo siguiente:
l. La probabilidad que puede tomar un valor siempre estará comprendida entre O y 1:

O ~ p(x) ~ 1

2. La suma de las probabilidades de todos los valores será igual a 1:

I p(x) =1 (en distribuciones discretas) 7 ; o

f p (x)dx =1 (en distribuciones teóricas continuas) 8

2. Valor esperado en las muestras de una población


Antes habíamos dicho que Ja edad más probable que tendría un individuo extraído al azar de
.a población soriana sería Ja edad modal. Pero supongamos que extraemos (siempre al azar)
o uno sino una serie de individuos o una muestra de éstos. ¿Cuál será entonces Ja edad más

6
Cuando trabajamos con muestras dis"tinguimos entre la distribución de la muestra y la de la población. Por
'510, x
a la media de Ja muestra la llamamos y a la de la población µ; mientras que a la desviación típica de la
::nuestra la designamos sx y a la de la población CJ. Como aquí tratamos datos poblacionales, la media de estos seráµ
u desviación típica CJ.
i=n
7
Si tenemos n valores x, tendríamos que escribir más correctamente: I p(x;) = 1. Esta es la suma de todos los
i=I
1/1» valores p(x) de la función . Las probabilidades de todos los valores del dominio (o espacio muestra! ) suman 1.
8
fes el símbolo que nos representa una integral, que es el equivalente a una suma, pero de valores continuos:

en esta ocasión, una suma de los valores p(x) de la función continua «p» que toman los intervalos infinitesimales de
i.llamados diferenciales de «X» (d<), que se encuentran dentro del intervalo del dominio (o espacio muestra!) de la
;Unción.

Si el dominio de la función «p » está definido entre «a» y «b» (a<x<b), entonces escribiremos I: p(x)dx= l.

,,:; :«1:7,'::::::::,::~':· :º::1:;'.:::::::' r:b:(:)':":701, '" doode el domlolo ob=• mdo el

La suma de todos los (intervalos de) valores p(x) será igual a 1.


180 Estadística para la investigación social

encontrar entre todas las muestras o series de individuos extraídas de la población. La eda
media más probable de esta serie o muestra es lo que llamamos 'edad esperada' de esta serie
o muestra. Para encontrar este valor tendremos que tomar todas las series o muestras de
mismo tamaño que la nuestra (es decir, que contengan el mismo número de individuos), cal-
cular las medias de todas estas muestras y ver la de mayor frecuencia: ése será el «valor
esperado» de la edad en nuestra muestra. Y, como comprobaremos en el Capítulo VIII
(«Muestras estadísticas ... »), este valor es la edad media de la población. Se implican aqU!
tres distribuciones de datos: la distribución (de las edades) de la muestra, la distribución de
las (edades) medi as de todas las muestras y la distribucicín (de las edades) de la poblaciór.
total.

EJEMPLO 1
Si extraemos aleatoriamente dos individuos de la población de Soria [distribuida por ed2.-
des según la tabla 3] 9 , ¿cuál será el valor esperado de la edad en esta muestra?

Vamos a resumir los intervalos en su marca de clase'º. Nos quedará la siguiente tabl

Tabla 4.
Grupos de edad de la población de Soria . Distribución de probabilidad.
Edad X p
Menos de 20 años 10,0 años 0,1695
20-34 27,5 años 0,1999
35-49 42,5 años 0,2079
50-64 57,5 años 0,1542
65-80 72,5 años 0,2685
Total 1,0000

Las muestras de dos individuos que podemos obtener de esta población serían la
guientes:
10,0-10,0 27,5-27,5 42,5-42,5 57,5-57,5 72,5-72,5
10,0-27,5 27,5-42,5 42,5-57,5 57,5-72,5
10,0-42,5 27,5-57,5 42,5-72,5
10,0-57,5 27,5-72,5
10,0-72,5

9
En estadística social trabajamos siempre directamente con poblaciones finitas, que presen tan un número
terminado de casos, aunque normalmente suele ser un número muy elevado de ellos. Las variables numérica;
tipo continuo (o de tipo discreto con gran número de valores) las podemos estructurar en grupos significativos
nidos por intervalos de valores. Éste es el caso de la edad, tal como aquí se presenta. Es una manera de fu...
significativa la informació n. Al trabajar con datos agrupados o agregados consideramos los puntos medios de
intervalos como los valores que asumirán los casos en todo el intervalo. Los valores de cada intervalo, como h ·
mos visto en el Capítulo Ill, se resumen en su «marca de clase». Aquí tratamos ya la edad como variable cuantitat!' _
'º El primer intervalo, «menos de 20 años», tiene como valores extremos O y 20 años: su valor medi o --
(O+ 20)/2 = 10. Así calculamos todos los valores medios de los intervalos (sus marcas de clase).
Capítulo VII. Distribuciones de probabilidad 181

Ahora tenemos que ver cuál sería la edad media de cada una de las muestras, tenien-
do en cuenta que cada elemento de cada una de las muestras tiene distinto peso en la
población.
CUADRO l.
Edad media de las muestras de tamaño 2 extraídas de la población de Soria
(con la edad agrupada).

Muestras Valor medio de las muestras 11


{xª - xb} (XaPa + XbPb) /(Pa + Pb)

{10,0-10,0} (10,0. 0,1695 + 10,0. 0,1695)/(0,1695 + 0,1695) = 10,00


{10,0-27,5} (10,0·0,1695 + 27,5 ·0,1999)/(0,1695 + 0,1999) = 19,47
{10,0-42,5} (10,0. 0,1695 + 42,5. 0,2079)/(0,1695 + 0,2079) = 27,90
{10,0-57,5} (10,0·O,1695 + 57,5 ·O, 1542)/ (0,1695 + O, 1542) = 32,63
{10,0-72,5} (10,0. 0,1695 + 72,5. 0,2685)/(0,1695 + 0,2685) = 48,31
{27,5-27,5} (27,5 ·O, 1999 + 27,5 ·O, 1999)/(0, 1999 + O, 1999) = 27,50
{27,5-42,5} (27,5. 0,1999 + 42,5. 0,2079)/(0,1999 + 0,2079) = 35,15
{27,5-57,5} (27,5. 0,1999 + 57,5. 0,1542)/(0,1999 + 0,1542) = 40,56
{27 ,5-72,5} (27,5. 0,1999 + 72,5. 0,2685)/(0,1999 + 0,2685) = 53,30
{42,5-42,5} (42,5. 0,2079 + 42,5. 0,2079)/(0,2079 + 0,2709) = 42,50
{42,5-57,5} (42,5. 0,2079 + 57,5. 0,1542)/(0,2079 + 0,1542) = 48,89
{42,5-72,5} (42,5. 0,2079 + 72,5. 0,2685)/(0,2079 + 0,2685) = 59,41
{57,5-57,5} (57,5. 0,1542 + 57,5. 0,1542)/(0,1542 + 01542) = 57,50
{57,5 -72,5} (57,5. 0,1542 + 72,5. 0,2685)/(0,1542 + 0,2685) = 67,03
{72,5-72,5} (72,5 . 0,2685 + 72,5 . 0,2685)/(0,2685 + 0,2685) = 72,50

La media de las medias que hemos obtenido en las muestras será:

(10 + 19,47 + 27,9 + 32,63 + 48,31 + 27,5 + 35,15 + 40,56 + 53,3 + 42,5 +
+ 48,89 + 59,41 + 57,5 + 67,03 + 72,5)/15 = 42,84 años
El valor esperado de la edad en las muestras está muy próximo al valor medio de la
edad en la población.
Tomando la distribución de probabilidad de la población, tenemos que la media de la
población es

µ=IX. p = 10. 0,1695 + 27,5. 0.1999 + 42,5. 0,2079 + 57,5. 0,1542 + 72,5. 0,2685 =
= 44,36 años
Observamos que el valor medio de las edades medias de todas las muestras de tamaño
2 es muy próximo a la edad media de la población. Si hubiésemos cogido muestras más
grandes, aquel valor medio sería igual a la edad media de la población total.

11
Estamos ante una «media ponderada» de los dos valores de cada muestra.
182 Estadística para la investigación social

Si generalizamos esto, diremos que el valor esperado en una variable determinada parz
una muestra aleatoria cualquiera de una población es el valor medio de esa variable en !:.
población 12 .
E(X) = I X;· p(x;) [siendo X= {x 1, x 2 , x 3 , . .. ,X¡, ••. , xn}]
Como la probabilidad se puede entender como una frecuencia relativa
p(x;) = n;/N [siendo n; la frecuencia del valor X; y N el número total de casos]
tenemos que

E(X) = L X;· p(x;) = L X; · n;/N = fIx·n· = µ


por lo que
E(X) = µ

Esto es aplicable, claro está, a una variable cuantitativa.


Más adelante, cuando hablemos de la distribución binomial, veremos cuál será el val
esperado en una variable de tipo nominal.
Los casos de valor esperado que estamos tratando aquí se refieren a muestras dentro de
conjunto de muestras. Y se supone que los individuos de estas muestras se extraen al azar, -
decir, teniendo todos los individuos de la población la misma probabilidad de ser elegido
Esto es lo que se conoce como supuesto de muestreo aleatorio simple.

3. Distribuciones de probabilidad en la investigación


social
Una distribución de probabilidad es una distribución de frecuencias relativas de una vari~
ble que denominamos aleatoria, por estar asociada a un experimento de carácter aleatori
esto es, que no presenta resultados ciertos, en el que sólo podemos conocer la probabilicla:.
de sus resultados posibles. En el campo de la investigación social está asociada al muestr
a la posibilidad de extraer de una población una serie de individuos que presentan una dete--
minada característica.
Igual que toda distribución, la de probabilidad puede ser di screta o continua, según sea ~
espacio muestra] del experimento que la define, es decir, según sea el conjunto de valor
que puede tomar la variable (el conjunto de resultados posibles del experimento).
En el campo de la investigación social podemos trabajar con distribuciones empíri
viendo cómo se distribuyen los datos en una población o en una muestra. Pero cuando tram:-
jamos con una muestra lo que pretendemos es saber hasta qué punto la distribución de ~
variable que obtenemos en la muestra se corresponde con la distribución (real) de la variab·-
en la población. Necesitamos para esto servimos de una distribución intermedia entre la -
la muestra y la de la población: la distribución muestra!, que es una distribución teórica. --

12
Al valor esperado de una variable X también se le denomina «esperanza» (matemática) y se suele eser.
como E(X).
Capítulo VII. Distribuciones de probabilidad 183

emos visto, al calcular el valor esperado en una muestra, que hemos supuesto, al trabajar
:on variables numéricas (no nominales), todas las medias de todas las muestras posibles (de
determinado tamaño). La distribución de estas medias constituye la distribución mues-
-ral, que no hay que confundir con la distribución (empírica) de los datos en la muestra ni
:on la distribución (real) de los datos en la población. Más adelante, en el capítulo siguiente,
_~ tratará esto con mayor profundidad.
Cuando introducimos o suponemos el muestreo, automáticamente las distribuciones de
.::..ecuencias relativas de los datos (de una población o de una muestra) se nos convierten en
,.. tribuciones de probabilidad.
Pues bien, lo que tiene que quedar muy claro es la diferencia entre las distribuciones
~píricas (de los datos en la muestra o en la población) y las distribuciones teóricas supues-
que generan las medias de todas las muestras que podemos extraer de la población inves-
gada (en el caso de variables de tipo cuantitativo).
Estas segundas serán centrales en los procesos de investigación a través de muestras, que
- ta importancia tienen en el terreno político-social. Estas distribuciones teóricas son refe-
-encia obligada para contrastar distribuciones empíricas observadas en muestras y poder así
:onocer la validez de los datos observados en éstas (indicándonos hasta qué punto estos da-
se corresponden con los de la población de donde extraemos las muestras). Se utilizan
?<U"ª tratar cuestiones muy diversas de esta índole. Entre las más destacadas están la distribu-
:ión binomial, la normal, la t de Student, la Ji-cuadrado, la F de Fisher-Snedecor o la de
?oisson. Aquí sólo veremos algunas de ellas 13 .
Y aunque aquí nos vamos a centrar en algunas distribuciones teóricas que se generan con
el proceso muestra!, existe un elevado número de distribuciones teóricas a las que se ajustan
- aj o ciertas condiciones) múltiples fenómenos empíricos de procesos regulares.
La primera de las distribuciones teóricas que vamos a tratar (que nada tiene que ver con
el proceso de extracción de muestras) es la distribución uniforme.

4. Distribución uniforme
~ distribución uniforme es la más sencilla de las distribuciones de probabilidad: aquélla
en que la probabilidad se distribuye por igual en todos los casos o en todos los grupos de la
JOblación . No existen diferentes probabilidades para casos o grupos diferentes. Todos pre-
:entan la misma probabilidad de ser seleccionados.
Un ejemplo muy clásico de distribución uniforme continua de probabilidad es el que se
da cuando la duración del vuelo de un avión oscila entre 90 y 102 minutos para un determi-
nado trayecto, sin que sepamos a ciencia cierta cuál será la duración exacta de ese vuelo. En
- ualquier momento de esos 12 minutos que median entre los 102 (de duración máxima) y los
O (de duración mínima) puede llegar el vuelo a su destino: en todo ese intervalo de tiempo
encontramos la misma probabilidad de que esto suceda.

13
La lista de todas ellas es bastante amplia, y mu chas carecen de relevancia en la investigación social : Benford,
inomial, hipergeométrica, Rademacher, Zipf, Zipf-M andelbrot, Boltzmann, geométrica, logarítmica, Poisson, Ske-
llam, Yule-Sim on, Bose-Einstein, ji-cuadrado, F, Gamma, T-cuadrado, hiper-exponencial, Lévy, Pareto, logística,
normal , t de Studenl, Gamma, multinomial , etc.
184 Estadística para la investigación social

Describimos esta distribución a través de la siguiente función:

1/ (102-90) Si 90 ~X~ 102


p(x) = {O
para cualquier otro valor de x
Gráficamente sería:
Gráfico 3.
Distribución de probabilidad uniforme continua.
0,2

0,1

90 102
Du ración del vuelo

Dentro del intervalo considerado la probabilidad se distribuye por igual en todo él. En todc -
intervalo tomado en conjunto la probabilidad será, como no podía ser de otro modo, igual a l.
para cada unidad del intervalo (cada minuto) la probabilidad será de 1/(102-90) = 1/12 ~ O,CE
Por lo tanto, la probabilidad de que el vuelo tenga una duración de 97 minutos e --
0,083 (esto es, del 8,3%); y de que dure entre 90 y 95 minutos será de 5 · 1/12 = 5/12 ~ 0.-:
(del 42% ), ya que nos limitamos a un intervalo de 5 minutos.
La distribución de probabilidad acumulada tendría esta representación :
Gráfico 4.
Distribución uniforme continua acumulada.
1

0,5
100%

o~~~~~~~~~~~~~~-

90 102
Duración del vuelo

Una distribución puede no ser uniforme en todo el recorrido de la variable. Puede a \-~
serlo, si ésta es continua, en el interior de algunos o de todos los intervalos (grupos) de -
res en que puede presentarse la variable. En cada uno de estos intervalos la función :
continua de pendiente cero, es decir, mantendrá una probabilidad constante dentro de c -
intervalo.
Un ejemplo de este tipo de distribuciones, con sub-distribuciones continuas uniforrn
dentro de cada intervalo, dentro de cada grupo en que podemos dividir una población,
aquel con el que abríamos este capítulo: la distribución por intervalos de edad de los sori_
nos, utilizada con fines muestrales 14 .

14
Aquí ya tratamos la edad como variable cuantitativa.
Capítulo VII. Distribuciones de probabilidad 185

0,169S SI 0 <X< 20
0,1999 SI 20 ~X< 3S
p(x) = 0,2079 si 3S ~X< SO
0,1S42 si SO~ X< 6S
0,268S si 6S ~X< 80
Dentro de cada uno de los grupos, todos los casos presentan la misma probabilidad, pero,
_ mo en cada intervalo podemos encontrar infinitos casos 15 , la probabilidad de cada caso es
· -preciable: es un infinitesimal, algo muy muy próximo a cero. Por esta razón sólo pode-
atribuir probabilidad a intervalos dentro de los intervalos, nunca a un caso aislado.
Aquí introducimos el concepto de función de densidad. Los datos se representarán en un
-to grama de frecuencias relativas. Como los intervalos no tienen la misma amplitud 16 , para
~resentar adecuadamente los datos tenemos que calcular, como hemos visto en el Capítulo
· «Representaciones gráficas», la altura que daremos a los intervalos, ya que la frecuencia
-~ cada intervalo es equivalente al área que se levanta sobre él. La función de densidad de
- aestra distribución de probabilidad quedaría definida así:
0,169S/20 si 0 <X< 20
0,1999/lS si 20 ~X< 3S
f(x) = 0,2079/lS SI 3S ~X< SO
0,1S42/1S si SQ ~X< 6S
0,268S/1S si 6S ~X< 80
Gráficamente, su representación a través de un histograma sería ésta:
Gráfico 5.
Población de Soria según edad. Distribución de probabilidad continua.
0,02

0,018

0,016

0,014

0,012

0,01

0,008

0,006
0,1695 0,199 0,2079 0,1542 0,2685
0,004

0,002

o
o 5 10 15 20 25 30 35 40 45 so 55 60 65 70 75 80
Edad

15
O un número elevadísimo de éstos.
16
La «amplitud » de un intervalo es lo mismo que su «recorrido» o «rango»: la distancia entre los valores extre-
mos del intervalo.
186 Estadística para la investigación social

Esto quiere decir que, por ejemplo, la probabilidad de encontrar una persona de meno
de un año es de 0,1695/20, es decir, 0,0085, que sería la misma que la de encontrar alguien
de entre 1 y 2 años o de entre 13 y 14 años. Todos los intervalos de 1 año de amplitud dentro
del intervalo de menores de 20 años presentarán una probabilidad igual a 0,0085. Ésta sería
la unidad de probabilidad dentro de dicho intervalo. Así que si queremos calcular la probabi-
lidad de encontrar una persona de entre 10 y 15 años, es decir, que tenga más de 9 y meno_
de 16 años, tendremos que calcular la amplitud del intervalo, esto es 16-10 (o 15-9), es decir.
6 años, y, como cada año presenta una probabilidad de 0,0085, nos resultará 6 · 0,0085, esto
es, 0,051. Esto quiere decir que, según nuestra tabla de datos agregados, aproximadamente
un 5% de la población de Soria tiene entre 10 y 15 años: tenemos una probabilidad del 59é
de encontrar en la población soriana una persona de entre 10 y 15 años.

Ejercicio 1
El Gráfico 5 representa la función de densidad de la población de Soria según su edad en 2001 .
¿Cuál sería la probabilidad de encontrar un habitante soriano que tenga entre 35 y 44 años?

Ejercicio 2
La población española residente en viviendas familiares en 2011 se distribuye por edad según la
siguiente tabla:
Tabla 5.
Población española por edad en 2011.

Edad n

Menos de 20 años 8.268.954


De 20 a 34 7.681.869
De 35 a 49 9.967.993
De 50 a 64 7.808.436
Más de 64 8.273.956

Total 42.001.208
Fuente: Censo de Población 2011. INE.

a) ¿Cuál es la distribución de probabilidad de las edades de la población española en 2011?


b) ¿Cuál sería la probabilidad de encontrar en España alguien que tenga entre 30 y 49 años?

La función de densidad se aplica para calcular la probabilidad que toma un interva.


dentro de distribuciones continuas. Utilizamos áreas para conocer la probabilidad de
intervalo de valores . Esto será clave cuando veamos, por ejemplo, la distribución normal.

Encontramos una distribución uniforme discreta cuando contamos con n grupos y


probabilidad de cada grupo (x) es:
p(x) = 1/n
Capítulo VII. Distribuciones de probabilidad 187

Por ejemplo, obtenemos una distribución uniforme discreta al lanzar un dado (no carga-
: todos los resultados posibles tendrán la misma probabilidad (1/6), igual que al lanzar una
neda (no cargada) al aire, en donde «cara» tendrá la misma probabilidad que «cruz» (1/2).

En el caso del dado:

p(x) = 1/6 xEN

. lo que es lo mismo:
p(l) = 1/6 = 0,1667
p(2) = 1/6 = 0,1667
p(3) = 1/6 = 0,1667
p(4) = 1/6 = 0,1667
p(5) = 1/6 = 0,1667
p(6) = 1/6 = 0,1667

Gráfico 6.
Probabilidades de los resultados posibles al lanzar un dado. Distribución uniforme discreta.

0,2

0,15 - - - - - -
0,1

0,05

o 1 2 3 4 5 6

En el caso de la moneda:
p(cara) = 112 = 0,5
p(cruz) = 1/2 = 0,5

Gráfico 7.
Probabilidades de los resultados posibles al lanzar una moneda al aire.
Distribución uniforme discreta.
1

0,5

Cara Cruz

La distribución uniforme es la más sencilla de las distribuciones de probabilidad.


188 Estadística para la investigación social

5. Distribución binomial
La distribución binomial es una distribución de tipo discreto que se genera en un experi-
mento compuesto de una serie sucesiva de «n» experimentos simples 17 en los que sólo cabe
esperar dos resultados distintos mutuamente excluyentes. Estos experimentos simples se lla-
man «experimentos de Bernoulli» y contamos con numerosos ejemplos de ellos: al tirar un
moneda al aire nos puede salir «cara» o «cruz», en un nacimiento podemos encontrarnos coG
«un niño» o «una niña», en un examen podemos «aprobar» o «suspender», etc. En este tip
de experimentos fijamos nuestra atención en uno de los (dos) resultados posibles, al que.
cuando se da, llamaremos «éxito». Cuando éste no se produzca hablaremos de «fracaso». A
la probabilidad de «éxito» la llamaremos p y a Ja de «fracaso » q. «Éxito » y «fracaso » so
complementarios, de tal manera que p + q = 1, por lo que p = 1 - q . Un experimento bino-
mial exige un número determinado de sucesos, independientes entre sí, y en donde la proba-
bilidad de éxito se mantenga constante en cada uno de ellos.

EJEMPLO 2
La probabilidad de que, en cada nacimiento de los que se producen en España, encontre-
mos una niña ($?) 18 es aproximadamente igual a 0,48 (p = 0,48). Esto quiere decir que
probabilidad de que no nazca una niña, es decir, de que nazca un niño (d'), es -:
1 - 0,48 = 0,52 (q = 0,52). ¿Cuál será la probabilidad de que nazcan 3 niñas en 5 na __
mientas? Tenemos aquí un experimento binomial compuesto de 5 sucesos, en los que e5-
peramos 3 éxitos y 2 fracasos. Uno de los resultados posibles será: S?S?S?d'd'. Otro : S?S?d'-~

Otro: S?d'S?S?d'. Y así hasta G) resultados posibles 19 . Cada uno de ellos, aplicando el prir:-
cipio multiplicativo, ya que Jos sucesos son independientes, tiene una probabilidad -
0,48 · 0,48 · 0,48 · 0,52 · 0,52 = 0,48 3 · 0,52 2 . Por lo tanto, la probabilidad de que, en 5 Il:!:
cimientos sucesivos, nazcan 3 niñas y 2 niños en España será:
5 5 5 4
). o48 3 . o 522 = ! . o 11 . o 27 = . . o 0297 = o' 297
(3 ' ' 31. (5 - 3)! ' ' 2 '

De manera general, en un experimento binomial en el que se dan n sucesos, siendo e;:


cada uno de ellos la probabilidad de «éxito» p y Ja probabilidad de «fracaso» 1 - p = q.
probabilidad de obtener x éxitos será igual a:

17
Estos «experimentos si mples» en distintos manuales son llamados también «pruebas», «ensayos», «intent
o senci llamente «sucesos simples».
18
Sobre la base de los nacimientos producidos en 2008 en España, según la estadística del Movimiento Na
de la Población del INE. En 2008 nacieron en España 250.911 niñas y 268.056 niños.
19
Estos resultados posibles (10) son los siguientes:

~~~ºº ~~º~º ~º~~º º~~~º


º~~º~ º~º~~ 00~n
~00n ~~ºº~
º~º~º
Capítulo VII. Distribuciones de probabilidad 189

(Para evitarnos cálculos existe una tabla en donde se recogen las probabilidades «p» de
20
x» éxitos en un conjunto de «n» sucesos. Pero no la vamos a utilizar aquí .)

La distribución de probabilidad que nos definirían los resultados «niña» de cinco naci-
.entos en España sería la siguiente:
Tabla 6.
Niñas nacidas en cinco nacimientos. Distribución binomial.
[n.º de éxitos] [probabilidad]
X p(x)

o 1 . 0,48° . 0,52 5 = 0,0380


1 5. 0,48 1 . 0,52 4 = 0,1755
2 10. 0,48 2 . 0,52 3 = 0,3240
3 10. 0,48 3 . 0,522 = 0,2990
4 5·0,48 4 ·0,52 1 =0,1380
5 1 . 0,48 5 . 0,52° = 0,0255

En un experimento binomial de n sucesos, en los que la probabilidad de «éxito» en cada


:rno de ellos es p, el espacio muestral, es decir, el conjunto de resultados posibles, de posi-
les combinaciones de «éxitos» y «fracasos », será:

X= {ningún éxito, 1 éxito, 2 éxitos, 3 éxitos, ... , x éxitos, ... , (n - 1) éxitos, n éxitos}

Y las probabilidades asociadas a cada uno de estos resultados se reflejan en esta tabla:
Tabla 7.
Forma general de la distribución binomial.
[n .º de éxitos] [probabilidad]
X p(x)

o (~}pº. qn
1 G}pl · qn -1

2 G}p2. qn -2

3 G}p3 ·qn-3

20
Esta tabla aparece en numerosos manuales de estadística. Como se limita a muestras muy pequeñas y a pro-
babilidades fijadas de éx ito muy concretas no la vamos a reproducir aquí. Si bien esta tabla tenía utilidad hace
tiempo, como las tablas de logaritmos, hoy día se ve reemplazada por las herramientas de cálculo que están al
al cance de cualquiera: por ejemplo, con Excel de Office o con Cale de Openüffice podemos calcular directamente
una probabilidad binomial para cualquier número de sucesos y para cualquiera probabilidad de éxito.
190 Estadística para la investigación social

Tabla 7. (Continuación)

[n.º de éxitos] [probabilidad]


X p(x)

n- 1

Ésta será la forma general de una distribución binomial de probabilidad 21 , con n suce
independientes, x éxitos y una probabilidad de éxito p en cada uno de los sucesos.

Como es obvio, no existe una única distribución binomial de probabilidad. Para cae...
número de sucesos que fijemos (n) y para cada probabilidad de éxito (p) en cada uno ~
estos sucesos tendremos una distribución binomial distinta. Cada distribución binomial "'
determinada por estos dos parámetros: n y p.

Veamos algunos ejemplos de distintas distribuciones binomiales según distintos valo


den y p .

21
Esta distribución se describe por los ténninos del desarrollo de un binomio de Newton (p + q)". Los c -

cientes que encontramos en cada ténnino [ G). G). G). . . e). . . e:


1
). corresponden con una - e)J
de lo que se llama triángulo de Tartaglia o de Pascal. Así tenemos para cada n (número de elementos en la mue
y cada x (número de éxitos en ésta) los siguientes coeficientes:
x=O x=1 x=2 x=1 r-.:: r-5 x=6 x=7 x=8 x=9
n=O
n=1
n=2 2
n=3 3 3
n=4 4 6 4
r;=5 5 10 10 5
n=6 6 15 20 15 6
7 21 35 35 21 7
n=8 8 28 56 70 56 28 8
n=9 9 36 84 126 126 84 36 9
Capítu lo VI I. Distribuciones de proba bilidad 191

EJEMPLO 3
Aquí tenemos para 3 sucesos (n = 3) las distintas probabilidades (en columna) de los po-
sibles éxitos (0, 1, 2 o 3) (en fila), conociendo la probabilidadp de obtener un éxito en un
suceso. Para cada valor de p tendremos un gráfico distinto. Aquí hemos dado a p los valo-
res 0,2; 0,5 y 0,8. Podríamos haberles dado cualesquiera otros.
Gráfico 8.
Ejemplos de distintas distribuciones binomiales para experimentos de 3 sucesos.
a) n = 3 ; p = 0,2 b) n = 3 ; p = 0,5 e) n=3; p=0,8
0,6 0,6 0,6

0,5 0,5 0,5

0,4 0,4 0,4

0,3 0,3 0,3

0,2 0,2 0,2

0,1 0,1 0,1

o o o
o 1 2 3 o 1 2 3 o 1 2 3

El valor medio de una distribución binomial, como mostraremos más adelante, es igual
n· p.
µ = n·p

Cada línea representa los coeficientes de una distribución binomial , coeficientes que corresponden con estos
- úmeros combinatorios:

3 3

4 6 4

Aquí verificamos dos propiedades de los números combinatorios:

1 ª) (n) X
= ( n )
11 - X

Porque podemos observar que(~) = (~) G)=G) etc.

2
-") C)+C: l)=C: :)
Ya que observamos que G) G) G)
+ = G) G) G) + =
etc.
192 Estadística para la investigación social

La varianza de una distribución binomial es igual a n · p · q

(/=n·p·q

Ejercicio 3
Un opositor es convocado el mismo día para dos oposiciones distintas. En la oposición A de nivel
medio hay cinco plazas a cubrir y en la oposición B de nivel superior hay nueve plazas. El aspi-
rante no sabe bien a cuál presentarse. Observa las estadísticas de convocatorias anteriores y
aprecia que en la oposición A el porcentaje de éxito está en torno al 25%. La oposición B es más
difícil y el éxito alcanza sólo un 15%.
Con esta información ¿cuál será la elección más ventajosa?

EJEMPLO 4
Veamos más ejemplos de distribuciones binomiales. En este caso contamos con distribu-
ciones de 10 sucesos y con distintas probabilidades de éxito en cada suceso (0,1; 0,3; o,.:
0,7 y 0,9).
Gráfico 9.
Ejemplos de distintas distribuciones binomiales para experimentos de 10 sucesos.
a) n = 10 ; p = 0,1 b) n = 10 ; p = 0,3

o 1 2 3 4 5 6 7 8 9 10 012345678910

e) n = 10 ; p = 0,5
0,4 - - - - - - - - - - - - - -

0,3 + - - - - - - - - - - - - - -

0,2 +----------'"'---~-----

o 2 3 4 5 6 7 8 9 10

d) n = 10 ; p = 0,7 e) n =10 ; p =0,9


0,4 0,4

0,3 + - - - - - - - - - - - - - - - - 0,3 . J . - - - - - - - - - - - - + - --f-'-

0,2 +------------'-~'-'--­ 0,2 +------------~~+"--f-'-

º·1 4---------~_¡_~c.o__¡:..:.__ 0,1 +------------___¡'-'---!----f-'-

04-----~___..-=---"-'--'-'--''---'--"-'-
012345678910
0 +----------~
o 1 2 3 4 5 6
....
7
--'-~-----
8 9 10
Capítulo VII . Distribucion es de proba bilidad 193

Aquí se observa que a medida que la probabilidad de éxito en un suceso se aproxima a


0,5 (es decir, al 50%) la distribución de éxitos totales tiende a la simetría alrededor del
número medio de éxitos, de tal manera que si aquella probabilidad es igual a 0,5, esta
distribución es perfectamente simétrica. Y también observamos que a medida que se in-
crementa la probabilidad de éxito en un suceso, se incrementan las probabilidades de ob-
tener un elevado número de éxitos en el conjunto total de sucesos considerados.

En la investigación social, utilizamos la distribución binomial de probabilidades en pro-


-~ os de extracción de muestras, siempre que nos interese solamente uno de los grupos en
.:¿ie puede dividirse la población, es decir, siempre que interese extraer solamente un número
:oncreto de individuos que presenten una determinada característica. Es lo que vamos a ver
. :. continuación .

.: .l. Valor esperado en muestras para una variable nominal


Para una variable nominal cualquiera sólo podemos calcular el valor esperado (que en este
.:aso sería una proporción) si dicotornizamos la variable, reduciendo ésta a dos valores, de tal
:nanera que nos fijemos sólo en el valor que nos interesa y los demás queden agrupados y
:educidos a un resto. Toda la población queda así dividida en dos grupos: los que presentan
:ma determinada característica y los que no. A esta operación la podemos llamar «binorniali-
zación de una variable».
Todas las variables, incluso las numéricas o cuantitativas, las podemos «binornializar»
dicotornizar) si sólo nos interesa observar un determinado valor en el conjunto de una po-
lación. Si para una investigación nos interesa, por ejemplo, comparar, entre distintas pobla-
~iones , el peso específico de los mayores en cada una de ellas y definimos como «mayores»
a los «de 65 años y más », podemos dividir a la población en dos categorías: los «de 65 años
y más» (es decir, los «mayores »: «mayores de 64 años ») y el «resto» de la gente.
La población de Soria, según esta categorización, nos quedaría agrupada así:
Tabla 8.
Población de Soria .

X n p

«Menores de 65 años » 66.375 0,7315


«De 65 años y más» 24.360 0,2685

Total 90.717 1,0000

Hemos reducido la edad de la población, que era, originalmente, una variable cuantitati-
va (numérica) a una variable cualitativa (nominal), y de polinorninal (con numerosas catego-
rías) la hemos convertido en binominal (que cuenta con sólo dos categorías clasificatorias).
En este caso, el estadístico resumen de la distribución, equivalente a la media, es el peso
específico en la población del grupo que nos interesa, definido por el valor marcado positi-
194 Estadística para la investigación social

vamente en la «dicotornización»: en este caso el «de 65 años y más». Este peso viene dadc
por su frecuencia relativa, es decir, por su proporción (p), que en este grupo es igual ~
0,2685.

Si en la extracción de una muestra nos aparece un individuo «de 65 años y más », defini-
mos esto como un éxito (marcado con un 1) y si no nos aparece hablamos de fracaso (marca-
do con un O).

Si extraemos una muestra de 3 individuos, esto es, si realizamos tres extracciones de u


individuo en una población, el conjunto de resultados posibles (el espacio muestra!) y la prcr
babilidad de cada uno de ellos (aplicando el principio multiplicativo) será:

Tabla 9.

X p(x)
{O, O, O} 0,7315. 0,7315. 0,7315 = 0,3914
{ 1, O, O} 0,2685. 0,7315. 0,7315 = 0,1437
{O, 1, O} 0,7315. 0,2685. 0,7315 = 0,1437
{O, O, 1} 0,7315. 0,7315. 0,2685 = 0,1437
{l,1,0} 0,2685 · 0,2685 ·O, 7315 = 0,0527
{1,0,1} 0,2685 ·O,7315 · 0,2685 = 0,0527
{O, 1, 1} 0,7315 ·0,2685 ·0,2685 = 0,0527
{], 1, 1 } 0,2685. 0,2685. 0,2685 = 0,0194

Si agrupamos las muestras según el número de «mayores» de 64 años que contienen, e5


decir, según el número de éxitos (señalados con «X;» ) 22 que podemos obtener en las muestras
de tamaño 3 (n = 3), nos quedaría la siguiente tabla o distribución de probabilidad:

Tabla 10.

X¡ p¡

o 0,3914
1 0,4311
2 O, 1581
3 0,0 194

22
Tras un proceso de binomialización, en donde fijamos nuestra atención en los individuos que presentan u
determinada característica, esto es, en donde sólo nos interesa un grupo de la población, y su peso relativo en és
llamamos pala probabilidad de extraer al azar uno de los individuos del grupo que nos interesa del conjunto de L
población (de tamaño N).
Al extraer una muestra de tamaño n de la población, llamaremos <<X;» (siendo, claro está, i ~ 11) al número de
miembros de la muestra que pertenecen al grupo que nos interesa y «p¡» a su probabilidad.
Como normalmente también llamamos «n>> (n;) al n. 0 de casos en los que se repite un valor (x;) en la poblaciób.
hay que tener cuidado de no confundir esa «11 » con la «fl » que aquí, en el proceso de extracción de muestras de Un:?
población binomializada, se utiliza.
Capítu lo VII. Distribuciones de probabilidad 195

Aplicando directamente la fórmula de la distribución binomial hubiésemos obtenido los


-· mos resultados .

Tabla 11.

X¡ p¡

o 1 . 0,2685°. 0,7315 3 = 0,3914


1 3. 0,2685 1 . 0,7315 2 = 0,4311
2 3. 0,2685 2 . 0,7315 1 = 0,1581
3 1. 0,2685 3 . 0,7315° = 0,0194

El número medio de individuos «de 65 años y más» que podemos extraer (al azar, siem-
?"e al azar) en una muestra de 3 sorianos será el siguiente:

IX;. p¡ = o. 0,3914 + l. 0,4311 + 2. 0,1581 + 3. 0,0194 = 0,8055


Éste será el valor esperado del número de individuos «de 65 años y más» que aparecerán
~ una muestra de 3 personas extraídas de la población de Soria: el número de «mayores »
:?Ue podemos esperar que nos aparezcan en una muestra de 3 individuos sorianos.
Podemos observar que el valor esperado es igual a n · p (siendo n el tamaño de la muestra
. p la proporción del grupo que nos interesa en la población) 23 . Por lo que podemos decir
,ue
I x;·p; = n ·p

La varianza, en una distribución binomial, para muestras de tamaño «11» es igual a

n · p · (1 - p) = n · p · q

Hay que tener claro que lo que se está viendo aquí es la generación de una distribución
;nuestra! de tipo binomial. Lo que nos interesa es ver cómo se distribuye (en términos de
robabilidad) la proporción de una determinada característica en un conjunto de muestras de
:m determinado tamaño.
Esto nos lleva a poder plantearnos cuestiones de este tipo: de todo el conjunto de mues-
rras de tamaño «11», ¿en cuántas de ellas --en qué proporción de ellas- encontraremos «X»
individuos con una determinada característica que tiene una probabilidad «p » de presentarse
en un individuo de la población?
Así, en el caso que veníamos siguiendo más arriba, podemos preguntar por la proporción
de muestras de tamaño 3 en las que encontraríamos, por ejemplo, 2 «mayores de 64 años ».
Y, por lo que vemos, en el 15,81 % de las muestras de 3 elementos podemos encontrar 2
«mayores» .

23
En nuestro ejemplo, con una muestra de 3 elementos, tenemos que n. · p = 3 · 0,2685 = 0,8055 .
196 Estadística para la investigación social

Ejercicio 4
En 2012 las empresas españolas se distribuían según el número de asalariados del siguiente
modo :
Tabla 12.
Empresas españolas según el número de asalariados en 2012.
N. º de asalariados n
Sin asalariados 1.764.987
De 1a9 1.288.390
De 10 a 49 122.183
De 50 a 99 12.700
Más de 100 11.357
Total 3.199.617
Fuente: Directorio Central de Empresas. INE.
a) Si tomamos una muestra aleatoria de 20 empresas ¿cuántas de ellas esperamos encontrar
sin asalariados?
b) ¿Y en una muestra de 1000 empresas?
c) Calcule la probabilidad de que en una muestra de 15 empresas aparezcan 2 que tengan entre
1O y 49 asalariados.
d) Calcule la probabilidad de que en una muestra de 1O empresas aparezcan al menos 7 que
tengan entre 1 y 9 asalariados.
e) Calcule la probabilidad de que en una muestra de 1O empresas aparezcan al menos 6 con
menos de 1o asalariados.
f) Calcule la probabilidad de que en una muestra de 1O empresas aparezcan 3 que tengan entre
1 y 49 asalariados.
g) Calcule la probabilidad de que en una muestra de 7 empresas, como mucho 2 tengan entre 1
y 49 asalariados.

6. Distribución normal
La distribución normal es Ja distribución teórica más usada en estadística y no sólo porqu=
múltiples conjuntos de datos (errores de medida, diversas informaciones biométricas, socia-
les, etc.), puedan ajustarse a ella, sino porque, como veremos en el capítulo siguiente, e5:
clave en la estadística inferencia!. Toda distribución de las medias de un conjunto de mues-
tras de cierto tamaño se aproxima a una distribución normal. Toda distribución muestra! =
medias se aproxima a la normal.
Ésta es una distribución teórica continua que se obtiene a partir de la función siguiente
1 ) (X - µ) 2

f (x) = ¡::;:__ e 2 a Vx E IR
CJ -y2n

Como e y n son dos números (e= 2,7181...; n = 3,1415 ... ), dos constantes matemátic
trascendentes, f (x), aparte del valor variable de x, depende de la media de todos los valore$
Capítulo VII. Distribuciones de proba bili dad 197

- lJl) y de su desviación típica o estándar (a). Cada distribución normal depende de estos dos
::arámetros (su media y su desviación típica) : fijados estos, podemos conocer el valor de la
_-IDción f (x) para cada x. Aquí esto es lo único que necesitamos saber.
Así tenemos distintas distribuciones normales que, con la misma media, presentan distin-
desviaciones típicas. Estos son algunos ejemplos:
Gráfico 10.
Distribuciones normales con distintas desviaciones típicas.
0,6

··· ·· · · µ=O a=0,75


0,5
- - µ=O a=l

0,4 - - - · µ=O a=l,2!

- - µ=O a=l,75
0,3

0,2

0,1

-4 -3 -2 -1 o 1 2 3 4 5

Y otras tantas que, con la misma desviación típica, tienen distintas medias. Y estos son
otros cuantos ejemplos de estas:
Gráfico 11 .
Distribuciones normales con distintas medias.
0,45

., .
0,4 ... •• •• · •• µ=-1 a=l

0,35 1
. \

- - µ=O a=l

- - - - µ=1 a=l
0,3
. - - µ=2 a=l
0,25 .
0,2

0,15
r

-4 - 3 -2 -1 o 1 2 3 4 5
198 Estadística para la investigación social

Se pueden dar infinidad de ellas más, con distintas medias y distintas desviacione:
típicas .

Los datos que corresponden a estas distribuciones son, obviamente, cuantitativos y conti-
nuos.

La representación de una distribución normal presenta una forma acampanada, simétrica.


cuyo máximo corresponde con su valor medio. Su función de densidad, al ser de probabili-
dad, toma siempre valores positivos menores que l. Al estar esta función definida en todo e
campo de los números reales, su dominio se extiende desde - ro hasta + ro . Es asintótica a.
eje de abcisa (X): acercándose a O a medida que los valores x se aproximan, por un lado. _
- ro y, por otro, a + ro .

A la hora de referirnos a la representación gráfica de una de estas funciones hablamos ck


curva normal.

Todo el área que define una función normal con el eje de abcisa (X), como en toda frnr
ción de probabilidad, equivale a 1.

Y, también como toda distribución continua de probabilidad, su función de densidad n _


permite calcular la probabilidad de que los valores de la variable (X) que presenta una distn-
bución normal se encuentren en un determinado intervalo [a: b ]. Esta probabilidad nos la
el área que fija la función f(x) (por arriba), el eje X (por abajo) y los extremos del interva:-
(«a» por la izquierda y «b» por la derecha).

Gráfico 12.
Probabilidad entre los valores " ~' y «b >.

a b

Para esto contamos con una tabla que nos permite calcular esta probabilidad.
Capítulo VII. Distribuciones de probabilidad 199

' .l. Distribución normal estandarizada


:.rra reducir a una sola tabla las probabilidades asociadas a la infinidad de distribuciones
rrnales existentes (ya que hay una distinta para cada media y cada desviación típica), ne-
-~ itamos estandarizar los distintos valores de todas las distribuciones.

Para esto transformamos los valores x en unidades Z. Como ya hemos visto en el Capítu-
IV (medidas de resumen) , los valores Z los utilizamos para localizar de manera relativa
da valor en la distribución en la que se encuentra, permitiendo la comparación entre valo-
= de distribuciones distintas. Lo que hacemos es establecer en cada distribución la distan-
:ia de cualquier valor x a Ja media (µ) y medir esta distancia en unidades de desviación
'pica o estándar (a).
x-µ
Zx = - -
a

A cada valor x de la distribución le corresponderá un valor z24 , que nos dirá a cuantas
::nidades de desviación típica se encuentra de la media. Lo que nos permitirá establecer las
;x>siciones relativas de esos valores en el seno de sus poblaciones y poder comparar, por
::jemplo, posiciones de valores idénticos en poblaciones con distintas medias y distintas des-
iaciones típicas. Esto lo podemos hacer con cualquier variable (cuantitativa y continua) tan-
-o si se distribuye normalmente como si no. Si una distribución continua la convertimos en
·alores Z, decimos que Ja estandarizamos. Y al estandarizada, su media se nos convierte en
y su desviación típica en 1.
Media de una distribución estandarizada (en unidades Z):
µ-µ o
Zµ =--=-=0
a a
Desviación típica de una distribución estandarizada (en unidades Z):

a-µ a-O a
zi5 = - - = - - = - = 1
a a a
Así obtenemos la distribución normal estandarizada, con media O y desviación típica 1, y
u aremos su función de densidad (intervalar) para calcular Ja probabilidad de un intervalo de
Yalores en el seno de una distribución normal cualquiera. Para ello estandarizaremos (en uni-
dades z) los valores extremos del intervalo considerado.

6.2. Cálculo de probabilidades en distribuciones normales


Para esto nos servimos de la distribución estandarizada y de una tabla que se construye a
partir de ella (de su función de densidad). Esta tabla registra las probabilidades entre la me-
dia de la distribución (0) y cualquier valor Z a un lado de la distribución.

24
Este valor Z será positi vo si x original es mayor que la medi a µ, es decir, si se encuentra a su derecha en la
recta real (µ < x). Y será negati vo si el valor x es menor que la media, es decir, si está a su izquierda (x < µ).
200 Estadística para la investigación social

Gráfico 13.
Área entre O y Z

z
Sabemos que entre la media y uno de los extremos se encuentra el 50% de los casos, y
que toda la distribución cubre el 100%. En probabilidades tendríamos que hablar de 1 (e
vez de 100%) y de 0,5 (en vez de 50%). Pues bien, en la susodicha tabla se registra la proba-
bilidad de encontrar cualquier valor entre O y Z en una población normal. La reproducimo:
al final del libro con nombre de «Tabla Z» y en el Cuadro 2. Veamos a través de un ejemple
cómo hacer uso de ella.

EJEMPLO 5
Las edades de fallecimiento en España se distribuyen casi normalmente. Quitemos el caS!
y supongamos que se distribuyen ajustándose perfectamente a una función normal. L.:
edad media con que se fallece en España es de 80 años. ¿Cuál será la probabilidad de q ~
alguien fallezca entre los 80 y los 85 años? Nos hará falta saber la desviación estándar
típica de la edad de fallecimiento: vamos a suponerla de 6 años 25 • Lo primero que hace-
mos es calcular las unidades Z que hay entre 80 (el valor medio) y 85 (el valor que debe-
mos transformar en unidades Z).
85 - 80 5
Z85 =
6
= 6 ;: :; 0,83
Nos vamos a la tabla. Aquí encontramos el valor Z que corresponde a 85 años: O, :
Buscamos 0,8 en la columna de Z y 0,03 en la fila de Z (0,8 + 0,03 = 0,83). Y lacas·
en la que se cruzan nos indica la probabilidad de encontrar un valor comprendido entre
media (80 años) y 85 años, es decir, traduciendo a unidades Z, entre el valor Z = O y~
valor Z = 0,83.

25
Esta desviación no se corresponde con el va lor empírico real: es tan solo un supuesto de ejercicio.
Capítulo VII. Distrib ucione s de pro babili dad 201

CUADRO 2 .
Tabla Z: Probabilidades en la distribución normal estándar.

Zx o 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

o 0,0000 0,0040 0,0080 0,0120 0,0160 0,0 199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 O, 1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,288 1 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3 186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1 0,3413 0,3438 0,346 1 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1, 1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990

La probabilidad buscada es de 0,2967. Esto quiere decir que el 29,67% de los españo-
les muere entre los 80 y los 85 años.
202 Estadística para la investigación social

Gráfico 14.
Área entre Z = O y Z = 0,83. Porcentaje de hombres que mueren entre los 80 y los 85 años.

0,5

0,4

0,3

0,2

O, 1

o
o 0,83

Observando la tabla podemos ver que entre la media y una unidad de desviación típi _
(lZ) se encuentra el 34,13 % de los casos. Y que entre la media y dos unidades de desviació-
típica (2Z) encontramos el 47,72% de ellos. Y entre la media y tres unidades de desviació
típica (3Z) se encuentra prácticamente el 50% de los casos (49,87%).

Gráfico 15.1
Distribución normal. Porcentaje de casos entre O y Z (µ + o-).
0,5

0,4

0,3

0,2

0,1

-2 -1 o 2 3
Capítulo VII. Distribu cio nes de probabili dad 203

Gráfico 15.2
Distribución normal. Porcentaje de casos entre O y 2Z (11 + 2u).
0,5

0,4

0,3

0,2

0,1

o
- 3 -2 -1 o 2 3

Gráfico 15.3
Distribución normal. Porcentaje de casos entre O y 3Z (µ + 3u).
0,5

0,4

0,3

0,2

0,1

o
-3 -2 -1 o 2 3

Como la distribución es perfectamente simétrica, la tabla vale también para valores si-
tuados a la izquierda de la media, es decir, para valores Z negativos .
204 Estad ística para la investigación social

Gráfico 16.
Área entre - Z y O.

-z o

Por lo que podemos decir, si tomamos valores a izquierda y derecha de la media, que.
dentro de una distribución normal estandarizada, en el intervalo [ - Z: + Z] se encuentra e
68 ,26% (34,13% + 34,13 %) de los casos.

Gráfico 17.
Área entre - Z y + Z.

-Z o z

Las transformaciones que convierten unidades Za x (y viceversa) permiten generaliz.z:-


esto a todas las distribuciones normales (tengan la media y la desviación típica que tengan
Capítulo VII. Distribucion es de probabilidad 205

Así, en toda distribución normal, entre la media y más/menos una unidad de desviación
'pica se encuentra el 68,27% de los casos. Entre la media y más/menos dos unidades de
_esviación típica, el 95,45 %. Y entre la media y más/menos tres unidades de desviación típi-
:a encontramos el 99,73%.

µ-3a µ-2a µ-a µ µ+a µ+2a µ+3a

68,27%

95,45%

99,73%

De igual modo, observamos que el 95 % de los casos 26 se encuentra alrededor de la me-


dia entre más/menos 1,96 unidades de des viación típica. Y el 99% de los casos 27 está entre
más/menos 2,58 unidades de desviación típica alrededor de la media.

Gráfico 18.
Área entre - 1,96Z y + 1,96Z
0,45

0,4

0,35

0,3

0,25

0,2

0,15

0,1

0,05

o
-1,96Z o 1,96Z

26
En este caso haríamos el proceso inverso: de la probabilidad a las unidades Z. Buscaríamos en el interior de
la tabla (hay que tener en cuenta que ésta sólo abarca la mitad de la distribución) 0,950012, esto es, 0,4750, que es la
probabilidad que correspondería a Z = 1,96.
27
Del mismo modo buscarnos en el interior de la tabla 0,9900/2, esto es, 0,4950, y vemos que es la probabili-
dad que corresponde a Z = 2,58. (En la tabla tenemos 0,4949 para Z = 2,57 y 0,4951 para Z = 2,58.)
206 Estadística para la investigació n socia l

En términos de probabilidad, si tenemos una variable X con distribución normal de me-


dia µy desviación típica a, entonces
p(µ - ú ~X~µ+ u)= 0,6827
p(µ - 2a ~ x ~ {l + 2a) = 0,9545
p(µ - 3a ~ x ~ µ + 3a) = 0,9973
y también
p(µ - l,96a ~ x ~ µ + l,96a) = 0,95
p(µ - 2,58a ~ x ~ µ + 2,58a) = 0,99

EJEMPLO 6
Sigamos con las edades de fallecimiento de los españoles. Tenemos una distribución n --
mal con media 80 años y desviación típica 6. ¿Cuál será en España la probabilidad q ~
presenta una persona de fallecer entre los 70 y los 75 años?
Antes habíamos calculado la probabilidad entre la media y un valor de la distribució-
Ahora la calcularemos entre dos valores cualesquiera de una distribución normal.
Lo primero que haremos será estandarizar las edades, es decir, transformarlas en un:-
dades Z.
70 - 80 -10
z60 = 6
6
- 1,67 sería el valor Z que corresponde a los 70 años

75 - 80 -5
0o = 6 6
- 0,83 sería la Z que corresponde a los 75 años

Gráficamente, tenemos que calcular el área marcada entre -1,67 y -0,83 (entre
valores z que corresponden a los 70 y 75 años, respectivamente), puesto que dicho"'""
nos dará la probabilidad que buscamos.
Gráfico 19.
0,45

0,4

0,35

0,3

0,25

0,2

0,15

0,1

0,05

o
-1 ,67 -0,83
Cap ítulo VII. Dist ri buci on es de proba bilidad 207

Para poder hallar este área, con la información de la tabla de la distribución normal
estándar, hemos de encontrar:

l. el área entre - 1,67 y O, que viene registrado en la tabla,


2. el área entre - 0,83 y O, registrado igualmente en la tabla, y
3. calc ular la diferencia entre ambas áreas.

Esta diferencia nos dará el área que buscamos.

Gráfico 20.1
Área entre - 1,67 y O.

- 1,67 o

Gráfico 20.2
Área entre - 0,83 y O.

- 0.83 o
208 Estadística para la investigación socia l

Gráfico 20.3
Area entre - 1,67 y - 0,83.

-1 ,67 -0,83

Habíamos dicho que la tabla, al ser simétrica la distribución, vale tanto para la mi -
derecha de ésta (con valores Z positivos) como para la mitad izquierda (con valore =
negativos). Así que buscamos el área que corresponde a Z = 1,67, que aparecerá en
celda donde se cruza la columna 1,6 con la fila 0,07): 0,4525. Esto quiere decir que en =
los 70 (Z = 1,67) y los 80 años (Z = O) fallece el 45,25 % de los españoles.
Hacemos lo mismo con el valor Z correspondiente a los 75 años. Ese Z es - 0,83 . &.
la tabla buscamos 0,83, ya que el área que va de O a 0,83 es el mismo que el que va ..::~
- 0,83 hasta O. Para este valor Z tenemos un área de 0,2967. Es decir, que entre los 75
los 80 años fallece el 29,67 % de los españoles.
Entre los 70 y los 75 años fallecerá el 45 ,25 % - 29,67 % = 15,58 %. Tendremos,
tanto, una probabilidad de que alguien en España fallezca entre los 70 y los 75 año -
0,1558 (ya que la probabilidad se suele medir en tantos por uno).

Ejercicio 5
Según datos del INE, en 2011 la edad media de las mujeres españolas al nacimiento de su --
mer hijo es de 30 años, siendo la desviación típica de 5,5 años. Calcule la probabilidad de q_=
una mujer tenga su primer hijo:
a) A partir de los 33 años.
b) Antes de los 25 años.
e) Antes de los 32 años.
d) Entre los 28 y los 37 años.

En los ejemplos anteriores hemos utilizado la variable edad. En este texto la vari -
edad se toma en años cumplidos. Así, cuando decimos que una persona tiene 16 años ,
Capítulo VII. Distri bu ci ones de probabilidad 209

mos hablando del intervalo entre (16 :::;; x < 17). Si a partir de los datos del Ejercicio 5,
quisiéramos conocer la probabilidad de maternidad a los 24 años, calcularemos el área que
nay entre los valores 25 (límite superior) y 24 (límite inferior).

X - µ 25 - 30
z25 = -- =
(} 5,5
= -091
,

x-µ 24 - 30
Z24 = -- --=-1,09
Cl 5,5

~5 - Z24 l = 0,18, siendo la probabilidad asociada: 0,0714. Es decir el 7,1 %.


Obsérvese que aunque hemos hablado de una edad, hemos calculado un intervalo. Si
hubiésemos dicho 24 años exactos, es decir 24 años y O días , la probabilidad hubiera sido
0» .
Cuando la variable es distinta a la edad, por ejemplo, «la distancia en kilómetros», utili-
zarnos una forma diferente de considerar el intervalo. Si decimos «la distancia entre la vi-
vienda y el trabajo es de 18 km» estamos considerando el intervalo entre 17,5 y 18,5. Si hay
17,7 km redondeamos a 18. Es decir, redondeamos por exceso o por defecto al valor discreto
más próximo.
Si suponemos que en un municipio la distancia media recorrida hasta el trabajo son 12
km con una desviación típica de 2,5 km, para calcular el porcentaje de personas que recorren
18 km estableceremos el intervalo: (17,5 :::;; x < 18,5).

x-µ 17,5 - 12
Z175. = -(}- --2,-5- = 2,2

x-µ 18,5 - 12
Z1 s5
. =-
a- --2-,5--= 2,6

Z 18 .5 - Z 17 .5 l = 0,4, siendo la probabilidad asociada: 0,1554. Es decir el 15,5%.


Para saber el porcentaje de personas que recorren más de 13 km, calcularemos primero el
área Z entre la media y 13,5, es decir entre la media y x + 0,5. En notación algebraica:

(x + 0,5) - µ
P(µ :::;; X < 13) = (}
= Z x+ O5
'

En nuestro caso:
(13 + 0,5) - 12
Z x+o.5 = 25 = 0,6
'

El área asociada es: 0,2257. De forma que el área por encima de Z 13 _5 = 0,5 - 0,2257 = 0,2743.
Es decir, el 27,4% de los vecinos del municipio recorren más de 13 km en sus desplaza-
mientos.
210 Estadística para la investigación social

Si queremos conocer el porcentaje de personas que recorren menos de 10 km, comenza-


remos calculando el área entre 9,5 y la media, es decir entre x - 0,5 y la media:

(x - 0,5) - µ
P(lO <X:'(µ) = a
= z r-0.5
-

Y realizando los cálculos:

(10 - 0,5) - 12
z x-os = =-1,0
, 2,5

El área asociada es: 0,3413. De forma que el área por debajo de Z9 ,5 = 0,5 - 0,3413 = 0,158-
Es decir el 15,9% recorren menos de 10 km en sus desplazamientos.
Cuando trabajamos con distribuciones de probabilidad, sumamos o restamos 0,5 al val
(x) para delimitar el intervalo al que se refiere el valor. Esta operación se denomina correc-
ción de continuidad.

Ejercicio 6
En una determinada Comunidad Autónoma el tiempo medio de espera para la primera consulta
en el servicio de dermatología es de 50 días, con una desviación típica de 1O días:
a) ¿Cuál será la probabilidad que tiene un paciente de esperar entre 30 y 40 días para ser aten-
dido?
b) ¿Qué porcentaje del total de pacientes tendrá que esperar menos de 45 días?

En el Capítulo VIII («Muestras estadísticas: teoría y diseños ») veremos la gran impo -


tancia de la distribución normal en el campo de la estadística inferencial, cuando tratemos "
dar validez en el conjunto de la población a la información obtenida a través de una mues
Y es que las medias de todas las muestras de determinado tamaño de una población se disté-
buyen normalmente: la distribución muestral de las medias es una distribución normal.
esto nos permite conocer con «exactitud» la probabilidad de error de nuestras estimaciones

6.3. Aproximación de la binomial a la normal


Cuando trabajamos con muestras operamos con una especie de distribuciones, de la qu e ~­
hemos hablado: la distribución muestra!. Esta es una distribución de probabilidad en la q "
observamos un estadístico calculado en todas las muestras posibles de un tamaño estableci
(n), extraídas al azar de una población determinada. Esta distribución muestral se forma .._
cando todas las muestras posibles de un tamaño dado. Calculamos para cada muestra el val
del estadístico que nos interesa (que puede ser una media o una proporción). Para finalmen -
enumerar los diferentes valores obtenidos en todas las muestras, asignándoles su probabil:.-
dad de ocurrencia.
Para cada tamaño de las muestras (y cada estadístico de éstas) tenemos una distribuci -
muestra!.
Capítulo VII. Distribuciones de probabilidad 211

En el caso de que nos interese cómo se distribuye una proporción en el seno de una de
_-tas distribuciones, cosa que ya hemos visto anteriormente, observaremos una de tipo bino-
:aial.
Aquí vamos a ver cómo a medida que el tamaño (n) de la muestra se hace más grande, la
.:· tribución binomial que se genera se acerca a una distribución normal. Si tenemos una
inomial con muestras de tamaño n, en donde debemos obtener x elementos con una deter-
::ninada característica, que presentan cada uno de ellos una probabilidad p de tenerla 28 , la
-ormal a la que se aproxima tiene una media «np» y una desviación típica 29
. Esto «¡;¡;q»
_- así si <<p» no es una probabilidad extrema (próxima a O o a 1). Generalmente podemos
:u tituir una binomial por una normal cuando np > 5.
Veamos esto a través de un ejemplo.

EJEMPLO 7
Sabemos que el 47 % de la población española residente en viviendas familiares está casa-
do. ¿Qué probabilidad tenemos de encontrar 3 casados en una muestra de 5 individuos?
Estamos en un caso en que utilizaremos la distribución muestra! binomial. Tenemos
una distribución en donde 11 = 5, x = 3 y p = 0,47.

5) 3 51
0,53 2 = -·-·O, 1038 · 0,2809 = 10·O,1038 · 0,2809 = 0,2915
p(3) =
(3 · 0,47 ·
3! ·2!

0,2915 es la probabilidad que buscamos.


En esta ocasión 11 • p = 5 · 0,47 = 2,35 < 5. Pero como p está muy próxima a 0,5 po-
demos utilizar la distribución normal para calcular la probabilidad que buscamos.
En este caso, la media de la distribución binomial será µ = n · p = 2,35. La desvia-
ción típica, CJ = Fn J5·
= 0,47 · 0,53 = 1,12.
Tenemos que tener en cuenta que la distribución normal es continua y no discreta
como la binomial. Tenemos que realizar un ajuste de continuidad. Para ello, la probabili-
dad de encontrar 3 casados será, en la normal, la probabilidad de encontrar entre 2,5 y 3,5
casados.
Si queremos calcular la probabilidad de encontrar 3 casados, buscaremos las probabi-
lidades que existen entre 2,5 y 3,5. Para ello estandarizamos en unidades Z estos valores.
Para calcular el área entre estos valores.
Aplicando
x-µ
Zx = - -
(J

28
Esto equivale a « n>> sucesos, «X» éxi tos y probabilidad «P » de éxito en cada uno de los sucesos.
29
Recordemos que q = 1 - p.
212 Estadística para la investigación social

tenemos que
2,5 - 2,35 0,15 3,5 - 2,35 1,15
z2 5 = =- =o 12 y Z:i.
5 = 1 25 = 1 25 = 0, 92
· 1,25 1,25 '
' '
A continuación nos vamos a la tabla de la normal (Tabla Z). Y vemos las áreas entre C
y 0,12 y entre O y 0,92. Después calculamos la diferencia entre esas áreas. Y esa será L
probabilidad que buscamos.
Al valor Z = O, 12 le corresponde una probabilidad de 0,04 78.
Al valor Z = 0,92 le corresponde una de 0,3212.
La diferencia entre ambas, que es la probabilidad que buscamos, es de 0,2734. Y e -
valor está muy próximo a 0,2915, que es el resultado que obteníamos en la distribució-
binomial.
En una muestra de mayor tamaño hubiésemos obtenido una aproximación mue
mayor. Cuando n · p > S o cuando n > 30 (siempre que p no tome un valor muy extre-
mo), la binomial se ajusta a la norrnal.

La corrección de continuidad es una operación que relaciona un valor discreto con


intervalo, de forrna que podemos utilizar funciones continuas de probabilidad. Con la disu:-
bución norrnal, la corrección nos permite determinar las áreas con mayor precisión. En ;
caso de la conversión de la distribución binomial a distribución continua, por aproximacic
a la distribución normal. El efecto de no considerar la corrección de continuidad tiene efo:-
tos numéricos importantes.
Por ejemplo, con los datos del Ejemplo 7, donde Pcasado = 0,47, veamos ahora la pr
bilidad de obtener en una muestra de 5 elementos más de 3 casados, es decir 4 o 5. IF.
probabilidad es igual a:

P(x = 4) + P(x = 5) = (:} 0,47 4 · 0,53 1 + G} 0,47


5
· 0,53° =

= 0,12931155 + 0,0229345 = 0,15224605


La probabilidad es del 15,2%
Si utilizamos la aproximación normal (con µ = np = 5.A.-0,47 = 2,35 y CJ = npq = L::

(4 - 0,5) - 2,35
------=092
1,25 '

El área asociada a Z = 0,92 es: 0,3212, luego la proporción de que haya más de . . . _
casados es 0,5 - 0,3212 = 0,1788. El 17,9% cifra muy próxima al valor que resulta de
distribución binomial. Como se puede apreciar hemos empleado la corrección de con ·
dad y hemos considerado como «mayor de 3», a los valores superiores a 3,5.
Si no hubiéramos tenido en cuenta dicha corrección y hubiéramos supuesto x = 4, la
babilidad obtenida hubiera sido p = 0,0934, es decir un 9,3%, valor que está muy alejado
que resulta de la binomial.
Ca pítulo VII. Distribuciones de probabilidad 2 13

En el campo de la investigación social, donde trabajamos con poblaciones inmensas (ha-


.tantes de grandes ciudades, regiones, países, etc.) y muestras de gran tamaño, hacemos uso
.:e distribuciones muestrales teóricas de reconocida eficacia. Ya hemos visto la normal, cuya
.:mportancia se nos destacará en el Capítulo VIII («Muestras estadísticas»).

. Distribución t de Student
~ distribución t de Student es otra de las utilizadas en investigación social: nos sirve para
cer inferencias sobre la media poblacional a partir de la media de la muestra cuando se
iesconoce la desviación típica de la población. Es una distribución de valores t, que se obtie-
en a través de la transformación siguiente:

x-µ
t=----
sxf~
Es una distribución muestra!: una distribución de las medias de las muestras de tamaño
30
n» que podemos extraer de una población (que se supone norma! , de mediaµ) . Para cada
:nuestra, resumida en su media (x) y su desviación típica (sx), tenemos un valor t.
Como puede comprobarse en el Gráfico 21, la distribución de Student es una distribución
ociada a la normal. Cuando n tiende a infinito, es decir, cuando n se hace cada vez más
grande, esta distribución se aproxima bastante a la normal. Visto de otra forma también po-
demos decir que cuando n, es decir, el tamaño de la muestra, es muy pequeño, la distribución
muestra] de las medias no se ajusta a una distribución normal sino a una t de Student. En
definitiva, la distribución t no es otra cosa que una distribución normal corregida 31 .
La distribución t tiene una forma muy similar a la normal cuando el tamaño de las mues-
a-as es relativamente grande. Es continua y da Jugar a una curva de forma acampanada algo
más aplanada. La forma depende sobre todo de «n». Si el tamaño de la muestra es muy pe-
queño, la curva t será muy aplanada. Y cuando aquel es grande 32 , la curva t se aproxima
bastante a la normal.
El área que cubre la curva, que equivale a la suma de las probabilidades de todos Jos
valores, es igual a 1, como en toda distribución de probabilidad.
Hay una distribución t distinta para cada tamaño muestra! «n». Hablamos en este caso de
«grados de libertad», que serán siempre «n - 1», y que están asociados al cálculo de la
desviación típica de la muestra. Para calcular esta nos servimos de una ecuación que vincula
los n valores de X a su media (X), que, como recordamos, es la siguiente:

30
Suposición ineludible cuando el tam año de la muestra es muy pequeño.
31
Corregida por los grados de libertad con que contamos. Vid. nota 35 sobre el concepto de grado de libertad.
32
En muchos manuales se sostiene, algo arbitrariamente, que si n > 30 entonces la distribución norm al puede
sustituir a la l. Pero podemos dar este lím ite por bueno.
2 14 Esta d íst ica para la investigación soci a l

Gráfico 21.
Distribución t de Student para varios grados de libertad (v).
0,45

v= l

0,4

0,35

0,3

0,25

0,2

0,15

0,1

0,05

o
-3 -4 -3 -2 o 1 2 3 4

Fijada la media, podemos darle valores arbitrarios a n - 1 de todas los n valores x de


muestra, porque una vez establecidos n - 1 valores el último valor de x está ya determin -
(no se puede establecer arbitrariamente, con libertad). Es por esto por lo que hablamo
n - 1 grados de libertad en cada distribución de muestras de tamaño n 33 .

33
El concepto de grado de libertad resulta complejo de ilustrar. Los grados de libertad de una ecuación
número de valores (variables) que podemos elegir libremente dentro de ella. Por ejemplo: supongamos la sigui
ecuación con dos variables:
a+ b = 14

¿Qué valor puede tomar «a » que verifique la ecuación? Dentro de los números reales puede tomar infinid ~
valores. Pero si fijamo s el valor de «b» , entonces «a» sólo puede tomar un valor, que ya viene determinado por
Por ejemplo, Si b = 2, entonces a= 14 - 2 = 12. Y si b = 10, entonces a= 4. Como «a», en esta ecuació-
dos incógnitas (de dos valores variables), sólo depende del valor de «b » , decimos que esta ecuación tiene un ~
de libertad. Si tuviésemos 3 valores variables, la ecuación tendrá 2 grados de libertad. Si tuviésemos n variabl
ecuación tendría entonces /1 - 1 grados de libertad.
Para calcular una media de, por ejemplo, tres elementos, es decir, de un conjunto de tamaño 3, ¿cuánto s~
de libertad tenemos ?
Capítulo VII. Distribuciones de probabilidad 215

Para el cálculo de las probabilidades en esta distribución se utiliza una tabla que se lee de
:nuy distinta manera a cómo se leía la tabla de la normal. Aquí encontramos una distribución
· distinta para cada tamaño de la muestra.
En esta tabla los valores t los encontramos en el interior, en el cuerpo de la tabla. En los
:nárgenes aparece la proporción de las medias de las muestras de un determinado tamaño n,
e decir, la proporción de los casos que para un determinado número de grados de libertad
n - 1) encontramos entre más/menos un valor t alrededor de la media de la población, valor
ue aparece en el interior de la tabla. La tabla, que la encontramos al final del libro como
Tabla T. Distribución t de Student», la reproducimos en el ejemplo siguiente.

EJEMPLO 8
Supongamos que queremos encontrar el valor t que marca el intervalo alrededor de la
media de la población (µ ± t) donde se encuentra el 95% de las medias de todas las
muestras de tamaño 20 que podemos extraer, es decir, donde se encuentra el 95 % de los
casos de la distribución.
Para esto buscamos en Ja tabla el punto donde se cruzan la columna del 95% y la fila de
los 19 grados de libertad (gl) (20 - 1 = 19). Ese punto nos da el valor t buscado [2,093].
También podemos realizar el ejercicio inverso: calcular qué porcentaje de casos se
encuentran, por ejemplo, entre ± lt alrededor de la media de la población, en muestras de
tamaño 6. Para ello tenemos que realizar interpolaciones, lineales, a partir de las que sólo
podremos obtener un porcentaje aproximado.
Para encontrar este porcentaje nos vamos a la fila de 5 grados de libertad y vemos que
no existe el valor t = 1, que se encontrará entre 0,920 (que está asociado a 60%) y 1,156
(asociado a 70%). En una interpolación lineal, a 0,236 (resultado de 1,156 - 0,920) le
corresponde un 10%. La distancia entre 1 y 0,920 es de 0,080. Por lo que a 0,080 le co-
rresponde un 3,39%. Esto quiere decir que, tras una interpolación lineal, sabemos que a
una t = 1 le está asociado un 63,39% de los casos.

La ecuaci ón para este cálculo será:

La media dependerá, evidentemente, de los valores que tomen esos 3 elementos. Estamos ante una ecuación que
tiene tres valores variables. Cuando hablamos de los grados de libertad que se dan entre estos nos referimos al
número de valores que necesitamos fijar para que uno de ellos nos quede determinado. En esta ocasión son dos. Si
fijamos (con libertad) 2 valores, el tercero quedará enteramente detem1inado. Por ejemplo, si tenemos una media
µ = 6, entonces x 1 puede tomar cualquier valor que queramos (1, - 3, 9, 4/3 , 12.500, 55, ... ), pero fijemos, por
ejempl o, x 1 = 9, y x2 también puede tomar cualquier valor (2, 17, 6, .. .), y así, por ejemplo x 2 = 6. Pero una vez
hemos fijado estos dos valores (con en tera libertad), el tercer valor, x3 , ya no podemos establecerlo libremente, está
determinado por los va lores que hemos establecido (libremente) con anterioridad. En este caso, x 3 = 3. No tenemos
libertad para darle otro valor a x 3 . Por ello decimos que en esta ecuación contamos con 2 grados de libertad (es
decir, 3 - 1).
LX
Vamos a generalizar esto. El cálc ulo de la media de « ll » casos, cuya ecuación es: µ = - -", tendrá, por lo que
11
hemos visto anteriormente, « 11 - 1» grados de libertad .
Lo mismo sucede en el cálculo de la varianza o de la desviación típica. Sus grados de libertad dependerán del
tamaño de la población o de la muestra que estemos considerando.
Los grados de libertad suelen representarse con la letra griega \',que se lee «ni ».
Todo esto se entenderá mucho mejor en el capítulo siguiente.
216 Estad ística para la investigación social

CUADRO 3.
Tabla T: Probabilidades en la distribución t de Student.

gl 50% 60% 70% 80% 90% 95% 98% 99% 99,5% 99,8% 99,9%

1 1,000 1,376 1,963 3,078 6,314 12,71 31 ,82 63,66 127,3 318,3 636,6
2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 14,09 22,33 31,60
3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 7,453 10,21 12,92
4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610
5 0,727 o,92o -r156 1,476 2,015 2,571 3,365 4,032 4,773 5,893 6,869
6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5,959
7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408
8 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041
9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,78 1
10 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587
11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437
12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,31 8
13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,22 1
14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,1 40
15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073
16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,01 -
17 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,96-
18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,92_
19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883
20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850
21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,81 9
22 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3,79_
23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,767
24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,74
25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,7r
26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,067 3,435 3,707
27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,690
28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,67
29 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3,659
30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,6
40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,55 1
50 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,49
60 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 2,915 3,232 3,4
80 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639 2,887 3,195 3,416
100 0,677 0,845 1,042 1,290 1,660 1,984 2,364 2,626 2,871 3,174 3,39C
120 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617 2,860 3,160 3,3 :
00 0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576 2,807 3,090 3,291
Capítulo VI I. Distribuciones de probabilidad 217

. Resumen de las distribuciones vistas


. a terminar este capítulo, hemos de hacer notar que todas las di stribuciones teóricas de
?Obabilidad que hemos visto presentan unos parámetros que las caracterizan y que las dis-
::nguen: todas presentan una media y una varianza determinada, como podemos observar en
_-re cuadro.
CUADRO 4.
Medias y varianzas de distintas distribuciones de probabilidad.

Media Varianza

Uniforme
b =máximo b+a (b - a)2
--
a= mínimo 2 12

Binomial
n =número de casos
np npq
p = probabilidad de éxito
q = (1 - p)

Normal µ ª2
Normal estándar o 1

t de Student V
O para v > 1 --para v > 2
v = grados de libertad v-2

Existen, además de éstas, otras distribuciones de probabilidad importantes en el campo


de la investigación social que no vamos a tratar aquí. Entre ellas está la «Ji-cuadrado» Cx2),
que utilizaremos para determinar la independencia entre variables cualitativas, o la «F de
Fisher», que se usa en el análisis de la varianza entre distintos grupos. Para lo que vamos a
ver inmediatamente nos bastarán la distribución normal y la t de Student.
Capítulo VIII

Las muestras estadísticas:


teoría y diseño

En este capítulo se introduce el estudio de la realidad social mediante el uso de muestras y se


responde a la pregunta de cómo es posible conocer el todo a través de la parte. Es decir, de
qué manera podemos garantizar que las muestras puedan emplearse para conocer conjuntos
más grandes. En primer lugar, se expone qué es una muestra para, a continuación, explicar
los fundamentos que permiten considerar a las muestras aleatorias como muestras represen-
tativas del conjunto poblacional. Por último, se desarrollan las distintas alternativas prácticas
para la realización de muestras representativas . El capítulo se complementa con un anexo
que explica la estimación de las varianzas muestrales, cuestión muy importante para las ope-
raciones de estimación que se expondrán en el siguiente capítulo .

1. Las muestras en investigación social


2. ¿Qué es una muestra?
2.1. Universo y muestra
2.2. Error y sesgo
2.3. Nivel de confianza
3. Muestreo aleatorio
3.1. Parámetro y estadístico
3.2. La distribución muestra!
3.3. Nivel de confianza, error y tamaño muestra!
3.4. Teoría muestra!
3.5. Cálculo del tamaño muestra!
3.6. Pob laciones finitas e infinitas
3.7. Muestras grandes y pequeñas
3.8. El conocimi ento de la varianza poblacional
4. Diseño de muestras
4.1. Marco
4.2. Procedimientos de muestreo
4.3. Muestreo estratificado
4.3.1. Diseño estratificado uniforme
4.3.2. La cuestión de la ponderación en diseños no proporcionales al tamaño
4.3.3. Diseño estratificado proporcional al tamaño y diseño de Neyman
4.4. Diseños de co nglomerados
4.5. El muestreo por cuotas
ANEXO l. La estimación de las varianzas
Bibliografía come ntada
220 Estadística para la investigación social

1. Las muestras en investigación social


En la investigación sociológica, al igual que en todo tipo de investigación, el objeto inve
gado contiene cantidades ingentes de información. Por ejemplo, si queremos conocer los h;!
bitos alimentarios de los adolescentes españoles, aunque fuera únicamente en el ámbito ·,,.
un solo municipio de tamaño medio, la información que podríamos obtener resulta inmane-
jable. Simplemente con que registremos la alimentación a lo largo de una semana de 1 _
adolescentes residentes en ese municipio, las horas, los tipos de alimento, las cantidades.
forma de elaboración, el lugar de procedencia o compra, las combinaciones de los alimentos
los lugares de consumo, etc., obtendríamos tal volumen de datos que probablemente no p -
diéramos ni almacenarlos ni posteriormente tratarlos de una forma ágil.
Una forma de abordar el problema es mediante la obtención de una muestra. Es dec:...
renunciamos a obtener informaciones sobre todos los elementos para investigar sólo una pa:--
te del conjunto. Si seleccionamos una muestra, por ejemplo sólo investigamos el consumo ~
100 adolescentes, las ventajas son claras. El trabajo se hace asequible, en la medida en q ~
los costes de obtención de la información pueden resultar muy pequeños en comparaci -
con la totalidad. No es lo mismo recoger información sobre 3.000 personas que sobre 1
Los tiempos de recogida de información son menores. El tratamiento de la información =-
simplifica. Pero además de todas estas ventajas, podemos dotar a la información de may
significación, es decir, de calidad analítica. Por ejemplo, mediante una muestra, en vez ;
recoger la alimentación de toda la población durante una semana, podríamos recoger la
mentación de una muestra de 100 personas durante dos semanas en el mismo año. Los háb -
tos alimentarios no son iguales en verano que en invierno, por ello el recurso a una mues _
en dos momentos del año nos permitiría acercamos de forma precisa a estas variaciones. _
nuestro análisis sería de una mayor riqueza. Además, la utilización de muestras permite re-
ducir la redundancia informativa. Por ejemplo, es probable que dos hermanos tengan hábi
muy parecidos, o que las variaciones dentro de ciertos grupos sociales no sean grandes.
que no haya variaciones de interés entre los lunes y los martes. Si investigásemos totalme~
a Ja población y en todo el ámbito temporal, muchos de Jos datos, por repetitivos, no apon.c-
rían información.
En la práctica, la investigación sociológica se realiza mediante muestras. El princip -
parece claro : reducir la información para conseguir significación. La cuestión siguiente q ;
se Je plantea al investigador es por tanto: ¿qué es una muestra? y ¿qué condiciones de _
satisfacer para que permita producir conocimiento?

2. ¿Qué es una muestra?


Una muestra es un conjunto de elementos de un conjunto mayor. En términos matemátic _
una muestra es un subconjunto perteneciente a un conjunto. Sin embargo, a partir de e_
definición no se deduce la utilidad de las muestras como instrumento de investigación.
subconjuntos que podemos obtener de un conjunto cualquiera son innumerables. Lo que n _
interesa es saber, de todos los subconjuntos posibles que podemos realizar, cuáles produce::
conocimiento y cuáles no, y evidentemente utilizar los primeros. Los subconjuntos que p
ducen conocimiento sobre otros más amplios se denominan muestras representativas.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 221

En la investigación mediante muestras, las operaciones a realizar son:


A. Definir el universo, o especificar cuál es el conjunto o población a la que nos refe-
rimos.
B. Fijar unas condiciones para la estimación, es decir, delimitar el nivel de representati-
vidad de la muestra. Especificar qué criterios de error y de confianza vamos a mane-
jar para poder hablar del todo a través de la parte.
C. Utilizar un método de selección de la muestra, de una parte del universo. Señalar
cómo vamos a extraer la parte que observamos de forma que nos permita, cumplien-
do los criterios anteriores, referirnos al todo.
D. Inferir los resultados para el universo. Se trata de presentar los datos de forma que
puedan contener los valores reales que tiene la población.
En este capítulo nos centraremos en las tres primeras fases que producen muestras repre-
sentativas; la cuarta fase, que es el procedimiento de análisis de los resultados, se estudiará
en el capítulo siguiente.

-·l. Universo y muestra


El universo, también llamado población, es el conjunto de todas las unidades que queremos
mvestigar. La muestra es Ja parte del uni verso sobre Ja que vamos a obtener información
::on la finalidad de conocer Ja población. Con la información recogida en la muestra vamos
posteriormente a describir el universo mediante la distribución de las variables y a explicar
rambién las relaciones existentes entre distintas variables. Por ejemplo, para conocer el nú-
mero de parados de la población española, no vamos a preguntar a todos y a cada uno de los
e pañoles si está trabajando o buscando empleo. Seleccionamos sólo un conjunto de éstos, pe-
ro no seleccionamos un conjunto cualquiera, sino que utilizamos algún procedimiento que nos
egure que los resultados de haber preguntado, por ejemplo sólo a 400 españoles, nos permita
eñalar, bajo ciertas condiciones, cuál es el total de parados de los aproximadamente 25 millo-
nes de personas que se encuentran en edad activa, y también que nos permita señalar cuáles
on las variables que más inciden sobre Ja condición de parado. Por ejemplo: ¿existe alguna
relación entre el nivel de estudios y el paro? ¿hay más paro entre hombres que entre mujeres?
La definición del universo debe ser lo más precisa posible. Esta tarea no es fácil y pre-
enta ciertas dificultades. Por ejemplo, para conocer Ja «tasa de paro de la población españo-
la 1», primero tendremos que definir cuál es la población española. Ésta, ¿está compuesta
ólo por quienes tienen nacionalidad española o incluye a todos los residentes en España?
Evidentemente, parece que en este caso, la definición debe incluir al conjunto de los residen-
tes en España y excluir a los nacionales españoles que no residen en España. Pero aún así
nuestro universo sigue siendo impreciso: la residencia y la situación de ocupación están liga-
das a un momento del tiempo. Deberemos fijar una fecha de referencia: por ejemplo, Ja ter-
cera semana de noviembre del año en curso. Por lo tanto, nuestros datos estarán referidos a
dicho momento. El dato que queremos obtener será Ja tasa de paro en dicha semana de la
población residente en España. Con esto, el problema de definición del universo no está
totalmente cerrado. Debemos aclarar también qué significa el término «residente». Una per-

1
Proporción de la población activa que se encue ntra en paro.
222 Estad ística para la investigaci ón social

sona podría estar habitualmente residiendo en España pero por encontrarse de vacaciones o
visitando a un pariente, podría encontrarse fuera durante esa semana. Pero también puede
suceder al revés, que durante esa semana resida en España cuando habitualmente lo hace e
el extranjero 2 . También deberíamos acotar la edad de la población que compone el universo
No tiene sentido preguntar a un menor de 16 años si se encuentra trabajando.

Ejercicio 1
Consulte en la página del INE las definiciones de universo que realiza la Encuesta de Población
Activa (E PA) y la Encuesta Nacional de Inmigración (EN I, 2007).

Una vez definido el universo estamos en condiciones de obtener una muestra del mis
y seleccionar las unidades que vamos a investigar. Las formas de selección de la muestra "
discutirán más adelante. Esta selección tiene que hacer frente al compromiso de representan-
vidad, es decir, que la información obtenida en la muestra sea lo más parecida posible a
que hipotéticamente obtendríamos si investigásemos toda Ja población. Para obtener esta re-
presentati vidad necesitamos establecer unas condiciones que nos permitan realizar die~
aproximación. Para establecer dichas condiciones necesitamos primero presentar y discu
dos conceptos: enor y nivel de confianza.

2.2. Error y sesgo


Toda medida contiene o admite un error. Cuando decimos que la distancia entre Madrid _
Vitoria-Gasteiz es de 350 km, este no es un dato preciso, es un dato aproximado pero prác
co y útil. Conocer la distancia entre ambas poblaciones de forma más precisa resultaría d. -
cil y tampoco tendría mucha mayor utilidad para nuestra intención de realizar un desplau
miento en automóvil. Que sean realmente 353 km con 325 m y 89 cm no afecta al tiempo -
desplazamiento previsto, ni al presupuesto en el consumo de combustible de forma signific_
tiva. En Ja investigación científica, toda medida se acompaña de un margen de error. P
ejemplo, podemos decir que la distancia entre Madrid y Vitoria es de 350 km con un error -
más/menos 10 km. Resulta claro que nuestros datos serán mejores cuando nuestro error ac-
misible sea menor, pero también más difíciles (y caros) de obtener. Por ejemplo, si querem
conocer la edad media de emancipación de los jóvenes españoles con un error de ± 2 añ
será más fácil que hacerlo con un error de ± 6 meses. Pero también debemos tener presen--
que si empleamos márgenes de error amplios, la información que obtenemos, aunque sen -
lla de conseguir, pierde precisión. Por ejemplo, si para la edad de emancipación admitim
un error de ± 5 años , nuestro intervalo estará compuesto por una década y los resultados q -
obtengamos, por ejemplo, entre 25 y 35 años, aportarán poca información si queremos di_""-
ñar un plan de vivienda joven. Con 25 años probablemente sean solteros y con 35 probable-
mente ya tengan hijos, situaciones que implican demandas de tipos de vivienda muy difere-
tes y, por lo tanto, actuaciones también distintas.
Además del error de precisión de una medida, es decir, del hecho de que nuestra medí
se encuentre dentro de unos márgenes establecidos en relación al valor real, existen o

2
Es decir, en este caso residente no es equivalente a nacional.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 223

=rrores que afectan a las medidas. Por ejemplo, que nuestro metro no mida exactamente 100
:m sino 103 cm, es decir, que nuestro instrumento de medida produzca errores. También que
condiciones de medida no sean adecuadas, por ejemplo, las temperaturas se miden a la
sombra mientras que muchos termómetros urbanos toman medidas al sol. En estadística dis-
:inguimos dos tipos de error: el error estadístico y los errores no estadísticos.
El error estadístico es aquel que procede del hecho de utilizar observaciones muestra-
e , es decir, de no observar la totalidad de Jos datos. Este error, como veremos más adelante,
ruede ser conocido e incorporado en nuestros resultados a través de un intervalo. Los erro-
res no estadísticos proceden de defectos de los instrumentos de medida (preguntas ambi-
.::uas, no legibles por todos los grupos sociales) y de las condiciones en las que se establece
:.a medida (referir el paro a agosto), así como de otro conjunto de errores en Ja transmisión de
los datos (grabación, codificación, etc.). Estos errores pueden (y deben ser) evitados median-
'e una correcta preparación de las encuestas y una correcta revisión de todas las fases de la
:nisma. Entre los errores no estadísticos existe uno especialmente complejo que es el sesgo.
El sesgo es la desviación sistemática de nuestras observaciones respecto a lo que estamos
midiendo. En investigación mediante muestras, el sesgo se produce al obtener muestras que
no se adecúan a Ja población, es decir, por el desfase que existe entre la población objetivo
aquélla a Ja que hace referencia la definición de universo) y la población de la que obtene-
mos la muestra. Entre las causas del sesgo podemos destacar problemas de cobertura, cuan-
do la población definida no coincide con la población utilizada para Ja extracción de la
muestra, y problemas de respuesta, que provienen de unidades que no son localizadas
ausencias) o que no responden (negativas). Por ejemplo, si queremos conocer las opiniones
de los jóvenes españoles y realizamos únicamente encuestas en centros universitarios, nues-
tra muestra será sesgada. Los jóvenes universitarios, aunque son muchos, son un colectivo
muy concreto, probablemente con opiniones distintas del resto de los jóvenes en muchas
cuestiones. En este caso estamos ante un problema de cobertura, el universo -los jóvenes
españoles- es distinto de la población de la que se obtiene la muestra (jóvenes universita-
rios) . El sesgo es muy frecuente en encuestas radiofónicas: sólo contestan quienes están es-
cuchando el programa a esa hora y además les interesa el tema. Para evitar el sesgo resulta
imprescindible una buena planificación de las operaciones muestrales.

23. Nivel de confianza


Al trabajar con errores, y decir por ejemplo, que la distancia entre Barcelona y Santiago de
Compostela es de 1.100 km con un error de 50 km, tendremos que señalar la confianza que
tenemos en que sea así. En este caso Ja confianza es muy alta, pero sería mayor si dijéramos
que la distancia es de 1.100 con un error de 200 km, y muy pequeña si dijéramos que la
distancia es de 1.100 km con un error de 2 km. Evidentemente, cuanto mayor es el error que
podemos asumir nuestra confianza será mayor, pero también nuestra precisión menor. Más
adelante discutiremos sobre cómo conciliar el error con la confianza de la medida.
Establecido el error estadístico que podemos asumir y el nivel de confianza con el que
vamos a trabajar, tenemos las condiciones para estimar, para extrapolar la información obte-
nida en la muestra al conjunto de la población. Es decir, podemos saber cuál es el grado de
representatividad de nuestra muestra.
224 Estadística para la investigación social

3. Muestreo aleatorio
Las formas de obtener una muestra de una población son innumerables. Por ejemplo, en e
caso de querer conocer la tasa de paro, podemos preguntar a nuestros vecinos si se encuen-
tran trabajando. Nuestros vecinos son una parte de la población española, y por tanto son unz
muestra. Sin embargo, parece evidente que procediendo así no podemos garantizar de forro::
alguna que los datos que obtenemos representen al conjunto de la población española. No _
lo mismo preguntar a una muestra de 100 personas que viven en el Ensanche de Barcelon
que a 100 personas que viven en el barrio de Lavapiés o a 100 personas que residen en Pal-
ma de Mallorca. Éstas son muestras sesgadas.
Existen dos estrategias para la obtención de muestras representativas: muestreo aleatori
y muestreo por cuotas. En la práctica, dadas las dificultades para utilizar el muestreo aleato-
rio y las carencias del muestreo por cuotas en la investigación social, se utiliza por lo gene
una mezcla de ambos. En primer lugar se expondrá el muestreo aleatorio y al final del cap -
tulo el muestreo por cuotas.
El muestreo aleatorio se define como la extracción de una muestra de una població-
utilizando procedimientos probabilísticos. Esto quiere decir que la probabilidad de extra -
ción de cada uno de los elementos que componen la muestra es conocida. Generalmente. .
en lo que sigue, nos referiremos únicamente al caso en el que la probabilidad de selección ~
cada uno de los elementos es igual. Por ejemplo, si tenemos una población compuesta
100 personas, cada una de las personas puede ser seleccionada para pertenecer a la mues _
con una probabilidad de 1/100.
Para exponer la teoría que fundamenta el uso del muestreo aleatorio como muestra repr -
sentativa realizaremos primero un ejercicio práctico. Supongamos la siguiente població
compuesta por seis elementos (Tabla 1). El número de elementos de la población lo denorm-
naremos «N»; así en este caso N = 6.
Tabla l.
Elementos de la Población Ejemplo. Edades de emancipación.

Elemento (i) Edad en años (x)

Antonio a 30
Felipe b 24
Margarita c 28
Alicia d 22
Francisco e 32
Lucía f 26

La población que vamos a estudiar es un conjunto de seis personas, que denominarem .


con las seis primeras letras del alfabeto. De cada elemento conocemos el valor que toma
variable «edad de emancipación del domicilio paterno». Por ejemplo, Antonio se independi-
zó con 30 años mientras que Alicia lo hizo con 22.
Capítulo VIII. Las mu estras estadísticas: teoría y dise ño 225

De esta población podemos calcular la edad media a la que se independizaron las distin-
personas que la componen. Los cálculos nos señalan que ésta fue de 27 años:

LX 162
µx = N = 6 = 27 años

También podemos calcular cualquier otra medida estadística de resumen, por ejemplo la
desviación típica de la distribución poblacional, que es :

Cfx =
J:E (x;N- µ)
2
_
= 3,416 anos

Y la varianza: e¡;=11 ,7.


En esta población vamos a seleccionar muestras de dos elementos 3 . El número de ele-
mentos de la muestra lo denominaremos con «n» , así para este caso n = 2. Todos los ele-
mentos tienen la misma probabilidad de ser seleccionados. La probabilidad de selección de
un elemento es l/N; en este caso p = 116.
Observemos ahora también que todas las muestras tienen la misma probabilidad de ser
eleccionadas. ¿Cuántas muestras distintas 4 podemos seleccionar siendo N = 6 y n = 2? Es
decir, para una población de 6 elementos ¿cuántas muestras de tamaño 2 podemos extraer
in que se repita alguno de sus elementos? La respuesta nos la da el número de combinacio-
nes de seis elementos tomados de 2 en 2:

C6
'2
= (6) = -6!- =
2 2! 4!
15

Una de las muestras posibles es Antonio y Lucía; la probabilidad de selección de dicha


muestra es 1115. Otra muestra posible es Alicia y Margarita, que tiene también una probabi-
lidad de selección de 1/15. Sin embargo, observemos que el hecho de obtener una u otra
muestra produce resultados muy distintos. La muestra compuesta por la selección de Anto-
nio y Lucía nos conduce a pensar que la edad media de emancipación son (30 + 26)/2 = 28
años , mientras que la muestra Alicia y Margarita nos lleva a otra conclusión (22 + 28)/
2 = 25 años. Es decir, procediendo de la misma forma un investigador obtendría unos resul-
tados, mientras que otro investigador llegaría a otros distintos ; y, además, probablemente
ninguno de ellos «acertaría» con el resultado real, como sucede en este caso.
Sin embargo, como se irá exponiendo progresivamente, precisamente por proceder así,
mediante el uso del muestreo aleatorio podemos conocer las diferencias que se establecen
entre distintas muestras y, lo que es más importante, la diferencia que puede existir entre una
muestra y el valor real de la población, aun cuando éste no lo conozcamos.

3
Seleccionamos muestras sin reposició n, es decir, una vez seleccionado un individuo, éste no puede volver a
seleccionarse por segunda vez. Así las muestras {a, a); {b, b}; ... no se consideran .
4
Nótese que la muestra {Antonio, Lucía} y {Lucía, Antonio} no son muestras distintas, porque el orden en que
han sido seleccionados los elementos no altera la información.
226 Estadística para la investigación social

3.1. Parámetro y estadístico


Antes de continuar necesitamos aclarar dos ténrunos: parámetro y estadístico. Parámetro es
el valor que toma la población respecto a un indicador utilizado para resumir la informació&
que nos interesa de dicha población - y que puede ser la media, la varianza de una distribu-
ción, la proporción de un valor, el total, etc.-. Por ejemplo, en el caso de la población que
estamos considerando, el valor 27 constituye el valor del parámetro de la media. Es el val
«real » de la media de la población. Éste, el valor del parámetro, es el que queremos estimar.
Como puede apreciarse, es un valor fijo que define a la población: es una constante de e "'
población . Estadístico es el valor que obtenemos a partir de una muestra y que representa a...
parámetro. Por ejemplo, en la primera muestra obtenemos una edad media de 28 años y en 1
segunda de 25 años. Se trata, de un valor variable en el conjunto de las muestras posible_
cada muestra de la misma población puede producir un valor distinto para el mismo indicador.
Por convención, los parámetros suelen indicarse con letras griegas, por ejemplo, la medi
con µ , la varianza con u 2 • Mientras que los estadísticos se indican con letras latinas, la medi
x
de una muestra con o su varianza con S2 .
A continuación vamos a calcular todas las muestras posibles de tamaño 2 y el valor de.
estadístico de la media para cada una de ellas (Tabla 2).

Tabla 2.
Muestras de tamaño 2 de la Población Ejemplo. Medias de cada muestra.

Valor del Valor del


Muestra Elemento 1 Elemento 2 Media
elemento 1 elemento 2

{a, b} a b 30 24 27
{a, c} a c 30 28 29
{a, d} a d 30 22 26
{a, e} a e 30 32 31
{a, f} a f 30 26 28
{b, c} b c 24 28 26
{b,d} b d 24 22 23
{b, e} b e 24 32 28
{b, f} b f 24 26 25
{c, d} c d 28 22 25
{e, e} c e 28 32 30
{c, f} c f 28 26 27
{d, e} d e 22 32 27
{d, f} d f 22 26 24
{e, f} e f 32 26 29

Si observamos los resultados, podemos apreciar cómo las distintas muestras ofrecen dis-
tintos resultados (27, 29, 26, ... )para el estadístico de la media, observándose valores que ~
repiten varias veces: por ejemplo, 27 aparece 3 veces, en las muestras {a, b} , {c, f} y {d, e
Ordenamos las medias de todas las muestras de tamaño 2 en la siguiente tabla de fre-
cuencias:
Capítulo VIII. Las muestras estadísticas: teoría y diseño 227

Tabla 3.
Distribución de frecuencias de las medias de las muestras
de tamaño 2 de la Población Ejemplo.

Edad media Número


de emancipación de muestras

22 o
23 1
24 1
25 2
26 2
27 3
28 2
29 2
30 1
31 1
32 o

3.2. La distribución muestral


Estamos ante una distribución muestral : distribución de un estadístico en todas las mues-
tras posibles de tamaño n. Los valores de la distribución muestra! son las medias de las
muestras que podemos obtener dentro de una población5 . En este caso la distribución mues-
tra! está compuesta por las medias -edad media de emancipación- de todas las diferentes
muestras posibles de tamaño 2. La tabla anterior (Tabla 3) podemos representarla mediante
un gráfico de barras.
Gráfico 1.
Distribución de las medias de las muestras de tamaño 2 de la Población Ejemplo.
4

22 23 24 25 26 27 28 29 30 31 32
Edades medias de emancipación

5
Tenemos una distribución muestra] para cada tamaño de muestra.
228 Estadística para la investigación social

Como puede apreciarse en el Gráfico 1, los valores que toma el estadístico (la media de
las muestras) se concentran en torno al valor del parámetro (la media de la población
es 27). Si obtenemos la media de los estadísticos de la media podemos observar que el resul-
tado es el valor del parámetro. Es decir, la media de todas las medias de las muestras de
tamaño 2 tiene como media la propia media poblacional. Esto es, la media del conjunto de
estadísticos que podemos obtener (de las muestras de 2 elementos) es igual al parámetro
poblacional. La media de la distribución muestral (para un determinado tamaño muestra!) e_
igual a la media de la población.
Tabla 4.
Cálculo de la media muestral de las medias
de las muestras de tamaño 2 de la Población Ejemplo.

X n¡ Xn¡

22 o
23 1 23
24 1 24
25 2 50
26 2 52
27 3 81
28 2 56
29 2 58
30 1 30
31 1 31
32 o
Total 15 405

Podemos comprobarlo fácilmente mediante unos sencillos cálculos (Tabla 4):

L xn¡ 405 _
µx = N = 15 = 27 anos
Nótese que estamos utilizando tres tipos de distribuciones distintas:
• La distribución de la población. Es el conjunto de todos los datos de la población y a
cuyos indicadores de resumen los denominamos parámetros. Generalmente esta distri-
bución es desconocida, por ello recurrimos a muestras.
• La distribución de la muestra. Es el conjunto de los datos pertenecientes a la muestra
seleccionada. Generalmente sólo obtenemos una muestra de una población. En este caso
hemos obtenido todas las posibles. Sus indicadores de resumen se denominan estadísti-
cos. En el caso anterior, la distribución de la muestra únicamente contiene 2 elementos.
• La distribución muestral. Es la expresada en la Tabla 3 y Gráfico ). La distribución
muestra! es, en este caso, la distribución de las medias de todas las muestras posible_
de tamaño n que proceden de una población. Es una distribución teórica. ¿Por qué
Capítulo VIII. Las muestras estadísticas: teoría y d iseño 229

decimos que es teórica? Porque no la desarrollamos en forma de tabla ya que necesita-


ríamos conocer todos los elementos de la población; sin embargo, como se verá más
adelante, aunque no conozcamos el valor de todos los elementos de la población, po-
demos construirla a través de sus parámetros 6 .

Ejercicio 2
De la siguiente población compuesta por 8 elementos:

Elemento Valor (x)

a 12
b 8
c 6
d 4
e 10
f 18
g 16
h 14

a) Calcule la media de la población.


b) Construya la distribución muestra! de medias paran= 2.
e) Represente gráficamente dicha distribución.

En la práctica, no conocemos la población: por eso utilizamos el muestreo; y además


ólo vamos a obtener una muestra (de todas las posibles). La obtención de todas las muestras
posibles necesitaría del conocimiento de toda la población y, si ése fuera el caso, entonces
no haría falta obtener una muestra.
Realmente lo que hacemos es obtener una muestra de una población desconocida. Como
hemos visto anteriormente, cada muestra puede ofrecer unos resultados distintos. De mo-
mento, parece que el procedimiento de trabajar con muestras no tiene mucho sentido. Sin
embargo, también hemos observado que parece existir una lógica en la distribución mues-
tra!. Hemos observado cómo los valores de Ja misma se concentran en el entorno del valor
-parámetro- que buscamos: en este caso, la media.
Veamos ahora qué sucede cuando introducimos el error de medida. Es decir, si en vez de
empeñarnos en conocer con total exactitud el valor poblacional admitimos algún tipo de
aproximación. Por ejemplo, en el caso que nos ocupa, ¿qué sucede si establezco la edad me-
dia de emancipación permitiéndome un error de más/menos un año?
Si no admito ningún error, en este caso, tengo 3 muestras cuyo estadístico coincide con
el valor del parámetro (Tabla 5). Hay tres muestras con media 27. Por lo tanto, como hay 15
muestras posibles, en un 3115 = 0,2, o 20% de los casos acertaré completamente el valor
real -valor del parámetro de la media- al extraer una muestra al azar. Si admito un error
de ± 1 año, tengo una probabilidad de acertar de 7115 = 0,467. Obsérvese que hay 7 mues-

6
Nótese que hablamos de parámetros de la distribución muestra! porque realmente es un a población y no una
muestra: es la población de todas las muestras de tamaño n.
230 Estadística para la investigación social

tras que producen valores entre 26 y 28 o, lo que es lo mismo, que están dentro del interval
µ ± 1. Es decir, la probabilidad que tengo de obtener una muestra «buena» que esté dentr
del margen de error preestablecido es de casi el 50%. En el caso que estamos examinando,
extraer una muestra, aproximadamente la mitad de las veces obtendré un resultado dentro de
los límites de error preestablecidos. Evidentemente, si amplío el error las probabilidades de
acertar serán mayores. Por ejemplo, con un error de ± 2 años obtendré buenos resultados e
el 73 ,3% de los casos (11/15).
La tabla siguiente nos indica las muestras que se encuentran dentro del intervalo de erro~
establecido:
Tabla 5.
Muestras de tamaño 2 de la Población Ejemplo cuyas medias se
encuentran dentro de los márgenes de error prefijados.

Márgenes de error
X n;
±0,5 ±1 ±2

22 o
23
24
25 2 2
26 2 2 2
27 3 3 3 3
28 2 2 2
29 2 2
30 1
31 1
32 o
Total 15 3 7 11
20,0% 46,7% 73,3%

Como puede apreciarse, acabamos de expresar de forma intuitiva dos conceptos que a
habíamos adelantado al principio del tema: error y nivel de confianza.
El error es la medida de la distancia entre el valor del estadístico obtenido en la muestra
y el valor del parámetro en la población. El nivel de confianza es la probabilidad que existe
de que esa distancia, o error, no sea mayor que la preestablecida. Por ejemplo, con Jos dato_
del ejemplo anterior puedo afirmar con un nivel de confianza del 73,3% que el error será
menor de 2 años.
¿Qué hubiera sucedido si en vez de obtener muestras de tamaño 2, seleccionamos mues-
tras de tamaño 3 (n = 3)? En este caso las muestras posibles son:

c6, 2 = (6) 6!
3 = 3! 3! = 20
Capítulo VIII. Las muestras estadísticas: teoría y diseño 231

Desarrollamos la distribución muestra! para n = 3 en la Tabla 6.

Tabla 6.
Medias de las muestras de tamaño 3 de la Población Ejemplo.

Valor del Valor del Valor del


Elemento 1 Elemento 2 Elemento 3 Media
elemento 1 elemento 2 elemento 3

a b e 30 24 28 27,3333333
a b d 30 24 22 25,3333333
a b e 30 24 32 28,6666667
a b f 30 24 26 26,6666667
a e d 30 28 22 26,6666667
a e e 30 28 32 30
a e f 30 28 26 28
a d e 30 22 32 28
a d f 30 22 26 26
a e f 30 32 26 29,3333333
b e d 24 28 22 24,6666667
b e e 24 28 32 28
b e f 24 28 26 26
b d e 24 22 32 26
b d f 24 22 26 24
b e f 24 32 26 27,3333333
e d e 28 22 32 27,3333333
e d f 28 22 26 25,3333333
e e f 28 32 26 28,6666667
d e f 22 32 26 26,6666667

Total 540

Gráfico 2.
Distribución muestra! para las medias de tamaño 3 de la Población Ejemplo.

22 23 24 25 26 27 28 29 30 31 32
Edad media
232 Estadística para la investigación social

El Gráfico 2 vuelve a confirmar que la media de las medias de las muestras coincide con
el parámetro de la media poblacional. Los cálculos lo confirman también así:

LX¡ 540 -
µx = N =
20
= 27 anos

Nótese que también la desviación típica de la distribución muestra! ha disminuido cuan-


do n = 3 respecto a n = 2.
Paran = 2, u= 2,16.
Paran = 3, u = 1,53.
Es decir, al aumentar n disnú nuye la varianza de la distribución muestra!. Dicho de otra
forma, cuando n aumenta los resultados de las distintas muestras se concentran aún más en
torno al valor del parámetro. Este efecto se puede comprobar en el siguiente gráfico (Gráfi-
co 3), que compara las distribuciones muestrales para n = 2 y n = 3.

Gráfico 3.
Comparación de las distribuciones muestrales de las medias (n = 2 y n = 3)
de las muestras de la Población Ejemplo.

5 --n=3

rn
...
('CJ
4
- - - n=2
Cij
Q)
:::J
' E
Q)
't:J
3
o
Gi '
E
•:::J 2
'
z

22 23 24 25 26 27 28 29 30 31 32
Edad media

La implicación de este hecho es inmediata. Para un mismo nivel de error, el nivel de


confianza mejora con tamaños muestrales mayores.
Como vemos en la Tabla 7 para n = 2, tres de las quince muestras posibles tenían una
media que se diferenciaba en menos de 0,5 de la media poblacional. Es decir, el nivel de
confianza era de un 20%. Cuando n = 3, seis de las 20 muestras posibles cumplen dicha
condición (tener un error menor de 0,5). Es decir, en esta situación el nivel de confianza e
de un 30%.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 233

Tabla 7.
Niveles de confianza para distintos errores. Muestras de tamaño 2 y tamaño 3.

Error n=2 n=3


±0,5 3/15 = 20% 6120 = 30%
±1 7/15 = 46,7% 12/20 = 60%
±2 11/15 = 73,3% 16/20 = 80%

33 . Nivel de confianza, error y tamaño muestral


Antes de continuar vamos a definir con mayor precisión los términos utilizados.
• Tamaño muestral: es el número de elementos que extraemos para la observación de
una población.
• Error: es la diferencia máxima (en valor absoluto) que admitimos entre el valor del
estadístico y el del parámetro.
• Nivel de confianza: es la probabilidad de que la muestra seleccionada no supere el
error prefijado.
Como puede verse en las tablas anteriores, los tres términos están totalmente relaciona-
dos, y la variación de uno produce variaciones en los otros dos. Por ejemplo, si aumentamos
el tamaño muestra! y mantenemos fijo el error, el nivel de confianza aumenta. Si aumenta-
mos el error, para un tamaño muestra! fijo , el nivel de confianza se hace mayor.
La relación es directa entre tamaño muestra! y nivel de confianza, e inversa entre estos
dos términos y el error. Estas relaciones nos ofrecen una pista sobre la forma de relacionar
dichos términos mediante una relación funcional.
Y la siguiente pregunta es: ¿existe alguna forma de relacionar matemáticamente los tres
términos? La respuesta es sí; podemos relacionarlos mediante una función. Y ¿qué utilidad
tiene dicha función? Tiene dos utilidades. Por una parte, nos permite, una vez extraída una
muestra, ofrecer un intervalo en el que se encontrará el valor real de la población: es decir,
nos permite construir un estimador, aspecto que se detallará en el capítulo siguiente. Y, por
otra parte, antes de realizar una muestra, nos permite calcular qué tamaño muestra! podemos
utilizar, de forma que se satisfagan las condiciones de error que estamos dispuestos a admitir
y el nivel de confianza que queremos cumplir.
Hasta ahora hemos utilizado un ejemplo concreto, ahora vamos a generalizar dichos re-
sultados a todo tipo de poblaciones y muestras aleatorias mediante el desarrollo de la teoría
muestra!. Nótese que mediante los ejemplos anteriores hemos conseguido mostrar, que los
estadísticos de las medias muestrales tienen una distribución cuya media tiende al valor del
parámetro, y cuanto mayor es el tamaño muestra! más se concentran los estadísticos en tomo
a dicho valor y también más se aproximan a una distribución normal.

3.4. Teoría muestral


Como hemos dicho, la distribución muestra! es la distribución de los estadísticos considera-
dos , en este caso, de las medias del conjunto de muestras de tamaño n. Dicha distribución es
continua y tiene, lógicamente, además de una media, también una varianza. En el caso de las
234 Estadística para la investigación social

distribuciones muestrales, la desviación típica se denomina error típico o error estándar


Es importante notar que error típico no es el error estadístico al que nos hemos referido
Error típico es la medida de dispersión (varianza) de la distribución muestra!. Para el estadís-
tico de la media, el error típico lo representamos como (J; .
La distribución muestra! de los estadísticos de tendencia central tiene una serie de pro-
piedades que se enuncian mediante el siguiente teorema:

Teorema del límite central


La distribución muestra! de las medias de una población grande con mediaµ y desvia-
ción típica u se aproxima, según aumenta n, a una distribución normal con media µ y
()
desviación típica Jn.
En definitiva, podemos afirmar que con poblaciones grandes (N > 30) Ja distribució
muestra] de Ja media 8 será una distribución normal cuya media será el propio valor del pari-
(J
metro de la media y su desviación típica, o error típico, será: (J; = r:. ·
....;n
El desarrollo y exposición de este teorema supera con creces el contenido de este texr
Sin embargo, en el ejemplo anterior hemos llegado intuitivamente a sus resultados. (En
apartado del Anexo I se puede encontrar cómo nuestro ejemplo también cumple con el val
del error típico. )
Este teorema nos permite aclarar la relación entre tamaño de Ja muestra (n), error (e) .
nivel de confianza --expresado en unidades Z- que buscábamos anteriormente. Como
distribución normal es una distribución conocida, podemos observar cómo funciona la re! -
ción entre error estadístico, tamaño muestral y nivel de confianza. Primero, recordemos ;_
fórmula de la distancia tipificada de una distribución normal, en unidades Z:
x-µ
Z=--
(Jx

El error, como hemos dicho , es Ja distancia entre el valor del parámetro poblacional y e
estadístico obtenido en nuestra muestra:
e= li- µ¡
El error es una constante que prefijamos antes de la selección de Ja muestra.
La desviación típica de la distribución muestra!, o error típico, es como hemos señalad
(J
anteriormente r:.
....;n

7
En castellano, generalmente se ha utilizado el término error típico, procedente del francés, sin embargo
muchos textos herederos del inglés se traduce como error estándar o, simplemente, como SE acrónimo de Stand=
Error. .
8
Como veremos más adelante, dicho teorema puede adaptarse también a otro estadístico como es la propoc-
ción. Pero conviene tener en cuenta que cada estadístico tiene una distribución propia. Como habrá ocasión -
mostrar en el anexo I, la distribución muestra] de la varianza no tiene de medi a el parámetro de la varianza. Tam ~
co la distribución muestra] de las varianzas sigue un a distribución normal , si no que sigue una distribución Ji-cuadra-
do de n - 1 grados de libertad.
Cap ít ulo VII I. Las muestras estadística s: teoría y diseño 235

Sustituyendo en la fórmula anterior x por .X, tenemos:

x-µ x-µ e
Z=--=--=-
Clx (J (J

¿Qué nos expresa aquí Z? Z nos indica el nivel de confianza o la probabilidad de que la
media (x) de una muestra se separe de la media (µ) de la población menos que «e». A cada
valor Z de la distribución muestra! le corresponde un nivel de confianza, que no es otra cosa
que la probabilidad de que la diferencia entre el estadístico y el parámetro sea menor que
«e» . El nivel de confianza que corresponde a un determinado valor Z es el porcentaje de
casos (de medias muestrales) que se encuentran entre más/menos (±)ese valor de Z alrede-
dor de la media la distribución muestra), que, como hemos visto, es una distribución normal.
El nivel de confianza, como el error, también lo prefijamos con anterioridad. En la práctica
iempre utilizamos niveles de confianza superiores al 95%. Es decir, sólo admitimos proba-
bilidades de equivocamos menores al 5%. Como sabemos, entre Z = -1,96 y Z = + 1,96
alrededor de la media de la población encontramos el 95% de las medias de las muestras que
podemos extraer de tamaño n. Por lo tanto, a un nivel de confianza del 95% le corresponde
un valor Z = ± 1,96.
El gráfico de la distribución muestra! nos ayuda a comprender mejor esta relación (Gráfi-
co 4). Se trata de igualar el error al nivel de confianza.

Gráfico 4.
Relación entre el error típico, el nivel de confi anza, y el error estadístico
en una distribución muestra!.

0,45

0,4

0,35

l "C 0,3

1 ~ 0,25
.g 0,2

1 a: 0,1 5

0,1

0,05

~
o
-4 -3 -2 -1 o 2 3
1
Unidades Z
236 Estadística para la investigación social

La tabla siguiente (Tabla 8), muestra los niveles de confianza más usuales y los valores Z
asociados. Dichos valores están extraídos de la tabla de áreas bajo la distribución normal.
Tabla 8.
Valores Z para los niveles de confianza más usuales.
Nivel de confianza z
95 % ± 1,96
95 ,45 % ±2
99% ±2,58
99,7% ±3

Ésta es la relación entre error, nivel de confianza y tamaño muestral que buscábamos:
e
Z=-
G

Jn
Reordenando dicha fórmula podemos responder a las cuestiones planteadas anteri or-
mente: en primer lugar, ¿cuál es el tamaño n, que satisface las condiciones del nivel de con-
fi anza y del error? Si de la expresión anterior despejamos n,
()

Z Jn=e
ZG =e.fo

ZG = Jn
e

Como podemos observar, casi todos los términos son conocidos. El error (e) y el nivel de
confianza (Z) han sido establecidos anteriormente. El tamaño muestral (n) es el valor que
queremos calcular. Sólo necesitamos conocer la varianza de la población. Más adelante di -
cutiremos sobre cómo resolver el conocimiento de la varianza poblacional.
Obsérvese que, si hemos extraído una muestra, « Ji» será conocido; y la expresión ante-
rior nos permite conocer el error estadístico (e ) de nuestros datos, una vez fijado el nivel de
confianza. Es decir, para un tamaño muestral establecido, la fijació n previa del nivel de con-
fian za nos determina el error estadístico asumido o, viceversa, prefijado el error, éste no
determina el ni vel de confianza. Esto lo veremos en el siguiente capítulo en el que detallare-
mos la construcción de un intervalo para la estimación de parámetros.

3.5. Cálculo del tamaño muestral


Si en una investigación contamos con el error y el nivel de significación ya prefijados (inde-
pendientemente el uno del otro), podemos calcular el tamaño de la muestra correspondiente.
siempre, claro está, que utilicemos muestras aleatorias de una población.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 237

Supongamos, por ejemplo, que deseamos conocer Ja edad media al matrimonio de Ja po-
lación que se ha casado durante los últimos cinco años. Deseamos conocer dicha edad con
:m error de ± 2 años y un nivel de confianza del 95,45% 9 . Podemos aplicar la fórmula ante-
:ior y encontrar el tamaño muestra] mínimo a partir del cual se verifican dichas condiciones.
Para ello también necesitamos conocer u 2 , la varianza poblacional. Por Jo general, ésta es
jesconocida. Sin embargo, podemos estimar la misma a través de varios métodos. Normal-
:Ilente tenemos alguna información al respecto, porque ya se han realizado encuestas ante-
riores o estudios que nos permiten tener alguna información previa. Por ejemplo, en el caso
que nos ocupa de las edades al matrimonio, éstas llevan muchos años registrándose. Así, a
través del Movimiento Natural de la Población podemos conocer de forma aproximada la
,·arianza de las edades al matrimonio.

Gráfico 5.
Primer matrimonio entre cónyuges de distinto sexo por edad (2006).

20.000 i====-::::i---:==:::-=-:r=::===r=-==p~::--::¡:--~:--==i=====i===r-==:::=¡:====i
18.000

16.000 -r-----r---t-l'- - - - - - - r - - - ; - - -

14.000 -+----+---fl-T----lt----+---'-...-

12.000 -+-----+-----!0----+-- --+----+---

1o.ooo t==-=-=::t-----Pi===±=3:i-=:=E=:=:::::::.-=r=-:==:::.=::=E=::==t=:=e===i:::::::.:==:==±::±=::::::::a
8.000 -+-----+----J,L.!-----I--~--+----!-----+----+---+-----+-----<

2.000

20 25 30 35 40 45 50 55 60 65
Edad

Fuente: MNP.IN E, 2006.

Observando el gráfico de la distribución (Gráfico 5), vemos cómo ésta es una variable
con una distribución próxima a la normal con unas edades medias en torno a Jos 28 años.
Podemos apreciar también que la desviación típica estará en torno a 5 años. ¿Cómo podemos
ver esto? Si suponemos que es una distribución normal, sabemos que en dicho supuesto entre
± 2u se concentra el 95,45% de los casos: así vemos en el gráfico que entre Jos 20 y Jos 40
años están casi todos los matrimonios. Por lo tanto, la desviación típica será aproximada-
mente la cuarta parte de los veinte años que hay entre las edades 20 y 40 10 .

9
Recordemos que estas condiciones (el error y el nivel de confianza) las fija de antemano el investigador.
10
Si consultamos los datos en Ja página web del INE podemos comprobar que las edades medias son: espo-
sos = 31 ,05 y esposas = 29,26. Y las desviaciones típicas: esposos = 5,42 y esposas = 5,38.
238 Estadística para la investigación social

Si utilizamos como desviación típica 5 años, podemos observar que el tamaño mues
necesario sería:
Z2 c/ 4. 25
n = - ?- = - - = 25
e 4

Es decir, simplemente con una muestra aleatoria de 25 personas podríamos conocer L


edad media al matrimonio, con un error de ± 2 años y un nivel de confianza del 95,5 %. E
Gráfico 6 nos permite observar cuál sería el efecto sobre el tamaño muestra! si modificára-
mos alguno de los requerimientos de error o de nivel de confianza, para estimar una variable
con desviación típica S = 5,5. Por ejemplo, si quisiéramos un error de ± 6 meses --que
equivale a un error de 0,5 años- y un nivel de confianza más alto, 99,7%, el tamaño mue -
tral resultaría superior a 1.000, aproximadamente el doble que si con el mismo error utilizá-
ramos un nivel de confianza del 95,45 %.

Gráfico 6.
Tamaños muestrales para distintos errores y niveles de confianza. S = 5,5.

4.000

3.500

3.000
ca... - - - - Z=2
u; 2 .500
Q)
:J
- - Z= 3
E
o 2.000 \
•C:
C!I
E 1.500 \
C!I
1- \
1.000 ·· ····· ······ ··\ ··· .
\ :
500
.............................. ··········'i
: '-.

o
o 0 ,5 1,5 2 2,5
Error

Esta observación resulta importante. Es evidente que cuanto mayor sea el tamaño mues-
tra] utilizado , los resultados obtenidos son de mayor precisión, sin embargo el coste también
se incrementa de forma exponencial. Resulta por ello muy importante conciliar las deman-
das de información con los niveles de error. Por ejemplo, en el caso que nos ocupa, nivele
de error cercanos a 12 meses -un error de un año- resultarían asequibles con presupuestos
pequeños, sin embargo errores menores podrían condicionar mucho las necesidades presu-
puestarias. No debe olvidarse que el tamaño muestra! está tambi én determinado por el presu-
puesto de la investigación.
Hasta ahora nos hemos ocupado del caso en el que queríamos conocer una media. Pero
para variables de tipo nominal podemos conocer la proporción de un valor en la población.
Por ejemplo, el porcentaje de población que votará al partido ZXY, el porcentaje de católicos
Capítulo VIII. Las muestras estadísticas: teoría y diseño 239

practicantes, el porcentaje de personas que reciclan residuos domésticos, etc. Los porcenta-
jes (que oscilan entre O y 100) nos indican, al igual que las proporciones (que oscilan entre O
_ 1), el peso relativo de un grupo en el conjunto de una población. Habitualmente nos referi-
mos a éste en términos de porcentaje más que de proporción, término este último algo más
técnico. Para referirnos a la población, el parámetro de la proporción lo representamos con
«P» y su complemento (1 - P) = Q. Cuando nos referimos a una muestra, el estadístico lo
representamos con minúsculas: <<p» y «q».
El error típico o error estándar en distribuciones binomiales es análogo al de la media.
Únicamente se diferencia que el término de la varianza poblacional , en vez de o.2, es ahora
PQ. En el Cuadro 1 se detallan las expresiones de los errores típicos de medias y propor-
iones.
CUADRO l.
Errores típicos y fórmula del tamaño muestra! para los estadísticos de la media
y la proporción.
1 Media Proporción
Parámetro µ p

=~n
(J
Error típico
Error estándar O"µ= Jn (J
P

La distribución puede considerarse normal


cuando: n > 30 n > 30
2 20"2 Z 2PQ
n n=-- n=--
e2 e2

En el caso de la proporción, cuando desconocemos la varianza PQ, podemos situarnos en


el caso más desfavorable, en el que la varianza es máxima, cuando P = Q = 0,5. Es decir,
cuando la mitad de la población posee el atributo investigado y la otra mitad no. Véase el
Gráfico 7.
Por ejemplo, queremos conocer la proporción de personas que reciclan los residuos do-
mésticos. Si tuviéramos información anterior de otra encuesta podríamos incorporar alguna
estimación de la varianza. Si no hay información previa nos situamos en la peor situación
respecto al tamaño muestra] que es la de máxima varianza. El nivel de confianza es el habi-
tual , 95%, y el error lo podríamos fijar (esto depende de los objetivos de la investigación) en
el 3% 11•
Z2 PQ 1,96 2 · 0,5 · 0,5 0,9604
n = -- 2
= - - - - - = - - = 1.06711
2
e 0,03 0,0009 '
El tamaño es superior a 1.067. Como los tamaños muestrales los redondeamos siempre
por exceso, así obtenemos n = 1.068.

11
Nótese que en las fórmulas se utiliza la proporción, no los porcentajes, por ello el error es 0,03 .
240 Estadística para la investigación social

Gráfico 7.
Tamaño muestra! para el estadístico de la proporción para distintos valores de P.
Nivel de confianza 95,45%.

10.000

9.500

9.000

8 .500

8.000

7.500

7.000

6.500

s 6.000
~
....
VI
5.500
CI)
::::1
E 4.000
o
11::
ca 5.500
E
ca
1-
4.000

3.500

3.000

2.500

2.000

1.500

1.000

500

o
e=5% _ _ _

º e=9%º·Y 0 ,2 0,3 0,4 0,5


Valor de P
0,6 0,7 --
0,8 0,9

Si tuviésemos alguna información previa que nos indicase, por ejemplo, que la propor-
ción de reciclaje es de alrededor del 25 %, entonces podemos considerar P = 0,25
Q = 0,75.
Z 2 PQ 1,962 · 0,2 · 0,75 0,7203
n = -- = = - - = 800 33
e
2
0,03 2 0,0009 '
Es decir, en este caso con n = 801 podríamos conocer la proporción de recicladores con un
error inferior al 3% y un nivel de confianza del 95 %.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 241

Como puede observarse hasta el momento, el tamaño de la población no ha intervenido


en el cálculo del tamaño muestra!. El tamaño muestra! depende fundamentalmente de la
varianza poblacional: cuanto más diversa es la población respecto a la característica que
queremos investigar, más unidades habrá que muestrear, con independencia del tamaño de la
población. En el caso anterior necesitamos entrevistar 1.068 personas para estimar el porcen-
taje de recicladores. Y esto es así tanto si quisiéramos conocer esta proporción para la pro-
vincia de Ciudad Real, como si lo quisiéramos hacer para el conjunto de España o incluso
para toda la Unión Europea.

Ejercicio 3
Calcule el tamaño muestra! necesario para estimar, con un error del 5%, el porcentaje de votan-
tes que apoyan el Sí en un referéndum nacional para un nivel de confianza del 95%.

Ejercicio 4
Calcule el tamaño muestra! necesario para estimar, con un error del 2%, el porcentaje anterior
para un nivel de confianza del 99%.

Únicamente hemos detallado las distribuciones muestrales de los estadísticos más usua-
les, la media y la proporción. En el Anexo I, se discute la distribución de otro estadístico de
gran importancia como es la desviación típica.

3.6. Poblaciones finitas e infinitas


Las explicaciones anteriores están basadas en el caso de poblaciones infinitas. Una pobla-
ción infinita es un conjunto de elementos que no pueden definirse mediante enumeración.
Por ejemplo, el número de vehículos que pueden circular por las carreteras de Europa. Gene-
ralmente en investigación social nos referimos a poblaciones finitas. Por ejemplo, personas
residentes en una ciudad, que es un conjunto de cardinal definido. En el caso de poblaciones
finitas, las fórmulas anteriores (que aplicaríamos para poblaciones infinitas) varían porque
incorporan el tamaño poblacional a través del término que se denomina factor de corrección
N-n)
de poblaciones finitas ( N _ .
1
CUADRO 2.
Errores típicos y fórmula del tamaño muestral para los estadísticos de la media
y la proporción. Poblaciones finitas.
Media Proporción
µ p

J.)(~=~)
Error típico JPQ (N-n)
Error estándar n N- 1
z21J2N Z 2NPQ
n
e 2(N - 1) + Z 21J2 e2(N - 1) + Z 2PQ
242 Estadística para la investigación social

Cuando la relación entre N y n (N/ n), es grande, podemos despreciar el factor de corre -
ción de poblaciones finitas para el cálculo del error típico o error estándar. En la prácti
cuando N es igual o mayor que 20n, podemos despreciar dicho factor. Si N = 20n,

N-n) 20n-n 19n 19n 19


( N - l = 20n - 1 = 20n - 1 :::::; 20n = 20 ~ 0, 95
Esto quiere decir que cuando N > 20n, el factor se aproxima a 1 y, por lo tanto, puee
despreciarse. En la práctica, cuando N > 100.000 podemos considerar la población co
infinita.
En el caso de poblaciones pequeñas, si calculamos el tamaño muestra! considerándol;:_
como poblaciones infinitas, «n» será algo mayor que si las consideramos finitas. Es decir. =-
hecho de no considerar el tamaño de la población, que es lo que hacemos para poblacion
infinitas, tiene como efecto que el tamaño muestra! resultante será algo mayor que el re.':.!
mente necesario. Para tamaños superiores a N = 100.000, las diferencias resultan fran -
mente despreciables.
Supongamos que en una localidad de 1.200 hogares queremos conocer Ja proporción --
viviendas que tienen acceso a intemet, con un error de ±5% (expresado en proporción -
± 0,05) y un nivel de confianza del 95,45 %. Como no tenemos información anterior,
situamos en el caso de varianza más desfavorable P = Q = 0,5.
Si no consideramos que la población es finita (N = 1.200), nuestros cálculos señ
que:
22 . o 5. o 5 1
' 2 ' =--=400
0,05 0,0025

Si tenemos en cuenta el tamaño poblacional (N = 1.200), entonces:


Z 2 NPQ 22 · 1.200 · 0,5 · 0,5 1.200
n= = = = 300 18
2
e (N - 1) +Z 2
PQ 2
0,05 (1.200 - 1) + 2 · 0,5 · 0,5
2
2,9975 +1 '

Es decir, con 301 entrevistas, casi 100 menos que la cifra obtenida si no hubiéramos co-
derado el tamaño de la población, podemos obtener la estimación deseada.

Ejercicio 5
En una ciudad de 100.000 habitantes queremos conocer la proporción de habitantes que tie"-
licencia para conducir automóviles. Para un error del 5% y un nivel de confianza del 95,45% cal -
a) El tamaño muestra! suponiendo que la población es finita.
b) El tamaño muestra! suponiendo que la población es infinita.

3.7. Muestras grandes y pequeñas


En el cuadro anterior (Cuadro 1) se ha señalado que la distribución muestra! puede co -
rarse una distribución normal para muestras mayores de 30 elementos (n > 30). ¿Qué
para tamaños menores? En muestras pequeñas (n < 30), Ja distribución muestra! puede ~-
Capítulo VIII. Las muestras estadísticas: teoría y diseño 243

rarse mediante la distribución «t» de Student. Es decir, en vez del valor Z, utilizamos el valor
t correspondiente a la distribución de Student. Esto se verá con más detalle en el capítulo
iguiente.

3.8. El conocimiento de la varianza poblacional


Como hemos señalado, para el cálculo del tamaño muestra! necesitamos conocer la varianza
poblacional. Generalmente es un dato desconocido pero podemos aproximarnos al mismo.
a) Si tenemos información anterior de encuestas o censos anteriores, y podemos supo-
ner que no hay grandes variaciones, podemos utili zar la misma.
b) Siempre, en todo caso, podemos suponer una varianza que sea mayor que la exis-
tente.
• Si se trata de proporciones, el caso más desfavorable, el de mayor varianza (PQ),
se da cuando P = Q = 0,5.
• Si se trata de medias, la varianza no tiene un límite superior. Podemos estimar la
varianza de forma amplia, basándonos en estudios o supuestos teóricos. Por ejem-
plo, si queremos investigar la distancia media de los desplazamientos entre resi-
dencia y trabajo, podemos decir que la desviación típica es de 100 km. (Bajo el
supuesto de una distribución normal esto equivaldría a decir que el 95 % de los
desplazamientos están entre O y 200 km.) El inconveniente de proceder así es que
se pueden suponer varianzas mucho mayores que las reales, los tamaños mues-
trales que obtenemos son demasiado grandes y encarecemos el coste de la inves-
tigación.
No obstante, aun cuando desconozcamos la distribución de la variable que
queremos investigar, podemos establecer de forma aproximada el recorrido de la
mjsma. Por ejemplo, en las edades de la madre al primer nacimiento de su hijo
podemos señalar que el recorrido estará entre 15 y 50 años. Estos datos nos permi-
ten establecer que la desviación típica será la cuarta parte del recorrido. En este
caso (50 - 15)/4 = 8,75 años. Procedemos así porque si la variable fuera normal
entre ±2cr estará el 95,45 % de los casos. Si la variable se alejara mucho de una
distribución normal, el Teorema de Chebyshev nos asegura que como mínimo es-
to sucederá en más del 75 % de los casos 12 . Por ello, como regla, podemos pensar
Recorrido
que ~ cr. La desviación típica siempre será realmente menor.
4
e) Otra estrategia para la estimación de la varianza es hacer una encuesta piloto y a
partir de ella estimar la varianza poblacional. Antes de calcular el tamaño muestra]
necesario, realizamos una selección aleatoria de un número pequeño de casos (entre

12
Recuérdese que el Teorema de Chebyshev señala que la probabilidad de que un valor se separe de su media

en más de ku es menor que ( 1 - ~). Por tanto si k = 2, tenemos que entre la media y 2u estará el 75% de los
casos. Y entre la media y 3u estará el 89% de las observaciones. Nótese que el recorrido es el 100% de los casos,
por lo tan to si estimamos u de esta manera su valor real será siempre será menor.
244 Estadística para la investigación social

30 y 120) y utilizamos el valor de la varianza obtenida (el límite superior del inter-
valo que obtengamos) como varianza poblacional. (A este respecto conviene tene;-
en cuenta lo dicho en el Anexo I de este capítulo sobre el empleo de la cuasivarianz::.
como estimador de la varianza.)
d) Otra posibilidad es comenzar la encuesta sin un tamaño prefijado e ir extrayend
elementos uno a uno anotando las observaciones hasta comprobar que la selecció-
de nuevos elementos no modifica de forma significativa los valores de los estadísti-
cos que estamos investigando. Se trata de una técnica que en investigación socia:.
resulta difícil, dado que no permite una planificación con antelación del trabaj o de
campo.

Ejercicio 6

En una determinada Comunidad Autónoma queremos estimar la proporción de parados, con un


error del 2,5% y un nivel de confianza del 95%. Sabemos que en el trimestre anterior el paro era
un 12% de la población activa. Calcule el tamaño muestra! necesario.

Ejercicio 7

En una determinada Comunidad Autónoma estamos interesados en conocer el tiempo medio en


el que los parados encuentran empleo. El error está establecido en 3 meses y el nivel de confian-
za en el 95,45%. Antes de hacer el estudio realizamos 90 entrevistas aleatorias y obtenemos
una desviación típica del tiempo de espera de 4 meses. Calcule el tamaño muestra!. (Suponga
que la población es infinita.)

4. Diseño de muestras
Una vez que hemos definido la población y hemos calculado el número de elementos a se-
leccionar, según el error y el nivel de confianza prefijados, estamos en disposición de selec-
cionar la muestra. Ello no es tarea fácil, porque para realizar una extracción al azar necesita-
mos previamente un listado de todos los elementos que componen la población. Aunque el
tamaño muestra! necesario para investigar una variable sea el mismo para Ciudad Real o
para el conjunto de la Unión Europea, resulta evidente que ambas situaciones requieren e -
trategias de selección diferentes. Se diferencian, no sólo por el distinto tamaño y composi-
ción de sus poblaciones, sino sobre todo porque probablemente tengamos objetivos muy di-
ferentes cuando investigamos una población y otra. Probablemente si investigamos una
característica de la Unión Europea deseemos conocer dicha característica con algún grado de
detalle, por ejemplo, de manera diferenciada y representativa para cada uno de los 27 paíse
miembros. Así, aunque con una muestra aleatoria de 400 elementos podamos conocer una
proporción, en el peor de los casos con un error del 5% (Ne = 95 %), resulta imposible decir
nada por países, o utilizar cruces por edad y nivel de estudios respecto a cualquier caracterís-
tica estudiada.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 245

~.l. Marco
Como decimos, para extraer una muestra necesitamos primero conocer los elementos que
~omponen la población. El registro físico de Jos elementos de Ja población se denomina
marco. En algunos casos es un listado, pero también adquiere otros formatos como fichas ,
para seleccionar pacientes de un hospital o fotografías aéreas -para seleccionar viviendas
en la selva-. Por lo general, en la mayoría de las situaciones no puede obtenerse un marco
ompleto y actualizado de la población , o la elaboración de éste es costosa o presenta pro-
blemas de manipulado. Imaginemos que queremos encuestar a Ja población residente en
Barcelona a fecha de hoy. Resulta muy difícil obtener un listado actualizado: el último censo
electoral o padrón ha podido hacerse hace varios meses o incluso años, pero en el caso de
disponer del mjsmo, incluso en soporte informático, realizar una selección aleatoria sobre
millones de registros no resulta tampoco sencillo. Aun cuando pudiéramos hacerlo nos en-
contramos con el problema, nada despreciable, de tener que localizar físicamente a los 400
eleccionados. En la práctica, para sortear este problema se utilizan otros procedimientos de
muestreo que detallaremos a continuación.

4.2. Procedimientos de muestreo


Dadas las dificultades de realizar muestras aleatorias simples, en las que todos Jos elemen-
tos de una población tienen la misma probabilidad de ser seleccionados, se han desarrollado
distintos sistemas de muestreo que tienen en cuenta el conocimiento que ya tenemos de Ja
población a investigar. Al incorporar información existente vamos a poder realizar diseños
muestrales más eficientes o, dicho de otra forma, podremos obtener la misma información
que usando métodos aleatorios puros, con menor coste. Pero, además, al incorporar informa-
ción podemos incluso mejorar la representatividad de la muestra.

Entre los distintos procedimientos de diseño muestra! basados en muestras probabilísti-


cas detallaremos dos: muestreo estratificado y muestreo por conglomerados. Muestras pro-
babilísticas son muestras que se definen por la selección aleatoria de los elementos o unida-
des que las componen. En éstas, es conocida la probabilidad que tienen todos los elementos
de la población de ser seleccionados en ellas. Esto quiere decir que el error (estadístico)
muestra] es conocido. Finalmente, añadiremos el muestreo por cuotas dadas las ventajas y la
difusión que tiene en Ja investigación social.

4.3. Muestreo estratificado


Por lo general, una población se encuentra dividida en varios grupos . Por ejemplo, la pobla-
ción de una Comunidad Autónoma está dividida en distintas provincias, los alumnos de una
universidad en distintos campus, los trabajadores de una empresa en diferentes departamen-
tos. Otras veces la división de la población en grupos puede ser teórica, por ejemplo, en una
población podemos diferenciar a la misma por grupos de edad o por sexo, aunque estos ele-
mentos no se encuentren físicamente juntos.
246 Estadística para la investigación social

Los estratos son subconjuntos o grupos del universo, de forma que todos los elemento
pertenecen a uno de los grupos y sólo a uno. En el diseño de encuestas estratificadas tenemo_
dos situaciones distintas. En unos casos deseamos conocer resultados para cada uno de lo
estratos, y en otros, nos interesa aprovechar las ventajas de la estratificación para reducir el
número de entrevistas necesarias para la estimación del conjunto. La primera estrategia se
conoce como diseño uniforme y la segunda como diseño proporcional. El reparto de lo
elementos de la muestra entre los distintos estratos se denomina afijación.
Para la aplicación del diseño estratificado necesitamos definir los distintos estratos y te-
ner informaciones que nos permitan estimar las varianzas en cada uno de ellos. En lo que
sigue únicamente vamos a preocupamos del caso en el que queremos conocer una propor-
ción, que es el más usual en la investigación social y política 13 . La siguiente figura (Gráfi-
co 8) muestra de forma gráfica la formación de estratos en una población.
El número de estratos lo denominamos L.
L
N¡ es la población en el estrato «i». I N¡ = N
i=l
N
W¡ es la proporción de la población en el estrato «i>> o peso 14 del estrato w =-'.
' N
L
n¡ es el tamaño de la muestra en el estrato «i» . I n; = n
i=l
n;
w; es la proporción de la muestra en el estrato « Í» . w.=-
' n
Observemos el siguiente ejemplo:
Supongamos una provincia en la que podemos diferenciar tres comarcas: La zona norte.
con importantes centros mineros y pequeña industria asociada a la explotación minera, la
zona litoral, muy vinculada al turismo y la capital donde residen los centros administrativo .
La zona minera tradicionalmente vota a partidos de izquierda, la capital a partidos de dere-
cha, y la zona turística vota casi por igual a partidos de derecha y de izquierda. Los resulta-
dos para el partido de izquierdas en las últimas elecciones fueron:
Tabla 9
Ejemplo de población estratificada.
Peso del estrato % votos al partido
Comarca Población
W; de izquierda
Minera 150.000 0,23076923 65,0%
Capital 300.000 0,46153846 25,0%
Turística 200.000 0,30769231 45 ,0%
Total 650.000 1 40,4%

13
Las fórmulas que se presentan a continuación pueden adaptarse rápidamente al caso de la media. Cuando
aparece el térmi no pq que es la varianza de Ja proporción Jo sustituimos por s que es Ja varian za de una variable
continua.
14
«W» es la abreviatura de «weight», peso en inglés.
Capítulo VIII. Las muestras estad ísticas: teoría y diseño 247

Gráfico 8.
Descomposición esquemática de una población en estratos.

Universo

60
o o
*6
o
Universo en L estratos

o o o
o o o o
6 6 6
6
6
6 6

* *
*
* u** *
248 Estadística para la investigación social

Si utilizáramos un muestreo aleatorio simple la proporción de votantes al partido de


izquierda, para el total, con e= 5% y Ne= 95,45 %, será 15 :

z pq
2
22 . 0,404 · o,596
n=- 2
- = = 385,25 ~ 386
e 0,05 2

Nótese que la varianza total, si no hubiera estratos, de la población es:

pq = 0,404 X (1 - 0,404) = 0,241


Sin embargo, cuando estamos ante un diseño de estratos, las muestras de cada estrato
independientes entre sí. El procedimiento es equivalente a seleccionar no una, sino L mues-
tras. Por ello podemos considerar la varianza total como la suma ponderada de las varian~
de cada estrato.
Llamamos (pq) 51 a la varianza de la población estratificada. Y como podemos comprobar-
l L L

(pq)SI = N¡~¡ p¡q¡N¡ = ¡~¡ p¡q¡ W¡

(pq)st = 0,215
Tabla 10.
Cálculo de la varianza estratificada de la población de la Tabla 9.

Comarca % votos al partido Peso del estrato


Población p¡q¡ p¡q;W;
de izquierda W;

Minera 150.000 65,0% 0,23076923 0,2275 0,0525


Capital 300.000 25,0% 0,46153846 0,1875 0,08653846
Turística 200.000 45,0% 0,30769231 0,2475 0,0761538-

Total 1 0,2151923 1

Como podemos observar (pq) 51 < pq.


Al haber agrupado las unidades homogéneas entre sí y realizar « L » muestras indepen-
dientes conseguimos reducir la variabilidad del conjunto de las posibles muestras. Obsérve e
de nuevo el Gráfico 7, al introducir un criterio de orden en la población se reduce la varianza
muestra!. Por ejemplo, en el caso que estamos analizando, si realizamos 200 entrevistas.
aunque es poco probable, una muestra aleatoria simple hubiera podido seleccionar 150 uni-
dades del estrato «Capital» (las tres cuartas partes de n), otra muestra de las posibles hubiera
podido no contener ningún elemento del estrato «Capital »... Lo que hemos hecho es impedir
la aparición de ciertas muestras, especialmente aquéllas que se alejan del valor del paráme-
tro y que se encuentran en los extremos de Ja distribución muestra!. Es decir, hemos concen-

15
Utilizamos pq en vez de PQ, porque la varianza es desconocida y la estimamos a través de estadísticos mue -
trales. Véase en detalle en el Anexo I de este capítulo.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 249

trado las muestras en torno al valor real. Es fácil entender que entonces el error típico, va-
rianza de la distribución muestra!, será menor.
Si en vez de pq utilizamos (pq),,, el tamaño muestra! será ahora:

22 . 0,215
---=344
0,05 2
Como puede verse el tamaño muestra! necesario, para las mismas condiciones de error y
nivel de confianza, se ha reducido en algo más de un 10%. La reducción resulta, desde el
punto de vista de los costes, de interés.
Una vez obtenido el tamaño muestra!, el siguiente paso es la distribución de las encues-
tas entre los distintos estratos. El procedimiento se denomina afijación. Existen distintas for-
mas de realizarlo. Las exponemos todas juntas a continuación sobre este mismo ejemplo y
las detallaremos en cuanto a sus beneficios e inconvenientes en los apartados siguientes.
CUADRO 3.
Procedimientos de afijación. Número de entrevistas en el estrato «Í»
una vez establecido n.
n Se hace el mismo número de en-
Afijación uniforme n· =-
' L trevistas en cada estrato.
Afijación proporcional n; = 11W; El número de entrevistas se re-
al tamaño parte respetando el peso que tie-
ne el estrato en la población.
Afijación de Neyman N;~ Las entrevistas se distribuyen de
(proporcional a la varianza) 11; = 11 L forma que se concentran relativa-
IN¡ ~ mente en los estratos de mayor
i= l varianza.

Afijación uniforme:
11 344
n. =-=-=1147
' L 3 '

Tabla 11.
Afijación proporcional al tamaño.

Comarca Peso del estrato


11; = 11W;
W;

Minera 0,23076923 79,4


Capital 0,46153846 158,8
Turística 0,30769231 105,8

Total 1 344,0
250 Estadística para la investigación social

Tabla 12.
Afijación de Neyman.

Población N;~ N;~


Comarca pq N;~ n; = n
N; LN; ~ LN;~
Minera 150.000 0,2275 71.545,4401 0,23773357 81,8
Capital 300.000 0,1875 129.903,811 0,4316487 148,5
Turística 200.000 0,2475 99.498,7437 0,33061773 113,7

Total 300.947,994 344

La siguiente tabla permite comparar los resultados de los distintos métodos de afijación:
Tabla 13.
Comparación de los resultados de la afijación para distintos métodos.
(Población Tabla 9) .

Comarca Uniforme Proporcional Neyman

Minera 115 79 82
Capital 115 159 149
Turística 115 106 114

Total 345 344 345

43.1. Diseño estratificado uniforme


Muchas veces para nuestros objetivos analíticos nos interesa, además del valor de una varia-
ble para el conjunto de la población, obtener medidas para cada uno de los estratos. Po~
ejemplo, en una encuesta .electoral en el País Vasco para las elecciones autonómicas, el dato
conjunto de votantes a un partido no resulta de excesivo interés. En esta Comunidad, cada
una de las tres provincias elige a 25 parlamentarios autonómicos. Por lo tanto, tenemos que
hacer tres estimaciones distintas, y para cada una de ella deberemos utilizar una muestra
distinta. Es decir, podemos considerar que nuestra encuesta tiene tres muestras distintas, una
para Álava, otra para Vizcaya y otra para Guipúzcoa. En el diseño uniforme en cada estrato.
con independencia del tamaño poblacional, se realiza el mismo número de entrevistas. Por
ejemplo, si para cada uno de los tres territorios queremos realizar una estimación con un
nivel de confianza del 95 % y un error del 5% para el voto, suponiendo el caso de máxima
varianza de la población, podemos hacer 400 entrevistas en cada una de las tres provincia .
Si de los estratos tenemos alguna información de la varianza, calculamos el tamaño muestra!
para el estrato de mayor varianza y aplicamos dicho tamaño también al resto de los estrato .
Por lo general, cuando se realiza afijación uniforme el tamaño muestra! lo calculamos no
a partir del conjunto de la muestra, sino fijándonos en la situación de los estratos cuya va-
rianza sea mayor
Capítulo VIII. Las muestras estadísticas: teoría y diseño 251

EJEMPLO DE DISEÑO ESTRATIFICADO UNIFORME


En una investigación sobre las condiciones de trabajo femenino en la Comunidad de Cas-
tilla la Mancha se quieren tener datos detallados para cada una de las provincias. El nivel
de confianza se establece en el 95 % y el error para la proporción en el 3%. Como apro-
ximación a la varianza se tienen los datos de actividad femenina del último censo de
población.

Tabla 14.
Proporción de activas en Castilla la Mancha.

Proporción
de activas

Albacete 0,306
Ciudad Real 0,260
Cuenca 0,265
Guadalajara 0,347
Toledo 0,304
Fuente: censo de población. INE, 2001.

Los datos varían desde el 26% de tasa de actividad femenina en Ciudad Real hasta el
34,7 % en Guadalajara. La situación de mayor varianza se encuentra en Guadalajara. Uti-
lizando los datos de dicha provincia, calculamos el tamaño muestral:

Z 2pq 1,96 2 . o,347 · 0,653 o,8705


n = _e_2_ = O 032 =O 0009 = 967,19:::::: 968
' '
En cada una de las provincias haremos 968 entrevistas y en total en la Comunidad
Autónoma 968 x 5 = 4.840.

Debemos tener presente que el cálculo lo hemos realizado sobre el estrato más desfa-
vorable: la provincia de Guadalajara, que era donde la varianza poblacional (pq) era
mayor. En dicha provincia el error no superará el 3% prefijado con un Nivel de Confianza
del 95 %. Sin embargo, en los estratos con menor varianza el error será menor.

Por ejemplo, ¿c uál será el error máximo en la provincia de Albacete? Si en la fórmula


anterior, ahora que conocemos que para Albacete n = 968 , despejamos el valor de «e>>
(cuestión que veremos en detalle en el próximo capítulo) obtenemos que el error lo pode-
mos expresar como el producto del nivel de confianza por el error típico:

(Pq 0,306 . 0,694


e= V-;;= 1,96 968 = 0,0148

En Albacete, por tanto, el error será de 1,48%.


252 Estadística para la investigación social

4.3.2. La cuestión de la ponderación en diseños no proporcionales al tamaño


Cuando se utilizan criterios de afijación no proporcionales al tamaño de la población, come
por ejemplo en el diseño estratificado uniforme 16 , debe tenerse presente que los resultad .::
obtenidos para el conjunto total necesitan ser corregidos. Es lo que se conoce como ponde-
ración, que es el procedimiento de ajuste del peso que tienen los estratos en la muestra, a_
peso que les corresponde en la población . Un ejemplo nos ayuda a entender mejor Ja opera-
ción de la ponderación.
Supongamos que realizamos en la Comunidad Autónoma Vasca una encuesta electoral _
utilizamos en cada una de las tres provincias una muestra de 800 entrevistas, dado que no:
interesa tener resultados concretos para cada una de las provincias. Supongamos que los re-
sultados han sido los siguientes:
Tabla 15.
Ejemplo ficticio de encuesta electoral.
Entrevistados Proporción
Entrevistas
que votarían de votantes
realizadas
al partido ZYX al partido ZYX
Álava 800 385 0,481
Guipúzcoa 800 105 0,131
Vizcaya 800 185 0,231
Total 2.400 675 0,281

Del total de 2.400 cuestionarios, 675 entrevistados han señalado su disposición a votar a.
partido ZYX. Ello nos conduciría a decir que 675/2.400 = 0,281 , es decir, que el 28,1 % de
los residentes votarían a dicho partido.
Sin embargo, dicho dato no es correcto. Al utilizar afijación uniforme hemos dado mu-
cho peso a los alaveses (1/3), mientras que como puede verse en la tabla siguiente, éstos sir.
embargo no llegan a un sexto de la población de la Comunidad Autónoma. Es decir, estamo_
contando según nuestra muestra el voto de los alaveses por dos, mientras que estamos in-
frarrepresentando el voto de los vizcaínos, que siendo más de Ja mitad de la población de,
conjunto de la Comunidad Autónoma, sólo le atribuimos un peso de un tercio (113). La Ta-
bla 16 nos permite contrastar el peso real con el peso asignado en la muestra.
Ponderar las unidades muestrales equivale a darles el peso que, por el estrato al que per-
tenecen, les corresponde en la población. Para ello aplicamos en cada estrato un coeficient
de ponderación, que atribuye el peso correspondiente a cada estrato en el conjunto de la
población. Su aplicación es bien sencilla: es Ja relación entre el peso de cada estrato en la
población y su peso en la muestra. Hemos denominado « W» a la proporción del tamaño po-
blacional del estrato sobre el total, y « W » a la proporción de la muestra del estrato sobre el
total muestra!.
N¡ N¡
w.=-
, LN¡ N

16
Como veremos la ponderación también resulta necesaria en el muestreo por cuotas.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 253

Tabla 16.
Cálculo de los pesos poblacionales y muestrales en la encuesta electoral ficticia.
% de población
% de la muestra
de Ja provincia n;
Población que corresponde w.=-
sobre el total ' n
a cada estrato
de la Comunidad
Álava 309.635 14,3% 33,3% 0,14354146 0,333333333
Guipúzcoa 701.056 32,5% 33,3% 0,32499750 0,333333333
Vizcaya 1.146.421 53,1% 33,3% 0,53146105 0,333333333
Total
País Vasco 2.157.112 100% 100% 1

Análogamente:
11¡ n;
w.=--=-
' ~ 11; 11

Con la letra «U» representamos los coeficientes de ponderación de la muestra:



u;=-
W;
Por ejemplo, para el caso de Álava:
0,143541146
U¡ = 0,333333333 = 0,4 3062438
En la tabla podemos ver los coeficientes de ponderación. Obsérvese que utilizamos tan-
tos decimales como sea posible; esto es debido a que así, cuando se obtienen los resultados
de cuestionarios finales, se evitan descuadres que producen distintos redondeos.
Tabla 17.
Cálculo de los coeficientes de ponderación de la encuesta electoral ficticia.
n;
W¡ w 1. = - U¡
11

Álava 0,14354146 0,33333333 0,43062438


Guipúzcoa 0,32499750 0,333333333 0,97499250
Vizcaya 0,53146105 0,333333333 1,59438315
Total País Vasco 1 1

Los coeficientes mayores que la unidad señalan los estratos que han sido infrarrepresen-
tados (Vizcaya), los menores a la unidad los que han sido sobrerrepresentados (Álava). Gui-
púzcoa, sin embargo, con un valor muy próximo a la unidad está correctamente representada
en la muestra.
Para ponderar las unidades muestrales, representadas en los cuestionarios (una unidad
muestra! equivale a un cuestionario), los programas informáticos multiplican cada cuestiona-
254 Estadística para la investi gaci ón social

rio de un determinado estrato por el peso de éste en el conjunto de la población, es decir, por
su coeficiente de ponderación. Los cuestionarios ponderados se representan con el signo «'
(que se lee prima).
n; = n;u;
Así, los 800 cuestionarios de Álava se corresponden con 800 x 0,43062438 = 344,499507 ~
los 385 votantes al partido ZYX de dicha provincia con 385 x 0,432 = 165,790388 .
Para el conjunto de los estratos los resultados están en la tabla siguiente:
Tabla 18.
Estimación de la proporción total después de ponderar en la encuesta electoral ficticia.
Entrevistados Proporción de
Entrevistas
que votarían U¡ n; U¡p¡ votantes al
realizadas
al partido ZYX partido ZYX
Álava 800 385 0,43062438 344,499507 165,790388 0,481
Guipúzcoa 800 105 0,97499250 779,994001 102,374213 0,131
Vizcaya 800 185 1,59438315 1.275,50652 294,960883 0,231
Total 2.400 675 2.400,00003 563, 125484 0,235

Obsérvese que el total de votantes al partido ZYX será el 23,5%, cifra diferente a la ante-
rior (28,1 %). Sin embargo, Ja ponderación no afecta al resultado de cada estrato, únicameme
al total, que ahora es correcto.

Ejercicio 8
Teniendo en cuenta que la población femenina mayor de 16 años de Casti lla la Mancha es la
sig uiente:

Albacete 55.845
Ciudad Real 62.992
Cuenca 26.289
Guadalajara 29.633
Toledo 81.553

Y que los resultados de una encuesta real izada, mediante afijación uniforme, han ofrecido los
siguientes resu ltados:

Activas Inactivas Total


Albacete 447 521 968
Ciudad Real 402 566 968
Cuenca 406 562 968
Guadalajara 487 481 968
Toledo 445 523 968

Calcule:
a) Los coeficientes de ponderación para cada estrato.
b) La proporción total de activas en Castilla la Mancha.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 255

33. Diseño estratificado proporcional al tamaño y diseño de Neyman


;-i:ay otras situaciones en las que, aunque no nos interese de forma específica obtener datos
ii tintos para cada estrato, el uso del diseño estratificado resulta muy útil en la medida en
que conseguimos reducir el total de entrevistas que hubiésemos tenido que realizar de haber
utilizado el muestreo aleatorio simple. Si construimos los estratos de forma que agrupamos
?Oblación de características similares, es decir, como elementos homogéneos respecto a al-
guna característica, el error típico del estimador del conjunto, como vimos en al principio del
Apartado IV.3 de este capítulo, será menor. Esta propiedad nos permite que el total de entre-
vistas a realizar sea más reducido cuanto más homogénea sea la población en el interior de
los estratos. Por lo general, el muestreo estratificado proporcional suele tener en cuenta,
además de los tamaños poblacionales de los estratos, las varianzas en cada uno de ellos. Esta
técnica se conoce con el nombre de Neyman 17 en honor a su autor. La lógica es sencilla: se
trata de ampliar la muestra en aquellos estratos en que la varianza es mayor y reducirla en
aquellos otros en que la varianza es menor.

EJEMPLO DE DISEÑO ESTRATIFICADO PROPORCIONAL AL TAMAÑO


La Comunidad Autónoma Vasca, compuesta por tres provincias, distribuye su población
según se indica en la tabla siguiente. Supongamos que queremos estimar el voto al parti-
do ZYX con un error del 5% y un Ne = 99% (Z = 2,58). Disponemos de las siguientes
proporciones de votantes a dicho partido obtenidas de comicios anteriores.

Tabla 19.
Encuesta electoral en el País Vasco.

Población p¡

Álava 309.635 0,144 0,30


Guipúzcoa 701.056 0,325 0,37
Vizcaya 1.146.421 0,53 1 0,42

Total País Vasco 2.157.112 1

Fuente: Padrón Municipal. INE, 2008 y Junta Electoral 2009.

Aplicando la fórmula del tamaño muestra] para estratos tenemos que:

2,58 2 . 0,235
--- 2- = 625,7
0,05

17
Jerzy Neyman (1894-1981), nacido en la actual Ucrania, durante los años 30 del siglo pasado consiguió uni-
ficar de forma teórica el muestreo de poblaciones finitas.
256 Estadística para la investigación social

Tabla 20.
Cálculo de la varianza estratificadas en la encuesta electoral del País Vasco.

Población W; p¡ p¡q;W;

Álava 309.635 0,144 0,30 0,03024


Guipúzcoa 701.056 0,325 0,37 0,0757575
Vizcaya 1.146.421 0,531 0,42 0,1293516

Total País Vasco 2.157.112 0,2353491

Es decir, con n = 626 podemos estimar la proporción de votantes con las condicion... _
especificadas. Las 626 entrevistas las distribuimos de forma proporcional, según el pes.
de cada uno de los estratos. Así, las entrevistas en Álava serán: 626 x 0,144 = 90,1.
Tabla 21.
Afijación proporcional al tamaño en la encuesta electoral del País Vasco.

W; n; = nW;

Álava 0,144 90,1:::::: 90


Guipúzcoa 0,325 203,5:::::: 204
Vizcaya 0,531 332,4:::::: 332
Total País Vasco 626

Podemos observar que en Álava se realizan pocas entrevistas y si deseáramos obte ~


algún resultado concreto para esta provincia el error sería elevado.

EJEMPLO DE DISEÑO ESTRATIFICADO PROPORCIONAL A LA V ARIANL_,


DE LOS ESTRATOS. NEYMAN
Para el caso anterior decidimos realizar una afijación de Neyman. Como n = 626, te ;:-
mos entonces:
Tabla 22.
Afijación de Neyman en la encuesta electoral del País Vasco.

N; p¡ p¡q¡ N;JP;j;
N;~ N;~
n -=n
:EN;~ ' ¿; Nji;
1 1.

Álava 309.635 0,3 0,021 141.892,583 0,13562776 84,9


Guipúzcoa 701.056 0,37 0,233 1 338.472,857 0,32352866 202,5
Vizcaya 1.146.421 0,42 0,2436 565.825,837 0,54084358 338,6
Total
País Vasco 2.157.112 1.046.191 ,280 626
Capítulo VIII. Las muestras estadísticas: teoría y diseño 257

Como puede apreciarse, el 54% de las entrevistas se concentran en Vizcaya que tiene
mayor tamaño y también mayor varianza. Incluso para dicha provincia podrían detallarse
distintos resultados, algo que difícilmente podría realizarse en Álava.
Como solución es mucho más eficiente el diseño de Neyman, que nos permitiría hacer
una estimación muy precisa del voto al partido ZYX en el conjunto de la Comunidad
Autónoma. Sin embargo, téngase presente que si deseáramos estimar Jos parlamentarios
autonómicos, al ser tres distritos, necesitaríamos recurrir al diseño uniforme, lo que impli-
caría utilizar una muestra mayor.

4.4. Diseños de conglomerados


El diseño estratificado, como vemos, permite mejorar la aplicación del muestreo respecto al
muestreo aleatorio. Sin embargo, no resuelve de forma efectiva la cuestión de la obtención
del marco. No disponemos de un listado de la población española pero tampoco disponemos
de 52 listados provinciales. Es decir, si no tenemos un listado del universo, difícilmente va-
mos a tener un listado para sus estratos. El diseño por conglomerados permite resolver de
forma práctica estas cuestiones, pero además, en determinadas circunstancias frecuentes en
la investigación sociológica, permite también reducir los costes y el tiempo de ejecución del
trabajo de campo. Los conglomerados son también subconjuntos de la población, Ja diferen-
cia es que mientras los estratos los construimos buscando la homogeneidad de sus elemen-
tos, en los conglomerados definimos los grupos buscando que los elementos en su interior
sean lo más diversos posibles. Una vez definidos Jos conglomerados, hacemos una muestra
de ellos e investigamos únicamente los que han sido seleccionados. De hecho, se trata de una
técnica de selección, no de unidades sino de grupos de unidades y por lo general se compone
de varias etapas. Véase el Gráfico 9. Un conglomerado es una unidad colectiva. Veamos un
ejemplo.
Si queremos realizar una encuesta a la población española para conocer sus opiniones
respecto a los principales problemas de la sociedad española, podemos comenzar seleccio-
nando municipios. (No tenemos un listado de todos los españoles, pero no resulta difícil dis-
poner de un listado de todos los municipios españoles.) Cada uno de los municipios es un
conglomerado, y respecto a la variable a investigar resulta muy heterogéneo, en cada muni-
cipio hay jóvenes, mayores, activos, parados, etc. Supongamos que hemos seleccionado
aleatoriamente 50 municipios de los más de 8.000 que componen el territorio nacional. Los
problemas del marco aún siguen sin resolverse. Tampoco tenemos un listado actualizado de
cada uno de los municipios seleccionados. Sin embargo, de cada municipio podemos, a tra-
vés del uso de cartografía y del nomenclátor, seleccionar de forma aleatoria unidades de
poblamiento, aldeas, manzanas, etc. Una vez seleccionadas dichas unidades de poblamiento,
que son conglomerados y que siguen manteniendo una heterogeneidad elevada en su
interior, resulta sencillo obtener un listado de los portales o incluso de las viviendas, de for-
ma que podemos seleccionar aleatoriamente algunas de ellas. Llegamos así a un conjunto
de hogares seleccionados, que siguen siendo conglomerados. Una vez seleccionada una
vivienda, simplemente habrá que seleccionar aleatoriamente a uno de los miembros de la
misma.
258 Estadística para la investigación social

Gráfico 9.
Exposición esquemática del muestreo por conglomerados.

Universo
o
D o
D

D D o D o DO D
OD o
D o o

Conglomerados

Do o
DD
Do Do
ºº o
DD o D o DO D
OD o
D o o
Selección de conglomerados

o
D o
D
········ ··.. ··... ········
..··· ···... ·· ...

....... \
D o
~-..... ..: .....
...... ..... o
...· D
······················
Capítulo VIII. Las muestras estadísticas: teoría y diseño 259

Mediante este procedinúento de conglomerados hemos conseguido resolver el problema


del marco, pero también hemos conseguido reducir los costes del trabajo de campo. Si hu-
iéramos seleccionado aleatoriamente a 400 españoles en todo el territorio nacional, proba-
lemente los puntos de muestreo, los lugares en los que habría que localizar a los entrevis-
tados, hubieran superado los 300. Por ejemplo, un encuestador hubiera tenido que ir a
..\lgeciras a realizar únicamente una entrevista, y otro entrevistador a Cambados a realizar
otra entrevista. Con el procedinúento de conglomerados hemos conseguido agrupar las en-
rrevistas y, si por ejemplo hubiera sido seleccionado el municipio de Algeciras, allí se reali-
zarían 6 u 8 entrevistas. El ahorro de costes resulta evidente. No obstante, hay que tener en
uenta que en el diseño de conglomerados, los tamaños muestrales «n» son mayores que en
el muestreo aleatorio simple. ¿Por qué? Porque, como hemos indicado, los conglomerados
tienen varianzas más elevadas que el conjunto poblacional. Sin embargo, el efecto de agru-
pamiento de las entrevistas compensa, en cuanto a costes, el aumento necesario de tamaño
de la muestra.
En la práctica se utilizan métodos de selección combinados. La población se divide en
estratos, y dentro de los di stintos estratos se realiza un diseño de conglomerados. Las fórmu-
las para el cálculo de los tamaños muestrales en los diseños de conglomerados y en los dise-
ños compuestos de estratos y conglomerados resultan de una complejidad importante que
supera los objetivos de este curso introductorio a las técnicas estadísticas de investigación
social. No obstante, debe tenerse en cuenta que núentras la estratificación permite reducir
los tamaños muestrales, la técnica de conglomerados exige que dichos tamaños sean mayores.

4.5. El muestreo por cuotas


Como podemos observar, si bien el muestreo aleatorio y los diseños derivados de él -estra-
tos y conglomerados- pernúten la obtención de datos representativos de la población, así
como la inferencia de los resultados obtenidos mediante muestras al conjunto del universo
bajo criterios conocidos de error, éste es un procedinúento costoso. En algunos casos, cuan-
do la investigación se refiere únicamente a opiniones, pueden emplearse otros procedinúen-
tos para obtener muestras representativas . La principal técnica alternativa son las muestras
por cuotas. El principio de las muestras por cuotas es, en vez de confiar al azar la selección
de las unidades, construir un procedinúento de selección que reproduzca con la máxima fi-
delidad posible la propia estructura de la población . Para el muestreo por cuotas tenemos que
tener un conocinúento muy preciso de la población, pues sólo así es posible construir una
núniatura de la población. Afortunadamente para algunas variables conocemos muy bien la
estructura de la población. Los censos nos pernúten tener información muy precisa por sexo,
por edad y por nivel educativo. Estas tres variables de forma conjunta están muy relaciona-
das con las opiniones políticas y con las actitudes. Siempre que tengamos un conocimiento
elevado de la distribución de variables que están relacionadas con nuestra característica a
investigar, podremos utilizar el muestreo por cuotas. Si la información disponible no tiene
relación, una muestra por cuotas podría producir sesgos importantes . Por ejemplo, si quere-
mos conocer el número de extranjeros que reside en un municipio, no sería correcto utilizar
cuotas por edad y sexo: los innúgrantes tienen una estructura muy diferente en composición
demográfica a la población total.
260 Estadística para la investigación social

Conocida la estructura de la población, operamos de la misma forma que en el muestreo


por estratos proporcional. A cada grupo --en nuestro caso, resultado de la combinación de
grupos de edad, sexo y niveles de instrucción- le asignamos un número proporcional de
entrevistas en función del peso que tiene en la población. La diferencia respecto al muestree
estratificado proporcional es que la localización final de los entrevistados no sigue un proce-
dimiento probabilístico. Se seleccionan los primeros elementos localizados que cumplan di-
chas características. Por ejemplo, una mujer de 30-35 años con estudios superiores. Este pro-
cedimiento, no obstante, puede introducir sesgos, por ello se aplican algunas normas qu~
buscan aleatorizar al máximo, es decir, reducir el papel del entrevistador en la localizació
de los entrevistados. Entre las distintas normas que se emplean destacan:

- Distribuir al máximo las entrevistas entre los encuestadores. A un mismo entrevista-


dor se le proporciona un amplio abanico de perfiles de entrevistados para que no pue-
da concentrarse en un único lugar. Por ejemplo, si tiene que entrevistar a muchas
«mujeres de 30-35 años con estudios superiores» podría irse a un campus universita-
rio y realizar allí todas las entrevistas a investigadoras, profesoras, estudiantes de ter-
cer ciclo. Ello produciría sesgos.
Utilizar el sistema de «barrido cuotas». Una vez asignadas las entrevistas, a cada en-
trevistador se le proporcionan unas rutas que debe realizar buscando dichos perfiles
Por ejemplo, se le indican una serie de calles en las que tiene que localizar a lo.:
entrevistados que cumplan el perfil. El método de «barrido cuotas» es muy usual e-
entrevistas telefónicas. A un entrevistador se le asigna un número aleatorio de teléfo-
nos, cada teléfono equivale a un hogar, y dentro de ese conjunto de llamadas tiene
que localizar los distintos perfiles.

En la práctica, en muchas encuestas sociológicas y de opinión se utiliza un procedimien-


to mixto, en el que la primera parte del diseño muestra! se realiza mediante técnicas probabi-
lísticas, selección de municipios dentro de estratos por tamaño poblacional, y la parte fina:
de selección del entrevistado mediante cuotas.

EJEMPLO DE MUESTREO POR CUOTAS


Deseamos realizar una encuesta a la población residente en el municipio de Barcelon
para conocer sus opiniones respecto a la gestión municipal. El tamaño muestra! con i-
derado es de 800 entrevistas y queremos hacer cuotas por edad, sexo y nivel de instruc-
ción.

EL censo de población de 2001, elaborado por el INE, nos proporciona los siguientes
datos sobre los residentes en viviendas familiares, en función de las variables edad, sexc
y nivel de estudios completado.

A partir de los datos de la Tabla 23 calculamos la distribución de cada conjunto de


categorías. Por ejemplo, los hombres con estudios primarios o menos de 18 a 34 serán :

19.704
- - - 100 = 1,539%
1.279.936
Capítulo VIII. Las muestras estadísticas: teoría y diseño 261

Tabla 23.
Niveles educativos por edad y sexo. Datos absolutos.

Primarios Segundo Tercer


Total
o menos grado grado

18-34 19.704 119.903 49.086


Hombres 35-64 63.350 141.595 72.839
65 y más 73.233 37.962 14.200
18-34 13.838 106.237 63.915
Mujeres 35-64 87.786 151.209 69.976
65 y más 143.229 44.202 7.672

Total 1.279.936

Fuente : Censo de Población, 2001 . INE.

Las mujeres de 18 a 34 años con estudios de tercer grado serán:

63.915
- - - 100 = 4,994%
1.279.936

Los resultados aparecen en la tabla siguiente. Nótese que el total es el 100%

Tabla 24.
Niveles educativos por edad y sexo. Datos relativos X 100.

Primarios Segundo Tercer


Total
o menos grado grado

18-34 1,539% 9,368% 3,835 %


Hombres 35-64 4,949% 11,063% 5,691 %
65 y más 5,722% 2,966% 1,109%
18-34 1,081 o/o 8,300% 4,994%
Mujeres 35-64 6,859% 11 ,814% 5,467%
65 y más 11,190% 3,453 % 0,599%

Total 100%

Si bien hemos expresado los datos anteriores en porcentajes, resulta siempre más có-
modo para los cálculos utilizar las proporciones. En proporciones los datos son:
262 Estadística para la investigación social

Tabla 25.
Niveles educativos por edad y sexo. Datos relativos en proporción.

Primarios Segundo Tercer


Total
o menos grado grado
18-34 0,01539 0,09368 0,03835
Hombres 35-64 0,04949 0,11063 0,05691
65 y más 0,05722 0,02966 0,01109
18-34 0,01081 0,08300 0,04994
Mujeres 35-64 0,06859 0,11814 0,05467
65 y más 0,11190 0,03453 0,00599

Total 1

Para distribuir proporcionalmente la muestra, simplemente multiplicamos « 11» por e


peso de cada conjunto de categorías. Así a los hombres de 18 a 34 años con estudio:
primarios o menores les corresponderán:

n w; = 800 · 0,01539 = 12,3

De la misma forma para las mujeres de 18 a 34 años con estudios de tercer grado:

11w; = 800 · 0,04994 = 39,9


Los resultados se encuentran en la tabla siguiente. Nótese que el total es « 11» .

Tabla 26.
Afijación por cuotas según niveles educativos, edad y sexo.

Primarios Segundo Tercer


Total
o menos grado grado
18-34 12,3 74,9 30,7
Hombres 35-64 39,6 88,5 45 ,5
65 y más 45 ,8 23 ,7 8,9
18-34 8,6 66,4 39,9
Mujeres 35-64 54,9 94,5 43,7
65 y más 89,5 27,6 4,8

Total 800

A continuación redondeamos las cifras, y obtenemos el número de entrevistas que de-


beremos realizar en cada conjunto de categorías. Nótese que finalmente la muestra será
de 804 entrevistas.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 263

Tabla 27.
Afijación por cuotas según niveles educativos, edad y sexo.
Datos redondeados.

Primarios Segundo Tercer Total


o menos grado grado
18-34 12 75 31
Hombres 35-64 40 89 46
65 y más 46 24 9
18-34 9 66 40
Mujeres 35-64 55 95 44
65 y más 90 28 5

Total 804
264 Estadística para la investigación social

ANEXO l. La estimación de las varianzas


Como se ha dicho, las distribuciones muestraies del estadístico de la media tienen como me-
dia el parámetro o media poblacional. Es decir, la media es un estadístico insesgado. Si.J:;.
embargo, la distribución del estadístico de las desviaciones típicas de las muestras no tiene
como media el valor del parámetro. Es una estimación sesgada. El valor del sesgo, no ob -
tante, es conocido y nos permite construir un estimador insesgado de la desviación típica
través de Ja cuasivarianza.
Definimos la cuasivarianza muestral como:

_ L (x; -
sn2 - 1 _ _ _ __
.xy
n- 1

La única diferencia entre la varianza y la cuasi varianza está en el denominador. La cuasi-


varianza, en vez de hacer la media de las distancias al cuadrado sobre el número de caso::
(n) , Ja hace sobre los grados de libertad (n - 1) de la distribución.
Generalmente, los paquetes de cálculo estadístico realmente calculan las cuasivarianzas
y no las varianzas. Para tamaños grandes de n (n > 90) la diferencia de cálculo entre la a-
rianza y la cuasivarianza resulta totalmente despreciable.
La media de las cuasivarianzas del conjunto de todas las muestras de un determinad
tamaño tiene como media la varianza poblacional multiplicada por el factor
1
(N ~
). a-
mos a comprobarlo a continuación volviendo a la Población Ejemplo (Tabla 1, Apartado :3
en el caso de Ja distribución muestra! como se indica en la Tabla 28.
En nuestro ejemplo anterior (n = 3) calculamos las varianzas de cada muestra y tambié-
las cuasivarianzas. La media de la distribución muestra! para las varianzas es 9,3 y para 1
cuasivarianzas es 14. Recordemos que Ja varianza poblacional era 11,7. La media de la dis-
tribución muestra! de ambos estadísticos, varianza y cuasivarianza, resulta alejada del val
del parámetro.
Sin embargo, podemos observar que al multiplicar el estadístico de Ja cuasivarianza po:

el factor(N ~ 1
). el valor de éste produce el valor de la varianza poblacional (última co-
lumna de la tabla).
Por ello, podemos estimar la varianza muestra) a partir del estadístico de Ja cuas i vari ~
de Ja siguiente manera:
N-1
(J2 = --s2
N n-1

Como por lo general desconocemos la varianza de la población, podemos estimar Ja mis-


ma de forma insesgada mediante la cuasivarianza. Para el cálculo del error típico o err
estándar, si en vez de Ja varianza poblacional utilizamos la cuasi varianza de la muestra obte-
nida, adaptamos la fórmula del mismo como detallamos a continuación.
Capítulo VIII. Las muest ras estadísticas: teo ría y diseño 265

Tabla anexo l.
Cálculo de las varianzas y cuasivarianzas en las muestras de tamaño 3
de la Población Ejemplo (Apartado 3 en Tabla 1).
Cuasi varianza
Media de Varianza de Cuasi varianza por (N - l)/N
Muestra Valores la muestra la muestra de la muestra
- ~
X 52
s~ - 1 s~ - 1 (N
----¡¡-
- 1)

a b c 30 24 28 27,3333333 6,22222222 9,33333333 7,77777778


a b d 30 24 22 25,3333333 11,5555556 17,3333333 14,4444444
a b e 30 24 32 28,6666667 11,5555556 17,3333333 14,4444444
a b f 30 24 26 26,6666667 6,22222222 9,33333333 7,77777778
a c d 30 28 22 26,6666667 11 ,5555556 17,3333333 14,4444444
a e e 30 28 32 30 2,66666667 4 3,33333333
a c f 30 28 26 28 2,66666667 4 3,33333333
a d e 30 22 32 28 18,6666667 28 23,3333333
a d f 30 22 26 26 10,6666667 16 13,3333333
a e f 30 32 26 29,3333333 6,22222222 9,33333333 7,77777778
b c d 24 28 22 24,6666667 6,22222222 9,33333333 7,77777778
b c e 24 28 32 28 10,6666667 16 13,3333333
b c f 24 28 26 26 2,66666667 4 3,33333333
b d e 24 22 32 26 18,6666667 28 23,3333333
b d f 24 22 26 24 2,66666667 4 3,33333333
b e f 24 32 26 27,3333333 11,5555556 17,3333333 14,4444444
c d e 28 22 32 27,3333333 16,8888889 25,3333333 21,1111111
c d f 28 22 26 25,3333333 6,22222222 9,33333333 7,77777778
c e f 28 32 26 28,6666667 6,22222222 9,33333333 7,77777778
d e f 22 32 26 26,6666667 16,8888889 25,3333333 21,1111111
Media 27 9,33333333 14 11,6666667

El error típico al cuadrado de la media es:

~ (N-n)
2

n N- 1

sustituyendo Ja varianza poblacional por el valor estimado a partir de la muestra

~n S~- ' (N-n)_(N-1)~-


- - - - - - -<c- n)-C)S~-·
(N- 1)
'"(N-n)-
-
n
-- -
N-1 N-l N n
--
N-l
- - -
N n
(N - -
n) -

= s;~_ 1 (N ~ n)
Expresión que nos permite calc ular el error típico utilizando la cuasivarianza muestra!, tanto
para poblaciones finitas como infinitas.
266 Estadística para la investigación social

Error típico, cuando estimamos la varianza a través


de la propia muestra:

u¡=Js~; 1 (N ~ n)
De manera análoga podemos también expresar el error típico de la proporción cuando
estimamos Ja varianza a partir de la muestra:

(N~ n)
Precisamente, en el siguiente capítulo dedicado a la estimación utilizaremos esta formu-
lación de los errores típicos. Recuérdese que por Jo general Ja varianza de la población e
desconocida, pero una vez obtenida la muestra podemos utilizar los propios datos de la
muestra para estimar dicha varianza.

Comentarios al apartado de Teoría muestral (Apartado 3.4)

Cálculo del error típico de la distribución utilizada como ejemplo {Tabla 1)


Ahora estamos en condiciones de observar si nuestro ejemplo cumple la relación de varianza
especificada por el teorema del límite central.
Como muestra población (N = 6) el error típico de la distribución muestra! de muestras de
tamaño 3, es

~ ~ = 3,416 é_=1527
Jnv ~ J3 -J s .
La desviación típica de la distribución de las medias de la tabla anterior es también 1,527.
Como puede apreciarse, el teorema del límite central funciona muy bien, incluso con pobla-
ciones pequeñas que no tienen siquiera una distribución normal. Nótese que la distribución de la
población utilizada como ejemplo es uniforme.

Bibliografía comentada
Azorín, F. y Sánchez Crespo, J. L. (1986): Métodos y aplicaciones del muestreo. Madrid, Alianza Edi-
torial.
Se trata de un magnífico texto que abunda en la teoría muestra! para diseños complejos. Su_
autores cuentan con una amplia experiencia en el INE. Sigue el planteamiento de los textos clá-
sicos de muestreo. Necesita de conocimientos algo elevados de matemáticas.
Capítulo VIII. Las muestras estad ísticas: teoría y diseño 267

Shcheaffer, R . L. ; Mendenall , W. y Ott, L. (2007): Elementos de Muestreo. Madrid , Thompson-Para-


ninfo.
Este texto resulta muy didáctico y útil para quien esté interesado en aplicaciones prácticas de
aplicación de las técnicas muestrales . Ri co en ejemplos. Sin excesiva complejidad matemática.
Rodríguez Osuna, J. (1991) : Métodos de Muestreo. Madrid, CIS.
Texto pensado especialmente para sociólogos y politólogos . Realiza una breve introducci ón al
uso de muestras, así como una discusión sobre los principales problemas prácticos y alternativas
de sol uci ón.
Capítulo IX

Inferencia estadística: estimación


de medias y proporciones

Este capítulo se adentra en el estudio de los resultados procedentes de muestras, y expone


los instrumentos para la estimación de los parámetros de la media y la proporción . Comienza
mostrando los fundamentos de la teoría muestra! en las que se basa la estimación mediante
intervalos y presenta los mismos para los principales estadísticos. En una segunda parte se
introduce en la cuestión de la construcción de intervalos para diferencias de estadísticos tan-
to, en observaciones relacionadas entre sí como en el caso de observaciones independien-
tes. Termina mediante un ejemplo real en el que se ponen en práctica la mayor parte de los
contenidos desarrollados a lo largo de todo el texto .

1. ¿En qué consiste la estimación?


1.1. El comportamiento de los estimadores muestrales
1.2. Intervalos de estimación
1.3. Intervalos en el caso de muestras pequeñas
1.3.1 . Estimación de medias con muestras pequeñas
1.3.2. Estimación de proporciones con muestras pequeñas
2. Diferencias de estadísticos .
2.1. Diferencia de medias en el caso de muestras independientes
2.2. Diferencias de estadísticos en muestras relacionadas
3. Estudio con datos reales
ANEXO l. Cálculo de los intervalos de confianza de las muestras de tamaño 5 de la
Población Ejemplo
Bibliografía comentada
270 Estadística para la investigación social

1. ¿En qué consiste la estimación?


En el capítulo anterior respondimos a la pregunta de cómo diseñar muestras representativas.
En este capítulo vamos a presentar las herramientas que tiene el investigador para convertir
los datos obtenidos a partir de muestras en resultados referidos al conjunto poblacional. Este
proceso se denomina estimación. La estimación consiste en la obtención de valores pobla-
cionales a partir de los valores muestrales. Para ello invertimos el planteamiento del capítulo
anterior. Allí nos situábamos en el análisis de las condiciones necesarias para realizar una
muestra representativa de una población. Ahora vamos a comenzar una vez que la muestra
ha sido realizada y las observaciones de los elementos hechas. En el capítulo anterior la pre-
gunta que buscábamos responder era: a partir de qué tamaño muestra} podemos garantizar
que el error no superará un determinado umbral una vez establecido un nivel de confianza.
Ahora, la primera pregunta que queremos resolver es: para un tamaño muestra! (que es cono-
cido porque Ja muestra ya está hecha) cuál será el máximo error posible para un nivel de
confianza prefijado.
Una vez conocido el error lo que vamos a hacer es construir intervalos. Un intervalo es
un rango de valores entre dos dados. Recordemos que distintas muestras representativas de
una misma población podían producir resultados distintos. Por ello, el uso del estadístico
calculado en la muestra como valor del parámetro resulta un procedimiento muy burdo en la
medida en que no podemos justificar de forma alguna, que el resultado obtenido en la mues-
tra sea equivalente al valor real (parámetro) de la población . Lo que si que podemos hacer es
ofrecer un intervalo, esto es, decir entre qué valores se encontrará el valor del parámetro, y
con qué probabilidad esto será así (nivel de confianza). Por ejemplo, si hemos obtenido que
en las próximas elecciones tiene intención de abstenerse el 5,6% de Ja población, no pode-
mos deducir automáticamente que la tasa de abstención vaya a ser un 5,5 %, pero, como ve-
remos, sí vamos a poder señalar que entre, por ejemplo, un 5% y un 6% se encontrará el
valor poblacional. Dicho intervalo será acompañado de una medida de probabilidad de que
ello sea así: es el nivel de confianza.
Para este propósito, los fundamentos teóricos siguen siendo los mismos. Recordemos
que habíamos conseguido relacionar los tres conceptos básicos de la teoría muestra!: tamañ o
muestra!, error estadístico y nivel de confianza. Los habíamos relacionado a través de la ex-
presión :
e
Z=-
(J

Jn
Si despejamos «e» obtenemos el error en función del tamaño muestra!, del nivel de con-
fianza Z y de la varianza poblacional. La expresión del error es:
(J
e =Z-
Jn
Los términos n y Z son conocidos. La muestra ya está hecha y por tanto sabemos cuál
es el tamaño muestra! «n». El nivel de confianza (Z) es prefijado por el investigador. La
Capítulo IX. Inferencia estadística: estimación de medias y proporciones 271

\·arianza poblacional es por lo general desconocida; sin embargo, la podemos estimar me-
diante la información que proporciona la propia muestra.

Como podemos observar, el error estadístico es el producto del nivel de confianza por el
error típico.

De Ja misma manera que hicimos en el capítulo anterior vamos a utilizar un ejemplo con
pocos casos para introducir de manera intuitiva algunos de los conceptos necesarios.

1.1. El comportamiento de los estimadores muestrales


Supongamos la siguiente población de 10 elementos (N = 10), de cada uno de los diez indi-
viduos de dicha población, que denominamos simplemente como: a, b, c, ... y de Jos cuales
conocemos el número de viajes interprovinciales (x) que realizaron en el último año.

Tabla l.
Composición de la Población Ejemplo.

Elemento X

a 12
b 16
c 12
d 4
e 8
f 10
g 6
h 20
18
J 14

Los parámetros de esta población son:

µ = 12
(j = 4,899

De dicha población obtenemos todas la muestras posibles de 5 elementos (n = 5). El


número total de muestras es:

(N)
n
10!
=-=252
5!5!

La distribución muestra! de todas las medias se reproduce como anexo a este capítulo
(Anexo I). Con los datos anteriores podemos calcular el error típico , que al tratarse de una
272 Estad ística para la investigación social

pequeña población, necesita del factor de corrección de poblaciones finitas. Así, el error tí -
co de la media para muestras de tamaño n = 5 será:

(J -

X
= _!!__
;;ivN=I
~ = 4,899
J5
JlO10-1
-5 = l 633
'

Conocido el error típico podemos calcular el error.


Para un nivel de confianza del 95 %:

e = Zu;x = 1,96 · 1,633 = 3,2


Y también podemos hacerlo para un nivel de confianza del 99%:

e = Zu;x = 2,58 · 1,633 = 4,213


Es decir, el valor de la media que obtengamos en nuestra muestra tendrá unos 3,2 viaje5
de error si nos situamos en un nivel de confianza del 95 % y 4,2 viajes para un nivel del 99 G;é
¿Cómo podemos interpretar estos resultados? Si extraemos una muestra aleatoria de t:
población anterior, en un 95 % de los casos, el valor que obtengamos tendrá una diferenci_
respecto al valor del parámetro menor a 3,2 viajes. Sólo en un cinco por ciento de las mue -
tras, nuestro error podrá ser mayor. En un 99% de las muestras que realicemos el error se ·
inferior a 4,2 viajes.
Vamos a comprobar gráficamente este hecho. En primer lugar construimos la distribu-
ción muestral de la población anterior suponiendo que n = 5 (Gráfico 1). La media de l
distribución es la media de la población cuyo valor es 12, y la varianza de la distribución e
error típico anteriormente calculado. En dicho gráfico hemos marcado las áreas bajo la curv
normal que concentran al 95 % y al 99% de los casos. Para esta distribución, de media 12 ~
error típico 1,633, el valor de la distribución que se corresponde con un Z = 1,96 es:

lx- µI
Z=--
u;x

12 + 1,96 . 1,633 = [8,8: 15,2]

Los valores 8,8 y 15,2 limitan el área central de la distribución que incluye al 95 % de lo
casos. Análogamente obtenemos que para el 99% de los casos los valores que limitan dicho
área serán: 7,787 y 16,213.
En el Gráfico 2, colocado debajo del anterior, hemos representado los valores del esta-
dístico de la media de cada una de las 252 muestras posibles. Podemos situar dichos valore
en relación al intervalo alrededor de la media poblacional que agrupan el 95% de los caso
(o el 99% de los mismos). Vemos que las medias de las distintas muestras que podemo
obtener de esta población concreta están incluidas dentro de los límites establecidos por el
teorema del límite central. La gran mayoría de los estadísticos se sitúa dentro del 95 %. Las
medias de muy pocas muestras superan los valores que limitan el 95 % del área, y ninguna
los valores del 99%.
Capítulo IX. Inferencia estadística : estimación de medias y proporciones 273

Gráfico 1.
Distribución normal asociado a la distribución muestra! de la población utilizada en el ejemplo
µ = 12; (J = 1,633.

95 %
·····+···
99%

4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Número de viajes

Gráfico 2.
Situación de las muestras de tamaño 5 entre los límites del intervalo de confianza.

4 5 6 7 8 9
. -.
10 11

.. •
12 13 14 15 16 17 18 19 20

• . .. . ..
. 1
1 • •• 1
1

• • .
1 1
1 1
1 •
1
. • • ..• . • 1
1
1
1
..
• .. .. • • •
1
1

. .. ••. •• •
1 1
1
1
~ " 1
1
1
1
1
1
1
. ••• ..... .. • • i 1
1
1
1
:+
* ..
••• • • •
1
~1 "'
: :. • .

1

• ••
1

••
1
• • •
. •• ..
1

•.
1
1 •
1
1
1
1
.. • •
. .
••... 1
• 1
1 .. . ••• • •
a:··· 1
1
1

.. • • .. ... .• .. . •• • • •
1 1
1 1
1 1
1 1
1 1

1
1 ..
. . •• •• .•
+ • 1
1
1

.. ..••• •
1 1
1 1
1 + 1

. . • ...
1 1
1 1
1 1
1 1
274 Estadística para la investigaci ó n social

Gráfico 3.
Intervalos de cada una de las muestras de tamaño 5. Nivel de confianza 95%.

4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
l
4
7
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
100
103
106
109
112
115
118
121
1 24
127
130
133
136
139
142
145
148
151
154
157
160
163
166
169
172
175
178
181
184
187
190
193
196
199
202
205
208

i.
211
21'1
217
220
223
226
229
23 2
235
238
241
244
247
f1
250
Capítulo IX. Inferencia estadística : estimación de medias y proporciones 275

En concreto, de las 252 muestras posibles, observamos que sólo 8 quedan claramente
fu era del intervalo 8,8 y 15,2 que establece el nivel de confianza del 95 %, y todas están
dentro del intervalo de los valores 7,8 y 16,2, que son los límites para un intervalo del 99%
de nivel de confianza. Los resultados siguen con bastante precisión el comportamiento espe-
rado según el teorema central del límite. Obsérvese el Gráfico 4, en el que se comparan los
resultados obtenidos con los que pronostica el teorema del límite central. (No coinciden
exactamente porque la población con la que estamos trabajando es pequeña N < 30).

Gráfico 4.
Comparación de la distribución muestra! del ejemplo para n = 5 con la distribución normal
asociada de parámetros: µ = 12; u = 1,633.

- Distribución muestra! n = 5
0,1 ]

- - - - Distribución normal
0,09 1

0,081
0,07 1
0,06 ¡

0,051
0,04 1

1
0,03 -j
1
1
0,02 1
¡
0,01 ~

8 9 10 11 12 13 14 15 16

El problema al que nos enfrentamos ahora es: ¿qué sucede cuando hemos seleccionado
una muestra? Evidentemente la media de la población es desconocida, por eso obtenemos la
muestra, y también lo es la varianza de la población. No conocemos, por tanto, los paráme-
tros que definen la distribución muestral. Una solución sencilla es utilizar la media de nues-
tra muestra y conve1tir dicho valor en el valor poblacional. Si bien sabemos que el valor del
estadístico de una muestra estará cercano al valor del parámetro, cada muestra produce un
valor distinto. Sin embargo, a partir de la información de la muestra, podemos establecer una
medida de la distancia que existirá entre el valor del estadístico (de la muestra) y el valor del
parámetro (de la población). Ello podemos hacerlo mediante intervalos, ofreciendo un rango
posible de valores. Como vamos a ver, el procedimiento ahora se invierte. Lo que hacemos
276 Estadística para la investig ación social

ahora es establecer qué rango de valores del parámetro son compatibles con el valor que
hemos obtenido en la muestra. Antes decíamos: si tenemos una población con media 12.
¿cuál sería la probabilidad de obtener una muestra con media 13? La pregunta que ahora
hacemos es: si la muestra obtenida tiene, por ejemplo, una media 14: ¿cuál es la probabilidad
de que la media poblacional sea, 14, 15, 12 o 17?

1.2. Intervalos de estimación


Una vez conocido el error estadístico, que, recordemos, es el producto del error típico por
el nivel de confianza, la manera de obtener un intervalo resulta sencilla: simplemente suma-
mos y restamos al valor del estadístico el error estadístico del mismo. En el Gráfico 3 se han
representado los intervalos para un nivel de confianza del 95 % de todas las muestras posi-
bles. Obsérvese que la gran mayoría de los intervalos incluyen el valor del parámetroµ = 12
dentro del mismo. En muy pocas muestras esto no es así: por ejemplo, en la número 92 la
estimación que realizamos del valor poblacional no contiene el verdadero valor. (Véanse lo
valores en la Tabla 13 en el Anexo I de este capítulo.)
La proporción de muestras cuyo intervalo contiene al parámetro es otra forma de inter-
pretar el nivel de confianza. En este caso concreto el 96,8% de los intervalos, suponiendo un
nivel de confianza del 95 %, contienen a la media poblacional en su interior. Sólo en el 3,2%
de todas las muestras posibles sucede que el intervalo de estimación no contiene el valor
«real» del parámetro. En el Anexo I de este capítulo se pueden consultar los valores de cada
una de las 252 muestras posibles, así como el intervalo de estimación de la media en cada
una de ellas. Para el cálculo de los intervalos véase el Apartado 3.1 de este capítulo.
Obsérvese el siguiente ejemplo. En una encuesta realizada a 600 hogares se ha encontra-
do que el tamaño medio de la vivienda es de 79 m 2 con una desviación típica (cuasidesvia-
ción) de 23. Con estos datos podemos calcular el error típico de la media:

s 23 23
=- = -- = - = o 939
(J -
X Jn J600 24,5 '

Para un nivel de confianza del 95,45 % el error estadístico de la media será:

e = Z(J; = 2 · 0,939 = 1,878


.X± e= 79 ± 1,878 = [77,122: 80,878]
Gráfico 5.
Intervalo de confianza (95,45%).

--~~~~~~~~-CJ-~~~~~~~~--1 1

76~
, 5---
77---7~
7,-5--7-8_ _ _
78~,5---7~
9 --7-9~
, 5--~
80---8~
0-, 5--8-1--~
81,5
1

Es decir, en esa población el tamaño medio de la vivienda estará aproximadamente entre


77 y 81 m 2 .
Capítulo IX. Inferencia estadística : estimación de medias y proporciones 277

En el caso de la proporción, el procedimiento es idéntico. Supongamos que la encuesta


anterior nos indica que un 36% de las viviendas se encuentran en mal estado de habita-
bilidad.
El error típico de la proporción será:

O 36 ·O 64
~ _' = Jo,00003ss = 0,0197
00 1

Y el error, con un nivel de confianza del 95,45% será:

e= Z<r; = 2 · 0,0197 = 0,0394

Por lo tanto, la proporción de viviendas en mal estado se encontrará entre el 32,06% y el


39,94%.
Obsérvese que para la estimación de proporciones, de la mi sma manera que hacemos
para el caso de la media, la varianza la estimamos a partir de la muestra, por ello utilizamos
pq en vez de PQ , cantidad que es desconocida. En sentido estricto, al estimar la varianza con
datos muestrales el cálculo del denominador del error típico es «n - 1». Cuando las mues-
tras son grandes el uso de n o n - 1 en el denominador resulta irrelevante 1•

CUADRO l.
Errores e intervalos para la media y la proporción, estimando la varianza
a partir de la muestra.

Error típico en
Estadístico Error típico Intervalo
poblaciones finitas

s
<r - = - -
Media
x Jn .X± Z<r;

<r=¡¡;q~
Proporción
p v~ v--¡¡-
«S» se refiere a Ja cuasidesviación. Use Ja fórmula de error típico en poblaciones finitas cuando N < 2011. Véase el
Apartado 3.6 del Capítulo VIII. Para muestras pequeñas (n < 30), en e l caso de Ja media, utili zar « t» en vez de Z
para el nivel de confianza. Una explicación detallada puede encontrarse en el siguiente apartado.

Nótese que en las fórmulas anteriores empleamos Ja desviación típica de la muestra (cua-
sides viación) en vez de Ja desviación típica de la población <r. En el caso de las proporciones
usamos la varianza que nos proporciona la muestra <<pq» y no la poblacional «PQ».

1
Al igu al que el uso de la desviación típica o la cuasidesviación cuando estimamos medias a partir de muestras
grandes.
278 Estadística para la investigación social

Ejercicio 1
En una encuesta realizada a 400 hombres y a 400 mujeres hemos obtenido los siguientes resul-
tados :

Salario bruto anual Desviación típica

Hombres 22.000 12.300


Mujeres 16.200 9.000

Estime los salarios anuales de los hombres y de las mujeres. Utilice un intervalo de confianza
del 95%.

Ejercicio 2
En una encuesta realizada a 2.500 votantes de un país centroeuropeo hemos obtenido que el
23% de los mismos tiene intención de votar «NO» en el referéndum de integración a la UE.
Estime la proporción de votantes, en el conjunto del país, contrarios a la adhesión. (Use un
nivel de confianza del 99%.)

Ejercicio 3
Una encuesta aleatoria realizada a 193 estudiantes de una universidad de 3.221 alumnos señala
que un 65,6% piensan que el transporte público entre la ciudad y el campus es insuficiente.
Estime la proporción de estudiantes insatisfechos con el transporte público para un nivel de
confianza del 95,45%.

1.3. Intervalos en el caso de muestras pequeñas


1.3.1. Estimación de medias con muestras pequeñas

Como estudiamos en el capítulo anterior, cuando estamos ante muestras pequeñas, las distri-
buciones muestrales siguen la distribución « t>> de Student en vez de la distribución normal.
En la práctica, cuando n < 120 resulta más adecuado utilizar dicha distribución «t». Ade-
más, cuando las muestras son pequeñas y desconocemos la varianza poblacional hemos de
tener en cuenta que la estimación de la mjsma debemos realizarla a través de la cuasivarian-
za. (En muestras grandes las diferencias entre varianza y cuasivarianza son despreciables,
pero no así cuando estamos ante pocos casos.)
Veamos el procedimiento de estimación de intervalos en muestras pequeñas. Suponga-
mos que, de la población ejemplo (N = 10) utilizada al principio del capítulo, la muestra
aleatoria (n = 5) obtenida es {a, b, c, h, j} cuyos valores son { 12, 16, 12, 20, 14}. La media
de dicha muestra es .X = 14,8 y la cuasidesviación típica S11 _ 1 = 3,34 7. (Los datos de dicha
muestra aparecen en el Anexo I, muestra número 20.)
El procedimiento para construir el intervalo es el mismo que el empleado con muestras
grandes. Únicamente sustituimos Z por el valor de t para n - 1 grados de libertad. En nues-
Capítulo IX. Inferencia estadística : estimació n de medias y proporciones 279

rro caso para un nivel de confianza del 95% el valor de t con 4 grados de libertad es: 2,776.
Obsérvese que el intervalo de confianza resu ltante será más amplio que con Z = 1,96.)
Calculamos Ja cuasivarianza de esta muestra:

:L (x 1 - i) 2
sn - l = = 3 347
n- 1 '

Luego el error para un 95% será:

e -
- 0,05 -
tn - l (J¡ -
0,05
tn - l
yn
R-
sr. - -n --
N
2,776 3,347
lc
y5
Rº-
--5 -- 2,938
10

Por lo tanto, el intervalo será: 14,8 + 2,938 = [11,862: 17,738].

1.3 .2. Estimación de proporciones con muestras pequeñas


La estimación de proporciones en el caso de muestras de tamaño n < 30 presenta serias difi-
cultades. Cuando n es menor de 30 la di stribución muestra] está alejada de la distribución
normal. Incluso, cuando las proporciones son extremas, muy próximas a O o a 1, tampoco se
cumple el teorema del límite central. Por lo general se recomienda no utilizar Ja fórmula del
error típico de Ja proporción cuando np < 5 o nq < 5. Mientras que la aproximación de Ja
distribución t converge de forma rápida, según se incrementa n, hacia una distribución nor-
mal, en el caso de las proporciones, éstas siguen una di stribución binomial y su convergencia
con una distribución normal resulta más lenta con el crecimiento de n. Recuérdese que Ja
binomial es una distribución discreta y la normal es continua. Por ello, en las situaciones en
que np < 5, Jos intervalos construidos mediante la fórmula del error típico no se ajustan a las
probabilidades que expresa el nivel de confianza.
Una alternativa es utilizar el intervalo de Wilson 2 , cuya fórmula simplemente expone-
mos a continuación.
z2 pq z2
P +-+z
2n -
- + -2
n 4n
z2
1 +-
n

Para un nivel de confianza del 95,45% (Z = 2) la expresión anterior queda de una forma
más sencilla:
2~
p +~ ±2 v--;; +--;;
4
1+-
n

2
Edwin B. Wilson, físico norteamericano ( 1879-1964) antecedió a Neyman en la formulación de los intervalos
de confianza. El intervalo de Wilson fue publicado en 1927 en el Journal of the American Statistical Association.
280 Estadística para la investigación social

Supongamos que a partir de una muestra de 22 deportistas de élite, en ocho casos se han
detectado problemas de insomnio. ¿Cuál será la proporción en la población? Para un nivel de
confianza del 95 ,5% aplicamos el intervalo de Wilson.
Comenzamos por calcular p = 8/22 = 0,364 y a continuación introducimos los valore
en la fórmula:

2
p+-±2 ~q1
-+2
n n n
4
1+-
n

2 0,364 X 0,636 1
0,364 + 22 ± 2 - - - - - - + -2
22 22
4
1 +-
22
0,455 ± 0,224
1,182

= [0,679 . 0,231
1,182 ' 1,181
J
= [0,574 ; 0,195]

Entre el 19,5% y el 57,4% de los deportistas de élite podrían sufrir de insomnio. Como
puede apreciarse, muestras pequeñas, en el caso de proporciones, producen intervalos dema-
siado grandes 3 .

2. Diferencias de estadísticos
Hasta ahora nos hemos preocupado únicamente de la obtención de intervalos de confianza
para estadísticos sencillos. Sin embargo, resulta muy frecuente en el ámbito de las ciencias
sociales y políticas el uso de otros estadísticos que son estadísticos compuestos, a su vez, por
la combinación de estadísticos . Podemos estar interesados en conocer una diferencia de me-
dias: por ejemplo, la diferencia entre los salarios medios de hombres y mujeres. O también,
una razón entre dos cantidades que han sido obtenidas mediante una muestra: por ejemplo, si
en una encuesta hemos preguntado el número de horas trabajadas y el salario, podemos obte-
ner la razón entre la media de horas trabajadas y el salario medio, de donde resultará un
estadístico que será el cociente entre dos estadísticos: media de horas trabajadas y salario
medio. ·

3
Si hubi éramos utili zado la fórmula del error típi co habríamos obtenido un intervalo distinto, concretamente
entre 15,9% y 56,9%, en este caso incluso más grande.
Capítulo IX. Inferencia estad ística: estimación de medias y proporciones 281

Cuando combinamos estadísticos para producir nuevos estadísticos nos enfrentamos a


dos situaciones diferentes:
a) Que las observaciones que estamos comparando procedan de muestras independien-
tes, algo que sucede por ejemplo si queremos estimar la diferencia del salario medio
entre hombres y mujeres. Medimos de forma independiente los salarios de los hom-
bres y los salarios de las mujeres. Nótese que cuando hablamos de muestras inde-
pendientes, no quiere decir que sean realmente dos encuestas diferentes. Quiere
decir únicamente que las unidades muestrales no tienen relación entre sí. Por ejem-
plo, para comparar los salarios de hombres con los de mujeres, los hombres y las
mujeres pueden, y así suele ser, pertenecer a la misma muestra; sin embargo, son
subconjuntos que no guardan relación entre sí: las observaciones sobre los salarios
de cada uno de los hombres no afectan a las observaciones de cada una de las muje-
res. Por tanto, ambos conjuntos de datos los consideramos muestras independientes.
b) Que las muestras estén relacionadas entre sí. Esta situación tiene distintos orígenes.
En unos casos, sobre la misma unidad muestra! tomamos medidas repetidas en el
tiempo, como sucede en los estudios de panel. Por ejemplo, a una misma persona le
preguntamos por su situación laboral en Enero y volvemos a encuestarle en Sep-
tiembre para analizar el cambio de ocupación. En otros casos, sobre la misma uni-
dad muestra! medimos características o variables distintas pero que están relaciona-
das entre sí. Por ejemplo, a una persona le preguntamos por su valoración sobre el
presidente de gobierno y también por su valoración sobre el líder de la oposición.
Para calcular un estadístico de diferencia entre ambas valoraciones tenemos que te-
ner en cuenta que existe relación entre las respuestas. Probablemente quien valore
muy alto al presidente de gobierno valore muy bajo al líder de la oposición y vice-
versa. En este caso, que sean muestras relacionadas no quiere decir que las muestras
tengan que proceder de encuestas distintas, como sucede en un panel. Si compara-
mos una batería de preguntas y queremos conocer la variación de cada uno de los
elementos, como sucede en una batería de preguntas, nos encontramos ante mues-
tras relacionadas aunque con una única encuesta. (Véase Apartado 3.)

De forma práctica podemos definir las situaciones de dependencia e independencia entre


muestras de la siguiente forma. Consideramos muestras independientes a aquéllas en que
las observaciones se realizan sobre unidades muestrales distintas (tenemos una sóla variable
para comparar distintos grupos de individuos). Consideramos muestras relacionadas a
aquéllas en que las observaciones (variables) se refieren a la misma unidad muestra! (tene-
mos varias variables pero un solo conjunto de individuos en la comparación).
CUADRO 2.
Determinación del tipo de situación de construcción de estadísticos compuestos.

Una variable Dos variables

Misma unidad muestra! Dependiente

Distintas unidades muestrales Independiente


282 Estadística para la investigación social

Ciertamente la terminología empleada, muestras dependientes o independientes, pueda


entenderse mejor utilizando el término inglés: paired/unpaired que en castellano puede tra-
ducirse como muestras emparejadas (paired) y muestras no emparejadas (unpaired). Cuando
comparamos muestras, éstas están relacionadas si cada caso de una muestra está relacionado
con un caso de la otra muestra (muestras emparejadas).
Para calcular un intervalo para estadísticos compuestos el procedimiento es el mismo
que para los estadísticos simples. En todos los casos está compuesto por el producto del ni-
vel confianza por el error típico. Lo que varía son las formulaciones de los errores típico
como detallaremos a continuación.

2.1. Diferencia de medias en el caso de muestras independientes


Supongamos el siguiente ejemplo: En una encuesta 4 sobre salarios realizada a 400 hombres
y a 400 mujeres se obtienen los siguientes resultados :
Tabla 2.
Media y desviación de los salarios de hombres y mujeres.

Salario bruto anual Desviación típica

Hombres 22.000 12.300


Mujeres 16.200 9.000

Los datos nos dicen que las mujeres cobran por término medio menos que los hombres,
en concreto: 5.800 euros menos. El salario de los hombres presenta mayor dispersión y, por
tanto, hay mayores diferencias entre los salarios de ellos, mientras que en el caso de las mu-
jeres sus salarios son más parecidos.
El error típico de la diferencia de medias, que explicaremos un poco más adelante, es:

Luego, el error estadístico para un nivel de confianza, por ejemplo, del 99,7 % será:

e = Z<Tcµ 1 _ µ
2
J = 3 · 762 = 2.286
Por lo tanto la diferencia de salarios entre hombres y mujeres oscilará entre 3.514 euros y
8.806 euros.
Tal vez al lector le haya sorprendido que la fórmula del error típico de la diferencia de
medias se componga de la suma de los errores típicos (al cuadrado) de cada una de las me-
dias. Esto es así porque estamos combinando dos estadísticos diferentes y cada uno de ellos
aporta un error independiente. Es decir, tenemos dos fuentes de error.

4
Aunque los datos son ficticios están basados en los resultados de la Encuesta de Estructura Salarial que realiza
el INE (2006).
Capítulo IX. Inferencia estadística: estimación de medias y proporciones 283

Nótese que la fórmula del error típico de diferencia de medias, al ser dos muestras inde-
pendientes5, se corresponde con el célebre teorema de Pitágoras: c2 = a 2 + b 2 o, expresado
de otra forma: e= 2
Ja
+ b 2 . Véase el Gráfico 6.
Gráfico 6.
Representación esquemática de fuentes de error independientes.

e
b

Aunque no suele ser muy habitual, si tuviéramos que realizar una suma de estadísticos, el
error también vendrá determinado por la suma de los errores. Por ejemplo, queremos cono-
cer la renta de una muestra de 350 parejas en la que ambos miembros están trabajando 6 , y los
resultados son los siguientes:

Tabla 3.
Salarios medios y desviación en una muestra a parejas.

Salario bruto anual Desviación típica

Entrevistado/a 25.000 12.500


Cónyuge 18.200 10.500

¿Cuál será el ingreso medio total de las parejas? Evidentemente, será la suma de las me-
dias de ambos cónyuges:

25.000 + 18.200 euros= 43.200 euros


5
Como el lector recordará de sus estudios de álgebra dos vectores independientes son ortogonales entre sí.
6
Suponemos que hemos preguntado el salario a cada uno de los cónyuges de fonna independiente.
284 Estadística para la investigación social

Y, el error típico de estimación:

12.500 2 10.5002
872 6
350 + 350 = '

Por tanto, para un nivel de confianza del 95 % podemos afirmar que Ja renta conjunta de
las parejas será:
43 .200 + 1,96 X 872,6 = [44.910,3 : 41.819,7]

Para el caso de la diferencia de proporciones el planteamiento es idéntico al de las me-


dias, siempre y cuando estemos ante muestras grandes 7 . El error típico de la diferencia de
proporciones es:

P1 q¡ + P2q2
n1 n2

Observemos la siguiente tabla extraída del Estudio del CIS 2802 que preguntaba sobre el
conocimiento del Debate sobre el Estado de la Nación celebrado en mayo de 2009.
Tabla 4.
Conocimiento del debate sobre el estado de la Nación por sexo. Mayo 2009.

Sexo

Hombre Mujer

Conocimiento del debate Sí 595 533


sobre el estado No 141 249
de Ja Nación No contesta o 2

Total 736 784


Fuenre: Estudio CIS 2802.

De Ja tabla deducimos que el 80,8% (595/736) de los hombres y el 68% (533/784) de las
mujeres siguieron el debate sobre el estado de la nación . Los datos procedentes de la muestra
señalan que la diferencia en el seguimiento del debate entre hombres y mujeres fue de un
80,8 %-68,0% = 12,8%.
Si queremos calcular un intervalo para un nivel de confianza del 95,45 % de dicha dife-
rencia, comenzamos por calcular el error típico:

P1q1 + P2q2 = 0,808 X 0,192 0,68 X 0,32


n1 n2 736 + 784 = º'º22
7
Recuérdese la regla de np > 5 y nq > 5 expresad a anteriormente. No obstante, la diferencia de proporciones
en la prácti ca tiene poco uso. En este sentido suele tener mayor interés el contraste de hipótesis de proporci ones que
se an alizará en otros cursos de estadística.
Capítulo IX. Inferencia estadística: estimación de medias y proporciones 285

El error de la diferencia de proporciones será:

e = Z<I <p, _ p 2J = 2 x 0,022 = 0,044

Y el intervalo: (p 1 - p 2 ) ± e = O, 128 + 0,044 = [0,084: 0,172]. Es decir, la diferencia


en el seguimiento del debate entre hombres y mujeres puede establecerse entre el 8,4% y el
17,2%. El seguimiento del debate ha sido inferior entre las mujeres que entre los hombres.

Ejercicio 4
En una ciudad se ha realizado una encuesta. A la pregunta del número de viajes al extranjero
realizados durante el año pasado han respondido de la siguiente manera los activos y los inac-
tivos :

Media de viajes Varianza Encuestas

Activos 2,3 3,8 624


Inactivos 0,7 1,2 351

Calcule la diferencia en la media de viajes entre activos e inactivos y construya un intervalo


para un nivel de confianza del 95,45%.

Ejercicio 5
Los resultados de una encuesta señalan que el 25% de los 225 hogares rurales encuestados no
disponen de vehículo, mientras que eso mismo sucede en el 18,5% de los 625 hogares urbanos.
Calcule un intervalo para la diferencia en la proporción de posesión de vehículo entre áreas rura-
les y urbanas. Nivel de confianza del 95,45%.

2.2. Diferencias de estadísticos en muestras relacionadas


Un caso especialmente interesante y habitual en la investigación es comparar dos variables
que están relacionadas por referirse al mismo sujeto. Por ejemplo, cuando tomamos observa-
ciones repetidas en el tiempo -encuesta panel-. Supongamos que durante un periodo elec-
toral preguntamos a una muestra la valoración que le merece el candidato «Alfa». A dicha
muestra Je hacemos Ja pregunta al comienzo de la campaña y también a mitad de la campaña
para observar el cambio que se ha producido en el mismo periodo de tiempo. La valoración
del candidato Ja hacemos mediante una escala de 1 a 1O en la que 1 es la menor valoración y
10 la mayor.
Para ilustrar el procedimiento vamos a suponer que la muestra ha sido únicamente de 10
entrevistados, que denominamos como: A, B, C, ... , J (véase la Tabla 5).
Los datos nos dicen que, por ejemplo, el individuo A ha variado su valoración desde un 6
inicial a un 7. El conjunto de la muestra ha pasado de valorar al candidato con un 4,5 al
principio a un 5,3 a mitad de la campaña. El candidato ha aumentado durante ese tiempo su
popularidad en 8 décimas.
286 Estadística para la investigación social

Tabla 5.
Resultados de valoración a un candidato político en dos momentos
por 10 entrevistados.
Valoración Valoración
al comienzo a mitad Diferencia
de la campaña de la campaña
A 6 7 1
B 3 2 -1
e 4 4 o
D 8 6 -2
E 5 7 2
F 3 8 5
G 4 2 -2
H 6 6 o
I 4 7 3
J 2 4 2
Suma 45 53 8
Media 4,5 5,3 0,8
Desviación típica 1,688 2,052 2,135

El intervalo que queremos calcular es el de la diferencia de popularidad. Sin embargo en


este caso no podemos considerar las observaciones como independientes porque es evidente
que la valoración a mitad de la campaña vendrá condicionada por la valoración al inicio de
la campaña. Es decir, no tenemos dos fuentes de error independientes. En este caso el error
típico de la diferencia será el propio error de la nueva variable que hemos generado: «dife-
rencia» entre valoraciones. Como sabemos, el error típico de una variable continua viene
dado por:
s
Jn
(J - = -
x

En este caso vamos a denominar S0 a la desviación típica de la variable generada como


diferencia de medias. Por ello, el error típico será :

S0 2,135
Uf5 = = - - = 0,711
~ j9
El intervalo para un nivel de confianza del 95 % será8 :

e= (O.OS (J -
9 D
= 2 262
'
X 0 ' 711 = 1' 608
µ ± e = 0,8 ± 1,608[ - 0,808 : 2,408]

8
Como es un a muestra pequeña utilizamos t en vez de Z para el nivel de confi anza. Por ello también en el
denominador usamos n - 1 en vez de n.
Capítulo IX. Inferencia estadística: estimación de medias y proporciones 287

Los resultados nos dicen que la popularidad del candidato ha podido disminuir en más de
medio punto o crecer hasta casi 2,5 puntos. Evidentemente, muestras tan pequeñas no permi-
ten en la práctica asegurar nada. En este caso ni siquiera saber si ha subido o bajado la popu-
laridad en el transcurso de la campaña.

Ahora que hemos visto el funcionamiento de cálculo vamos a centrarnos en un ejemplo


con una muestra de tamaño importante y con la interpretación de los resultados obtenidos
mediante un programa informático.

La formula anterior del error típico de la diferencia de medias en muestras relacionadas


utiliza la desviación típica «S». Si en vez de la desviación típica, utilizamos la cuasides-
viación sn- I entonces la fórmula queda así:

SD(n - 1)
(Jt5 =- --
J,i

Ejercicio 6
En una encuesta panel se preguntó el año pasado a 30 habitantes de una cabecera comarcal
por el tiempo que invertían en desplazarse al trabajo al día (en minutos). A los mismos sujetos
vuelve a preguntarse ahora, un año más tarde, por la misma cuestión. A partir de los resultados
que aparecen en la tabla siguiente, señale con un nivel de confianza del 95% cuál ha sido la
variación en tiempo de desplazamientos entre ambos momentos.

Tiempo de Tiempo de
Cuestionario desplazamiento desplazamiento
hace un año en la actualidad

16 26
2 140 110
3 10 18
4 75 140
5 6 6
6 220 210
7 35 54
8 25 32
9 80 65
10 14 32
11 18 22
12 28 94
13 64 48
14 12 22
15 40 180
16 24 42
17 15 15
288 Estadísti ca para la investig ación social

(Continuación)

Tiempo de Tiempo de
Cuestionario desplazamiento desplazamiento
hace un año en la actualidad

18 28 38
19 16 24
20 122 156
21 14 14
22 48 16
23 32 24
24 68 52
25 6 12
26 16 23
27 12 18
28 6 24
29 54 105
30 24 48

3. Estudio con datos reales


El Barómetro del CIS, estudio 2802, realizado en mayo de 2009, se interesó por el debate
parlamentario celebrado unos días antes. La valoración de las intervenciones de los señore
José Luis Rodríguez Zapatero y Mariano Rajoy fueron las siguientes 9 .

Tabla 6.
Valoración de la intervención del Presidente del Gobierno en el debate
de mayo de 2009.

José Luis Rodríguez Zapatero

Frecuencia Porcentaje

Muy mal 116 13,3


Bastante mal 189 21,7
Regular 146 16,8
Bastante bien 312 35,9
Muy bien 107 12,3

Total 870 100%


Fuente: Estudio CIS 2802.

9
Pregunta 1O del cuestionario, reali zada únicamente a quienes habían seguido el debate (véase pregunta 6 de
cuestionario) . Se ha excluido del análisis a quienes no conocen al candidato o no contestaron a la pregunta devalo-
ración.
Capítulo IX. Inferencia estad ística : estim ación de medias y proporcio nes 289

Tabla 7.
Valoración de la intervención del líder del principal partido de la oposición
en el debate de mayo de 2009.

Mariano Rajoy

Frecuencia Porcentaje

Muy mal 154 18,1


Bastante mal 295 34,6
Regular 180 21,1
Bastante bien 178 20,9
Muy bien 46 5,4

Total 853 100%


Fuente: Estudio CIS 2802.

La pregunta está codificada de Ja siguiente forma:

l. Muy mal

2. Bastante mal

3. Regular

4. Bastante bien

5. Muy bien

A partir de dicha valoración hemos elaborado una nueva variable que denominamos
«DIFERENCIA» y que es la diferencia de valoración entre uno y otro interviniente. En este
caso la variable toma como referencia a Rodríguez Zapatero. Es decir, las diferencias positi-
vas señalan mayor valoración para Zapatero sobre Rajoy, mientras que las negativas indican
lo contrario 10 .

A continuación se reproduce un extracto de los 25 primeros cuestionarios. Por ejemplo,


el entrevistado cuyo cuestionario es el 16, valoró de forma igual a ambos líderes . Por ello la
variable diferencia toma valor «0». El entrevistado 21, asignó un 1 a Rodríguez Zapatero
(muy mal) y un 4 (m uy bien) a la intervención de Rajoy. Para el entrevistado 2 1 la variable
«diferencia» toma el valor - 3 (valoró peor a Zapatero que a Rajoy).

10
La variable podría haberse generado al revés, sin que ello suponga ningún cambio en los valores de la misma
ni en los estadísticos asociados, únicamente variaría la interpretación de los resultados que sería en dirección opues-
ta: valores positivos señalarían que el entrevistado valora más al Sr. Rajoy frente al Sr. Rodríguez Zapatero y los
negativos viceversa.
290 Estadística para la investigación social

Tabla 8.
Datos de los primeros 25 casos del estudio 2802.

Valoración de la intervención de

Número de
Rodríguez Zapatero Mariano Rajoy Diferencia
cuestionario

16 Bastante bien (4) Bastante bien (4) o


21 Muy mal (1) Bastante bien (4) -3
22 Bastante bien (4) Regular (3) 1
39 Muy mal (1) Regular (3) -2
46 Bastante bien (4) Bastante bien (4) o
56 Muy mal (1) Bastante bien (4) -3
98 Bastante mal (2) Muy mal (1) 1
102 Bastante mal (2) Bastante bien (4) -2
112 Regular (3) Bastante mal (2)
115 Bastante bien (4) Regular (3) 1
124 Bastante mal (2) Muy mal (1) 1
127 Bastante mal (2) Bastante mal (2) o
135 Bastante mal (2) Bastante mal (2) o
173 Bastante bien (4) Bastante mal (2) 2
178 Bastante mal (2) Regular (3) - 1
180 Bastante bien (4) Regular (3) 1
183 Bastante bien (4) Regular (3) 1
188 Bastante mal (2) Regular (3) -1
232 Bastante bien (4) Bastante mal (2) 2
245 Bastante bien (4) Bastante mal (2) 2
251 Bastante bien (4) Muy mal (1) 3
252 Bastante mal (2) Bastante mal (2) o
297 Regular (3) Regular (3) o
312 Regular (3) Regular (3) o
313 Bastante bien (4) Bastante mal (2) 2

Fuenie: Estudio CIS 2802.

Recuérdese que estamos ante observaciones no independientes (muestras relacionadas).


Cada entrevistado ha respondido valorando a cada uno de los dos líderes. Pero resulta evi-
dente que las respuestas que dan a ambas cuestiones no tienen porqué ser independiente
entre sí.
Los resultados de la variable «Diferencia» para el conjunto de la muestra son:
Capítulo IX. Inferencia estadística: estimación de medias y proporciones 291

Tabla 9.
Resultados de la variable Diferencia de Valoración.

Diferencia

Porcentaje
Frecuencia
válido
-4 17 2,0
-3 41 4,9
-2 57 6,8
-1 62 7,4
o 289 34,5
1 95 11,3
2 164 19,6
3 75 8,9
4 38 4,5

Total 838 100,0

Los datos nos dicen, por ejemplo, que el 34,5 % de la muestra valoró de la misma forma a
Rodríguez Zapatero que a Rajoy. O, que el 2% piensa que la intervención de Rajoy fue me-
jor que la de Zapatero por cuatro puntos (en una escala de 1 a 5), etc.
Los estadísticos descriptivos de las tres variables, (las dos valoraciones y Ja calculada, la
diferencia entre ellas dos), se reproducen a continuación:
Tabla 10.
Estadísticos de resumen de las variables de valoración al Presidente, al líder
del principal partido de la oposición, y de la variable diferencia de valoraciones.

Estadísticos

Valoración de la
Valoración de la
intervención de DIFERENCIA
intervención de
José Luis de valoraciones
Mariano Rajoy
Rodríguez Zapatero

N 870 853 838


Media 3,12 2,61 0,5167
Error típ. de la media 0,043 0,040 0,06252
Desv. típ. 1,260 1,158 1,80973

Zapatero es valorado con una media de 3,12 mientras que Rajoy con una media de 2,61.
Obsérvese que el n de cada variable es distinto porque las valoraciones se han realizado sólo
con aquéllos que han respondido a dicha pregunta. Así, 870 evaluaron a Zapatero y 853 a
Rajoy. En total, 838 valoraron a ambos líderes políticos. Es importante notar que el tamaño
de la muestra será definitivamente n = 838, que son los casos sobre los que se han obtenido
292 Estadística para la investigación social

ambas valoraciones y sólo sobre ellos es posible calcular el estadístico compuesto de la dife-
rencia. Por lo tanto estamos ante muestras independientes con n = 838.
A partir de los datos anteriores podemos calcular los intervalos de confianza de la valo-
ración de cada uno de los intervinientes, así como la de la diferencia.
Para el caso de los intervinientes:

.X± e= .X± Zax


para un nivel de confianza del 95 %.
Tabla 11.
Intervalos de confianza para la valoración de los dos líderes políticos.
Límite Límite
Media e= Zux superior inferior
-
x+e x-e
José Luis Rodríguez Zapatero 3,12 0,084 3,204 3,036
Mariano Rajoy 2,61 0,078 2,688 2,532

Podemos observar que los intervalos no tienen valores en común. El límite inferior para
Zapatero (3,036) es mayor que el límite superior para Rajoy (2,688) por lo que podemo
deducir, con un nivel de confianza del 95 %, que los entrevistados valoraron mejor la inter-
vención del Presidente del Gobierno que la del líder del principal partido de la oposición.
Respecto al intervalo de la diferencia de valoraciones, el procedimiento es el mismo:

x±e=x±Za0
para un nivel de confianza del 95 %.

e= Zu 0 = 1,96 x 0,06252 = 0,123

El valor de a i5 se encuentra en la tabla de estadísticos de resumen de la variable diferencia .


Véase en la Tabla 10: Error Típico de la media para la variable DIFERENCIA.
Tabla 12.
Intervalo de confianza (Z = 1,96) para la diferencia de valoraciones
de las intervenciones de ambos líderes políticos.

Límite Límite
Media e= Zux superior inferior
-
x+e x-e
Diferencia 0,5167 0,123 0,6397 0,3937

Podemos observar que el intervalo no contiene el «0» y por tanto llegamos a la misma
conclusión: los entrevistados valoran mejor la intervención de Rodríguez Zapatero, con una
diferencia de entre 3 y 6 décimas (en una escala de 1 a 5).
Capítulo IX. Inferencia estadística: estimación de medias y proporciones 293

ANEXO l. Cálculo de los intervalos de confianza


de las muestras de tamaño 5 de la
Población Ejemplo
La tabla adjunta contiene todas las muestras posibles de tamaño n = 5 de la población referi-
da en la Tabla 1. De cada muestra se han calculado los estadísticos de Ja media y la cuasides-
viación típica. En las últimas columnas se han calculado los límites superior e inferior del
intervalo de estimación para la media. Para detalles de cálculo consúltese el Apartado 2.3.1.
Las filas que aparecen sombreadas se corresponden con aquellas muestras cuyo intervalo no
contiene el valor del parámetro de la media de la población. (µ = 12).
Tabla anexo l.
Cálculo de los intervalos de estimación para las muestras de la Población Ejemplo.
Intervalo de confianza
de la media. Nivel
de confianza del 95%
Número
de Cuasi- Límite Límite
Muestra Valores Media
muestra desviación inferior superior

1 a b c d e 12 16 12 4 8 10,4 4,561 6,396 14,404


2 a b c d f 12 16 12 4 10 10,8 4,382 6,953 14,647
3 a b c d g 12 16 12 4 6 10,0 4,899 5,699 14,301
4 a b c d h 12 16 12 4 20 12,8 5,933 7,592 18,008
5 a b c d i 12 16 12 4 18 12,4 5,367 7,689 17,111
6 a b c d J 12 16 12 4 14 11,6 4,561 7,596 15,604
7 a b c e f 12 16 12 8 10 11,6 2,966 8,996 14,204
8 a b c e g 12 16 12 8 6 10,8 3,899 7,378 14,222
9 a b c e h 12 16 12 8 20 13,6 4,561 9,596 17,604
10 a b c e i 12 16 12 8 18 13,2 3,899 9,778 16,622
11 a b c e J 12 16 12 8 14 12,4 2,966 9,796 15,004
12 a b c f g 12 16 12 10 6 11,2 3,633 8,011 14,389
13 a b c f h 12 16 12 10 20 14,0 4,000 10,489 17,511
14 a b c f i 12 16 12 10 18 13,6 3,286 10,715 16,485
15 a b c f J 12 16 12 10 14 12,8 2,280 10,798 14,802
16 a b c cr
e> h 12 16 12 6 20 13,2 5,215 8,622 17,778
17 a b c g i 12 16 12 6 18 12,8 4,604 8,758 16,842
18 a b c g J 12 16 12 6 14 12,0 3,742 8,715 15,285
19 a b c h i 12 16 12 20 18 15,6 3,578 12,459 18,741
20 a b c h J 12 16 12 20 14 14,8 3,347 11 ,862 17,738
21 a b e i J 12 16 12 18 14 14,4 2,608 12,111 16,689
22 a b d e f 12 16 4 8 10 10,0 4,472 6,074 13,926
23 a b d e g 12 16 4 8 6 9,2 4,817 4,972 13,428
24 a b d e h 12 16 4 8 20 12,0 6,325 6,448 17,552
25 a b d e i 12 16 4 8 18 11,6 5,727 6,572 16,628
26 a b d e J 12 16 4 8 14 10,8 4,817 6,572 15,028
27 a b d f g 12 16 4 10 6 9,6 4,775 5,408 13,792
294 Estadística para la investigación social

28 a b d f h 12 16 4 10 20 12,4 6,066 7,075 17,725


29 a b d f 12 16 4 10 18 12,0 5,477 7,192 16,808
30 a b d f J 12 16 4 10 14 11,2 4,604 7,158 15,242
31 a b d g h 12 16 4 6 20 11,6 6,693 5,724 17,476
32 a b d cr
b 12 16 4 6 18 11,2 6,099 5,846 16,554
33 a b d cr
b 12 16 4 6 14 10,4 5,177 5,855 14,945
34 a b d h 12 16 4 20 18 14,0 6,325 8,448 19,552
35 a b d h J 12 16 4 20 14 13,2 5,933 7,992 18,408
36 a b d J 12 16 4 18 14 12,8 5,404 8,056 17,544
37 a b e f g 12 16 8 10 6 10,4 3,847 7,023 13,777
38 a b e f h 12 16 8 10 20 13,2 4,817 8,972 17,428
39 a b e f 12 16 8 10 18 12,8 4,147 9,159 16,441
40 a b e f J 12 16 8 10 14 12,0 3,162 9,224 14,776
41 a b e g h 12 16 8 6 20 12,4 5,727 7,372 17,428
42 a b e g 12 16 8 6 18 12,0 5,099 7,524 16,476
43 a b e g J 12 16 8 6 14 11,2 4,147 7,559 14,841
44 a b e h 12 16 8 20 18 14,8 4,817 10,572 19,028
45 a b e h J 12 16 8 20 14 14,0 4,472 10,074 17,926
46 a b e i J 12 16 8 18 14 13,6 3,847 10,223 16,977
47 a b f g h 12 16 10 6 20 12,8 5,404 8,056 17,544
48 a b f g 12 16 10 6 18 12,4 4,775 8,208 16,592
49 a b f g 12 16 10 6 14 11,6 3,847 8,223 14,977
50 a b f h 12 16 10 20 18 15,2 4,147 11,559 18,841
51 a b f h J 12 16 10 20 14 14,4 3,847 11,023 17,777
52 a b f J 12 16 10 18 14 14,0 3,162 11,224 16,776
53 a b cr h
b 12 16 6 20 18 14,4 5,550 9,528 19,272
54 a b g h 12 16 6 20 14 13,6 5,177 9,055 18,145
55 a b g 12 16 6 18 14 13,2 4,604 9,158 17,242
56 a b h j 12 16 20 18 14 16,0 3,162 13,224 18,776
57 a e d e f 12 12 4 8 10 9,2 3,347 6,262 12,138
58 a e d e g 12 12 4 8 6 8,4 3,578 5,259 11,541
59 a e d e h 12 12 4 8 20 11,2 5,933 5,992 16,408
60 a e d e i 12 12 4 8 18 10,8 5,215 6,222 15,378
61 a e d e j 12 12 4 8 14 10,0 4,000 6,489 13,511
62 a e d f g 12 12 4 10 6 8,8 3,633 5,611 11,989
63 a e d f h 12 12 4 10 20 11,6 5,727 6,572 16,628
64 a e d f 12 12 4 10 18 11,2 5,020 6,793 15,607
65 a e d f j 12 12 4 10 14 10,4 3,847 7,023 13,777
66 a e d g h 12 12 4 6 20 10,8 6,261 5,304 16,296
67 a e d g 12 12 4 6 18 10,4 5,550 5,528 15,272
68 a e d g J 12 12 4 6 14 9,6 4,336 5,794 13,406
69 a e d h 12 12 4 20 18 13,2 6,261 7,704 18,696
70 a e d h J 12 12 4 20 14 12,4 5,727 7,372 17,428
71 a e d j 12 12 4 18 14 12,0 5,099 7,524 16,476
72 a e e f g 12 12 8 10 6 9,6 2,608 7,311 11,889
Capítulo IX. Inferencia estadística: estimación de medias y proporciones 295

73 a e e f h 12 12 8 10 20 12,4 4,561 8,396 16,404


74 a e e f 12 12 8 10 18 12,0 3,742 8,715 15,285
75 a e e f J 12 12 8 10 14 11 ,2 2,280 9,198 13,202
76 a e e g h 12 12 8 6 20 11,6 5,367 6,889 16,311
77 a e e g 12 12 8 6 18 11,2 4,604 7,158 15,242
78 a e e o-
b J 12 12 8 6 14 10,4 3,286 7,515 13,285
79 a e e h 12 12 8 20 18 14,0 4,899 9,699 18,301
80 a e e h J 12 12 8 20 14 13,2 4,382 9,353 17,047
81 a e e J 12 12 8 18 14 12,8 3,633 9,611 15,989
82 a e f g h 12 12 10 6 20 12,0 5,099 7,524 16,476
83 a e f g 12 12 10 6 18 11,6 4,336 7,794 15,406
84 a e f g J 12 12 10 6 14 10,8 3,033 8,137 13,463
85 a e f h 12 12 10 20 18 14,4 4,336 10,594 18,206
86 a e f h J 12 12 10 20 14 13,6 3,847 10,223 16,977
87 a e f J 12 12 10 18 14 13,2 3,033 10,537 15,863
88 a e o-
b h 12 12 6 20 18 13,6 5,550 8,728 18,472
89 a e o-
b h 12 12 6 20 14 12,8 5,020 8,393 17,207
90 a e g J 12 12 6 18 14 12,4 4,336 8,594 16,206
91 a e h J 12 12 20 18 14 15,2 3,633 12,011 18,389
92 a d e f g 12 4 8 10 6 8,0 3,162 5,224 10,776
93 a d e f h 12 4 8 10 20 10,8 5,933 5,592 16,008
94 a d e f 12 4 8 10 18 10,4 5,177 5,855 14,945
95 a d e f J 12 4 8 10 14 9,6 3,847 6,223 12,977
96 a d e g h 12 4 8 6 20 10,0 6,325 4,448 15,552
97 a d e g 12 4 8 6 18 9,6 5,550 4,728 14,472
98 a d e g j 12 4 8 6 14 8,8 4,147 5,159 12,441
99 a d e h 12 4 8 20 18 12,4 6,693 6,524 18,276
100 a d e h J 12 4 8 20 14 11,6 6,066 6,275 16,925
101 a d e i J 12 4 8 18 14 11,2 5,404 6,456 15,944
102 a d f o- h 12
b 4 10 6 20 10,4 6,229 4,932 15,868
103 a d f o-
b 12 4 10 6 18 10,0 5,477 5,192 14,808
104 a d f o-
b J 12 4 10 6 14 9,2 4,147 5,559 12,841
105 a d f h 12 4 10 20 18 12,8 6,419 7,165 18,435
106 a d f h j 12 4 10 20 14 12,0 5,831 6,881 17,119
107 a d f J 12 4 10 18 14 11 ,6 5,177 7,055 16,145
108 a d g h 12 4 6 20 18 12,0 7,071 5,793 18,207
109 a d g h J 12 4 6 20 14 11 ,2 6,419 5,565 16,835
110 a d o-
b J 12 4 6 18 14 10,8 5,762 5,742 15,858
111 a d h J 12 4 20 18 14 13,6 6,229 8,132 19,068
112 a e f o- h 12
b 8 10 6 20 11,2 5,404 6,456 15,944
113 a e f o-
b 12 8 10 6 18 10,8 4,604 6,758 14,842
114 a e f o-
b 12 8 10 6 14 10,0 3,162 7,224 12,776
115 a e f h 12 8 10 20 18 13,6 5,177 9,055 18,145
116 a e f h J 12 8 10 20 14 12,8 4,604 8,758 16,842
117 a e f J 12 8 10 18 14 12,4 3,847 9,023 15,777
296 Estadística para la investigación social

118 a e g h 12 8 6 20 18 12,8 6,099 7,446 18,154


119 a e g h J 12 8 6 20 14 12,0 5,477 7,192 16,808
120 a e b J 12
(]
8 6 18 14 11,6 4,775 7,408 15,792
121 a e h j 12 8 20 18 14 14,4 4,775 10,208 18,592
122 a f g h 12 10 6 20 18 13,2 5,762 8,142 18,258
123 a f g h 12 10 6 20 14 12,4 5,177 7,855 16,945
124 a f b (]
12 10 6 18 14 12,0 4,472 8,074 15,926
125 a f h J 12 10 20 18 14 14,8 4,147 11,159 18,441
126 a (]
b h J 12 6 20 18 14 14,0 5,477 9,192 18,808
127 b e d e f 16 12 4 8 10 10,0 4,472 6,074 13,926
128 b e d e g 16 12 4 8 6 9,2 4,817 4,972 13,428
129 b e d e h 16 12 4 8 20 12,0 6,325 6,448 17,552
130 b e d e i 16 12 4 8 18 11 ,6 5,727 6,572 16,628
131 b e d e J 16 12 4 8 14 10,8 4,817 6,572 15,028
132 b e d f g 16 12 4 10 6 9,6 4,775 5,408 13,792
133 b e d f h 16 12 4 10 20 12,4 6,066 7,075 17,725
134 b e d f 16 12 4 10 18 12,0 5,477 7,192 16,808
135 b e d f j 16 12 4 10 14 11,2 4,604 7,158 15,242
136 b e d g h 16 12 4 6 20 11,6 6,693 5,724 17,476
137 b e d g 16 12 4 6 18 11 ,2 6,099 5,846 16,554
138 b e d g J 16 12 4 6 14 10,4 5,177 5,855 14,945
139 b e d h 16 12 4 20 18 14,0 6,325 8,448 19,552
140 b e d h J 16 12 4 20 14 13,2 5,933 7,992 18,408
141 b e d J 16 12 4 18 14 12,8 5,404 8,056 17,544
142 b e e f (]
b 16 12 8 10 6 10,4 3,847 7,023 13,777
143 b e e f h 16 12 8 10 20 13,2 4,817 8,972 17,428
144 b e e f 16 12 8 10 18 12,8 4,147 9,159 16,441
145 b e e f j 16 12 8 10 14 12,0 3,162 9,224 14,776
146 b e e g h 16 12 8 6 20 12,4 5,727 7,372 17,428
147 b e e g 16 12 8 6 18 12,0 5,099 7,524 16,476
148 b e e g J 16 12 8 6 14 11,2 4,147 7,559 14,841
149 b e e h 16 12 8 20 18 14,8 4,817 10,572 19,028
150 b e e h J 16 12 8 20 14 14,0 4,472 10,074 17,926
151 b e e J 16 12 8 18 14 13,6 3,847 10,223 16,977
152 b e f g h 16 12 10 6 20 12,8 5,404 8,056 17,544
153 b e f g 16 12 10 6 18 12,4 4,775 8,208 16,592
154 b e f g J 16 12 10 6 14 11,6 3,847 8,223 14,977
155 b e f h 16 12 10 20 18 15,2 4,147 11,559 18,841
156 b e f h J 16 12 10 20 14 14,4 3,847 11,023 17,777
157 b e f J 16 12 10 18 14 14,0 3,162 11,224 16,776
158 b e g h 16 12 6 20 18 14,4 5,550 9,528 19,272
159 b e g h J 16 12 6 20 14 13,6 5,177 9,055 18,145
160 b e g J 16 12 6 18 14 13,2 4,604 9,158 17,242
161 b e h J 16 12 20 18 14 16,0 3,162 13,224 18,776
162 b d e f g 16 4 8 10 6 8,8 4,604 4,758 12,842
Capítulo IX. Inferencia estad ística: estimación de medias y proporciones 297

163 b d e f h 16 4 8 10 20 11,6 6,387 5,993 17,207


164 b d e f 16 4 8 10 18 11 ,2 5,762 6,142 16,258
165 b d e f J 16 4 8 10 14 10,4 4,775 6,208 14,592
166 b d e g h 16 4 8 6 20 10,8 6,870 4,769 16,831
167 b d e g 16 4 8 6 18 10,4 6,229 4,932 15,868
168 b d e g J 16 4 8 6 14 9,6 5,177 5,055 14,145
169 b d e h 16 4 8 20 18 13,2 6,870 7,169 19,231
170 b d e h J 16 4 8 20 14 12,4 6,387 6,793 18,007
171 b d e i j 16 4 8 18 14 12,0 5,831 6,881 17,119
172 b d f g h 16 4 10 6 20 11 ,2 6,723 5,298 17,102
173 b d f g 16 4 10 6 18 10,8 6,099 5,446 16,154
174 b d f g 16 4 10 6 14 10,0 5,099 5,524 14,476
175 b d f h 16 4 10 20 18 13,6 6,542 7,857 19,343
176 b d f h J 16 4 10 20 14 12,8 6,099 7,446 18,154
177 b d f j 16 4 10 18 14 12,4 5,550 7,528 17,272
178 b d CT
b h 16 4 6 20 18 12,8 7,294 6,397 19,203
179 b d g h j 16 4 6 20 14 12,0 6,782 6,046 17,954
180 b d g j 16 4 6 18 14 11,6 6,229 6,132 17,068
181 b d h J 16 4 20 18 14 14,4 6,229 8,932 19,868
182 b e f g h 16 8 10 6 20 12,0 5,831 6,881 17,119
183 b e f g 16 8 10 6 18 11 ,6 5,177 7,055 16,145
184 b e f bCT J 16 8 10 6 14 10,8 4,147 7,159 14,441
185 b e f h 16 8 10 20 18 14,4 5,177 9,855 18,945
186 b e f h J 16 8 10 20 14 13,6 4,775 9,408 17,792
187 b e f j 16 8 10 18 14 13,2 4,147 9,559 16,841
188 b e g h 16 8 6 20 18 13,6 6,229 8,132 19,068
189 b e g h J 16 8 6 20 14 12,8 5,762 7,742 17,858
190 b e g J 16 8 6 18 14 12,4 5,177 7,855 16,945
191 b e h i J 16 8 20 18 14 15,2 4,604 11,158 19,242
192 b f g h 16 10 6 20 18 14,0 5,831 8,881 19,119
193 b f g h J 16 10 6 20 14 13,2 5,404 8,456 17,944
194 b f g J 16 10 6 18 14 12,8 4,817 8,572 17,028
195 b f h J 16 10 20 18 14 15,6 3,847 12,223 18,977
196 b CT
b h J 16 6 20 18 14 14,8 5,404 10,056 19,544
197 e d e f bCT 12 4 8 10 6 8,0 3,162 5,224 10,776
198 e d e f h 12 4 8 10 20 10,8 5,933 5,592 16,008
199 e d e f 12 4 8 10 18 10,4 5,177 5,855 14,945
200 e d e f j 12 4 8 10 14 9,6 3,847 6,223 12,977
201 e d e bCT h 12 4 8 6 20 10,0 6,325 4,448 15,552
202 e d e g 12 4 8 6 18 9,6 5,550 4,728 14,472
203 e d e g 12 4 8 6 14 8,8 4,147 5,159 12,441
204 e d e h 12 4 8 20 18 12,4 6,693 6,524 18,276
205 e d e h J 12 4 8 20 14 11 ,6 6,066 6,275 16,925
206 e d e i J 12 4 8 18 14 11 ,2 5,404 6,456 15,944
207 e d f g h 12 4 10 6 20 10,4 6,229 4,932 15,868
298 Estadística para la investigación social

208 e d f g i 12 4 10 6 18 10,0 5,477 5,192 14,808


209 e d f cr
I:> J 12 4 10 6 14 9,2 4,147 5,559 12,841
210 e d f h i 12 4 10 20 18 12,8 6,419 7,165 18,435
211 e d f h j 12 4 10 20 14 12,0 5,831 6,881 17,119
212 e d f i J 12 4 10 18 14 11,6 5,177 7,055 16,145
213 e d g h i 12 4 6 20 18 12,0 7,071 5,793 18,207
214 e d g h j 12 4 6 20 14 11,2 6,419 5,565 16,835
215 e d g i J 12 4 6 18 14 10,8 5,762 5,742 15,858
216 e d h i J 12 4 20 18 14 13,6 6,229 8,132 19,068
217 e e f cr
I:>
h 12 8 10 6 20 11,2 5,404 6,456 15,944
218 e e f cr
I:> i 12 8 10 6 18 10,8 4,604 6,758 14,842
219 e e f cr
I:> J 12 8 10 6 14 10,0 3,162 7,224 12,776
220 e e f h i 12 8 10 20 18 13,6 5,177 9,055 18,145
221 e e f h J 12 8 10 20 14 12,8 4,604 8,758 16,842
222 e e f i J 12 8 10 18 14 12,4 3,847 9,023 15,777
223 e e I:>cr h i 12 8 6 20 18 12,8 6,099 7,446 18,154
224 e e I:>cr h J 12 8 6 20 14 12,0 5,477 7,192 16,808
225 e e I:>cr i J 12 8 6 18 14 11,6 4,775 7,408 15,792
226 e e h i J 12 8 20 18 14 14,4 4,775 10,208 18,592
227 e f cr
I:> h i 12 10 6 20 18 13,2 5,762 8,142 18,258
228 e f g h J 12 10 6 20 14 12,4 5,177 7,855 16,945
229 e f g i j 12 10 6 18 14 12,0 4,472 8,074 15,926
230 e f h i J 12 10 20 18 14 14,8 4,147 11, 159 18,441
231 e g h i J 12 6 20 18 14 14,0 5,477 9,192 18,808
232 d e f g h 4 8 10 6 20 9,6 6,229 4,132 15,068
233 d e f g i 4 8 10 6 18 9,2 5,404 4,456 13,944
234 d e f g J 4 8 10 6 14 8,4 3,847 5,023 11,777
235 d e f h i 4 8 10 20 18 12,0 6,782 6,046 17,954
236 d e f h J 4 8 10 20 14 11 ,2 6,099 5,846 16,554
237 d e f i j 4 8 10 18 14 10,8 5,404 6,056 15,544
238 d e g h i 4 8 6 20 18 11,2 7,294 4,797 17,603
239 d e g h j 4 8 6 20 14 10,4 6,542 4,657 16,143
240 d e g i J 4 8 6 18 14 10,0 5,831 4,881 15,119
241 d e h i J 4 8 20 18 14 12,8 6,723 6,898 18,702
242 d f cr
I:> h i 4 10 6 20 18 11,6 7,127 5,343 17,857
243 d f g h J 4 10 6 20 14 10,8 6,419 5,165 16,435
244 d f g i J 4 10 6 18 14 10,4 5,727 5,372 15,428
245 d f h i j 4 10 20 18 14 13,2 6,419 7,565 18,835
246 d g h j 4 6 20 18 14 12,4 7,127 6,143 18,657
J
247 e f g h i 8 10 6 20 18 12,4 6,229 6,932 17,868
248 e f g h J 8 10 6 20 14 11,6 5,550 6,728 16,472
249 e f g i J 8 10 6 18 14 11 ,2 4,817 6,972 15,428
250 e f h i J 8 10 20 18 14 14,0 5,099 9,524 18,476
251 e g h i J 8 6 20 18 14 13,2 6,099 7,846 18,554
252 f cr
I:>
h i J 10 6 20 18 14 13,6 5,727 8,572 18,628 1
Capítulo IX. Infere nci a estadística: estimación de medias y proporciones 29 9

Bibliografía comentada
Tumer, J. C. (e.o. , 1976): Matemática moderna aplicada. Probabilidades, estadística e investigación
operativa. Madrid: Alianza Universidad.
Todos los manuales de estadística incluyen referencias al procedimiento de construcción de
intervalos para distintos estadísticos. De todos ellos únicamente por su claridad y por incluir
además de los estadísticos aquí señalados bastantes más, tanto simples como compuestos, desta-
camos el de este autor.
Soluciones a los ejercicios
propuestos

Capítulo 111
Ejercicio 1
La variable P5 utiliza una escala ordinal.
La variable P7 utiliza una escala nominal.
La variable P9 utiliza una escala nominal.

Ejercicio 3
La distribuciones de frec uencias absolutas y relativas sería la siguiente:
Edad n; Jr¡
De 20 a 29 14 0,18
De 30 a 39 17 0,21
De 40 a 49 22 0,28
De 50 a 59 18 0,23
60 o más 9 0,11

Total 80

Para mayor claridad de presentación de los datos y una lectura más sencilla se ha han
establecido cuatro categorías iguales de 10 años, dejando la última de tamaño ligeramente
menor, pues no hay nadie mayor de 66 años.
302 Estadística para la investigación social

Capítulo IV

Ejercicio 1
Número medio de hijos:
Protestante 1,00
Musulmana 1,20
Otras religiones 1,37
Tiene sus propias creencias 0,78
No creyente 0,64

Ejercicio 2
Densidad 122,2 hab./km 2

Ejercicio 3
Desviación
Varianza
típica

Católica practicante 1,817 1,348


Católica no practicante 1,274 1,129
Protestante 1,308 1,144
Musulmana 1,920 1,386
Otras religiones 1,821 1,349
Tiene sus propias creencias 1,140 1,068
No creyente 1,080 1,039

Ejercicio 4
D,,, 2 = 29
P1i , s5 = 43
D,,,, 4 = 30
Pm ,35 = 29

Capítulo V
Ejercicio 1
Utilizamos un diagrama de barras apiladas para representar conjuntamente el número de ma-
triculados en cada tipo de enseñanza universitaria y el sexo de los al umnos. En este caso
podemos utilizar las frecuencias absolutas en el eje vertical pues, al ser reducido el número
de categorías de la variable «sexo», se percibe claramente su distribución en cada uno de lo
tipos de enseñanza.
Soluciones a los ejercicios propuestos 303

Alumnos matriculados en enseñanzas universitarias en España. Curso 2007-2008.


700.000 .----------------------------~

600.000

.,,"'o 500.000
~'"
·E 400.000
'"
E
"'oe 300.000
E Mujeres
:::J
<(
200.000

100.000

o
Arquitectura e Diplomaturas Licenciaturas Arqu itectura e Títulos dobles
Ingenierías Técnicas Enseñanzas universitarias Ingenierías
Fuente: Estadistica de la Enseñanza Universitaria en España. INE

Ejercicio 2
Al igual que ocurría en 2007, en 1997 las mujeres se casaban a edades más jóvenes que los
hombres 1 • Sin embargo, en este caso ambas distribuciones alcanzan un pico en el intervalo
de 25 a 30 años, por lo que una importante cantidad de hombres y mujeres se casaba en ese
intervalo de edades. El gráfico muestra que la población de 1997 se casaba a edades más
jóvenes que la del 2007.

Hombres y mujeres que contraen matrimonio en España en 1997 según edad.


100.000 ~-------------------------

90.000 + - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
80.000 + - - - - - - - - r - ' " " ° - - - - - - - - - - - - - - - -

.,, 60.000 +-------1~-1--4rl----------------


gi. - + - Hombres
~ 50.000 +-----~ ........,___ _,....,._ _ _ _ _ _ _ _ _ _ _ _ _ __
e Mujeres
·O
u 40.000 +-----~-__..._----'I-~--------------

30.000 +------,~--,l~----<!J',_"""'" _ _ _ _ _ _ _ _ _ _ _ __

20.000 -+-----~----------'l-+-------------

<15 15 20 25 30 35 40 45 so 55 :;:, 60
Edad
Fuente: Movimiento Natural de la Poblac ión, 1997. INE

1
Ver Gráfico l O.
304 Estad íst ica para la invest iga ción social

Ejercicio 3

Trabajadores según ganancia salarial en 2006. Porcentaje acumulado.

%
100

90

75%
_. 80
70

60

so
40

30
25% _ .
20

10

o
o 1 ¡ 2 3 ¡ 4 5 6 7 8 >8

lQ 3Q
SM I

Fuente: Encuesta de Estructura salarial en España, 2006. INE

Ejercicio 4
Evolución de la tasa de Paro en España. Media anual.

2001 2002 2003 2004 2005 2006 2007 2008


Fuente: Encuesta de Población Activa. INE
Soluciones a los ejercicios propuestos 305

Ejercicio 5
El gráfico muestra que existe una asociación negativa entre las variables consideradas, es
decir, que conforme aumenta la mortalidad infantil, disminuye la esperanza de vida, y vice-
versa. Se aprecia que existe un grupo con baja mortalidad infantil y elevada esperanza de
vida formado por los países con mayores niveles de desarrollo económico y los países medi-
terráneos, además de Portugal. Los países más orientales se sitúan en un segundo grupo don-
de la esperanza de vida no supera los 73 años y las tasas de mortalidad infantil son más altas.
Encontramos igualmente algunas situaciones de transición representadas por la República
Checa, Polonia y Eslovaquia, y el caso atípico de Estonia que, sin llegar a pertenecer al gru-
po de los países con mortalidad infantil más elevada, es el país con menor esperanza da vida
de la UE.
Índice de mortalidad infantil y esperanza de vida al nacer en los países de la UE (2007).
82
Sue + + 4
80 Aus + + P. Baj

e
"'
e
78
-¡;¡
Lux +
.3
• 1 • 2 + R. Un

~"' 76 + R.Ch + Poi


..,
QI
+ Eslvq
"'...
~ 74


QI
c.
Hun + + Let + Bul
"'
w
Lit + Rum
72

Est +
70
o 2 4 6 8 10 12 14 16
Mortalidad infantil

1: Alemania, Finlandia, Grecia, Irlanda 3: Dinamarca, Eslovenia, Portugal


2: Bélgica, Chipre, Malta 4: Francia, España, Italia
Fuente: Undata. Naciones Unidas

Ejercicio 6
El gráfico propuesto es incompleto e incorrecto. No figura el título, por lo que no se sabe qué
datos se están representando. Falta la escala del eje horizontal con el correspondiente etique-
tado de los valores de la variable, así como el rotulado del eje de ordenadas. Tampoco figura
la fuente de procedencia de los datos.
Por otra parte, hay elementos incorrectos. En primer lugar, el eje vertical no comienza en
cero, por lo que es necesario marcar la discontinuidad en el eje. En segundo lugar, se ha
contraído el eje horizontal, produciendo la ilusión óptica de intensificar la tendencia descrita
por los datos . Una representación gráfica correcta de los datos sería la siguiente:
306 Estadística para la investigación social

Evolución del Índice de Precios de la Vivienda . Base (2007 = 100).


104 ~~~~~~~~~~~~~~~~~~~~~~-

IPV

Fuente: Estadística del IPV. INE

Capítulo VI
Ejercicio 1
a) El espacio de sucesos está formado por todas las posibles muestras que se pueden extraer
con los elementos de Ja población. Por tanto, teniendo en cuenta el tamaño de la muestra,
tendremos las siguientes posibilidades:
Muestras de tamaño= 1: {a, b, e, d, e}
Muestras de tamaño= 2: {ab, ac, ad, ae, be, bd, be, cd, ce, de}
Muestras de tamaño= 3: {abe, abd, abe, acd, ace, ade, bcd, bce, bde, cde}
Muestras de tamaño= 4: {abcd, abce, abde, acde, bcde}
Muestras de tamaño= 5: {abcde} (Suceso Seguro)
Y el suceso imposible: { 0 }
b) El espacio está formado por 32 sucesos (r = 25 = 32).

Ejercicio 2
a) Para saberlo hemos de construir primero el espacio muestra] :

E = {(roja, blanca, rosa) (roja, blanca, amarilla) (roja, rosa, amarilla)


(blanca, rosa, amarilla)}

El espacio muestra! está formado por 4 posibles sucesos y, por tanto, son 4 los posibles
ramilletes formados por tres flores .
b) La probabilidad de que el ramillete contenga una flor amarilla es de 3/4 = 0,75.
Soluciones a los eje rcicios propuestos 307

Ejercicio 3
Dado que para esta población hay 10 posibles muestras de dos elementos, las probabilidades
pedidas son las siguientes:
a) La probabilidad de que aparezca el individuo «a» es de 4/10 = 0,4.
b) La probabilidad de que aparezca al menos un individuo con letra alfabéticamente ante-
rior a la «C» es de 7110 = 0,7.

Ejercicio 4
Del espacio muestra] (todas las posibles muestras de tamaño 2) se sigue que:
a) La probabilidad de que salga al menos un individuo de izquierda es 8/12 = 0,6667.
b) La probabilidad de que aparezca al menos un individuo de derecha es 10/12 = 0,8333.

Ejercicio 5
El espacio muestra! de este experimento aleatorio es el siguiente:

E = {id, id, ii, dd, di, di}

De ahí se sigue que:


a) La probabilidad de que los dos individuos sean de derecha es 1/6 = 0,1667.
b) La probabilidad de que al menos uno de los individuos sea de izquierda es 5/6 = 0,8333.

Ejercicio 6
a) La probabilidad de extraer un/a soltero/a es 0,4356:

Población de solteros/as 17 .682.302


------- = =o 4356
Total población española 40.595.861 '

b) En este caso se pide la probabilidad del suceso complementario al anterior, es decir, la


probabilidad de extraer una persona cuyo estado civil no sea «soltero/a». Teniendo en
cuenta la probabilidad obtenida en el apartado a) su cálculo es sencillo: a la probabilidad
del «s uceso seguro» (1) le restamos la probabilidad de «ser soltero/a» (0,4356).
Por tanto la probabilidad de extraer una persona que no sea soltero/a es:

p = 1 - 0,4356 = 0,5644

Ejercicio 7
a) Las provincias andaluzas que limitan con el Mar Mediterráneo son Cádiz, Málaga, Gra-
nada y Almería. Por tanto, considerando conjuntamente la población de esas provincias, la
probabilidad pedida sería:

1.244.732 + 1.594.808 + 922.100 + 688.736 4.450.376


p = 8.371.270
= 8.371.270 =o ,532
308 Estadística para la investigación social

b) Las provincias andaluzas de interior son Sevilla, Córdoba y Jaén. Procediendo de la mis-
ma forma que en el apartado anterior tenemos la probabilidad pedida:

1.930.941 + 802.575 + 667.484 3.401.000


p = = =o 406
8.371.270 8.371.270 '

e) Se pide la probabilidad del suceso complementario del apartado b): las provincias que
limitan al mar son todas aquellas que no son de interior. Entonces, la probabilidad es:

p = 1 - 0,406 = 0,594

Ejercicio 8
a) Sabiendo que hay 8.202 residentes en Velilla, la probabilidad de extraer uno de ellos en-
tre el total de la población española es bastante baja:

8.202
p = =o 0002
40.595.861 '

b) Considerando conjuntamente los intervalos de edad inferiores a 40, tenemos que la pro-
babilidad de extraer aleatoriamente un residente de Velilla menor de 40 años es:

1.354 + 1.017 + 1.397 + 2.034 5.802


p = = -- = o 7074
8.202 8.202 ,

Ejercicio 9
Para saber el número de muestras (sin reposición) es necesario hallar las combinaciones co-
rrespondientes:
-(15)- 15! - 15·14· 13 · 12· ll · 10·9+ - 3.603.600 -
a) C 15 - - -- - - - 5.005 muestras de
'6 6 6!. 9! 6 . 5 . 4 . 3 . 2 . 1 . 9+ . 720 -
tamano 6

15) 15! 15·14·13·.P-! 2.730


b) C 15 =( = -- = = - - = 455 muestras de tamaño 3
'3 3 3!·12! 3·2 · l · +P. 6

Ejercicio 1O

-(10º)- 100! - 100·99·98·97·96·95·94·93·92·91 ·9º+ -


1o
C100 10 - - - -
' 10 ! . 90 ! 10 . 9 . 8 . 7 . 6 . 5 . 4 . 3 . 2 . 1 . 9G+
62.8 15.650.955.529.472.000
- - - - - - - - - - = 17.310.309.456.440 muestras de tamaño 10
3.628.800

Es decir, ¡más de 17 billones de muestras!


Solucion es a los ejercicios propuestos 309

Ejercicio 11
a) Se trata de una probabilidad de sucesos condicionados:

38 4 152
p = P(E)· P(A /E) = - X - = - - = 005
80 38 3.040 '

4
Si observamos directamente la tabla, vemos que P = = 0,05.
80
b) Probabilidad de sucesos condicionados:

18 15 270
p = P(S)·P(A/S) = - X - = - - =o 1875
80 18 1.440 '

15
O directamente desde la tabla: P = = 0,1875.
80
e) Probabilidad de la unión de sucesos mutuamente excluyentes:

38 24 62
P = P(E) + P(M) = - + - = - = O775
80 80 80 '

d) Probabilidad de la intersección de sucesos condicionados:

38 34 1.292
p = P(E). P(B/ E) = 80 X 38 = 3.040 = 0,4 25

34
Observando directamente la tabla: P = = 0,425 .
80
e) Probabilidad de la unión de sucesos compatibles:

18 29 15 32
P = P(S) + P(A) - P(S nA) = - +- - -= - =O 4
80 80 80 80 '

f) Se pide hallar la probabilidad de encontrar dos personas sucesivamente sin reposición (al
extraer un individuo de estudios C «no lo devolvemos» a la población para encontrar al
segundo individuo de estudios C. Por tanto, al extraer el primer individuo, nos queda en
el conjunto un individuo menos con estudios C (que supone también un individuo menos
en el total poblacional):

Ejercicio 12
a) (S) = 18 elementos
b) (B) = 51 elementos
31 O Estadística para la investigación social

e) (Mu S) = 24 + 18 = 42 elementos
d) (M n S) = O elementos (es el conjunto vacío 0)
e) (Bu M) = B + M - B n M = 51 + 24 - 14 = 61 elementos
f) (B nA) =O elementos (es el conjunto vacío 0)
g) (B n M) = 14 elementos
h) {E u (Mu S)} = 38 + 24 + 18 = 80 elementos (el total poblacional)
i) {En (Mu S)} =O elementos (es el conjunto vacío 0)
j) {Eu(MnS)} = 38 +O= 38 elementos
k) { B n (Mu S)} = 14 + 3 = 17 elementos

Capítulo VII
Ejercicio 1
En primer lugar tenemos que localizar, en la función de densidad, la probabilidad asociada al
intervalo de edades que comprende a los individuos que tengan entre 35 y 44 años. Ese inter-
valo es 35 ::::;; x < 50, de tal forma que:

p(35 ::::;; X < 50) = 0,2079/ 15 = 0,01386

Como 0,1386 representa la probabilidad de encontrar un individuo que tenga una edad
concreta en años dentro de ese intervalo, la probabilidad pedida en el ejercicio resultará de
multiplicar esta probabilidad por la amplitud del intervalo. Al considerar la variable «edad»
como «años cumplidos», el intervalo incl uye a los habitantes sorianos que tengan 35, 36, 37.
38, 39, 40, 41, 42, 43 y 44 años. Por tanto, la amplitud del intervalo es 45 - 35 = 10.
Así, la probabilidad de encontrar un individuo entre 35 y 44 años es:

p(35 ::::;; X< 45) = 0,01386 X 10 = 0,1386

Ejercicio 2
a) La distribución de probabilidad resulta de calcular la frecuencia relativa para cada uno de
los intervalos de edades:

X p (x)

Menos de 20 años 0,1969


De 20 a 34 0,1829
De 35 a 49 0,2373
De 50 a 64 0,1859
Más de 64 0,1970

Total 1,0000
Soluciones a los ejercicios propuestos 311

b) La probabilidad pedida implica dos intervalos de edades cuya probabilidad de ocurrencia


es distinta: p(30 ~ x > 35) u p(35 ~ x > 50).
La probabilidad de seleccionar un individuo entre 30 y 34 años es:
0,1829
p(30 ~X> 35) = - - - X 5 = 0,061
15
La probabilidad de encontrar un individuo que tenga entre 30 y 49 años es:

P(30 ~ x > 50) = 0,061 + 0,2373 = 0,2983

Ejercicio 3
La comparación de medias de una distribución binomial nos ayuda:
Oposición A) µ = n · p = 5 x 0,25 = 1,25
Oposición B) µ = n · p = 9 x 0,15 = 1,35

La situación más ventajosa es la segunda porque tiene una media mayor.

Ejercicio 4
1.764.987
a) p = = 0,5516
3.199.617
El valor esperado para una muestra de n = 20 será:
µ = n·p = 0,5516 X 20 = 11 ,03
Por tanto, esperamos encontrar 11 empresas sin asalariados en una muestra de 20 em-
presas.
b) n = 1.000
µ = n · p = 0,5516 X 1.000 = 551,6
Esperamos encontrar de 552 empresas sin asalariados, es decir, algo más de la mitad
del total de la muestra.
122.183
e) p = = 0,03819
3.199.617
X= 2, n = 15
La probabilidad pedida será:

P(x = 2) = (:)-px-qn -x= (1;) X 0,03819 2 X 0,96181 13 =

= 105 X 0,001458 X 0,60278 = 0,014127


La probabilidad de encontrar 2 «pequeñas empresas» (entre 10 y 49 asalariados) en
una muestra de 15 es 0,0141 (o también, del 1,41 %).
312 Estadística para la investigación social

1.288.390
d) p = = 0,40267
3.199.617
X~ 7, n = 10

p(x ~ 7) = 7
7
(1 º) x 0,40267 x 0,59733 3 + (1 º) x 0,40267 x 0,59733
8
8 2
+ (1 º) x
9
10
X 0 ' 40267 9 X 0 ' 59733 1 + ( 10) X 0 ' 40267 1º X 0 ,59733º =

= 0,04390047 + 0,0110978 + 0,0016625 + 0,0001121 = 0,05677287

La probabilidad de que en una muestra de 10 empresas aparezcan al menos 7 que


tengan entre 1 y 9 asalariados es 0,0568 (o también, del 5,68 %).

1.764.987 + 1.288.390
e) p = = 0,9543
3.199.617
X~ 6, n = 10

p(x ~ 6) = (1 º) x 0,9543 x 0,0457


6
6 4
+ (~º) 7
x 0,9543 x 0,0457
3
+ (1 º) x
8

X 0,9543
8
X 0,0457
2
+ (19º) X 0,9543
9
X 0,0457
1
+ G~) X

X 0,9543 1º X 0,0457º = 0,000691821 + 0,008255138 +


+ 0,064643417 + 0,299971859 + 0,626396379 = 0,99995861

La probabilidad de que en una muestra de 1O empresas aparezcan al menos 6 que


tengan menos de 10 asalariados es de 0,9999586, es decir, una probabilidad muy cercana
al suceso seguro.

1.288.390 + 122.183
t) p = = o 44086
3.199.617 '
X = 3, n = 10

7
p(X = 3) = (1 º) X 0,44086 3 X 0,55914 = 0,175682
3

La probabilidad de que en una muestra de 10 empresas aparezcan 3 que tengan entre


1 y 49 asalariados es de 0,175682 (o también, del 17,57%).

1.288.390 + 122.183
g) p = = 0,44086
3.199.617
X ~ 2, 11 = 7
Soluciones a los ejercicios propuestos 313

p(x :::; 2) = (~) x 0,44086° x 0,55914


7
+ G) 1
x 0,44086 x 0,55914
6
+ G) x

X 0,44086 2 X 0,559145 = 0,017086 + 0,094302 + 0,223061 =

= 0,334449

La probabilidad de que en una muestra de 7 empresas haya como mucho 2 que tengan
entre 1 y 49 asalariados es de 0,33445 (o también, del 33 ,44%).

Ejercicio 5
a) Estandarizamos x en unidades z
x-µ 33 - 30
z =-- - - = 0,5454 ~ 0,55
X (J
5,5

Localizamos Zx = 0,55 en la tabla de probabilidades de la di stribución normal , y ob-


tenemos 0,2088, que es la probabilidad de que el primer hijo nazca entre los 30 y los 33
años.
Así, la probabilidad de que el primer hijo nazca a partir de los 33 años es:

0,5 - 0,2088 = 0,2912

El 29,1 % de las mujeres españolas tuvieron su primer hijo a partir de los 33 años.

X - µ 25 - 30
b) Zx = - - = = -0,909 ~ -0,9 1
(J 5,5

El área correspondiente en la tabla para Zx = - 0,91 es 0,3186, que es la probabilidad


de que el primer hijo nazca entre los 25 y los 30 años.
La probabilidad de que nazca antes de los 25 años es: 0,5 - 0,3 186 = 0,1814. Es
decir, en el 2011 el 18,14% de las madres han tenido su primer hijo antes de los 25 años.

X - µ 32 - 30
e) Zx = -- = = 0,3636 ~ 0,36
(J 5,5

La tabla señala que el área correspondiente al valor Zx = 0,36 es 0,1406, es decir, la pro-
babilidad de que el primer hijo nazca cuando la mujer tiene entre 30 y 32 años. La probabili-
dad de que nazca antes de los 32 años es

0,5 + 0,1406 = 0,6406

El 64,1% de las madres españolas han tenido su primer hijo antes de los 32 años.
314 Estadística para la investigac ión social

d) Tenemos que calcular Jos valores Zx correspondientes a dos valores de x:

X - µ 28 - 30
zx, = -(J- = S,S = - o,3636 ~ o,36
37 - 30
Z X2 = = 1,2727 ~ 1,27
S,S

Mirando Ja tabla, vemos las áreas correspondientes:


Zx, = 0,36--+ 0,1406 (probabilidad de que el primer hijo nazca entre Jos 28 y los 30 años)
Zx2 = 1,27 --+ 0,3980 (probabilidad de que el primer hijo nazca entre los 30 y los 37 años)
La probabilidad de que el primer hijo nazca entre los 28 y los 37 años es:

0,1406 + 0,3980 = O,S386


El S3,86% de las madres españolas tienen su primer hijo entre los 28 y los 37 años.

Ejercicio 6
a) Tipificamos en valores Z, aplicando la corrección de continuidad:

(x + O,S) - µ (30 + O,S) - SO


z~ =
(J
=
10
= -1 9S
'

(x - O,S) - µ ( 40 - O,S) - SO
Zx2 = = -1,0S
(J 10

Vemos en la tabla de la distribución normal que las áreas correspondientes son:

zx, = - l,9S --+ 0,4744


Z X¡ = - l,OS--+ 0,3S31

La probabilidad de esperar entre 30 y 40 días será:

0,4744 - 0,3431 = 0,1313

(x - O,S) - µ ( 4S - O,S) - SO
b) Z = = =-O SS
X (J 10 '

Vemos en la tabla que el área que corresponde a Zx = -0,SS es 0,2088.


Por tanto, la probabilidad de esperar menos de 4S días es :

O,S - 0,2088 = 0,2912

El 29,1 % de los pacientes tendrán que esperar menos de 4S días: más del 70% de lo
mismos esperará más de 4S días para ser atendido por el especialista.
Soluciones a los ejercicios propuestos 315

Capítulo VIII
Ejercicio 2
a) µ = 11 b)
- Número
X
de muestras

4
5 1
6 1
7 2
8 2
9 3
10 3
11 4
12 3
13 3
14 2
15 2
16 1
17 1
18

e)

"'~
t;; 3 + - - - - - - - - - - - -
Qj

"E
QJ
"C

.,~
E 2+---------
·::i
z

1+------

4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Medias de las muestras

d) µi: = 11
316 Estadística para la investigación socia l

Ejercicio 3
n = 385

Ejercicio 4
n = 4.161

Ejercicio 5
a) n = 399
b) n = 400

Ejercicio 6
n = 650

Ejercicio 7
n=8

Ejercicio 8
a)

Albacete 1,08939496
Ciudad Real 1,22881488
Cuenca 0,51283202
Guadalajara 0,57806501
Toledo 1,59089313

b) p = 0,45

Capítulo IX

Ejercicio 1
Hombres entre 20.794,6 y 23.205,4 euros anuales.
Mujeres entre 15318 y 17082 euros anuales.

Ejercicio 2
La proporción oscilará entre 20,8% y 25 ,2%.
Soluciones a los ejercicios propuestos 317

Ejercicio 3
Entre 58,95 % y 72,25 %.

Ejercicio 4
La diferencia en viajes al extranjero entre activos e inactivos es entre 1,4 y 1,8 viajes menos
de media por parte de los inactivos respecto a los activos.

Ejercicio 5
Entre -0,001 y 0,131. En porcentaje entre - 0,1 % y 13,1%. Los resultados indican que a
pesar de los resultados la diferencia podría ser incluso favorable a las áreas rurales, aunque
irrelevante (0,1 %). Los datos señalan que en las áreas urbanas podría haber hasta un 13%
más de hogares con vehículo que en las áreas rurales si bien también podría suceder que la
proporción de hogares con vehículo fuera idéntica.

Ejercicio 6
El tiempo medio de desplazarrúento ha crecido entre 1 y 25 ,8 minutos en el último año.
Glosario

Afijación: Procedimiento de distribución de los elementos de la muestra entre los estratos.


Agregación de los datos: Agrupación en categorías de los datos individuales según algún
criterio de clasificación. De uso muy corriente es la agregación geográfica: así tendremos los
datos agregados a nivel provincial, municipal, en NUTS-2, etc.
Censo: Operación de recuento y recogida de información de todos los elementos de una po-
blación respecto a una serie de variables. El recuento se refiere siempre a un período y un
ámbito espacial concreto, como el Censo de Población.
Cobertura: Adecuación de la población utilizada para la extracción de la muestra con el
universo o población definida.
Codificación: Acción de asignación de valores numéricos a las distintas clases de elementos
posibles dentro de una variable para poder tratar la información estadísticamente.
Coeficiente de variación: Medida de dispersión relativa. Se calcula dividiendo la Desvia-
ción estándar por la Media y multiplicando por 100. Permite comparar la dispersión de dis-
tintos grupos de datos.
Combinaciones: Total de subconjuntos o muestras de un determinado tamaño que podemos
extraer de una población conocida.
Conglomerado: Unidad colectiva de agregación de elementos de una población.
Cuartiles: Son medidas de localización. A partir de los datos ordenados de menor a mayor
valor, el primer cuartil es el valor que divide los datos en dos grupos, uno compuesto por el
25 % de los elementos que tienen los valores menores y otro con el 75 % de los elementos,
que tienen Jos valores mayoress. El segundo cuartil es la Mediana, su valor divide la distri-
bución en dos grupos al 50%. El valor del tercer cuartil, forma dos grupos: uno que concen-
tra al 75 % de los elementos que tienen los valores inferiores y otro con el 25 % de los ele-
mentos que tienen los valores superiores.
Cuasidesviación: Raíz cuadrada de la cuasivarianza.
Cuasivarianza: Estimador de la varianza a partir de una muestra. Se diferencia de la varian-
za en que el denominador son los grados de libertad y no el número de elementos de la
muestra.
Cuotas: Sistema de muestreo no probabilístico en el que la asignación de los elementos
muestrales se realiza en función de la distribución de las características poblacionales.
320 Estadística para la investigación social

Desviación media: Es la media de las distancias en valores absolutos (sin tener en cuenta
los signos positivo y negativo) de cada uno de los elementos de la distribución respecto a la
Media.
Desviación típica o desviación estándar: Es la principal medida de dispersión. Como la
varianza, es una media de las distancias de los elementos de la distribución respecto a la
Media. Es Ja raíz cuadrada de la varianza.
Diagrama de barras: Gráfico para variables cualitativas y cuantitativas de tipo discreto. En
el eje horizontal representa los valores de la variable separados entre sí, y en el eje vertical 1
frecuencia de cada uno de ellos mediante una barra cuya altura equivale a su frecuencia.
Diagrama de barras apiladas: Gráfico de barras que representa en cada una de ellas un
población o una variable dividida en las categorías que la componen, y donde cada categorí
indica su importancia relativa respecto al resto de categorías de la población o variable.
Diagrama de caja: Gráfico consistente en una caja rectangular cuyos lados superior e infe-
rior muestran el recorrido intercuartílico. La caja se divide por una línea que indica la posi-
ción de la mediana, y de cada lado superior e inferior sobresale perpendicularmente una lí-
nea cuya longitud señala a qué distancia se encuentran los casos extremos. Más allá de e
longitud cualquier caso aparece indicado individualmente, interpretándose como «caso atípi-
co».
Diagrama de dispersión: Gráfico que representa la distribución conjunta de dos variables.
Cada elemento se representa a través de los valores emparejados de dos variables mediante
un gráfico cartesiano (.xy) con dos ejes perpendiculares.
Diagrama de líneas para series temporales: Gráfico para estudiar el cambio y la evolució
de las variables a lo largo del tiempo. En el eje horizontal se sitúan los intervalos temporale_.
y en el eje vertical las frecuencias de las variables consideradas.
Diagrama de sectores: Gráfico para variables cualitativas que consiste en un círculo en e
que se representa la población, subdividido en varias partes o sectores, cada uno de los cua-
les representa una categoría de la variable considerada. El arco de cada sector equivale a
frecuencia de cada categoría.
Diseño estratificado de Neyman: Procedimiento de afijación que distribuye los element -
muestrales de forma proporcional al tamaño y la varianza poblacional de los estratos.
Diseño estratificado proporcional: Procedimiento de afijación que distribuye los elemen-
tos muestrales de forma proporcional al tamaño poblacional de los estratos.
Diseño estratificado uniforme: Procedimiento de afijación que distribuye equitativame~
los elementos muestrales entre los estratos.
Distribución binomial de probabilidad: Distribución que resulta de un experimento
Bernoulli. Se genera partiendo de una variable nominal dicotómica codificada como O y
(El 1 representa el éxito y el O el fracaso). Señala la probabilidad que tienen las distin -
combinaciones de éxitos y fracasos en un determinado número de realizaciones.
Distribución de probabilidad: Es la distribución de los casos de una población clasifica
mediante una variable que recoge las probabilidades asignadas a cada uno de los valore -
ésta. Describe cómo se distribuyen las probabilidades de los diferentes valores de esa vari -
Glosario 321

ble. Cuando se asocia al muestreo de la población nos da la probabilidad de extraer aleato-


riamente un individuo de una determinada clase de la población según el supuesto de mues-
treo aleatorio simple. Cuando estamos en poblaciones finitas nos indica la frecuencia de apa-
rición de un determinado valor. Según la variable clasificatoria que utilicemos tendremos
distribuciones de probabilidad discretas y continuas; y según respondan a datos empíricos o
a funciones teóricas, las tendremos empíricas y teóricas. En investigación social nos intere-
san especialmente las distribuciones de probabilidad muestrales.
Distribución de probabilidad continua: Aquella asociada a una variable numérica conti-
nua. Suele ser una distribución teórica. Entre las más destacadas de este tipo de distribución
tenemos la normal y la t de Student.
Distribución de probabilidad discreta: Aquella asociada a una variable nominal o a una
numérica discreta. Una de ellas es la distribución binomial.
Distribución de probabilidad empírica: Aquella que resulta de unos datos concretos obte-
nidos empíricamente. En ocasiones interesa conocer en qué medida estos datos se ajustan a
una distribución teórica.
Distribución de probabilidad teórica: Aquella que resulta de aplicar una función teórica a
un dominio de un conjunto numérico .. Destaca la distribución normal; pero también ejem-
plos de ésta son la binomial, la ji-cuadrado, la t de Student o la F de Fisher.
Distribución muestra): Distribución de los valores posible de un estadístico en todas las
muestras posibles de tamaño n.
Distribución muestra! de probabilidad: Es la distribución de probabilidad asociada a un
estadístico concreto en el conjunto de muestras de un determinado tamaño que pueden
extraerse de una población. Este estadístico puede ser, por ejemplo, el valor medio de una
muestra. Así, la distribución de todas las medias de todas las muestras de un determinado
tamaño nos genera una distribución muestra! en donde cada valor de estas medias tiene aso-
ciado una determinada probabilidad.
Distribución normal de probabilidad: Es una distribución teórica continua, definida a tra-
vés de la media y de la desviación típica, de gran importancia en estadística inferencia], ya
que toda distribución muestra] de medias es normal. Es una distribución simétrica, tal que
(sea cual sea su media y su desviación típica) contiene siempre la misma proporción de ca-
sos entre la media y cualquier valor que diste de ésta unas unidades de desviación típica
establecidas. Así, por ejemplo, el intervalo de valores comprendido entre la media y más/
menos una desviación típica concentra el 68,2% de los casos; y el intervalo entre la media y
más/menos 1,96 desviaciones típicas contiene el 95 % de los casos.
Distribución normal estándar: Es una distribución normal que tiene de media O y de des-
viación típica l. Toda vmiable que se distribuya normalmente, cualquiera que sea su media y
su desviación típica, puede estandarizarse, es decir, transformarse en una variable con distri-
bución normal estándar, transformando sus valores en unidades de desviación típica, esto es,
en valores Z.
Distribución t de Student de probabilidad: Es una distribución muestra] que nos permite
realizar inferencias cuando desconocemos la varianza de la variable considerada en la pobla-
ción.
322 Estadística para la invest igación social

Distribución uniforme de probabilidad: Aquella en que la probabilidad se distribuye por


igual en todos los casos o en todos los grupos de la población.
Encuesta: Técnica amplia de recogida de datos en investigación mediante el uso de mues-
tras. La muestra se selecciona con determinados criterios para que sea representativa de la
población.
Error estadístico: Es el error producido por utilizar observaciones muestrales. Es la medida
de la distancia entre el valor del estadístico obtenido en la muestra y el valor del parámetro
en la población. En muestras aleatorias es posible conocer su magnitud.
Error estándar: Vid. Error típico.
Errores no estadísticos: Son errores producidos por defectos de los instrumentos de medi-
da, de las condiciones en las que se establece la medida, así como de otro conjunto de erro-
res en la transmisión de los datos.
Error típico: Es la medida de dispersión (varianza) de la distribución muestra!.
Escalas: Sistemas de representación de los valores numéricos. Su uso en los gráficos depen-
de del fenómeno estudiado y de la información relevante que se desea transmitir.
Escala aritmética: Tipo de escala en la que los valores están igualmente espaciados, de for-
ma que Ja distancia entre cada variación es Ja misma.
Escala de intervalo: Nivel de medida que permite representar (con una unidad de medida)
la distancia entre categorías o individuos ordenados por sus valores.
Escala logarítmica: Tipo de escala utilizada en gráficos cuando el recorrido de las variable
es de gran amplitud y cuando interesa reflejar los cambios relativos. Dado que normalmente
utiliza logaritmos en base diez, viene representada por potencias de base diez.
Escala nominal: Nivel de medida que permite definir subconjuntos en una población y cla-
sificar objetos según la forma en que presenten una característica.
Escala ordinal: Nivel de medida que permite ordenar las categorías de clasificación según
el grado en que presenten una característica.
Espacio muestral: Conjunto de todos los resultados posibles de un experimento aleatorio.
Estadístico: Es el valor que obtenemos a partir de una muestra y que representa al paráme-
tro.
Estimación: Procedimiento de obtención de los valores poblacionales a partir de los valores
muestrales.
Estratos: Son subconjuntos o grupos del universo, de forma que todos los elementos perte-
necen a uno de los grupos y sólo a uno.
Fenómeno o experimento aleatorio: Proceso cuyos resultados no se pueden predecir con
exactitud o certeza absoluta: sólo en términos de probabilidad de ocurrencia. Estaremos ante
un fenómeno de este tipo si se produce de modo espontáneo o natural. Cuando se produce
bajo control del investigador estaremos ante un experimento.
Frecuencia: Resultado del recuento del número de veces que se repite un suceso o del nú-
mero de veces que se presenta un individuo con determinada característica.
Glosario 323

Frecuencia absoluta: Recuento expresado en número de casos en una categoría.


Frecuencia acumulada: Sumatorio de las frecuencias absolutas o relativas de cada catego-
ría, de forma que la frecuencia acumulada de una categoría sea la suma de la frecuencia
absoluta de la misma y la de las anteriores categorías ordenadas. El orden de la suma puede
ser ascendente o descendente.
Frecuencia relativa: Recuento de los casos en una categoría expresado como parte o frac-
ción del total.
Fuente primaria de datos: Es la información estadística bruta original referida a cada uno
de los elementos de una población, como los ficheros de microdatos que ofrece el INE en la
Encuesta de Población Activa.
Fuente secundaria de datos: Es la información estadística elaborada a partir de datos pro-
ducidos anteriormente, como las tablas que encontramos publicadas en estudios en los que
se emplea o reelabora información producida en otra parte.
Función aleatoria: Regla que asigna probabilidades a cada uno de los valores de una varia-
ble (aleatoria).
Gráfico: Representación de una distribución de datos mediante puntos, líneas, áreas y otras
formas geométricas asignando a cada valor su frecuencia (bien sea absoluta, relativa o acu-
mulada) en la población, con la finalidad de mostrar las relaciones de entre elementos y la
estructura de las variables.
Gráfico de áreas apiladas: Diagrama que compara la estructura de dos poblaciones (o dos
categorías de una variable) según los valores adoptados por una variable continua. Las po-
blaciones quedan representadas como superficies que se apilan verticalmente, siendo el total
la suma de las superficies.
Gráfico semilogarítmico: Diagrama que utiliza la escala aritmética en el eje X y la escala
logarítmica en el eje Y.
Histograma: Gráfico de superficies para variables cuantitativas de tipo continuo. Los valo-
res de la variable se agrupan en intervalos situados de forma creciente de izquierda a derecha
en el eje horizontal, y el peso de cada categoría se representa a través del área contendida en
el rectángulo correspondiente.
Intervalo: Es un rango de valores entre dos dados.
Intervalo de confianza: Rango de valores posibles de estimación para un nivel de confianza
dado.
Intervalo de Wilson: Fórmula para el cálculo de intervalos de confianza para la proporción
en muestras pequeñas.
L: Número de estratos.
Límites de los intervalos: En las variables con unidad de medida, los límites de los interva-
los son los valores inferior y superior de las categorías en un conjunto de datos ordenado.
Marco: Registro físico de todos los elementos que componen una población.
324 Estadística para la investigación social

Media: Es una medida de tendencia central que se calcula sumando todos los elementos de
la distribución y dividiendo por el total. Tiene mucha utilidad para comparar colectivos.
Cuando utilizamos la Media como elemento de comparación hacemos como si todos Jos ele-
mentos del conjunto tuvieran el mismo valor.
Mediana: Es el valor que divide el conjunto de elementos de la distribución en dos partes
iguales: un 50% queda por debajo y otro 50% queda por encima. También es una medida de
tendencia central.
Microdatos: Registro informático que contiene la información detallada de cada elemento o
individuo.
Moda: Es el valor de la distribución con la frecuencia más alta. El valor que más se repite de
la distribución.
Muestra: Es la parte del universo sobre la que vamos a obtener información con la finalidad
de conocer la población.
Muestra aleatoria simple: Muestra en las que todos los elementos de una población tienen
la misma probabilidad de ser seleccionados.
Muestras independientes: Término que se refiere a procedimientos de comparación de ob-
servaciones. Quiere decir que las observaciones que se comparan no tienen relación entre sí.
Muestra probabilística: Es la muestra que es seleccionada mediante algún procedimiento
de atribución de probabilidades a los elementos de una población.
Muestras relacionadas: Término que se refiere a procedimientos de comparación de obser-
vaciones. Quiere decir que las observaciones no han sido tomadas de forma independiente
entre ellas. Por lo general se produce cuando comparamos observaciones distintas proceden-
tes de la misma unidad muestral.
Muestras representativas: Subconjuntos de elementos que producen conocimiento sobre
otros conjuntos más amplios.
Muestreo aleatorio: Se define como la extracción de una muestra de una población utili-
zando procedimientos probabilísticos.
n: Número de elementos de una muestra.
N: Número de elementos de una población.
Nivel de confianza: Es la probabilidad que existe de que el error estadístico no sea mayor
que un valor preestablecido.
Niveles de medición de las variable: Llamamos niveles o escalas de medición a los diferen-
tes procedimientos empleados para asignar valores a las características reales observadas.
Los niveles están jerarquizados según la cantidad de información que proporcionan, desde el
nivel más básico que sólo permite la clasificación, hasta el nivel más complejo que permite
la medición en unidades de intervalo.
Nube de puntos: Vid. Diagrama de dispersión.
NUTS: Nomenclatura estadística de las unidades territoriales y administrativas de Ja Unión
Europea. Acrónimo de la expresión francesa «nomenclature des unités territoriales statisti-
Glosario 325

ques». Tiene tres niveles de agrupación, atendiendo a la extensión y la densidad poblacional


de los territorios.
Ojiva: Gráfico que representa distribuciones de frecuencias acumuladas. En el eje Y se indi-
can las frecuencias o porcentajes acumulados, y en el eje X los límites de los intervalos de la
variable.
Outlier: Dato atípico que se aleja extremadamente de la tendencia central de los demás da-
tos. Su aparición puede deberse a errores en la medición, transcripción o el tratamiento de
los datos, aunque también pueden corresponder a casos que no pertenecen a la población
objeto de estudio o, simplemente, a casos que se alejan extraordinariamente de la tendencia
central y que, por tanto, requieren una atención especial por parte del investigador.
Parámetro: Es el valor que toma la población respecto a un indicador utilizado para resumir
la información que nos interesa de dicha población.
Percentiles: Los percentiles dividen la distribución en 100 partes iguales. Por ejemplo, orde-
nados de menor a mayor, el percentil 80, es el que deja el 80% de los casos por debajo.
Población: También denominada universo. Es el conjunto de todas las unidades del que se
extrae una muestra. Este conjunto debe estar convenientemente definido y referido a un mo-
mento del tiempo y un ámbito territorial , de forma que podamos verificar sin lugar a duda
qué objetos quedan dentro de la definición.
Población finita: Población que puede definirse mediante enumeración de todos sus ele-
mentos.
Población infinita: Población que no puede definirse mediante enumeración de todos sus
elementos.
Polígono de frecuencias: Gráfico para variables cuantitativas de tipo continuo. Se construye
a partir de un histograma, trazando líneas rectas desde la parte superior de los rectángulos
que van uniendo las marcas de clase de los intervalos.
Ponderación: Es el procedimiento de ajuste del peso que tienen los estratos en la muestra al
peso que les corresponde en la población.
Probabilidad: Medida de la posibilidad de ocurrencia de un suceso, comprendida entre O
(cuando es imposible que este ocurra) y l (cuando es inevitable su ocurrencia).
Puntos de muestreo: En entrevistas personales lugares en los que se localiza a los entrevis-
tados.
Rango: Medida de dispersión que está definida por la amplitud entre el valor mínimo y el
valor máximo de la dispersión.
Recorrido intercuartílico: Es la diferencia entre el cuartil tercero y el primero (Q 3 - Q 1) .
Comprende el 50% de los casos de la distribución en torno a la media.
Registro: Conjunto de informaciones generadas por la inscripción de datos, generalmente de
carácter administrativo, de una población concreta, que se actualiza por un sistema de altas y
bajas.
Regla de Chebyshev: Teorema que muestra que la mayor parte de los elementos de cual-
quier distribución estarán entre ±4 desviaciones estándar. Al menos el 75 % de los elemen-
326 Estadística para la investigación social

tos de la distribución estarán a menos de 2 desviaciones estándar (k), al menos el 89% debe
estar a menos de 3 desviaciones estándar (k), y al menos el 94% debe de estar a menos de 4
desviaciones estándar (k).
Sesgo: Es la desviación sistemática de nuestras observaciones respecto a la característica
que estamos midiendo u observando.
Suceso aleatorio: Cada uno de los resultados posibles de un experimento aleatorio.
Sucesos dependientes o condicionados: Son aquellos en que la ocurrencia del primero (o
anterior) condiciona la probabilidad del segundo (o posterior).
Sucesos mutuamente excluyentes: Aquellos que no pueden producirse simultáneamente.
Tamaño muestral: Es el número de elementos que extraemos para su observación de una
población.
Universo: Vid. Población.
Valor esperado: Es el valor medio de una distribución de probabilidad. En una distribución
muestra! de medias, este valor será igual a la media de la población.
Valor máximo: Es el valor más elevado de una distribución de frecuencias.
Valor mínimo: Es el valor más bajo de una distribución de frecuencias.
Valor t: Es el valor de la distribución teórica t de Student asociado a un nivel de significa-
ción.
Valor Z: Es el valor de la variable estandarizado a partir de la Media y la Desviación están-
dar. Permite comparar distintas distribuciones de frecuencias . El valor z se calcula dividien-
do la distancia a la media (X¡ - X) por ]a desviación estándar.
Variable: Utilizamos el concepto de variable para dar cuenta del conjunto de valores que
puede presentar una determinada característica, la variable designa el conjunto de las varian-
tes o valores que puede presentar.
Variable aleatoria: Variable asociada a una función de probabilidad.
Varianza: Es la media aritmética de las distancias de cada uno de los elementos de la distri-
bución respecto a la media estadística.
w: Proporción del tamaño muestra! del estrato.
W: Proporción de la población del estrato.
Glosa rio 327

Tabla Z.
Distribución normal estándar

Áreas entre Oy Zx
Para conocer el valor entre Z = O y Z = 1,96, se-
leccionarnos en la primera columna, la fila Z = 1,9
y la columna 0,06. El valor es: 0,4750.

Para valores de Z negativos téngase en cuenta que


-3 -2,5 -2 - 1,5 -1 - 0,5 o 0,5 1 1,5 2 2,5 3
el área entre - Z y O es igual que entre O y + Z.
O Zx

zx o 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

o 0,0000 0,0040 0,0080 0,0 120 0,0 160 0,01 99 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,05 17 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0, 1293 0,133 1 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,413 1 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,493 1 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,496 1 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 . 0,4968 0,4969 0,4970 0,497 1 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,499 1 0,499 1 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
328 Estadística para la investigación social

Tabla t.
Distribución t de Student

Valores de t, que en el intervalo [ -t; + t], com-


prenden la probabilidad señalada
[Para cada tamaño de la muestra «n», indicado por
el número de grados de libertad («n - 1»), tene-
mos una distribución t. Cada línea es, por tanto,
-5 -4 -3 -2 -1 o 1 2 3 4 5
una distribución distinta.]
-t +t

Probabilidad
Grados de
libertad
0,5 0,6 0,7 0,8 0,9 0,95 0,98 0,99 0,995 0,998 0,999

1 1,000 1,376 1,963 3,078 6,314 12,71 31 ,82 63,66 127,3 318,3 636,6
2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 14,09 22,33 31,60
3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 7,453 10,21 12,92
4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610
5 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 4,773 5,893 6,869
6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 4,3 17 5,208 5,959
7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408
8 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041
9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,781
10 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587
11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437
12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,318
13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,221
14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,140
15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073
16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,015
17 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,965
18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,922
19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883
20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850
21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,819
22 0,686 0,858 1,061 1,321 1,71 7 2,074 2,508 2,819 3,119 3,505 3,792
23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,767
24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,745
25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,725
26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,067 3,435 3,707
27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,690
28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,674
29 0,683 0,854 1,055 1,3 11 1,699 2,045 2,462 2,756 3,038 3,396 3,659
30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646
40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551
50 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496
60 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 2,915 3,232 3,460
80 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639 2,887 3,195 3,41 6
100 0,677 0,845 1,042 1,290 1,660 1,984 2,364 2,626 2,871 3,174 3,390
120 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617 2,860 3,160 3,373
00 0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576 2,807 3,090 3,291
1
Estadística
para la investigación
social
2ª Edición

L
a importancia que tiene la Estadística para la investiga-
ción social y política es tan grande como el terror que
suele despertar su aprendizaje. Este texto es consciente
de ello. Los autores, dedicados desde hace tiempo a la inves-
tigación social y a la docencia estadística, han escrito un texto
en el que continuamente buscan conciliar el rigor de los con-
tenidos con la exposición intuitiva. El lector encontrará que
primero se preguntan para qué hacen esto; y, sólo tras res -
ponder a esa pregunta, muestran el amplio abanico de herra-
mientas que la estadística ofrece al analista, al investigador, al
profesional de la sociología o de la ciencia política .
Las herramientas estadísticas no son simplemente «abrelatas»
de información, sino que están en evolución constante en la me-
dida en que la información sobre el mundo social y político crece
continuamente. Por ello, estas no se exponen en abstracto, sino
que, en su exposición, se ligan directamente al funcionamiento
cibernético de las técnicas analíticas. Así, el lector encontrará
desde casos sencillos resueltos de forma simple hasta el trata-
miento mediante paquetes estadísticos de voluminosas fuentes
de datos.
El texto se ha organizado de menos a más con un argumento
que permita al lector emprender el estudio de forma autó-
noma . Se trata, sobre todo, de un libro para el alumno, para
que desde su propio ritmo, motivando su curiosidad de forma
lógica, pueda desarrollar sus capacidades de autoaprendizaje.
Los autores del libro son profesores de Estadística en el De-
partamento de Teoría, Metodología y Cambio social de la
Facultad de Ciencias Políticas y Sociología de la UNED, con
una amplia trayectoria tanto en investigación social y políti-
ca como en la docencia de métodos de investigación social y,
muy especialmente, de la Estadística para sociólogos y poli-
tólogos

~~~!ª www.garceta .es

You might also like