Professional Documents
Culture Documents
para la investigación
social
. 2ª Edición
Luis Camarero (coordinador)
Alejandro Almazán
José M. Arribas
Beatriz Mañas
Antonio Félix Vallejos
Estadística para la investigación social 2.ª edición
Luis Camarero
Alejandro Almazán
José M. Arribas
Beatriz Mañas
Antonio Félix Vallejos
ISBN: 978-84-928I-207-3
IBERGARCETA PUBLICACIONES, S.L., Madrid 2013
Edición: 2.'
Reimpresión : I .'
N.• de páginas: 339
Formato: 17 X 24 cm
Reservados los derechos para todos los países de lengua española. De confonnidad con lo dispuesto en el anículo _-o y siguien-
tes del código penal vigente, podrán ser casti gados con penas de multa y privación de li ben ad quienes reprodujeren o plagiaren, en
todo o en parte, una obra literaria, artística o científica fij ada en cualquier tipo de soporte si n la preceptiva autori z.a ión. ~ing una
pane de esta publicación, incluido el diseño de la cubierta, puede ser reproducida, al macenada o trasmitida de ninguna forma. ni
por ningún medio, sea éste electrónico, químico, mecánico, electro- óptico, grabación, fotocopia o cualquier otro, sin la pre\·ia auto-
rización escrita por pane de la editorial.
Diríjase a CEDRO (Centro Español de Derechos Reprográficos), www.cedro.org, si necesita fotocopiar o escanear algún fragmento
de esta obra.
Impresión :
PRINT HOUSE, S.A.
Nota sobre enlaces a páginas web ajenas: Este libro puede incluir referencias a sitios web gestionados por terceros y ajenos
a IBERGARCETA PUBLICACIONES , S. L., que se incluyen sólo con finalidad infonnativa. IBERGARCETA PUBLICACIO-
NES, S.L., no asume ningún tipo de responsabilidad por los daños y perjuicios derivados del uso de los datos personales que pucd3
hacer un tercero encargado del mantenimiento de las páginas web ajenas a IBERGARCETA PUBLICACIONES, S.L. , y del fun-
cionamiento, accesibi lidad y mantenimiento de los sitios web no gestionados por IBERGARCETA PUBLICACIONES , S.L
directamente. Las referen cias se proporcionan en el estado en que se encuentran en el momento de publi cación si n garantías, expre-
sas o implícitas, sobre la infonnaci ón que se proporcione en ellas.
Contenido
Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix
Glosario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
Presentación
La importancia que tiene la estadística para la investigación social y política es tan grande
como el terror que suele despertar su aprendizaje. Este texto es consciente de ello. Los auto-
res dedicados desde hace tiempo a la investigación social y a la docencia estadística han
escrito un texto en el que continuamente concilian el rigor de los contenidos con la exposi-
ción intuitiva. El lector encontrará que primero nos preguntamos para qué hacemos esto, y
sólo tras responder a esta pregunta se puede mostar el amplio abanico de herramientas que la
estadística ofrece al analista, al investigador, al profesional de la sociología o de la ciencia
política.
Pero el texto se ha construido con más equilibrios. No se ha perdido en ningún momento
de vista que las herramientas estadísticas no son simplemente «abrelatas» de información,
sino que están en evolución constante en la medida en que la información sobre el mundo
social y político crece continuamente. Las herramientas estadísticas no se exponen en abs-
tracto sino, que en su exposición, se ligan directamente al funcionamiento cibernético de las
técnicas analíticas. Así el lector encontrará desde casos sencillos resueltos de forma simple
hasta el tratamiento mediante paquetes estadísticos de voluminosas fuentes de datos.
También, la experiencia nos ha permitido desarrollar un texto que potencie las capacida-
des del lector. Se ha organizado de menos a más con un argumento que permita que el texto
pueda servir a quien desea emprender el estudio de forma autónoma. No es un manual sim-
ple, de apoyo al profesor, sino sobre todo un libro para el alumno, para que desde su propio
ritmo, motivando su curiosidad de forma lógica, pueda desarrollar sus capacidades de autoa-
prendizaje.
Los autores nos hemos propuesto un último reto añadido a los anteriores: inyectar la ilu-
sión para que el día en que el lector cierre definitivamente este libro haya alcanzado el grado
de madurez y de ambición, necesarios para navegar en el creciente océano de las técnicas
estadísticas y para abordar con total seguridad textos más avanzados.
Por ello, por ser un libro tan ambicioso en su planteamiento, resulta limitado en sus con-
tenidos. Únicamente se centra en las bases que permiten hacerse un hueco en el entramado
teórico y práctico de la estadística. En su argumento, comenzamos por hacer un breve reco-
rrido por el pensamiento que desde la filosofía, desde las matemáticas y desde la interven-
ción social ha venido construyendo el moderno edificio estadístico (Capítulo 1). Todo tiene
su historia, y en este sentido, las formas de análisis estadístico de la realidad social no son
inmutables sino que responden a nuestras propias formas de entender la sociedad. Sólo desde
la comprensión de la estadística como artefacto social, antes que como artefacto matemático,
es posible interrogarse por el porqué, y descubrir sus diferentes usos.
X Estadística para la investigación social: Fundamentos para e l a á
Sin datos no hay análisis, por ello, a continuación comenzamo- exponiendo las distintas
formas de producir datos (Capítulo II). Es la primera etapa en e te peregrinaje por los usos
estadísticos. Datos producidos con fines sociales, pero desde interese -ociales y políticos y
que por ello, nos conducen a análisis determinados. Los datos ólo podrán er utilizados una
vez que sean dotados de sentido. Esta es la primera operación del e radí rico, y tal vez la
única: convertir los datos en información. Las operaciones sencilla de organización, orde-
nación y estandarización (Capítulo III) serán seguidas por otras de re umen con el fin último
de la comparación (Capítulo IV) y presentación (Capítulo V).
Pero la ambición del analista es mayor: los datos que se producen son ólo partes de la
realidad. Nunca podremos obtener todos los datos sobre ninguna realidad. Por ello, debere-
mos pensar en maneras de trabajar con fragmentos de la realidad. La probabilidad es la bisa-
gra que nos permite pasar de la parte al conocimiento del todo (Capítulo VI). El mundo visto
desde la probabilidad, aunque pueda parecer mágico, resulta muy instructivo. La gestión de
la incertidumbre nos permite ordenar y conocer la realidad (Capítulo VII). Y con las herra-
mientas y métodos de la probabilidad podemos llegar a comprender despacio la herramienta
multiusos que es la encuesta (Capítulo VIII). Saber mirar la parte para comprender el todo es
el arte del estadístico. Finalmente, qué hacer cuando hemos producido datos mediante en-
cuestas y cómo llegar a expresarnos con dichos datos, será el final del viaje (Capítulo IX).
A partir de ahí, el lector, y ese es nuestro deseo, podrá orientarse con la brújula que supo-
nen estos conocimientos en el ignoto territorio del análisis social. Estamos convencidos de
que lo hará con la firmeza suficiente para no dejarse llevar por las sirenas del análisis numé-
rico vacío ni caer en manos de los monstruos del empirismo abstracto de los que nos previ-
niera Wright Milis en La Imaginación Sociológica.
Esperamos que el lector sepa disculpar las imperfecciones de este libro, ya que, como
toda guía de viaje, puede que a veces el camino sugerido no sea el que el viajero hubiera
trazado por sí mismo.
Capítulo!
Introducción a la
historia de la Estadística
Con este primer capítulo pretendemos dar una breve panorámica de las distintas fases
por la que ha ido pasando la disciplina estadística. Desde los primeros recuentos orga-
nizados por las estructuras de poder y el Estado, hasta la Estadística matemática
actual , esta disciplina ha ido evolucionando en función de las necesidades sociales.
1. La Estadística y el Estado
2. La influencia de la Ilustración
3. El azar
4. El cálculo de probabilidades
5. Teoría de errores y estadística social
6. La Estadística matemática
7. Sociología estadística y modelización
8. Bibliografía comentada
2 Estadística para la investigación social
1. La Estadística y el Estado
El término «estadística» designaba en el siglo XVIII a la disciplina encargada de la organiza-
ción y sistematización de los conocimientos relativos al Estado. Aunque el interés por cono-
cer la población y la riqueza aparece asociado al reclutamiento y la fiscalidad desde la anti-
güedad, es con la aparición del Estado moderno cuando se convierte en una práctica
sistemática y centralizada.
En España, bajo el reinado de Felipe II comienzan a realizarse censos que, además de la
población y la riqueza del reino, incluyen aspectos geográficos, jurídicos y religiosos, pero a
medida que evolucionan las estructuras administrativas del Estado, este modo de producción
estadístico irá cambiando. A partir del siglo XVII, la nueva forma de hacer estadística está
asociada con el modelo alemán (Staatwissenschaft) que desarrolla la escuela de G. Achen-
wall en la Universidad de Gottingen.
La Estadística se desarrolla, por tanto, en condiciones y países diversos, dando lugar a
modelos como el inglés, que se desarrolla a partir de la aritmética política, el alemán, y el
modelo administrativo francés. El modelo alemán se interesó por las costumbres, la pobla-
ción, el clima, la riqueza, y cualquier aspecto relevante para la comunidad; en él prevalece la
descripción literaria sobre la numérica. El modelo inglés procedía de áreas más heterogé-
neas, y sobre todo de los estudios sobre mortalidad. En él participaron médicos, empresarios
y parlamentarios que elaboraban registros escritos. Su objeto son los cálculos destinados a
obtener informaciones que puedan inferirse al conjunto de la población, y su desarrollo re-
presentó el nacimiento de la demografía moderna. El modelo francés, aunque también utili-
zaba el cálculo numérico, estuvo más cerca del enfoque alemán. En general, el desarrollo de
las matemáticas, la astronomía y el cálcu lo de probabilidades determinó la existencia de las
primeras prácticas estadísticas.
2. La influencia de la Ilustración
Racionalismo y empirismo, las corrientes filosóficas que se desarrollan en pugna con el de-
terminismo, serán el caldo de cultivo de los avances estadísticos que se producen durante los
siglos XVII y xvm . Frente a Dios , las nuevas corrientes de la Ilustración colocan a la natura-
leza y al hombre como centro del universo. Frente al providencialismo y la fe religiosa, sur-
ge la creencia en la razón y el progreso, y en lugar de la tradición y la superstición, aparece
la ciencia que gobierna el mundo. Durante este período, las matemáticas y la filosofía alcan-
zaron una gran relevancia intelectual y en ese contexto se produjeron las primeras formula-
ciones del azar: si la humanidad había descubierto las leyes de la gravitación universal que
rigen el movimiento de los planetas, también podía descubrir las leyes que rigen el movi-
miento de lo incierto.
A partir de ese momento, el conocimiento procede de la experiencia y de la observación ,
y el valor de las teorías filosóficas estará más ligado a la observación de la naturaleza, y
menos a las fuentes autorizadas, procedan éstas de Aristóteles o de la Biblia. Sin renunciar
completamente a la religión, los pensadores del XVIII rechazaron la teología cristiana y de-
nunciaron la opresión a la razón que había ejercido la Iglesia. En este contexto se produjo la
Capítulo l. Introducción a la historia de la Estadística 3
famosa apuesta de Pascal, el llamado pari. Blaise Pascal (1623-1662), matemático, jansenis-
ta y filósofo, recurrió al cálculo de probabilidades para demostrar que se obtiene mayor ga-
nancia apostando por la existencia de Dios. Mediante el cálculo matemático enfrentó la ob-
servancia religiosa que conduce a la felicidad eterna (incierta) contra el disfrute de la vida
presente (más seguro). Al comparar la proporción entre la incertidumbre de ganar y la certi-
dumbre de lo que se apuesta, Pascal inauguró el cálculo de probabilidades que se convertirá
en la base de la estadística inferencia!.
3. El azar
La palabra «azar» es de origen árabe y es muy probable que fueran jesuitas españoles quie-
nes lo exportaran a Francia después de haber conocido los razonamientos de «lo probable»
que aparecen en textos musulmanes. La comparación que reduce a la nada el valor finito de
los bienes de la vida presente, frente a la felicidad eterna de la vida futura, ya estaba en los
argumentos apologéticos musulmanes de Algazel en el siglo XI, e incluso bajo la forma de
metáforas mercantiles: por ejemplo, si los mercaderes preferían ganar 10 en el futuro a 1 en
el presente. O expresado en otros términos: perder 1, para ganar 10.
La continua sucesión de cambios en la economía y la moral religiosa entre finales del
siglo XVIII y comienzos del siglo XIX favorecieron el desarrollo de la teoría de la probabili-
dad. El cálculo de probabilidades es, en su origen, un procedimjento destinado a dotar de
racionalidad a las decisiones que han de tomarse en situaciones de incertidumbre, y alguno
de los primeros planteamientos sobre la probabilidad se desarrollaron también en situaciones
tan frívolas como las apuestas y el juego.
En 1654 los razonamientos en busca de la proporción entre lo cierto y lo incierto ocupa-
ban la correspondencia de Pascal y Fermat para resolver un problema planteado por el Caba-
llero de Meré: se trataba de establecer un reparto justo en un juego de azar cuando se había
interrumpido la partida. Aunque el hecho de que un filósofo y un matemático se ocuparan de
un asunto tan mundano no era nuevo (Tartaglia y Cardano ya habían intentado calcular en el
siglo XVI la ventaja o la desventaja en diversos juegos de azar), la solución al problema cons-
tituyó un paso fundamental en la construcción de la teoría y el cálculo de probabilidades. El
problema de las partes, resuelto por Pascal y Fermat, partía de un juego que constaba de una
serie de partidas que se interrumpen antes del final y que requiere, por tanto, del reparto
equitativo de lo apostado y no j ugado. En la sol ución del problema, Pascal creyó haber en-
contrado un método universal para proceder en las situaciones de incertidumbre.
La solución consistió en igualar matemáticamente la magnitud de lo que se arriesga y de
lo que se espera ganar, o en el lenguaje de Pascal, asegurar la equivalencia entre lo que se
arriesga y lo que se tiene derecho a esperar, algo que estaba presente en la lógica jurídica de
los contratos que aseguran equidad a los contratantes. La originalidad, en todo caso, consis-
tió en añadir el lenguaje matemático y convertirlo en cálculo, pues la palabra «probabilidad»
se había utilizado ya en la Lógica de Port-Royal (1662), en cuyos últimos capítulos se abor-
da el asunto de la inferencia y la toma de decisiones («Algunas reglas para conducir la ra-
zón en el crédito de los asuntos que dependen de la fe humana», o, «Del juicio que se debe
hacer sobre accidentes futuros »). A partir de entonces se comenzó a razonar sobre la proba-
4 Estadística para la investigación social
4. El cálculo de probabilidades
Fueron muchos los matemáticos que a finales del siglo XVII aplicaron el cálculo de probabi-
lidades en el área jurídica y en los juegos de azar, sin embargo, en campos menos científicos
como el derecho mercantil se realizaban desde antiguo contratos aleatorios que incluían ele-
mentos de riesgo (seguros, sobre todo marítimos y de rentas) y especificaban las condiciones
de equidad y las reglas de intercambio de las mercancías . Reglas de compensación de ries-
gos que eran en su mayor parte cualitativas, puesto que en ningún caso se registraba la infor-
mación de la frecuencia de los sucesos, ni se confeccionaban estadísticas de ningún tipo. Los
seguros marítimos estuvieron regulados desde los tiempos medievales por códices legales,
manuales y archivos notariales, y puertos de ciudades como Barcelona o Valencia regularon
los distintos aspectos del negocio mercantil. Los Consulados del Mar tipificaban las cantida-
des a asegurar dependiendo de la carga, la estación del año, la ruta elegida, etc., y en cuanto
a las rentas, no se consideraba ninguna variable ni escalamiento de precios en función de las
características del asegurado.
El «Tratado de Rentas Anuales» de Johan de Witt (1671) fue uno de los primeros inten-
tos de aplicación de las matemáticas a contratos aleatorios. Su originalidad se basaba en esti-
mar la probabilidad de muerte en función de la edad, estableciendo proporciones, aunque en
la práctica de los seguros se siguió utilizando el cobro de un recargo fijo por capital asegura-
do. Hay que esperar hasta 1762 para que las empresas de seguro utilicen datos estadísticos y
modelos probabilísticas en el cálculo de las primas. La primera empresa que utilizó estos
nuevos métodos fue la compañía inglesa Equitable Society far the Assurance of Lives, aun-
que fue desautorizada al principio por el Royal Council porque consideraba sus métodos de
asignación del riesgo como pura especulación .
El concepto de probabilidad apareció de dos formas diferentes: la probabilidad objetiva,
que consideraba la incertidumbre como algo que forma parte de la naturaleza de las cosas, y
la probabilidad subjetiva, que se expresaba en grados de creencia ante los fenómenos que
son inciertos debido al desconocimiento de sus leyes. Jakob Bernoulli (1654-1705) en su
célebre obra Ars Conjectandi (1713), estableció una nueva concepción de Ja probabilidad
que unía las visiones objetiva y subjetiva en un mismo razonamiento. El teorema de Bernou-
lli, denominado «ley de los grandes números», reunió las probabilidades como frecuencias
observadas con las probabilidades teóricas a priori, en base a la lógica del suceso que se
repite en idénticas condiciones un gran número de veces. Así, afirma que la frecuencia de
aparición de un suceso tiene una probabilidad dada y tiende hacia ella cuando el número de
pruebas aumenta. La repetición de las pruebas constituye el soporte empírico de la teoría. Si
bien en el Ars conjectandi (Arte de Conjeturar), Bernoulli utilizaba el concepto de probabili-
dad como grado de certeza moral, en el mismo sentido que Leibniz, añadió un punto de vista
frecuentista, implícito en los juegos de azar. El enunciado de Bernoulli, será completado por
Capítulo l. Introducción a la historia de la Estadística S
ción a 42 .529 .267 de habitantes, pudiéndose apostar 1.161 contra uno, a que el error de ese
resultado no excede de medio millón». Como vemos, las referencias a los juegos de azar
seguirán presentes durante mucho tiempo.
Estudiando las tablas estadísticas, Quetelet observó que muchos resultados de los censos
de población, así como las medidas antropométricas de los soldados, mostraban distribucio-
nes de frecuencias con características similares a la curva de Laplace-Gauss. Las frecuencias
de las medidas biométricas mostraban Ja misma estructura que las tablas de errores, algo que
Quetelet conocía muy bien por sus trabajos astronómicos. Aquello le sugirió una interpreta-
ción sorprendente: se podía aplicar la curva de la distribución normal de errores a la biome-
tría, la ciencia que entonces se ocupaba de las medidas de las características físicas de los
hombres. Según Quetelet, la aparición de la curva en forma de campana en esas mediciones,
significaba que la naturaleza había pretendido hacer un tipo ideal al que llamó «hombre me-
dio », y las medidas extremas, no eran sino errores de la madre naturaleza. A partir de enton-
ces, el hombre medio se convirtió en un ideal asociado a una determinada visión de la natu-
raleza y de Ja nación.
Quetelet creyó haber encontrado una ley (la ley de los errores de la astronomía) que go-
bernaba la variabilidad humana, y la popularidad de sus trabajos hizo del hombre medio una
pasión estadística, un tipo ideal que portaba los rasgos físicos, morales e intelectuales de la
sociedad, de la nación. Quetelet con su descubrimiento pretendió ser el Newton de esa «otra
mecánica celeste» que permitiría encontrar las leyes del equilibrio social. El hombre medio
dejaba de ser una simple abstracción matemática, para convertirse en un ideal moral.
Pero más que sus obras y su atrevida transposición de la curva de errores de Gauss (no es
lo mismo hacer numerosas mediciones de un objeto, que hacer una medida de muchos obje-
tos) , la importancia de Quetelet estriba en su papel de divulgador e impulsor del uso del
cálculo de probabilidades. Quetelet jugó un gran papel en el desarrollo del movimiento esta-
dístico internacional: ya en Inglaterra contribuyó a la fundación de la sección estadística de
la Asociación británica para el avance de la ciencia (1833) así como de la Sociedad estadís-
tica de Londres (1834), y desde Bruselas organizó los primeros Congresos internacionales
de estadística, uno sobre meteorología y otro celebrado en 1854 donde se acordaron las pau-
tas de la nueva estadística administrativa internacional.
El siglo XIX fue un período de gran interés por la estadística, y los Estados y Academias
científicas, así como diferentes instituciones privadas, comenzaron a generar una cantidad de
datos estadísticos sin precedentes. La proliferación de trabajos sobre la población y la pobre-
za, junto al estímulo teórico del positivismo, contribuyeron a dar una nueva visión de la so-
ciedad industrial y favorecieron la creación de la disciplina estadística. Los desarrollos teóri-
cos más importantes en materia de muestras, por ejemplo, aparecieron ligados a la
resolución de los problemas sociales y entrañan una nueva concepción del hombre y la so-
ciedad.
En España, los estadísticos más destacados del siglo XIX fueron Ramón de la Sagra
(1798-1871) y Pascual Madoz, (1806-1870). Este último envió a Bruselas un grupo de jóve-
nes geógrafos para trabajar junto a Quetelet y modernizar las estadísticas del reino. Como
resultado, en 1856, se crea la Comisión de Estadística General del Reino, primer organismo
centralizado, encargado de toda la producción estadística. Su primera realización fue el cen-
so de 1857, elaborado con los criterios establecidos por el congreso internacional de Bruse-
las, y en el censo siguiente, el de 1860, los criterios internacionales para la confección de los
censos se extendieron a los territorios de ultramar .
6. La Estadística matemática
Por el lado anglosajón, Francis Galton (1822-1911) y Karl Pearson (1857-1936) hacen apor-
taciones desde la eugenesia y la biometría, mientras que Francis Ysidro Edgeworth (1845-
1926) y Udny Yule (1871-1951) lo hacen por el lado de la economía y la ciencia social. En
Ja Inglaterra de esta época, la preocupación por la pobreza y sus causas, presidió los trabajos
de eugenistas, economistas y sociólogos. Galton, impresionado por la teoría de su pariente
Charles Darwin (1809-1882), trasladó los principios de la evolución a la especie humana, en
forma de teoría eugenésica, asociando los valores cívicos y morales a los genéticos.
A partir de la clasificación de clases sociales realizada por Charles Booth (1840-1916)
para la aplicación de la Ley de Pobres, y de la ley binomial utilizada por Quetelet, Galton
pretendió demostrar que era posible mejorar la especie humana mediante la intervención en
la herencia genética. No centró su atención en el hombre medio como Quetelet, sino en sus
diferencias respecto a Ja medias, o Jo que es igual, en la variabilidad humana. Entre sus con-
tribuciones está la utilización de la regresión lineal para medir la influencia de la herencia
genética. Galton trabajó durante esos años con árboles genealógicos y con datos biométricos
de padres e hijos que mostraban las transformaciones morfológicas. La complejidad de los
8 Estadística para la investigación social
problemas matemáticos que se plantearon con estas investigaciones, hizo que Galton utiliza-
se a matemáticos como Karl Pearson y Francis Y sidro Edgeworth. Éste último, más interesa-
do en el problema teórico que en la eugenesia misma, acabó formalizando el análisis de la
varianza y el coeficiente de correlación, aunque más tarde fuera atribuido a Karl Pearson.
Karl Pearson (1857-1936), investigador muy próximo al movimiento eugenista, trabajó
activamente en la creación de una red de instituciones científicas dedicadas a la estadística
aplicada en los campos de la eugenesia y la genética, así como en la creación de la revista
Biométrica. George Udny Yule (1871-1951), ingeniero y físico, además de alumno y colabo-
rador de Pearson, será el autor del primer manual de estadística matemática moderno (An
lntroduction to the Theory of Statistics,1911), un referente obligado de toda la estadística
posterior. La preocupación por la pobreza y sus causas orientó el trabajo del matemático
Arthur L. Bowley (1869-1957) hacia el estudio de las condiciones de vida de las clases tra-
bajadoras inglesas, haciendo contribuciones importantes al desarrollo del muestreo y al uso
de los intervalos de confianza. El método estadístico representativo comenzó a aplicarse du-
rante este período a los estudios de vivienda, trabajo, desempleo y salud.
El primer tercio del siglo XX verá también el nacimiento de la sociedad de masas. La
incorporación de la cadena de montaje a los procesos productivos realizada por Ford, permi-
tirá inundar los mercados mundiales de productos fabricados en serie. Pero la venta de esas
mercancías, tal y como pondrá de manifiesto la depresión del año 1929 necesitaba de la es-
tructuración del consumo, algo que comienza a ser una realidad durante los años veinte con
la ayuda de la publicidad comercial y los estudios de mercado que utilizan la encuesta esta-
dística basada en el muestreo representativo.
Los años 1920 y 1930, fueron un período de grandes convulsiones sociales: la revolución
rusa había conmocionado el mundo y el movimiento obrero comenzaba a estar más y mejor
organizado. Los gobiernos comenzaron a sensibilizarse con la cuestión social y favorecen
los estudios estadísticos. En su reunión de 1925, el Instituto Internacional de Estadística
decidió legitimar en Roma el método representativo, y la sustitución de los recuentos censa-
les por muestras cuya validez se sustentaba en la aplicación del cálculo de probabilidades.
La encuesta estadística representativa se convirtió desde entonces en un instrumento funda-
mental para los estudios sociales, los estudios de mercado, y los estudios políticos de predic-
ción del voto, consolidando una nueva técnica estadística que partía del muestreo y el cálcu-
lo de probabilidades.
Finalizada la guerra mundial, se crearon Institutos de Opinión Pública en todos los países
que quedaron bajo la influencia de los Estados Unidos, y a partir de entonces, la encuesta
estadística realizada con cuestionario precodificado, y basada en el muestreo aleatorio, se
convirtió en la práctica de investigación social dominante. Los modelos probabilísticos lle-
garán también a la economía desplazando las agregaciones censales de datos , y los estadísti-
cos se centran en la elaboración de contabilidades nacionales y la construcción de modelos
econométricos que van a hacer posible la previsión y la orientación de las políticas públicas.
En Ja actualidad puede decirse que las estadísticas se han desplazado de las oficinas y
centros especializados para invadir todos los ámbitos de la vida social. Los medios de comu-
nicación, la economía, el consumo, las actividades políticas están en conexión directa con
los centros de producción y difusión de estadísticas, y Ja economía, o el funcionamiento del
Estado social, continúan dependiendo de la producción continuada de datos estadísticos.
8. Bibliografía comentada
Arribas, J. M. , Almazán, A. , Villarejo C. Historia de la Estadística. DVD, UNED, 2000.
Producción audiovisual de la UNED que ha sido emitida en el programa «La aventura
del saber» de TVE. Se trata de una visión introductoria a la Historia de la Estadística que
se utiliza como material didáctico en la Escuela de Estadística del INSEE de París.
Arribas, J.M. «El desarrollo de la ciencia estadística durante el siglo XIX» en 150 aniversa-
rio de la creación de la Comisión de Estadística General del Reino, INE, 2007. El texto
forma parte de una publicación conmemorativa del INE, elaborada a propósito de la
creación del primer organismo estadístico centralizado de producción estadística.
Coumet, E., ¿Líl teoría del azar surgió por azar? Empiria n. 0 3, 2000, pp 210-241. Disponi-
ble a través de Internet en Dialnet. Es un texto fundamental para comprender los oríge-
nes de la teoría de la probabilidad. Su autor es uno de los fundadores del Seminario de
Historia de la Estadística y del Cálculo de Probabilidades de la Escuela de Altos Estu-
dios en Ciencias Sociales de París.
Capítulo II
Fuentes de datos
estadísticos
ros ofrecen una información referida a todos los elementos de una población mientras que
las encuestas se limitan a la información obtenida de una pequeña parte de la población.
El censo es una enumeración o recuento de todos los individuos de una población que
recoge determinadas características de los individuos. En España, entre los censos que ela-
bora el INE encontramos el censo de Población y Viviendas, el Censo Agrario y el Censo
Electoral 1 . En cuanto la periodicidad, el Censo de Población se realiza los años acabados
en 1, el Censo Agrario los años acabados en 9 y el Censo Electoral es un censo permanente y
su actualización es mensual, ya que es el censo único para todos los procesos electorales.
Los censos se refieren a territorios concretos y se realizan periódicamente, por Jo común,
cada 10 años, recogiéndose las informaciones de Jos elementos de la población de forma
simultánea, es decir, que se refieren a un momento dado. Son procesos muy costosos y su
elaboración requiere tiempo y un gran despliegue de medios, pero son esenciales para el
desarrollo de la actividad política, económica y social, proporcionan una información bas-
tante rica por la abundancia de características observadas y están en Ja base de otros tipos de
estadísticas, como las encuestas.
Ejercicio 1
Visite la página web del INE y, en el apartado de demografía y población, busque los resultados
detallados en versión accesible del último censo de población. Seleccionando las opciones de
los menús de la web, construya una tabla dinámica, referida a su provincia de residencia, con las
variables sexo y edad.
1
El Censo Electoral es elaborado por la Oficina del Censo Electoral encuadrada en el INE, bajo la dirección de
la Junta Electoral. El censo electoral está compuesto por dos censos, el censo de electores residentes en España
(CER) y por el censo de electores residentes-ausentes que viven en el extranjero (CERA) y es único para toda clase
de elecciones, sin perjuicio de su posible ampliación para las elecciones Municipales y del Parlamento Europeo.
14 Estadística para la investigación social
limita las posibilidades de desagregación o partición detallada para los grupos poco numero-
sos en la población y escasamente representados en la muestra como para hacer un análisis
detallado.
Para comparar los diferentes tipos de datos es necesario tener en cuenta su coste, perio-
dicidad, amplitud, errores asumidos y accesibilidad los datos. El alto coste de los censos
tiene como contrapartida su amplitud, pues abarca toda la población. Las encuestas son
más económicas, y la información se obtiene inmediatamente, pero al emplear un pequeño
número de observaciones, que aunque es suficiente para hacer estimaciones de toda la po-
blación, produciría errores abultados para subpoblaciones en las que tengamos pocas uni-
dades muestrales. Sin embargo las encuestas proporcionan mayor cantidad de información
sobre cada elemento observado. Los registros, contienen pocas informaciones de cada ele-
mento de la población y están referidos a poblaciones específicas, pero se actualizan conti-
nuamente. A la hora de utilizar unos u otros datos debemos tener en cuenta todos estos
aspectos.
CUADRO l.
Ventajas e inconvenientes de los diferentes tipos de datos.
donde se encuentran las viviendas que formarán parte de la muestra, es decir, se apoya en los
datos censales para poder seleccionar las unidades muestrales 2 .
En ocasiones encontramos datos de diferente tipo sobre un mismo objeto. El Registro del
INEM inscribe a las personas demandantes de empleo y/o que reciben subsidios o prestacio-
nes ; el registro se mantiene actualizado mediante altas y bajas. Al igual que la EPA el regis-
tro ofrece información sobre el empleo, pero si lo que queremos es saber el número de para-
dos la encuesta será más útil que el registro, pues no todos los parados se inscriben en el
registro. Sin embargo, si necesitamos saber el número de desempleados que reciben presta-
ciones o subsidios, su tipología y plazos, será útil recurrir a Jos datos registrados. El registro
del INEM recoge sólo a los demandantes de empleo por cuenta ajena, excluyendo bajas mé-
dicas y determinado tipo de trabajos temporales 3 , mientras que en Ja EPA considera parada a
Ja persona que no haya trabajado en la semana anterior a Ja consulta. Las definiciones de
«parado» empleadas en la encuesta y el registro son diferentes, Ja primera está construida
para conocer Ja situación de la población activa mediante estimaciones, y la segunda para la
gestión administrativa de prestaciones y derechos asociados al empleo.
Veamos también la relación entre el Censo de Población y Viviendas y Jos padrones mu-
nicipales. En el primero, elaborado por el INE, se recogen los datos de toda la población
cada 10 años mediante un cuestionario remitido a las viviendas, y los segundos son registros
administrativos que incluyen a los vecinos de cada municipio y son gestionados por los
ayuntamientos. Pero el Censo está basado en los datos padronales y una de sus funciones es
precisamente mejorar los datos del Padrón municipal. Por otra parte será el INE el encargado
de coordinar los padrones de todos los municipios. Los datos del Censo no constituyen cifras
oficiales de población, reservadas al Padrón, sino el recuento de la población y la recogida
de informaciones para el conocimiento de su estructura.
Al utilizar datos recogidos para otros fines diferentes a los de nuestra investigación, he-
mos de preguntarnos siempre acerca de Ja naturaleza de esos datos, su finalidad original, las
variables o el cuestionario empleados, para poder determinar la calidad o la utilidad de esos
datos para los objetivos de nuestra investigación. Puede suceder que las categorías recogidas
en las estadísticas disponibles no sean las más adecuadas para nuestros intereses. Por ejem-
plo, las estadísticas tradicionales sobre el trabajo femenino, realizadas desde Ja perspectiva
de la economía formal ofrecen una visión parcial de un fenómeno complejo, ocultando bajo
etiquetas como «Sus labores» trabajos domésticos y reproductivos esenciales para la socie-
dad que resultan invisibles 4 y que influyen en las condiciones del trabajo remunerado. Otros
2
La ficha técnica y el cuestionario de la encue sta pueden consultarse en: http://www.ine.es
3
Véanse la definiciones operativas de «contratos registrados» y «paro registrado» en las estadísticas del INEM
en: http://www.mtin.es
4
La preocupación por el subregistro del trabajo femenino en las estad ísti cas lleva a la propuesta de mejoras en
la producción y difusión de estadísticas con perspectiva de género para reconocer y valorizar el trabajo no retribui-
do de la mujer, para lograr una mejor comprensión de la situación de las mujeres mediante nuevas definiciones y
conceptos que describan no sólo los parámetros de la economía formal, sino también otras situaciones informales,
sumini strando inform ación más adecuada a la formulación de políticas, planes y proyectos, inspirados en el objetivo
estratégico H-3 de la IV Conferencia Mundial sobre la Mujer, realizada en Beijing en 1995: elaborar y difundir
datos desglosados por sexos para planificar y evaluar las políticas de igualdad y desarrollo.
16 Estadística para la investigación social
métodos de análisis sociológicos como las encuestas de empleo del tiempo serían más útiles
para poner en evidencia la compleja articulación temporal entre el trabajo doméstico y el
productivo. Con esto se quiere señalar la necesaria cautela a la hora de seleccionar los datos
a nuestro alcance, y la necesidad de un análisis crítico de los mismos para reelaborarlos o
para buscar otras fuentes que los amplíen o complementen.
5
El Instituto Nacional de la Seguridad social está encargado por ley a la elaboración y publicación de los datos
del registro, confeccionado a partir de la información recabada de más de 100 organismos, entidades y empresas.
6
La fuente de información es la Subdirección General de Informática y Estadística del Instituto de Empleo
Servicio Público de Empleo Estatal (INEM), que obtiene los datos estadísti cos mediante un a ex plotación de los
ficheros constituidos fundamentalm ente para la gestión del empleo.
Capítulo 11. Fuentes de datos estadísticos 17
sus propios registros, donde podremos encontrar informaciones específicas según sus com-
petencias. Por ejemplo, la Dirección General de Tráfico del Ministerio del Interior ofrece
datos de los accidentes con detalles específicos del tipo de vehículos implicados y sus ocu-
pantes, pero si estamos interesados en los accidentes en el transporte de mercancías la fuente
más adecuada será el Ministerio de Fomento.
En el ámbito privado podemos encontrar producciones estadísticas mediante registro,
por ejemplo la Oficina de Justificación de la Difusión de Jos medios de comunicación (OJD)
obtiene la verificación de la difusión de las publicaciones impresas o mediante intemet, se
trata de, un registro de la tirada de las ediciones impresas de publicaciones periódicas y un
recuento de las visitas en intemet de especial relevancia para el estudio de los medios y
su mercado. Muchas asociaciones mantienen registros de sus socios y su actividad.
Los avances informáticos permiten manejar y relacionar grandes cantidades de datos de
diferente origen sin más límites que la protección de los datos personales. En la actualidad
existen nuevas iniciativas como las bases de datos cruzadas: la colaboración de la Agencia
Tributaria, la Seguridad Social, la oficina del Catastro y Jos Institutos de Estadística estatal y
autonómicos, han permitido la creación de una base de datos integrada que reúne la informa-
ción cruzada y detallada de las bases de datos de dichas instituciones. Salvada la privacidad
de los datos, mediante un sofisticado procedimiento se pueden obtener informaciones deta-
lladas de las propiedades, rentas, historiales laborales, residencia, nivel de estudios, etc., con
un nivel importante de desagregación y su representación cartográfica. El futuro próxi-
mo apunta hacia una transformación del rol de los datos recogidos de forma exhaustiva, da-
das las nuevas posibilidades de almacenamiento y procesamiento impensables hace unas
décadas.
Al consultar una encuesta debemos tener en cuenta la forma en que fue realizada y el
tipo de muestra empleada, así como la disponibilidad para un período dado. Los datos de las
encuestas deben ser utilizados con las mismas cautelas mencionadas anteriormente, conside-
rando los objetivos originales para los que fueron realizadas, las variables empleadas y su
adecuación a nuestros objetivos concretos, además de la representatividad de la muestra y el
cuestionario utilizado.
18 Estadística para la investigación social
CUADRO 2.
Institutos y servicios estadísticos de las Comunidades Autónomas
Estos criterios generan una gran diversidad de situaciones con regiones de muy diferente
extensión y densidad. Las tablas estadísticas ofrecidas en Eurostat vienen acompañadas de
sus representaciones gráfica y de Ja cartográfica, que proporciona una visión general del
conjunto europeo.
En España el nivel Nuts 1 establece 6 grandes áreas. El nivel NUTS 2 se corresponde
con las Comunidades Autónomas y el nivel NUTS 3 a las provincias, tal y como podemos
ver en los mapas que figuran a continuación.
7
La ECV sustituye desde 2002 al Panel de Hogares de la Uni ón Europea (PHOGUE) que se elaboraba desde
1994, para adaptar la encuesta a las nuevas necesidades de informac ión para las políticas com unitarias.
8
La nomenclatura de regiones estadísticas europeas ha sufrido varios cambios desde su implantación. La últi-
ma versión puede consultarse en la web de Eurostat.
Capítulo 11. Fuentes de datos estadísticos 21
Mapa 1.
Grandes áreas europeas, nivel de agregación NUTS 1.
D <= 15 3
D 15-<=30%
D 30-<=45 %
1111 > 45 %
D Data not available
600 km (
Fuente: EUROSTAT
La nomenclatura NUTS establece también para el ámbito local dos niveles de Unidades
Administrativas Locales (UAL 1 y UAL 2) 9 que se refieren a unidades muy diversas como
municipios, cantones, distritos o comunidades . El nivel UAL 1 sólo existe en algunos países:
Alemana, Chipre, Estonia, Finlandia, Grecia, Hungría, Irlanda, Letonia, Lituania, Luxem-
burgo, Malta, Polonia, Portugal, Reino Unido, Eslovaquia, Eslovenia y República Checa. En
España solamente existe el nivel UAL 2, unidades que se corresponden con los 8.108 muni-
c1p10s.
9
Las siglas UAL son la traducció n al español de Loca l Administrative Units (LAU).
22 Est ad ística para la invest igació n socia l
Mapa 2.
Áreas con nivel de agregación NUTS 2.
Cl~-------
0~-- . --
º~--""""'""-.....__...,
lsland
Ejercicio 2
Visite la web de Eurostat y busque entre las estadísticas de indicadores estructurales, seleccio-
nando los relacionados con la cohesión social y entre éstos abra el indicador de riesgo de pobre-
za antes de las transferencias sociales , por género. Consulte la definición del indicador y las ta-
blas, gráficos y mapas que se ofrecen. Para fam iliarizarse con la web, utilice la ayuda de la
pág ina que bajo el rótulo «cierno» ofrece expl icaciones sobre la utilización interactiva.
Capítulo 11. Fue ntes de datos estadísticos 23
. Mapa 3.
Areas correspondientes al nivel de agregación NUTS 3.
..,..
.
Fuente: EUROSTAT
de cada individuo observado sin agregar o resumir. Los microdatos se contienen en una ma-
triz en la que cada fila corresponde a un individuo y las variables se representan en las co-
lumnas. Este formato nos permitirá un análisis mucho más adecuado a nuestros fines. Los
microdatos van acompañados de otros documentos, como el cuestionario empleado para re-
coger la información y los códigos empleados para cada variable, así como la tabulación que
permite la localización de cada variable o cada caso en la matriz de datos, cuestiones que
trataremos en el siguiente capítulo.
Presentamos a continuación una pequeña tabla de recursos básicos en internet, que pue-
den ser de especial interés para el estudiante de Ciencias Políticas o Sociología:
CUADRO 3.
Recursos estadísticos en Internet.
CIS INE
Página web del Centro de Investigaciones Página web del Instituto Nacional de Esta-
Sociológicas (CIS) http://www.cis.es dística (INE). http://www.ine.es
Actualmente pueden consultarse informa- El INE ofrece en su web multitud de datos
ción de toda la base de datos de encuestas de censos, registros o encuestas, clasifica-
realizadas por la institución desde 1978 en dos en categorías: medio ambiente, demo-
forma de tablas de resultados marginales grafía y población, Sociedad, Economía,
elaboradas con los datos de las principales Ciencia y Tecnología, sectores productivos
variables para todo el catálogo histórico de e internacional. En cada una de estas cate-
encuestas, que en su mayor parte son los gorías se presentan tanto los estudios reali-
barómetros mensuales, pero además en la zados por el INE como estudios realizados
base de datos podemos encontrar encuestas por ministerios u otras instituciones nacio-
monográficas sobre diversos temas: políti- nales o europeas. En la categoría internacio-
ca, economía, trabajo, población, medio nal, el INE ofrece datos y series temporales
ambiente, comunicación, cultura, deporte, de estadísticas realizadas por instituciones
ocio, ciencia y tecnología, educación, sani- internacionales obtenidas de diferentes ba-
dad, justicia o valores y actitudes. Y desde ses de datos o webs de organismos interna-
2007 podemos disponer de los microdatos cionales: datos demográficos, de educación,
de los últimos barómetros de opinión de economía, salud, condiciones de vida o
forma inmediata y gratuita. mercado laboral. Las fuentes originales de
los datos son: la división estadística de las
Naciones Unidas, el Banco Mundial, la
OCDE, la UNESCO, la OIT, la OMS o la
Unión Internacional de Comunicaciones.
De algunos estudios producidos por el INE
podemos construir y consultar tablas inter-
activas en las que seleccionamos las va-
riables de filas y columnas, el período o el
nivel de agregación, y también obtener mi-
crodatos de censos y encuestas, para su
procesamiento informático así como infor-
mación detallada de la metodología y los
cuestionarios empleados.
Capítulo 11. Fuentes de datos estadísticos 25
CUADRO 3. Continuación.
EUROSTAT AIMC-EGM
En la Web de EUROSTAT, la oficina esta- Página web de la Asociación para el estu-
dística europea podemos encontrar datos dio de los medios de comunicación (AIMC)
estadísticos de la economía, la sociedad y http://www.aimc.es/index.html
la cultura de los países miembros de la
Se ofrece la Encuesta General de Medios
Unión Europea, con perspectivas lineal y
(EGM) con los resultados de tres oleadas
transversal, con series temporales para los
anuales desde 1999. También se puede dis-
diferentes países. El proceso de avance de
poner de cifras sobre la audiencia de me-
la armonización de estadísticas producidas
dios impresos y de intemet. (Algunas de
por los países miembros de la UE, lleva a
las series temporales pueden ser también
la consolidación de un cuerpo cada vez
consultadas en las páginas del INE. )
mayor de estadísticos comparables y ade-
cuados a las decisiones políticas y los pro-
gramas europeos. OJD
http ://epp. euros tat. ec. europa. e u/portal/ Página web de la Oficina de Justificación
de la difusión http://www.ojd.es/
page/portal/eurostat/home/
En la web OJD interactiva podemos obte-
Nos interesarán especialmente los datos de ner los datos de la tirada y el número de
las encuestas de opinión pública elabora- lectores de cada medio impreso. También
dos por la Comisión Europea que nos per- se incluyen los datos de número de visitas,
miten la comparación entre países. Los usuarios y páginas de intemet certificadas
Eurobarómetros están disponibles desde por la institución.
1974 y se realizan dos al año, en primavera
y otoño. Existen también análisis de en-
cuestas temáticas de las que podemos obte-
ner el informe resumen en formato pdf y
los cuestionarios empleados:
http://ec.europa.eu/pu blic_opinion/
index_en.htm
Capítulo III
Recogida y
tratamiento de datos
1
El masculino plural utilizado aquí para definir poblaciones es genérico, es decir, hablamos tanto de hombres
como de mujeres.
Capítulo 111. Recogida y tratamiento de datos 29
el sector de la construcción», «los que tienen entre 16 y 35 años», «los residentes en Catalu-
ña», «los extranjeros residentes en España», «los que viven en hogares unipersonales», «los
hogares que no cuentan con ningún miembro ocupado».
A los elementos sometidos a «Observación» en el proceso investigador los llamaremos
unidades de análisis, o, sencillamente, casos. Generalmente, ya lo hemos dicho, las unidades
son individuos humanos, pero también pueden ser empresas, familias, municipios, colegios,
provincias, países ... o sucesos -nacimientos, viajes, accidentes .. .-
Podemos decir que, en estadística social, una variable es un conjunto de valores que
clasifica a la población objeto de análisis en distintos grupos: cada valor de la variable
constituye un grupo de individuos (o unidades). Una variable, por tanto, clasifica a una po-
blación en distintos grupos (a través de distintas categorías clasificatorias). Para ello cada
variable debe generarse a partir de un único y coherente criterio clasificatorio y cumplir los
dos principios básicos de toda clasificación: debe, por un lado, ser exhaustiva, lo que quiere
decir que todos los elementos de la población deben poder ubicarse en alguno de los grupos,
y, por otro lado, todas las categorías que generan los grupos deben ser mutuamente ex-
cluyentes, lo que significa que cada elemento de la población sólo puede encontrarse en uno
y sólo uno de los grupos en los que clasificamos a la población. Así, por ejemplo, en la
variable «sexo» (para una población de individuos humanos) encontraremos dos valores, que
definen dos grupos de personas: «hombres» y «mujeres». Si la población que nos interesa es,
por ejemplo, la de «habitantes de Lugo», tenemos que, por una parte, cada uno de los habi-
tantes de Lugo tiene que ser «hombre» o «mujer» y que, por otra, aquel que es «hombre» no
puede ser «mujer» al mismo tiempo, porque los grupos generados en una variable son ex-
haustivos y mutuamente excluyentes. Para poblaciones compuestas, por ejemplo, por suce-
sos, la clasificación tiene que ser también excluyente -parto simple o múltiple, accidente de
día o de noche, etc.-. Y esto es así para permitir la contabilidad rigurosa de poblaciones,
que a su vez pueda permitir la comparación rigurosa entre distintas poblaciones o entre dis-
tintos grupos poblacionales. Ya que una vez hemos clasificado a la población en distintas
variables pertinentes para el estudio que estemos realizando (y que, en investigación social,
suelen recogerse agrupadas en un cuestionario, en lo que llamamos encuesta), procederemos
a contar «la población» que encontramos en cada uno de los grupos. Y este 'conteo ' o re-
cuento de individuos agrupados o agregados permitirá la comparación de poblaciones o gru-
pos poblacionales, que es la base de la investigación en estadística social.
Pongamos algunos ejemplos de variables de pertinencia «sociológica» con sus valores.
Sexo (hombre, mujer) , estado civil (soltero, casado, divorciado, viudo), edad (en años cum-
plidos), relación con la actividad laboral (inactivo, ocupado, parado), tamaño del municipio
de residencia (en número de habitantes), número de hijos, ingresos netos mensuales (en
euros), máximo nivel de estudios terminado (sin estudios, primarios, secundarios, universita-
rios). Estos son ejemplos de variables que nos dan información sociodemográfica o socioeco-
nómica de los individuos . Pero también podemos contar con variables de información actitu-
dinal u opinática sobre asuntos de relevancia social o política. Así, por ejemplo, la «actitud
hacia el aborto» (a favor, en contra) o la «intención de voto» (PP, PSOE,... ).
Las variables han de definir sus valores con la mayor precisión posible, que evite ambi-
güedades o equívocos. Hay variables que pueden definir sus valores de muy distintos modos.
Una de ellas, por ejemplo, es la relación con la actividad. Aquí hemos de definir con claridad
30 Estadística para la investigación social
lo que se entiende por «activo», para asignarle la etiqueta de «activo» siempre al mismo tipo
de gente. En esta variable también conviene precisar a qué nos referimos estrictamente cuan-
do hablamos de «parados», ya que este término ha ido cambiando con el tiempo, incluso
dentro del registro estadístico. En la Unión Europea, a partir del año 2001 , de acuerdo con
las normas aprobadas por la OIT en las 13.ª y 14.ª Conferencia Internacional de Estadísticos
del Trabajo (CIET), para las estadísticas sobre muestreo de población activa, se consideran
«desempleados » (o «parados») «las personas con edades comprendidas entre los 15 y los 74
años que se hallen: (a) sin trabajo durante la semana de referencia, es decir, que no dispon-
gan de un empleo por cuenta ajena o de un empleo por cuenta propia (durante al menos una
hora) ; (b) disponibles para trabajar, es decir, disponibles para iniciar una actividad por cuen-
ta ajena o por cuenta propia dentro del plazo de las dos semanas siguientes a la semana de
referencia; (c) en busca de trabajo activa, es decir, que hayan tomado medidas concretas para
buscar un empleo por cuenta ajena o un empleo por cuenta propia en un período de cuatro
semanas que se termine al final de la semana de referencia, o que hayan encontrado trabajo y
empiecen a trabajar en un período de tres meses como máximo» (y se establecen las medidas
concretas a que se hace referencia que vamos a obviar aquí).
Así, una vez definida con precisión en cada una de las variables la serie de atributos o
valores que clasificarán a la población, a cada uno de los individuos (o unidades) que com-
ponen esta población se le asignará, a través de un procedimiento empírico de observación y
registro, uno de esos atributos o valores. De tal manera que, por ejemplo, en la variable sexo,
veremos si un individuo es «hombre» o «mujer». Y dentro de la edad, veremos cuántos años
ha cumplido y le atribuiremos una edad. Este procedimiento no es sino una operación de
medida, en el más amplio sentido de la palabra.
Tabla l.
25 años 48
26 años 35
27 años 40
.. .
...
... 2.105
...
.. .
...
97 años 1
Ne. 1
Total 2.465
Decíamos que una variable implicaba una clasificación de los elementos de una pobla-
ción. A las clases o grupos generados por una variable los denominamos «valores ». Toda
clasificación es un proceso de distinción de las unidades a clasificar. Pues bien, entre las
clases (es decir, entre los valores que pueden tomar las unidades) se pueden establecer diver-
sos tipos de di stinción, lo que supone diversos tipos de relaciones entre estas clases. Según
sean las relaciones que mantienen entre sí los valores de una variable tendremos distintos
tipos o niveles de medición.
32 Estadística para la investigación social
cernos la distancia exacta entre dos unidades poblacionales. Sabremos no sólo que un indivi-
duo tiene más (o menos) edad que otro, sino cuánta más (o menos) tiene, siendo el 'año' la
unidad que nos «mide» la distancia entre una edad de otra. En la «calificación de la situación
política» sabemos que la calificación de «muy buena» es más alta (o mejor) que la califica-
ción de «buena», pero no llegamos a saber la distancia exacta que separa «buena» de «muy
buena», ni si es la misma que separa «buena» de «regular», o «mala» de «muy mala», ni
siquiera podemos saber si todos los individuos encuestados consideran de igual modo la dis-
tancia que separa una categoría de otra: para unos la distancia entre 'buena ' y 'muy buena'
puede ser mínima, pero para otros puede ser muy grande; como esta distinción entre catego-
rías clasificatorias sólo llega hasta el nivel «ordinal», tan sólo sabemos que cada una de estas
categorías califica mejor o peor que otra la situación política.
Tenemos, como hemos visto, distintos tipos de «escalas de medida» (considerando este
concepto en un sentido muy amplio), «escalas» que vienen determinadas por el tipo de rela-
ciones que pueden establecerse entre las clases que definen los valores de una variable. Se
habla del nivel (máximo) de medición de una variable, según si la característica que estemos
observando permite sólo la clasificación, la ordenación, o además de las dos anteriores la
medición .
Una escala nominal nos clasifica Jos elementos de una población. Clasificar, en sentido
"" tricto, un conjunto poblacional es introducir relaciones de equivalencia entre sus elemen-
o . A todos los elementos de una misma clase (de equivalencia) se les puede atribuir una
identidad. En este sentido, matemático, un «hombre» sería igual a otro «hombre» y una per-
-ona «nacida en Zaragoza» sería idéntica a otra «nacida en Zaragoza», de tal modo que po-
dríamos sumar entre sí todos los elementos de cada clase, y establecer el tamaño de cada una
e ellas, esto es, el número de elementos que contiene. Pero eso ya es contar, algo posterior a
a operación de medición clasificación, que sólo tiene en cuenta las relaciones entre las cla-
se y no el tamaño de cada una de ellas . La medición-clasificación de elementos (o unida-
d.e ) de una población es una tarea previa a la contabilidad de estos.
34 Estadística para la investigación social
Las clases básicas generadas en el nivel nominal son «clases de equivalencia». Una rela-
ción de equivalencia, como la que establecen entre sí los elementos de una misma clase,
presenta una serie de propiedades algebraicas: (1) es reflexiva (cada elemento es idéntico a
sí mismo: a = a), (2) es simétrica (si un elemento es idéntico a otro, éste lo será también al
primero: si a = b, entonces b = a), (3) es transitiva (si un elemento es idéntico a otro, y este
lo es a un tercero, el primer elemento será también idéntico a este último: si a = b y b = c,
entonces a = c).
Las variables de tipo nominal, cuyo nivel máximo de medición es nominal, también son
llamadas «cualitativas», ya que el atributo en cuestión que se asigna a cada una de las clases
no es numérico. En estas variables nominales los valores no expresan la cantidad poseída de
un determinado atributo, ya sea en términos relativos («más consideración positiva de la si-
tuación política», «menos nivel educativo»,... ) o absolutos («54 años» de edad, «2 hijos»,
«85 metros cuadrados» de vivienda habitual...): esto sólo lo harán las variables cuantitativas
(ordinales, en el primer caso, y de intervalo, en el segundo). Las variables nominales sólo
expresan la posesión o no de un determinado atributo (por ejemplo: ser «mujer», haber «na-
cido en Huelva», estar «casada», haber votado al «PP» en las últimas elecciones, ... ), en don-
de no cabe cantidad alguna.
mayor, ordena a la población en estas categorías: «sin estudios», « estudios primarios», «es-
tudios secundarios», «estudios superiores», «estudios de postgrado»), Ja «clase o estatus so-
cial» de autoubicación (ordenada en «alta», «media alta», «media-media», «media baja»,
«baja»), ... Las ordenaciones que se establecen en estas variables son algo arbitrarias. En
estas escalas, para medir-clasificar lo mismo, podemos contar con, por ejemplo, cinco cate-
gorías, o siete, o tres, o simplemente dos. El número de estas categorías depende del asunto
investigado y de la discriminación «real» producida por las categorías. Así, por ejemplo, si
las clases sociales de autoubicación las reducimos a tres («clase alta», «clase media» y «cla-
se baja»), la mayor parte de la población se sitúa en la «clase media», por lo que la clasifica-
ción establecida de esta manera nos diferencia muy poco a la población. Además si tenemos
un número suficiente de categorías o clases en las que registramos a la población siempre
podremos reducirlo a un número menor: el registro, por ejemplo, de la «clase social» de
autoubicación en cinco categorías siempre nos permitirá, en el análisis, su reducción a 3. Sin
embargo, nunca podremos hacer lo contrario: si registramos sólo 3 categorías nunca podre-
mos realizar el análisis para un número más elevado. Este es el tipo de variables producidas
por las escalas de actitud, de gran uso en la investigación sociológica, en las que se mide el
grado de aceptación (o rechazo) de algo (un colectivo, una acción, etc.): estas escalas van de
una aceptación máxima a una aceptación mínima o de una aceptación máxima a un rechazo
máximo, pasando por un punto intermedio.
En este tipo de variables que presentan un nivel máximo de medición «Ordinal», los va-
lores se marcan con números, que también tienen algo de arbitrarios (como el número de
categorías en que se desglosan). Esta es la razón por la que, por ejemplo, el orden entre una
aceptación máxima y una mínima de algo, si utilizamos cinco categorías, podría ir en unos
casos desde un 5 hasta un 1, y en otros casos este orden podría oscilar entre un + 2 y un - 2,
utilizando escalas de números enteros, escalas que son en cierto sentido algo arbitrarias. Así,
cuando queremos «medir», por ejemplo, la «actitud hacia las grandes diferencias de ingre-
sos» por el grado de acuerdo con la expresión «las grandes diferencias de ingresos son nece-
sarias para la prosperidad del país» y este acuerdo se establece en cinco categorías («muy de
acuerdo», «algo de acuerdo», «ni de acuerdo ni en desacuerdo», «algo en desacuerdo» y
«muy en desacuerdo»), podemos asignar a estas categorías los números 5, 4, 3, 2 y 1, respec-
tivamente, de Ja misma manera que podemos asignarles los números + 2, + 1, O, - 1 y - 2
ó + 4, + 2, O, - 2 y - 4 ó 12, 10, 6, 2 y O. Lo único que marcan estos números es una
diferencia relativa en la posesión de una determinada propiedad o atributo. Si dejamos de
considerar estos números en su concepción ordinal y los consideramos como números, como
cantidades absolutas (numéricas) de algún atributo estaríamos convirtiendo una variable or-
dinal en una numérica, estaríamos subiendo un peldaño más en las escalas o niveles de medi-
ción.
intervalo. Una variable constituye una escala de intervalo si en ella conocemos las distancias
exactas que hay entre todos sus valores, es decir, si podemos conocer con precisión numérica
el intervalo existente entre dos valores cualesquiera de esta variable, esto es, la distancia que
separa un valor de otro.
En este tipo de escalas contamos con una unidad de medida, de la que carecíamos en las
escalas inferiores. Esta unidad es la que nos mide la diferencia exacta entre un valor y otro
de la escala. Iterando esta unidad conseguimos medir con exactitud una determinada propie-
dad o atributo de un objeto, de un elemento de la población. Así, por ejemplo, podemos fijar
la «edad» de un individuo adoptando el «año» cumplido como unidad de medida, como algo
que se repite un determinado número de veces en ese individuo y nos da la medida exacta de
su 'edad' . Al contar con una unidad de medida, muchos autores, consideran que sólo con
escalas de este tipo podemos realizar auténticas mediciones. Por eso las operaciones de me-
dición realizadas con estas escalas se suelen llamar mediciones en sentido estricto, mientras
que las que llevaban a cabo las escalas ordinales las podemos llamar ordenaciones y las de
las escalas nominales era meras clasificaciones o distinciones. Por eso en programas de aná-
lisis estadístico de datos como el SPSS o el PSPP sólo las variables que constituyen escalas
de intervalo se denominan «escalas» (escalas en sentido estricto).
Si nos centramos sólo en poblaciones humanas, ejemplos de variables de intervalo son,
siempre que se detallen numéricamente todos los valores que asumen los individuos de la
población considerada, la «edad» (en «años» cumplidos), los »ingresos mensuales brutos»
(en «euros»), el «tamaño de la vivienda habitual» (en «metros cuadrados»), el «número de
hijos», el «tamaño del municipio de residencia» (en «número de habitantes»), la «distancia
entre domicilio y trabajo» (en «kilómetros»), el «consumo de televisión » (en «número de
horas diarias» que se ve la televisión).
En las variables de intervalo conocemos la distancia exacta entre un valor y otro de la
variable. Así sabemos que entre un individuo que tiene 20 años y otro que tiene 40 hay 20
años de diferencia (el primero tiene 20 años menos que el segundo), que entre los ingresos
de alguien que gana al mes 1.234,67 euros y los de alguien que gana 2.145,80 euros hay
911 ,13 euros de diferencia (la segúnda persona gana 911 ,13 euros más que la primera).
Hablamos de variable de intervalo cuando el máximo nivel de medición que encontra-
mos en ella es el de intervalo. Ya que una variable de intervalo también presenta un nivel de
medición ordinal (si nos fijamos en la «edad», una persona que tiene 20 años tiene menos
edad que una persona que tiene 40) y un nivel de medición nominal (una persona que tiene
20 años tiene una edad distinta que de 40). A medida que vamos subiendo de nivel de medi-
ción, cada uno de ellos contiene al anterior.
Cuando agrupamos valores de una variable de intervalo y así generamos categorías de
valores agrupados, lo que estamos haciendo es convertir esa variable de intervalo en una
variable ordinal. Es lo que hacemos si la «edad» (en años cumplidos) de los individuos de
una población de más de 15 años la agrupamos en distintos tramos de edad, considerando
que estos «grupos de edad» pueden tener comportamientos más o menos homogéneos y con-
vertimos la variable original, de intervalo, en otra, ordinal, constituida por cinco grupos de
edad: «menores de 30» años, «de 30 a 44» años, «de 45 a 64» años, «de 65 a 79» años, y
Capítulo 111. Recogida y tratamiento de datos 37
«mayores de 79» años. Esta edad presentada en grupos es una variable ordinal: los grupos
están ordenados de menor a mayor edad.
Una escala de intervalo, en sentido estricto, cuenta con una unidad de medida (que nos
da la cantidad de una propiedad que posee cada elemento de la población) pero no cuenta
con un cero (no cabe la ausencia absoluta de la propiedad sometida a medición). En realidad,
apenas existen escalas de intervalo en sentido estricto. Una escala de intervalo sería la escala
Celsius para medir la temperatura de un objeto, que establece un cero arbitrario, que no es un
auténtico cero, ya que OºC no nos indica la ausencia de temperatura en un objeto.
Generalmente todas las escalas de intervalo con las que trabaja un sociólogo cuentan con
un cero absoluto, que marca el origen de la escala.
Y si tenemos un cero absoluto, una ausencia de una determinada propiedad que configu-
ra una clase de elementos de la población, la de aquellos que no presentan esa propiedad (y
que puede ser una clase vacía) 2 , entonces estamos hablando de una escala de razón. Es muy
difícil que una escala de intervalo no sea a su vez una de razón. Es por esto que podemos
considerar la escala de intervalo como la que define el nivel máximo de medición de una
variable.
Con estas escalas podemos conocer no sólo la distancia entre los distintos valores de la
escala (que era lo propio de las escalas de intervalo) sino también el número de veces que
cada uno de los valores establecidos contiene a otro, es decir, la razón de un valor en rela-
ión a otro: el número de veces que un valor es mayor que otro. Así, por ejemplo, una perso-
na que tiene 40 años tiene el doble de edad que uno de 20, y el que gana 2.145 ,80 euros al
mes gana 1,74 veces más que el que gana 1.234,67 euros, y el que reside en una vivienda de
40 metros cuadrados reside en una vivienda 4 veces más pequeña que el que lo hace en una
de 160 metros cuadrados.
Una escala de razón es también, como es lógico, de intervalo, y ordinal y nominal, al
mismo tiempo.
Resumiendo, en una variable nominal lo máximo que podemos decir es que un valor es
distinto de otro. En una ordinal sabemos que un valor es mayor o menor que otro. En una de
intervalo conocemos la distancia exacta que separa un valor de otro. Y en una variable de
razón conocemos el número de veces que un valor contiene a otro.
Para terminar este apartado hemos de realizar de modo muy resumido una muy impor-
tante advertencia sobre la medición. A veces se tergiversa una realidad empírica concreta
para someterla a un modelo matemático que la haga susceptible de medida. El lenguaje de la
medida, advierte Cicourel 3 , nos obliga a emplear clases de equivalencia que pueden tergiver-
sar arbitrariamente tanto las realidades empíricas a las que se aplica la medida como los
conceptos teóricos que se intentan medir. Siempre hay que determinar (empíricamente) la
adecuación entre el modelo matemático y aquello que este intenta representar.
2
Por ejemplo, en los barómetros mensuales del CIS , la población se define operati vamente como el conjunto de
españoles de ambos sexos de, 18 años o más y que residen en España en el momento de reali zarse la encuesta.
3
Cicourel, A. V.: El método y la medida en Sociología (1963], Madrid , Editora Nacional, 1982, pág. 56.
38 Esta dística para la investi gación social
3. De la observación al registro
Muchas veces necesitaremos generar nuestros propios datos , realizando las observaciones de
las características de una población o de una muestra de esa población. La recogida de la
información requiere una planificación que comienza por definir Ja población, decidiendo
después las características que se van a observar, y definir operativamente esas característi-
cas como valores de una variable que permita el tratamiento estadístico.
Ejercicio 1
Lea detenidamente el cuestionario del CIS de la Imagen 1 y determine el nivel de medición que
se ha empleado para las variables correspondientes a las preguntas P5, P7 y P9 del cuestio-
nario.
Los datos recogidos habrán de ser codificados estableciendo previamente los distintos
valores que cada variable puede tomar y por tanto las categorías de su clasificación. Antes
4
Los que no tien en ingresos, los que no tienen hijos, aquellos que no ven la tele, los que no tienen vivienda
(que podemos decir que tienen una vivienda de O metros cuadrados), los que están naciendo (y no tienen edad), los
que habitan en un municipio sin habitantes, etc.
Capítulo 111. Recogida y tratamiento de datos 39
Imagen 1.
Cuestionario empleado en los barómetros del CIS.
CIS
Centro de Investigaciones Sociológ icas
Departamento de Investigación
DICIEMBRE 2008
2. 7 8 1
Provincia (12)(13)
(1)(2)(3X4l (5)(6)(7)(8)(9)
Distrito (19)(20)
Entrevistador (24)(25)(26)(27)
Buenos días/tardes. El Centro de Investigaciones Sociológicas está reallz_ando un estud io sobre temas de interés general. Por este motivo solicitamos
su colaboración y se la agradecemos anticipadamente. Esta vivienda ha sido seleccionada al azar med iante métodos :;ile;atorios . Le 9;m1ntizamos e l
absoluto anonimato y secreto de sus respuestas en el más estricto cumplimiento de las Leyes sobre secreto estadistico y protección de datos
persona les . Una vez grabada la infonnación de forma anónima, Jos cuest ionarios individua les son destru idos inmed iatamente.
P.1 En primer lugar que rría preguntarle si tiene Ud .. . P.6 ¿Cuál es. a su ju icio. el principal problema que existe actualmente
en Espafla? ¿Y el segundo?¿ Y e l tercero?
- La naciona lidad espar'lola ........... .. .. 1 (28}
- La nacionalidad espaflola y otra . 2 (33)(34)
-Otra nacionalidad ..................... .... 3 --+FIN DE LA ENTREVISTA
(35)(36)
P.2 Refiriéndonos a la situación económ ica general de España , ¿cómo
la calfficarfa Ud .. muy buena , buena . regular, mala o muy mala? (37)(38)
P.3 Y, ¿cree Ud. que dentro de un aOo la situación económica del pais (41 )(42)
será mejor, igual o peor que ahora?
(43)(44)
- Mejor .............. 1
- Igual . .. ... 2 N.S............ .... 98
- Peor . .. ...... 3 (30) N.C ................ 99
-N.S ............. 8
· N.C. .. ...... 9 P.8 En la actua lidad , ¿se siente Ud. muy satisfecho/a, bastante
satisfecho/a , bastante insatisfecho/a o muy insatisfecho/a con la vida
P.4 Refiriéndonos ahora a la situaci6n oollttca general de Espafla , que lleva?
¿cómo la calificaria Ud .. m uy buena, buena , regular. mala o muy mala?
- Muy satisfechota .. .. ............. . .................. 1
- Muy buena ...... . 1 - Bastante satisfecho/a .. 2
- Buena . 2 - (NO LEER) Ni satisfecho/a ni insatisfecho/ a .... 3
- Regular ........... 3 - Bastante insatisfecho/a . . .............. 4 (45)
-Ma ta .............. 4 (31 ) - Muy insatisfecho/ a . .. ............................. 5
- Muy mala .. 5 ·N.S. 8
-N.S. 8 -N.C. 9
-N.C. ............... 9
P .9 (,Podr ia decirme en qué tipo de sodedad le gustaria más vivir?
P.5 Y, ¿cree Ud. que dentro de un año la situación política del pa is será
mej or, ig ual o peor que ahora? - Una sociedad con personas de diferente origen, cultura y
re ligrón .
- Mejor ............ 1 - Una sociedad en la que la gran mayoría de la gente tenga (46)
- Ig ual . . 2 el m ismo origen , cultura y relig ión . 2
- Peor .. . .. 3 (32) -N.S. .. ......................................... 8
-NS ...... .. ..... 8 -~~ 9
- N.C 9
40 Estadística para la investigación social
del proceso de recogida de datos se han definido operativamente las características en forma
de variables, y las diferentes modalidades de Ja característica como valores de la variable,
pero para registrar los datos también se emplea un sistema de codificación que asigna un
código, generalmente numérico, a cada valor de las variables. Por ejemplo, en la variable
Comunidad Autónoma asignaremos los valores del 1 al 17 a las Comunidades por orden
alfabético, y los códigos 18 y 19 a las Ciudades Autónomas de Ceuta y Melilla, y en la
variable sexo, asignaremos el valor 1 a Jos hombres y 2 a las mujeres. Con la codificación
del cuestionario se pretende evitar la ambigüedad en el tratamiento de las respuestas, esta-
bleciendo de forma teórica la clasificación de las diferentes respuestas que pudiéramos en-
contrar.
Al mismo tiempo, para que sea posible el tratamiento informático de los datos de los
individuos y las variables, deben disponerse en forma de matriz con filas y columnas de
números. Y para eso es necesario asignar a las variables un número de dígitos estableciendo
las columnas que ocuparán en la matriz de datos. Por ejemplo, para la edad, reservaremos
tres dígitos que se corresponderán con tres columnas de la matriz, y para el sexo sólo necesi-
taremos un dígito. En la Imagen 1 que presenta el cuestionario empleado en un barómetro
del CIS, podemos ver cómo se han tabulado los datos asignando las columnas que ocuparán
en la matriz de datos mediante los números entre paréntesis que aparecen junto a cada
variable. También podemos ver el código numérico asignado a cada respuesta posible.
Los datos recogidos mediante el cuestionario son grabados en una matriz de datos. Si
observamos la matriz de datos de un barómetro del CIS en la Imagen 2, sólo veremos filas y
columnas de números. Dicha matriz suele estar grabada en formato de archivo de texto sepa-
rado por tabuladores.
Los datos del barómetro están contenidos en esa matriz, pero para su lectura es necesario
localizar en la matriz las columnas que contienen la información de las variables y los códi-
gos asignados a los valores de las variables. Los datos estadísticos que proporcionan las in-
formaciones de los individuos sin agregar suelen llamarse microdatos, y van acompañados
de un listado de códigos para cada variable y la referencia de las columnas de la matriz de
datos donde se localizan, también se acompañan de las preguntas del cuestionario empleado
para recoger los datos.
Si observamos la matriz del Barómetro del CIS de la Imagen 2, podemos ver que en cada
fila, los 9 primeros dígitos están reservados a la identificación del estudio y el individuo que
responde al cuestionario, es decir, las 4 primeras columnas empezando por las izquierda son
el número de estudio n. 0 2781 y las S columnas que siguen se reservan para la numeración
del individuo encuestado. En las columnas 10 y 11 se registra la Comunidad Autónoma con
un código numérico de dos dígitos, en las columnas 12 y 13 se han registrado las provincias
con un código de dos dígitos numerados del 1 al Sl. En las columnas 14 a 16 de la matriz se
han registrado los municipios recogidos según una nomenclatura 5 .
5
Dependiendo de Ja legislación de cada país, habrá diferentes categorías según se contemple Ja posibilidad del
di vorcio, las parejas de hecho o Ja poligamia. En algunas legislaciones como la chilena se considera ser padre,
madre, hijo o hija como una de las categorías del estado civil.
Cap ít ulo 111. Recogida y tratamiento de datos 41
Imagen 2.
Datos del barómetro del CIS 2781 en formato de texto separado por tabulaciones ..
En la columna 17 el tamaño del hábitat se registra en un solo dígito y utilizan los si-
guientes códigos numéricos del 1 al 7:
Ejercicio 2
Obtenga el listado de códigos del barómetro del CIS de diciembre de 2008 (estudio 2781) . Para
ello acceda a la web de la institución, siga el enlace «Acceso li bre y gratuito a los ficheros de
datos del CIS », y descomprima el archivo comprimido «fichero de datos», donde encontrará un
PDF con los códigos.
Como podemos ver en la Imagen 3, la lectura de la matriz de datos por un paquete esta-
dístico asigna las celdas de la tabla a los datos de la matriz, permitiendo visualizar los nom-
bres de las variables y los valores que toma en cada individuo. Las respuestas al barómetro
pueden ser ahora fácilmente tratadas estadísticamente y permite realizar los cálculos o recla-
sificaciones de los datos con las respuestas de las 2.487 personas entrevistadas.
Imagen 3.
Vista de la lectura del barómetro 2781 del CIS tras la lectura de los datos
por un software o paquete estadístico ..
ll!'!lill!l!!mll:limmliZ!lm!li!!!l........................111111111111::::::::::-::--::::::::::::-'.'~~-d 6~
-
E.. ~ yt:-libe:~ ~s
'"" Qat• !rarisform t!<>P
):1ew
¡;; , ,...
~ases 'r~s
¡:)_¡
.
2
2781 5'9 a 9 o 1 o o o o 1 3 2 2 2 a
3 o o o o o 1 5 3 3 1
2781 550 8 9 1
-
• 2781 551 8 9 o 1 o o o o 1 5 2
' 2 •
5
2781 552
• • o 1 o o o o 1
' 3 3 2
-
21
6 2761 553 8 9 o 1 o o o o 1 5 2 5 2 1
7
27$1 ,,, • 9 o 1 o o o o 1 5 3 5 3 1 1
• 2781 555
• 9 o 1 o o o o 1 3 3 2 2 1 1
• 2781 556
• 9 59 5 o o o o 1 5 3 a • 1 1
10
2781 557
• • 59 5 o o o o 1 5 3 2 3 1
11
2781 558
• 9 59 5 o o o
-
o 1 5 3
- 3 3 •
12 2781 559
• 9 59 5 o o o o 1
• 2 3 3 3
13 2781 560
• • 59 5 o o o o 1 5 3 3 3 1
11 2781 561
• • 59 5 o o o o 1 5 3 5 3 1
1
•
.
15
2761 562 9 59 5 o o o o 1 5 3 5 3 1
16
2761 563
,.,
• 9 59 5 o o o o 1 5 3 3
• 1
,,
17
2781
• 9 59 5 o o o o 1 3 3 4 3
1 ..:..1
1 •I
NoSpll
En la tabla, los valores de las variables están codificados y no son fácilmente identifica-
bles, por lo que es necesario asignarles etiquetas que nos permitan identificar fácilmente las
variables y sus valores en los resultados de los cálculos o tablas que elaboremos. En la Ima-
gen 4 pueden verse los mismos datos con las etiquetas de los valores, como la comunidad
autónoma, la provincia o las respuestas a las primeras preguntas Pl , P2, etc.
Capítulo 111. Recogida y tratamiento de datos 43
El paquete estadístico realiza listados, tablas y cálculos a partir de los datos de la matriz
original, pero también puede reclasificar los datos en otras categorías, codificando de otra
manera los valores de las variables, cambiar las etiquetas de los valores o crear nuevas varia-
bles, a partir de las originales mediante algún tipo de operación lógica o aritmética.
Imagen 4.
Vista de la lectura del barómetro 2781 del CIS con las etiquetas de los valores de las variables.
., ... '· ~il
I1ansform 80alYie l,!tli:ies
fie i:;dt ~;.,.
º"'ª ~ ~
~ llI f;i'. I ~
,'? f!r
8 Ql Jl ~ -t:
:;.,,. GoToCase Van.bies Foo
"""" 1 Inserte~ Inseit Vat~ble "'
Soli:Fie Weqt. Cases Select~~s
1:. °"""
vak.ietabels
ES"LQ j278ll
2781 549 C~yleon 8ur90< O Menos o igual a 2.000 hablantes Oanacioo.:J"=iade--...panola Req.jao- IQU~
2781 551 Castky Leon Burgos O Menos o igual a 2.000 habi:antes 0.an.acior~espar.ola
"""'"""'
Muymc;la IQUól
2781 552 Ca~ilay Leoo Bugos O ~oiguala2.000habitantes O a n.:rc~d espanold Mala Peo<
2781 553 Casi:~ y Leon O Menos o igual a 2.000 habitantes O anacicrldllclad espanola Muy mola lQUól M
Muymai.>
55< Pea M
2781 555 Castla y Leoo o Meros o q.Jal a 2.(l((J habl.Yltes O e l'lbCIOMidad ~ Reoua. Peo<
-- - -- - --
Castila y Leon
-- -
"'""' IOOJOI a '1 0C000 habtnes Oci~espanola
----·-----·- -·- --
Muymai.>
2781 556 59
"'"°' Peo<
11
Castilayleon l OOClOl a iOCroJ hM:litantes o-a naOOnaidad espanci!i Muy mala
""'~"
2781 556 59 Peo<
17 2781 564 Castila y leon 59 !OO'JO! a 400COO hab«antes Oa nao:ooaid<!ld ~oki p""
"'"°' R09U"
.¡ 1 .¡.:Ji
I
Data View \'ari&lle lliew I
1 -¡¡¡;;;;¡¡-- W<>;#sdf NoSolt
1 '
Obsérvese que en la columna del municipio (MUN) figuran algunos casos con el código
de municipio «0», se trata de municipios pequeños para los cuales se ha ocultado el código
para preservar la privacidad de los datos de los individuos de la encuesta. Con ello se evita
que podamos identificar a personas concretas a partir de las informaciones de sus respuestas
a la encuesta.
4. Distribuciones de frecuencias
Una vez establecidas las clases o categorías de una variable haremos el recuento de los indi-
viduos que contiene cada categoría, y llamaremos frecuencia al número de casos en cada
una de ellas. Veamos un caso concreto: si tomamos la población española en el censo de
2001 y observamos el dato de la nacionalidad de cada individuo podremos clasificar a toda
44 Estadística para la investigación socia l
Continente Número
de nacionalidad de personas
Europa 39.807.803
África 337.388
América 626.634
Asia 73.809
Oceanía 1.367
Apátridas 370
En el caso de las variables con escalas de intervalo como la edad, llamaremos también
intervalos a las categorías definidas. Si hacemos categorías para clasificar a las personas
según su edad podemos agrupar las edades de diez en diez años, de cinco en cinco, etc., y
diremos que un individuo está situado en el intervalo de 20 a 25 años, o podremos saber el
porcentaje de la población que contiene el intervalo de O a 16 años.
Pero al establecer la amplitud de los intervalos es preferible que la agrupación responda
a criterios sociológicos y no sólo a una partición sistemática, por ejemplo, agruparemos la
edad de un conjunto de individuos en categorías relacionadas con hechos sociales como
la edad laboral, mayoría de edad, etc.
nen una edad concreta. En la siguiente tabla representamos la edad de toda la población es-
pañola en el censo detallando la distribución de las edades año a año ofrecidas por el Institu-
to Nacional de Estadística.
Tabla 3.
Distribución de edades del Censo de 2001 de año en año.
Llamamos frecuencia absoluta (n;) al número de veces que se repite un suceso (en este
caso tener una edad determinada) . Tendremos entonces una distribución de frecuencias ab-
solutas que nos informa de cuántos individuos hay en cada categoría de edad.
Una vez clasificadas las edades, representadas en la tabla anterior, podemos observar con
detalle el reparto de la población para cada edad, por ejemplo, en la categoría de los que
tienen exactamente 35 años hay 668.002 personas, también podemos ver que el grupo más
numeroso es el de los que tienen 25 años. Pero, si lo que queremos es resumir los datos para
obtener una visión general de la población, necesitaremos una agrupación menos detallada,
ya que la clasificación año a año nos proporciona un número demasiado elevado de catego-
rías (más de 100).
Podemos componer otras agrupaciones por simple adición de las frecuencias de las cate-
gorías que decidamos agrupar. Si establecemos categorías con una amplitud de 5 años, ob-
tendremos una distribución de frecuencias más sencilla de leer.
Tabla 4.
Distribución de edades del Censo de 2001 en grupos de edad quinquenales.
0-4 1.923.085
5-9 1.906.092
10-14 2.103.476
15-19 2.464.580
20-24 3.184.683
25-29 3.500.248
30-34 3.378.579
35-39 3.292.986
40-44 3.028.209
45-49 2.609.708
50-54 2.433.775
55-59 2.212.801
60-64 1.850.633
65-69 2.090.389
70-74 1.847.044
75-79 1.440.761
80-84 875.435
85-89 478.794
90 o más 226.093
Total 40.847.371
Fuente: INE.
El detalle en grupos de 5 años permite un análisis con menos detalle que la distribución
año a año, pues renunciamos a la información de cada edad concreta, pero se produce una
ganancia en la significación de los datos y evitaremos errores, ya que muchas veces los
Capítulo 111. Recogida y tratamiento de datos 47
encuestados, al ser preguntados por la edad, redondean, con lo que se producen valores más
altos en las cifras que terminan en O, es decir si tienen 39 dirán 40.
En la tabla de agrupación quinquenal se puede apreciar a simple vista que los dos grupos
de edad más numerosos están alrededor de la treintena, o que el grupo de edad de 60 a 65
años es menos numeroso que el precedente y el siguiente creando un escalón en la distri-
bución.
Siempre se puede resumir más la información empleando un número menor de catego-
rías haciendo que la sencillez de lectura aumente, pero con una pérdida importante de infor-
mación. El INE ofrece también tablas de «Edad en grandes grupos» clasificando a toda la
población en tres categorías:
Tabla S.
Distribución de edades del Censo de 2001 en grandes grupos de edad.
Menos de 16 6.379.748
16-64 27.509.107
65 o más 6.958 .516
Total 40.847.371
Fuente: INE.
N = n 1 + n2 + · · · + n 11
48 Estad ística para la investigación social
fr; = n; /N
Realizando esa operación para cada una de las categorías de la tabla anterior (edad en
grandes grupos) obtenemos otra tabla con las frecuencias relativas, que representa Ja rela-
ción numérica entre el efectivo de cada categoría y el total de Ja población tomado como la
unidad:
Tabla 6.
Distribución de edades del Censo de 2001 en frecuencias relativas
para grandes grupos de edad.
Años fr
Menos de 16 0,1562
16-64 0,6735
65 o más 0,1704
Total 1,0000
Fuente: INE.
De esa forma, la frecuencia relativa de la siguiente categoría de las personas con edades
comprendidas entre los 16 y Jos 65 años será 0,6735 o un 67,35 %.
A menudo expresaremos las frecuencias relativas como porcentajes, pues estamos más
acostumbrados a hablar de «tantos por ciento» que de fracciones de Ja unidad. Y por lo gene-
ral será más frecuente encontrar la información de las tablas publicadas en este formato.
Tabla 7.
Distribución de edades del Censo de 2001 para grandes grupos de edad en porcentajes.
Años %
Menos de 16 15 ,62
16-64 67,35
65 o más 17,04
Total 100,00
Fuente: INE.
Capítulo 111. Recogida y tratamiento de datos 49
Para realizar determinados cálculos necesitaremos construir tablas que representen las
frecuencias absolutas o relativas de forma acumulada, de manera que podamos determinar
cuál es la frecuencia desde el origen de la variable hasta un valor dado. En el caso de las
edades del censo, podríamos saber cuántas personas tienen menos de una determinada edad.
Partiremos de la tabla 8 con la distribución de frecuencias absolutas (n¡) de las edades en
grupos de 1O años para construir las frecuencias acumuladas
Tabla 8.
Distribución de edades del Censo de 2001 en grupos de edad de 10 años.
Frecuencias absolutas.
Edad n;
0-9 3.829.177
10-19 4.568.056
20-29 6.684.93 1
30-39 6.671.565
40-49 5.637.917
50-59 4.646.576
60-69 3.941.022
70-79 3.287.805
80-89 1.354.229
90 o más 226.093
N 40.847.371
Fuente: INE.
Las frecuencias absolutas acumuladas (Na) para cada categoría se construyen sumando
la frecuencia de cada categoría las de las anteriores. La frecuencia absoluta acumulada de
la primera categoría será la frecuencia de esa misma categoría pues no hay otras anteriores:
Na 1 = n 1 = 3.829.177
Na; = Na; - i + n;
En la tabla de las frecuencias absolutas acumuladas de la Tabla 9 podemos saber directa-
mente que el número de personas con menos de 40 años es 21.753.729, algo más de la mitad
de la población, o que el número de jóvenes con menos de 20 años es 8.397.223.
50 Estadística para la investigación social
Tabla 9.
Censo de 2001, distribución de edades en frecuencias absolutas y acumuladas.
Total 40.847.371
Fueme: INE.
También es posible calcular las frecuencias acumuladas de forma inversa, es decir de mayor
a menor, obteniendo la distribución acumulada de la Tabla 10, en la que podemos ver el
número de personas con una edad superior a un límite establecido:
Tabla 10.
Censo de 2001, distribución de edades en frecuencias absolutas y acumuladas
de forma inversa.
Total 40.847.371
Fuente: INE.
Tabla 11.
Tabla resumen de las frecuencias de edades absolutas, relativas, acumuladas
y en porcentajes del Censo de 2001.
Frecuencia Frecuencia
Frecuencia Frecuencia
Edad % acumulada relativa
absoluta (n;) relativa (fr)
(Na ) acumulada (Fra)
Con estas simples operaciones de suma o división de las frecuencias se pueden represen-
tar los mismos datos de diferente forma y, como veremos más adelante, estos formatos nos
erán útiles para realizar determinados cálculos y representaciones gráficas que trataremos
en los siguientes capítulos.
52 Estad ística para la investigación social
Ejercicio 3
A partir del siguiente con las edades de un grupo de 80 personas :
42 60 60 38 60 63 21 66 56 57 51 57 44 45 35 56 59 60 40 24 42 21 39 39 34 45 39 28
30 35 4 7 53 49 50 49 38 45 28 41 47 42 53 32 58 23 41 63 28 54 33 35 43 48 48 27 38
54 38 40 63 48 33 35 61 47 41 55 53 27 20 21 43 27 27 54 52 53 29 30 53
establezca los intervalos de edad necesarios para clasificar las edades del grupo en 5 categorías
de igual ampl itud . Clasifique las 80 edades en las categorías creadas y elabore las tablas de
frecuencias absolutas, contando el número de casos de cada categoría y las frecuencias relati-
vas, calculando la fracción del efectivo de cada categoría respecto al total (N = 80).
Si anteriormente hemos visto cómo se distribuía el número de personas según las cate-
gorías de edad establecidas ahora podremos comparar esas mismas distribuciones de forma
separada para hombres y para mujeres. Así, con la simple observación de las dos distribucio-
nes de frecuencias absolutas resultantes, podemos ver que el número de hombres es ligera-
mente mayor que el de mujeres en las edades más jóvenes, hasta los 40 años, para pasar a
predominar el número de mujeres respecto al de hombres en las edades superiores.
lectura de tablas de frecuencias de doble entrada, vemos que se han calculado los
rotales de cada fila y cada columna, a estos totales les llamaremos totales marginales de
Capítulo 111. Recogida y tratamiento de datos 53
filas o columnas. De esa manera podremos conocer el total de hombres y mujeres de una
edad concreta en los totales marginales de las filas, y podremos conocer el total de hombres
o bien de mujeres de cualquier edad en los totales marginales de las columnas.
Si queremos representar la tabla en porcentajes debemos elegir entre calcular el porcen-
taje sobre el total de cada columna o sobre el total de cada fila, según sea el aspecto que
queremos resaltar. Si calculamos los porcentajes sobre el total de las columnas obtenemos la
-iguiente tabla:
Tabla 13.
Distribución de edades en porcentajes según el sexo. Censo de 2001.
Así podemos conocer la parte de varones o de mujeres respecto a sus respectivos totales
que hay en una determinada categoría de edad, por ejemplo el 17, 71 % de los hombres y el
15,68% de las mujeres tienen edades comprendidas entre 20 y 30 años. (Obsérvese que
uando se dan las cifras en porcentajes es frecuente acompañar entre paréntesis el total de
individuos sobre el que se ha hallado el porcentaje.)
Si por el contrario hallamos los porcentajes sobre los totales de las filas podremos cono-
cer cómo se reparte el número de hombres y mujeres en cada categoría de edad:
Tabla 14.
Distribución de edades en porcentajes para cada categoría de edad, según el sexo.
Censo de 2001.
(40.847.471)
La Tabla nos muestra la proporción entre hombres y m ujeres para cada uno de los 10
grupos de edad. Así podemos resaltar que hay aproximadamente la misma proporción de
personas de cada sexo hasta los 60 años, y que a partir de esa edad se diferencian progresiva-
mente, de modo que entre las personas de más de 90 años, sólo el 27, 15% son varones mien-
tras que entre las mujeres ese porcentaje es del 72,85%.
Supongamos ahora la misma categorización pero referida a una variable continua, como
la distancia en kilómetros entre dos puntos. En este caso los límites vienen dados de la si-
guiente manera:
a) De O hasta 2,49999999999.
b) De 2,5 hasta 4,4999999999.
e) De 4,5 hasta 7 ,49999999.
d) Mayor o igual de 7,5.
Esto es así porque aunque la variable es continua las medidas son siempre discretas. Por
ejemplo la distancia la mediremos en km y m (despreciando los cm, mm, ... ) y redondeare-
mos a la unidad que utilizamos . En este caso km. Así por ejemplo, una distancia de 4 km,
"00 m, y 60 cm con 4 mm será 4,3 km y la anotaremos, redondeando, como 4 km. Mientras
que 4 km, 700 m y 80 cm serán 4,7 km que anotaremos como 5 km. Por eso la clase 5-7,
tiene como límites reales de 4,5 hasta 7,49999.
Generalmente los decimales periódicos suelen omitirse y por ello la clasificación ante-
rior suele aparecer como:
a) De O hasta 2,5.
b) De 2,5 hasta 4,5.
e) De 4,5 hasta 7,5.
d) Mayor o igual de 7,5.
Pero la expresión de esta clasificación puede suponer una fuente de ambigüedad para los
asos que se encuentran en los límites de las categorías, es decir, ¿el valor 2,5 pertenece al
primer intervalo o al segundo? Para que la clasificación sea exhaustiva y mutuamente ex-
luyente ese valor deberá pertenecer a una sola categoría. Para ese fin se definen los límites
reales o verdaderos de las clases o categorías. En este caso, situamos el valor 2,5 en la se-
gunda categoría.
Esta precisión puede expresarse en términos matemáticos de la siguiente manera:
a) [0-2,5[
b) [2,5-4,5[
e) [4,5-7,5[
d) [7,5[
56 Estadística para la investigación social
(El símbolo [ ] señala un intervalo cerrado, en el que los límites pertenecen al intervalo,
][ señala que el intervalo es abierto en los extremos, por lo que ninguno de los dos lími-
tes pertenece al intervalo.
[[ señala un intervalo semiabierto, en el que el límite inferior pertenece al intervalo, pero
el superior no).
Al establecer el intervalo [0-2,5[ debe entenderse que que el valor superior del intervalo
no está incluido (sólo llega hasta 2,4999). Teniendo en cuenta que se trata de una variable
continua, para calcular la amplitud de un intervalo el límite superior de una categoría coinci-
de con el límite inferior de la categoría inmediatamente superior.
Existe una variable continua que generalmente tiene un tratamiento especial. Es la edad.
Supongamos ahora que la clasificación dada lo es de edades, así la misma categorización:
a) Menos de dos.
b) 3-4.
e) 5-7 .
d) Más de 7.
8. Formas de la distribución
Para examinar una distribución de frecuencias recurriremos a menudo a su representación
gráfica, siendo la más común la que se conoce como histograma. La representación ofrece
una visión general de la distribución rápida y sencilla, a través de la forma que adopta una
distribución de frecuencias. Aunque las representaciones gráficas se tratarán detalladamente
en el Capítulo V vamos a presentar algunos ejemplos de posibles distribuciones de frecuen-
cias y la forma de su representación gráfica.
Capítulo 111. Recog ida y tratamiento de datos 57
Gráfico 1.
Distribución de frecuencias de las edades de 84 personas y su histograma.
40
Edad n; 35
20-29 4 30
30-39 8 25
40-49 15 20
50-59 22 15
60-69 35
10
Total 84 1
5
1
o 1
20-29 30-39 40-49 50-59 60-69
La distribución es ascendente hacia la derecha. Las frecuencias son mayores para los
,·alores más altos de la variable. Representa una población envejecida con frecuencias cre-
~íentes a medida que avanza la edad.
Gráfico 2.
Distribución de frecuencias de las edades de 88 personas y su histograma.
45
40
35
Edad n; 30 -
20-29 40 25 -
30-39 22 20 -
40-49 15
15 -
50-59 8
60-69 3 10 -
Total 88
5 1 1
o 1
20-29 30-39 40-49 50-59 60-69
Gráfico 3.
Distribución de frec uencias de las edades de 81 personas y su histograma.
Edad 25 - , - - - - - - - - - - - - - - - - - - - - - - ,
1-9 4
10-19 8
20-29 18
30-39 10 15 - + - - - --l
40-49 2
50-59 8 10 .....__ _ ___,
60-69 20
70-79
80-89
6
4
5+-
90-99 1
o~-~-~-~-~-~-~--~-~-~~
Total 81 0-9 10-19 20-29 30-39 40-49 50-69 ' 60-69 70-79 80-89 90-99
Estadísticos de resumen
6 + 8 + 8,5 22,5
75=----
, 3 3
Si llamamos X a la variable y X¡ al valor que toma cada unidad i de una población total de
N unidades, el valor medio de X (x) será:
_ X1 + X2 + X3 + · · · + X¡ + ··· + X(N- 1) + XN
x=
N
19 + 22 + 28 + 27 + 25 + 27 + 27 + 29 + 22 + 28 + 34 + 29 317
_T = =U= 26,41 años
12
Edad n
19 1
22 2
25 1
27 3
28 2
29 2
34 1
Total 12
Entonces sumamos cada valor de la variable por su peso en la muestra, es decir, con el
número de casos que contiene, o con su frecuencia en la distribución.
_ 19 X 1 + 22 X 2 + 25 X 1 + 27 X 3 + 28 X 2 + 29 X 2 + 34 X 1 317
x = ------------------------ = - = 26,41 años
12 12
Una tabla genérica, que recoge los datos de una distribución, quedaría como se muestra
en la página siguiente (Tabla 2).
Dicha tabla representa los valores de la variable X que clasifica a una población de N
unidades en k categorías (o valores), cada una de ellas con un determinado peso (o frecuen-
ia) n en la población. Para dicho formato -agrupado- de datos, la fórmula genérica del
ralor medio nos quedaría así:
2
No hay que olvidar nunca las unidades en que se miden las variab les: años (para las edades), euros (para los
salarios) , kilómetros (para algu nas distancias), hijos (para el número de hijos), etc.
62 Estadística para la investigación social
Tabla 2.
Notación de una tabla de frecuencias.
X n
X1 11¡
X2 112
X3 113
X¡ 11¡
x <k-1) n (k- 1)
xk 11k
Total N
Ll1;
1
Nótese que
k
N = L 11; = 11 1 + 112 + 113 + ··· + 11; + ··· + 11(k- I) + 11k
1
Veamos una aplicación del estadístico de la media sobre datos reales. La información
que proporciona la Encuesta de Población Activa (EPA), correspondiente al primer trimestre
de 2012, sobre el tamaño de los hogares nos permite calcular el tamaño medio de hogar (ver
Tabla 3).
Si en lugar de tomar las frecuencias absol utas hubiésemos tomado las relativas (propor-
ciones o porcentajes), el resultado - la media- hubiese sido el mismo. Por ejemplo, con
porcentajes:
Tabla 3.
Hogares según número de personas.
Número
n
de personas Porcentaje X¡l1¡
(cuestionarios)
(x)
El tamaño medio de hogar es de 2,6 personas. Si todos los hogares tuvieran el mismo
nú mero de personas, en cada hogar habría 2,6 personas. Evidentemente esto es imposible
-un hogar será de 2 o de 3 personas-. Sin embargo, este dato nos permite comparar situa-
iones diferentes. Por ejemplo, obsérvese la Tabla 4:
Tabla 4.
Tamaño medio de los hogares, según nacionalidad del sustentador principal.
Esta tabla contiene en total 20 medias. Imagínese las tablas de frecuencias que serían
necesarias para recoger la misma información, y observe que con un examen simple de esta
tabla rápidamente podemos indicar:
a) que el tamaño medio de los hogares en España desciende, lo que quiere decir que
cada vez hay más hogares de menor tamaño y menos hogares «numerosos».
b) que las familias de inmigrantes tienen, por lo general, tamaños más grandes.
e) que las familias de inmigrantes también se encuentran en proceso de «adelgazamien-
to» de los hogares.
42 60 60 38 60 63 21 66 56 57 51 57 44 45 35 56 59 60 40 24 42 21 39 39 34 45 39 28 30
35 47 53 49 5049 38 45 28 4147 42 53 32 58 23 4163 28 54 33 48 33 35 6147 4155 53
27 20 35 43 48 48 27 38 54 38 40 63 21 43 27 27 54 52 53 29 30 53
Pero supongamos que conocemos dicho conjunto de datos, no a partir de los datos bru-
tos, sino en forma de tabla ya elaborada con los grupos de edad agregados. Hemos agrupado
las edades de 10 en 10 años.
Tabla 5.
Edades agrupadas. Datos Cuadro l.
Edad Frecuencias
(x) (n)
20-29 14
30-39 17
40-49 22
50-59 18
60-69 9
Total 80
3
Se trata de los datos del Ejercicio 3 del Capítu lo III.
Capítulo IV. Estadísticos de resumen 65
En este caso, para realizar los cálculos que nos lleven a obtener la edad media necesita-
::nos un valor que nos represente cada uno de los intervalos en que hemos agrupado la edad.
E te será el valor central4 de los intervalos, su marca de clase. Y suponemos que el conjunto
de elementos contenidos en cada intervalo tiene ese valor. De esta manera calculamos la
media de las marcas de clase de todos los grupos de edad.
x
-= -
I X¡l1¡ 3.510
- = - - = 43 875 años
N 80 '
Tabla 6.
Cálculo de la media. Datos Cuadro l.
Marca
Frecuencia
Edad de clase (x· n)
(n)
(x)
20-29 25 14 350
30-39 35 17 595
40-49 45 22 990
50-59 55 18 990
60-69 65 9 585
Total 80 3.510
La edad media de esta población, partiendo de esos datos agregados, sería de 43,875
años.
Considerando los datos desagregados, si sumamos las edades de todos los individuos y
dividimos por el número de estos, la edad media es:
- '\""'X
¿ ., 42 + 60 + 60 + 38 + ... + 53 3.463
x =--= = 80 = 43,288 años
N 80
Evidentemente, con los datos agregados obtenemos un valor aproximado de la edad me-
dia «real». Con el uso de las tablas de datos agregados se pierde información respecto a la
que contienen Jos datos originales; no obstante, en muchas ocasiones en que trabajamos con
fuentes secundarias, los datos brutos -sin agrupar- resultan inaccesibles para el investiga-
dor. Como regla general, cuantos más intervalos contiene la tabla, la pérdida de información
e menor.
4
El intervalo 20-29 tiene 10 años de amplitud porque comienza en 20 y tennina en 29,999 ... (Las edades se
en tienden en años cumplidos). Para calcular el valor medio en este intervalo (suponiendo, que es lo que suponemos,
que todos los valores se distribuyen homogéneamente en su interior) dividimos la amplitud por la mitad: 10/2 = 5.
La marca de clase de cada intervalo (el valor medio: el que va a representar a todos los valores de ese intervalo) es
el límite inferior del intervalo más 5. Por ejemplo, 20 + 5 = 25, 30 + 5 = 35, etc.
66 Estadística para la investigación social
Con un ejemplo extraído de la Encuesta de Fecundidad (1999 INE) podemos ver cómo
utilizar los valores medios para realizar comparaciones. En este caso se trata de observar
cuál de los siguientes grupos --católicos practicantes y no practicantes- tienen mayor fe-
cundidad.
Tabla 7.
Número de hijos nacidos vivos según creencia religiosa de las mujeres.
o 1.187 1.799
1 372 660
2 804 1.019
3 354 267
4 88 58
5 30 20
6 12 6
7 6 o
8 1 o
9 3 o
Total 2.857 3.829
Mujeres de 15-49 años. Encuesta de Fecundidad 1999. INE.
El indicador que vamos a utilizar es el número medio de hijos. Así, calculamos la media
para las mujeres católicas «practicantes» y para las «no practicantes». En la Tabla 8 pode-
mos seguir los cálculos para la obtención de las medias.
- I X;n; 3.693 ..
Xpracticante = --¡::¡- = .
2 857
= 1,29 hIJOS
- I X;n; 3.867 ..
Xno practicante =--¡::¡- = 3.829 = 1,01 hijOS
No hay que olvidar que la media es un valor de la variable considerada (en este caso, el
número de hijos), y por lo tanto se expresa siempre en las unidades de esa variable.
Observamos que el grupo de católicas practicantes tiene una fec undidad mayor que el
grupo de católicas no practicantes. La observación directa de las tablas de frecuencias difí-
cilmente nos hubiera permitido llegar a esta conclusión.
Capítulo IV. Estadísticos de resumen 67
Tabla 8.
Cálculo de la media. Datos Tabla 7.
úmero
Mujeres que se declaran Mujeres que se declaran
de hijos
«católicas practicantes» «Católicas no practicantes» xna xnb
nacidos
(na) (nb)
vivos (x)
o 1.187 1.799 o o
1 372 660 372 660
2 804 1.019 1.608 2.038
3 354 267 1.062 801
4 88 58 352 232
5 30 20 150 100
6 12 6 72 36
7 6 o 42 o
8 1 o 8 o
9 3 o 27 o
Total 2.857 3.829 3.693 3.867
Es importante recordar que la media, aunque expresada en la mi sma unidad que la varia-
ble, no pertenece necesariamente al conjunto de valores que definen el dominio 5 de la varia-
ble. El número de hijos es un valor entero y nadie puede tener, por ejemplo, 1,29 hijos. La
media es resultado de una aplicación matemática. Esta aplicación -la media- nos permite
operar con grandes conjuntos de información de una forma sencilla. Así, por ejemplo, hemos
podido responder a la cuestión de la influencia de las creencias religiosas en la fecundidad .
~1ás adelante, cuando se traten las medidas de dispersión, veremos otra interpretación de la
media como indicador de situación de máxima igualdad.
Ejercicio 1
Calcule el número medio de hijos para otros grupos religiosos :
Número Tiene
Otras
de hijos Protestante Musulmana sus propias No creyente
religiones
nacidos vivos creencias
o 12 23 25 206 215
1 6 9 12 51 49
2 5 8 18 78 53
3 2 6 10 13 13
4 3 1 5 2
5
Recordemos que el dom inio de una vari able es el conjunto de todos los valores posibl es que puede tomar
dicha variable.
68 Estadística para la investigación social
(Continuación)
Número Tiene
Otras
de hijos Protestante Musulmana sus propias No creyente
religiones
nacidos vivos creencias
5 o 1 1 1 1
6 o o 1 1 o
7 o o o o o
8 o o o o 1
9 o o o o o
Mujeres de 15-49 años. Encuesta de Fecundidad 1999. INE.
Total 19.802,45
Para comparar grupos (generados por los distintos niveles de estudios) podemos servir-
nos en este caso de las diferencias de cada grupo con el valor medio de la población total.
Estas diferencias nos marcan «desigualdades» entre los grupos en un plano general, conside-
rando la totalidad de la población en bloque. Si quisiéramos observar las desigualdades con-
cretas entre dos grupos sólo haría falta calcular la diferencia de salario entre estos. Pero al
comparar grupos de una forma general establecemos diferencias relativas considerando Ja
distribución total de los salarios en el conjunto de la población española (resumida en su
valor medio). Las diferencias entre los salarios medios que encontramos en cada nivel de
estudios y el salario medio total de la población 7 se observan en el Gráfico 1.
6
Son datos de Ja Encuesta de Estructura Salarial 2002, del Instituto Nacional de Estadística (INE). Se considera
el nivel máx imo de estudios alcanzado.
7
INE: Nota de prensa (16 noviembre 2004).
Capítulo IV. Estadísticos de resumen 69
Gráfico 1.
Comparación del salario medio anual por niveles de estudio.
Desviación del salario medio en %
-40 - 20 o 20 40 60 80
1 l. Sin estudios
1
VI 11. Licenciados, ingenieros superiores y doctores
Fuente: Encuesta de Estructura Social 2000, INE.
X¡ -xT
D¡ = - _ - X 100
Xr
Siendo X¡ el salario medio de la categoría « Í» y Xr el salario medio del total. Así, pode-
mos expresar la diferencia en términos porcentuales, por ejemplo, para la categoría sin estu-
dios:
12.903,3 - 19.802,45
D¡ = X 100 = - 34,84%
19.802,45
Es decir, el salario de quienes no tienen estudios es un tercio menor que el del conjunto
de los trabajadores.
X¡p¡
x =--
LPi
70 Estadística para la investigación social
siendo <<p» la variable que contiene los valores de ponderación, generalmente el tamaño o
peso del grupo. Obsérvese que cuando los datos están agrupados, utilizamos n -la frecuen-
cia- como valor de k (véase en el Apartado 1.2. el ejemplo del cálculo de datos agregados
por intervalo para el cálculo de la edad media de los miembros de la cooperativa de cabreros).
La Tabla 10 contiene la esperanza de vida al nacimiento para 15 países europeos. La
esperanza de vida es la media de años que viviría un grupo de personas nacidas en el mismo
año.
Tabla 10.
Esperanza de vida en la UE-15 (2009).
Esperanza
de vida 2009
Bélgica 79,4
Dinamarca 78,3
Alemania 79,6
Irlanda 79,2
Grecia 79,5
España 81,1
Francia 80,9
Italia 81,4
Luxemburgo 80,0
Países Bajos 80,2
Austria 79,8
Portugal 78,9
Finlandia 79,3
Suecia 80,7
Reino Unido 79,8
UE-15 80,3
Fu ente: EUROSTAT.
Para calcular la media de la UE-15 , resultaría erróneo obtener la media de los valores de
los 15 países. Si sumamos las 15 medias (79,4 + 78,3 + ··· + 80,7 + 79,8 = 1.198,1) y di-
vidimos la suma entre los 15 países, obtenemos
1.198,1
_1_5_ = 79,9
En este cálculo hemos otorgado la misma importancia a países grandes como España, con
alta esperanza de vida, que a países pequeños como Finlandia con esperanza de vida baja.
La cifra que ofrece Eurostat, sin embargo, es diferente. Eurostat ha calculado la media
europea teniendo en cuenta el peso de cada país, es decir, considerando que hay más españo-
les que viven más y menos finlandeses que viven menos. Si aplicamos la fórmula anterior de
media ponderada obtenemos el siguiente resultado:
Capítulo IV. Estadísticos de resumen 71
Tabla 11.
Cálculo de la media ponderada. Datos Tabla 10.
Esperanza Población
de vida 2009 2009 X¡p¡
(x) (p)
Luego,
_ X¡p¡ 31.822.171.661
x=~= = 80,29 ~ 80,3 años
¿ p¡ 396.340.334
Ejercicio 2
La siguiente tabla contiene las densidades de población de 15 países de Europa.
(Continuación)
Una media conseguirá representar mejor a una población si la diferencia de los datos
respecto al valor medio -Ja dispersión- es reducida, y la representará peor cuando dicha
dispersión sea grande. Por ejemplo, el conocido caso de una pareja en Ja que uno de los
miembros se come todo el pollo representa Ja situación en la que los valores (O quien no
come nada, y 1 quien se come todo) quedan más lejos del valor medio (1/2 = 0,5 ).
Si los datos están muy agrupados en tomo a Ja media, esta será muy representativa, es
decir, conseguirá resumir de forma muy fiable el conjunto poblacional. Por el contrario, si
los datos están muy dispersos alrededor de Ja media, esta será poco representativa.
Para conocer Ja concentración de los datos alrededor de la media o, Jo que viene a ser lo
mismo, su dispersión, utilizamos medidas como la desviación media, la varianza o la desvia-
ción típica. Estas medidas son indicadores de las diferencias de todos los valores con rela-
ción a la media. Nos indican la dispersión o variabilidad de los datos de una población en
torno al valor medio de la variable que estemos considerando.
Número
n -
de personas
(cuestionarios)
X¡ - x lx; - xi lx; - xln;
(x)
1 13.111 -1,65 1,65 21.633 ,15
2 20.269 -0,65 0,65 13.174,85
3 13.986 0,35 0,35 4.895 ,10
4 12.859 1,35 1,35 17.359,65
5 3.229 2,35 2,35 7.588,15
6 889 3,35 3,35 2.978,15
7 241 4,35 4,35 1.048 ,35
8 76 5,35 5,35 406,60
9 27 6,35 6,35 171 ,45
10 12 7,35 7,35 88 ,20
11 3 8,35 8,35 25 ,05
12 6 9,35 9,35 56,10
13 1 10,35 10,35 10,35
14 1 11,35 11 ,35 11,35
15 o 12,35 12,35 o00
16 2 13,35 13,35 26,70
I lx; - xl n¡ 69.473 ,2
dmx = ~ = = 1,07 personas
¿ n¡ 64.712
8
El va lor absoluto de un número real «a» será igual al máxi mo de los val ores «a» y « - a» . Esto se escribe:
a 1 = máx {a, - a} . Por ejemplo, el valor absoluto de «4» será 4 y el valor absoluto de « - 4» será 4.
74 Estadística para la investigación social
'\""' - 2
2 _ L.,(X; - X)
Sx - N
Si tomamos como ejemplo el caso de las puntuaciones (6, 8 y 8,5) que dieron los jueces a
la gimnasta, la media fue 7 ,5 -calculada en el Apartado 1.1- y la varianza será:
'L.,
\""' (X¡ - X
-)2 11¡
s2
X
=~----
N
S =
X
JI (X; - X )2
N
Para el caso de las puntuaciones de la gimnasta, la desviación típica será: }33 = 1,87.
Cuando trabajamos con datos agregados, las fórmulas simplemente multiplican las dife-
rencias al cuadrado de los valores respecto a la media [(x; - .X)2] por sus frecuencias [n;]:
S
X
=JI (x; - x) n;
N
2
En el ejemplo que estábamos viendo más arriba sobre hogares según el número de perso-
nas, elaboramos la Tabla 13 para realizar este cálculo:
Capítulo IV. Estadísticos de resumen 75
Tabla 13.
Cálculo de la varianza. Datos Tabla 3.
Número
n - 2
de personas (X¡ - X) (X¡ - X) 2 (x¡ - x) n¡
(cuestionarios)
(x)
Y su desviación típica:
sx = fi,654 = 1,286 personas
Para establecer la dispersión de los datos en tomo a la media, normalmente se suele utili-
zar la desviación típica, y más si trabajamos con datos muestrales. En este caso, la desvia-
ión típica tiene un papel decisivo para fijar, a partir de la «media» obtenida en una muestra,
los límites entre los que se encontrará la «media» en el conjunto de la población9 .
Como se estudiará en el Capítulo VIII, cuando en lugar de trabajar con poblaciones tra-
bajamos con muestras, solemos utilizar las siguientes medidas:
• Cuasi-varianza
2 ¿ex¡ - x)2
s
Xn-1
=~---
n _ 1
9
Como se verá en el Capítulo IX .
76 Estadística para la investigación social
• Cuasi-desviación típica
s_
Xn-1
= }(x; -x)2
n _ 1
Marca
Frecuencia
Edad de clase (x - x) (x - x)2n
(n)
(x)
Total 80 12.599,20
S
X
=}(X; N- x)2n; = 12.599,2
80
= 12,55 años
Ejercicio 3
Calcule la varianza y la desviación típica del número de hijos según la creencia religiosa de la
madre.
Utilice los datos de la Tabla 7 para católicas practicantes y no practicantes, y los de la tabla
del Ejercicio 1 para el resto de categorías de creencia religiosa.
Capítulo IV. Estadísticos de resumen 77
300
_0-29 25 130 2SO
30-39 35 210
200
0-49 45 320
1SO
-o-59 55 210
60-69 65 130 100
so
Total 1.000 o
20-29 30-39 40-49 SO-S9 60-69
Edad
_ edia: .X = 45 años
:Je viación típica: Sx = 12,08 años
La segunda, la población B, presenta una distribución uniforme, con una mayor disper-
_-ón: tiene, por tanto, una desviación estándar mayor que la población A.
Tabla 16. Población B Gráfico 3. Población B.
n;
Edad X 1· 11¡ 3SO
300
20-29 25 200 2SO
30-39 35 200
200
40-49 45 200
1SO
50-59 55 200
100
60-69 65 200
so
Total 1.000 o
20-29 30-39 40-49 SO-S9 60-69
Edad
~1edia: .X = 45 años
Desviación típica: Sx = 14,14 años
78 Estadística para la investigación social
300
20-29 25 300 250
30-39 35 150 200
40-49 45 100
150
50-59 55 150
100
60-69 65 300
50
Total 1.000 o
20-29 30-39 40-49 50-59 60-69
Edad
Media: .X = 45 años
En la primera distribución los datos aparecen concentrados alrededor del valor medio, en
la segunda se distribuyen de modo uniforme en tomo a este, y en la tercera aparecen concen-
trados en los extremos de Ja distribución, lejos de la media. Está claro que la representativi-
dad de la media va decreciendo en cada una de las distribuciones: la población A tiene el
valor medio que mejor representa a su población, mientras que el de la población C es el
peor representante.
Siempre que se resumen distribuciones o poblaciones a través de sus valores medios será
conveniente, si queremos ser precisos, acompañar cada valor medio con la desviación típica
de la distribución.
Para las poblaciones anteriores obtenemos los resultados que se muestran en la Ta-
bla 18.
Capítulo IV. Estadísticos de resumen 79
Tabla 18.
Coeficientes de variación. Datos Tablas 15,16 y 17.
12,08
A 45 12,08 --=027
45 ,
14,14
B 45 14,14 - - =o 31
45 ,
16,43
c 45 16,43 - - = 037
45 ,
Desviación Coeficiente
Media
típica de variación
Si observamos detenidamente los datos, vemos que los coeficientes de variación son
muy próximos en valor entre las distintas categorías de quienes se declaran pertenecer a al-
80 Estadística para la investigación social
guna religión (católicos, protestantes, musulmanes u otros). Esto quiere decir que podemos
comparar las medias entre las distintas creencias religiosas sin que ello suponga una pérdida
de información relevante. Las categorías situadas al final (especialmente el grupo que se
declara «No creyente»), aunque tienen las desviaciones típicas más bajas, muestran una
mayor dispersión relativa (coeficiente de variación). Efectivamente, en estos colectivos las
medias son comparativamente más bajas por la importancia que tiene el grupo de quienes no
tienen hijos, pero el valor más elevado del coeficiente de variación está indicando, a su vez,
una mayor dispersión relativa motivada por la presencia, también en estos colectivos, de fa-
milias numerosas.
% %
Edad % %
Hombres Mujeres acumulado acumulado
(x) hombres mujeres
hombres mujeres
10
Los datos proceden del Movimiento Natural de la Población (INE).
Capítulo IV. Estadísticos de resumen 81
% %
Edad o/o %
Hombres Mujeres acumulado acumulado
(x) hombres mujeres
hombres mujeres
% %
Edad % %
Hombres Mujeres acumulado acumulado
(x) hombres mujeres
hombres mujeres
Gráfico 5.
Hombres que contrajeron matrimonio en 2010 por edad.
14 19 24 29 34 39 44 49 54 59 64 69 74 79 84 89 94 99
Edad
Fuente: Movimiento Natu ral de la Población 2010, INE .
Gráfico 6.
Mujeres que contrajeron matrimonio en 201 O por edad.
14.000
12.000
10.000
8.000
6.000
4.000
1 1
2.000
o
14 il'"
19 24 29 34 39
1111111111111111.
44
hablar de varias modas. Por ejemplo, si en la distribución del número de hijos nos fijamos
en el colectivo de católicas practicantes, vemos que aunque el máximo --el valor modal-
es «0», la distribución es bimodal: o no se tienen hijos, o cuando se tienen el valor más
frecuente es «2».
Gráfico 7.
Mujeres «Católicas practicantes» según el número de hijos. Datos Tabla 7.
1.400 ~-------------------------
1 2 3 4 5 6 7 8 9 10
Número de hijos
Fuente: Encuesta de Fecundidad 1999, INE.
La mediana es el valor que divide la distribución en dos grupos del mismo tamaño. Para
los datos estudiados de edades al matrimonio, los valores medianos son 33 años para los
hombres y 31 para las mujeres. Ello quiere decir que el 50% de los hombres contrayentes
tendrá menos de 33 años y el otro 50% tendrá más de dicha edad. Igualmente ocurre con las
mujeres, de fonna que la mitad de las contrayentes será menor de 31 años y la otra mitad
será mayor de esa edad.
Tabla 21.
Estadísticos de la variable «edad al matrimonio>> . Datos Tabla 20.
Desviación
Media Mediana Moda Percentil 25 Percentil 75
típica
_ .1 . Cuantiles
~ la misma forma que hemos definido la mediana, podemos utilizar otros cortes en la dis-
ibución que dividan en grupos a la misma. De forma genérica llamamos cuantiles a estas
~edidas. Los cuantiles son Jos valores que dividen a la población en partes iguales (con el
~ - mo número de casos cada una de ellas) estando los valores ordenados de menor a mayor.
Así, por ejemplo, podemos dividir la población en cuatro grupos iguales: los denomina-
cuartiles. Los valores cuartiles dejan entre ellos el 25% de los casos (de la población),
Hombres Mujeres
QI 30 28
Q 2 =Mediana 33 31
Q3 38 36
El número de grupos iguales en que podemos dividir la población puede variar. Así, ade-
:nás de los cuartiles, otros cuantiles muy utilizados son los quintiles, los deciles y los percen-
·1es. En realidad, podemos considerar los cuartiles, quintiles, deciles y demás valores de
_artición como casos particulares de los percentiles, que dividen la población en 100 grupos
:on el mismo peso cada uno de ellos (el 1% del total). De ahí que tengamos 99 valores
x rcentiles.
El primer valor percentil (P 1) deja por debajo de él al 1% de los valores más bajos de la
- tribución, el segundo (P 2) al 2%, el tercero (P 3 ) al 3%, y así sucesivamente hasta llegar al
P99 , que deja por debajo de él al 99% de los valores más bajos de Ja distribución (o por
;!ncima de él al 1% de los valores más altos) .
11
Gráficamente, el Q 1 deja por debajo de él (o a su izquierda, si representamos la distribución con un histogra-
;:na) al 25 % de la población que presenta los menores valores de esta.
86 Estadíst ica para la investi gación social
El primer valor cuartil coincidirá con el vigésimo quinto percentil [Q 1 = P25 ], el segundo
con el quincuagésimo [Q 2 = P50 ], etc.
El primer valor quintil (aquel que deja entre él y el valor mínimo 1/5 de la población)
coincidirá con el vigésimo percentil [K 1 = P 20 ] , el segundo con el cuadragésimo [K2 = P 40 ],
etcétera.
Y el primer valor decil será igual al décimo percentil [D 1 = P 10 ], el segundo al vigésimo
[D 2 = P20 ], etc.
Conviene advertir aquí que también se habla de cuartiles, quintiles, deciles, etc., para
referirnos, no ya a los valores de Ja distribución que marcan la separación entre grupos que
cuentan con una determinada proporción de casos (el 25%, el 20%, el 10%, etc.), sino tam-
bién a cada uno de esos grupos generados por los valores cuartiles, quintiles, deciles, etc. Por
tanto, no hay que confundir valores cuantiles y grupos cuantiles.
En los Gráficos 8 y 9 podemos observar gráficamente el cálculo de la mediana y de los
cuartiles para las distribuciones respectivas de edades al matrimonio de hombres y mujeres:
Gráfico 8.
Representación gráfica del cálculo de la mediana. Edad al matrimonio de los hombres 201 O.
Datos Tabla 20.
100
90 Frecuencias relativas acumuladas
80 %
70
60
so
40
30
20
10
o +----.--~~~i...,..~~~~~~~~~~~~~~.....----.-~..,-_,~-.-
14 19 24 29 34 39 44 49 54 59 64 69 74 79 84 89 94 99
10 Frecuencias relativas
%
8
o-1-.........~~~--1.~~~~~--=::=~~""""--~~...---.~-.---.~-r
M ~ M ~ ~ ~ M ~ ~ ~ ~ ~ ~ ~ M ~ ~ ~
Edad
Con estas medidas podemos, a su vez, construir otras que nos informan de la variabi-
lidad de las distribuciones, destacando entre ellas el rango intercuartílico. Las distancias en-
tre los cuartiles contiguos nos darán información sobre la distribución de la población, espe-
cialmente la que separa el primer y el tercer cuartil, que llamamos recorrido o rango
Capítulo IV. Estad ísticos de resumen 87
Gráfico 9.
Representación gráfica del cálculo de los cuartiles. Edad al matrimonio de las mujeres. 201 O.
Datos Tabla 20.
100
90 Frecuencias relativas acumuladas
80 %
70 Q3
60
so
40 Q2
30
20 Ql
10
o
14 19 24 29 34 39 44 49 54 59 64 69 74 79 84 89 94 99
10
Frecuencias relativas
9
%
8
7
6
5
4
3
2
1
o
14 19 24 29 34 39 44 49 54 59 64 69 74 79 84 89 94 99
Edad
intercuartaico, y que se puede utilizar como medida de dispersión de los datos (en torno al
·a!or mediano 12 ).
Ejercicio 4
Calcule los siguientes cuantiles:
• De la distribución de edades al matrimonio de los hombres (Tabla 20):
- El segundo decil.
- El percenti l 85.
• De la distribución de edades al matrimonio de las mujeres (Tabla 20):
El cuatro decil.
- El percenti l 35.
12
Sobre el valor mediano de una distribución se habla un poco más abajo.
88 Estadística para la investigación social
País A País B
Renta Renta
en euros n en euros n
l 9.000 1 500
500 500 500 9.000
5.000 500 5.000 500
Ya hemos señalado que la mediana es un valor que deja por debajo de él al 50% de la
población con los valores más bajos, y por encima al 50% de valores más altos. Divide la
población en dos partes con igual número de casos. Equivale al segundo cuartil , al quinto
decil y al quincuagésimo percentil.
Capítulo IV. Estadísticos de resumen 89
El valor mediano, al ser menos sensible a los valores extremos que el valor medio, se
_ · ºza en lugar de este para establecer umbrales de pobreza en la distribución de rentas (o
gresos).
Además, el uso de cuantiles nos permite lecturas de gran valor analítico sobre la desi-
gualdad. Por ejemplo, los cuartiles de renta nos permiten definir al grupo de los más ricos.
?ara ello podemos emplear el tercer cuartil , valor que nos dice cuál es la renta mínima que
~- pone el 25 % de quienes acumulan mayores ingresos.
A partir de la mediana podemos utilizar otras medidas para definir el «umbral de pobre-
za>> (monetaria). El indicador más utilizado en la Unión Europea se establece en el 60% de la
ediana de los «ingresos por unidad de consumo». En España, en el año 2003 (según la
~cuesta de Condiciones de Vida 13 2004), la mediana fue de 10.464,6 € y el umbral de
:-<>breza (60% de la mediana) se estableció en 6.278,7 € 14 (10.464,6 x 0,6 = 6.278,7). Es
_;::cir, con metodología de la Unión Europea, para 2004 se considera en situación de pobreza
_los hogares con rentas inferiores a 6.278,7 € por persona, es decir, aquellos que tienen
:cntas que no alcanzan el 60% de la renta que tiene la mitad de la población.
Con dicha metodología -porcentaje respecto a la mediana- podemos definir umbrales
__e «pobreza extrema» cuando el porcentaje es inferior al 40% de la mediana, en este caso:
:Q.464 X 0,4 = 4.185,8 € .
A partir de dichos valores podemos calcular, mediante la distribución acumulada, el por-
:~ntaje de pobres: en este caso, el 19,9% de los españoles vivían con rentas inferiores al
.:mbral de pobreza y un 7,4% de las personas debajo del umbral de pobreza extrema.
Gráfico 10.
Deciles de la población clasificada como pobre.
~-----10_%_
.~
Á ~---1-0_
%_ _' \
6.278,7
1.569,7 4.709,1
3.139,4
Ingresos(€)
Fuente: Estudio descriptivo de la pobreza en España . Resultados basados en la Encuesta de Vida . 2004. INE .
13
INE: Estudio descriptivo de la pobreza en Espaiía: Resultados basados en la Encuesta Condiciones de Vida
:004, pág. 17 [http://www.ine.es/daco/daco42/sociales/estudiodesc.pdf]
14
Las estadísticas del INE para definir la pobreza se basan en los ingresos netos por unidad de consumo (u.e.)
=el hogar, entendiendo como tales los ingresos netos totales del hogar (renta di sponible del hogar) entre el número
.:e unidades de consumo. El número de unidades de consumo se calcula utilizando la escala de la OCDE modifica-
:l<I: dando un peso 1 al primer miembro del hogar de 14 años o más, 0,5 al resto de miembros de 14 años o más y 0,3
:i los menores de 14 años. El umbral de pobreza de la población se fija en el 60% de la mediana de la di stribución de
ingresos netos del hogar (del indi viduo) por unidad de consumo dentro de este. Se clasifica como «pobre» a todo
dividuo que tenga unos ingresos en su hogar por unidad de consumo inferiores al que marca el umbral.
90 Estadística para la investi gación social
Tabla 24.
Ganancia anual por trabajador.
Gráfico 11.
Edades al matrimonio. Hombres. Datos Tabla 20.
14.000 ~------------------------------
6.000 +--------~L-L-+---"~•--------------------
4.000
2.000 +---------1--L-L--~
Gráfico 12.
Edades al matrimon io. Mujeres. Datos Tabla 20.
14.000 . - - - - - - - - - - -- - - - - - - - - - - - - - - - - - - - -
12.000 +--- - -- - - -/--'-l\c- - - - - - - -- - - - - - · - Media
10.000 + - - - - -- - --l- -'-t--..- - - - - - - - - - -- - --Mediana
0 .J---~-~":,---+LL-~-~-=~~--~.---~-.,..-~~.,--~-,
o 10 20 30 40 so 60 70 80 90 100
Edad
Gráfico 13.
Defunciones por edad de la población española. 201 1.
16.000 .------------------------..~--------
14.000 1
--Mediana
12.000 + - - - - - - -
- - - Moda
10.000 +--- - - - - -
- · - Media
6.000 1
4.000 + - - - - - - - - - - - - - - - - -.,J''-----1--1--1----\- - - - - -
2 . 000 +--------------~,,-::.=---------1--1--.------\-------
En las di stribuciones simétricas, media, mediana y moda coinciden. Entre este tipo de
distribuciones, que se estudiarán en el Capítulo VII, destaca la normal.
92 Estadística para la investigación social
APÉNDICE
_ Iedidas de localización relativa
:::n los apartados anterioreshemos estudiado medidas de localización, como la Media y la
_!oda, junto a medidas de dispersión , como la Varianza y la Desviación estándar. Ahora
eremos algunas medidas de localización que se construyen a partir de la media y la desvía-
- ón estándar. Por ejemplo, en el caso anterior comprobamos que los hombres contraen ma-
::imonio, por regla general, más tarde que las mujeres, pues la edad media al matrimonio era
:.e 35,5 años para los hombres y de 32,9 para las mujeres. Resulta evidente que un hombre
_ e se casa con 40 años lo hace comparativamente «tarde» respecto al conjunto de la pobla-
_.ón. Pero, ¿lo hace más tarde que una mujer que se case con 33 años? Y un hombre que se
e con 32 años, ¿lo hace relativamente pronto respecto a su grupo?
Para responder a estas preguntas necesitamos una medida de la distancia respecto a la
edia. Una posible solución es utilizar la diferencia respecto a la media. Por ejemplo, un
mbre que se casa con 40 años lo hace 4,5 años más tarde que la media, mientras que un
mbre que lo hace con 32 años lo hace 3,5 años antes que la media. Sin embargo, esta
edida no está escalada. Un año de diferencia, ¿es mucho o es poco? La respuesta a esta
_ estión es: depende de la varianza. Por ejemplo, no es lo mismo un año de diferencia en
'.:na población en Ja que el 80% se casan entre 22 y 25 años que la misma diferencia en una
_ blación que concentra la misma proporción de matrimonios entre 16 y 52 años. Una solu-
:ión a este problema es estandarizar las diferencias entre los valores y sus medias. El mejor
:andidato a «patrón de medida» es la desviación típica, medida que, como vimos, resume el
;rado de concentración o de dispersión.
Los valores
.Jefin imos así los valores «Z», que son las diferencias del valor de un caso respecto a su
edia, diferencia que es estandarizada medi ante la desviación típica:
X· -x
Z=-' --
Sx
40 - 35,5
z,, ' 40 = 9
= 0,5
94 Estadística para la investigación social
32 - 35,5
z"' 32 = 9 = -0,389
33 - 32,9
z m, 33 = = 0,013
7,63
Así, podemos señalar que mientras los hombres que se casan con 32 años, lo hacen rela-
tivamente temprano respecto al conjunto de hombres, las mujeres con 33 años no lo hacen ni
pronto ni tarde respecto a su grupo.
Más adelante, en el Capítulo VII, se ahondará en el uso y propiedades de las unidades z.
De momento, únicamente las hemos definido para acercarnos a la cuestión del uso de la
varianza como unidad de distancia. La cuestión que nos ocupa ahora es si al conocer las
medidas de resumen de una distribución, podríamos conocer la probabilidad de obtener cier-
tos valores. Por ejemplo, si conociéramos la edad media de las madres y su dispersión ¿po-
dríamos estimar el número de partos que habrá de madres entre 20 y 40 años?
La desigualdad de Chebyshev
Los estadísticos, además de resumir información, caracterizan distribuciones de datos y nos
sirven de orientación para el conocimiento de poblaciones y fenómenos sociales. Así, la me-
dia o la mediana nos sirven de indicadores sobre situaciones de igualdad o de desigualdad,
mientras que la varianza nos informa sobre la homogeneidad o heterogeneidad de la pobla-
ción. Cuando hay igualdad absoluta, todos los valores coinciden con la media y entonces la
varianza es O.
¿Cuál sería la situación opuesta? Aquella de máxima desigualdad. La pregunta no tiene
respuesta. Volvamos al célebre caso de dos personas y un pollo. La situación de igualdad
consiste en que compartan el pollo, y la situación de desigualdad, que sólo uno se coma el
pollo. Si ahora tenemos dos pollos, la situación de igualdad vendría determinada por que
cada uno se comiera un pollo, mientras la situación de máxima desigualdad sería aquella en
que uno se comiera los dos pollos. La desigualdad es mayor en este segundo caso. Sin em-
bargo, comparando el primer y el segundo caso no podemos decir que la igualdad sea mayor
o menor. Si bien la igualdad no puede definirse en términos absolutos, sí que puede estable-
cerse un indicador de forma sencilla para cada caso a través de la media.
El ejemplo sirve para mostrar que la posición de igualdad es definible -el valor me-
dio-, pero la de desigualdad lo es únicamente por el distanciamiento respecto a la posición
de igualdad. La pregunta entonces es: dado un conjunto de valores ¿hay alguna forma de
determinar cuáles pueden ser las distancias máximas respecto a la media, respecto a la situa-
ción de máxima igualdad?
Capítu lo IV. Estadísticos de resumen 95
Es decir, en una distribución el porcentaje (P) de casos que se encuentran a una distan-
:ia más allá de una cantidad (k) de desviaciones típicas (O"x) respecto a la media (µ), es
1
:.aferior a k2.
k p
En España, la edad media de las mujeres que dieron a luz en 2010 fue de 31,4 años, con
..:na desviación típica de 5,39 años. Con estos datos podemos inferir que al menos las tres
:uartas partes de las mujeres que dieron a luz estaban entre 31,4 - 2 x 5,39 = 20,6 años y
_: 1,4 +2 X 5,39 = 42,2.
Gráfico 14.
Edad de las madres que dieron a luz en 201 O.
40.000 -
35.000 ~
30.000 ~
25.000 -
20.000 -
15.000 -
10.000 -
5.000 -
o ~~~~-=-~~t=========~±=========~_:__::~,__~~~~-
10 15 20 25 30 35 40 45 50 55
Edad
Fuente : Movimiento Natural de la Población 2010, INE.
96 Estadística para la investigación social
Representaciones gráficas
Tabla l.
Pernoctaciones en alojamientos turísticos (excepto hoteles)
en ocho Comunidades Autónomas. Junio de 2008.
Total :
Apartamentos Acampamentos Alojamientos de
alojamientos
turísticos (%) turísticos( %) turismo rural (%)
no hoteles (%)
Para apreciar de forma más intuitiva y directa las pautas de cada una de las regiones
consideradas respecto a la importancia de los distintos tipos de alojamientos, y poder compa-
rarlas entre sí, es útil la construcción de gráficos. Así, ordenando y agrupando conveniente-
mente la información del cuadro de doble entrada, podemos obtener la sucesión de gráficos
siguiente:
1
La proporción de pemoctaciones en hoteles es, en todos Jos casos, muy superior a Ja de Jos restantes tipos de
alojamiento.
Capítulo V. Representaciones gráficas 99
Gráfico 1.
:lemoctaciones en alojamientos turísticos (excepto hoteles) en ocho Comunidades Autónomas.
Junio de 2008.
"".,
67
"o "'
ANDALUCÍA
'"
""
"
M AD RID "'so
"'
20
"o
""
"
60 Apart. Acamp . A. Rural
GALICIA
(%} (%} (%}
67 30,2 2,8
{
25,3 C. Valenciana
14,7
Andalu cía 65,7 31 3,3
"o Madrid 54,2 35,6 10,2
Galicia 14,7 60 25,3
"
"'
62,3 ___r-{ Aragón
Extremadura
11
11,2
11
62,3
52,9
41,5
26,8
35,9
47,5
ARAG ÓN
26,8 { País Vasco
Castilla y León 2,6 40,7 56,7
"o
52,9
""
"
PAÍS VASCO
CASTILLA Y LEÓN so ~ 1
~ ¡~'·'~--__ _,___-
i'°"
Fuente : Encuesta de ocupación hotelera 2008. INE
Apartam . Acamp . A. Rural
100 Estadística para la investigación social
Como puede observarse, los gráficos nos muestran información en distintos niveles. Por
un lado, desde un nivel más elemental, podemos ver la situación concreta de una comunidad
autónoma respecto a sus alojamientos turísticos en el período considerado: por ejemplo, la
importancia de los camping en Aragón, o la casi insignificante afluencia de clientes en apar-
tamentos turísticos en Castilla y León. Este tipo de información puede igualmente observar-
se al detalle en las cifras proporcionadas por las casillas del cuadro de doble entrada (Tabla
1), pero es difícil retener en la memoria esta multitud de informaciones elementales única-
mente a partir de la tabla. Su lectura resulta incómoda pues no destaca la información. La
ventaja de representar gráficamente los datos es que permite gestionar esa multitud, encon-
trar elementos parecidos, clasificarlos y posteriormente comparar los distintos grupos resul-
tantes. Gracias a la representación gráfica encontramos en nuestro ejemplo (Gráfico 1) que
durante el mes de referencia existen tres situaciones bien diferenciadas con respecto a la
importancia de los alojamientos turísticos en las regiones consideradas:
• Situación 1: comunidades donde la alternativa al hotel es en gran medida el aparta-
mento turístico, con escasa importancia del alojamiento rural. Es el caso de la Comu-
nitat Valenciana, Andalucía y, en menor grado, Madrid. Esta situación se relaciona
con la estacionalidad -especialmente en el turismo de costa- o con la duración tem-
poral de la estancia.
• Situación 2: comunidades donde son importantes las acampadas en alojamientos al
aire libre. Es el caso de Galicia, Aragón y, en menor medida, Extremadura. También
en este conjunto adquiere cierta importancia el alojamiento rural. Se trata del «turismo
de naturaleza».
• Situación 3: comunidades donde, siendo en proporción más importante el alojamiento
rural, se equilibra notablemente con la estancia en camping al aire libre. Aquí, a dife-
rencia de lo que ocurre en la situación 1, la estancia en apartamentos es testimonial. El
tipo es aquí menos definido que en los casos anteriores, pues se reparte entre el turis-
mo «rural» y «de naturaleza».
Esta información de conjunto es la que nos puede proporcionar la representación gráfica,
descubriendo agrupamientos y relaciones relevantes en los datos, útiles para comprender.
interpretar y, en su caso, tomar decisiones. También es posible obtener niveles intermedios
de información cuando interesa contemplar las características de determinados subconjun-
tos; por ejemplo, si nos centramos en estudiar el comportamiento de las comunidades que
comparten una determinada situación.
El investigador utiliza la información proporcionada por el gráfico, no sólo porque facili-
ta una descripción de las relaciones internas de los datos que la imagen pone de manifiesto.
sino porque es posible relacionar esa información con otras variables de interés y generar
nuevas preguntas de investigación y nuevas hipótesis. Así, por ejemplo, a partir de los resul-
tados del Gráfico 1, podemos preguntamos si existen diferencias en los perfiles de los turis-
tas en cada una de las tres situaciones descritas, qué características tienen las comunidade
que comparten la situación 2 para atraer el turismo «al aire libre» durante la época inmedia-
tamente anterior a la temporada veraniega, planteamos si el alto porcentaje de apartamento
turísticos en la Comunitat Valenciana y en Andalucía se debe al tradicional predominio del
turismo de «sol y playa», o bien tomar decisiones respecto a la posibilidad de incentivar el
Capítulo V. Rep resentaciones gráficas 101
·smo rural en determinadas regiones que, como Andalucía, tienen una escasa afluencia en
-sre tipo de alojamientos. Igualmente, podríamos estudiar la estacionalidad de los resultados
-=atizando el mismo estudio durante todos los meses del año.
Los gráficos para el tratamiento de la información son una herramienta que el investiga-
- r utiliza para descubrir relaciones, interpretar los resultados y tomar decisiones. De ahí
_ e las representaciones gráficas no sean imágenes «estáticas», sino que son «construidas» y
ceptibles de ser transfonnadas y reclasificadas hasta poner de manifiesto todas las rela-
- ones relevantes. Pero no solamente ayudan al investigador a analizar los datos , sino que
:::!Illbién aparecen frecuentemente en el infonne final a la hora de presentar los resultados de
investigación, o se utilizan a un nivel de divulgación general en los medios de comunica-
- ón. Tenemos en este caso un gráfico para la comunicación, que sirve para decir a los de-
, lo que se ha descubierto. Es conveniente entonces que, sin prescindir de los hallazgos
!lStantivos procedentes de los datos, estos gráficos sean una construcción simplificada que
:::iaximice la eficacia visual, permitiendo el acercamiento a la información tanto al experto
:orno al lector no especializado. Hay que extremar aquí el cuidado para representar los gráfi-
~ sin «ilusiones ópticas» que lleven a distorsionar los resultados, algo que ocurre con bas-
:::mte frecuencia en las imágenes gráficas publicadas en los medios de comunicación de ma-
: . De ello hablaremos en el último apartado del capítulo.
A pesar de sus posibilidades y ventajas, hay que tener en cuenta que un gráfico nunca
:onstituye un fin en sí mismo, sino un determinado momento en el proceso de investigación.
Corresponde al propio investigador, desde sus necesidades concretas, ver el contexto en el
~ e tiene sentido el empleo de las representaciones gráficas y, en su caso, decidir el procedi-
:niento gráfico que mejor responda a sus objetivos.
Diagrama de barras
Este gráfico se utiliza con variables cualitativas, aunque también se puede usar con varia-
bles cuantitativas de tipo discreto. Las barras del diagrama permiten comparar las distintas
categorías de una variable. En general, se representan los valores de la variable separados
entre sí en el eje horizontal, y la frecuencia o número de casos en el eje vertical. Para cada
valor de la variable tenemos una barra cuya altura equivale a su frecuencia (absoluta o en
forma de porcentaje). Como vimos anteriormente, es posible descubrir que los datos descri-
ben distintos tipos de situaciones:
Gráfico 2.
Pernoctaciones en alojamientos turísticos (excepto hoteles). Junio 2008.
%
100
90
80
70 6S,7
60
ANDALUCÍA SO
40
30
20
10 3,3
o
Apartamentos Acampamentos Aloj . Rurales
%
100
90
80
70
60 S6,7
CASTILLA Y LEÓN
so
40
30
20 ~
10 2,6
o
Apartamentos Acampamentos Aloj . Rurales
Fuente: Encuesta de ocupación hotelera 2008 . INE
2
Véase el ejemplo del Gráfico 1.
Capítulo V. Representaciones gráficas 103
En el caso de una variable cuantitativa discreta, en el eje horizontal se ordenan los valo-
~ de forma creciente de izquierda a derecha, tal y como muestra el Gráfico 3 a partir de los
::atos de la siguiente tabla:
Tabla 2.
Hogares según tamaño en el municipio de Madrid. Porcentajes.
1 23,86
2 27,41
3 20,45
4 18,37
5 6,24
6 2,05
7 0,77
8 0,37
9 0,19
10 o más 0,30
Total 100
Fuente: Censo de Población y Viviendas 2001. INE.
Gráfico 3.
Hogares según tamaño en el municipio de Madrid.
%
27,41
1 2 3 4 5 6 7 8 9 10 o
Número de personas que ha bitan en el hogar más
Fuente: Censo de Pob lación y Viviendas 2001. INE
En ocasiones se utilizan variantes de este tipo de gráfico cuando interesa comparar los
datos de distintas poblaciones o de distintas categorías de una variable. El diagrama de ba-
rras apiladas (o compuestas) muestra en cada barra una población o una variable dividida
en las categorías que la componen, y donde cada categoría indica su importancia relativa
respecto al resto de categorías de la población o variable. Como Ja finalidad del gráfico es
comparar estructuras, es necesario el uso de porcentajes (donde cada barra representa el
100% de los casos) en lugar de frecuencias absolutas. Este gráfico solamente es eficaz, es
decir, es capaz de transmitir de forma instantánea información relevante, si el número de
categorías representado en cada una de las barras es reducido. De otra forma, sería difícil
percibir diferencias significativas entre las distintas poblaciones.
Gráfico 4.
Pernoctaciones en alojam ientos turísticos (excepto hoteles) en Andal ucía y Castilla y León.
Junio 2008.
%
100 ...-----~·
90 -!------f
80 -+----<
70 -+-----! 56,7
60 - + - - -
Alojamientos Rurales
so - + - - -
40 - + - - - • Acampamentos
30 - t - - - •Apartamentos
20 - + - - -
.,
10 - + - - -
2,6
O- + - - -
ANDALUCÍA CASTILLA Y LEÓN
Fuente: Encuesta de ocupación hotelera 2008. INE
En este ejemplo se percibe con claridad a través del gráfico la importancia relativa que
cada tipo de alojamiento tiene en cada una de las comunidades autónomas, a la vez que per-
mite la comparación entre ambas.
Gráfico de áreas
Cuando interesa comparar la estructura de dos poblaciones (o dos categorías de una variable)
según los valores adoptados por una variable continua (años, ingresos, etc.), es útil la cons-
trucción de un gráfico de á r eas apiladas. En este caso, las poblaciones quedan representa-
das como superficies que se apilan verticalmente, siendo el total la suma de las superficies.
No es muy recomendable representar en este gráfico cantidades absolutas, pues no facilitan
el análisis de los cambios que se van produciendo en cada uno de los estratos. Por tanto, si el
objetivo es obtener una mayor percepción de la estructura de las poblaciones comparadas,
estandarizamos las frecuencias de cada una de ellas utilizando proporciones o porcentajes
(sobre el total o sobre otro grupo de referencia) . Así, podemos observar el peso de cada una
de las poblaciones según sea el recorrido de la variable continua considerada.
Capítulo V. Representaciones gráficas 1 OS
Total Total
Ocupados Parados
Trimestres ocupados parados
(%) (%)
(miles) (miles)
Con el fin de observar la estructura de la población activa, además de presentar las canti-
.J.ades poblacionales absolutas en miles de personas, se han calculado los porcentajes en ho-
:2ontal, es decir el porcentaje de ocupados y de parados sobre el total de activos de cada
'.!.ño. Como consideramos continua la variable «tiempo», representamos Ja distribución me-
::iante un gráfico de áreas apiladas:
Gráfico 5.
Población activa en España desagregada en Ocupados y Parados.
100% ~------~~~~~~~~~---~
90%
80%
70%
60%
50% Parados
40%
• Ocupados
30%
20%
10%
0%
2008TI 2008Tll 2008Tlll 2008TIV 2009TI 2009Tll 2009Tlll
Fuente: EPA. INE
A partir del Gráfico 5 podemos observar el peso relativo de cada uno de los colectivos de
activos a lo largo del período considerado. Así, se aprecia que el peso de los parados va
ganando magnitud, sobre todo desde el tercer trimestre de 2008 hasta el primero de 2009. La
106 Estadística para la investigación social
mayor proporción de parados respecto a los ocupados se produce en los dos últimos trimes-
tres considerados, en los cuales no se aprecian grandes cambios en los pesos relativos de
ambas poblaciones.
Diagrama de sectores
Un tipo de gráfico frecuentemente utilizado, sobre todo en los medios de comunicación, es
el diagrama de sectores (o de «tarta»). Útil únicamente cuando las variables presentan pocas
categorías, consiste en un círculo en el que se representa la población, subdividido en varias
partes o sectores, cada uno de los cuales representa una categoría de la variable considerada.
El arco de cada sector equivale a la frecuencia de cada categoría y, para conocerlo (en gra-
dos), se divide la frecuencia absoluta de la categoría entre el número total de casos de la
población, y el resultado se multiplica por 360. El software estadístico permite en la actuali-
dad la construcción automática de estos diagramas con, tan solo, la introducción de una tabla
de frecuencias adecuada.
A pesar de su impacto visual, los diagramas de sectores dejan de funcionar cuando las
variables presentan muchas categorías, pues el gráfico se vuelve confuso. En este caso, sólo
sería útil si hubiera una o dos categorías dominantes que abarcasen casi la totalidad del cír-
culo. Por otra parte, es más adecuado su uso al trabajar con proporciones o porcentajes que
con frecuencias absolutas, ya que se trata de mostrar la relación entre las partes y el total.
Obsérvese el siguiente gráfico:
Gráfico 6.
Ocupación masculina por sectores económicos Ocupación femenina por sectores económicos
IV trimestre de 2008 (%) IV trimestre de 2008 (%)
Servicios
Construcció~
18%
Construcción
Industria Servicios
20% 57%
Industria
9%
5%
Fuente: EPA (IV Trimestre 2008). INE
2%
En este caso (Gráfico 6) es posible establecer comparaciones entre las dos poblaciones
(hombres y mujeres) puesto que son poco numerosas las categorías en las que se divide la
variable «sectores económicos» y existen pocas categorías que predominen sobre el resto.
Vemos que para ambas poblaciones hay una categoría dominante, el sector «Servicios», pero
se aprecia claramente que existen diferencias importantes entre hombres y mujeres, tanto en
ese sector como en la «industria» y la «construcción».
En cambio, la representación de un diagrama de sectores para comparar poblaciones en
las que se estudia una variable con categorías como las siguientes (Figura 1) no tiene mucho
Capítulo V. Representaciones gráfi cas 107
~ntido,
pues resulta confuso, no es posible encontrar diferencias significativas ni nos aporta
ormación relevante:
Figura 1.
Población A Población B
Ejercicio 1
Construya una representación gráfica adecuada a partir de los siguientes datos sobre alumnos
matriculados en enseñanzas universitarias en España durante el curso 2007-2008:
Histograma
El histograma es Ja modalidad gráfica adec uada para el nivel de intervalo o de razón, y se
onstruye con variables cuantitativas de tipo continuo. Debido precisamente a ese carácter
108 Estadística para la investigación social
continuo (entre dos valores cualesquiera siempre podemos encontrar otro valor), los valores
de la variable deben agruparse en intervalos situados de forma creciente de izquierda a dere-
cha en el eje horizontal. A diferencia del diagrama de barras, donde trabajamos con variables
discretas y, por tanto, la frecuencia de cada categoría viene indicada por la altura de la barra
correspondiente, el histograma representa superficies. Ello quiere decir que, con variables
continuas, el peso de cada categoría se representa a través del área contenida en cada uno de
los rectángulos del histograma, siguiendo esta fórmula:
S=bxh
donde:
S: Superficie o área del rectángulo
b: Base del rectángulo
h: Altura del rectángulo
El procedimiento para construirlo es el siguiente: de cada intervalo se levanta un rectán-
gulo cuya área es proporcional a la frecuencia que representa, es decir, el producto de la base
del rectángulo (amplitud de cada intervalo) por la altura. Para facilitar la interpretación del
gráfico, es conveniente que los intervalos sean de la misma amplitud, de forma que la altura
del rectángulo pueda considerarse equivalente al número de casos que se dan en el intervalo
(su frecuencia). Sin embargo, si los intervalos son de distinta amplitud, la frecuencia de cada
categoría no puede considerarse equivalente a la altura del rectángulo, y es necesario calcu-
lar ésta a través de la fórmula anterior. Por otra parte, como trabajamos con una variable
continua no puede existir separación entre los rectángulos del histograma.
Consideremos el ejemplo de la Tabla 4: el número de matrimonios entre personas de
distinto sexo por grupos de edad de los cónyuges:
Tabla 4.
Matrimonios de distinto sexo por grupos de edad de los cónyuges en España (2007).
Menos de 15 o 2
De 15 a 19 años 472 2.059
De 20 a 24 años 9.990 22.696
De 25 a 29 años 62.769 78.818
De 30 a 34 años 69.047 57.651
De 35 a 39 años 29.408 20.806
De 40 a 44 años 12.748 9.303
De 45 a 49 años 6.900 5.094
De 50 a 54 años 4.271 2.701
De 55 a 59 años 2.582 1.340
60 y más 3.392 1.109
3
Matrimonios entre personas de di stinto sexo.
110 Estad ística para la investig ació n soci al
Gráfico 7.
Hombres y mujeres que contraen matrimonio de distinto sexo en España (2007) .
Hombres. Variable edad con intervalos de tama ño: 5 años
90.000
80.000
70.000
60 .000
-
S0.000
40.000
30.000
20 .000
>---------.
10.000
. 1 Fi=----, -
r
O Menos lS 20 2S 30 3S 40 4S so SS 60 y mas
de lS Edad
80.000 ~-
70.000
60.000
S0.000
-
1
40.000
30.000
20 .000 -
1
10.000
·~
o - - r
Menos lS 20 2S 30 3S 40 4S SO SS 60 y más
de lS Edad
Mujeres. Variable edad con intervalos de tamaño : 1 año
20.000 -
!
- - - - - - - - - - - - - - - - - - - -- - - - -
18.000 1
16.000 '
1
14.000
1
12.000 1
1
10.000
1
8.000
¡
6.000
i h
4.000
2.000
o U') l.D
Al
..... ..... ..... o
00 N ... l.D 00 o N ...m l.D
1íln1 rn-i...
00
...o ... ... ... ...
N l.D 00 oU') N ... l.D 00
.,,
Cll
N N N N N m m m m U') U') U') U')
'"'E
"O
.,, >
o Edad ol.D
e:
Cll
::¡;
Fuente: Movimiento Natural de la Población, 2007. INE
Capítulo V. Representaciones gráficas 111
Hasta ahora hemos comparado distintos gráficos según el mayor o menor tamaño de los
.:itervalos considerando que todos los intervalos de un mismo gráfico tienen igual amplitud.
-in embargo, es posible representar un histograma con intervalos de amplitud desigual cuan-
--= interesa considerar conjuntamente una parte del recorrido de la variable continua. En este
_ o debe respetarse la proporcionalidad de las áreas para que la representación sea correcta.
Supongamos que la población de hombres que contraen matrimonio en España durante
~- _007 aparece desagregada según los siguientes intervalos de edad:
Tabla 5.
Hombres que contraen matrimonio de distinto sexo en España (2007).
Edad Esposos
<20 472
20-29 72 .7S9
30-34 69.047
3S-39 29.408
40-S4 23.919
~SS S.974
Total 20 l .S79
Fu ente: Movi miento atura] de la Población , 2007. INE.
4
Se ha considerado que la amplitud del interval o abierto ¿ 55 es 30 debido a que la esperanza media de vida
de los varones españoles se sitúa en 84 años.
112 Estad ística para la investigación social
Gráfico 8.
Hombres que contraen matrimonio de distinto sexo en España (2007).
Intervalos de amplitud desigual
h
8
7
-
6
-
2
1
o ~
20 30 35 40 55
Edad
Fuente: Movimiento Natural de la Población, 2007. INE
Como señalamos al comienzo del capítulo, una representación gráfica es una herramien-
ta que se construye y reconstruye hasta que nos permita observar relaciones relevantes en los
datos, por Jo que reducir o no el número de intervalos o utilizar amplitudes desiguales de los
mismos, dependerá siempre de los objetivos de la investigación y del tipo de información
que se desee proporcionar.
Polígono de frecuencias
Los polígonos de frecuencias (o diagramas de líneas) constituyen una alternativa a los histo-
gramas para facilitar la comparación entre distribuciones y, al igual que éstos, se utilizan con
variables cuantitativas de tipo continuo. A partir de un histograma, se trazan líneas rectas
desde Ja parte superior de los rectángulos que van uniendo las marcas de clase (los valores
centrales) de los intervalos. Retomando el ejemplo del Gráfico 7, construimos el polígono de
frecuencias a partir de los histogramas:
Capítulo V. Representaciones gráficas 113
Gráfico 9.
Hombres que contraen matrimonio en España en 2007
90.000
80.000
70.000
60.000
S0.000
40.000
30.000
20.000
10.000
o
<lS lS 20 2S 30 3S 40 4S so SS 60 y más
Edad
80.000
70.000
60.000
S0.000
40.000
30.000
20.000
10.000
o
<1S lS 20 2S 30 3S 40 4S so SS 60 y más
Edad
Fuente: Movimiento Natura l de la Pob lación, 2007. INE
114 Estadística para la investigación social
Gráfico 10.
Hombres y mujeres que contraen matrimonio en España en 2007 según edad.
90.000 ~---------------------------
80.000 + - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
..,._ Hombres
Mujeres
o-i+-
Menos lS 20 2S 30 3S 40 4S so SS 60 y más
de lS Edad
Fuente: Movimiento Natural de la Población, 2007. INE
Con este gráfico es posible comparar de forma instantánea ambas distribuciones. Puede
observarse que la distribución correspondiente a las mujeres que contraen matrimonio está
ligeramente «desplazada hacia la izqui erda» con respecto a la de los hombres, lo que indica
que las mujeres se han casado a edades más jóvenes que los hombres. También se observa en
la distribución femenina el «pico» existente en el intervalo de 25 a 30 años, mostrando que
una buena parte de las cónyuges se ha casado en ese intervalo de edad.
Ejercicio 2
Consu ltar el Movimiento Natural de la Población del banco de datos del INE y construir el polígo-
no de frecuencias de matrimonios para hombres y mujeres en España, por grupos de edad de
los cónyuges, del año 1997. Observar las diferencias con respecto al de 2007.
En el ejemplo propuesto, ambas poblaciones tienen el mismo tamaño (véase Tabla 4),
el uso de frecuencias absolutas para la construcción del gráfico no pl antea problemas. Si la
poblaciones a comparar fueran de distinto tamaño, conviene utili zar las frecuencias relativas
o porcentajes en el eje de ordenadas, debido a que el uso de las frecuencias absolutas podría
inducir a confusión. En el siguiente ejemplo (Gráfico 11 ), el número de trabajadores es dis-
tinto al de trabajadoras, por lo que es preciso utilizar los porcentajes de trabajadores/as res-
pecto al total para poder comparar las distribuciones.
Capítulo V. Representaciones gráficas 115
Gráfico 11.
Trabajadores en función de su ganancia respecto al SMl 5
(respecto al total de trabajadores) (2006).
%
45 ~~~~~~~~~~~~~~~~~~~~~~~~~
-+- Mujeres
-m- Hombres
15
o 1 2 3 4 5 6 7 8 Más de 8
SMI
5
Salario Mínimo Interprofesional (SMI): fija la cuantía retributi va mínima que percibirá el trabajador referida a
jornada legal de trabajo, sin distinción de sexo u edad de los trabajadores, sean fijos, eventuales o temporeros. Su
or es fijado cada año por el Gobierno a través de la publicación de un Real Decreto. Para el año 2006, el SMI
.,_- daba fijado en 540,90 €. En el año 2009 la cuantía es de 624 €.
116 Estad ística para la investigación social
Tabla 6.
Trabajadoras y trabajadores según su ganancia salarial. Porcentaje acumulado.
90
80
70
60
--+ so
40
30
20
10
o
o 1 3 4 5 6 7 8 Más de 8
SMI
Me
Fuente: Encuesta de Estructura salarial en España, 2006. IN E
_ 90%). Inversamente, también podemos observar los valores de la variable que quedan por
:zbajo de una determinada proporción de casos. Por ejemplo, si queremos ver gráficamente
~ valor de la mediana (valor que deja por debajo de él el 50% de los casos), se observa, sin
- esidad de hacer ningún cálculo, que es algo inferior a 2 veces el SMI.
Observando la forma de la distribución, vemos que entre O y 3 veces el SMI la curva
...:: iende con gran pendiente debido a que, por debajo de 3 veces el SMI, se encuentra apro-
~ adamente el 80% de las trabajadoras . A partir de ese nivel salarial, la curva se va hacien-
- cada vez más plana, pues representa cada vez un menor porcentaje de mujeres (las de
- yor nivel salarial).
Ejercicio 3
partir de los datos de la tabla 6, construya la ojiva correspondiente al porcentaje de trabajado-
·es según su nivel salarial e indique gráficamente los valores de la variable que corresponden al
ri mer y tercer cuartil.
Diagrama de caja
::- te tipo de representación tiene como finalidad la evaluación de la forma de las distribucio-
~e . Se trata de un gráfico basado en los cuartiles, que ofrece información sobre la simetría y
:oncentración de la distribución. Es especialmente útil para detectar casos atípicos, es decir,
_ os extremos en las colas de la distribución que podrían distorsionar análisis posteriores.
. í, este gráfico indicará cuándo la distribución tiene valores extremadamente altos o bajos.
onsiste en una caja rectangular cuyos lados superior e inferior muestran el recorrido inter-
6
Ver Capítulo 7.
7
Matrimonios entre personas de di stinto sexo.
118 Estadística para la investiga ció n social
Gráfico 13.
Hombres que contraen matrimonio en España en 2007.
20.000 - . - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
18.000 - t - - - - - - - - - - - - - - - - - - - - - - - - - - - -
16.000 -t--------~P--~-----------------~
14.000 +-----------~-------------------~
12.000 -t--------E--'---+-----------------
Frecuencias
absolutas 1 0.000 -t----------~-------------------
8 . 000 +-----------~-------------------~
6.000 -+-------4~-~~--~---------------~
4 . 000 +-------#---~---t---__, _____________
2.00:t:=~~===::::::::::::E::::~~;;;~
..... '° ce v v' '° O N <O
ce "'
.,
U")
"O
""'
1
1
(")
L() L() L() L() LO ·ro
E
1 >-
"'oe
.,
1
º
<O
200.000 ¡ - - -: ---:-:-----=:::::;:;:;;;;;;;;;;;;;;;;;;¡;;¡;;;;;;;;;;;¡¡¡-
Frecuencias
acumuladas
100.000 -t------;-----r-,r-------------------
50.000
U"l<OceONv<OceON'=t<O ceON'=t<OceONv<Oce(f)
.,
.-< NNNNNC".>C".>C".>C".l (") v v V V v LO LO LO LO L() •(I)
E
"O
>-
"'oe
., º
<O
cuartílico 8 , es decir, la distancia entre el primer y el tercer cuartil, que corresponde al cin-
cuenta por ciento de los casos.- El rectángulo se divide por una línea que indica la posición de
8
Es así en el caso de que Ja caja esté dispuesta vertical mente, tal como se ve en el ejemplo. Si Ja caja estu viera
di spuesta horizontalmente, el primer y tercer cuartil vendrían indicados por los lados izquierdo y derecho del rec-
tángulo.
Capítulo V. Representacion es gráficas 119
mediana. De los lados que indican la posición del primer y el tercer cuartil sobresalen
~crpendicularmente unas líneas (una a cada lado) llamadas «bigotes», cuya longitud señala a
-,.-é distancia se encuentran Jos casos extremos, hasta un cierto límite a partir del cual, cual-
-:.:;ier caso aparece indicado individualmente, siendo interpretado entonces como un «caso
'pico». Este tipo de observaciones requiere una atención especial, ya que pueden corres-
- nder a errores en la medida o en el tratamiento de Jos datos, o bien contener información
-=levante sobre el comportamiento de Ja variable. Es importante definir Ja longitud de los
- igotes», pues de ello depende la definición de lo que consideremos como caso atípico,
..:..:mque normalmente el gráfico se construye de forma que entre un extremo y otro se en-
__ entre el 95 % de los casos. Esquemáticamente, la composición de un diagrama de caja se-
- Ja siguiente:
o Casos atípicos
- -
3Q
25% casos
95% casos Me
25% casos
lQ
- -
o Casos atípicos
Tabla 7. (Continuación)
A partir de los datos de las tablas vamos a construir el diagrama de caja correspondiente a
los nacimientos totales según la edad de Ja madre. Se ha acompañado este diagrama con el
polígono de frecuencias de dicha distribución para observar mejor Ja correspondencia entre las
formas de ambos gráficos y, por tanto, entre Ja información aportada por cada uno de ellos:
Gráfico 14.
olígono de frecuencias y Diagrama de caja para Nacim ientos totales según edad de la madre.
Año 2006.
Edad
::¡:
¡\J
so - 89478
"'"
.~
""
N
45 - '""J
729
97 34
297041
359372
305202
"o 40 -
"
"'m
;;,
35 -
N
m 1 1
~ 30 - 1 1
~
25
;;
N
N
~ 20
"'" . l!S420
l '2473
12220
~
0
"'"V
15 - G25 8575
o o o o
8o 8o
- s ::: ~ 8 § § o
o
o
~
~ ~ :G ~ :!) s "' 10 -
1
Nacimientos totales
Fuente: Movimiento natural de la población, 2006. INE
Como puede apreciarse, los lados superior e inferior de «la caja» vienen determinados
_ r la posición del primer y tercer cuartil respectivamente (28 y 34 años). Aunque el recorri-
de la distribución es amplio (desde menos de 15 años hasta algo más de los 50), observa-
os que el 50% de los casos queda concentrado en el tramo de edades que va de los 28 a los
: -. años , intervalo que coincide con el de mayor frecuencia en el polígono de frecuencias de
distribución. La edad de 31 años queda representada por una línea gruesa en el interior de
caja, dado que corresponde a la mediana. Vemos, por tanto , una distribución que presenta
mitad de los casos concentrada en un tramo de edad relativamente corto. Los casos por
.:ebajo del primer cuartil y por encima del tercero, hasta englobar el 95 % de la distribución,
·enen indicados por los «bigotes» de la caja, cuyos límites quedan entre los 19 y los 43
::..5os. Más allá de esas edades se encuentran los casos extremos, que presentan frecuencias
ucho menores, y vienen señalados por los pequeños círculos identificados por el número
~ ~c aso.
Gráfico 15.
Diagrama de caja para Nacimientos según estado civil de la madre. Año 2006.
50 - 382~401115
89478
[257610
62515 7293-&
399372 .
-~ 5231
3857
-
45
-- 97344
40 -
35 -
"O
~30 -
w
25 -
20 - 3127611..__
100347
99630
46213
15 - 457974 1216
--
10 -
1 1
Casada No casada
Estado civil
Fuente: Movimiento natural de la población, 2006. INE
empre que tengamos datos de la misma variable en distintos momentos del tiempo. Para la
_ nstrucción de este tipo de gráficos situamos en el eje horizontal los intervalos temporales
:neses, años, etc.) y en el eje vertical las frecuencias (absolutas o relativas) de las variables
_ nsideradas.
Para reflej ar la evolución de una cantidad a lo largo del tiempo utilizamos un diagrama
-~ líneas simple, que admite la representación de frecuencias absolutas, porcentajes o índi-
-~ . En el ejemplo siguiente se ha representado la evolución del número medio de hijos por
-.ujer en España desde el año 1975 hasta la actualidad:
Gráfico 16.
Evolución del número medio de hijos por mujer en España.
2,5 ,
2 ~
1,s ¡--------=,,,.._.__;;;;;;;;~::====::::::;;;;;;;;__-
El gráfico ilustra Ja caída de la fecund idad que ha tenido lugar desde mediados de los
-os 70 hasta alcanzar un mínimo durante la segunda mitad de los 90, y el repunte de los
·timos años hasta llegar a una media próxima a 1,5 hijos por mujer.
También podemos representar conjuntamente los distintos valores de una variable y ob-
: ervar su variación a lo largo del tiempo. En esta tabla figura el porcentaje de hogares con
eso a intemet en tres países de la Unión Europea desde el año 2002 hasta el 2007:
Tabla 8.
Hogares con acceso a internet.
(Porcentajes respecto al total de hogares nacionales).
Para observar cómo evoluciona de forma conj unta la variable considerada en cada uno
e los países del ejemplo, construimos una serie temporal como la que sigue:
124 Estadística para la investigación social
. Gráfico 17.
Evolución del porcentaje de hogares con acceso a Internet.
%
100
90
80
70
60
50
~
--------- ----- - - - Dinamarca
40
-- - - - -- - - - - - Italia
--
- - - Portugal
-- -
30
20
-
10
o
2002 2003 2004 2005 2006 2007
Fuente: ICT lndicators Database. Unión Internacional de Telecomunicaciones
Los tres países del ejemplo parten de situaciones distintas durante el lustro considerado.
Aunque todos muestran una dinámica ascendente respecto a la proporción de hogares con
acceso a internet, Dinamarca presenta una proporción en el 2002 muy superior a la de Italia
y Portugal, creciendo rápidamente hasta llegar a un «techo» en el año 2006, momento a par-
tir del cual desciende levemente la proporción de hogares. El crecimiento en Italia ha sido
más lento e irregular y de menor cuantía, tal como muestra la curva correspondiente en el
gráfico. Finalmente, Portugal, que parte de una situación más modesta que Italia, experimen-
ta un crecimiento más rápido que dicho país respecto a la proporción de hogares con acceso
a internet, pues ambas curvas tienen a confluir en el último año del período considerado.
Ejercicio 4
Construya una representación gráfica adecuada a partir de los datos de la siguiente tabla:
Tasa de paro en España. Media anual.
Tasa de paro (%)
2001 10,55
2002 11,47
2003 11,48
2004 10,97
2005 9,16
2006 8,51
2007 8,26
2008 11,34
Fuente: Encuesta de Población Activa. /NE.
ersión o nube de puntos. Este tipo de gráfico consiste en mostrar un elemento a través de
: valores emparejados de dos variables mediante un gráfico cartesiano con dos ejes perpendi-
- ares. Es costumbre representar en el eje X la variable que se considera la «causa» (variable
ependiente), mientras que en el eje Y se representa la variable considerada como «efecto»
ariable dependiente) de la primera. Sin embargo, no siempre dicha relación es obvia, y el grá-
- -o simplemente presenta la forma en que los valores de las variables varían conjuntamente.
Aparte de representar los patrones conjuntos de dos variables, los diagramas de disper-
·n resultan útiles para detectar los outliers, es decir, observaciones que se alejan extrema-
=.::mente de la tendencia central de los datos de la distribución. Pueden aparecer por errores
:.e medida o de tratamiento de los datos, por deberse a casos que no pertenecen a la pobla-
- ón objeto de estudio, o simplemente responder a desviaciones en el comportamiento de la
:rriable, que merecen una atención especial. Una vez detectados, se puede decidir si el par
- datos es significativo o si se debe a un error en la obtención de la información.
La siguiente distribución relaciona dos variables: el PIB per cápita de los 27 países inte-
;:antes de la Unión Europea en el año 2007 y el número de usuarios de intemet por cada 100
- -bitantes de cada uno de esos países en ese mismo año:
Tabla 9.
m per cápita9 y número de usuarios de internet por cada 100 habitantes en la UE (2007).
Usuarios de intemet
Países UE PIB per cápita
por cada 100 habitantes
Alemania 40.162,20 72
Austria 44.652,30 67
Bélgica 43.469,90 67
Bulgaria 5.177,60 31
Chipre 27.465,20 38
Rep. Checa 16.880,80 49
Dinamarca 57.256,60 81
Estonia 15 .932,10 64
Finlandia 46.370,50 79
Francia 40.089,90 51
Grecia 28.111,30 33
Hungría 13.777,40 52
Irlanda 59.539,60 57
Italia 35.585,20 54
Letonia 11.930,20 55
Lituania 11.307,60 49
Luxemburgo 108.217,20 78
Malta 18.227,30 45
Países Bajos 46.669,10 84
Polonia 11.008,00 44
Portugal 20.990,50 40
Rumanía 7.523,10 24
9
PIB per cápita a precios corrientes expresados en dólares noneamericanos.
126 Estadística para la investigación social
Tabla 9. (Continuación)
Usuarios de intemet
Países UE PIB per cápita
por cada 100 habitantes
Eslovaquia 13.701,60 56
Eslovenia 22.936,50 53
España 32.450,80 52
Suecia 49.873,20 80
Reino Unido 45.549,30 72
Fuente : ICT Indicators Database. Unión Internacional de Telecomunicaciones.
70 Al + + R.Un
Bel * Aus
+ Est
d; 60
E Let ~ Eslvq + + Ir +
.! +HJ! n Eslvn + lt +
..
.E 50
'g
Lit +
Poi +
fi. Ch
+ Ma l
Esp Fr
.g40 Por+
+ chi
"'::> + sul + Gre
~ 30
+ Rum
20
10
o
o 20.000 40.000 60.000 80.000 100.000 120.000
PIB per cápita
Fuente: ICT lndicators Database. Unión Internacional de Telecomunicaciones
El gráfico nos muestra una cierta asociación positiva entre las variables consideradas, de
tal forma que a medida que progresa la renta per cápita parece aumentar igualmente el nú-
mero de usuarios de intemet. Si nos fijamos bien, el diagrama presenta una figura en «esca-
lera» donde quedan diferenciados dos grupos de países y algunas situaciones particulares.
Un grupo estaría formado por el «primer escalón» donde se encuentran los países que se han
incorporado desde el año 2004 a la UE, es decir, los pertenecientes a Europa Central y del
Este (Estonia, Letonia, Eslovaquia, Eslovenia, Polonia) y la isla de Malta. Se observa que
tienen una renta per cápita no superior a los 25.000 dólares y, con la excepción de Estonia.
un número de internautas no superior a 60 por cada 100 habitantes. El segundo grupo estaría
Capít ulo V. Representaciones gráficas 127
omprendido por aquellos países del «segundo escalón» (Alemania, Reino Unido, Suecia,
Finlandia) con mayor tradición en la Unión Europea, mayor desarrollo económico y mayor
acceso a Internet. Aparte de estos grupos bien diferenciados, el diagrama nos muestra de
-orma individualizada casos particulares como el de Bulgaria y Rumanía, últimos en entrar
en la Unión, con menores niveles desarrollo, el caso de Luxemburgo, que aparece como un
outlier por su elevada renta per cápita, las «situaciones de transición» entre los dos grupos
rincipales que presentan España, Italia y Francia, y la situación atípica de Irlanda con un
otable desarrollo económico y un nivel de acceso a Internet moderado.
Ejercicio 5
Construya e interprete adecuadamente el diagrama de dispersión que corresponde a la siguiente
serie de datos:
Índice de mortalidad infantil y esperanza de vida al nacer en los países de la U.E. (2007).
(Índice de mortalidad infantil: número de muertes de niños menores de 5 años por cada 1.000
nacimientos vivos.)
Hasta aquí hemos tratado de describir e interpretar las representaciones gráficas más úti-
_e para el investigador social. Con el fin de sintetizar la información expuesta, el siguiente
:uadro presenta, a modo de esquema, los principales problemas de investigación a los que
:ma representación gráfica adecuada puede contribuir a dar respuesta:
128 Estadística para la investigación social
CUADRO l.
Tipos de gráfico según el problema de investigación.
Ejemplo de
Problema de Investigación Tipo de gráfico
representación gráfica
Diagrama de barras
Descripción y comparación
de categorías
Diagrama de barras apiladas
lli
Gráfico de áreas apiladas
Diagrama de sectores
Histograma
Polígono de frecuencias
Análisis y comparación
de distribuciones
Ojiva
Diagrama de cajas
10
Alaminos ( 1993:10-15).
130 Estad ística para la investigación social
44
Población
en (miles) 42
3.2. Escalas
Las escalas son distintos sistemas de representación numérica cuyo uso depende del fenóme-
no social estudiado y de la información relevante que se desea transmitir. Es importante uti-
lizar la escala adecuada para evitar que el gráfico pueda ofrecer una impresión distorsionadz.
de los datos.
Capítulo V. Representaciones gráficas 131
Supongamos que queremos estudiar la inflación que presentan dos países africanos du-
:mte los últimos años: Zimbabwe y Angola. En la Tabla 10 se refleja la evolución de los
?recios al Consumo de ambos países utilizando números índices 12 y tomando el año 2000
_ mo base 100:
Tabla 10.
Índice de Precios al Consumo. Base: 2000 = 100.
Año Angola Zimbabwe
11
Un logaritmo en base 1O nos dice Ja potencia a Ja que tiene que ser elevado 1O para obtener determinado
ero. Por ejemplo, el logaritmo de 10.000 es 4 porque 104 = 10.000.
12
Un número índice es una medida estadística que permite estudiar las variaciones de la magnitud de un fenó-
no en distintos momentos del tiempo. Así, se escoge una situación como punto de referencia inicial (base) y se
-:!111i te a ella el resto de observaciones para poder realizar comparaciones. En nuestro ejemplo, el Índice de Precios
· Consumo que se ha tomado como situación de partida es el del año 2000, de manera que el IPC de años posterio-
se compara con el de ese año para observar las variaciones de los precios en los años sucesivos.
132 Estadística para la investigación social
Vemos que el recorrido de las variables es de gran amplitud, por lo que utilizaremos un
gráfico semilogarítimo para reflejar mejor los cambios relativos, donde los años vendrán re-
presentados en el eje X en escala aritmética, y el IPC en el eje Y en escala logarítmica:
Gráfico 20 13 .
Evolución del Índice de Precios al Consumo. Base (2000 = 100). Escala logarítmica.
- Zim babwe
1.000.000.000 - Angola
100.000.000
10.000.000 /
1.000.000
I
/
100.000
/
/
10.000
/
,,,,,. ~V
- ¡_.---
- -r
1.000
/ .,,,.. ,,.,..
/.
_...
~ - ...
100 1
Dado que nos interesa comparar las variaciones en el índice de precios de ambos paíse_
durante un período de tiempo, para interpretar correctamente este gráfico no debemos fijar-
nos en las cantidades absolutas, sino en la pendiente de las curvas, es decir, en el incrementa
que experimenta la magnitud durante una unidad de tiempo. En el ejemplo considerado, 1
curva que representa la evolución de los precios en Zimbabwe presenta mayor pendiente que
la correspondiente a Angola, sobre todo a partir del año 2005. Ello indica que en aquel paL
los precios han experimentado un aumento exponencial, es decir, un crecimiento muy rápido
en el tiempo. En cambio, en el caso de Angola se observa que, aunque los precios también
13
Se ha dibujado la curva con línea discontinua en el período 2000-2003 debido a que no disponemos de infor-
mación relativa a los años 2001 y 2002.
Capítulo V. Representacio nes gráficas 133
han subido durante el período considerado, la menor pendiente de la curva indica que dicho
recimiento ha sido lineal y, por tanto , más lento.
A partir de esta tabla vamos a construir dos gráficos, uno en escala aritmética y otro en
e cala logarítmica:
134 Estadística para la investigación social
Gráfico 21.
Evolución del salario en dos poblaciones (escala aritmética).
1.500
1.200
"'
·~
~
"'eo 900
E
"'"'
"'C 600 - - - Población A
·;:"'
- - - -- --
"'C
- - Población B
:::>
300
o
t1 t2 t3 t4 tS
Tiempo
Gráfico 22.
Evolución del salario en dos poblaciones (escala logarítmica).
10.000
1.000
100
[
,
-- - --- - - - Población A
,, ,,
10 - - Población B
,,
1
t1 t2 t3 t4 tS
Tiempo
El Gráfico 21, representado en escala aritmética, produce la impresión de que Jos salario_
de Ja población B experimentan un mayor crecimiento que los de la población A. Pero est2.
interpretación no es correcta: si observamos el Gráfico 22, cuyo eje vertical está representa-
do en escala logarítmica, podemos comprobar que es realmente la población A Ja que experi-
menta un mayor crecimiento en los salarios, hecho que, como sabemos, se aprecia por 1
mayor pendiente de la curva de esta población con respecto a la de la población B.
El ejemplo muestra que los cambios relativos deben estudiarse a partir de una escal
logarítmica, pues, como se ha dicho, Ja escala aritmética acentúa ilusoriamente el crecimien-
to de la variable con frecuencias absolutas más elevadas.
Gráfico 26.
10
9
8
7
6
---- - - ---
5
-
4
3
------
e-
2
~--
1
o
1994
- -- = - :;-
1995
1
1996
1
1997
1
1998
136 Estadística para la investigación social
El efecto distorsionado de reducir las tendencias responde al interés de producir una ilu-
soria impresión de «estabilidad» en la serie. En el Gráfico 24 se ha contraído el eje Y, al
añadir cantidades que resultan superfluas a la hora de interpretar los datos, mientras que en
el Gráfico 25 se ha expandido el eje X aumentando el espaciado de la escala. Finalmente,
como puede observarse en el Gráfico 26, la tendencia disminuye todavía más con el efecto
combinado de expandir el eje X y contraer el eje Y.
También es posible encontrar representaciones gráficas que producen el efecto contrario,
es decir, acentuar la tendencia de la serie de datos:
4 +-----,
~----------
2,: +
1 - - -_ ,__
1 +---/-----~
o,5 +-~
/ _ _ _ _ _ _ _ _ _ __
/
I""-- 00 O'I 0 ...-1 N ('!"') "'1' Lfl !,,O l""--
O'l Q) <J) 00000000 o ~.~-~~--~--~--~--~
C"IO'IO'IOOOOOOOO
'1"""'1'1"""'1..-(NNNNNNNN 1994 1995 1996 1997 1998 1999
Gráfico 29.
1,5 1-
1+--1-
I
0,5 t-1
o
en o ..-< '<t
"'oo "'oo
l/1 CX) N M
'<t
en
en
..-<
en
en
..-<
"'enen "'enen
..-< ..-<
en
en
..-<
en
en
..-<
o
o
N
o
o
N
o
o
N
o
o
N
o
o
N
l/1
o
o
N N N
En este caso vemos que el interés se centra en presentar tendencias más acentuadas de le
que realmente son, es decir, evoluciones más importantes de las variables de forma ficticia.
En el Gráfico 27 se contrae el eje X añadiendo más unidades temporales de las necesarias
para la correcta interpretación del gráfico, y en el Gráfico 28 se expande el espaciado en L
escala del eje Y (la distancia entre O y 1, 1 y 2, y así sucesivamente, es mayor que en e
Gráfico 23). Como en el caso anterior, la intervención conjunta en ambos ejes multiplica
distorsión acentuando todavía más la tendencia, tal y como puede observarse en el Gráfico 2J
Si, como hemos señalado desde el comienzo, la utilidad y el sentido de una represen
ción gráfica es descubrir e interpretar las relaciones existentes entre los datos, tal objetivo _:
desvirtúa con gráficos cuyos ejes se encuentran manipulados en la forma aquí descrita. P
ello, es necesario extremar el cuidado en la construcción de las escalas de los ejes y en
Capítulo V. Rep resentaciones gráf icas 137
-·erpretación de gráficos que puedan dar lugar a ilusiones ópticas. En cualquier caso, es
_ nveniente que junto al gráfico aparezca la tabla con los datos a partir de los cuales se ha
truido; ello permitirá tener un punto de referencia y verificar la información representada.
Ejercicio 6
::1siguiente gráfico pretende representar los datos de la siguiente tabla. Señale las incorreccio-
"'es y los elementos que faltan para que el gráfico sea adecuado.
Trimestres IPV
2007TI 97,55
2007Tll 100,337
2007Tlll 101,417
2007TIV 100,696
2008TI 100,323
2008Tll 100,012
2008Tlll 98,352
2008TIV 95,262
2009TI 92,71
2009Tll 92,301
Fuente: Estadística del IPV. INE
138 Estadística para la investigación social
Bibliografía comentada
Alaminas, A. (1993): «Gráficos». Cuadernos metodológicos. Madrid. CIS.
Texto muy útil para el investigador social que, de forma sintética y rigurosa, presenta los tipo
de representación gráfica más útiles en las ciencias sociales y todos aquellos elementos formale
necesarios para una construcción gráfica correcta.
Bertin, J. (1988): La gráfica y el tratamiento gráfico de la información. Madrid. Taurus.
Tratado sobre la gráfica que aborda las reglas que operan en la construcción racional de gráfi-
cos. Basándose en los principios de la semiología gráfica, el texto profundiza en las reglas para
Ja construcción de gráficos verdaderamente útiles para la investigación, alejados de los «grafis-
mos» habituales en Ja comunicación que tienen una intención más estética que informativa.
Capítulo VI
Teoría y cálculo
de probabilidades
1
Si aplicamos calor constante en una cocina de gas butano a un cacerola de agua fría , sabemos que ésta llegan
a su punto de ebullición. Sin embargo, si extraemos una persona al azar del conjunto de la población español a nu n
podremos saber, de antemano, si va a ser un hombre o una mujer: sólo podremos decir que tenemos una probabili-
dad muy próxima a 0,5 de que sea un hombre.
Capítulo VI. Teoría y cálculo de probabilidades 141
sx <4 = {l , 2, 3}
El espacio muestra! del experimento (e), «seleccionar tres personas de un conjunto de
_ co», será, si llamamos a las cinco personas a, b, e, d y e, el siguiente.
UceJ = {abe, abd, abe, acd, ace, ade, bcd, bce, bde, cde}
Estamos aquí ante un experimento compuesto (compuesto de una serie de experimentos
_::mentales, con resultados de un solo elemento). En este caso vamos a llamar conjuntó
estral al espacio muestral generado.
Un suceso compuesto dentro de este experimento sería, por ejemplo, «extraer tres perso-
- iendo una de ellas e».
: Un fenómeno aleatorio natural es, por ejemplo, Ja cantidad de agua de llu via que cae durante un año en una
~ d determinada: nunca podremos saber de antemano cuánto lloverá el próximo año en esa ciudad, sólo conoce-
su probabilidad teniendo en cuenta las lluvias registradas en años anteriores. El in vestigador no produce el
meno. En cambio, un experimento aleatorio es un fenómeno provocado, en el que se controlan, hasta cierto
· . sus condiciones de producción, de manera que pueda repetirse bajo las mismas condiciones. Por ejemplo, en
= po de Ja investigación social, un experimento de este tipo se da cuando extraemos una muestra 50 mujeres del
to de la población española femenina, muestra en Ja que todos Jos elementos de esta población tienen Ja
a posibilidad de aparecer. Si conocemos la proporción de solteras en Ja población, sólo sabremos, de antema-
probabilidad de que nos aparezca en Ja muestra un determinado número de solteras, pero nunca tendremos
~za de ello.
3
En Jugar de suceso algunos manuales hablan de evento o acontecimiento.
142 Estadística para la investigación social
4
Sobre el establecimiento de leyes y la repetición de los acontecimientos. Es en este contexto en el que se
desarrolla la cuestión de la probabilidad durante el siglo XIX: se debatía sobre la posibilidad de constitución de um>
ciencia de los hechos humanos, de una ciencia de lo histórico. En su origen, la probabilidad se sitúa en el debate
teológico: en el debate sobre la determinaci ón o libertad de los actos humanos o, más generalmente, sobre la cau
lidad o la contingencia en la naturaleza, a fin de cuentas, sobre la omnipotenci a divina. Todo saber científico (alg
que hemos olvidado de modo rotundo) nace en el seno del debate teológico. A nosotros, en el acotado contexto de
este manual, sólo nos interesa la probabilidad encuadrada en la teoría de muestras, en un contexto praxeológi
muy acotado, si bien no deberíamos olvidar las cuestiones teo lógico-políticas supuestas en éste, que nos ayudarían
entenderlo mucho mejor, au nque se sitúan, obviamen te, fuera de los límites de este texto.
5
Es la definición de probabilidad en un ciada en su Théorie analytique des probabi/ités ( 1812) y que aquí cita-
mos en su tercera edición de 1820 (pág. 181 , entre otras).
6
Estamos hablando simplemen te de las extracciones, en su aspecto formal , y no del contenido de éstas, de
resultado. No se debe confundir «casos» con «sucesos».
Capítulo VI. Teoría y cálculo de probabilidades 143
Todos los casos son equiprobables. Y los resultados posibles son mutuamente excluyen-
s. Son las condiciones básicas para poder aplicar la definición de probabilidad de Laplace.
P(S) = n/N
O~ P(S) ~ 1
Experi mentalmente, para llegar a conocer la probabilidad del suceso de nuestro ejemplo
"'legir una niña») hay que suponer que repetimos el experimento, que consiste en extraer o
! egir uno de los alumnos del colegio, un número de veces muy elevado (que en teoría sería
=finito).
Hemos registrado las frecuencias del suceso «elegir una niña» en los reiterados casos
_ que hemos realizado el experimento. Por convenio (desde Bernoulli), se suele hablar de
'rito de un suceso cuando éste se realiza en el experimento, y de fracaso , cuando no se da.
~q uí hablamos de casos favorables y desfavorables. Marcamos los resultados favorables (si
- cenemos una niña) en el experimento con un 1 y los otros (si no obtenemos una niña) con
O. Las primeras 80 extracciones que hemos registrado han sido:
Hay que tener en cuenta que cada vez que realicemos sucesivamente el experimento (en
a serie de experimentos elementales sucesivos independientes), la secuencia concreta de
-e ultados será distinta: la secuencia de los primeros ochenta resultados será distinta en cada
asión 7 . No nos importa. Lo que nos interesa es que, para un número muy elevado de casos,
· frecuencia relativa o proporción acumulada de los resultados favorables se aproxima a Ja
:m>babilidad «real»« del suceso. Y esto sucede en todas las secuenci as concretas de resulta-
.:os: todas tienden hacia la probabilidad «real» del suceso. Veamos pues, a través de la Ta-
_la 1, hacia qué valor tiende esa frecuencia, observando los 80 primeros resultados que he-
os obtenido al azar.
7
Con este número de casos es prácticamente imposible que se repita la misma secuencia de resultados
144 Estadística para la investigación social
1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 l 1 1 1 1 1 1 1 1 1 1 1 1 1 1 l 1 1 1 1 l 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 2 3 4 s s 1 s 9101112131415'16171819ai21=:!12i;!;27iB2!1ll31323334353l37:Jm(J41<!434«5W4l41!1l51S1Sl5455$5758!ll!nl1616364650067fffilill71727374 JSro7778J911l
Debe quedar claro que las probabilidades a priori no pueden obtenerse nunca por méto-
empíricos. Desde éstos, para acercarnos a una probabilidad a priori, tenemos que hacer
ejercicio imaginario: la repetición infinita de un experimento, cuya realización, obvia-
nte, nunca será posible. Una probabilidad a priori supone, sin embargo, intuitivamente la
=alización de un ejercicio de este tipo.
Los procedimientos y las reglas matemáticas que se dan en el cálculo de probabilidades,
":mdamento de la estadística inferencia!, toman como punto de partida esa noción intuitiva
_ extraña) que es la probabilidad a priori.
A continuación, para comprender las propiedades matemáticas de las probabilidades,
- propiedades que nos permiten realizar cálculos con ellas, se hace necesario aplicar las
iones básicas de la teoría de conjuntos.
8
Ésta es, desarrollada por Jacob Bemoulli en su obra póstuma Ars conjectandi ( 1713), la primera expresión
;:ooocida de lo que Poisson llamará en 1835 «ley de los grandes números». Esta ley se conoce también como «ley
1 azar» de BenoulLi o ley de Laplace-Gauss.
9
Representamos aquí los resultados obtenidos (en términos de frecuencias relativas acumuladas) tras un núme-
;:o suficientemente alto de extracciones sucesivas (80), manteniendo en todas ellas el mismo conjunto original ( 100
:?.!umnos) , ya que cada uno de los sucesivos alumnos que extraemos lo volvemos a ingresar al conjunto antes de
oceder a la sigui en te extracción, porque estos experimentos sucesivos son independientes entre sí, de tal manera
que el resultado del anterior no influye de ningún modo en el siguiente.
146 Estadística para la investigación social
En la investigación social no nos interesan los individuos concretos, sino unas determi-
- as características de estos, como pueden ser sus identidades sex uales, sus edades, etc.
- etomemos nuestro ejemplo. Supongamos que nos interesa conocer simplemente la compo-
~ó n por sexo de las parejas resultantes, es decir, si ambos afortunados son niñas, o si son
--o y niña. En este caso, las unidades muestrales que tenemos constituyen el siguiente espa-
- o muestra/ elemental (o universo poblacional): E = {niña, niño, niña}.
En este experimento se pueden producir los siguientes resultados posibles, atendiendo al
"XOde los seleccionados:
a) se seleccionan dos niñas: (Adela, Herminia);
b) se seleccionan un niño y una niña: (Adela, Marcelo), (Herminia, Marcelo).
El conjunto muestral de este experimento compuesto, según el nombre de los niños, se-
- · {(Adela, Marce lo), (Herminia, Marcelo), (Adela, Herminia)}.
Tendríamos un resultado (suceso) «imposible»: nunca podríamos seleccionar a dos ni-
,; -: y un resultado «seguro»: siempre seleccionaremos al menos a una niña.
El conjunto muestra/, con todos los resultados posibles, si nos fijamos en el sexo de los
"leccionados, será: {(niña, niño) , (niña, niño), (niña, niña), (niña, niña), (niño, niña), (niño,
=.!ful)}. O, en términos más gráficos: { (~e)), (~e)), (~~), (~~), (ó~), (e)~)}.
En este experimento, según la regla de Laplace, la probabilidad de que se subiesen un
-o y una niña en la atracción sería 2/3; y la probabilidad de que se subiesen dos niñas sería
:.= 113.
Recapitulemos los conceptos:
Un suceso elemental es uno de los resultados posibles de un experimento aleatorio ele-
ental.
El espacio muestra[ (E) o universo de un experimento aleatorio está constituido por to-
los elementos (o unidades muestrales) que combinados entre sí producen los resultados
_ ibles de aquel. También podemos decir que es el conjunto de elementos (o población)
bre el que se aplica el experimento.
Un suceso es, por tanto, un subconjunto del espacio muestra! del experimento.
El espacio de sucesos ('¡g ) es el conjunto de todos los sucesos (de todos los subconjuntos
¡osibles) del espacio muestra!, el conju nto de todas las muestras que se pueden generar con
elementos del universo, entre las que incluiríamos la muestra que contiene todos los ele-
:nentos (el suceso seguro) y la muestra que no contiene ninguno (el suceso imposible).
Los resultados en una determinada población de un experimento compuesto (de otros
-imples) generan un subconjunto específico del espacio (total) de sucesos que configura esa
:xiblación: un subespacio de sucesos al que podemos denominar conjunto muestral.
Y así, si agrupamos los sucesos del espacio muestra/ según un determinado criterio defi-
:údo en un experimento (por ejemplo, el número total de elementos que contienen, o el nú-
;nero de elementos que contienen con unas determinadas características), esto nos generará
.ii tintos conjuntos muestrales. Por ejemplo, en una población de 100 personas podemos de-
:lnir el conjunto muestra! compuesto por todas las muestras aleatorias posibles de 20 perso-
148 Estadística para la investigación social
nas. Y dentro de este conjunto podríamos establecer, atendiendo a una característica que nos
interesase de estas personas, otro subconjunto muestral, que podría ser el compuesto por las
muestras de 20 personas de esta población que contuviesen, por ejemplo, menos del 40% de
mujeres.
Consideramos siempre los sucesos dentro de un conjunto muestral considerado, es decir.
dentro de un conjunto de sucesos que reúnen una característica determinada y que, en cieru:
sentido, constituyen un universo de sucesos posibles.
Dentro de cada uno de éstos, cada suceso contará con un complementario. Un suces
complementario de otro será el que contenga todos los elementos que le faltan a éste den
de un determinado universo de sucesos . El suceso complementario de S (que también seco-
noce como su contrario u opuesto) se escribe S.
Veamos un par de ejemplos muy simples para fijar estos conceptos.
Si tenemos una población constituida por 5 personas {a, b, e, d, e} y queremos extrae:-
una muestra de 2 personas en la que aparezca c, el conjunto muestra! a tener en cuenta se _
el conj unto de todas las muestras posibles de 2 personas, esto es, {ab, ac, ad, ae, be, bd, be
cd, ce, de}. Este conjunto estaría compuesto de estos 10 elementos, de los cuales 4 contiener:
la c. El suceso que estamos buscando contiene, por lo tanto, los siguientes elementos de_
espacio de sucesos considerado: {ac, be, cd, ce}. Es decir, en 4 casos de los 10 posibles _;
verifica nuestro suceso. ¿Cuál será, entonces, la probabilidad de que una muestra de 2 perso-
nas de una población de 5 contenga la c? Aplicando Ja regla de Laplace (número de cas .::
favorables entre casos posibles) dicha probabilidad será de 4110 = 0,4. Si sustituimos la
por cualquier otra persona (a, b, do e) obtendremos la misma probabilidad.
¿Y cuál sería, en esta misma población, la probabilidad de extraer, de entre todas las
muestras de 2 personas, una muestra que no contuviese Ja c? El conjunto muestral (o univer-
so de sucesos) a considerar sería el constituido por todas las muestras de tamaño 2. Y e
suceso «extraer una muestra de 2 elementos que no contenga la c» será el constituido por las
siguientes muestras: {ab, ad, ae, bd, be, de}. Éste es el suceso complementario del anteri
(«extraer una muestra de 2 elementos que contenga la e»). El total de sucesos a considerar es
el mismo considerado anteriormente: está constituido por todas las muestras de tamaño =
que podamos extraer de la población citada y cuyo número es 10. Por lo tanto, la probabili-
dad que buscamos es de 6/10 (6 casos favorables entre 10 posibles), esto es, 0,6.
Observamos aquí que la probabilidad de un suceso más la probabilidad de su comple-
mentario es igual a l. En un determinado conjunto muestral, siempre que no se dé un suce
se dará, necesariamente, su complementario.
Ejercicio 1
Supongamos que tenemos una población formada por 5 personas {a, b, c, d, e} y queremos co-
nocer el espacio de sucesos, es decir, todos los posibles subconjuntos que se pueden formar a
partir de los elementos de esta población.
a) Enumere todos los posibles subconjuntos del espacio de sucesos de esta población.
b) ¿Cuántos sucesos forman finalmente este espacio?
Capítulo VI. Teoría y cálculo de probabilidades 149
Ejercicio 2
-enemos un ramo formado por 4 flores de distintos colores (roja, blanca, rosa, amarilla) y quere-
-ios regalar únicamente 3 de ellas. Para ello, ped imos a una mano inocente que seleccione 3
· res al azar:
Ejercicio 3
vonsideremos nuevamente la población de 5 personas {a, b, e, d, e}. Si extraemos una muestra
- eatoria de 2 individuos:
Para esto tendremos que hallar todas las muestras posibles (de tamaño 2). Éstas serían:
id, id, ii, dd, dd, di, dd, dd, di, id, id, ii}, en total 12 muestras (4 x 3). Vemos que en 4
_e estas muestras figuran dos individuos de derecha. Aplicando la regla de Laplace, tenemos
ue la probabilidad buscada es 4 (casos favorables) entre 12 (casos posibles), esto es,
12 = 1/3 = 0,33.
Ejercicio 4
Siguiendo con el ejemplo de las poblaciones A = {i, d, d, i} y B = {d, d, i}, si extraemos aleatoria-
mente una muestra que contenga un individuo de A y un individuo de B:
a) ¿Cuál sería la probabil idad de que en la muestra aparezca al menos un individuo de izquier-
da (i)?
b) ¿Y cuál la probabilidad de que en la muestra aparezca al menos un individuo de derecha (d)?
Ejercicio 5
Consideremos ahora únicamente la población A = {i, d, d, i}. Si extraemos una muestra de 2
individuos de esta población :
Hasta aquí hemos visto ejemplos con muy pocos casos. Si tratásemos con grandes pobla-
ciones y muestras de cierto tamaño nos resultaría tremendamente laborioso la enumeración
pormenorizada, como hemos hecho hasta ahora, de todas las muestras posibles que reúnen
una determinada característica. En estas situaciones utilizaremos técnicas de conteo que no
permitan calcular el número de muestras a tener en cuenta sin necesidad de enumerarlas una
a una.
Tabla 2. Tabla 3.
Población de Velilla de San Antonio Población en España, distribuida
(Madrid), distribuida según su edad 10 • según su estado civil 1 1•
Edad (años) n Estado civil n
La operación de conteo más básica nos permite conocer el número de elementos que
presenta un conjunto, esto es, su cardinal. Para ello agrupamos los elementos en base deci-
10
Se trata de población residente en viviendas famj Ji ares, segú n el Censo de Población de 2001.
11
En este caso se trata también de población residente en viviendas familiares seg ún el Censo de 2001.
Capítulo VI. Teoría y cálculo de probabilidades 151
Si en esta tabla trabajásemos con las frecuencias relativas de las categorías en vez de con
números (absolutos) de casos que encontramos en cada una de ellas, obtendríamos direc-
:::mente Ja probabilidad buscada.
Tabla 4.
Edad (años) fr
Menos de 10 0,1651
De 10 a 19 0,1240
De 20 a 29 0,1703
De 30 a 39 0,2480
De 40 a 49 0,1613
De 50 a 59 0,0660
De 60 a 69 0,0334
De 70 a 79 0,0229
Más de 79 años 0,0090
Total (N) 1,0000
Ejercicio 6
Teniendo en cuenta los datos de la Tabla 3 sobre la población española distribuida según su
estado civil {datos del Censo de Población de 2001 ):
a) ¿Cuál es la probabilidad de extraer, del conjunto de la población española, una persona que
sea soltero/a?
b) ¿Y cuál es la probabilidad de extraer una persona que no sea soltero/a?
152 Estad ística para la investigaci ón social
Ejercicio 7
Según los datos ofrecidos por el INE en el Censo de 2011 , la población andaluza distribuida por
provincias es la siguiente:
Tabla 5.
Población andaluza distribuida por provincias.
Almería 688.736
Cádiz 1.244.732
Córdoba 802.575
Granada 922.100
Huelva 5 19.895
Jaén 667.484
Málaga 1.594.808
Sevilla 1.930.941
Vamos a realizar un sorteo entre la población andaluza, para el cual extraemos aleatoriamente
una persona de tal Comunidad:
a) ¿Cuál es la probabilidad de extraer una persona cuya provincia tenga sal ida al Mar Mediterrá-
neo ?
b) ¿Cuál es la probabilidad de extraer una persona de una provincia de interior?
c) ¿Y cuál es la probabil idad de extraer una persona residente en una provincia que limite con el
mar?
Ejercicio 8
Considere la Tabla 2 (Población de Velilla de San Antonio distribuida según su edad) y la Tabla 3
(Población en España distribuida según estado civil):
a) ¿Cuál es la probabilidad de extraer, del conjunto de la población española, un individuo resi-
dente en Velilla de San Antonio?
b) Y considerando únicamente la población de Vel illa, ¿cuál es la probabilidad de extraer una
persona entre los habitantes de esta localidad que tenga menos de 40 años?
12
Cuando aquí hablamos de «grupos» no hablamos de grupos en sentido algebráico (como grupos abeli an
etc.) : simplemente nos referimos a grupos como «Conj untos», como colecciones de elemen tos, y en sentido ~
sociológico, como conj untos de personas que reú nen unas característi cas determi nadas.
Capítulo VI. Teoría y cálculo de probabilidades 153
_.2.1. Combinaciones
etomemos esa población de cinco elementos {a, b, c, d, e} que habíamos fijado un poco
:nás arriba. ¿Cómo podremos calcular sin tener que enumerarlos todos los subconjuntos de
:os elementos que podemos formar en esta población (población que vamos a llamar U)?
Ya sabemos que el conjunto de todos los subconjuntos de dos elementos, es decir, el
:onj unto muestra! de éstos (que es un subconjunto del espacio de sucesos que conforman
-odos los subconjuntos posibles de la población), es el siguiente:
rg (U)carctz = {{a, b}, {a, c}, {a, d}, {a, e},{b, c}, {b, d}, {b, e}, {c, d}, {c, e}, {d, e}}
cll ,r = (n)r n!
= r! . (n - r)!
Donde n! (11 factorial o factorial de 11) es el producto de Jos n primeros números naturales
iendo n un número natural) 14 • Es decir,
13
Adición y multiplicación son las dos reglas fundamentales del cálculo algebráico: las famosas «cuatro re-
glas» que aprendían nuestros abuelos (ya que trabajaban sólo con números naturales) quedan reducidas a dos, ya
:;ue la sustracción puede considerarse una adición y la división una multiplicac ió n (ya que ahora trabajamos tam-
,ién con números enteros y racionales).
Actualmente, los matemáticos trabajan con los siguientes conjuntos de números: naturales (f\J), enteros ('11.), ra-
=ionales (Q), reales (~) y complejos (C). Los reales se componen de los racionales (0) y los irracionales: dentro de
racionales encontramos los números enteros. Los complejos están compuestos por los reales y los imaginarios .
.~í tenemos que f\J e '?l. e Q e ~ e C .
14
Si n = O, entonces (por convenio, ya que O no es un número natural) O! = 1.
154 Est ad íst ica pa ra la investigació n social
e
n,r
= (n) =
r
_n_·(_11_-_l_)_··_·_··_(1_1_-_r_+_l_)
r!
En este punto, para comprender bien la formulación de las combinaciones se hace ir::-
prescindible leer el «ANEXO 11. Técnicas de conteo (ordenaciones y agrupaciones)», que :
encuentra al final de este capítulo.
Ejercicio 9
Supongamos que una asociación está formada por 15 personas y se necesita formar una com·
sión seleccionando al azar un conjunto de asociados:
a) ¿Cuántas muestras de 6 socios podemos extraer?
b) ¿Y de 3 socios?
Ejercicio 1 O
Supongamos que tenemos una población fo rmada por 100 personas. ¿Cuántas muestras de 1C
pe rsonas distintas resu ltarán si realizamos una selección aleatoria?
15
Podemos observar que
11! = /1 · (n - ! )!
11 ! = /1 '(n - 1) '(11 - 2) !
n! = n'(n - l)'(n - 2)'(11- 3)!
etc.
Como res necesariamente un número narural menor o igual que n (r ~ 11 ), ya que es imposib le encontrar sur:
conjuntos con mayor número de elementos que el conjunto del que proceden, entonces
C =(n)= 11! =11·(11 - l ) ····· (n - r + l)· (11 - r)!=11 ·(11 - l )···· · (11 - r+l)
"·' r r!·(n-r)! r!·(n-r)! r!
16
Estas operaciones corresponden con las que, en el campo de la lógica proposicional, llevan a cabo los opera-
dores lógicos «O» ( v ) e «y» ( /\ ).
Capítulo VI. Teoría y cálculo de probabilidades 155
Como todo suceso se puede descomponer en una serie de sucesos elementales, un suceso
puesto puede ser composición de varios sucesos cualesquiera (sean o no elementales).
Para el cálculo de probabilidades se hace necesario conocer si los sucesos con los que
::.:nos a trabajar son o no mutuamente excluyentes, en el caso de que estemos ante sucesos
ultáneos, o, en el caso de que sean sucesivos o secuenciales, si el anterior condiciona al
terior, es decir, si la realización del primero modifica Ja posibilidad de realización del
~ndo.
Dos (o más) sucesos son mutuamente excluyentes si no tienen ningún elemento común.
-= o supone que cuando uno ocurre no puede ocurrir el otro: son sucesos que no pueden
.:..... e simultáneamente.
Por ejemplo, no podemos extraer de una población un individuo que sea a la vez ateo y
ólico practicante ni otro que sea casado y soltero al mi smo tiempo.
Se dice que un suceso está condicionado por otro anterior (o es dependiente de él) si la
encía del primero condiciona la probabilidad de que ocurra el segundo.
Por ejemplo, si tenemos una población de 7 mujeres y 3 hombres, al extraer sucesivamente
- personas sin reposición, la probabilidad de que Ja segunda sea hombre se ve indudable-
nte afectada según hayamos obtenido un hombre o una mujer en la primera extracción.
Estaremos ante sucesos independientes o no condicionados en aquellos casos en que el
- erior no influye en nada en el resultado de uno posterior. Es el caso, por ejemplo, del sexo
-~ los nacidos. Y no sólo en un ámbito poblacional extenso, como un municipio o una re-
- 'n, sino incluso en el seno de una misma familia. Que haya nacido una niña no influye en
en el sexo del siguiente nacimiento.
17
Téngase en cuenta que aqu í habl amos con una o inclusiva. Véase lo dicho a este respecto en la nota anterior.
156 Estadística para la investigación social
entonces
Lo dicho aquí para dos sucesos es válido también para una serie indefinida de ellos.
La regla de la adición de las probabilidades se puede generalizar para todos los suceso_
sean o no mutuamente excluyentes, diciendo lo siguiente.
«Si S 1 y S2 son dos sucesos cualesquiera, la probabilidad de que ocurra S 1 o S2 es igual _
la suma de las probabilidades de que ocurra cada uno de ellos por separado menos la prob -
bilidad de que ambos ocurran conjuntamente. »
entonces
Solteros/as 6 6 12
No solteros/as 3 5 8
Total 9 11 20
¿Cuál sería la probabilidad de encontrar (al azar) en el seno de esta población una perso-
na que fuese «mujer» o fuese «Soltera»? En este caso tenemos que hay «mujeres solteras»,
decir, que los grupos en cuestión no se excluyen mutuamente, que hay individuos que perte-
necen a ambos grupos al mismo tiempo. Por lo tanto, la probabilidad que buscamos es igu~
a la probabilidad de encontrar una mujer (11/20 = 0,55) más la de encontrar una pers o~
soltera (12/20 = 0,6) menos Ja probabilidad de encontrar una mujer soltera (6/20 = 0,3). E
Capítulo VI. Teoría y cálculo de probabilidades 157
:..... ir, la probabilidad de encontrar en esta población una persona que sea mujer o sea soltera
de 0,55 + 0,6 - 0,3 = 0,85. Si observamos directamente en la tabla las frecuencias de los
;:upos considerados (en las celdas afectadas) vemos que esa probabilidad es igual a
- 6 + 5)/20 = 17/20 = 0,85.
de 6112 = 0,5. La probabilidad compuesta (de sacar un hombre habiendo sacado una perso-
na soltera) es de 0,6 x 0,5 = 0,3 .
Aquí ya hemos mostrado que, ante sucesos condicionados, obtendríamos la misma pro-
babilidad si la secuencia de los sucesos se invirtiese, y S1 se produjese después de S2 . En este
caso:
Es decir:
Al igual que para la adición de probabilidades, lo dicho para dos sucesos es válido tam-
bién para una serie indefinida de éstos.
También podemos particularizar lo dicho para sucesos cuya secuencia no esté condicio-
nada, ya que esto, bien visto, no es sino un caso concreto de sucesos condicionados, porqllf
el suceso S2 habiéndose producido antes S1 es igual al suceso S2 , independientemente de si ~
ha producido o no S 1 . Es decir,
Esto lo podemos enunciar de la siguiente manera: «si S 1 y S2 son dos sucesos indepen-
dientes o no condicionados, la probabilidad de que ocurra S1 y conjuntamente S2 es igual
producto de las probabilidades de que ocurra cada uno de ellos por separado. » 18
tendremos que
Hay que advertir que para aplicar esta regla particular de la probabilidad conjunr.:
(y sucesiva) de sucesos independientes , la que dice que
18
Esto es lo que no ocurría en el ejemplo anterior, en el que calculábamos la probabilidad de extraer de '
población K un «hombre soltero». Ya que ? (hombre)· ? (soltero) #?(hombre y soltero).
Capítulo VI. Teoría y cálculo de probabilidades 159
P (S2 /S 1) = P(S2 ), algo que nos encierra en una tautología. Y también, de modo igualmente
· · tológico, se define la probabilidad condicionada de un suceso en función de su intersec-
Ejercicio 11
Jna determinada población se distribuye del modo siguiente según nivel de renta y nivel de estu-
::ios:
Tabla 7.
Nivel de renta Nivel de estudios
Elementales Medios Superiores
Total
(E) (M) (S)
Baja (B) 34 14 3 51
Alta (A) 4 10 15 29
Total 38 24 18 80
Calcule las probabilidades de encontrar los siguientes casos en el conjunto de esta población:
a) Un individuo de estudios Elementales y de renta Alta.
b) Un individuo de estudios Superiores y de renta Alta.
e) Un individuo con nivel de estudios menor a los Superiores.
d) Un individuo de estudios Elementales y de renta Baja.
e) Un individuo de estudios Superiores o de renta Alta.
f) Dos individuos de estudios Superiores.
P(U) = 1
Esto mismo se puede expresar diciendo que «la probabilidad de la unión de todos 1
sucesos de un espacio muestra! es igual a l».
Sea U= {S 1, S2, S3, ••• , S,,}, como S 1 u S2 u S3 u··· u S,, = U, entonces
2. La probabilidad del suceso imposible (aquel que no cuenta con ningún elemento,
uel que nunca podrá darse) ( 0) es igual a O. [La probabilidad de extraer un hombre de una
_ blación enteramente compuesta por mujeres es nula.]
P( 0) =O
Esto es equivalente a decir que «la probabilidad de que se den conjuntamente todos los
Jcesos de un determinado espacio muestra! es igual a 0», ya que nunca podrán realizarse
i:IDUltáneamente todos los sucesos.
Sea U= {S 1, S2 , S3 , • •• , S,,}, como S 1 n S2 n S3 n ··· n S,, = 0, entonces
P(S¡ Í\ S¡) =o
3. La probabilidad de un suceso oscila entre O y l. Nunca podrá ser menor que O ni
:nayor que 1.
O ~ P (S) ~ 1
Es posible, tal como hacen algunos manuales hoy en día, considerar la probabilidad no
=n términos de proporción (de O a 1) sino de porcentaje (de O a 100), ya que el uso de por-
_entajes suele ser más habitual en la vida cotidiana y, por consiguiente, hoy en día, se está
.::iás familiarizado con los porcentajes que con las proporciones. Los resultados son equiva-
entes.
162 Estadística para la investigación social
Los conjuntos se escriben con letras mayúsculas. Los elementos que los componen, coc
minúsculas.
Sea C un conjunto compuesto por los elementos a, b, c, d. (En este caso definimos e
conjunto C por enumeración.)
e= {a, b, c, d}
19
En la concepción clásica de los conjuntos (desarrollada por Frege a partir de la lógica clásica) se trata de Y
si un elemento pertenece o no a un determinado conjunto: en este contexto un elemento «es» o «no es». En la lógi
difusa, que se ha desarrollado con la Inteligencia Artificial, a cada elemento del universo se le asocia un grado re
pertenencia (entre O y 1) al conjunto, conjunto difuso. En la lógica difusa, por oposición a la lógica discreta, no •
trata de ver si uno es o no es, sino si uno es más o menos que otro. Las operaciones que se realizan entre conjun
difusos son distintas de las que establecemos entre conjuntos clásicos, que son a los que aquí, en este texto,
limitamos.
Capítulo VI. Teoría y cálculo de probabilidades 163
Estos valores clasifican las unidades de una determinada población sometida a recuento.
Cada valor, de acuerdo con el número de veces que se repita en la población, contará con
Jna determinada.frecuencia [x 1 - t n 1, x 2 - t n 2, .. ., X; - t n;, ... ].
Una población puede considerarse como un conjunto de unidades.
A una población le aplicamos una variable para clasificar sus elementos según sus va-
ores .
Cada valor constituye un subconjunto de una población, con un determinado número de
:rnidades (s u frecuencia).
ubconjunto
Un subconj unto de Ces un grupo de elementos de C.
Por ejemplo, C 1 = {b, c, d}.
Si C 1 es un subconjunto de C, decimos que C 1 está contenido en C, y Jo escribimos así:
C1 e: C
cg (U)card2 = {{a, b}, {a, e}, {a, d}, {b, e}, {b, d}, {e, d}}
Y el conjunto de todas las muestras de tamaño 3 será el siguiente:
"g(U)card3 = {{a, b, c}, {a, b, d}, {a, c, d}, {b, e, d}}
El primero estará compuesto de 6 elementos y el segundo de 4.
a e e
b f d
g h
20
Normalmente este conj unto suele llamarse «espacio muestra] » y así encontraremos esta definición en numercr
sos textos de teoría de conjuntos. En este manual, cuando hablamos de sucesos aleatorios, hemos restringido la dencr
minación de «espacio muestra!» al conjunto de sucesos elementales que pueden darse en un experi mento aleatorio. E:;
teoría de conjuntos, esto equivaldría al conjunto de subconjuntos que contienen un sólo elemento. Así, en este texto.
hemos optado por denominar «conjunto muestra! » al conj unto de todos los subconjuntos posibles de un universo de
elementos, al que también podemos ll amar «conjunto muestra! total ». En teoría de la probabilidad este «conjunte
muestra] total » lo hemos denominado «espacio de sucesos», y en él se definen distintos subconjuntos muestrales (dis-
tintos tipos de subconjuntos, que denominarnos específicamente «conjuntos muestrales») o subespacios de sucesos.
Capítulo VI. Teoría y cálculo de probabilidades 165
o o
e a
f d b d
g h g h
En nuestro ejemplo:
A u B = {a, b, e, d, e, f}
g h
21
Ésta «O» no es una «O» de len guaje común, que es exclusiva. Es una « O» lógica, que es inclusiva. En lógica
matemática la expresión p o q será verdadera en los siguientes casos: (a) si pes verdadera (y q es falsa) , (b) si q es
verdadera (y pes fa lsa), (c) si pes verdadera y q también es verdadera.
166 Estadística para la investigación social
Conjunto complementario
Dentro de un universo poblacional, el conjunto complementario (A) del conjunto A contiene
todos los elementos de la población que no pertenecen a A. También se denomina conjunte
opuesto.
En nuestro ejemplo,
A= {c, d, g, h}
o
e
f d
g h
Au A= {a, b, c, d, e, f, g, h} =U
o
e
f d
g h
A n A= 0
o
e
f d
g h
Ejercicio 12
Una determinada población se distribuye del modo siguiente según nivel de renta y nivel de estu-
dios:
Tabla 8.
Total 38 24 18 80
Permutaciones
Un caso particular del principio multiplicativo es el que se da cuando calculamos el número
de permutaciones que podemos realizar con los elementos de un conjunto.
Una permutación es una determinada ordenación de todas las que se pueden hacer con
rodos los elementos de un conjunto. En cada una de estas ordenaciones entrarán todos los
elementos del conjunto considerado si n repetirse ninguno de ellos. En cada permutación,
para un conjunto de n elementos tendremos que cubrir n posiciones.
170 Estadística para la investigación social
Como la multiplicación es una operación conmutativa («el orden de los factores no altera
el producto»), también podemos expresar 11! de la siguiente manera:
11! = n · (n - 1) · (n - 2) · (11 - 3) · · · · · 4 · 3 · 2 · 1
Así, el número total de permutaciones de 11 elementos será:
pn = 11!
Son Jos modos posi bles de extraer sucesivamente los cinco elementos del conjunto
:irado.
Si aplicamos Ja regla multiplicativa de cálculo, el número de estos modos posibles es:
p5 = 5 . 4 . 3 . 2 . 1 = 5 ! = 120
·ariaciones
~i no queremos extraer todos los elementos (n) de un conjunto, sino sólo una parte de ellos
r), los modos en que podemos extraerlos se conocen como variaciones.
Si tenemos un conjunto de n elementos, a una ordenación de un número r de éstos Ja
llamamos variación de r elementos de un conjunto de n. (Está claro que r < n.)
Retomemos el ejemplo anterior. ¿Cuántas maneras tendremos de extraer 3 elementos del
"onjunto formado por {a , b, c, d, e}?
Tenemos 3 posiciones para cubrir[ ___]. En la primera posición podremos colocar cual-
quiera de Jos 5 elementos del conjunto. En la segunda, cualquiera de los 4 elementos restan-
ces. Y en la tercera, cualquiera de los 3 que nos quedan.
Aplicando el principio multiplicativo, el número de maneras de ordenar 3 elementos de
un conjunto de 5, es decir, el número de variaciones de 3 elementos de un conjunto de 5
erá:
V5 , 3 = 5 · 4 · 3 = 60
172 Estadística para la investigación social
Combinaciones
Como hablamos de las combinaciones en el cuerpo principal del texto [en el Apartado 2.2.l
no vamos a repetir aquí lo dicho. Simplemente recordaremos que una combinación no e.
una ordenación: es un subconjunto de elementos. En este caso no estamos ante extracione-.
sucesivas de los elementos de un conjunto, sino ante una extracción simultánea de un gru
de elementos de éste.
En nuestro. ejemplo anterior, la combinación «abe» es el conjunto constituido por 1 .
elementos {a, b, e}, lo que quiere decir que es la misma que la «acb», la «bca», la «bae>>.
«cba» o Ja «cab», ya que todas contienen los mismos elementos y el orden en que los colo-
quemos es indiferente, ya que estamos ante una extracción simultánea de todos ellos.
El número de combinaciones de n elementos tomados de r en r, esto es, el número ~
subconjuntos de r elementos que podemos extraer de un conjunto de tamaño n, decíam
que era:
e =
n · (n - 1) .. · .. (n - r
~~~~~~~~~~-
+ 1)
11 , r r!
Aquí hemos dicho, si consideramos nuestro ejemplo, que la variación «abe» era distinta
:e la «bea», la «bed» distinta de la «dbe», etc. Y el número de variaciones posibles de tres
::.ementos del conjunto de 5 {a, b, e, d, e} era:
V5 , 3 = 5 · 4 · 3 = 60
Como las variaciones que contienen los mismos elementos constituyen una sola combi-
ción (ya que el orden en las combinaciones es irrelevante), esta cifra (aplicando el princi-
- o multiplicativo a la inversa) la tenemos que dividir por el número de veces que se repiten
· ordenaciones que contienen los mi smos elementos, que, en este caso, son las permutacio-
que podemos formar con 3 elementos, y que son:
Distribuciones
de probabilidad
Consideramos aquí los grupos de edad como variables nominales, como conjuntos aisl -
dos entre sí que no se pueden segmentar y no como intervalos numéricos 3 . Podemos repre-
sentar estos datos con un diagrama de barras de la siguiente manera:
Gráfico 1.
Población de Soria en grupos de edad. Valores absolutos.
30.000
25.000
20.000
15.000
10.000
5.000
1
La fecha de referencia de este registro poblacional es 1/11/2001 , correspondiente al Censo de Población -
2001. Los datos desagregados (con la edad año a año) se pueden consultar en la página web del INE. También -
podemos encontrar agrupados de cinco en cinco años.
2
Para los cálculos nos resulta imprescindible cerrar el último intervalo, constituido por los mayores de 64.:::..
Soria había sólo 35 personas mayores de 100 años y, sin embargo, de 65 años había 1.108. Si consideramo
intervalo muy amplio, la representación nos distorsionaría la percepción adecuada de los datos , porque en el e -
mo derecho apenas tenemos casos. Así que optamos por fijar el extremo derecho de este último intervalo (de
gente de más edad) en la «esperanza de vida al nacer» en España en 2001, que es un valor medio para el conjunto
la población española y que está próxima a los 80 años: éste será, por lo tanto, el valor máximo que vamos a dar_
edad de la población soriana, 80 años. Los tratamientos de datos en la investigación social (o en cualquier
exigen multitud de decisiones de este tipo.
3
En este momento de desarrollo explicativo, aquí no podemos considerar la edad como una variable numé;:;¡
conti nu a para clasificar Ja población. Esto Jo haremos más adelante, cuando introduzcamos el concepto de «fun
de densidad».
Capítulo VII. Distribuciones de probabilidad 177
Tabla 2.
Grupos de edad de la población de Soria. Frecuencias relativas.
Edad Ír = P
Total 1,0000
Gráfico 2.
Grupos de edad de la población de Soria. Frecuencias relativas.
4
El supuesto experimento aleatorio que genera estas probabilidades consiste en la extracción (aleatoria, claro
está) de un indi viduo de la población. Ésta es la cuestión que interesa especialmente a la investigación social.
5
Hemos considerado este intervalo a efectos de cálculo como «de 65 a 80 años». Vid. Nota 2.
178 Estadística para la investigación social
1 1 (X - µ) 2
Es una distribución de datos numéricos continuos y se define por dos parámetros básicos
.:e ésta, que son, por otra parte, los que mejor resumen esta distribución continua de datos: su
edia (µ) y su desviación típica ((J) 6 . Más adelante hablaremos con más detalle de la distri-
_ución normal, ya que es un elemento central en la estadística teórica.
No hay que olvidar que el contexto en que hablamos de variable aleatoria y de distribu-
:ión/función de probabilidad es el de los «experimentos aleatorios». Y, por ello, Ja variable
~eatoria define Jo que en este contexto llamábamos «espacio muestra] ». Y los valores de
_ ta variable, evidentemente, formarán el «campo de sucesos posibles», cada uno de ellos
:on una detenrunada probabilidad de ocurrencia.
Y de igual modo que las variables pueden ser discretas o continuas así tendremos distri-
-uciones de probabilidad discretas y continuas.
En toda función de probabilidad p(x) se cumple lo siguiente:
l. La probabilidad que puede tomar un valor siempre estará comprendida entre O y 1:
O ~ p(x) ~ 1
6
Cuando trabajamos con muestras dis"tinguimos entre la distribución de la muestra y la de la población. Por
'510, x
a la media de Ja muestra la llamamos y a la de la población µ; mientras que a la desviación típica de la
::nuestra la designamos sx y a la de la población CJ. Como aquí tratamos datos poblacionales, la media de estos seráµ
u desviación típica CJ.
i=n
7
Si tenemos n valores x, tendríamos que escribir más correctamente: I p(x;) = 1. Esta es la suma de todos los
i=I
1/1» valores p(x) de la función . Las probabilidades de todos los valores del dominio (o espacio muestra! ) suman 1.
8
fes el símbolo que nos representa una integral, que es el equivalente a una suma, pero de valores continuos:
en esta ocasión, una suma de los valores p(x) de la función continua «p» que toman los intervalos infinitesimales de
i.llamados diferenciales de «X» (d<), que se encuentran dentro del intervalo del dominio (o espacio muestra!) de la
;Unción.
Si el dominio de la función «p » está definido entre «a» y «b» (a<x<b), entonces escribiremos I: p(x)dx= l.
encontrar entre todas las muestras o series de individuos extraídas de la población. La eda
media más probable de esta serie o muestra es lo que llamamos 'edad esperada' de esta serie
o muestra. Para encontrar este valor tendremos que tomar todas las series o muestras de
mismo tamaño que la nuestra (es decir, que contengan el mismo número de individuos), cal-
cular las medias de todas estas muestras y ver la de mayor frecuencia: ése será el «valor
esperado» de la edad en nuestra muestra. Y, como comprobaremos en el Capítulo VIII
(«Muestras estadísticas ... »), este valor es la edad media de la población. Se implican aqU!
tres distribuciones de datos: la distribución (de las edades) de la muestra, la distribución de
las (edades) medi as de todas las muestras y la distribucicín (de las edades) de la poblaciór.
total.
EJEMPLO 1
Si extraemos aleatoriamente dos individuos de la población de Soria [distribuida por ed2.-
des según la tabla 3] 9 , ¿cuál será el valor esperado de la edad en esta muestra?
Vamos a resumir los intervalos en su marca de clase'º. Nos quedará la siguiente tabl
Tabla 4.
Grupos de edad de la población de Soria . Distribución de probabilidad.
Edad X p
Menos de 20 años 10,0 años 0,1695
20-34 27,5 años 0,1999
35-49 42,5 años 0,2079
50-64 57,5 años 0,1542
65-80 72,5 años 0,2685
Total 1,0000
Las muestras de dos individuos que podemos obtener de esta población serían la
guientes:
10,0-10,0 27,5-27,5 42,5-42,5 57,5-57,5 72,5-72,5
10,0-27,5 27,5-42,5 42,5-57,5 57,5-72,5
10,0-42,5 27,5-57,5 42,5-72,5
10,0-57,5 27,5-72,5
10,0-72,5
9
En estadística social trabajamos siempre directamente con poblaciones finitas, que presen tan un número
terminado de casos, aunque normalmente suele ser un número muy elevado de ellos. Las variables numérica;
tipo continuo (o de tipo discreto con gran número de valores) las podemos estructurar en grupos significativos
nidos por intervalos de valores. Éste es el caso de la edad, tal como aquí se presenta. Es una manera de fu...
significativa la informació n. Al trabajar con datos agrupados o agregados consideramos los puntos medios de
intervalos como los valores que asumirán los casos en todo el intervalo. Los valores de cada intervalo, como h ·
mos visto en el Capítulo Ill, se resumen en su «marca de clase». Aquí tratamos ya la edad como variable cuantitat!' _
'º El primer intervalo, «menos de 20 años», tiene como valores extremos O y 20 años: su valor medi o --
(O+ 20)/2 = 10. Así calculamos todos los valores medios de los intervalos (sus marcas de clase).
Capítulo VII. Distribuciones de probabilidad 181
Ahora tenemos que ver cuál sería la edad media de cada una de las muestras, tenien-
do en cuenta que cada elemento de cada una de las muestras tiene distinto peso en la
población.
CUADRO l.
Edad media de las muestras de tamaño 2 extraídas de la población de Soria
(con la edad agrupada).
(10 + 19,47 + 27,9 + 32,63 + 48,31 + 27,5 + 35,15 + 40,56 + 53,3 + 42,5 +
+ 48,89 + 59,41 + 57,5 + 67,03 + 72,5)/15 = 42,84 años
El valor esperado de la edad en las muestras está muy próximo al valor medio de la
edad en la población.
Tomando la distribución de probabilidad de la población, tenemos que la media de la
población es
µ=IX. p = 10. 0,1695 + 27,5. 0.1999 + 42,5. 0,2079 + 57,5. 0,1542 + 72,5. 0,2685 =
= 44,36 años
Observamos que el valor medio de las edades medias de todas las muestras de tamaño
2 es muy próximo a la edad media de la población. Si hubiésemos cogido muestras más
grandes, aquel valor medio sería igual a la edad media de la población total.
11
Estamos ante una «media ponderada» de los dos valores de cada muestra.
182 Estadística para la investigación social
Si generalizamos esto, diremos que el valor esperado en una variable determinada parz
una muestra aleatoria cualquiera de una población es el valor medio de esa variable en !:.
población 12 .
E(X) = I X;· p(x;) [siendo X= {x 1, x 2 , x 3 , . .. ,X¡, ••. , xn}]
Como la probabilidad se puede entender como una frecuencia relativa
p(x;) = n;/N [siendo n; la frecuencia del valor X; y N el número total de casos]
tenemos que
12
Al valor esperado de una variable X también se le denomina «esperanza» (matemática) y se suele eser.
como E(X).
Capítulo VII. Distribuciones de probabilidad 183
emos visto, al calcular el valor esperado en una muestra, que hemos supuesto, al trabajar
:on variables numéricas (no nominales), todas las medias de todas las muestras posibles (de
determinado tamaño). La distribución de estas medias constituye la distribución mues-
-ral, que no hay que confundir con la distribución (empírica) de los datos en la muestra ni
:on la distribución (real) de los datos en la población. Más adelante, en el capítulo siguiente,
_~ tratará esto con mayor profundidad.
Cuando introducimos o suponemos el muestreo, automáticamente las distribuciones de
.::..ecuencias relativas de los datos (de una población o de una muestra) se nos convierten en
,.. tribuciones de probabilidad.
Pues bien, lo que tiene que quedar muy claro es la diferencia entre las distribuciones
~píricas (de los datos en la muestra o en la población) y las distribuciones teóricas supues-
que generan las medias de todas las muestras que podemos extraer de la población inves-
gada (en el caso de variables de tipo cuantitativo).
Estas segundas serán centrales en los procesos de investigación a través de muestras, que
- ta importancia tienen en el terreno político-social. Estas distribuciones teóricas son refe-
-encia obligada para contrastar distribuciones empíricas observadas en muestras y poder así
:onocer la validez de los datos observados en éstas (indicándonos hasta qué punto estos da-
se corresponden con los de la población de donde extraemos las muestras). Se utilizan
?<U"ª tratar cuestiones muy diversas de esta índole. Entre las más destacadas están la distribu-
:ión binomial, la normal, la t de Student, la Ji-cuadrado, la F de Fisher-Snedecor o la de
?oisson. Aquí sólo veremos algunas de ellas 13 .
Y aunque aquí nos vamos a centrar en algunas distribuciones teóricas que se generan con
el proceso muestra!, existe un elevado número de distribuciones teóricas a las que se ajustan
- aj o ciertas condiciones) múltiples fenómenos empíricos de procesos regulares.
La primera de las distribuciones teóricas que vamos a tratar (que nada tiene que ver con
el proceso de extracción de muestras) es la distribución uniforme.
4. Distribución uniforme
~ distribución uniforme es la más sencilla de las distribuciones de probabilidad: aquélla
en que la probabilidad se distribuye por igual en todos los casos o en todos los grupos de la
JOblación . No existen diferentes probabilidades para casos o grupos diferentes. Todos pre-
:entan la misma probabilidad de ser seleccionados.
Un ejemplo muy clásico de distribución uniforme continua de probabilidad es el que se
da cuando la duración del vuelo de un avión oscila entre 90 y 102 minutos para un determi-
nado trayecto, sin que sepamos a ciencia cierta cuál será la duración exacta de ese vuelo. En
- ualquier momento de esos 12 minutos que median entre los 102 (de duración máxima) y los
O (de duración mínima) puede llegar el vuelo a su destino: en todo ese intervalo de tiempo
encontramos la misma probabilidad de que esto suceda.
13
La lista de todas ellas es bastante amplia, y mu chas carecen de relevancia en la investigación social : Benford,
inomial, hipergeométrica, Rademacher, Zipf, Zipf-M andelbrot, Boltzmann, geométrica, logarítmica, Poisson, Ske-
llam, Yule-Sim on, Bose-Einstein, ji-cuadrado, F, Gamma, T-cuadrado, hiper-exponencial, Lévy, Pareto, logística,
normal , t de Studenl, Gamma, multinomial , etc.
184 Estadística para la investigación social
0,1
90 102
Du ración del vuelo
Dentro del intervalo considerado la probabilidad se distribuye por igual en todo él. En todc -
intervalo tomado en conjunto la probabilidad será, como no podía ser de otro modo, igual a l.
para cada unidad del intervalo (cada minuto) la probabilidad será de 1/(102-90) = 1/12 ~ O,CE
Por lo tanto, la probabilidad de que el vuelo tenga una duración de 97 minutos e --
0,083 (esto es, del 8,3%); y de que dure entre 90 y 95 minutos será de 5 · 1/12 = 5/12 ~ 0.-:
(del 42% ), ya que nos limitamos a un intervalo de 5 minutos.
La distribución de probabilidad acumulada tendría esta representación :
Gráfico 4.
Distribución uniforme continua acumulada.
1
0,5
100%
o~~~~~~~~~~~~~~-
90 102
Duración del vuelo
Una distribución puede no ser uniforme en todo el recorrido de la variable. Puede a \-~
serlo, si ésta es continua, en el interior de algunos o de todos los intervalos (grupos) de -
res en que puede presentarse la variable. En cada uno de estos intervalos la función :
continua de pendiente cero, es decir, mantendrá una probabilidad constante dentro de c -
intervalo.
Un ejemplo de este tipo de distribuciones, con sub-distribuciones continuas uniforrn
dentro de cada intervalo, dentro de cada grupo en que podemos dividir una población,
aquel con el que abríamos este capítulo: la distribución por intervalos de edad de los sori_
nos, utilizada con fines muestrales 14 .
14
Aquí ya tratamos la edad como variable cuantitativa.
Capítulo VII. Distribuciones de probabilidad 185
0,169S SI 0 <X< 20
0,1999 SI 20 ~X< 3S
p(x) = 0,2079 si 3S ~X< SO
0,1S42 si SO~ X< 6S
0,268S si 6S ~X< 80
Dentro de cada uno de los grupos, todos los casos presentan la misma probabilidad, pero,
_ mo en cada intervalo podemos encontrar infinitos casos 15 , la probabilidad de cada caso es
· -preciable: es un infinitesimal, algo muy muy próximo a cero. Por esta razón sólo pode-
atribuir probabilidad a intervalos dentro de los intervalos, nunca a un caso aislado.
Aquí introducimos el concepto de función de densidad. Los datos se representarán en un
-to grama de frecuencias relativas. Como los intervalos no tienen la misma amplitud 16 , para
~resentar adecuadamente los datos tenemos que calcular, como hemos visto en el Capítulo
· «Representaciones gráficas», la altura que daremos a los intervalos, ya que la frecuencia
-~ cada intervalo es equivalente al área que se levanta sobre él. La función de densidad de
- aestra distribución de probabilidad quedaría definida así:
0,169S/20 si 0 <X< 20
0,1999/lS si 20 ~X< 3S
f(x) = 0,2079/lS SI 3S ~X< SO
0,1S42/1S si SQ ~X< 6S
0,268S/1S si 6S ~X< 80
Gráficamente, su representación a través de un histograma sería ésta:
Gráfico 5.
Población de Soria según edad. Distribución de probabilidad continua.
0,02
0,018
0,016
0,014
0,012
0,01
0,008
0,006
0,1695 0,199 0,2079 0,1542 0,2685
0,004
0,002
o
o 5 10 15 20 25 30 35 40 45 so 55 60 65 70 75 80
Edad
15
O un número elevadísimo de éstos.
16
La «amplitud » de un intervalo es lo mismo que su «recorrido» o «rango»: la distancia entre los valores extre-
mos del intervalo.
186 Estadística para la investigación social
Esto quiere decir que, por ejemplo, la probabilidad de encontrar una persona de meno
de un año es de 0,1695/20, es decir, 0,0085, que sería la misma que la de encontrar alguien
de entre 1 y 2 años o de entre 13 y 14 años. Todos los intervalos de 1 año de amplitud dentro
del intervalo de menores de 20 años presentarán una probabilidad igual a 0,0085. Ésta sería
la unidad de probabilidad dentro de dicho intervalo. Así que si queremos calcular la probabi-
lidad de encontrar una persona de entre 10 y 15 años, es decir, que tenga más de 9 y meno_
de 16 años, tendremos que calcular la amplitud del intervalo, esto es 16-10 (o 15-9), es decir.
6 años, y, como cada año presenta una probabilidad de 0,0085, nos resultará 6 · 0,0085, esto
es, 0,051. Esto quiere decir que, según nuestra tabla de datos agregados, aproximadamente
un 5% de la población de Soria tiene entre 10 y 15 años: tenemos una probabilidad del 59é
de encontrar en la población soriana una persona de entre 10 y 15 años.
Ejercicio 1
El Gráfico 5 representa la función de densidad de la población de Soria según su edad en 2001 .
¿Cuál sería la probabilidad de encontrar un habitante soriano que tenga entre 35 y 44 años?
Ejercicio 2
La población española residente en viviendas familiares en 2011 se distribuye por edad según la
siguiente tabla:
Tabla 5.
Población española por edad en 2011.
Edad n
Total 42.001.208
Fuente: Censo de Población 2011. INE.
Por ejemplo, obtenemos una distribución uniforme discreta al lanzar un dado (no carga-
: todos los resultados posibles tendrán la misma probabilidad (1/6), igual que al lanzar una
neda (no cargada) al aire, en donde «cara» tendrá la misma probabilidad que «cruz» (1/2).
. lo que es lo mismo:
p(l) = 1/6 = 0,1667
p(2) = 1/6 = 0,1667
p(3) = 1/6 = 0,1667
p(4) = 1/6 = 0,1667
p(5) = 1/6 = 0,1667
p(6) = 1/6 = 0,1667
Gráfico 6.
Probabilidades de los resultados posibles al lanzar un dado. Distribución uniforme discreta.
0,2
0,15 - - - - - -
0,1
0,05
o 1 2 3 4 5 6
En el caso de la moneda:
p(cara) = 112 = 0,5
p(cruz) = 1/2 = 0,5
Gráfico 7.
Probabilidades de los resultados posibles al lanzar una moneda al aire.
Distribución uniforme discreta.
1
0,5
Cara Cruz
5. Distribución binomial
La distribución binomial es una distribución de tipo discreto que se genera en un experi-
mento compuesto de una serie sucesiva de «n» experimentos simples 17 en los que sólo cabe
esperar dos resultados distintos mutuamente excluyentes. Estos experimentos simples se lla-
man «experimentos de Bernoulli» y contamos con numerosos ejemplos de ellos: al tirar un
moneda al aire nos puede salir «cara» o «cruz», en un nacimiento podemos encontrarnos coG
«un niño» o «una niña», en un examen podemos «aprobar» o «suspender», etc. En este tip
de experimentos fijamos nuestra atención en uno de los (dos) resultados posibles, al que.
cuando se da, llamaremos «éxito». Cuando éste no se produzca hablaremos de «fracaso». A
la probabilidad de «éxito» la llamaremos p y a Ja de «fracaso » q. «Éxito » y «fracaso » so
complementarios, de tal manera que p + q = 1, por lo que p = 1 - q . Un experimento bino-
mial exige un número determinado de sucesos, independientes entre sí, y en donde la proba-
bilidad de éxito se mantenga constante en cada uno de ellos.
EJEMPLO 2
La probabilidad de que, en cada nacimiento de los que se producen en España, encontre-
mos una niña ($?) 18 es aproximadamente igual a 0,48 (p = 0,48). Esto quiere decir que
probabilidad de que no nazca una niña, es decir, de que nazca un niño (d'), es -:
1 - 0,48 = 0,52 (q = 0,52). ¿Cuál será la probabilidad de que nazcan 3 niñas en 5 na __
mientas? Tenemos aquí un experimento binomial compuesto de 5 sucesos, en los que e5-
peramos 3 éxitos y 2 fracasos. Uno de los resultados posibles será: S?S?S?d'd'. Otro : S?S?d'-~
Otro: S?d'S?S?d'. Y así hasta G) resultados posibles 19 . Cada uno de ellos, aplicando el prir:-
cipio multiplicativo, ya que Jos sucesos son independientes, tiene una probabilidad -
0,48 · 0,48 · 0,48 · 0,52 · 0,52 = 0,48 3 · 0,52 2 . Por lo tanto, la probabilidad de que, en 5 Il:!:
cimientos sucesivos, nazcan 3 niñas y 2 niños en España será:
5 5 5 4
). o48 3 . o 522 = ! . o 11 . o 27 = . . o 0297 = o' 297
(3 ' ' 31. (5 - 3)! ' ' 2 '
17
Estos «experimentos si mples» en distintos manuales son llamados también «pruebas», «ensayos», «intent
o senci llamente «sucesos simples».
18
Sobre la base de los nacimientos producidos en 2008 en España, según la estadística del Movimiento Na
de la Población del INE. En 2008 nacieron en España 250.911 niñas y 268.056 niños.
19
Estos resultados posibles (10) son los siguientes:
(Para evitarnos cálculos existe una tabla en donde se recogen las probabilidades «p» de
20
x» éxitos en un conjunto de «n» sucesos. Pero no la vamos a utilizar aquí .)
La distribución de probabilidad que nos definirían los resultados «niña» de cinco naci-
.entos en España sería la siguiente:
Tabla 6.
Niñas nacidas en cinco nacimientos. Distribución binomial.
[n.º de éxitos] [probabilidad]
X p(x)
X= {ningún éxito, 1 éxito, 2 éxitos, 3 éxitos, ... , x éxitos, ... , (n - 1) éxitos, n éxitos}
Y las probabilidades asociadas a cada uno de estos resultados se reflejan en esta tabla:
Tabla 7.
Forma general de la distribución binomial.
[n .º de éxitos] [probabilidad]
X p(x)
o (~}pº. qn
1 G}pl · qn -1
2 G}p2. qn -2
3 G}p3 ·qn-3
20
Esta tabla aparece en numerosos manuales de estadística. Como se limita a muestras muy pequeñas y a pro-
babilidades fijadas de éx ito muy concretas no la vamos a reproducir aquí. Si bien esta tabla tenía utilidad hace
tiempo, como las tablas de logaritmos, hoy día se ve reemplazada por las herramientas de cálculo que están al
al cance de cualquiera: por ejemplo, con Excel de Office o con Cale de Openüffice podemos calcular directamente
una probabilidad binomial para cualquier número de sucesos y para cualquiera probabilidad de éxito.
190 Estadística para la investigación social
Tabla 7. (Continuación)
n- 1
Ésta será la forma general de una distribución binomial de probabilidad 21 , con n suce
independientes, x éxitos y una probabilidad de éxito p en cada uno de los sucesos.
Como es obvio, no existe una única distribución binomial de probabilidad. Para cae...
número de sucesos que fijemos (n) y para cada probabilidad de éxito (p) en cada uno ~
estos sucesos tendremos una distribución binomial distinta. Cada distribución binomial "'
determinada por estos dos parámetros: n y p.
21
Esta distribución se describe por los ténninos del desarrollo de un binomio de Newton (p + q)". Los c -
EJEMPLO 3
Aquí tenemos para 3 sucesos (n = 3) las distintas probabilidades (en columna) de los po-
sibles éxitos (0, 1, 2 o 3) (en fila), conociendo la probabilidadp de obtener un éxito en un
suceso. Para cada valor de p tendremos un gráfico distinto. Aquí hemos dado a p los valo-
res 0,2; 0,5 y 0,8. Podríamos haberles dado cualesquiera otros.
Gráfico 8.
Ejemplos de distintas distribuciones binomiales para experimentos de 3 sucesos.
a) n = 3 ; p = 0,2 b) n = 3 ; p = 0,5 e) n=3; p=0,8
0,6 0,6 0,6
o o o
o 1 2 3 o 1 2 3 o 1 2 3
El valor medio de una distribución binomial, como mostraremos más adelante, es igual
n· p.
µ = n·p
Cada línea representa los coeficientes de una distribución binomial , coeficientes que corresponden con estos
- úmeros combinatorios:
3 3
4 6 4
1 ª) (n) X
= ( n )
11 - X
2
-") C)+C: l)=C: :)
Ya que observamos que G) G) G)
+ = G) G) G) + =
etc.
192 Estadística para la investigación social
(/=n·p·q
Ejercicio 3
Un opositor es convocado el mismo día para dos oposiciones distintas. En la oposición A de nivel
medio hay cinco plazas a cubrir y en la oposición B de nivel superior hay nueve plazas. El aspi-
rante no sabe bien a cuál presentarse. Observa las estadísticas de convocatorias anteriores y
aprecia que en la oposición A el porcentaje de éxito está en torno al 25%. La oposición B es más
difícil y el éxito alcanza sólo un 15%.
Con esta información ¿cuál será la elección más ventajosa?
EJEMPLO 4
Veamos más ejemplos de distribuciones binomiales. En este caso contamos con distribu-
ciones de 10 sucesos y con distintas probabilidades de éxito en cada suceso (0,1; 0,3; o,.:
0,7 y 0,9).
Gráfico 9.
Ejemplos de distintas distribuciones binomiales para experimentos de 10 sucesos.
a) n = 10 ; p = 0,1 b) n = 10 ; p = 0,3
o 1 2 3 4 5 6 7 8 9 10 012345678910
e) n = 10 ; p = 0,5
0,4 - - - - - - - - - - - - - -
0,3 + - - - - - - - - - - - - - -
0,2 +----------'"'---~-----
o 2 3 4 5 6 7 8 9 10
04-----~___..-=---"-'--'-'--''---'--"-'-
012345678910
0 +----------~
o 1 2 3 4 5 6
....
7
--'-~-----
8 9 10
Capítulo VII . Distribucion es de proba bilidad 193
X n p
Hemos reducido la edad de la población, que era, originalmente, una variable cuantitati-
va (numérica) a una variable cualitativa (nominal), y de polinorninal (con numerosas catego-
rías) la hemos convertido en binominal (que cuenta con sólo dos categorías clasificatorias).
En este caso, el estadístico resumen de la distribución, equivalente a la media, es el peso
específico en la población del grupo que nos interesa, definido por el valor marcado positi-
194 Estadística para la investigación social
vamente en la «dicotornización»: en este caso el «de 65 años y más». Este peso viene dadc
por su frecuencia relativa, es decir, por su proporción (p), que en este grupo es igual ~
0,2685.
Si en la extracción de una muestra nos aparece un individuo «de 65 años y más », defini-
mos esto como un éxito (marcado con un 1) y si no nos aparece hablamos de fracaso (marca-
do con un O).
Tabla 9.
X p(x)
{O, O, O} 0,7315. 0,7315. 0,7315 = 0,3914
{ 1, O, O} 0,2685. 0,7315. 0,7315 = 0,1437
{O, 1, O} 0,7315. 0,2685. 0,7315 = 0,1437
{O, O, 1} 0,7315. 0,7315. 0,2685 = 0,1437
{l,1,0} 0,2685 · 0,2685 ·O, 7315 = 0,0527
{1,0,1} 0,2685 ·O,7315 · 0,2685 = 0,0527
{O, 1, 1} 0,7315 ·0,2685 ·0,2685 = 0,0527
{], 1, 1 } 0,2685. 0,2685. 0,2685 = 0,0194
Tabla 10.
X¡ p¡
o 0,3914
1 0,4311
2 O, 1581
3 0,0 194
22
Tras un proceso de binomialización, en donde fijamos nuestra atención en los individuos que presentan u
determinada característica, esto es, en donde sólo nos interesa un grupo de la población, y su peso relativo en és
llamamos pala probabilidad de extraer al azar uno de los individuos del grupo que nos interesa del conjunto de L
población (de tamaño N).
Al extraer una muestra de tamaño n de la población, llamaremos <<X;» (siendo, claro está, i ~ 11) al número de
miembros de la muestra que pertenecen al grupo que nos interesa y «p¡» a su probabilidad.
Como normalmente también llamamos «n>> (n;) al n. 0 de casos en los que se repite un valor (x;) en la poblaciób.
hay que tener cuidado de no confundir esa «11 » con la «fl » que aquí, en el proceso de extracción de muestras de Un:?
población binomializada, se utiliza.
Capítu lo VII. Distribuciones de probabilidad 195
Tabla 11.
X¡ p¡
El número medio de individuos «de 65 años y más» que podemos extraer (al azar, siem-
?"e al azar) en una muestra de 3 sorianos será el siguiente:
n · p · (1 - p) = n · p · q
Hay que tener claro que lo que se está viendo aquí es la generación de una distribución
;nuestra! de tipo binomial. Lo que nos interesa es ver cómo se distribuye (en términos de
robabilidad) la proporción de una determinada característica en un conjunto de muestras de
:m determinado tamaño.
Esto nos lleva a poder plantearnos cuestiones de este tipo: de todo el conjunto de mues-
rras de tamaño «11», ¿en cuántas de ellas --en qué proporción de ellas- encontraremos «X»
individuos con una determinada característica que tiene una probabilidad «p » de presentarse
en un individuo de la población?
Así, en el caso que veníamos siguiendo más arriba, podemos preguntar por la proporción
de muestras de tamaño 3 en las que encontraríamos, por ejemplo, 2 «mayores de 64 años ».
Y, por lo que vemos, en el 15,81 % de las muestras de 3 elementos podemos encontrar 2
«mayores» .
23
En nuestro ejemplo, con una muestra de 3 elementos, tenemos que n. · p = 3 · 0,2685 = 0,8055 .
196 Estadística para la investigación social
Ejercicio 4
En 2012 las empresas españolas se distribuían según el número de asalariados del siguiente
modo :
Tabla 12.
Empresas españolas según el número de asalariados en 2012.
N. º de asalariados n
Sin asalariados 1.764.987
De 1a9 1.288.390
De 10 a 49 122.183
De 50 a 99 12.700
Más de 100 11.357
Total 3.199.617
Fuente: Directorio Central de Empresas. INE.
a) Si tomamos una muestra aleatoria de 20 empresas ¿cuántas de ellas esperamos encontrar
sin asalariados?
b) ¿Y en una muestra de 1000 empresas?
c) Calcule la probabilidad de que en una muestra de 15 empresas aparezcan 2 que tengan entre
1O y 49 asalariados.
d) Calcule la probabilidad de que en una muestra de 1O empresas aparezcan al menos 7 que
tengan entre 1 y 9 asalariados.
e) Calcule la probabilidad de que en una muestra de 1O empresas aparezcan al menos 6 con
menos de 1o asalariados.
f) Calcule la probabilidad de que en una muestra de 1O empresas aparezcan 3 que tengan entre
1 y 49 asalariados.
g) Calcule la probabilidad de que en una muestra de 7 empresas, como mucho 2 tengan entre 1
y 49 asalariados.
6. Distribución normal
La distribución normal es Ja distribución teórica más usada en estadística y no sólo porqu=
múltiples conjuntos de datos (errores de medida, diversas informaciones biométricas, socia-
les, etc.), puedan ajustarse a ella, sino porque, como veremos en el capítulo siguiente, e5:
clave en la estadística inferencia!. Toda distribución de las medias de un conjunto de mues-
tras de cierto tamaño se aproxima a una distribución normal. Toda distribución muestra! =
medias se aproxima a la normal.
Ésta es una distribución teórica continua que se obtiene a partir de la función siguiente
1 ) (X - µ) 2
f (x) = ¡::;:__ e 2 a Vx E IR
CJ -y2n
Como e y n son dos números (e= 2,7181...; n = 3,1415 ... ), dos constantes matemátic
trascendentes, f (x), aparte del valor variable de x, depende de la media de todos los valore$
Capítulo VII. Distribuciones de proba bili dad 197
- lJl) y de su desviación típica o estándar (a). Cada distribución normal depende de estos dos
::arámetros (su media y su desviación típica) : fijados estos, podemos conocer el valor de la
_-IDción f (x) para cada x. Aquí esto es lo único que necesitamos saber.
Así tenemos distintas distribuciones normales que, con la misma media, presentan distin-
desviaciones típicas. Estos son algunos ejemplos:
Gráfico 10.
Distribuciones normales con distintas desviaciones típicas.
0,6
- - µ=O a=l,75
0,3
0,2
0,1
-4 -3 -2 -1 o 1 2 3 4 5
Y otras tantas que, con la misma desviación típica, tienen distintas medias. Y estos son
otros cuantos ejemplos de estas:
Gráfico 11 .
Distribuciones normales con distintas medias.
0,45
., .
0,4 ... •• •• · •• µ=-1 a=l
0,35 1
. \
- - µ=O a=l
- - - - µ=1 a=l
0,3
. - - µ=2 a=l
0,25 .
0,2
0,15
r
-4 - 3 -2 -1 o 1 2 3 4 5
198 Estadística para la investigación social
Se pueden dar infinidad de ellas más, con distintas medias y distintas desviacione:
típicas .
Los datos que corresponden a estas distribuciones son, obviamente, cuantitativos y conti-
nuos.
Todo el área que define una función normal con el eje de abcisa (X), como en toda frnr
ción de probabilidad, equivale a 1.
Gráfico 12.
Probabilidad entre los valores " ~' y «b >.
a b
Para esto contamos con una tabla que nos permite calcular esta probabilidad.
Capítulo VII. Distribuciones de probabilidad 199
Para esto transformamos los valores x en unidades Z. Como ya hemos visto en el Capítu-
IV (medidas de resumen) , los valores Z los utilizamos para localizar de manera relativa
da valor en la distribución en la que se encuentra, permitiendo la comparación entre valo-
= de distribuciones distintas. Lo que hacemos es establecer en cada distribución la distan-
:ia de cualquier valor x a Ja media (µ) y medir esta distancia en unidades de desviación
'pica o estándar (a).
x-µ
Zx = - -
a
A cada valor x de la distribución le corresponderá un valor z24 , que nos dirá a cuantas
::nidades de desviación típica se encuentra de la media. Lo que nos permitirá establecer las
;x>siciones relativas de esos valores en el seno de sus poblaciones y poder comparar, por
::jemplo, posiciones de valores idénticos en poblaciones con distintas medias y distintas des-
iaciones típicas. Esto lo podemos hacer con cualquier variable (cuantitativa y continua) tan-
-o si se distribuye normalmente como si no. Si una distribución continua la convertimos en
·alores Z, decimos que Ja estandarizamos. Y al estandarizada, su media se nos convierte en
y su desviación típica en 1.
Media de una distribución estandarizada (en unidades Z):
µ-µ o
Zµ =--=-=0
a a
Desviación típica de una distribución estandarizada (en unidades Z):
a-µ a-O a
zi5 = - - = - - = - = 1
a a a
Así obtenemos la distribución normal estandarizada, con media O y desviación típica 1, y
u aremos su función de densidad (intervalar) para calcular Ja probabilidad de un intervalo de
Yalores en el seno de una distribución normal cualquiera. Para ello estandarizaremos (en uni-
dades z) los valores extremos del intervalo considerado.
24
Este valor Z será positi vo si x original es mayor que la medi a µ, es decir, si se encuentra a su derecha en la
recta real (µ < x). Y será negati vo si el valor x es menor que la media, es decir, si está a su izquierda (x < µ).
200 Estadística para la investigación social
Gráfico 13.
Área entre O y Z
z
Sabemos que entre la media y uno de los extremos se encuentra el 50% de los casos, y
que toda la distribución cubre el 100%. En probabilidades tendríamos que hablar de 1 (e
vez de 100%) y de 0,5 (en vez de 50%). Pues bien, en la susodicha tabla se registra la proba-
bilidad de encontrar cualquier valor entre O y Z en una población normal. La reproducimo:
al final del libro con nombre de «Tabla Z» y en el Cuadro 2. Veamos a través de un ejemple
cómo hacer uso de ella.
EJEMPLO 5
Las edades de fallecimiento en España se distribuyen casi normalmente. Quitemos el caS!
y supongamos que se distribuyen ajustándose perfectamente a una función normal. L.:
edad media con que se fallece en España es de 80 años. ¿Cuál será la probabilidad de q ~
alguien fallezca entre los 80 y los 85 años? Nos hará falta saber la desviación estándar
típica de la edad de fallecimiento: vamos a suponerla de 6 años 25 • Lo primero que hace-
mos es calcular las unidades Z que hay entre 80 (el valor medio) y 85 (el valor que debe-
mos transformar en unidades Z).
85 - 80 5
Z85 =
6
= 6 ;: :; 0,83
Nos vamos a la tabla. Aquí encontramos el valor Z que corresponde a 85 años: O, :
Buscamos 0,8 en la columna de Z y 0,03 en la fila de Z (0,8 + 0,03 = 0,83). Y lacas·
en la que se cruzan nos indica la probabilidad de encontrar un valor comprendido entre
media (80 años) y 85 años, es decir, traduciendo a unidades Z, entre el valor Z = O y~
valor Z = 0,83.
25
Esta desviación no se corresponde con el va lor empírico real: es tan solo un supuesto de ejercicio.
Capítulo VII. Distrib ucione s de pro babili dad 201
CUADRO 2 .
Tabla Z: Probabilidades en la distribución normal estándar.
o 0,0000 0,0040 0,0080 0,0120 0,0160 0,0 199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 O, 1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,288 1 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3 186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1 0,3413 0,3438 0,346 1 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1, 1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
La probabilidad buscada es de 0,2967. Esto quiere decir que el 29,67% de los españo-
les muere entre los 80 y los 85 años.
202 Estadística para la investigación social
Gráfico 14.
Área entre Z = O y Z = 0,83. Porcentaje de hombres que mueren entre los 80 y los 85 años.
0,5
0,4
0,3
0,2
O, 1
o
o 0,83
Observando la tabla podemos ver que entre la media y una unidad de desviación típi _
(lZ) se encuentra el 34,13 % de los casos. Y que entre la media y dos unidades de desviació-
típica (2Z) encontramos el 47,72% de ellos. Y entre la media y tres unidades de desviació
típica (3Z) se encuentra prácticamente el 50% de los casos (49,87%).
Gráfico 15.1
Distribución normal. Porcentaje de casos entre O y Z (µ + o-).
0,5
0,4
0,3
0,2
0,1
-2 -1 o 2 3
Capítulo VII. Distribu cio nes de probabili dad 203
Gráfico 15.2
Distribución normal. Porcentaje de casos entre O y 2Z (11 + 2u).
0,5
0,4
0,3
0,2
0,1
o
- 3 -2 -1 o 2 3
Gráfico 15.3
Distribución normal. Porcentaje de casos entre O y 3Z (µ + 3u).
0,5
0,4
0,3
0,2
0,1
o
-3 -2 -1 o 2 3
Como la distribución es perfectamente simétrica, la tabla vale también para valores si-
tuados a la izquierda de la media, es decir, para valores Z negativos .
204 Estad ística para la investigación social
Gráfico 16.
Área entre - Z y O.
-z o
Por lo que podemos decir, si tomamos valores a izquierda y derecha de la media, que.
dentro de una distribución normal estandarizada, en el intervalo [ - Z: + Z] se encuentra e
68 ,26% (34,13% + 34,13 %) de los casos.
Gráfico 17.
Área entre - Z y + Z.
-Z o z
Así, en toda distribución normal, entre la media y más/menos una unidad de desviación
'pica se encuentra el 68,27% de los casos. Entre la media y más/menos dos unidades de
_esviación típica, el 95,45 %. Y entre la media y más/menos tres unidades de desviación típi-
:a encontramos el 99,73%.
68,27%
95,45%
99,73%
Gráfico 18.
Área entre - 1,96Z y + 1,96Z
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
o
-1,96Z o 1,96Z
26
En este caso haríamos el proceso inverso: de la probabilidad a las unidades Z. Buscaríamos en el interior de
la tabla (hay que tener en cuenta que ésta sólo abarca la mitad de la distribución) 0,950012, esto es, 0,4750, que es la
probabilidad que correspondería a Z = 1,96.
27
Del mismo modo buscarnos en el interior de la tabla 0,9900/2, esto es, 0,4950, y vemos que es la probabili-
dad que corresponde a Z = 2,58. (En la tabla tenemos 0,4949 para Z = 2,57 y 0,4951 para Z = 2,58.)
206 Estadística para la investigació n socia l
EJEMPLO 6
Sigamos con las edades de fallecimiento de los españoles. Tenemos una distribución n --
mal con media 80 años y desviación típica 6. ¿Cuál será en España la probabilidad q ~
presenta una persona de fallecer entre los 70 y los 75 años?
Antes habíamos calculado la probabilidad entre la media y un valor de la distribució-
Ahora la calcularemos entre dos valores cualesquiera de una distribución normal.
Lo primero que haremos será estandarizar las edades, es decir, transformarlas en un:-
dades Z.
70 - 80 -10
z60 = 6
6
- 1,67 sería el valor Z que corresponde a los 70 años
75 - 80 -5
0o = 6 6
- 0,83 sería la Z que corresponde a los 75 años
Gráficamente, tenemos que calcular el área marcada entre -1,67 y -0,83 (entre
valores z que corresponden a los 70 y 75 años, respectivamente), puesto que dicho"'""
nos dará la probabilidad que buscamos.
Gráfico 19.
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
o
-1 ,67 -0,83
Cap ítulo VII. Dist ri buci on es de proba bilidad 207
Para poder hallar este área, con la información de la tabla de la distribución normal
estándar, hemos de encontrar:
Gráfico 20.1
Área entre - 1,67 y O.
- 1,67 o
Gráfico 20.2
Área entre - 0,83 y O.
- 0.83 o
208 Estadística para la investigación socia l
Gráfico 20.3
Area entre - 1,67 y - 0,83.
-1 ,67 -0,83
Habíamos dicho que la tabla, al ser simétrica la distribución, vale tanto para la mi -
derecha de ésta (con valores Z positivos) como para la mitad izquierda (con valore =
negativos). Así que buscamos el área que corresponde a Z = 1,67, que aparecerá en
celda donde se cruza la columna 1,6 con la fila 0,07): 0,4525. Esto quiere decir que en =
los 70 (Z = 1,67) y los 80 años (Z = O) fallece el 45,25 % de los españoles.
Hacemos lo mismo con el valor Z correspondiente a los 75 años. Ese Z es - 0,83 . &.
la tabla buscamos 0,83, ya que el área que va de O a 0,83 es el mismo que el que va ..::~
- 0,83 hasta O. Para este valor Z tenemos un área de 0,2967. Es decir, que entre los 75
los 80 años fallece el 29,67 % de los españoles.
Entre los 70 y los 75 años fallecerá el 45 ,25 % - 29,67 % = 15,58 %. Tendremos,
tanto, una probabilidad de que alguien en España fallezca entre los 70 y los 75 año -
0,1558 (ya que la probabilidad se suele medir en tantos por uno).
Ejercicio 5
Según datos del INE, en 2011 la edad media de las mujeres españolas al nacimiento de su --
mer hijo es de 30 años, siendo la desviación típica de 5,5 años. Calcule la probabilidad de q_=
una mujer tenga su primer hijo:
a) A partir de los 33 años.
b) Antes de los 25 años.
e) Antes de los 32 años.
d) Entre los 28 y los 37 años.
En los ejemplos anteriores hemos utilizado la variable edad. En este texto la vari -
edad se toma en años cumplidos. Así, cuando decimos que una persona tiene 16 años ,
Capítulo VII. Distri bu ci ones de probabilidad 209
mos hablando del intervalo entre (16 :::;; x < 17). Si a partir de los datos del Ejercicio 5,
quisiéramos conocer la probabilidad de maternidad a los 24 años, calcularemos el área que
nay entre los valores 25 (límite superior) y 24 (límite inferior).
X - µ 25 - 30
z25 = -- =
(} 5,5
= -091
,
x-µ 24 - 30
Z24 = -- --=-1,09
Cl 5,5
x-µ 17,5 - 12
Z175. = -(}- --2,-5- = 2,2
x-µ 18,5 - 12
Z1 s5
. =-
a- --2-,5--= 2,6
(x + 0,5) - µ
P(µ :::;; X < 13) = (}
= Z x+ O5
'
En nuestro caso:
(13 + 0,5) - 12
Z x+o.5 = 25 = 0,6
'
El área asociada es: 0,2257. De forma que el área por encima de Z 13 _5 = 0,5 - 0,2257 = 0,2743.
Es decir, el 27,4% de los vecinos del municipio recorren más de 13 km en sus desplaza-
mientos.
210 Estadística para la investigación social
(x - 0,5) - µ
P(lO <X:'(µ) = a
= z r-0.5
-
(10 - 0,5) - 12
z x-os = =-1,0
, 2,5
El área asociada es: 0,3413. De forma que el área por debajo de Z9 ,5 = 0,5 - 0,3413 = 0,158-
Es decir el 15,9% recorren menos de 10 km en sus desplazamientos.
Cuando trabajamos con distribuciones de probabilidad, sumamos o restamos 0,5 al val
(x) para delimitar el intervalo al que se refiere el valor. Esta operación se denomina correc-
ción de continuidad.
Ejercicio 6
En una determinada Comunidad Autónoma el tiempo medio de espera para la primera consulta
en el servicio de dermatología es de 50 días, con una desviación típica de 1O días:
a) ¿Cuál será la probabilidad que tiene un paciente de esperar entre 30 y 40 días para ser aten-
dido?
b) ¿Qué porcentaje del total de pacientes tendrá que esperar menos de 45 días?
En el caso de que nos interese cómo se distribuye una proporción en el seno de una de
_-tas distribuciones, cosa que ya hemos visto anteriormente, observaremos una de tipo bino-
:aial.
Aquí vamos a ver cómo a medida que el tamaño (n) de la muestra se hace más grande, la
.:· tribución binomial que se genera se acerca a una distribución normal. Si tenemos una
inomial con muestras de tamaño n, en donde debemos obtener x elementos con una deter-
::ninada característica, que presentan cada uno de ellos una probabilidad p de tenerla 28 , la
-ormal a la que se aproxima tiene una media «np» y una desviación típica 29
. Esto «¡;¡;q»
_- así si <<p» no es una probabilidad extrema (próxima a O o a 1). Generalmente podemos
:u tituir una binomial por una normal cuando np > 5.
Veamos esto a través de un ejemplo.
EJEMPLO 7
Sabemos que el 47 % de la población española residente en viviendas familiares está casa-
do. ¿Qué probabilidad tenemos de encontrar 3 casados en una muestra de 5 individuos?
Estamos en un caso en que utilizaremos la distribución muestra! binomial. Tenemos
una distribución en donde 11 = 5, x = 3 y p = 0,47.
5) 3 51
0,53 2 = -·-·O, 1038 · 0,2809 = 10·O,1038 · 0,2809 = 0,2915
p(3) =
(3 · 0,47 ·
3! ·2!
28
Esto equivale a « n>> sucesos, «X» éxi tos y probabilidad «P » de éxito en cada uno de los sucesos.
29
Recordemos que q = 1 - p.
212 Estadística para la investigación social
tenemos que
2,5 - 2,35 0,15 3,5 - 2,35 1,15
z2 5 = =- =o 12 y Z:i.
5 = 1 25 = 1 25 = 0, 92
· 1,25 1,25 '
' '
A continuación nos vamos a la tabla de la normal (Tabla Z). Y vemos las áreas entre C
y 0,12 y entre O y 0,92. Después calculamos la diferencia entre esas áreas. Y esa será L
probabilidad que buscamos.
Al valor Z = O, 12 le corresponde una probabilidad de 0,04 78.
Al valor Z = 0,92 le corresponde una de 0,3212.
La diferencia entre ambas, que es la probabilidad que buscamos, es de 0,2734. Y e -
valor está muy próximo a 0,2915, que es el resultado que obteníamos en la distribució-
binomial.
En una muestra de mayor tamaño hubiésemos obtenido una aproximación mue
mayor. Cuando n · p > S o cuando n > 30 (siempre que p no tome un valor muy extre-
mo), la binomial se ajusta a la norrnal.
(4 - 0,5) - 2,35
------=092
1,25 '
El área asociada a Z = 0,92 es: 0,3212, luego la proporción de que haya más de . . . _
casados es 0,5 - 0,3212 = 0,1788. El 17,9% cifra muy próxima al valor que resulta de
distribución binomial. Como se puede apreciar hemos empleado la corrección de con ·
dad y hemos considerado como «mayor de 3», a los valores superiores a 3,5.
Si no hubiéramos tenido en cuenta dicha corrección y hubiéramos supuesto x = 4, la
babilidad obtenida hubiera sido p = 0,0934, es decir un 9,3%, valor que está muy alejado
que resulta de la binomial.
Ca pítulo VII. Distribuciones de probabilidad 2 13
. Distribución t de Student
~ distribución t de Student es otra de las utilizadas en investigación social: nos sirve para
cer inferencias sobre la media poblacional a partir de la media de la muestra cuando se
iesconoce la desviación típica de la población. Es una distribución de valores t, que se obtie-
en a través de la transformación siguiente:
x-µ
t=----
sxf~
Es una distribución muestra!: una distribución de las medias de las muestras de tamaño
30
n» que podemos extraer de una población (que se supone norma! , de mediaµ) . Para cada
:nuestra, resumida en su media (x) y su desviación típica (sx), tenemos un valor t.
Como puede comprobarse en el Gráfico 21, la distribución de Student es una distribución
ociada a la normal. Cuando n tiende a infinito, es decir, cuando n se hace cada vez más
grande, esta distribución se aproxima bastante a la normal. Visto de otra forma también po-
demos decir que cuando n, es decir, el tamaño de la muestra, es muy pequeño, la distribución
muestra] de las medias no se ajusta a una distribución normal sino a una t de Student. En
definitiva, la distribución t no es otra cosa que una distribución normal corregida 31 .
La distribución t tiene una forma muy similar a la normal cuando el tamaño de las mues-
a-as es relativamente grande. Es continua y da Jugar a una curva de forma acampanada algo
más aplanada. La forma depende sobre todo de «n». Si el tamaño de la muestra es muy pe-
queño, la curva t será muy aplanada. Y cuando aquel es grande 32 , la curva t se aproxima
bastante a la normal.
El área que cubre la curva, que equivale a la suma de las probabilidades de todos Jos
valores, es igual a 1, como en toda distribución de probabilidad.
Hay una distribución t distinta para cada tamaño muestra! «n». Hablamos en este caso de
«grados de libertad», que serán siempre «n - 1», y que están asociados al cálculo de la
desviación típica de la muestra. Para calcular esta nos servimos de una ecuación que vincula
los n valores de X a su media (X), que, como recordamos, es la siguiente:
30
Suposición ineludible cuando el tam año de la muestra es muy pequeño.
31
Corregida por los grados de libertad con que contamos. Vid. nota 35 sobre el concepto de grado de libertad.
32
En muchos manuales se sostiene, algo arbitrariamente, que si n > 30 entonces la distribución norm al puede
sustituir a la l. Pero podemos dar este lím ite por bueno.
2 14 Esta d íst ica para la investigación soci a l
Gráfico 21.
Distribución t de Student para varios grados de libertad (v).
0,45
v= l
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
o
-3 -4 -3 -2 o 1 2 3 4
33
El concepto de grado de libertad resulta complejo de ilustrar. Los grados de libertad de una ecuación
número de valores (variables) que podemos elegir libremente dentro de ella. Por ejemplo: supongamos la sigui
ecuación con dos variables:
a+ b = 14
¿Qué valor puede tomar «a » que verifique la ecuación? Dentro de los números reales puede tomar infinid ~
valores. Pero si fijamo s el valor de «b» , entonces «a» sólo puede tomar un valor, que ya viene determinado por
Por ejemplo, Si b = 2, entonces a= 14 - 2 = 12. Y si b = 10, entonces a= 4. Como «a», en esta ecuació-
dos incógnitas (de dos valores variables), sólo depende del valor de «b » , decimos que esta ecuación tiene un ~
de libertad. Si tuviésemos 3 valores variables, la ecuación tendrá 2 grados de libertad. Si tuviésemos n variabl
ecuación tendría entonces /1 - 1 grados de libertad.
Para calcular una media de, por ejemplo, tres elementos, es decir, de un conjunto de tamaño 3, ¿cuánto s~
de libertad tenemos ?
Capítulo VII. Distribuciones de probabilidad 215
Para el cálculo de las probabilidades en esta distribución se utiliza una tabla que se lee de
:nuy distinta manera a cómo se leía la tabla de la normal. Aquí encontramos una distribución
· distinta para cada tamaño de la muestra.
En esta tabla los valores t los encontramos en el interior, en el cuerpo de la tabla. En los
:nárgenes aparece la proporción de las medias de las muestras de un determinado tamaño n,
e decir, la proporción de los casos que para un determinado número de grados de libertad
n - 1) encontramos entre más/menos un valor t alrededor de la media de la población, valor
ue aparece en el interior de la tabla. La tabla, que la encontramos al final del libro como
Tabla T. Distribución t de Student», la reproducimos en el ejemplo siguiente.
EJEMPLO 8
Supongamos que queremos encontrar el valor t que marca el intervalo alrededor de la
media de la población (µ ± t) donde se encuentra el 95% de las medias de todas las
muestras de tamaño 20 que podemos extraer, es decir, donde se encuentra el 95 % de los
casos de la distribución.
Para esto buscamos en Ja tabla el punto donde se cruzan la columna del 95% y la fila de
los 19 grados de libertad (gl) (20 - 1 = 19). Ese punto nos da el valor t buscado [2,093].
También podemos realizar el ejercicio inverso: calcular qué porcentaje de casos se
encuentran, por ejemplo, entre ± lt alrededor de la media de la población, en muestras de
tamaño 6. Para ello tenemos que realizar interpolaciones, lineales, a partir de las que sólo
podremos obtener un porcentaje aproximado.
Para encontrar este porcentaje nos vamos a la fila de 5 grados de libertad y vemos que
no existe el valor t = 1, que se encontrará entre 0,920 (que está asociado a 60%) y 1,156
(asociado a 70%). En una interpolación lineal, a 0,236 (resultado de 1,156 - 0,920) le
corresponde un 10%. La distancia entre 1 y 0,920 es de 0,080. Por lo que a 0,080 le co-
rresponde un 3,39%. Esto quiere decir que, tras una interpolación lineal, sabemos que a
una t = 1 le está asociado un 63,39% de los casos.
La media dependerá, evidentemente, de los valores que tomen esos 3 elementos. Estamos ante una ecuación que
tiene tres valores variables. Cuando hablamos de los grados de libertad que se dan entre estos nos referimos al
número de valores que necesitamos fijar para que uno de ellos nos quede determinado. En esta ocasión son dos. Si
fijamos (con libertad) 2 valores, el tercero quedará enteramente detem1inado. Por ejemplo, si tenemos una media
µ = 6, entonces x 1 puede tomar cualquier valor que queramos (1, - 3, 9, 4/3 , 12.500, 55, ... ), pero fijemos, por
ejempl o, x 1 = 9, y x2 también puede tomar cualquier valor (2, 17, 6, .. .), y así, por ejemplo x 2 = 6. Pero una vez
hemos fijado estos dos valores (con en tera libertad), el tercer valor, x3 , ya no podemos establecerlo libremente, está
determinado por los va lores que hemos establecido (libremente) con anterioridad. En este caso, x 3 = 3. No tenemos
libertad para darle otro valor a x 3 . Por ello decimos que en esta ecuación contamos con 2 grados de libertad (es
decir, 3 - 1).
LX
Vamos a generalizar esto. El cálc ulo de la media de « ll » casos, cuya ecuación es: µ = - -", tendrá, por lo que
11
hemos visto anteriormente, « 11 - 1» grados de libertad .
Lo mismo sucede en el cálculo de la varianza o de la desviación típica. Sus grados de libertad dependerán del
tamaño de la población o de la muestra que estemos considerando.
Los grados de libertad suelen representarse con la letra griega \',que se lee «ni ».
Todo esto se entenderá mucho mejor en el capítulo siguiente.
216 Estad ística para la investigación social
CUADRO 3.
Tabla T: Probabilidades en la distribución t de Student.
gl 50% 60% 70% 80% 90% 95% 98% 99% 99,5% 99,8% 99,9%
1 1,000 1,376 1,963 3,078 6,314 12,71 31 ,82 63,66 127,3 318,3 636,6
2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 14,09 22,33 31,60
3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 7,453 10,21 12,92
4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610
5 0,727 o,92o -r156 1,476 2,015 2,571 3,365 4,032 4,773 5,893 6,869
6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5,959
7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408
8 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041
9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,78 1
10 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587
11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437
12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,31 8
13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,22 1
14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,1 40
15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073
16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,01 -
17 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,96-
18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,92_
19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883
20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850
21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,81 9
22 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3,79_
23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,767
24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,74
25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,7r
26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,067 3,435 3,707
27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,690
28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,67
29 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3,659
30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,6
40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,55 1
50 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,49
60 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 2,915 3,232 3,4
80 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639 2,887 3,195 3,416
100 0,677 0,845 1,042 1,290 1,660 1,984 2,364 2,626 2,871 3,174 3,39C
120 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617 2,860 3,160 3,3 :
00 0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576 2,807 3,090 3,291
Capítulo VI I. Distribuciones de probabilidad 217
Media Varianza
Uniforme
b =máximo b+a (b - a)2
--
a= mínimo 2 12
Binomial
n =número de casos
np npq
p = probabilidad de éxito
q = (1 - p)
Normal µ ª2
Normal estándar o 1
t de Student V
O para v > 1 --para v > 2
v = grados de libertad v-2
1
Proporción de la población activa que se encue ntra en paro.
222 Estad ística para la investigaci ón social
sona podría estar habitualmente residiendo en España pero por encontrarse de vacaciones o
visitando a un pariente, podría encontrarse fuera durante esa semana. Pero también puede
suceder al revés, que durante esa semana resida en España cuando habitualmente lo hace e
el extranjero 2 . También deberíamos acotar la edad de la población que compone el universo
No tiene sentido preguntar a un menor de 16 años si se encuentra trabajando.
Ejercicio 1
Consulte en la página del INE las definiciones de universo que realiza la Encuesta de Población
Activa (E PA) y la Encuesta Nacional de Inmigración (EN I, 2007).
Una vez definido el universo estamos en condiciones de obtener una muestra del mis
y seleccionar las unidades que vamos a investigar. Las formas de selección de la muestra "
discutirán más adelante. Esta selección tiene que hacer frente al compromiso de representan-
vidad, es decir, que la información obtenida en la muestra sea lo más parecida posible a
que hipotéticamente obtendríamos si investigásemos toda Ja población. Para obtener esta re-
presentati vidad necesitamos establecer unas condiciones que nos permitan realizar die~
aproximación. Para establecer dichas condiciones necesitamos primero presentar y discu
dos conceptos: enor y nivel de confianza.
2
Es decir, en este caso residente no es equivalente a nacional.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 223
=rrores que afectan a las medidas. Por ejemplo, que nuestro metro no mida exactamente 100
:m sino 103 cm, es decir, que nuestro instrumento de medida produzca errores. También que
condiciones de medida no sean adecuadas, por ejemplo, las temperaturas se miden a la
sombra mientras que muchos termómetros urbanos toman medidas al sol. En estadística dis-
:inguimos dos tipos de error: el error estadístico y los errores no estadísticos.
El error estadístico es aquel que procede del hecho de utilizar observaciones muestra-
e , es decir, de no observar la totalidad de Jos datos. Este error, como veremos más adelante,
ruede ser conocido e incorporado en nuestros resultados a través de un intervalo. Los erro-
res no estadísticos proceden de defectos de los instrumentos de medida (preguntas ambi-
.::uas, no legibles por todos los grupos sociales) y de las condiciones en las que se establece
:.a medida (referir el paro a agosto), así como de otro conjunto de errores en Ja transmisión de
los datos (grabación, codificación, etc.). Estos errores pueden (y deben ser) evitados median-
'e una correcta preparación de las encuestas y una correcta revisión de todas las fases de la
:nisma. Entre los errores no estadísticos existe uno especialmente complejo que es el sesgo.
El sesgo es la desviación sistemática de nuestras observaciones respecto a lo que estamos
midiendo. En investigación mediante muestras, el sesgo se produce al obtener muestras que
no se adecúan a Ja población, es decir, por el desfase que existe entre la población objetivo
aquélla a Ja que hace referencia la definición de universo) y la población de la que obtene-
mos la muestra. Entre las causas del sesgo podemos destacar problemas de cobertura, cuan-
do la población definida no coincide con la población utilizada para Ja extracción de la
muestra, y problemas de respuesta, que provienen de unidades que no son localizadas
ausencias) o que no responden (negativas). Por ejemplo, si queremos conocer las opiniones
de los jóvenes españoles y realizamos únicamente encuestas en centros universitarios, nues-
tra muestra será sesgada. Los jóvenes universitarios, aunque son muchos, son un colectivo
muy concreto, probablemente con opiniones distintas del resto de los jóvenes en muchas
cuestiones. En este caso estamos ante un problema de cobertura, el universo -los jóvenes
españoles- es distinto de la población de la que se obtiene la muestra (jóvenes universita-
rios) . El sesgo es muy frecuente en encuestas radiofónicas: sólo contestan quienes están es-
cuchando el programa a esa hora y además les interesa el tema. Para evitar el sesgo resulta
imprescindible una buena planificación de las operaciones muestrales.
3. Muestreo aleatorio
Las formas de obtener una muestra de una población son innumerables. Por ejemplo, en e
caso de querer conocer la tasa de paro, podemos preguntar a nuestros vecinos si se encuen-
tran trabajando. Nuestros vecinos son una parte de la población española, y por tanto son unz
muestra. Sin embargo, parece evidente que procediendo así no podemos garantizar de forro::
alguna que los datos que obtenemos representen al conjunto de la población española. No _
lo mismo preguntar a una muestra de 100 personas que viven en el Ensanche de Barcelon
que a 100 personas que viven en el barrio de Lavapiés o a 100 personas que residen en Pal-
ma de Mallorca. Éstas son muestras sesgadas.
Existen dos estrategias para la obtención de muestras representativas: muestreo aleatori
y muestreo por cuotas. En la práctica, dadas las dificultades para utilizar el muestreo aleato-
rio y las carencias del muestreo por cuotas en la investigación social, se utiliza por lo gene
una mezcla de ambos. En primer lugar se expondrá el muestreo aleatorio y al final del cap -
tulo el muestreo por cuotas.
El muestreo aleatorio se define como la extracción de una muestra de una població-
utilizando procedimientos probabilísticos. Esto quiere decir que la probabilidad de extra -
ción de cada uno de los elementos que componen la muestra es conocida. Generalmente. .
en lo que sigue, nos referiremos únicamente al caso en el que la probabilidad de selección ~
cada uno de los elementos es igual. Por ejemplo, si tenemos una población compuesta
100 personas, cada una de las personas puede ser seleccionada para pertenecer a la mues _
con una probabilidad de 1/100.
Para exponer la teoría que fundamenta el uso del muestreo aleatorio como muestra repr -
sentativa realizaremos primero un ejercicio práctico. Supongamos la siguiente població
compuesta por seis elementos (Tabla 1). El número de elementos de la población lo denorm-
naremos «N»; así en este caso N = 6.
Tabla l.
Elementos de la Población Ejemplo. Edades de emancipación.
Antonio a 30
Felipe b 24
Margarita c 28
Alicia d 22
Francisco e 32
Lucía f 26
De esta población podemos calcular la edad media a la que se independizaron las distin-
personas que la componen. Los cálculos nos señalan que ésta fue de 27 años:
LX 162
µx = N = 6 = 27 años
También podemos calcular cualquier otra medida estadística de resumen, por ejemplo la
desviación típica de la distribución poblacional, que es :
Cfx =
J:E (x;N- µ)
2
_
= 3,416 anos
C6
'2
= (6) = -6!- =
2 2! 4!
15
3
Seleccionamos muestras sin reposició n, es decir, una vez seleccionado un individuo, éste no puede volver a
seleccionarse por segunda vez. Así las muestras {a, a); {b, b}; ... no se consideran .
4
Nótese que la muestra {Antonio, Lucía} y {Lucía, Antonio} no son muestras distintas, porque el orden en que
han sido seleccionados los elementos no altera la información.
226 Estadística para la investigación social
Tabla 2.
Muestras de tamaño 2 de la Población Ejemplo. Medias de cada muestra.
{a, b} a b 30 24 27
{a, c} a c 30 28 29
{a, d} a d 30 22 26
{a, e} a e 30 32 31
{a, f} a f 30 26 28
{b, c} b c 24 28 26
{b,d} b d 24 22 23
{b, e} b e 24 32 28
{b, f} b f 24 26 25
{c, d} c d 28 22 25
{e, e} c e 28 32 30
{c, f} c f 28 26 27
{d, e} d e 22 32 27
{d, f} d f 22 26 24
{e, f} e f 32 26 29
Si observamos los resultados, podemos apreciar cómo las distintas muestras ofrecen dis-
tintos resultados (27, 29, 26, ... )para el estadístico de la media, observándose valores que ~
repiten varias veces: por ejemplo, 27 aparece 3 veces, en las muestras {a, b} , {c, f} y {d, e
Ordenamos las medias de todas las muestras de tamaño 2 en la siguiente tabla de fre-
cuencias:
Capítulo VIII. Las muestras estadísticas: teoría y diseño 227
Tabla 3.
Distribución de frecuencias de las medias de las muestras
de tamaño 2 de la Población Ejemplo.
22 o
23 1
24 1
25 2
26 2
27 3
28 2
29 2
30 1
31 1
32 o
22 23 24 25 26 27 28 29 30 31 32
Edades medias de emancipación
5
Tenemos una distribución muestra] para cada tamaño de muestra.
228 Estadística para la investigación social
Como puede apreciarse en el Gráfico 1, los valores que toma el estadístico (la media de
las muestras) se concentran en torno al valor del parámetro (la media de la población
es 27). Si obtenemos la media de los estadísticos de la media podemos observar que el resul-
tado es el valor del parámetro. Es decir, la media de todas las medias de las muestras de
tamaño 2 tiene como media la propia media poblacional. Esto es, la media del conjunto de
estadísticos que podemos obtener (de las muestras de 2 elementos) es igual al parámetro
poblacional. La media de la distribución muestral (para un determinado tamaño muestra!) e_
igual a la media de la población.
Tabla 4.
Cálculo de la media muestral de las medias
de las muestras de tamaño 2 de la Población Ejemplo.
X n¡ Xn¡
22 o
23 1 23
24 1 24
25 2 50
26 2 52
27 3 81
28 2 56
29 2 58
30 1 30
31 1 31
32 o
Total 15 405
L xn¡ 405 _
µx = N = 15 = 27 anos
Nótese que estamos utilizando tres tipos de distribuciones distintas:
• La distribución de la población. Es el conjunto de todos los datos de la población y a
cuyos indicadores de resumen los denominamos parámetros. Generalmente esta distri-
bución es desconocida, por ello recurrimos a muestras.
• La distribución de la muestra. Es el conjunto de los datos pertenecientes a la muestra
seleccionada. Generalmente sólo obtenemos una muestra de una población. En este caso
hemos obtenido todas las posibles. Sus indicadores de resumen se denominan estadísti-
cos. En el caso anterior, la distribución de la muestra únicamente contiene 2 elementos.
• La distribución muestral. Es la expresada en la Tabla 3 y Gráfico ). La distribución
muestra! es, en este caso, la distribución de las medias de todas las muestras posible_
de tamaño n que proceden de una población. Es una distribución teórica. ¿Por qué
Capítulo VIII. Las muestras estadísticas: teoría y d iseño 229
Ejercicio 2
De la siguiente población compuesta por 8 elementos:
a 12
b 8
c 6
d 4
e 10
f 18
g 16
h 14
6
Nótese que hablamos de parámetros de la distribución muestra! porque realmente es un a población y no una
muestra: es la población de todas las muestras de tamaño n.
230 Estadística para la investigación social
tras que producen valores entre 26 y 28 o, lo que es lo mismo, que están dentro del interval
µ ± 1. Es decir, la probabilidad que tengo de obtener una muestra «buena» que esté dentr
del margen de error preestablecido es de casi el 50%. En el caso que estamos examinando,
extraer una muestra, aproximadamente la mitad de las veces obtendré un resultado dentro de
los límites de error preestablecidos. Evidentemente, si amplío el error las probabilidades de
acertar serán mayores. Por ejemplo, con un error de ± 2 años obtendré buenos resultados e
el 73 ,3% de los casos (11/15).
La tabla siguiente nos indica las muestras que se encuentran dentro del intervalo de erro~
establecido:
Tabla 5.
Muestras de tamaño 2 de la Población Ejemplo cuyas medias se
encuentran dentro de los márgenes de error prefijados.
Márgenes de error
X n;
±0,5 ±1 ±2
22 o
23
24
25 2 2
26 2 2 2
27 3 3 3 3
28 2 2 2
29 2 2
30 1
31 1
32 o
Total 15 3 7 11
20,0% 46,7% 73,3%
Como puede apreciarse, acabamos de expresar de forma intuitiva dos conceptos que a
habíamos adelantado al principio del tema: error y nivel de confianza.
El error es la medida de la distancia entre el valor del estadístico obtenido en la muestra
y el valor del parámetro en la población. El nivel de confianza es la probabilidad que existe
de que esa distancia, o error, no sea mayor que la preestablecida. Por ejemplo, con Jos dato_
del ejemplo anterior puedo afirmar con un nivel de confianza del 73,3% que el error será
menor de 2 años.
¿Qué hubiera sucedido si en vez de obtener muestras de tamaño 2, seleccionamos mues-
tras de tamaño 3 (n = 3)? En este caso las muestras posibles son:
c6, 2 = (6) 6!
3 = 3! 3! = 20
Capítulo VIII. Las muestras estadísticas: teoría y diseño 231
Tabla 6.
Medias de las muestras de tamaño 3 de la Población Ejemplo.
a b e 30 24 28 27,3333333
a b d 30 24 22 25,3333333
a b e 30 24 32 28,6666667
a b f 30 24 26 26,6666667
a e d 30 28 22 26,6666667
a e e 30 28 32 30
a e f 30 28 26 28
a d e 30 22 32 28
a d f 30 22 26 26
a e f 30 32 26 29,3333333
b e d 24 28 22 24,6666667
b e e 24 28 32 28
b e f 24 28 26 26
b d e 24 22 32 26
b d f 24 22 26 24
b e f 24 32 26 27,3333333
e d e 28 22 32 27,3333333
e d f 28 22 26 25,3333333
e e f 28 32 26 28,6666667
d e f 22 32 26 26,6666667
Total 540
Gráfico 2.
Distribución muestra! para las medias de tamaño 3 de la Población Ejemplo.
22 23 24 25 26 27 28 29 30 31 32
Edad media
232 Estadística para la investigación social
El Gráfico 2 vuelve a confirmar que la media de las medias de las muestras coincide con
el parámetro de la media poblacional. Los cálculos lo confirman también así:
LX¡ 540 -
µx = N =
20
= 27 anos
Gráfico 3.
Comparación de las distribuciones muestrales de las medias (n = 2 y n = 3)
de las muestras de la Población Ejemplo.
5 --n=3
rn
...
('CJ
4
- - - n=2
Cij
Q)
:::J
' E
Q)
't:J
3
o
Gi '
E
•:::J 2
'
z
22 23 24 25 26 27 28 29 30 31 32
Edad media
Tabla 7.
Niveles de confianza para distintos errores. Muestras de tamaño 2 y tamaño 3.
El error, como hemos dicho , es Ja distancia entre el valor del parámetro poblacional y e
estadístico obtenido en nuestra muestra:
e= li- µ¡
El error es una constante que prefijamos antes de la selección de Ja muestra.
La desviación típica de la distribución muestra!, o error típico, es como hemos señalad
(J
anteriormente r:.
....;n
7
En castellano, generalmente se ha utilizado el término error típico, procedente del francés, sin embargo
muchos textos herederos del inglés se traduce como error estándar o, simplemente, como SE acrónimo de Stand=
Error. .
8
Como veremos más adelante, dicho teorema puede adaptarse también a otro estadístico como es la propoc-
ción. Pero conviene tener en cuenta que cada estadístico tiene una distribución propia. Como habrá ocasión -
mostrar en el anexo I, la distribución muestra] de la varianza no tiene de medi a el parámetro de la varianza. Tam ~
co la distribución muestra] de las varianzas sigue un a distribución normal , si no que sigue una distribución Ji-cuadra-
do de n - 1 grados de libertad.
Cap ít ulo VII I. Las muestras estadística s: teoría y diseño 235
x-µ x-µ e
Z=--=--=-
Clx (J (J
¿Qué nos expresa aquí Z? Z nos indica el nivel de confianza o la probabilidad de que la
media (x) de una muestra se separe de la media (µ) de la población menos que «e». A cada
valor Z de la distribución muestra! le corresponde un nivel de confianza, que no es otra cosa
que la probabilidad de que la diferencia entre el estadístico y el parámetro sea menor que
«e» . El nivel de confianza que corresponde a un determinado valor Z es el porcentaje de
casos (de medias muestrales) que se encuentran entre más/menos (±)ese valor de Z alrede-
dor de la media la distribución muestra), que, como hemos visto, es una distribución normal.
El nivel de confianza, como el error, también lo prefijamos con anterioridad. En la práctica
iempre utilizamos niveles de confianza superiores al 95%. Es decir, sólo admitimos proba-
bilidades de equivocamos menores al 5%. Como sabemos, entre Z = -1,96 y Z = + 1,96
alrededor de la media de la población encontramos el 95% de las medias de las muestras que
podemos extraer de tamaño n. Por lo tanto, a un nivel de confianza del 95% le corresponde
un valor Z = ± 1,96.
El gráfico de la distribución muestra! nos ayuda a comprender mejor esta relación (Gráfi-
co 4). Se trata de igualar el error al nivel de confianza.
Gráfico 4.
Relación entre el error típico, el nivel de confi anza, y el error estadístico
en una distribución muestra!.
0,45
0,4
0,35
l "C 0,3
1 ~ 0,25
.g 0,2
1 a: 0,1 5
0,1
0,05
~
o
-4 -3 -2 -1 o 2 3
1
Unidades Z
236 Estadística para la investigación social
La tabla siguiente (Tabla 8), muestra los niveles de confianza más usuales y los valores Z
asociados. Dichos valores están extraídos de la tabla de áreas bajo la distribución normal.
Tabla 8.
Valores Z para los niveles de confianza más usuales.
Nivel de confianza z
95 % ± 1,96
95 ,45 % ±2
99% ±2,58
99,7% ±3
Ésta es la relación entre error, nivel de confianza y tamaño muestral que buscábamos:
e
Z=-
G
Jn
Reordenando dicha fórmula podemos responder a las cuestiones planteadas anteri or-
mente: en primer lugar, ¿cuál es el tamaño n, que satisface las condiciones del nivel de con-
fi anza y del error? Si de la expresión anterior despejamos n,
()
Z Jn=e
ZG =e.fo
ZG = Jn
e
Como podemos observar, casi todos los términos son conocidos. El error (e) y el nivel de
confianza (Z) han sido establecidos anteriormente. El tamaño muestral (n) es el valor que
queremos calcular. Sólo necesitamos conocer la varianza de la población. Más adelante di -
cutiremos sobre cómo resolver el conocimiento de la varianza poblacional.
Obsérvese que, si hemos extraído una muestra, « Ji» será conocido; y la expresión ante-
rior nos permite conocer el error estadístico (e ) de nuestros datos, una vez fijado el nivel de
confianza. Es decir, para un tamaño muestral establecido, la fijació n previa del nivel de con-
fian za nos determina el error estadístico asumido o, viceversa, prefijado el error, éste no
determina el ni vel de confianza. Esto lo veremos en el siguiente capítulo en el que detallare-
mos la construcción de un intervalo para la estimación de parámetros.
Supongamos, por ejemplo, que deseamos conocer Ja edad media al matrimonio de Ja po-
lación que se ha casado durante los últimos cinco años. Deseamos conocer dicha edad con
:m error de ± 2 años y un nivel de confianza del 95,45% 9 . Podemos aplicar la fórmula ante-
:ior y encontrar el tamaño muestra] mínimo a partir del cual se verifican dichas condiciones.
Para ello también necesitamos conocer u 2 , la varianza poblacional. Por Jo general, ésta es
jesconocida. Sin embargo, podemos estimar la misma a través de varios métodos. Normal-
:Ilente tenemos alguna información al respecto, porque ya se han realizado encuestas ante-
riores o estudios que nos permiten tener alguna información previa. Por ejemplo, en el caso
que nos ocupa de las edades al matrimonio, éstas llevan muchos años registrándose. Así, a
través del Movimiento Natural de la Población podemos conocer de forma aproximada la
,·arianza de las edades al matrimonio.
Gráfico 5.
Primer matrimonio entre cónyuges de distinto sexo por edad (2006).
20.000 i====-::::i---:==:::-=-:r=::===r=-==p~::--::¡:--~:--==i=====i===r-==:::=¡:====i
18.000
16.000 -r-----r---t-l'- - - - - - - r - - - ; - - -
14.000 -+----+---fl-T----lt----+---'-...-
1o.ooo t==-=-=::t-----Pi===±=3:i-=:=E=:=:::::::.-=r=-:==:::.=::=E=::==t=:=e===i:::::::.:==:==±::±=::::::::a
8.000 -+-----+----J,L.!-----I--~--+----!-----+----+---+-----+-----<
2.000
20 25 30 35 40 45 50 55 60 65
Edad
Observando el gráfico de la distribución (Gráfico 5), vemos cómo ésta es una variable
con una distribución próxima a la normal con unas edades medias en torno a Jos 28 años.
Podemos apreciar también que la desviación típica estará en torno a 5 años. ¿Cómo podemos
ver esto? Si suponemos que es una distribución normal, sabemos que en dicho supuesto entre
± 2u se concentra el 95,45% de los casos: así vemos en el gráfico que entre Jos 20 y Jos 40
años están casi todos los matrimonios. Por lo tanto, la desviación típica será aproximada-
mente la cuarta parte de los veinte años que hay entre las edades 20 y 40 10 .
9
Recordemos que estas condiciones (el error y el nivel de confianza) las fija de antemano el investigador.
10
Si consultamos los datos en Ja página web del INE podemos comprobar que las edades medias son: espo-
sos = 31 ,05 y esposas = 29,26. Y las desviaciones típicas: esposos = 5,42 y esposas = 5,38.
238 Estadística para la investigación social
Si utilizamos como desviación típica 5 años, podemos observar que el tamaño mues
necesario sería:
Z2 c/ 4. 25
n = - ?- = - - = 25
e 4
Gráfico 6.
Tamaños muestrales para distintos errores y niveles de confianza. S = 5,5.
4.000
3.500
3.000
ca... - - - - Z=2
u; 2 .500
Q)
:J
- - Z= 3
E
o 2.000 \
•C:
C!I
E 1.500 \
C!I
1- \
1.000 ·· ····· ······ ··\ ··· .
\ :
500
.............................. ··········'i
: '-.
o
o 0 ,5 1,5 2 2,5
Error
Esta observación resulta importante. Es evidente que cuanto mayor sea el tamaño mues-
tra] utilizado , los resultados obtenidos son de mayor precisión, sin embargo el coste también
se incrementa de forma exponencial. Resulta por ello muy importante conciliar las deman-
das de información con los niveles de error. Por ejemplo, en el caso que nos ocupa, nivele
de error cercanos a 12 meses -un error de un año- resultarían asequibles con presupuestos
pequeños, sin embargo errores menores podrían condicionar mucho las necesidades presu-
puestarias. No debe olvidarse que el tamaño muestra! está tambi én determinado por el presu-
puesto de la investigación.
Hasta ahora nos hemos ocupado del caso en el que queríamos conocer una media. Pero
para variables de tipo nominal podemos conocer la proporción de un valor en la población.
Por ejemplo, el porcentaje de población que votará al partido ZXY, el porcentaje de católicos
Capítulo VIII. Las muestras estadísticas: teoría y diseño 239
practicantes, el porcentaje de personas que reciclan residuos domésticos, etc. Los porcenta-
jes (que oscilan entre O y 100) nos indican, al igual que las proporciones (que oscilan entre O
_ 1), el peso relativo de un grupo en el conjunto de una población. Habitualmente nos referi-
mos a éste en términos de porcentaje más que de proporción, término este último algo más
técnico. Para referirnos a la población, el parámetro de la proporción lo representamos con
«P» y su complemento (1 - P) = Q. Cuando nos referimos a una muestra, el estadístico lo
representamos con minúsculas: <<p» y «q».
El error típico o error estándar en distribuciones binomiales es análogo al de la media.
Únicamente se diferencia que el término de la varianza poblacional , en vez de o.2, es ahora
PQ. En el Cuadro 1 se detallan las expresiones de los errores típicos de medias y propor-
iones.
CUADRO l.
Errores típicos y fórmula del tamaño muestra! para los estadísticos de la media
y la proporción.
1 Media Proporción
Parámetro µ p
=~n
(J
Error típico
Error estándar O"µ= Jn (J
P
11
Nótese que en las fórmulas se utiliza la proporción, no los porcentajes, por ello el error es 0,03 .
240 Estadística para la investigación social
Gráfico 7.
Tamaño muestra! para el estadístico de la proporción para distintos valores de P.
Nivel de confianza 95,45%.
10.000
9.500
9.000
8 .500
8.000
7.500
7.000
6.500
s 6.000
~
....
VI
5.500
CI)
::::1
E 4.000
o
11::
ca 5.500
E
ca
1-
4.000
3.500
3.000
2.500
2.000
1.500
1.000
500
o
e=5% _ _ _
Si tuviésemos alguna información previa que nos indicase, por ejemplo, que la propor-
ción de reciclaje es de alrededor del 25 %, entonces podemos considerar P = 0,25
Q = 0,75.
Z 2 PQ 1,962 · 0,2 · 0,75 0,7203
n = -- = = - - = 800 33
e
2
0,03 2 0,0009 '
Es decir, en este caso con n = 801 podríamos conocer la proporción de recicladores con un
error inferior al 3% y un nivel de confianza del 95 %.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 241
Ejercicio 3
Calcule el tamaño muestra! necesario para estimar, con un error del 5%, el porcentaje de votan-
tes que apoyan el Sí en un referéndum nacional para un nivel de confianza del 95%.
Ejercicio 4
Calcule el tamaño muestra! necesario para estimar, con un error del 2%, el porcentaje anterior
para un nivel de confianza del 99%.
Únicamente hemos detallado las distribuciones muestrales de los estadísticos más usua-
les, la media y la proporción. En el Anexo I, se discute la distribución de otro estadístico de
gran importancia como es la desviación típica.
J.)(~=~)
Error típico JPQ (N-n)
Error estándar n N- 1
z21J2N Z 2NPQ
n
e 2(N - 1) + Z 21J2 e2(N - 1) + Z 2PQ
242 Estadística para la investigación social
Cuando la relación entre N y n (N/ n), es grande, podemos despreciar el factor de corre -
ción de poblaciones finitas para el cálculo del error típico o error estándar. En la prácti
cuando N es igual o mayor que 20n, podemos despreciar dicho factor. Si N = 20n,
Es decir, con 301 entrevistas, casi 100 menos que la cifra obtenida si no hubiéramos co-
derado el tamaño de la población, podemos obtener la estimación deseada.
Ejercicio 5
En una ciudad de 100.000 habitantes queremos conocer la proporción de habitantes que tie"-
licencia para conducir automóviles. Para un error del 5% y un nivel de confianza del 95,45% cal -
a) El tamaño muestra! suponiendo que la población es finita.
b) El tamaño muestra! suponiendo que la población es infinita.
rarse mediante la distribución «t» de Student. Es decir, en vez del valor Z, utilizamos el valor
t correspondiente a la distribución de Student. Esto se verá con más detalle en el capítulo
iguiente.
12
Recuérdese que el Teorema de Chebyshev señala que la probabilidad de que un valor se separe de su media
en más de ku es menor que ( 1 - ~). Por tanto si k = 2, tenemos que entre la media y 2u estará el 75% de los
casos. Y entre la media y 3u estará el 89% de las observaciones. Nótese que el recorrido es el 100% de los casos,
por lo tan to si estimamos u de esta manera su valor real será siempre será menor.
244 Estadística para la investigación social
30 y 120) y utilizamos el valor de la varianza obtenida (el límite superior del inter-
valo que obtengamos) como varianza poblacional. (A este respecto conviene tene;-
en cuenta lo dicho en el Anexo I de este capítulo sobre el empleo de la cuasivarianz::.
como estimador de la varianza.)
d) Otra posibilidad es comenzar la encuesta sin un tamaño prefijado e ir extrayend
elementos uno a uno anotando las observaciones hasta comprobar que la selecció-
de nuevos elementos no modifica de forma significativa los valores de los estadísti-
cos que estamos investigando. Se trata de una técnica que en investigación socia:.
resulta difícil, dado que no permite una planificación con antelación del trabaj o de
campo.
Ejercicio 6
Ejercicio 7
4. Diseño de muestras
Una vez que hemos definido la población y hemos calculado el número de elementos a se-
leccionar, según el error y el nivel de confianza prefijados, estamos en disposición de selec-
cionar la muestra. Ello no es tarea fácil, porque para realizar una extracción al azar necesita-
mos previamente un listado de todos los elementos que componen la población. Aunque el
tamaño muestra! necesario para investigar una variable sea el mismo para Ciudad Real o
para el conjunto de la Unión Europea, resulta evidente que ambas situaciones requieren e -
trategias de selección diferentes. Se diferencian, no sólo por el distinto tamaño y composi-
ción de sus poblaciones, sino sobre todo porque probablemente tengamos objetivos muy di-
ferentes cuando investigamos una población y otra. Probablemente si investigamos una
característica de la Unión Europea deseemos conocer dicha característica con algún grado de
detalle, por ejemplo, de manera diferenciada y representativa para cada uno de los 27 paíse
miembros. Así, aunque con una muestra aleatoria de 400 elementos podamos conocer una
proporción, en el peor de los casos con un error del 5% (Ne = 95 %), resulta imposible decir
nada por países, o utilizar cruces por edad y nivel de estudios respecto a cualquier caracterís-
tica estudiada.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 245
~.l. Marco
Como decimos, para extraer una muestra necesitamos primero conocer los elementos que
~omponen la población. El registro físico de Jos elementos de Ja población se denomina
marco. En algunos casos es un listado, pero también adquiere otros formatos como fichas ,
para seleccionar pacientes de un hospital o fotografías aéreas -para seleccionar viviendas
en la selva-. Por lo general, en la mayoría de las situaciones no puede obtenerse un marco
ompleto y actualizado de la población , o la elaboración de éste es costosa o presenta pro-
blemas de manipulado. Imaginemos que queremos encuestar a Ja población residente en
Barcelona a fecha de hoy. Resulta muy difícil obtener un listado actualizado: el último censo
electoral o padrón ha podido hacerse hace varios meses o incluso años, pero en el caso de
disponer del mjsmo, incluso en soporte informático, realizar una selección aleatoria sobre
millones de registros no resulta tampoco sencillo. Aun cuando pudiéramos hacerlo nos en-
contramos con el problema, nada despreciable, de tener que localizar físicamente a los 400
eleccionados. En la práctica, para sortear este problema se utilizan otros procedimientos de
muestreo que detallaremos a continuación.
Los estratos son subconjuntos o grupos del universo, de forma que todos los elemento
pertenecen a uno de los grupos y sólo a uno. En el diseño de encuestas estratificadas tenemo_
dos situaciones distintas. En unos casos deseamos conocer resultados para cada uno de lo
estratos, y en otros, nos interesa aprovechar las ventajas de la estratificación para reducir el
número de entrevistas necesarias para la estimación del conjunto. La primera estrategia se
conoce como diseño uniforme y la segunda como diseño proporcional. El reparto de lo
elementos de la muestra entre los distintos estratos se denomina afijación.
Para la aplicación del diseño estratificado necesitamos definir los distintos estratos y te-
ner informaciones que nos permitan estimar las varianzas en cada uno de ellos. En lo que
sigue únicamente vamos a preocupamos del caso en el que queremos conocer una propor-
ción, que es el más usual en la investigación social y política 13 . La siguiente figura (Gráfi-
co 8) muestra de forma gráfica la formación de estratos en una población.
El número de estratos lo denominamos L.
L
N¡ es la población en el estrato «i». I N¡ = N
i=l
N
W¡ es la proporción de la población en el estrato «i>> o peso 14 del estrato w =-'.
' N
L
n¡ es el tamaño de la muestra en el estrato «i» . I n; = n
i=l
n;
w; es la proporción de la muestra en el estrato « Í» . w.=-
' n
Observemos el siguiente ejemplo:
Supongamos una provincia en la que podemos diferenciar tres comarcas: La zona norte.
con importantes centros mineros y pequeña industria asociada a la explotación minera, la
zona litoral, muy vinculada al turismo y la capital donde residen los centros administrativo .
La zona minera tradicionalmente vota a partidos de izquierda, la capital a partidos de dere-
cha, y la zona turística vota casi por igual a partidos de derecha y de izquierda. Los resulta-
dos para el partido de izquierdas en las últimas elecciones fueron:
Tabla 9
Ejemplo de población estratificada.
Peso del estrato % votos al partido
Comarca Población
W; de izquierda
Minera 150.000 0,23076923 65,0%
Capital 300.000 0,46153846 25,0%
Turística 200.000 0,30769231 45 ,0%
Total 650.000 1 40,4%
13
Las fórmulas que se presentan a continuación pueden adaptarse rápidamente al caso de la media. Cuando
aparece el térmi no pq que es la varianza de Ja proporción Jo sustituimos por s que es Ja varian za de una variable
continua.
14
«W» es la abreviatura de «weight», peso en inglés.
Capítulo VIII. Las muestras estad ísticas: teoría y diseño 247
Gráfico 8.
Descomposición esquemática de una población en estratos.
Universo
60
o o
*6
o
Universo en L estratos
o o o
o o o o
6 6 6
6
6
6 6
* *
*
* u** *
248 Estadística para la investigación social
z pq
2
22 . 0,404 · o,596
n=- 2
- = = 385,25 ~ 386
e 0,05 2
(pq)st = 0,215
Tabla 10.
Cálculo de la varianza estratificada de la población de la Tabla 9.
Total 1 0,2151923 1
15
Utilizamos pq en vez de PQ, porque la varianza es desconocida y la estimamos a través de estadísticos mue -
trales. Véase en detalle en el Anexo I de este capítulo.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 249
trado las muestras en torno al valor real. Es fácil entender que entonces el error típico, va-
rianza de la distribución muestra!, será menor.
Si en vez de pq utilizamos (pq),,, el tamaño muestra! será ahora:
22 . 0,215
---=344
0,05 2
Como puede verse el tamaño muestra! necesario, para las mismas condiciones de error y
nivel de confianza, se ha reducido en algo más de un 10%. La reducción resulta, desde el
punto de vista de los costes, de interés.
Una vez obtenido el tamaño muestra!, el siguiente paso es la distribución de las encues-
tas entre los distintos estratos. El procedimiento se denomina afijación. Existen distintas for-
mas de realizarlo. Las exponemos todas juntas a continuación sobre este mismo ejemplo y
las detallaremos en cuanto a sus beneficios e inconvenientes en los apartados siguientes.
CUADRO 3.
Procedimientos de afijación. Número de entrevistas en el estrato «Í»
una vez establecido n.
n Se hace el mismo número de en-
Afijación uniforme n· =-
' L trevistas en cada estrato.
Afijación proporcional n; = 11W; El número de entrevistas se re-
al tamaño parte respetando el peso que tie-
ne el estrato en la población.
Afijación de Neyman N;~ Las entrevistas se distribuyen de
(proporcional a la varianza) 11; = 11 L forma que se concentran relativa-
IN¡ ~ mente en los estratos de mayor
i= l varianza.
Afijación uniforme:
11 344
n. =-=-=1147
' L 3 '
Tabla 11.
Afijación proporcional al tamaño.
Total 1 344,0
250 Estadística para la investigación social
Tabla 12.
Afijación de Neyman.
La siguiente tabla permite comparar los resultados de los distintos métodos de afijación:
Tabla 13.
Comparación de los resultados de la afijación para distintos métodos.
(Población Tabla 9) .
Minera 115 79 82
Capital 115 159 149
Turística 115 106 114
Tabla 14.
Proporción de activas en Castilla la Mancha.
Proporción
de activas
Albacete 0,306
Ciudad Real 0,260
Cuenca 0,265
Guadalajara 0,347
Toledo 0,304
Fuente: censo de población. INE, 2001.
Los datos varían desde el 26% de tasa de actividad femenina en Ciudad Real hasta el
34,7 % en Guadalajara. La situación de mayor varianza se encuentra en Guadalajara. Uti-
lizando los datos de dicha provincia, calculamos el tamaño muestral:
Debemos tener presente que el cálculo lo hemos realizado sobre el estrato más desfa-
vorable: la provincia de Guadalajara, que era donde la varianza poblacional (pq) era
mayor. En dicha provincia el error no superará el 3% prefijado con un Nivel de Confianza
del 95 %. Sin embargo, en los estratos con menor varianza el error será menor.
Del total de 2.400 cuestionarios, 675 entrevistados han señalado su disposición a votar a.
partido ZYX. Ello nos conduciría a decir que 675/2.400 = 0,281 , es decir, que el 28,1 % de
los residentes votarían a dicho partido.
Sin embargo, dicho dato no es correcto. Al utilizar afijación uniforme hemos dado mu-
cho peso a los alaveses (1/3), mientras que como puede verse en la tabla siguiente, éstos sir.
embargo no llegan a un sexto de la población de la Comunidad Autónoma. Es decir, estamo_
contando según nuestra muestra el voto de los alaveses por dos, mientras que estamos in-
frarrepresentando el voto de los vizcaínos, que siendo más de Ja mitad de la población de,
conjunto de la Comunidad Autónoma, sólo le atribuimos un peso de un tercio (113). La Ta-
bla 16 nos permite contrastar el peso real con el peso asignado en la muestra.
Ponderar las unidades muestrales equivale a darles el peso que, por el estrato al que per-
tenecen, les corresponde en la población. Para ello aplicamos en cada estrato un coeficient
de ponderación, que atribuye el peso correspondiente a cada estrato en el conjunto de la
población. Su aplicación es bien sencilla: es Ja relación entre el peso de cada estrato en la
población y su peso en la muestra. Hemos denominado « W» a la proporción del tamaño po-
blacional del estrato sobre el total, y « W » a la proporción de la muestra del estrato sobre el
total muestra!.
N¡ N¡
w.=-
, LN¡ N
16
Como veremos la ponderación también resulta necesaria en el muestreo por cuotas.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 253
Tabla 16.
Cálculo de los pesos poblacionales y muestrales en la encuesta electoral ficticia.
% de población
% de la muestra
de Ja provincia n;
Población que corresponde w.=-
sobre el total ' n
a cada estrato
de la Comunidad
Álava 309.635 14,3% 33,3% 0,14354146 0,333333333
Guipúzcoa 701.056 32,5% 33,3% 0,32499750 0,333333333
Vizcaya 1.146.421 53,1% 33,3% 0,53146105 0,333333333
Total
País Vasco 2.157.112 100% 100% 1
Análogamente:
11¡ n;
w.=--=-
' ~ 11; 11
Los coeficientes mayores que la unidad señalan los estratos que han sido infrarrepresen-
tados (Vizcaya), los menores a la unidad los que han sido sobrerrepresentados (Álava). Gui-
púzcoa, sin embargo, con un valor muy próximo a la unidad está correctamente representada
en la muestra.
Para ponderar las unidades muestrales, representadas en los cuestionarios (una unidad
muestra! equivale a un cuestionario), los programas informáticos multiplican cada cuestiona-
254 Estadística para la investi gaci ón social
rio de un determinado estrato por el peso de éste en el conjunto de la población, es decir, por
su coeficiente de ponderación. Los cuestionarios ponderados se representan con el signo «'
(que se lee prima).
n; = n;u;
Así, los 800 cuestionarios de Álava se corresponden con 800 x 0,43062438 = 344,499507 ~
los 385 votantes al partido ZYX de dicha provincia con 385 x 0,432 = 165,790388 .
Para el conjunto de los estratos los resultados están en la tabla siguiente:
Tabla 18.
Estimación de la proporción total después de ponderar en la encuesta electoral ficticia.
Entrevistados Proporción de
Entrevistas
que votarían U¡ n; U¡p¡ votantes al
realizadas
al partido ZYX partido ZYX
Álava 800 385 0,43062438 344,499507 165,790388 0,481
Guipúzcoa 800 105 0,97499250 779,994001 102,374213 0,131
Vizcaya 800 185 1,59438315 1.275,50652 294,960883 0,231
Total 2.400 675 2.400,00003 563, 125484 0,235
Obsérvese que el total de votantes al partido ZYX será el 23,5%, cifra diferente a la ante-
rior (28,1 %). Sin embargo, Ja ponderación no afecta al resultado de cada estrato, únicameme
al total, que ahora es correcto.
Ejercicio 8
Teniendo en cuenta que la población femenina mayor de 16 años de Casti lla la Mancha es la
sig uiente:
Albacete 55.845
Ciudad Real 62.992
Cuenca 26.289
Guadalajara 29.633
Toledo 81.553
Y que los resultados de una encuesta real izada, mediante afijación uniforme, han ofrecido los
siguientes resu ltados:
Calcule:
a) Los coeficientes de ponderación para cada estrato.
b) La proporción total de activas en Castilla la Mancha.
Capítulo VIII. Las muestras estadísticas: teoría y diseño 255
Tabla 19.
Encuesta electoral en el País Vasco.
Población p¡
2,58 2 . 0,235
--- 2- = 625,7
0,05
17
Jerzy Neyman (1894-1981), nacido en la actual Ucrania, durante los años 30 del siglo pasado consiguió uni-
ficar de forma teórica el muestreo de poblaciones finitas.
256 Estadística para la investigación social
Tabla 20.
Cálculo de la varianza estratificadas en la encuesta electoral del País Vasco.
Población W; p¡ p¡q;W;
Es decir, con n = 626 podemos estimar la proporción de votantes con las condicion... _
especificadas. Las 626 entrevistas las distribuimos de forma proporcional, según el pes.
de cada uno de los estratos. Así, las entrevistas en Álava serán: 626 x 0,144 = 90,1.
Tabla 21.
Afijación proporcional al tamaño en la encuesta electoral del País Vasco.
W; n; = nW;
N; p¡ p¡q¡ N;JP;j;
N;~ N;~
n -=n
:EN;~ ' ¿; Nji;
1 1.
Como puede apreciarse, el 54% de las entrevistas se concentran en Vizcaya que tiene
mayor tamaño y también mayor varianza. Incluso para dicha provincia podrían detallarse
distintos resultados, algo que difícilmente podría realizarse en Álava.
Como solución es mucho más eficiente el diseño de Neyman, que nos permitiría hacer
una estimación muy precisa del voto al partido ZYX en el conjunto de la Comunidad
Autónoma. Sin embargo, téngase presente que si deseáramos estimar Jos parlamentarios
autonómicos, al ser tres distritos, necesitaríamos recurrir al diseño uniforme, lo que impli-
caría utilizar una muestra mayor.
Gráfico 9.
Exposición esquemática del muestreo por conglomerados.
Universo
o
D o
D
D D o D o DO D
OD o
D o o
Conglomerados
Do o
DD
Do Do
ºº o
DD o D o DO D
OD o
D o o
Selección de conglomerados
o
D o
D
········ ··.. ··... ········
..··· ···... ·· ...
....... \
D o
~-..... ..: .....
...... ..... o
...· D
······················
Capítulo VIII. Las muestras estadísticas: teoría y diseño 259
EL censo de población de 2001, elaborado por el INE, nos proporciona los siguientes
datos sobre los residentes en viviendas familiares, en función de las variables edad, sexc
y nivel de estudios completado.
19.704
- - - 100 = 1,539%
1.279.936
Capítulo VIII. Las muestras estadísticas: teoría y diseño 261
Tabla 23.
Niveles educativos por edad y sexo. Datos absolutos.
Total 1.279.936
63.915
- - - 100 = 4,994%
1.279.936
Tabla 24.
Niveles educativos por edad y sexo. Datos relativos X 100.
Total 100%
Si bien hemos expresado los datos anteriores en porcentajes, resulta siempre más có-
modo para los cálculos utilizar las proporciones. En proporciones los datos son:
262 Estadística para la investigación social
Tabla 25.
Niveles educativos por edad y sexo. Datos relativos en proporción.
Total 1
De la misma forma para las mujeres de 18 a 34 años con estudios de tercer grado:
Tabla 26.
Afijación por cuotas según niveles educativos, edad y sexo.
Total 800
Tabla 27.
Afijación por cuotas según niveles educativos, edad y sexo.
Datos redondeados.
Total 804
264 Estadística para la investigación social
_ L (x; -
sn2 - 1 _ _ _ __
.xy
n- 1
el factor(N ~ 1
). el valor de éste produce el valor de la varianza poblacional (última co-
lumna de la tabla).
Por ello, podemos estimar la varianza muestra) a partir del estadístico de Ja cuas i vari ~
de Ja siguiente manera:
N-1
(J2 = --s2
N n-1
Tabla anexo l.
Cálculo de las varianzas y cuasivarianzas en las muestras de tamaño 3
de la Población Ejemplo (Apartado 3 en Tabla 1).
Cuasi varianza
Media de Varianza de Cuasi varianza por (N - l)/N
Muestra Valores la muestra la muestra de la muestra
- ~
X 52
s~ - 1 s~ - 1 (N
----¡¡-
- 1)
~ (N-n)
2
n N- 1
= s;~_ 1 (N ~ n)
Expresión que nos permite calc ular el error típico utilizando la cuasivarianza muestra!, tanto
para poblaciones finitas como infinitas.
266 Estadística para la investigación social
u¡=Js~; 1 (N ~ n)
De manera análoga podemos también expresar el error típico de la proporción cuando
estimamos Ja varianza a partir de la muestra:
(N~ n)
Precisamente, en el siguiente capítulo dedicado a la estimación utilizaremos esta formu-
lación de los errores típicos. Recuérdese que por Jo general Ja varianza de la población e
desconocida, pero una vez obtenida la muestra podemos utilizar los propios datos de la
muestra para estimar dicha varianza.
~ ~ = 3,416 é_=1527
Jnv ~ J3 -J s .
La desviación típica de la distribución de las medias de la tabla anterior es también 1,527.
Como puede apreciarse, el teorema del límite central funciona muy bien, incluso con pobla-
ciones pequeñas que no tienen siquiera una distribución normal. Nótese que la distribución de la
población utilizada como ejemplo es uniforme.
Bibliografía comentada
Azorín, F. y Sánchez Crespo, J. L. (1986): Métodos y aplicaciones del muestreo. Madrid, Alianza Edi-
torial.
Se trata de un magnífico texto que abunda en la teoría muestra! para diseños complejos. Su_
autores cuentan con una amplia experiencia en el INE. Sigue el planteamiento de los textos clá-
sicos de muestreo. Necesita de conocimientos algo elevados de matemáticas.
Capítulo VIII. Las muestras estad ísticas: teoría y diseño 267
Jn
Si despejamos «e» obtenemos el error en función del tamaño muestra!, del nivel de con-
fianza Z y de la varianza poblacional. La expresión del error es:
(J
e =Z-
Jn
Los términos n y Z son conocidos. La muestra ya está hecha y por tanto sabemos cuál
es el tamaño muestra! «n». El nivel de confianza (Z) es prefijado por el investigador. La
Capítulo IX. Inferencia estadística: estimación de medias y proporciones 271
\·arianza poblacional es por lo general desconocida; sin embargo, la podemos estimar me-
diante la información que proporciona la propia muestra.
Como podemos observar, el error estadístico es el producto del nivel de confianza por el
error típico.
De Ja misma manera que hicimos en el capítulo anterior vamos a utilizar un ejemplo con
pocos casos para introducir de manera intuitiva algunos de los conceptos necesarios.
Tabla l.
Composición de la Población Ejemplo.
Elemento X
a 12
b 16
c 12
d 4
e 8
f 10
g 6
h 20
18
J 14
µ = 12
(j = 4,899
(N)
n
10!
=-=252
5!5!
La distribución muestra! de todas las medias se reproduce como anexo a este capítulo
(Anexo I). Con los datos anteriores podemos calcular el error típico , que al tratarse de una
272 Estad ística para la investigación social
pequeña población, necesita del factor de corrección de poblaciones finitas. Así, el error tí -
co de la media para muestras de tamaño n = 5 será:
(J -
X
= _!!__
;;ivN=I
~ = 4,899
J5
JlO10-1
-5 = l 633
'
lx- µI
Z=--
u;x
Los valores 8,8 y 15,2 limitan el área central de la distribución que incluye al 95 % de lo
casos. Análogamente obtenemos que para el 99% de los casos los valores que limitan dicho
área serán: 7,787 y 16,213.
En el Gráfico 2, colocado debajo del anterior, hemos representado los valores del esta-
dístico de la media de cada una de las 252 muestras posibles. Podemos situar dichos valore
en relación al intervalo alrededor de la media poblacional que agrupan el 95% de los caso
(o el 99% de los mismos). Vemos que las medias de las distintas muestras que podemo
obtener de esta población concreta están incluidas dentro de los límites establecidos por el
teorema del límite central. La gran mayoría de los estadísticos se sitúa dentro del 95 %. Las
medias de muy pocas muestras superan los valores que limitan el 95 % del área, y ninguna
los valores del 99%.
Capítulo IX. Inferencia estadística : estimación de medias y proporciones 273
Gráfico 1.
Distribución normal asociado a la distribución muestra! de la población utilizada en el ejemplo
µ = 12; (J = 1,633.
95 %
·····+···
99%
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Número de viajes
Gráfico 2.
Situación de las muestras de tamaño 5 entre los límites del intervalo de confianza.
4 5 6 7 8 9
. -.
10 11
.. •
12 13 14 15 16 17 18 19 20
• . .. . ..
. 1
1 • •• 1
1
• • .
1 1
1 1
1 •
1
. • • ..• . • 1
1
1
1
..
• .. .. • • •
1
1
. .. ••. •• •
1 1
1
1
~ " 1
1
1
1
1
1
1
. ••• ..... .. • • i 1
1
1
1
:+
* ..
••• • • •
1
~1 "'
: :. • .
•
1
• ••
1
••
1
• • •
. •• ..
1
•.
1
1 •
1
1
1
1
.. • •
. .
••... 1
• 1
1 .. . ••• • •
a:··· 1
1
1
.. • • .. ... .• .. . •• • • •
1 1
1 1
1 1
1 1
1 1
1
1 ..
. . •• •• .•
+ • 1
1
1
.. ..••• •
1 1
1 1
1 + 1
. . • ...
1 1
1 1
1 1
1 1
274 Estadística para la investigaci ó n social
Gráfico 3.
Intervalos de cada una de las muestras de tamaño 5. Nivel de confianza 95%.
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
l
4
7
10
13
16
19
22
25
28
31
34
37
40
43
46
49
52
55
58
61
64
67
70
73
76
79
82
85
88
91
94
97
100
103
106
109
112
115
118
121
1 24
127
130
133
136
139
142
145
148
151
154
157
160
163
166
169
172
175
178
181
184
187
190
193
196
199
202
205
208
i.
211
21'1
217
220
223
226
229
23 2
235
238
241
244
247
f1
250
Capítulo IX. Inferencia estadística : estimación de medias y proporciones 275
En concreto, de las 252 muestras posibles, observamos que sólo 8 quedan claramente
fu era del intervalo 8,8 y 15,2 que establece el nivel de confianza del 95 %, y todas están
dentro del intervalo de los valores 7,8 y 16,2, que son los límites para un intervalo del 99%
de nivel de confianza. Los resultados siguen con bastante precisión el comportamiento espe-
rado según el teorema central del límite. Obsérvese el Gráfico 4, en el que se comparan los
resultados obtenidos con los que pronostica el teorema del límite central. (No coinciden
exactamente porque la población con la que estamos trabajando es pequeña N < 30).
Gráfico 4.
Comparación de la distribución muestra! del ejemplo para n = 5 con la distribución normal
asociada de parámetros: µ = 12; u = 1,633.
- Distribución muestra! n = 5
0,1 ]
- - - - Distribución normal
0,09 1
0,081
0,07 1
0,06 ¡
0,051
0,04 1
1
0,03 -j
1
1
0,02 1
¡
0,01 ~
8 9 10 11 12 13 14 15 16
El problema al que nos enfrentamos ahora es: ¿qué sucede cuando hemos seleccionado
una muestra? Evidentemente la media de la población es desconocida, por eso obtenemos la
muestra, y también lo es la varianza de la población. No conocemos, por tanto, los paráme-
tros que definen la distribución muestral. Una solución sencilla es utilizar la media de nues-
tra muestra y conve1tir dicho valor en el valor poblacional. Si bien sabemos que el valor del
estadístico de una muestra estará cercano al valor del parámetro, cada muestra produce un
valor distinto. Sin embargo, a partir de la información de la muestra, podemos establecer una
medida de la distancia que existirá entre el valor del estadístico (de la muestra) y el valor del
parámetro (de la población). Ello podemos hacerlo mediante intervalos, ofreciendo un rango
posible de valores. Como vamos a ver, el procedimiento ahora se invierte. Lo que hacemos
276 Estadística para la investig ación social
ahora es establecer qué rango de valores del parámetro son compatibles con el valor que
hemos obtenido en la muestra. Antes decíamos: si tenemos una población con media 12.
¿cuál sería la probabilidad de obtener una muestra con media 13? La pregunta que ahora
hacemos es: si la muestra obtenida tiene, por ejemplo, una media 14: ¿cuál es la probabilidad
de que la media poblacional sea, 14, 15, 12 o 17?
s 23 23
=- = -- = - = o 939
(J -
X Jn J600 24,5 '
--~~~~~~~~-CJ-~~~~~~~~--1 1
76~
, 5---
77---7~
7,-5--7-8_ _ _
78~,5---7~
9 --7-9~
, 5--~
80---8~
0-, 5--8-1--~
81,5
1
O 36 ·O 64
~ _' = Jo,00003ss = 0,0197
00 1
CUADRO l.
Errores e intervalos para la media y la proporción, estimando la varianza
a partir de la muestra.
Error típico en
Estadístico Error típico Intervalo
poblaciones finitas
s
<r - = - -
Media
x Jn .X± Z<r;
<r=¡¡;q~
Proporción
p v~ v--¡¡-
«S» se refiere a Ja cuasidesviación. Use Ja fórmula de error típico en poblaciones finitas cuando N < 2011. Véase el
Apartado 3.6 del Capítulo VIII. Para muestras pequeñas (n < 30), en e l caso de Ja media, utili zar « t» en vez de Z
para el nivel de confianza. Una explicación detallada puede encontrarse en el siguiente apartado.
Nótese que en las fórmulas anteriores empleamos Ja desviación típica de la muestra (cua-
sides viación) en vez de Ja desviación típica de la población <r. En el caso de las proporciones
usamos la varianza que nos proporciona la muestra <<pq» y no la poblacional «PQ».
1
Al igu al que el uso de la desviación típica o la cuasidesviación cuando estimamos medias a partir de muestras
grandes.
278 Estadística para la investigación social
Ejercicio 1
En una encuesta realizada a 400 hombres y a 400 mujeres hemos obtenido los siguientes resul-
tados :
Estime los salarios anuales de los hombres y de las mujeres. Utilice un intervalo de confianza
del 95%.
Ejercicio 2
En una encuesta realizada a 2.500 votantes de un país centroeuropeo hemos obtenido que el
23% de los mismos tiene intención de votar «NO» en el referéndum de integración a la UE.
Estime la proporción de votantes, en el conjunto del país, contrarios a la adhesión. (Use un
nivel de confianza del 99%.)
Ejercicio 3
Una encuesta aleatoria realizada a 193 estudiantes de una universidad de 3.221 alumnos señala
que un 65,6% piensan que el transporte público entre la ciudad y el campus es insuficiente.
Estime la proporción de estudiantes insatisfechos con el transporte público para un nivel de
confianza del 95,45%.
Como estudiamos en el capítulo anterior, cuando estamos ante muestras pequeñas, las distri-
buciones muestrales siguen la distribución « t>> de Student en vez de la distribución normal.
En la práctica, cuando n < 120 resulta más adecuado utilizar dicha distribución «t». Ade-
más, cuando las muestras son pequeñas y desconocemos la varianza poblacional hemos de
tener en cuenta que la estimación de la mjsma debemos realizarla a través de la cuasivarian-
za. (En muestras grandes las diferencias entre varianza y cuasivarianza son despreciables,
pero no así cuando estamos ante pocos casos.)
Veamos el procedimiento de estimación de intervalos en muestras pequeñas. Suponga-
mos que, de la población ejemplo (N = 10) utilizada al principio del capítulo, la muestra
aleatoria (n = 5) obtenida es {a, b, c, h, j} cuyos valores son { 12, 16, 12, 20, 14}. La media
de dicha muestra es .X = 14,8 y la cuasidesviación típica S11 _ 1 = 3,34 7. (Los datos de dicha
muestra aparecen en el Anexo I, muestra número 20.)
El procedimiento para construir el intervalo es el mismo que el empleado con muestras
grandes. Únicamente sustituimos Z por el valor de t para n - 1 grados de libertad. En nues-
Capítulo IX. Inferencia estadística : estimació n de medias y proporciones 279
rro caso para un nivel de confianza del 95% el valor de t con 4 grados de libertad es: 2,776.
Obsérvese que el intervalo de confianza resu ltante será más amplio que con Z = 1,96.)
Calculamos Ja cuasivarianza de esta muestra:
:L (x 1 - i) 2
sn - l = = 3 347
n- 1 '
e -
- 0,05 -
tn - l (J¡ -
0,05
tn - l
yn
R-
sr. - -n --
N
2,776 3,347
lc
y5
Rº-
--5 -- 2,938
10
Para un nivel de confianza del 95,45% (Z = 2) la expresión anterior queda de una forma
más sencilla:
2~
p +~ ±2 v--;; +--;;
4
1+-
n
2
Edwin B. Wilson, físico norteamericano ( 1879-1964) antecedió a Neyman en la formulación de los intervalos
de confianza. El intervalo de Wilson fue publicado en 1927 en el Journal of the American Statistical Association.
280 Estadística para la investigación social
Supongamos que a partir de una muestra de 22 deportistas de élite, en ocho casos se han
detectado problemas de insomnio. ¿Cuál será la proporción en la población? Para un nivel de
confianza del 95 ,5% aplicamos el intervalo de Wilson.
Comenzamos por calcular p = 8/22 = 0,364 y a continuación introducimos los valore
en la fórmula:
2
p+-±2 ~q1
-+2
n n n
4
1+-
n
2 0,364 X 0,636 1
0,364 + 22 ± 2 - - - - - - + -2
22 22
4
1 +-
22
0,455 ± 0,224
1,182
= [0,679 . 0,231
1,182 ' 1,181
J
= [0,574 ; 0,195]
Entre el 19,5% y el 57,4% de los deportistas de élite podrían sufrir de insomnio. Como
puede apreciarse, muestras pequeñas, en el caso de proporciones, producen intervalos dema-
siado grandes 3 .
2. Diferencias de estadísticos
Hasta ahora nos hemos preocupado únicamente de la obtención de intervalos de confianza
para estadísticos sencillos. Sin embargo, resulta muy frecuente en el ámbito de las ciencias
sociales y políticas el uso de otros estadísticos que son estadísticos compuestos, a su vez, por
la combinación de estadísticos . Podemos estar interesados en conocer una diferencia de me-
dias: por ejemplo, la diferencia entre los salarios medios de hombres y mujeres. O también,
una razón entre dos cantidades que han sido obtenidas mediante una muestra: por ejemplo, si
en una encuesta hemos preguntado el número de horas trabajadas y el salario, podemos obte-
ner la razón entre la media de horas trabajadas y el salario medio, de donde resultará un
estadístico que será el cociente entre dos estadísticos: media de horas trabajadas y salario
medio. ·
3
Si hubi éramos utili zado la fórmula del error típi co habríamos obtenido un intervalo distinto, concretamente
entre 15,9% y 56,9%, en este caso incluso más grande.
Capítulo IX. Inferencia estad ística: estimación de medias y proporciones 281
Los datos nos dicen que las mujeres cobran por término medio menos que los hombres,
en concreto: 5.800 euros menos. El salario de los hombres presenta mayor dispersión y, por
tanto, hay mayores diferencias entre los salarios de ellos, mientras que en el caso de las mu-
jeres sus salarios son más parecidos.
El error típico de la diferencia de medias, que explicaremos un poco más adelante, es:
Luego, el error estadístico para un nivel de confianza, por ejemplo, del 99,7 % será:
e = Z<Tcµ 1 _ µ
2
J = 3 · 762 = 2.286
Por lo tanto la diferencia de salarios entre hombres y mujeres oscilará entre 3.514 euros y
8.806 euros.
Tal vez al lector le haya sorprendido que la fórmula del error típico de la diferencia de
medias se componga de la suma de los errores típicos (al cuadrado) de cada una de las me-
dias. Esto es así porque estamos combinando dos estadísticos diferentes y cada uno de ellos
aporta un error independiente. Es decir, tenemos dos fuentes de error.
4
Aunque los datos son ficticios están basados en los resultados de la Encuesta de Estructura Salarial que realiza
el INE (2006).
Capítulo IX. Inferencia estadística: estimación de medias y proporciones 283
Nótese que la fórmula del error típico de diferencia de medias, al ser dos muestras inde-
pendientes5, se corresponde con el célebre teorema de Pitágoras: c2 = a 2 + b 2 o, expresado
de otra forma: e= 2
Ja
+ b 2 . Véase el Gráfico 6.
Gráfico 6.
Representación esquemática de fuentes de error independientes.
e
b
Aunque no suele ser muy habitual, si tuviéramos que realizar una suma de estadísticos, el
error también vendrá determinado por la suma de los errores. Por ejemplo, queremos cono-
cer la renta de una muestra de 350 parejas en la que ambos miembros están trabajando 6 , y los
resultados son los siguientes:
Tabla 3.
Salarios medios y desviación en una muestra a parejas.
¿Cuál será el ingreso medio total de las parejas? Evidentemente, será la suma de las me-
dias de ambos cónyuges:
12.500 2 10.5002
872 6
350 + 350 = '
Por tanto, para un nivel de confianza del 95 % podemos afirmar que Ja renta conjunta de
las parejas será:
43 .200 + 1,96 X 872,6 = [44.910,3 : 41.819,7]
P1 q¡ + P2q2
n1 n2
Observemos la siguiente tabla extraída del Estudio del CIS 2802 que preguntaba sobre el
conocimiento del Debate sobre el Estado de la Nación celebrado en mayo de 2009.
Tabla 4.
Conocimiento del debate sobre el estado de la Nación por sexo. Mayo 2009.
Sexo
Hombre Mujer
De Ja tabla deducimos que el 80,8% (595/736) de los hombres y el 68% (533/784) de las
mujeres siguieron el debate sobre el estado de la nación . Los datos procedentes de la muestra
señalan que la diferencia en el seguimiento del debate entre hombres y mujeres fue de un
80,8 %-68,0% = 12,8%.
Si queremos calcular un intervalo para un nivel de confianza del 95,45 % de dicha dife-
rencia, comenzamos por calcular el error típico:
Ejercicio 4
En una ciudad se ha realizado una encuesta. A la pregunta del número de viajes al extranjero
realizados durante el año pasado han respondido de la siguiente manera los activos y los inac-
tivos :
Ejercicio 5
Los resultados de una encuesta señalan que el 25% de los 225 hogares rurales encuestados no
disponen de vehículo, mientras que eso mismo sucede en el 18,5% de los 625 hogares urbanos.
Calcule un intervalo para la diferencia en la proporción de posesión de vehículo entre áreas rura-
les y urbanas. Nivel de confianza del 95,45%.
Tabla 5.
Resultados de valoración a un candidato político en dos momentos
por 10 entrevistados.
Valoración Valoración
al comienzo a mitad Diferencia
de la campaña de la campaña
A 6 7 1
B 3 2 -1
e 4 4 o
D 8 6 -2
E 5 7 2
F 3 8 5
G 4 2 -2
H 6 6 o
I 4 7 3
J 2 4 2
Suma 45 53 8
Media 4,5 5,3 0,8
Desviación típica 1,688 2,052 2,135
S0 2,135
Uf5 = = - - = 0,711
~ j9
El intervalo para un nivel de confianza del 95 % será8 :
e= (O.OS (J -
9 D
= 2 262
'
X 0 ' 711 = 1' 608
µ ± e = 0,8 ± 1,608[ - 0,808 : 2,408]
8
Como es un a muestra pequeña utilizamos t en vez de Z para el nivel de confi anza. Por ello también en el
denominador usamos n - 1 en vez de n.
Capítulo IX. Inferencia estadística: estimación de medias y proporciones 287
Los resultados nos dicen que la popularidad del candidato ha podido disminuir en más de
medio punto o crecer hasta casi 2,5 puntos. Evidentemente, muestras tan pequeñas no permi-
ten en la práctica asegurar nada. En este caso ni siquiera saber si ha subido o bajado la popu-
laridad en el transcurso de la campaña.
SD(n - 1)
(Jt5 =- --
J,i
Ejercicio 6
En una encuesta panel se preguntó el año pasado a 30 habitantes de una cabecera comarcal
por el tiempo que invertían en desplazarse al trabajo al día (en minutos). A los mismos sujetos
vuelve a preguntarse ahora, un año más tarde, por la misma cuestión. A partir de los resultados
que aparecen en la tabla siguiente, señale con un nivel de confianza del 95% cuál ha sido la
variación en tiempo de desplazamientos entre ambos momentos.
Tiempo de Tiempo de
Cuestionario desplazamiento desplazamiento
hace un año en la actualidad
16 26
2 140 110
3 10 18
4 75 140
5 6 6
6 220 210
7 35 54
8 25 32
9 80 65
10 14 32
11 18 22
12 28 94
13 64 48
14 12 22
15 40 180
16 24 42
17 15 15
288 Estadísti ca para la investig ación social
(Continuación)
Tiempo de Tiempo de
Cuestionario desplazamiento desplazamiento
hace un año en la actualidad
18 28 38
19 16 24
20 122 156
21 14 14
22 48 16
23 32 24
24 68 52
25 6 12
26 16 23
27 12 18
28 6 24
29 54 105
30 24 48
Tabla 6.
Valoración de la intervención del Presidente del Gobierno en el debate
de mayo de 2009.
Frecuencia Porcentaje
9
Pregunta 1O del cuestionario, reali zada únicamente a quienes habían seguido el debate (véase pregunta 6 de
cuestionario) . Se ha excluido del análisis a quienes no conocen al candidato o no contestaron a la pregunta devalo-
ración.
Capítulo IX. Inferencia estad ística : estim ación de medias y proporcio nes 289
Tabla 7.
Valoración de la intervención del líder del principal partido de la oposición
en el debate de mayo de 2009.
Mariano Rajoy
Frecuencia Porcentaje
l. Muy mal
2. Bastante mal
3. Regular
4. Bastante bien
5. Muy bien
A partir de dicha valoración hemos elaborado una nueva variable que denominamos
«DIFERENCIA» y que es la diferencia de valoración entre uno y otro interviniente. En este
caso la variable toma como referencia a Rodríguez Zapatero. Es decir, las diferencias positi-
vas señalan mayor valoración para Zapatero sobre Rajoy, mientras que las negativas indican
lo contrario 10 .
10
La variable podría haberse generado al revés, sin que ello suponga ningún cambio en los valores de la misma
ni en los estadísticos asociados, únicamente variaría la interpretación de los resultados que sería en dirección opues-
ta: valores positivos señalarían que el entrevistado valora más al Sr. Rajoy frente al Sr. Rodríguez Zapatero y los
negativos viceversa.
290 Estadística para la investigación social
Tabla 8.
Datos de los primeros 25 casos del estudio 2802.
Valoración de la intervención de
Número de
Rodríguez Zapatero Mariano Rajoy Diferencia
cuestionario
Tabla 9.
Resultados de la variable Diferencia de Valoración.
Diferencia
Porcentaje
Frecuencia
válido
-4 17 2,0
-3 41 4,9
-2 57 6,8
-1 62 7,4
o 289 34,5
1 95 11,3
2 164 19,6
3 75 8,9
4 38 4,5
Los datos nos dicen, por ejemplo, que el 34,5 % de la muestra valoró de la misma forma a
Rodríguez Zapatero que a Rajoy. O, que el 2% piensa que la intervención de Rajoy fue me-
jor que la de Zapatero por cuatro puntos (en una escala de 1 a 5), etc.
Los estadísticos descriptivos de las tres variables, (las dos valoraciones y Ja calculada, la
diferencia entre ellas dos), se reproducen a continuación:
Tabla 10.
Estadísticos de resumen de las variables de valoración al Presidente, al líder
del principal partido de la oposición, y de la variable diferencia de valoraciones.
Estadísticos
Valoración de la
Valoración de la
intervención de DIFERENCIA
intervención de
José Luis de valoraciones
Mariano Rajoy
Rodríguez Zapatero
Zapatero es valorado con una media de 3,12 mientras que Rajoy con una media de 2,61.
Obsérvese que el n de cada variable es distinto porque las valoraciones se han realizado sólo
con aquéllos que han respondido a dicha pregunta. Así, 870 evaluaron a Zapatero y 853 a
Rajoy. En total, 838 valoraron a ambos líderes políticos. Es importante notar que el tamaño
de la muestra será definitivamente n = 838, que son los casos sobre los que se han obtenido
292 Estadística para la investigación social
ambas valoraciones y sólo sobre ellos es posible calcular el estadístico compuesto de la dife-
rencia. Por lo tanto estamos ante muestras independientes con n = 838.
A partir de los datos anteriores podemos calcular los intervalos de confianza de la valo-
ración de cada uno de los intervinientes, así como la de la diferencia.
Para el caso de los intervinientes:
Podemos observar que los intervalos no tienen valores en común. El límite inferior para
Zapatero (3,036) es mayor que el límite superior para Rajoy (2,688) por lo que podemo
deducir, con un nivel de confianza del 95 %, que los entrevistados valoraron mejor la inter-
vención del Presidente del Gobierno que la del líder del principal partido de la oposición.
Respecto al intervalo de la diferencia de valoraciones, el procedimiento es el mismo:
x±e=x±Za0
para un nivel de confianza del 95 %.
Límite Límite
Media e= Zux superior inferior
-
x+e x-e
Diferencia 0,5167 0,123 0,6397 0,3937
Podemos observar que el intervalo no contiene el «0» y por tanto llegamos a la misma
conclusión: los entrevistados valoran mejor la intervención de Rodríguez Zapatero, con una
diferencia de entre 3 y 6 décimas (en una escala de 1 a 5).
Capítulo IX. Inferencia estadística: estimación de medias y proporciones 293
Bibliografía comentada
Tumer, J. C. (e.o. , 1976): Matemática moderna aplicada. Probabilidades, estadística e investigación
operativa. Madrid: Alianza Universidad.
Todos los manuales de estadística incluyen referencias al procedimiento de construcción de
intervalos para distintos estadísticos. De todos ellos únicamente por su claridad y por incluir
además de los estadísticos aquí señalados bastantes más, tanto simples como compuestos, desta-
camos el de este autor.
Soluciones a los ejercicios
propuestos
Capítulo 111
Ejercicio 1
La variable P5 utiliza una escala ordinal.
La variable P7 utiliza una escala nominal.
La variable P9 utiliza una escala nominal.
Ejercicio 3
La distribuciones de frec uencias absolutas y relativas sería la siguiente:
Edad n; Jr¡
De 20 a 29 14 0,18
De 30 a 39 17 0,21
De 40 a 49 22 0,28
De 50 a 59 18 0,23
60 o más 9 0,11
Total 80
Para mayor claridad de presentación de los datos y una lectura más sencilla se ha han
establecido cuatro categorías iguales de 10 años, dejando la última de tamaño ligeramente
menor, pues no hay nadie mayor de 66 años.
302 Estadística para la investigación social
Capítulo IV
Ejercicio 1
Número medio de hijos:
Protestante 1,00
Musulmana 1,20
Otras religiones 1,37
Tiene sus propias creencias 0,78
No creyente 0,64
Ejercicio 2
Densidad 122,2 hab./km 2
Ejercicio 3
Desviación
Varianza
típica
Ejercicio 4
D,,, 2 = 29
P1i , s5 = 43
D,,,, 4 = 30
Pm ,35 = 29
Capítulo V
Ejercicio 1
Utilizamos un diagrama de barras apiladas para representar conjuntamente el número de ma-
triculados en cada tipo de enseñanza universitaria y el sexo de los al umnos. En este caso
podemos utilizar las frecuencias absolutas en el eje vertical pues, al ser reducido el número
de categorías de la variable «sexo», se percibe claramente su distribución en cada uno de lo
tipos de enseñanza.
Soluciones a los ejercicios propuestos 303
600.000
.,,"'o 500.000
~'"
·E 400.000
'"
E
"'oe 300.000
E Mujeres
:::J
<(
200.000
100.000
o
Arquitectura e Diplomaturas Licenciaturas Arqu itectura e Títulos dobles
Ingenierías Técnicas Enseñanzas universitarias Ingenierías
Fuente: Estadistica de la Enseñanza Universitaria en España. INE
Ejercicio 2
Al igual que ocurría en 2007, en 1997 las mujeres se casaban a edades más jóvenes que los
hombres 1 • Sin embargo, en este caso ambas distribuciones alcanzan un pico en el intervalo
de 25 a 30 años, por lo que una importante cantidad de hombres y mujeres se casaba en ese
intervalo de edades. El gráfico muestra que la población de 1997 se casaba a edades más
jóvenes que la del 2007.
90.000 + - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
80.000 + - - - - - - - - r - ' " " ° - - - - - - - - - - - - - - - -
30.000 +------,~--,l~----<!J',_"""'" _ _ _ _ _ _ _ _ _ _ _ __
20.000 -+-----~----------'l-+-------------
<15 15 20 25 30 35 40 45 so 55 :;:, 60
Edad
Fuente: Movimiento Natural de la Poblac ión, 1997. INE
1
Ver Gráfico l O.
304 Estad íst ica para la invest iga ción social
Ejercicio 3
%
100
90
75%
_. 80
70
60
so
40
30
25% _ .
20
10
o
o 1 ¡ 2 3 ¡ 4 5 6 7 8 >8
lQ 3Q
SM I
Ejercicio 4
Evolución de la tasa de Paro en España. Media anual.
Ejercicio 5
El gráfico muestra que existe una asociación negativa entre las variables consideradas, es
decir, que conforme aumenta la mortalidad infantil, disminuye la esperanza de vida, y vice-
versa. Se aprecia que existe un grupo con baja mortalidad infantil y elevada esperanza de
vida formado por los países con mayores niveles de desarrollo económico y los países medi-
terráneos, además de Portugal. Los países más orientales se sitúan en un segundo grupo don-
de la esperanza de vida no supera los 73 años y las tasas de mortalidad infantil son más altas.
Encontramos igualmente algunas situaciones de transición representadas por la República
Checa, Polonia y Eslovaquia, y el caso atípico de Estonia que, sin llegar a pertenecer al gru-
po de los países con mortalidad infantil más elevada, es el país con menor esperanza da vida
de la UE.
Índice de mortalidad infantil y esperanza de vida al nacer en los países de la UE (2007).
82
Sue + + 4
80 Aus + + P. Baj
e
"'
e
78
-¡;¡
Lux +
.3
• 1 • 2 + R. Un
•
QI
c.
Hun + + Let + Bul
"'
w
Lit + Rum
72
Est +
70
o 2 4 6 8 10 12 14 16
Mortalidad infantil
Ejercicio 6
El gráfico propuesto es incompleto e incorrecto. No figura el título, por lo que no se sabe qué
datos se están representando. Falta la escala del eje horizontal con el correspondiente etique-
tado de los valores de la variable, así como el rotulado del eje de ordenadas. Tampoco figura
la fuente de procedencia de los datos.
Por otra parte, hay elementos incorrectos. En primer lugar, el eje vertical no comienza en
cero, por lo que es necesario marcar la discontinuidad en el eje. En segundo lugar, se ha
contraído el eje horizontal, produciendo la ilusión óptica de intensificar la tendencia descrita
por los datos . Una representación gráfica correcta de los datos sería la siguiente:
306 Estadística para la investigación social
IPV
Capítulo VI
Ejercicio 1
a) El espacio de sucesos está formado por todas las posibles muestras que se pueden extraer
con los elementos de Ja población. Por tanto, teniendo en cuenta el tamaño de la muestra,
tendremos las siguientes posibilidades:
Muestras de tamaño= 1: {a, b, e, d, e}
Muestras de tamaño= 2: {ab, ac, ad, ae, be, bd, be, cd, ce, de}
Muestras de tamaño= 3: {abe, abd, abe, acd, ace, ade, bcd, bce, bde, cde}
Muestras de tamaño= 4: {abcd, abce, abde, acde, bcde}
Muestras de tamaño= 5: {abcde} (Suceso Seguro)
Y el suceso imposible: { 0 }
b) El espacio está formado por 32 sucesos (r = 25 = 32).
Ejercicio 2
a) Para saberlo hemos de construir primero el espacio muestra] :
El espacio muestra! está formado por 4 posibles sucesos y, por tanto, son 4 los posibles
ramilletes formados por tres flores .
b) La probabilidad de que el ramillete contenga una flor amarilla es de 3/4 = 0,75.
Soluciones a los eje rcicios propuestos 307
Ejercicio 3
Dado que para esta población hay 10 posibles muestras de dos elementos, las probabilidades
pedidas son las siguientes:
a) La probabilidad de que aparezca el individuo «a» es de 4/10 = 0,4.
b) La probabilidad de que aparezca al menos un individuo con letra alfabéticamente ante-
rior a la «C» es de 7110 = 0,7.
Ejercicio 4
Del espacio muestra] (todas las posibles muestras de tamaño 2) se sigue que:
a) La probabilidad de que salga al menos un individuo de izquierda es 8/12 = 0,6667.
b) La probabilidad de que aparezca al menos un individuo de derecha es 10/12 = 0,8333.
Ejercicio 5
El espacio muestra! de este experimento aleatorio es el siguiente:
Ejercicio 6
a) La probabilidad de extraer un/a soltero/a es 0,4356:
p = 1 - 0,4356 = 0,5644
Ejercicio 7
a) Las provincias andaluzas que limitan con el Mar Mediterráneo son Cádiz, Málaga, Gra-
nada y Almería. Por tanto, considerando conjuntamente la población de esas provincias, la
probabilidad pedida sería:
b) Las provincias andaluzas de interior son Sevilla, Córdoba y Jaén. Procediendo de la mis-
ma forma que en el apartado anterior tenemos la probabilidad pedida:
e) Se pide la probabilidad del suceso complementario del apartado b): las provincias que
limitan al mar son todas aquellas que no son de interior. Entonces, la probabilidad es:
p = 1 - 0,406 = 0,594
Ejercicio 8
a) Sabiendo que hay 8.202 residentes en Velilla, la probabilidad de extraer uno de ellos en-
tre el total de la población española es bastante baja:
8.202
p = =o 0002
40.595.861 '
b) Considerando conjuntamente los intervalos de edad inferiores a 40, tenemos que la pro-
babilidad de extraer aleatoriamente un residente de Velilla menor de 40 años es:
Ejercicio 9
Para saber el número de muestras (sin reposición) es necesario hallar las combinaciones co-
rrespondientes:
-(15)- 15! - 15·14· 13 · 12· ll · 10·9+ - 3.603.600 -
a) C 15 - - -- - - - 5.005 muestras de
'6 6 6!. 9! 6 . 5 . 4 . 3 . 2 . 1 . 9+ . 720 -
tamano 6
Ejercicio 1O
Ejercicio 11
a) Se trata de una probabilidad de sucesos condicionados:
38 4 152
p = P(E)· P(A /E) = - X - = - - = 005
80 38 3.040 '
4
Si observamos directamente la tabla, vemos que P = = 0,05.
80
b) Probabilidad de sucesos condicionados:
18 15 270
p = P(S)·P(A/S) = - X - = - - =o 1875
80 18 1.440 '
15
O directamente desde la tabla: P = = 0,1875.
80
e) Probabilidad de la unión de sucesos mutuamente excluyentes:
38 24 62
P = P(E) + P(M) = - + - = - = O775
80 80 80 '
38 34 1.292
p = P(E). P(B/ E) = 80 X 38 = 3.040 = 0,4 25
34
Observando directamente la tabla: P = = 0,425 .
80
e) Probabilidad de la unión de sucesos compatibles:
18 29 15 32
P = P(S) + P(A) - P(S nA) = - +- - -= - =O 4
80 80 80 80 '
f) Se pide hallar la probabilidad de encontrar dos personas sucesivamente sin reposición (al
extraer un individuo de estudios C «no lo devolvemos» a la población para encontrar al
segundo individuo de estudios C. Por tanto, al extraer el primer individuo, nos queda en
el conjunto un individuo menos con estudios C (que supone también un individuo menos
en el total poblacional):
Ejercicio 12
a) (S) = 18 elementos
b) (B) = 51 elementos
31 O Estadística para la investigación social
e) (Mu S) = 24 + 18 = 42 elementos
d) (M n S) = O elementos (es el conjunto vacío 0)
e) (Bu M) = B + M - B n M = 51 + 24 - 14 = 61 elementos
f) (B nA) =O elementos (es el conjunto vacío 0)
g) (B n M) = 14 elementos
h) {E u (Mu S)} = 38 + 24 + 18 = 80 elementos (el total poblacional)
i) {En (Mu S)} =O elementos (es el conjunto vacío 0)
j) {Eu(MnS)} = 38 +O= 38 elementos
k) { B n (Mu S)} = 14 + 3 = 17 elementos
Capítulo VII
Ejercicio 1
En primer lugar tenemos que localizar, en la función de densidad, la probabilidad asociada al
intervalo de edades que comprende a los individuos que tengan entre 35 y 44 años. Ese inter-
valo es 35 ::::;; x < 50, de tal forma que:
Como 0,1386 representa la probabilidad de encontrar un individuo que tenga una edad
concreta en años dentro de ese intervalo, la probabilidad pedida en el ejercicio resultará de
multiplicar esta probabilidad por la amplitud del intervalo. Al considerar la variable «edad»
como «años cumplidos», el intervalo incl uye a los habitantes sorianos que tengan 35, 36, 37.
38, 39, 40, 41, 42, 43 y 44 años. Por tanto, la amplitud del intervalo es 45 - 35 = 10.
Así, la probabilidad de encontrar un individuo entre 35 y 44 años es:
Ejercicio 2
a) La distribución de probabilidad resulta de calcular la frecuencia relativa para cada uno de
los intervalos de edades:
X p (x)
Total 1,0000
Soluciones a los ejercicios propuestos 311
Ejercicio 3
La comparación de medias de una distribución binomial nos ayuda:
Oposición A) µ = n · p = 5 x 0,25 = 1,25
Oposición B) µ = n · p = 9 x 0,15 = 1,35
Ejercicio 4
1.764.987
a) p = = 0,5516
3.199.617
El valor esperado para una muestra de n = 20 será:
µ = n·p = 0,5516 X 20 = 11 ,03
Por tanto, esperamos encontrar 11 empresas sin asalariados en una muestra de 20 em-
presas.
b) n = 1.000
µ = n · p = 0,5516 X 1.000 = 551,6
Esperamos encontrar de 552 empresas sin asalariados, es decir, algo más de la mitad
del total de la muestra.
122.183
e) p = = 0,03819
3.199.617
X= 2, n = 15
La probabilidad pedida será:
1.288.390
d) p = = 0,40267
3.199.617
X~ 7, n = 10
p(x ~ 7) = 7
7
(1 º) x 0,40267 x 0,59733 3 + (1 º) x 0,40267 x 0,59733
8
8 2
+ (1 º) x
9
10
X 0 ' 40267 9 X 0 ' 59733 1 + ( 10) X 0 ' 40267 1º X 0 ,59733º =
1.764.987 + 1.288.390
e) p = = 0,9543
3.199.617
X~ 6, n = 10
X 0,9543
8
X 0,0457
2
+ (19º) X 0,9543
9
X 0,0457
1
+ G~) X
1.288.390 + 122.183
t) p = = o 44086
3.199.617 '
X = 3, n = 10
7
p(X = 3) = (1 º) X 0,44086 3 X 0,55914 = 0,175682
3
1.288.390 + 122.183
g) p = = 0,44086
3.199.617
X ~ 2, 11 = 7
Soluciones a los ejercicios propuestos 313
= 0,334449
La probabilidad de que en una muestra de 7 empresas haya como mucho 2 que tengan
entre 1 y 49 asalariados es de 0,33445 (o también, del 33 ,44%).
Ejercicio 5
a) Estandarizamos x en unidades z
x-µ 33 - 30
z =-- - - = 0,5454 ~ 0,55
X (J
5,5
El 29,1 % de las mujeres españolas tuvieron su primer hijo a partir de los 33 años.
X - µ 25 - 30
b) Zx = - - = = -0,909 ~ -0,9 1
(J 5,5
X - µ 32 - 30
e) Zx = -- = = 0,3636 ~ 0,36
(J 5,5
La tabla señala que el área correspondiente al valor Zx = 0,36 es 0,1406, es decir, la pro-
babilidad de que el primer hijo nazca cuando la mujer tiene entre 30 y 32 años. La probabili-
dad de que nazca antes de los 32 años es
El 64,1% de las madres españolas han tenido su primer hijo antes de los 32 años.
314 Estadística para la investigac ión social
X - µ 28 - 30
zx, = -(J- = S,S = - o,3636 ~ o,36
37 - 30
Z X2 = = 1,2727 ~ 1,27
S,S
Ejercicio 6
a) Tipificamos en valores Z, aplicando la corrección de continuidad:
(x - O,S) - µ ( 40 - O,S) - SO
Zx2 = = -1,0S
(J 10
(x - O,S) - µ ( 4S - O,S) - SO
b) Z = = =-O SS
X (J 10 '
El 29,1 % de los pacientes tendrán que esperar menos de 4S días: más del 70% de lo
mismos esperará más de 4S días para ser atendido por el especialista.
Soluciones a los ejercicios propuestos 315
Capítulo VIII
Ejercicio 2
a) µ = 11 b)
- Número
X
de muestras
4
5 1
6 1
7 2
8 2
9 3
10 3
11 4
12 3
13 3
14 2
15 2
16 1
17 1
18
e)
"'~
t;; 3 + - - - - - - - - - - - -
Qj
"E
QJ
"C
.,~
E 2+---------
·::i
z
1+------
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Medias de las muestras
d) µi: = 11
316 Estadística para la investigación socia l
Ejercicio 3
n = 385
Ejercicio 4
n = 4.161
Ejercicio 5
a) n = 399
b) n = 400
Ejercicio 6
n = 650
Ejercicio 7
n=8
Ejercicio 8
a)
W¡
Albacete 1,08939496
Ciudad Real 1,22881488
Cuenca 0,51283202
Guadalajara 0,57806501
Toledo 1,59089313
b) p = 0,45
Capítulo IX
Ejercicio 1
Hombres entre 20.794,6 y 23.205,4 euros anuales.
Mujeres entre 15318 y 17082 euros anuales.
Ejercicio 2
La proporción oscilará entre 20,8% y 25 ,2%.
Soluciones a los ejercicios propuestos 317
Ejercicio 3
Entre 58,95 % y 72,25 %.
Ejercicio 4
La diferencia en viajes al extranjero entre activos e inactivos es entre 1,4 y 1,8 viajes menos
de media por parte de los inactivos respecto a los activos.
Ejercicio 5
Entre -0,001 y 0,131. En porcentaje entre - 0,1 % y 13,1%. Los resultados indican que a
pesar de los resultados la diferencia podría ser incluso favorable a las áreas rurales, aunque
irrelevante (0,1 %). Los datos señalan que en las áreas urbanas podría haber hasta un 13%
más de hogares con vehículo que en las áreas rurales si bien también podría suceder que la
proporción de hogares con vehículo fuera idéntica.
Ejercicio 6
El tiempo medio de desplazarrúento ha crecido entre 1 y 25 ,8 minutos en el último año.
Glosario
Desviación media: Es la media de las distancias en valores absolutos (sin tener en cuenta
los signos positivo y negativo) de cada uno de los elementos de la distribución respecto a la
Media.
Desviación típica o desviación estándar: Es la principal medida de dispersión. Como la
varianza, es una media de las distancias de los elementos de la distribución respecto a la
Media. Es Ja raíz cuadrada de la varianza.
Diagrama de barras: Gráfico para variables cualitativas y cuantitativas de tipo discreto. En
el eje horizontal representa los valores de la variable separados entre sí, y en el eje vertical 1
frecuencia de cada uno de ellos mediante una barra cuya altura equivale a su frecuencia.
Diagrama de barras apiladas: Gráfico de barras que representa en cada una de ellas un
población o una variable dividida en las categorías que la componen, y donde cada categorí
indica su importancia relativa respecto al resto de categorías de la población o variable.
Diagrama de caja: Gráfico consistente en una caja rectangular cuyos lados superior e infe-
rior muestran el recorrido intercuartílico. La caja se divide por una línea que indica la posi-
ción de la mediana, y de cada lado superior e inferior sobresale perpendicularmente una lí-
nea cuya longitud señala a qué distancia se encuentran los casos extremos. Más allá de e
longitud cualquier caso aparece indicado individualmente, interpretándose como «caso atípi-
co».
Diagrama de dispersión: Gráfico que representa la distribución conjunta de dos variables.
Cada elemento se representa a través de los valores emparejados de dos variables mediante
un gráfico cartesiano (.xy) con dos ejes perpendiculares.
Diagrama de líneas para series temporales: Gráfico para estudiar el cambio y la evolució
de las variables a lo largo del tiempo. En el eje horizontal se sitúan los intervalos temporale_.
y en el eje vertical las frecuencias de las variables consideradas.
Diagrama de sectores: Gráfico para variables cualitativas que consiste en un círculo en e
que se representa la población, subdividido en varias partes o sectores, cada uno de los cua-
les representa una categoría de la variable considerada. El arco de cada sector equivale a
frecuencia de cada categoría.
Diseño estratificado de Neyman: Procedimiento de afijación que distribuye los element -
muestrales de forma proporcional al tamaño y la varianza poblacional de los estratos.
Diseño estratificado proporcional: Procedimiento de afijación que distribuye los elemen-
tos muestrales de forma proporcional al tamaño poblacional de los estratos.
Diseño estratificado uniforme: Procedimiento de afijación que distribuye equitativame~
los elementos muestrales entre los estratos.
Distribución binomial de probabilidad: Distribución que resulta de un experimento
Bernoulli. Se genera partiendo de una variable nominal dicotómica codificada como O y
(El 1 representa el éxito y el O el fracaso). Señala la probabilidad que tienen las distin -
combinaciones de éxitos y fracasos en un determinado número de realizaciones.
Distribución de probabilidad: Es la distribución de los casos de una población clasifica
mediante una variable que recoge las probabilidades asignadas a cada uno de los valore -
ésta. Describe cómo se distribuyen las probabilidades de los diferentes valores de esa vari -
Glosario 321
Media: Es una medida de tendencia central que se calcula sumando todos los elementos de
la distribución y dividiendo por el total. Tiene mucha utilidad para comparar colectivos.
Cuando utilizamos la Media como elemento de comparación hacemos como si todos Jos ele-
mentos del conjunto tuvieran el mismo valor.
Mediana: Es el valor que divide el conjunto de elementos de la distribución en dos partes
iguales: un 50% queda por debajo y otro 50% queda por encima. También es una medida de
tendencia central.
Microdatos: Registro informático que contiene la información detallada de cada elemento o
individuo.
Moda: Es el valor de la distribución con la frecuencia más alta. El valor que más se repite de
la distribución.
Muestra: Es la parte del universo sobre la que vamos a obtener información con la finalidad
de conocer la población.
Muestra aleatoria simple: Muestra en las que todos los elementos de una población tienen
la misma probabilidad de ser seleccionados.
Muestras independientes: Término que se refiere a procedimientos de comparación de ob-
servaciones. Quiere decir que las observaciones que se comparan no tienen relación entre sí.
Muestra probabilística: Es la muestra que es seleccionada mediante algún procedimiento
de atribución de probabilidades a los elementos de una población.
Muestras relacionadas: Término que se refiere a procedimientos de comparación de obser-
vaciones. Quiere decir que las observaciones no han sido tomadas de forma independiente
entre ellas. Por lo general se produce cuando comparamos observaciones distintas proceden-
tes de la misma unidad muestral.
Muestras representativas: Subconjuntos de elementos que producen conocimiento sobre
otros conjuntos más amplios.
Muestreo aleatorio: Se define como la extracción de una muestra de una población utili-
zando procedimientos probabilísticos.
n: Número de elementos de una muestra.
N: Número de elementos de una población.
Nivel de confianza: Es la probabilidad que existe de que el error estadístico no sea mayor
que un valor preestablecido.
Niveles de medición de las variable: Llamamos niveles o escalas de medición a los diferen-
tes procedimientos empleados para asignar valores a las características reales observadas.
Los niveles están jerarquizados según la cantidad de información que proporcionan, desde el
nivel más básico que sólo permite la clasificación, hasta el nivel más complejo que permite
la medición en unidades de intervalo.
Nube de puntos: Vid. Diagrama de dispersión.
NUTS: Nomenclatura estadística de las unidades territoriales y administrativas de Ja Unión
Europea. Acrónimo de la expresión francesa «nomenclature des unités territoriales statisti-
Glosario 325
tos de la distribución estarán a menos de 2 desviaciones estándar (k), al menos el 89% debe
estar a menos de 3 desviaciones estándar (k), y al menos el 94% debe de estar a menos de 4
desviaciones estándar (k).
Sesgo: Es la desviación sistemática de nuestras observaciones respecto a la característica
que estamos midiendo u observando.
Suceso aleatorio: Cada uno de los resultados posibles de un experimento aleatorio.
Sucesos dependientes o condicionados: Son aquellos en que la ocurrencia del primero (o
anterior) condiciona la probabilidad del segundo (o posterior).
Sucesos mutuamente excluyentes: Aquellos que no pueden producirse simultáneamente.
Tamaño muestral: Es el número de elementos que extraemos para su observación de una
población.
Universo: Vid. Población.
Valor esperado: Es el valor medio de una distribución de probabilidad. En una distribución
muestra! de medias, este valor será igual a la media de la población.
Valor máximo: Es el valor más elevado de una distribución de frecuencias.
Valor mínimo: Es el valor más bajo de una distribución de frecuencias.
Valor t: Es el valor de la distribución teórica t de Student asociado a un nivel de significa-
ción.
Valor Z: Es el valor de la variable estandarizado a partir de la Media y la Desviación están-
dar. Permite comparar distintas distribuciones de frecuencias . El valor z se calcula dividien-
do la distancia a la media (X¡ - X) por ]a desviación estándar.
Variable: Utilizamos el concepto de variable para dar cuenta del conjunto de valores que
puede presentar una determinada característica, la variable designa el conjunto de las varian-
tes o valores que puede presentar.
Variable aleatoria: Variable asociada a una función de probabilidad.
Varianza: Es la media aritmética de las distancias de cada uno de los elementos de la distri-
bución respecto a la media estadística.
w: Proporción del tamaño muestra! del estrato.
W: Proporción de la población del estrato.
Glosa rio 327
Tabla Z.
Distribución normal estándar
Áreas entre Oy Zx
Para conocer el valor entre Z = O y Z = 1,96, se-
leccionarnos en la primera columna, la fila Z = 1,9
y la columna 0,06. El valor es: 0,4750.
o 0,0000 0,0040 0,0080 0,0 120 0,0 160 0,01 99 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,05 17 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0, 1293 0,133 1 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,413 1 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,493 1 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,496 1 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 . 0,4968 0,4969 0,4970 0,497 1 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,499 1 0,499 1 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
328 Estadística para la investigación social
Tabla t.
Distribución t de Student
Probabilidad
Grados de
libertad
0,5 0,6 0,7 0,8 0,9 0,95 0,98 0,99 0,995 0,998 0,999
1 1,000 1,376 1,963 3,078 6,314 12,71 31 ,82 63,66 127,3 318,3 636,6
2 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 14,09 22,33 31,60
3 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 7,453 10,21 12,92
4 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610
5 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 4,773 5,893 6,869
6 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 4,3 17 5,208 5,959
7 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408
8 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041
9 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,781
10 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587
11 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437
12 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,318
13 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,221
14 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,140
15 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073
16 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,015
17 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,965
18 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,922
19 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883
20 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850
21 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,819
22 0,686 0,858 1,061 1,321 1,71 7 2,074 2,508 2,819 3,119 3,505 3,792
23 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,767
24 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,745
25 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,725
26 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,067 3,435 3,707
27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,690
28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,674
29 0,683 0,854 1,055 1,3 11 1,699 2,045 2,462 2,756 3,038 3,396 3,659
30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646
40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551
50 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496
60 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 2,915 3,232 3,460
80 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639 2,887 3,195 3,41 6
100 0,677 0,845 1,042 1,290 1,660 1,984 2,364 2,626 2,871 3,174 3,390
120 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617 2,860 3,160 3,373
00 0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576 2,807 3,090 3,291
1
Estadística
para la investigación
social
2ª Edición
L
a importancia que tiene la Estadística para la investiga-
ción social y política es tan grande como el terror que
suele despertar su aprendizaje. Este texto es consciente
de ello. Los autores, dedicados desde hace tiempo a la inves-
tigación social y a la docencia estadística, han escrito un texto
en el que continuamente buscan conciliar el rigor de los con-
tenidos con la exposición intuitiva. El lector encontrará que
primero se preguntan para qué hacen esto; y, sólo tras res -
ponder a esa pregunta, muestran el amplio abanico de herra-
mientas que la estadística ofrece al analista, al investigador, al
profesional de la sociología o de la ciencia política .
Las herramientas estadísticas no son simplemente «abrelatas»
de información, sino que están en evolución constante en la me-
dida en que la información sobre el mundo social y político crece
continuamente. Por ello, estas no se exponen en abstracto, sino
que, en su exposición, se ligan directamente al funcionamiento
cibernético de las técnicas analíticas. Así, el lector encontrará
desde casos sencillos resueltos de forma simple hasta el trata-
miento mediante paquetes estadísticos de voluminosas fuentes
de datos.
El texto se ha organizado de menos a más con un argumento
que permita al lector emprender el estudio de forma autó-
noma . Se trata, sobre todo, de un libro para el alumno, para
que desde su propio ritmo, motivando su curiosidad de forma
lógica, pueda desarrollar sus capacidades de autoaprendizaje.
Los autores del libro son profesores de Estadística en el De-
partamento de Teoría, Metodología y Cambio social de la
Facultad de Ciencias Políticas y Sociología de la UNED, con
una amplia trayectoria tanto en investigación social y políti-
ca como en la docencia de métodos de investigación social y,
muy especialmente, de la Estadística para sociólogos y poli-
tólogos