You are on page 1of 161

Fundament'os de

estadstica en la
investigacin social
Segunda edicin

Jack Levin y William c. Levin


Universidad de Northeastem

Traduccin:
VIVIAN DEL VALLE
Facultad de Sociologa
Universidad Nacional de Colombia
Bogot. Colombia

Revisin Tcnica:
HAROLDO ELORZA
Facultad de Psicologa
Universidad Nacional Autnoma de Mxico
OXFORD
UNIVERSITY PRESS A Alfaomega
,':,:,;, .;

OXFORD ';",
'C
UNIVERSITY PRESS : .
Antonio Caso 142, San Rafael,
Delegacin Cuauhtmoc, c.P, 06470, Mxico, D.F.
Tel.: 5592 4277, Fax: 5705 3738, e-mail: oxford@oupmex.com.mx
Oxford University Press es un departamento de la Universidad de Oxford.
Promueve el objetivo de la Universidad relativo a la excelencia en la investigacin, erudicin
y educacin mediante publicaciones en todo el mundo en
Oxford New York
Auckland Cape Town Dar es Salaam Hong Kong
Karachi Kuala Lumpur Madrid Melboume Mexico City ;: ,

Nairobi New Delhi Shangha; Taipei Toronto


Con oficinas en
Argentina Austria Brazil Chile Czech Republic France Greece
.
Guatemala Hungary ltaly Japan Poland Portugal Singapore South Korea
Switzerland Thailand Turkey Ukraine Vietnam
Oxford eS una marca registrada de Oxford University Press en el Reino Unido y otros paises,
Publicado en Mxico por Oxford University Press Mxico, S.A. de C. V.
Divisin: Universitaria
rea: Matemticas
Produccin: Antonio Figueredo Hurtado
Parlada: Javier Perdomo

FUNDAMENTOS DE ESTADIsTICA EN LA INVESTIGACIN SOCIAL Pgs.

Todos los derechos reservados lO 1999-1977, respecto a la segunda edicin en espaol por XI
Oxford University Press Mxico, S.A. de C.V..
Prefacio XIII
Ninguna parte de esta publicacin puede reproducirse, almacenarse en un sistema Prlogo a la edicin en espaol
de recuperacin o transmitirse, en ninguna forma ni por ningn medio, 1. Razones por las que el investigador social emplea la Estadstica
sin la autorizacin previa y por escrito de
Oxford University Press Mxico, S.A. de C. V.
La naturaleza de la investigacin social 1
Las consultas relativas a la reproduccin deben enviarse al Departamento de Derechos
de Autor de Oxford University Press Mxico, S.A. de c.v., Por qu probar hiptesis? . 2
al domicilio que se seala en la parte superior de esta pgina. 3
Miembro de la Cmara Nacional de la Industria Las etapas de la investigacin social
Editorial Mexicana, registro nmero 723. El uso de series de nmeros en la investigacin social 3
ISBN 968-6199-36-5 Funciones de la Estadstica 7
Traducido de la segunda edicin en ingls de Resumen . 12
ELEMENTAR y STATISTlCS IN SOCIAL RESEA RCH Workbook
Copyright lO 1977, by Harper & Row Publishers, Inc.
ISBN 0-06-3150-12-3 Parte 1 DESCRIPCION
AI/aomega Grupo Editor es distribuidor exclusivo para todos los pases de habla hispana
de esta coedicin realizada entre Ox[ord University Press Mxico. S.A. de C. V.
2. Organizacin de datos .............................. 15
y A/faomegn Grupo Editor, S.A. de e v.
ISBN 970-15-1054-2
Distribuciones de frecuencia de datos nominales . 15
Alfaomega Grupo Editor, S.A. de C. V.
Pitgoras 1J39, Col. Del Valle, 03100, Mxico, D.F. Comparacin de las distribuciones . . 16
Impreso en Mxico Distribuciones de frecuencia simples de datos ordinales y por intervalos 20
Octava reimpresin: junio de 2006
Distribuciones de frecuencia agrupadas de datos por intervalos 21
Esta ob~ se Iermin de imprimir en junio de 2006 en 24
Litogrfica Cozuga, S.A. de C.V., Distribuciones acumuladas
Calzada Tlalilco Nm. 78, Col. Tlalilco, 02860, Mxico, D.F.,
Rango percen til 26
solm papel Bond Editor Alta Opacidad de 75 g. 29
El tiraje fue de 2,000 ejemplares. Resumen
30
Problemas
Contenido V/I
VI Contenido
Probabilidad, curva normal . 85
3. Grficas 33 Resumen' . . . . . . . . . . . .. . .. . . . .. . . .. . . .. . . 91
Problemas .. . . . . . . . 91
Grficas de sectores . 33
Grficas de barras . 34 7. Muestras y' poblaciones o 93
Polgonos de frecuencia . 35
Construccin de grficas de barra y polgonos de frecuencia . 36 Mtodos de muestreo . 94
La forma de una distribucin de frecuencia . 37 Error de muestreo . . 99
Resumen . 38 Distribucin muestral de medias ' . 100
Error estndar de la media . 106
Intervalos de confianza . 107
4. Medidas de tendencia central . 39 Estimacin de proporciones . 113
Resumen . . . . . . .. . . 115
La moda . .. .. .. .. . . . .. . . . . . . . . . . . . . . . . . .. ., 39 Problemas . . . . . . .. . . 116
La mcdiana .. . .. . . . . . . .. . . . . . .. . . . . . . .. .. . . . . .. 40
La media .. . .. . . . . . .. . . .. . . .. . . . . .. . . . . . . . . . . . . . . . .. 42 Parte III LA TOMA DE DECISIONES
Comparacin entre la moda, la mediana y la media 44
Obtencin de la moda, la mediana y la media de una distibucin de 8. Comprobacin de diferencias entre medias 121
frecuencia agrupada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 49
Rcsumen .. . . . . . . . . . . .. .. .. . . . . . . . . . . .. 51 la hiptesis nula: ;'Singuna diferencia entre las medias . 121
Problemas .. . . . . . . . . . . . . .. . . . . . .. . . . . . . . . . . . . . . . . . . .. 52 La hiptesis de investigacin: una diferencia entre medias . 122
Distribucin muestral de difen:ncias de medias . 123
5. Medidas de dispersin o variabilidad . . . . . . . . . . . . . . . . . . . . .. 55 Contrastacin de las hiptesis con la distribucin de diferencias . 126
Niveles de con fianza . . 130
El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Error estndar de la di ferencia . 132
La desviacin mcdia 56 Comparaciones entre muestras pequeas . . 136
La desviacin estndar 59 Comparaciones entre muestras de diferente tamao . 140
Comparacin entrt' el rango, la desviacin media y la desviacin estndar. . . .. 66 Comparacin de la misma muestra medida dos veces . 143
Clculo elel rango, ele desviacin meelia y la desviacin estndar ele Requisitos para el uso de los puntajes z y la razn t . 145
los datos agrupados . 67 Resumen . 146
Resumen . . . . .. . . 70 Problemas . 146
Probkmas . . . . . . ., . 70
9. Anlisis de varianza 150
Parte Il DE LA DESCRIPCION A LA TOMA DE DECISIONES
La lgica del anlisis de varianza . 151
6. La curva normal 75 Las sumas de cuadrados . 152
La media cuadrtica . 158
Caractersticas ele la curva normal . 76 La razn F . 159
Curvas normales: d moddo y la n:alidad 76 Una comparacin mltiple elle medias . 164
El r~a bajo la curva normal . 78 Requisitos para el liSO de la razn F . . 166
Aclarando la desviacin est:1ndar: un ejemplo 79 Resumen .. . .. . .. . . .. . . . . . .. . . . .. . . . . 167
El uso de la Tabla B ., . 81 Problell1US .. , ~ . 167
PU!1tajes estndar y la curva nonllal 83
VIII Contenido
Contenido IX
10. Chi cuadrada y otras pruebas no paramtricas 169
Empleando los nmeros negativos 258
Cmo buscar races cuadradas con la tabla A : : : : : :: 259
Chi cuadrada como prueba de significancia . 170
Clculo de la chi cuadrada . 171
Cmo buscar las frecUlimcias esperadas . 173
Apndice B Tablas.......... .............. " .... 261
Una frmula 2 X 2 para calcular la chi cuadrada . 178 Apndice C Lista de fnnulas . 291
Correcciones para pequeas frecuencias esperadas . 179 o

Comparando varios gnlpos . 181


Respuestas a los problemas seleccionados ....................... " 296
Requisitos para el uso de la chi cuadrada . 1'85
La pnleba de la mediana . 186 Referencias
Anlisis de varianza de> dos direcciones por rangos de Friedman . 189
. '" . 301
Anlisis de varianza en una direccin por rangos de Kruskal-Wallis . 192 Indict" ..................
Resumen . 194
................... 303
Problemas . 195

11. Correlacin . 200

La fuerza de la correlacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 200


Direccin de la correladin 201
Correlacin curvilnea . . . .. 202
El coeficiente de correlacin 203
Un coeficiente de correlacin para datos por intervalos 204
Una frmula para calcular el r de Pearson 207
Anlisis de regresin . . . . .. 212
Coeficiente de correlacin para los datos ordenados. . . . . . . . . . . . . . . . . . . . . . .. 217
La gamma de Goodman y Kruskal 223
Coeficiente de correlacin para datos nominales organizados en una tabla de 2 X 2 23 I
Coeficiente de correlacin para datos nominales mayores que una tabla de 2 X 2 . " 233
Resumen ... . . . .. .. . .. . .. . . . .. . . . .. . . .. 236
Problemas 237

12. Aplicacin de mftodos estadsticos a problemas de investigacin 241

Situaciones de investigacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 242


Solucin a las investigaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 250

APENDICES 254

Apndice A Revisin de algunos aspectos fundamentales de matemticas 256

Trabajando con decimales 256


El objetivo de esta segunda edicin de Fundamentos de Estadstica en la InvestI-
gacin Social es introducir a los alumnos de Sociologa y campos afmes en la Estadsti-
ca. El texto est especialmente diseado para aquellos estudiantes de Sociologa,
Ciencias Polticas, Trabajo Social, Psicologa, Administracin Pblica y Educacin,
quienes no han tenido una preparacin intensiva en Matemtic&s y deben tomar su
primer curso de Estadstica.
El libro no pretende ser una obra de referencia exhaustiva, ni debe considerarse
como el texto ms adecuado para cursos avanzados en mtodos estadsticos. Por el
contrario, fue escrito y adaptado para satisfacer la manifiesta necesidad de un trata-
miento comprensible y significativo de la Estadstica bsica. Con este fin, para cada
tema importante del texto se presentan ejemplos detallados y explicados paso a pasode
los procedimientos estadsticos.
El volumen se ha dividido en tres partes: La primera parte (Captulos 2-5) ensea
al estudiante algunos de los mtodos ms utilizados para la descripcin y comparacin
de los datos sin procesar. La segunda parte (Captulos 6-7) es una etapa de trnsito, de-
bido a que conduce al estudiante del tema de la curva normal, como importante
recurso descriptivo, al prximo captulo en que la curva normal se emplea como base
para la generalizacin de las muestras a las poblaciones. La tercera parte, que tambin
sigue la lnea de preparacin para la toma de decisiones, contiene varias pruebas de
significancia bien conocidas, procedimientos para la obtencin de coeficientes de corre-
lacin y una introduccin al anlisis de regresin. En esta edicin se han realizado algu-
nos cambios importantes en relacin con la primera edicin. Se ha dado mayor nfasis
a la estadstica no paramtrica (Captulo 10), al anlisis del rango percentil, probabi-
lidad, comparacin mltiple de medias siguiendo un anlisis de varianza, gamma y r de .
Pearson. Para establecer las aplicaciones de la estadstica a la investigacin, se ha agrega-
do un nuevo captulo (12), en el cu'al se pide a los estudiantes que seleccionen los pro-
'. 'C:." "', .. ,. .,. .:'
.

XII Prefacio ::':


, '.:, ': :'. ',' ~"i'" '.
:;: ',:'

cedimientos estadsticos apropiados a las distintas situaCiones que se presentan en l~


:,,; ;;''': ..
investigacin. Se ha incrementado el nmero de ejercicios al final de los captulos. FI- :,,;"':'::.'
,:,.c::: .,,'::,:
nalmente, los apndices se han aumentado para incluir un repaso de los fundamentos .:;',:;
de las matemticas Y una lista de frmulas. ..,'-".::'''', .':::
Varias personas han contribuido de una manera. significativa al desarrollo d.e esta -..1 ......
segunda edicin. El profundo anlisis de Kenneth Polhnger en Contem~orary SOC~OIOgy
suministr las bases para varias mejoras y adiciones. Estoy agradecido con Richard
Sprunthall y con sus estudiantes del American International College (esp~cialmente .c~n
Lynn Armold, Cheryl Janes, Jim Lynch, Claire Nolen y Gary Zera), qUienes me lucie-
ron notar la presencia, en la edicin anterior, de varias inexactitudes y err~~e.s de .a?re-
ciacin. Debo especial agradecimiento a las siguientes personas por sus anal1S1s cntlcos
a mis revisiones: George Bowlby, James Elliot, Roy Hansen, C. Lincoln Johnson, Carol
Owen, Lawrence Rosen, Norman Roth, Ellen Bouchard Ryan y Larry Siegel: Tambin
estoy agradecido con Suzanne Johnson y Michael Wesbuch por los comentanos y suge- Nuestro objetivo, al traducir este libro de texto, es introducir en la metodologa
rencias que nos han hecho en forma espontnea. . . estadstica al estudiante de Ciencias Sociales. La precisin, claridad y sencillez refle-
Finalmente agradezco al Ejecutivo Literario del difunto Su Roland A. Flsher, jadas en esta obra, son tres de las caractersticas ms importantes del profesor Jack
F.R.S., a Frank Yates, F.R.S., y a Oliver y Boyd Edinburgh por el permiso c~nce~ido Levin. Estas cualidades pedaggicas son esenciales para una primera experiencia con
para reproducir las Tablas III, IV, V y VI de su libro Statistical Tables for BlOloglcal, la Estadstica. Particularmente, pensamos en el caso de los estudiantes de cualquier
Agricultural and Medical Research. rea social que no poseen una base matemtica slida, pero que necesariamente de-
bern aplicar la Estadstica en el curso de sus estudios y durante toda su actividad
profesional.
Jack Levin No es aconsejable considerar a ste como un libro de texto para cursos avanzados
de Estadstica, pues fue diseado para los dos primeros cursos elementales (Estadstica
descriptiva y Estadistica inferencial) que sirven de fundamento en todas las reas de
las Ciencias Sociales.
En nuestra opinin se trata de un libro de gran valor didctico para Latinoamrica
que todo estudiante de Ciencias Sociales debe utilizar en su aprendizaje de los mto-
dos estadsticos. Los ejemplos son muy actuales, amenos e interesantes; adems se
desarrollan en forma detallada, lo cual le imprime un valor pedaggico inapreciable.
Es importante mencionar que esta segunda edicin revisada, del libro del profesor
Levin, se realiz en 1977, despus de treinta y seis aos de experiencia pedaggica en
el campo de la Estadstica.
Slo nos queda agradecer a los editores de HARLA su dedicacin y esfuerzo para
la publicacin de esta obra, con lo cual se satisfacen las necesidades actuales de los
estudiantes latinoamericanos.

Vivian del Valle y


Haroldo Elorza
Todos nosotros tenemos algo de investigadores sociales. Casi diariamente hacemos
"sabios pronsticos" relativos a los acontecimientos futuros de nuestra vida con el
fm de predecir lo que suceder ante nuevas situaciones o experiencias. A medida que
aparecen estas situaciones, con frecuencia apoyamos o confirmamos nuestras ideas;
otras veces, sin embargo, no somos tan afortunados y debemos experimentar desagra-
dables consecuencias.
Tomemos en consideracin algunos ejemplos familiares: podramos invertir en
el mercado de valores, votar por un candidato poltico que promete resolver
problemas internos, apostar a los caballos, tomar medicinas para reducir las molestias
de una gripe, jugar' a los dados en un ca'sino, tratar de conocer psicolgicamente un
poco a nuestros maestros en relacin con un examen o aceptar una cita con un
desconocido, confiando en la palabra de un amigo.
Algunas veces ganamos; algunas veces perdemos. As, podramos hacer una
buena inversin en el mercado de valores, pero arrepentirnos de nuestra decisin
electoral; ganar dinero en los juegos de azar, pero descubrir que nos hemos equi-
vocado al tomar el remedio para nuestra nfermedad; resolver bien el examen,
pero tener una desagradable sorpresa al asistir a la Cita con el desconocido, y as'!
sucesivamente. Desafortunadamente, es cierto que no todas nuestras predicciones
diarias estarn apoyadas por la experiencia.

LA NATURALEZA DE LA INVESTlGACION SOCIAL

De una manera un tanto semejante, el cientfico social tiene ideas acerca de la


naturaleza de la realidad social (a las cuales llama hiptesis), y, frecuentemente,
comprueba sus ideas por medio de la investigacin sistemtica. Por ejemplo, podra
presentar la hiptesis de que los nios socialmente aislados ven ms televisin que
2 Razone, por I/J, que el inve,tigador ,ociol emplea la e,tadltica
Razones por las que el investigador social emplea la eUad,tica 3
los nifios que estn bien integrados con sus grupos afines; podra hacer una
encuesta en la cual se pregunte a ambos grupos de nios, los socialmente aislados y
somete~l~s a un.a prueba sistemtica, entonces tal vez le interesara saber que cada
afir~.aclOn es directamente opuesta a lo que se encontr en realidad. Los soldados
los bien integrados, acerca del tiempo que dedican a ver televisin. Tambin podra
defcI~ntemente educados se mostraron ms neurticos que aqullos con educacin
plantear la hiptesis de que las familias, en donde slo existe el padre y falta la ~adre o supenor; a los del sur no se les not mayor habilidad que a los del N rt
existe la madre y falta el padre, generan ms delincuencia que las famihas que . 1 . o e en
ad ap t arse a u~ clI~a roplca, y. aSI sucesivamente. I Depender slo del sentido comn
t
cuentan con la presencia del padre y de la madre; podra, por ltimo proceder a
entrevistar muestras de delincuentes y no delincuentes para determinar si uno o
de las expenenclas cotidianas, obviamente tiene sus limitaciones.
ambos padres estuvieron presentes en su formacin familiar.
As de un modo similar a su contraparte en las ciencias fsicas, el investigador
LAS ETAPAS DE LA INVESTlGACION SOCIAL
social c;n frecuencia investiga para comprender mejor los problemas y acon tecimien-
tos que se presentan en su especialidad. La investigacin social toma muchas f~rmas
y puede ser empleada para investigar una amplia variedad de problemas. El Inves- El contrastar sistemticamente nuestras ideas acerca de la natura'eza de la l'd d
'1' f real a
tigador puede participar en la observacin de una pandilla de delincuentes, en una socia eXige con recuencia una investigacin cuidadosamen te planeada y ejecutada.
en la cual: .
encuesta de muestras de simpatas y de antipatas polticas, en un anlisis de valores
de la prensa clandestina o en un experimento para determinar los efectos que se
producen al obligar a las familias a abandonar sus hogares y establecerlos en. otros l. Se reduce a una hiptesis contrastable, el problema que se va a estudiar
sitios con el fin de ceder este su espacio a las autopistas recientemente construidas. (por ~jemplo las "familias con 11110 slo de los padres, generan ms delin:
cuenCla que las familias con los dos padres");
POR QUE PROBAR HIPOTESIS? 2. Se desar:olla .un conjunto de instrumentos apropiados (por ejemplo, elaborar
un cuestlOnano o un programa de entrevistas);
Generalmente es conveniente, cuando no necesario, comprobar sistemticamente 3. Se recogen los datos (esto es, el investigador puede ir al lugar del problema
nuestras hiptesis acerca de la naturaleza de la realidad social, aun aqullas que y hacer un censo o encuesta);
parezcan lgicas, verdaderas o evidentes por s mismas. Nuestras diarias "pruebas" de 4. Se analizan los datos para apoyar su hiptesis inicial; y
sentido comn se basan generalmente en preconcepciones muy estrechas, cuando no 5. Los ~sultados del an~isis son interpretados y comunicados a un auditorio,
parcializadas, y en experiencias personales que pueden conducirnos a aceptar con- por ejemplo, por medio de una conferencia o de un artculo en una revista.
clusiones sin valor respecto a la naturaleza de los fenmenos sociales. Para demostrar
este punto examinemos las siguientes hiptesis que fueron comprobadas en un gran . Con: o ,:,eremos en los captulos subsiguientes, el material presentado en este
nmero de soldados durante la Segunda Guerra Mundial. Podra usted "predecir" ~bro ~sta. ~as estrechamente relacionado con la etapa del anlisis de los datos de la
estos resultados con base en sus experiencias cotidianas? Cree que era necesario I11ve~tIgaclOn (ver 4), en el cual los datos recogidos o reunidos por el investigador se
comprobarlos o parecen demasiado obvios y evidentes por s mismos para una anahzan para apoyar su hiptesis inicial. Es en esta etapa de la investigacin cuando
investigacin sistemtica? los datos no procesados se tabulan, calculan, cuentan, resumen, reordenan, comparan
o, en una palabra, se organizan para que podamos comprobar la exactitud o validez
l. Los hombres mejor educados mostraron ms sntomas neurticos que aqullos de nuestra hiptesis.
con menos educacin.
2. Los hombres procedentes de un medio rural generalmente se mostraron con EL USO DE SERIES DE NUMEROS EN LA INVESTlGACION SOCIAL
mejor espritu durante su vida militar que los soldados procedentes de la'
ciudad. Cualquiera que haya participado en la investigacin social sabe que los problemas
3. Los soldados del sur se aclimataron ms fcilmente, en las calientes islas del que se ~resentan en el anlisis de los datos deben ser confrontados en las etapas de
Mar del Sur, que los soldados del Norte.
4. Mientras continuaba la guerra, los soldados estaban ms ansiosos de regresar I
II
planeaclOn de un proyecto de investigacin, puesto que stos (los datos) sustentan la
naturaleza de las decisiones que se tomen en todas las dems etapas. Tales
a los Estados Unidos de lo que lo estaban despus de la rendicin alemana. problemas afectan con frecuencia aspectos de diseo de la investigacin y aun el
I Paul Lazarsfeld, 'The American Soldier-An Expository R . .. P b
Si usted cree que estas afirmaciones tienen suficiente sentido comn como para II p. 380. CVIew, u lic Opi~ion Q/I/Uterly, otoo, 1949,
I
I
I
L
4 Razones por las que el investigador social emplea la estad,stica Razones por las que el investigador socillJ empleo la estad'Stica 5

tipo de instrumentos que se emplearn al recoger los datos. Por esta razn, buscamos deben traslaparse ni excluirse mutuamente. As, la raza de un entrevistado clasificada
constantemente tcnicas o mtodos para mejorar la calidad del anlisis de los mismos. como "blaIlca" no puede clasificarse tambin como "negra"; al clasificarlo como
Muchos investigadores creen que es esencial emplear mediciones. o una serie de "hombre" no se lo puede clasificar tambin como "mujer". La exigencia tambin
nmeros en el anlisis de los datos. Por consiguiente, los investigadores sociales han indica que las categoras deben ser exhaustivas -debe haber un lugar para cada caso
desarrollado mediciones para aplicarlas a una gama muy amplia de fenmenos, que se presente. Como una ilustracin, imaginemos un estudio en el cual todas las
incluyendo prestigio ocupacional, actitudes polticas, autoritarismo, alienacin, ano- personas entrevistadas se categorizaron por raza y se consider solamente la blanca y
ma, delincuencia, clase social, prejuicio, dogmatismo, conformidad, realizacin, etno- la negra. Dentro de qu grupo se categorizara a un chino si apareciera entre los
centrismo, buena vecindad, religiosidad, armona matrimonial, movilidad ocupacio- entrevistados? En este caso sera necesario aumentar el sistema original de categoras
nal, urbanizacin, estatus socioeconmico y fertilidad. para incluir "orientales" o, suponiendo que la mayoria de los entrevistados fUeran
Los nmeros tienen por 10 menos tres funciones importantes para el investi- blancos o negros, incluir una categora mixta en la cual se pudieran colocar tales
gador social, dependiendo del nivel de medida que emplee. Especficamente, las excepciones.
series de nmeros se pueden usar: El lector deber notar que los datos nominales no se clasifican en un rango o
escala por cualidades tales como mejor o peor, ms alto o ms bajo, ms o menos.
l. para categorizar el nivel nominal de la medicin Queda claro entonces, que una medida nominal de sexo no explica si los hombres
2. para determinar el rango o el orden al nivel ordinal de la medicin son "superiores" o "inferiores" a las mujeres. Los datos nominales nicamente se
3. para obtener montajes al nivel de intervalo de la medicin. rotulan, algunas veces por nombre (hombres contra mujeres o personas con prejui.
cios contra las que no los tienen); otras veces por nmero (l contra 2), pero siempre
Antes de proceder a una discusin del papel de las estadsticas en la investigacin con el fin de agrupar los casos en categoras separadas para indicar semejanza o dife-
social, detengmonos a examinar algunas de las principales caractersticas de estos rencia respecto a una cualidad o caracterstica dada.
niveles de medicin, caractersticas que asumirn ms tarde un considerable signifi-
cado cuando tratemos de aplicar las tcnicas estadsticas a situaciones particulares de El nivel ordinal
investigacin.
Cuando el investigador va ms all de este nivel de medicin y busca ordenar sus
El nivel nominal casos en trminos del grado en que poseen una determinada caracterstica, entonces
est trabajando al nivel ordinal de medicin. La naturaleza de la relacin que existe
El nivel nominal de medicin simplemente involucra el proceso de denominar o entre categoras ordinales depende de la caracterstica que el investigador trata de
etiquetar; esto es, colocar los casos dentro de categoras y contar su frecuencia de medir. Para dar un ejemplo conocido, el investigador podra clasificar a las personas
ocurrencia. Para dar un ejemplo, podramos usar una medida de nivel nominal para con respecto al estatus socioeconmico como "clase baja", "clase media" y "clase
indicar cuntas de las personas entrevistadas tienen prejuicios hacia los portorrique- alta". O, en lugar de clasificar a los estudiantes. de una clase dada como con
os y cuntas no. Como se muestran en la Tabla 1.1, podramos interrogar a diez prejuicios o sin prejuicios, los podra clasificar de acuerdo con su grado de prejuicio
estudiantes de una clase dada y determinar que 5 pueden ser considerados como (l) hacia los portorriqueos, como se indica en la Tabla 1.2.
con prejuicios y 5 pueden ser tomados como (2) sin prejuicios. El nivel ordinal d.,medicin nos da informacin acerca de la organizacin de
Otras medidas de mvel nominal en la investigacin social son el sexo (femenino las categoras, pero no indica la magnitud de las diferencias entre los nmeros. Por
contra masculino), el estatus de bienestar social (los que lo reciben contra los que no ejemplo, el investigador social que emplea una medida de nivel ordinal, para estudiar
lo reciben), los partidos polticos (conservador, liberal, independiente y socialista), el prejuicio contra los portorriqueos, no sabe qu tanto ms de prejuicios tiene una
el carcter social (de direccin interna, de otra direccin y tradicional), el modo de persona que otra. En el ejemplo dado anteriormente, no es posible determinar hasta
adaptacin (conformidad, innovacin, ritualismo, retiro, rebelin), la orientacin en
el tiempo (presente, pasado y futuro), y la urbanizacin (urbana, rural, suburbana),
TABLA 1.1 Actitudes hacia
para mencionar slo unas cuantas. los portorriqueos (de diez Actitud hacia los portorriqueos Frecuencia
Al trabajar con los datos nominales debemos tener en cuenta que cada caso estudiantes universitarios): 1 = con prejuicios
debe colocarse en una sola categora. Esta exige!1cia indica que las categoras no 5
datos nominales 2 = sin prejuicios 5
N. del R. Tambin conocido como estrato socioeconmico. Total 10
6 Razon~s por las qu~ ~l inv~stigador social ~mpl~a la ~stadtica
Razones por las que el investigador social emplea la estad,ica 7

TABLA 1.2 Actitudes hacia Como indica la Tabla 1.3, podemos ordenar a los estudiantes en trminos de sus
los portorriqueos (de diez Estudiante Rango
prejuicios y adems indicar las distancias que los separan a unos de otros. Por
estudiantes universitarios): Julia l. la que tiene ms prejuicio
datos ordinales . ejemplo, es posible atinnar que Roberto es el menos prejuicioso de la clase ya que
Mara 2. segunda
obtuvo el puntaje ms bajo. Tambin podemos decir que Roberto es ligeramente
Jaime 3. tercero
Jos 4. cuarta menos prejuicioso que Patricia o Aldo, y aun menos que Julia, Mara, Jaime o Jos,
Laura 5. quinta todos los cuales obtuvieron puntajes sumamente altos. Dependiendo del objetivo
Juan 6. sexto para el cual el estudio est diseado, podra ser importante determinar tal infor-
Fernando 7. sptimo macin, que no se encuentra disponible al nivel ordinal de medicin.
Aldo 8. octavo
Patricia 9. novena
Roberta 10. la que tiene menos prejuicio
FUNCIONES DE LA ESTADISTICA

qu punto Julia tiene ms preJuIcIOs que Mara o hasta qu grado Roberta ~uestra El momento en el que el investigador social emplea nmeros cuantifica sus datos a
menos prejuicios que Patricia o Aldo. Esto se debe a que, en una escala ordIllal, I~s los niveles de medicin nominal, ordinal o por intervalos - cuando es probable que
intervalos entre los puntos o rangos no son conocidos o significativos. Por conSI- emplee la estadstica como un instrumento para (1) la descripcin y (2) la toma de
guiente, no es posible asignarle puntajes a casos localizados en puntos de la escala. decisiones. Echemos ahora una mirada ms de cerca a estas importantes funciones de
la estadstica.
Nivel por intervalos
Descripcin
En contraste el nivel de medicin por intervalos nos indica tanto el orden de las
categoras c~mo la distancia exacta entre ellas. Las medidas por intervalos e~plean Para llegar a conclusiones o a obtener resultados, un investigador social con frecuen-
unidades constantes de medicin (por ejemplo, pesos o centavos, grados centIgrados cia estuda centenares, miles o aun cifras ms altas de personas o grupos. Como caso
o Fahrenheit, metros o centmetros, minutos o segundos), las cuales proporcionan extremo, la "Oficina de Censos" de los Estados Unidos lleva una lista completa de la
intervalos iguales entre los puntos de la escala. poblacin de los Estados Unidos en la cual se pone en contacto con ms de 200
millones de personas. A pesar de la ayuda de numerosos procedimientos complejos
De esta manera una medicin, por intervalos, del prejuicio hacia los portorriqueos
-tal como resp~estas a una serie de preguntas sobre los portorriqueos, clasificadas TABLA 1.4 Calificaciones
de O a 100 (donde 100 representa el ms alto grado de prejuicio)- podra dar los de un examen de 80 72 83 91 29
estudiantes 38 89 49 36
datos que se observan en la Tabla 1.3 sobre los diez estud'aLtes de un determinado 43 60 67 49
saln de clase. 81 52 76 62
79 62 72 31
TABLA 1.3 Actitudes hacia 71 32 60 73
los portorriqueos (de diez Estudiante Puntuacirfl 65 28 40 40
estudiantes universitarios): 59 39 58 38
Julia 98 90 49 52 59
datos por intervalos Mara 96 83 48 68 60
Jaime 95 39 65 54 75
Jos 94 42 72 52 93
Laura 22 58 81 58 53
Juan 21 56 58 77 57
Fernando 20 72 45 88 61
Aldo 15 63 52 70 65
49 63 61 70
Patricia 11 81 73
Roberto 6
39 79
56 69 74 37
Q La puntuacin ms alta indica ms prejuicio contra los portorriqueos 60 75 68 46

L
'f..
Razones por las que el investigador social emplea la estadltica 9
8 Razones por las que el investigador social emplea la estadtica
FIGURA 1.1 CalifICaciones de examen
diseados para tal fin, ~onstituye siempre una tarea descomunal descri~ir y ~esu~ir de 80 estudiantes, organizadas en
las enormes cantidades de datos que se generan de los proyectos de mvestlgaclOn una grfica de barras 15
social.
Para dar un ejemplo cotidiano, las calificaciones de un examen de un grupo de
slo 80 estudiantes han sido enlistadas en la Tabla lA. Ve algn sistema de
referencia en estas calificaciones? Puede describir estas calificaciones en pocas
palabras? En pocas frases? Son, en conjunto, particularmente altas o bajas?
Incluso usando los principios ms elementales de la estadstica descriptiva. como en
los captulos subsiguientes de este texto, es posible caracterizar la distribucin de las
5
calificaciones de exmenes de la Tabla lA con bastante claridad y precisin, de
modo que las tendencias o caractersticas generales del grupo se puedan descubrir
ms rpidamente y comunicar con mayor facilidad a cualquier persona. Primero,
podramos arreglar nuevamente las calificaciones en orden consecutivo (del ms alto OL--L---'_--'_-1_-1_-.l._-.l._-.l._
~29 30-39 40-49 50-59 60-09 70-79 80~9 90-99
al ms, bajo) para reunirlas dentro de un nmero ms pequeo de categoras. Como
se muestra en la Tabla 1.5, esta distribucin de frecuencia agrupada (la cual !le Categora de calificaciones
estudiar en detalle en el Captulo 2) presentara las calificaciones dentro de catego-
ras ms amplias junto con el nmero o frecuencia (f) de estudiantes cuyas califica-
ciones cayeron dentro de estas categoras. Se puede ver fcilmente, por ejemplo, completa de las calificaciones y dividiendo esta suma entre el nmero de estudiantes,
que 17 estudiantes recibieron calificaciones entre 60 y 69; solamente dos recibieron nos da una idea ms clara de la tendencia del gnlpo en conjunto. El promedio
calificaciones entre 20 y 29. aritmtico en la presente ilustracin es de 60,5 una calificacin bastante baja si se
Otro procedimiento til (explicado en el Captulo 3) sera el reorganizar las compara con el promedio de clase con el que la mayora de los t'studiantt's ya
calificaciones grficamente. Como se muestra en la Figura 1.1, podramos colocar las pueden estar familiarizados. Este grupo de 80 estudiantes dio en conjunto. un
categoras de calificaciones (desde 20-29 hasta 90-99) en un eje de la grfica (esto rendimiento aparentemente muy bajo:
es, la lnea base horizontal) y sus nmeros o frecuencias a lo largo de otra lnea As, con la ayuda de recursos estadsticos, tales como las distribuciones de
(esto es, el eje vertical). frecuencia agrupada, las grficas y el promedio aritmtico, es posible detectar y
Este arreglo nos da una representacin grfica bastante fcil de visualizar (por describir patrones o tendencias en las distribuciones de puntajes (por t'jemplo en las
ejemplo en la grfica de barras), en la cual podemos ver que la mayora de las calificaciones de la Tabla 104), las cuales, de otra manera, no hubieran sido advertidas
calificaiones caen entre 50 y 80 y que relativamente pocas notas son: o mucho ms por el observador casual. En el presente contexto, entonces. podemos definir la
altas o mucho ms bajas. estadstica como un conjunto de tcnicas para la reduccin de datos ClIantitatil'os
Como lo explicaremos en el Captulo 4, un mtodo estadstico particularmente (esto es, na serie de nmeros) a 1111 nmero pequeiio de trminos descriptil'os ms
conveniente y til -con el cual ya estamos ms o menos familiarizados- es adecuados y de lectura ms simple.
preguntar cul es la calificacin de la persona promedio en este grupo de 80
estudiantes. El promedio aritmtico (o media) que se obtiene sumando la lista La toma de decisiones

TABLA 1.5 Calificaciones de examen - - - - - - - - - - - - - - - - - - - - - Con el fin de probar una hiptesis, es necesario, a menudo, ir ms all de la simple
de So estudiantes: una distribuciD Calificaciones f
de frecuencia agropada
------------------
90-99 3
descripcin; tambin es frecuentemente necesario hacer inferencias, esto es, tomar
decisiones basndose en los datos recogidos solamente de llna pequerla porcin o
80-89 7
70-79 16 muestra del grupo ms grande que pensamos estudiar. Factores tales como costo,
60-69 17 tiempo, y la necesidad de una supervisin adecuada, muchas veces impiden hacer
50-59 15 una completa enumeracin o lista del grupo completo (los investigadores sociales
40-49 11 llaman poblacin o universo a este grupo ms grande, del cual se ha sacado una
30-39 9
20-29 2 muestra).
J o Razones por las que el investigador social emplea la estadtica Razones por las que el investigador social emplea la estadtica 11

Ntese que los resultados obtenidos de esta muestra de 200 estudiantes, como
TABLA 1.6 Uso de la mariguana, Sexo de los elltrelJistados
el sexo de los entrevistados: caso 1
se presentan en la Tabla 1.6, estn de acuerdo con la direccin de hiptesis
Femenino formulada: 60 de cada 100 hombres informaron que haban probado la mariguana,
Usu de la mariguana Masculino
mientras solamente 40 de cada 100 mujeres afirmaron que lo haban hecho. Clara-
Nmero de lus que la han probado 60 40 mente, en esta pequea muestra, los hombres tuvieron ms tendencia que las mujeres
Nmero de los que no la han probado 40 60 a fumar mariguana. Para nuestros propsitos, sin embargo, la pregunta ms impor-
Total 100 100
tante es si estas diferencias de sexo en el uso de la mariguana son lo suficientemente
grandes como para generalizarlas confiadamente a una poblacin de ms de 20 000
Como lo veremos en el Captulo 7, cada vez que el investigador social prueba su estudiantes. Representan, estos resultados, diferencias verdaderas en la poblacin?
hiptesis en una muestra, debe decidir si en verdad resulta correcto generalizar los O hemos obtenido diferencias casuales entre hombres y mujeres debido estricta-
resultados obtenidos con respecto a la poblacin entera, de la cual se obtuvo la mente al error de muestreo -el error que ocurre cada vez que escogemos un grupo
muestra. Del muestreo resulta inevitablemente el error, aun del muestreo que ha sido pequeo entre un grupo ms grande?
correctamente concebido y ejecutado. Este es el problema que se presenta al Para ilustrar el problema de generalizar los resultados obtenidos, de muestras a
generalizar o sacar inferencias de la muestra a la poblacin. 2 poblaciones ms grandes, imaginemos que los investigadores obtuvieron ms bien los
La Estadstica puede utilizarse con el fin de generalizar los resultados obtenidos resultados que se muestran en la Tabla 1.7. Ntese que estos resultados estn
en la investigacin, con un alto grado de seguridad, de pequeas muestras a todava en la direccin predicha por la hiptesis: 55 hombres en oposicin a slo 45
poblaciones mayorcs. Para comprender mejor este objetiva de tomar decisiones en mujeres haban probado la mariguana. Pero an estamos deseando generalizar estos
estadstica y el concepto de generalizar de las muestras a las poblaciones, examine- resultados a una poblacin universitaria ms grande. No es probable que una
mos los resultados de un estudio hipottico que se llev a cabo para probar la diferencia de esta magnitud (ms hombres que mujeres) ocurriera simplemente
siguiente hiptesis: por casualidad? O podemos confiadamente decir que tales diferencias, relativamente
pequeas, reflejan una diferencia real entre hombres y mujeres slo en el caso
Hiptesis: Es ms probable que los universitarios hayan probado la mariguana, que particular de esta universidad?
las universitarias. Ilustremos un poco ms. Supongamos que los investigadores sociales hubiesen
Los investigadores de este estudio decidieron probar su hiptesis en una univer- obtenido los datos que se muestran en la Tabla 1.8. Las diferencias entre hombres y
sidad urbana en la cual haba unos 20000 estudiantes matriculados (10 000 hombres mujeres mostradas en la tabla no podan haber sido ms pequeas y an estar
y 10000 mujeres). Debido a los factores de costo y de tiempo no pudieron ceidas a la direccin de la hiptesis: 51 hombres en contraste con 49 mujeres han
entrevistar a cada uno de los estudiantes de dicha universidad, pera obtuvieron, de la fumado mariguana, slo dos hombres ms que mujeres. Cuntos de nosotros
oficina de matriculacin, una lista completa de los estudiantes. De esta lista escogie- estaramos dispuestos a considerar eslos resultados como una verdadera diferencia de
ron uno de cada cien (mitad hombres y mitad mujeres) para la muestra y luego los poblacin entre hombr ~s y mujeres, ms que como un producto de la casualidad o
entrevistaron miembros del grupo de investigacin entrenados para este fin. Las del error de muestreo? Dnde trazaremos la lnea? En qu punto es lo suficien-
personas encargadas de las entrevistas preguntaron a cada uno de los 200 participan- temente grande una diferencia de muestreo para que estemos dispuestos a tratarla
tes en la muestra si l o ella haban probado la mariguana y luego procedieron a como significativa o real? Con la ayuda de la estadstica podemos tomar tales
registrar el sexo del estudiante como masculino o femenino. Los resultados de dicho decisiones acerca de la relacin entre muestras y poblaciones, con facilidad y un alto
estudio fueron tabulados por sexo y presentados en la Tabla 1.6. grado de con fiabilidad. . .
A manera de ilustracin, si hubiramos empleado una de las pruebas estadlstlcas
2 Al estudiante: El concepto de "error de muestreo" se estudiar con ms detalle en el Captulo 7. Sin embargo,
para comprender mejor la inevitabilidad del error, cuando se muestrea de un grupo muy grande es posible que el TABLA 1.7 Uso de la
estudiante desee hacer ahora la siguiente demostracin. ReflTindose a la Tabla 1.4, que contiene las calificaciones Sexo de los entrevistados
de una poblacin de SO estudiantes, seleccione, al "azar" (por ejempl", cerrando los ojos y sealando), una mariguana segn el sexo de
muestra de una pocas calificaciones (por ejemplo 5) de la lista completa. Encuentre la calificacin promedio los entrevistados: caso 11 Uso de la mariguana Masculino Femenino
sumando las cinco puntuaciones y dividiendo entre cinco el nmero total de calificaciones. Ya se ha indicado
que la nota promedio del grupo completo de los SO estudiantes fue de 60,5 Hasta dnde difiere la muestra
promedio del promedio de la clase 60,5? Pruebe esto en varias muestras ms de algunas otras calificaciones
Personas que la han probado 55 45
escogidas al azar del grupo ms grande. Con frecuencia se hallar que la muestra media diferir casi siempre, al Personas que no la han probado 45 55
menos ligeramente, de la obtenida de la clase completa de SO estudiantes. Esto es lo que para nosotros significa Total 100 100
"error de muestrean.
12 Razones por las que el investigador social emplea la estadltica

TABLA 1.8 Uso de la


Sexo de los entrevistados
mariguana segn el sexo de .
los entrevistados: caso In Uso de lamariguana Masculino Femenino
Personas que la han probado 51 49
Personas que no la han probado 49 51
Total 100 100

de significado que se estudiarn ms adelante en este texto (por ejemplo la Chi


cuadrada; ver Captulo 10), ya sabramos que solamente los resultados de la Tabla 1.6
podran generalizarse a la poblacin de 20 000 universitarios - que 60 de cada 100
hombres, y solamente 40 de cada 100 mujeres, han probado la mariguana: este hecho
es un hallazgo lo suficientemente sustancial como para aplicarlo a la poblacin
entera con un alto grado de con fiabilidad. Nuestra prueba estadstica nos dice que
hay slo un 5% de probabilidad de que estemos equivocados. Por contraste, los resul-
tados presentados en las tablas 1.7 y 1.8 son estad(sticamente no significativos,
siendo el producto de un error de muestreo ms que de las diferencias reales del
sexo en el uso de la mariguana. De nuevo, empleando un criterio estadstico,
concluimos que estos resultados no reflejan verdaderas diferencias de poblacin, sino
un mero error de muestreo.
Entonces, en el presente contexto, la Estadstica es un conjunto de tcnicas
para tomar decisiones que ayuden a los investigadores a hacer inferencias de las
muestras a las poblaciones Y. en consecuencia, a comprobar hiptesis relativas a la
naturaleza de la realidad social.

RESUMEN

Este captulo relaciona nuestras predicciones diarias acerca de eventos futuros, con
las experiencias del investigador social que emplea la Estadstica como una ayuda
para comprobar sus hiptesis acerca de la realidad social. La medicin fue analizada
en trminos de datos nominales, ordinales y por intervalos. Se identificaron dos
funciones principales de la Estadstica con la etapa del anlisis de los datos de la
investigacin social, posteriormente se discutieron e ilustraron brevemente:

1. La descripcin (esto es, la reduccin de datos cuantitativos a un nmero


menor de trminos descriptivos ms convenientes), y
2. La toma de decisiones (esto es, hacer inferencias de muestras a poblaciones).
'.,
.'

La recoleccin de datos implica un gran esfuerzo por parte del investigador social
que busca aumentar sus conocimientos sobre el comportamiento humano. Para
entrevistar o bien para sacar informacin a beneficiarios de la asistencia pblica, estu-
diantes universitarios, drogadictos, residentes de viviendas pblicas, homosexuales,
personas de clase media, u otros, se requiere un grado de previsin, planificacin
cuidadosa y control o bien pasar algn tiempo en dicha situacin.
Sin embargo, completar la recoleccin de datos es slo el principio, en lo que
concierne al anlisis estadstico. La recoleccin de datos constituye la materia prima
con que debe trabajar el investigador social si ha de analizar sus datos, obtener
resultados y probar sus hiptesis sobre la naturaleza de la realidad social.

DISTRIBUCIONES DE FRECUENCIA DE DATOS NOMINALES

El carpintero transforma la madera en muebles; el cocinero convierte los alimentos


crudos en los platos ms apetitosos que se sirven a la mesa. Mediante un proceso
similar, el investigador social, auxiliado por "recetas" -llamadas frmulas y tcni-
cas- intenta transformar sus datos crudos en un conjunto de medidas significativas
y organizadas que puedan utilizarse para probar su hiptesis inicial.
Qu puede hacer el investigador social para organizar los nmeros desordena-
dos que recoge de sus entrevistados? Cmo se las arregla para transformar esta
masa de datos en un resumen fcil de entender? El primer paso sera construir una
distribucin de frecuencia en forma de tabla.

TABLA 2. 1 Estudiantes
de ambos sexos concurrentes Sexo del estudiante Frecuencia (f)
a una manifestacin Masculino 80
poltica de izquierda Femenino 20
Total 100
N. del E. crudo significa "no procesados".
15
----------------......-..-..._~--

16 Descripcin Organizacin de datos 17

Examinemos la distribucin de" frecuencia en la Tabla 2.1. Ntese primero que hombres, en esta universidad, participaron ms que su contraparte femenina tanto en
la Tabla est encabezada por un nmero (2.1) Y un ttulo que da al lector una las manif!lstaciones izquierdistas como derechistas. Podemos afrrmar tambin que,
idea sobre la naturaleza de los datos presentados -"Estudiantes de ambos sexos cuando las mujeres asistieron, tendieron a participar algo ms en las manifestaciones
concurrentes a una manifestacin poltica de izquierda." Este es el arreglo estndar; derechistas que en las izq uierdistas.
toda tabla debe estar claramente titulada y, cuando se presente dentro de una serie,
tambin debe estar marcada con un nmero.
Proporciones y porcentajes
Las distribuciones de frecuencia de los datos nominales consisten de dos
columnas. As, en la Tabla 2.1, la columna de la izquierda indica qu caracterstica
Cuando el investigador estudia distribuciones de igual tamao total, los datos de
e,.t siendo presentada (sexo del estudiante) y contiene las categoras de anlisis
"frecuencia pueden utilizarse para hacer comparaciones entre los grupos. As, el nmero
(masculino y femenino). Una columna adyacente con el encabezado de "frecuencia"
de hombres asistentes a manifestaciones, de derecha y de izquierda, puede ser
o "f", indica ei nmero de casos en cada categora (80 y 20 respectivamente), as comparado directamente, ya que sabemos que haba exactamente 100 estudiantes en
como el nmero total de casos (N= l 00).
cada manifestacin. Sin embargo, generalmente no es posible estudiar distribuciones
Una rpida mirada a la distribucin de frecuencia, en dicha Tabla, revela
que tengan exactamente el mismo nmero de casos. Por ejemplo, cmo podemos
claramente que a la manifestacin de izquierda concurrieron muchos ms hombres
asegurarnos de que precisamente 100 estudiantes asistirn a ambas clases de manifes-
que mujeres -80 de los 100 estudiantes que asistieron eran hombres.
taciones polticas? Para aclarar tales resultados, necesitamos un mtodo para estan-
darizar distribuciones de frecuencia por tamao -una forma de comparar grupos a
COMPARACION DE LAS DISTRIBUCIONES pesar de las diferencias en las frecuencias totales. Dos de los mtodos ms populares
y tiles para estandarizar por tamao y comparar distribuciones son la proporcin y
Supongamos, sin embargo, que deseamos comparar los asistentes a la manifestacin el porcentaje. La proporcin compara el nmero de casos en una categora dada con
izquierdista con estudiantes similares en una manifestacin derechista. La compara- el tamao total de la distribucin. Podemos convertir cualquier frecuencia en una
cin entre distribuciones de frecuencia es un procedimiento que se utiliza a menudo proporcin P, dividiendo el nmero de casos en cualquier categora dada f por el
para aclarar resultados y agregar informacin. La comparacin particular que haga el nmero total de casos en la distribucin N.
investigador est determinada por la pregunta que busca contestar.
Volviendo a nuestra hipottica manifestacin poltica, podramos preguntar: es o sea,
probable que participen ms estudiantes del sexo masculino, que del sexo femenino
en manifestaciones tanto izquierdistas como derechistas? Para encontrar una res-
puesta podramos comparar los 100 estudiantes asistentes a la manifestacin izquier- Por consiguiente, 10 hombres entre 40 estudiantes asistentes a una man!fest'!-
dista con otros 100 estudiantes de la misma universidad asistentes a una manifesta- . " P = 4"0=
cin pueden expresarse en la proporclOn 10 025
,
cin den:dlista. Imaginemos que obtenemos los datos mostrados en la Tabla 2.2. A pesar de la utilidad de la proporcin, mucha gente prefiere indicar el tamao
Como se muestra en la tabla, 30 de 100 estudiantes en la manifestacin relativo de una serie de nmero en trminos del porcentaje, la frecuencia de
derechista, pero slo 20 de 100 estudiantes en la manifestacin izquierdista, eran ocurrencia de una categora por cada 100 casos. Para calcular un porcentaje, simple-
mujeres. Esto nos da considerablemente ms informacin que la sola distribucin de mente multiplicamos cual9uier proporcin dada por 100. Por frmula,
frecuencia con que empezamos (ver Tabla 2.1). As, podemos afirmar ahora que los.
% = (lOO) ~
TABLA 2.2 Estudiantes de
ambos sexos asistentes Asistencia a las manifestaciones
Por consiguiente, 10 hombres de entre los 40 asistentes a una manifestacin
a manifestaciones polticas
de derecha e izquierda Sexo del estudiante
De izquierda De derecha pueden expresarse en la proporcin P = ~~ = 0,25 o como un porcentaje
f f
% = (lOO).!.Q = 25 por ciento.
Masculino 80 70 40
Femenino 20 30 As, el 25 por ciento de este grupo de 40 estudiantes son del sexo masculino.
Total 100 100 Para ilustrar la utilidad de los porcentajes al hacer comparaciones entre distribucio-
-_._,
18 Descripcin
Organizacin de datos 19

nes, examinemos la participacin en manifestaciones polticas en una universidad El investigador podra aumentar la claridad de su razn dando la base (el
predominantemene izq uierdista. denominador) de alguna forma comprensible. Por ejemplo, la razn de sexo a
Supongamos, por ejemplo, que la manifestacin izquierdista atrajo a un gran menudo empleada por los demgrafos, que buscan comparar el nmero de hombres
nmero de estudiantes, digamos I 352 mientras que la manifestacin derechista y mujeres en cualquier poblacin dada, se da generalmente como el nmero de
atrajo a un nmero mucho ms pequeo, digamos 183. hombres por cada 100 mujeres.
La Tabla 2.3 nos indica tanto las frecuencias como los porcentajes de asistencia a
estas manifestaciones. Ntese la dificultad que existe para determinar rpidamente Para ilustrar, si la razn de hombres a mujeres es l:~ debera haber 150
las diferencias de sexo en la asistencia slo con los datos de frecuencia. En contraste,
hombres por cada 50 mujeres (o reduciendo, 3 hombres por cada mujer). Para
los porcentajes revelan claramente que las mujeres estuvieron igualmente representadas
obtener la terminologa convencional de la razn de sexo, multiplicaramos la razn
en las manifestaciones tanto de derecha como de izquierda. Especficamente, el 20% por 100. Entonces.
de los estudiantes asistentes a la manifestacin izquierdista eran mujeres; el 20% de
los estudiantes asistentes a la manifestacin derechista eran mujeres. Razn de sexo = (100) f ho~bres = (1 ~~) 150 = 300
f mUjeres
Resulta entonces que haba 300 hombres en la poblacin dada, por cada 100
TABLA 2.3 Estudiantes de mujeres.
ambos sexos asistentes a Asistencia a las manifestaciones
Las razones ya no se usan extensamente en la investigacin social, quizs por los
manifestaciones polticas De izquierda De derecha siguientes motivos:
de derecha e izquierda
Sexo del estudiante r (ji
r % l. Se necesita un gran nmero de razones para describir distribuciones que
tienen muchas categoras de anlisis.
Masculino 1082 (80) 146 (80)
Femenino 270 (20) 37 (20) 2. Puede ser difcil comparar razones basadas en nmeros muy grandes.
Total 1352 (lOO) 183 (lOO) 3. Algunos investigadores sociales prefieren evitar las fracciones o decimales que
generan las razones.

Tasas
Razones *
Otra clase de razn, que tiende a ser utilizada ms ampliamente por los investi-
gadores sociales, se conoce como tasa. Los socilogos analizan a menudo a las
Un mtodo menos comn, utilizado para estandarizar por tamao, es la razn,
poblaciones en cuanto a las tasas.. de reproduccin, muerte, crimen, divorcio, matri-
que compara directamente el nmero de casos que caen dentro de una categora
monio, y otros. Sin embargo, mientras que la mayora de las dems razones
(por ejemplo, hombres) con el nmero de casos que caen dentro de otra' categora (por comparan el nmero de casos en cualquier subgrupo (categora) con el nmero de
ejemplo, mujeres). As, puede obtenerse una razn de la siguiente manera, donde f1 casos en cualquier otro subgrupo (categora), las tasas indican comparaciones entre el
es igual a la frecuencia en cualquier categora y f2 es igual a la frecuencia en nmero de casos reales y el nmero de casos potenciales. Por ejemplo, para
cualquier otra categora: determinar la tasa de nacimientos para una determinada poblacin, podramos mostrar
el nmero de nacimientos vivos reales, entre las mujeres en edad de concebir
(aquellos miembros de la poblacin que estn expuestos al riesgo de '.:oncebir y que
por lo tanto representan casos potenciales). De modo similar, para encontrar la tasa
Si estuviramos interesados en determinar la razn que haya de negros a de divorcios, podramos comparar el nmero real de divorcios con el nmero de
blancos, podramos comparar el nmero de negros entrevistados (f = 150) con el matrimonios que ocurren durante algn periodo de tiempo (por ejemplo l ao). Las
nmero de blancos entrevistados (f = 100) como :~~ Cancelando los lactares tasas suelen darse en trminos de una base de I 000 casos potenciales. As, las tasas
comunes en el numerador y el denominador, es posible reducir la razn a su forma de nacimiento se dan como el nmero de nacimientos por cada I 000 mujeres; las
ms simple, por ejemplo l6g =+
(haba 3 entrevistados negros por cada 2 blancos).
tasas de divorcio podran expresarse en trminos del nmero de divorcios por cada
I 000 matrimonios. De este modo, si ocurren 500 nacimientos entre 4 000 mujeres
N. dcl E. Este trmino tambin se conoce como "cociente". El estudiante encontrar que en la prctica de en edad de concebir, resulta que hubo 125 nacimientos por .cada I 000 mujeres en
campo se utilizan indistintamente. edad de concebir.
20 Descripcin Organizacin de daros 21

En contraste, las categoras o puntajes en las distribuciones ordinales representan


. . [ casos reales (1 000 )500 = 125 el grado en que est presente una caracterstica en -particular. El enlistado de tales
Tasa de naClImento = (1 000) '":[:--------
casos potenciales 4000 o
categoras puntajes en las distribuciones de fre;uencia simples debe hacerse de modo
que refleje ese orden.
Por este- motivo, las categoras ordinales y por intervalos simpre se colocan en
Hasta ahora hemos discutido tasas que podran ser tiles para hacer compara- orden desde sus valores ms altos hasta los ms bajos. Por ejemplo, podramos hacer
ciones entre' diferentes poblaciones. Por ejemplo, podramos buscar comparar tasas
de nacimiento entre blancos y negros, entre mujeres de clase media y de clase baja, una lista de las categoras de las clases sociales desde la ms alta hasta la ms baja
entre grupos religiosos o sociedades enteras, etc. Otra clase de tasa, la tasa de (alta, media, baja) o podramos situar los resultados de un examen semestral de
cambio, puede utilizarse para comparar la misma poblacin en dos puntos a un biologa, en orden consecutivo, de la nota ms alta a la ms baja.
tiempo. Al computar la tasa de cambio comparamos el cambio real entre el tiempo La perturbacin del orden de las categoras ordinales y por intervalos reduce la
1 y el tiempo 2, sirviendo como base el tamao del periodo del tiempo l. As, una legibilidad de los hallazgos del investigador. Este efecto puede observarse en la Tabla
poblacin que aumenta de 20000 a 30000 entre 1960 y 1970 experimentara una 2.5, donde se han presentado las versiones tanto "correcta" como "incorrecta" de
tasa de cambio: una distribucin de "Actitudes Hacia la Guerra". Qu versin encuentra el lector
ms fcil de leer?
(100) tiempo 2[ - tiempo l[ (100) 30000 - 20000
50%
tiempo l[ 20000 TABLA 2.5 Una Actitud hacia la guerra f Actitud hacia la guerra f
distribucin de
En otras palabras, hubo un aumento de poblacin del 50 por ciento en el periodo de frecuencia de actitudes Fuertemente favorable O
Ligeramente favorable 2
1960 a 1970. hacia la guerra: Algo favorable 1
Algo desfavorable 10
Ntese que una tasa de cambio puede ser negativa si indica un crecimiento en Presentacin correcta e Ligeramente favorable
Fuertemente favorable O 2
tamao en cualquier periodo dado. Por ejemplo, si una poblacin cambia de 15000 incorrecta 4 Ligeramente desfavorable 4
Ligeramente desfavorable
a 5 000 en un periodo de tiempo, la tasa de cambio sera: Fuertemente desfavorable 21 Algo desfavorable 10
Algo favorable l Fuertemente desfavorable 21
(100)50'00 - 15000 = -67% Total
-
38 Total
-38
15000
Incorrecta Correcta

DISTRIBUCIONES DE FRECUENCIA SIMPLES


DE DATOS ORDINALES Y POR INTERVALOS DISTRIBUCIONES DE FRECUENCIA AGRUPADAS
DE DATOS POR INTERVAWS
Dado que los datos nominales son colocados ms bien dentro de una clasificacin
que dentro de una escala, las categoras de las distribuciones de nivel nominal no Los puntajes a nivel de intervalos se extienden a veces sobre un amplio rango
tienen que enlistarse en ningUn orden en particular. As, los datos sobre preferencias (puntajes ms altos menos los ms bajos), haciendo que la distribucin de frecuencia
religiosas mostrados en la Tabla 2.4 se presentan de 3 formas diferentes, aunque simple que resulta, sea ms larga y difcil de leer. Cuando ocurren tales instancias,
igualmente aceptables. pocos casos pueden caer en cada categora y el patrn del grupo se vuelve borroso.
Para ilustrar, la distribucin colocada en la Tabla 2.6 contiene valores que varan de
TABLA 2.4 Distribucin 50 a 99 y tiene casi cuatro columnas de longitud.
Religin f Religin f Religin f
de preferencias religiosas Para aclarar nuestra presentacin, podramos construir una distribucin de
mostrada de 3 maneras Protestante 3U Catlica 20 Juda 10 frecuencia agrupada, condensando los puntajes separados en un nmero de categoras
Catlica 20 'Juda 10 Protestante 30 o grupos ms pequeos, donde cada uno contenga ms de un puntaje. Cada
Juda 10 Protestante lQ. Catlica 20 categora o grupo, en una distribucin agrupada, es conocido como un intervalo de
Total 60 Total 60 Total 60
clase, cuyo tamao e~t determinado por el nmero de puntaje que contenga.

AL; >
22 Descripcin Organizacin de datos 23

Las calificaciones de exmenes de 71 estudiantes,' presentadas originalmente en para encontrar el punto medio es buscar el punto donde cualquier intervalo dado
la Tabla 2.6, se vuelven a ordenar en una distribucin de frecuencia agrupada, puede dividirse en dos partes iguales. Tomando algunos ejemplos, 50 es el punto
mostrada en la Tabla 2.7. Aqu encontramos 10 intervalos de clase, cada uno de medio del intervalo 48-52; 3,5 es el punto medio del intervalo 2,5. El punto medio
tamao 5. As, el intervalo de clase ms alta (95-99) contiene los 5 puntajes 95, 96, puede ser calculado a partir de los puntajes ms altos a los ms bajos en cualquier
97, 98 y 99. De manera similar, el intervalo 70-74 es de tamao 5 y contiene los intervalo.
puntajes 70, 71,72,73 Y 74.

Lmites de clase puntaje ms bajo + puntaje ms alto 48 + 52


50
2 2
De acuerdo con su tamao, cada intervalo de clase tiene un lmite superior y un
lmite inferior. A primera vista, los puntajes ms alto y ms bajo, en cualquier
categora, parecen ser tales lmites. As, podramos razonablemente esperar que los TABLA 2.6 Distribucin
lmites superior e inferior del intervalo 60-64 sean 64 y 60 respectivamente. En este Calificacin f Calificacin f Calificacin f Calificacin f
de frecuencia de
caso, sin embargo, nos equivocaramos, ya que 60 y 64 no son en realidad los calificaciones de exmenes 99 O 85 2 71 4 57 O
lmites del intervalo 60-64. fmales para 71 estudiantes 98 1 84 1 70 9 56 1
Muchos lectores se estarn preguntando, "por qu no?". Para encontrar una 97 O 83 O 69 3 55 O
96 1 82 3 68 5 54 1
respuesta examinemos un problema que podra surgir si furamos a definir lmites 95 1 81 1 67 1 53 O
de clase en trminos de los puntajes ms altos y ms bajos en cualquier intervalo. 94 O 80 2 66 3 52 1
Supongamos que tratramos de colocar nmeros que contienen valores fraccionarios 93 O 79 8 65 O 51 1
92 1 78 1 64 1 50 1
(fracciones decimales) en la distribucin de frecuencia mostrada en la Tabla 2.7. 91 1 77 O 63 2 Total TI
Dnde podramos categorizar el puntaje 62,3? Muchos estaramos de acuerdo en 90 O 76 2 62 O
que pertenece al intervalo 60-64. Pero, qu hay con el puntaje 69,4? Y con el 89 1 75 1 61 O
88 O 74 1 60 2
nmero 54,2 o 94,6? El lector podra darse cuenta que los puntajes ms altos y ms 1 73 1 3
87 5~
bajos en un intervalo dejarn separaciones entre grupos adyacentes, en tal forma que 86 O 72 2 58 1
algunos valores fraccionarios no pueden asignarse a ningn intervalo de clase en la
distribucin y deben excluirse del todo.
A diferencia de los puntajes ms altos y ms bajos en un intervalo, los lmites TABLA 2.7 Distribucin 1 l d la f
de clase se localizan en el punto medio situado entre los intervalos de clase de frecuencia agrupada de _n_t_er_v_a_o_e_c_se . _
adyacentes, y por tanto, sirven para cerrar las separaciones entre ellos (ver Fig. 2.1). calificaciones de 95-99 3
As, el lmite superior del intervalo 90-94 es 94,5 y el lmite inferior del intervalo exmenes finales para 90-94 2
71 estudiantes 85-89 4
95-99 es tambin 94,5 Asimismo, 59,5 sirve como lmite superior del intervalo 80-84 7
55-59 y como lmite inferior del intervalo 60-64. El lector podra preguntar; qu 75-79 12
pasa con el valor 59,5 valor que cae exactamente a la mitad de las separaciones 70-74 17
65-69 12
entre intervalos de clase vecinos? Deberamos incluir este puntaje en el intervalo 60-64 5
55-59 o en el intervalo 60-64? Este problema se resuelve generalmente redondeando 55-59 5
al nmero par ms cercano. Por ejemplo, 59,5 estara situado en el intervalo 60-64; 50-54 4
Total 71
84,5 estara incluido en el intervalo 80-84. Como veremos, debe determinarse la
po~icin de los lmites de clase para trabajar con ciertos procedimientos estadsticos.

El punto medio Determinacin del nmero de intervalos

Otra caracteI:.istica de cualquier intervalo de clase es su punto medio. que Para presentar datos por intervalos en una distribucin de frecuencia agrupada, el
definimos como el puntaje medio en el intervalo de clase. Un mtodo simple y rpido investigador social debe considerar el nmero de categoras que desea emplear. Los
24 Descripcin Organizacin de datos 2.5

FIGURA 2.1 Puntajes ms acum'll1ada (336) es igual al nmero total de casos, ya que 'ningn miembro del
alto y ms bajo contra grupoJogr puntajes sobre 800.
95
los lmites inferior y 94,5 _ Lmite superior Adems de la frecuencia acumulada, tambin podemos construir una distribu-
superior del intervalo de Puntaje ms alto - 94 cin que indique porcentajes acumulados (c%), o sea el tanto por ciento de casos
clase 90-94 que tengan cualquier puntaje o uno ms bajo. Para calcular el porcentaje acumulado,
93
modificamos la frmula para porcentaje (%) introducida anteriormente en este
92
captulo, como sigue:
91 fa
c% = (lOO) N
Puntaje ms bajo _ 90
89,5 - Lmite inferior donde
Se suele Uamar marca de clase 89
fa = la frecuencia acumulada en cualquier categora
N = el nmero total de casos en la distribucin

textos generalmente aconsejan usar de 5 a 20 intervalos. A este respecto, sera Aplicando la frmula anterior, a los datos de la Tabla 2.8, encontramos que el
conveniente recortar que las distribuciones de frecuencia agrupadas se emplean para porcentaje de estudiantes que lograron puntajes de 350 o menos fue
revelar o enfatizar el patrn de un grupo. Muchos o muy pocos intervalos de clase 12
podran confundir ese patrn y por tanto trabajar en contra del investigador que c% = (lOO) 336
busca darle claridad a su anlisis. Adems, reducir los valores de los puntajes = (100)0,0357
individuales a un nmero innecesariamente pequeo de intervalos puede sacrificar = 3,57
mucha de la precisin -precisin que se haba logrado originalmente conociendo la 45
identidad de puntajes individuales en la distribucin. En suma, entonces, el investiga-
El porcentaje que recibi puntajes de 400 o menos fue c% = (100) 336
dor decide generalmente sobre el nmero de intervalos, basndose en su propio ";'(100)0,1339
conjunto de datos y en sus objetivos personales, factores que pueden variar conside- = 13,39
rablemente de una investigacin a otra. 93
El porcentaje que alcanz puntajes de 450 o menos fue c% = (100) 336

DISTRIBUCIONES ACUMULADAS = (100)0,2768


= 27,68
A veces, es deseable presentar ffecuencias de una manera acumulada, especialmente
cuando buscamos localizar la posicin de un caso en relacin con la actuacin En la Tabla 2.9 se muestra una distribucin de porcentajes acumulados basada en los
total de un grupo. Las frecuencias acumuladas se definen como el nmero total de datos de la Tabla 2.8.
casos que tengan cualquier punt~e dado o uno que sea ms bajo. As, la frecuencia
TABLA 2.8 Distribucin
acumulada (fa) para cualquier categora (o intervalo de clase) se obtiene sumando la Intervalo de clase f fa
de frecuencia acumulada de
frecuencia en esa categora a la frecuencia total para todas las categoras abajo de
puntajes del Consejo 751-800 6 336
ella. En el caso de los puntajes del consejo universitario en la Tabla 2.8, vemos que UIversitario para 336 701-750 25 330
la frecuencia (f) asociada con el intervalo de clase 301-350 es 12. Esta es tambin la estudiantes 651-700 31 305
frecuencia acumulada para este intervalo, ya que ningn miembro del grupo obtuvo 601-650 30 274
551-600 35 244
menos de 301. La frecuencia en el prximo intervalo de clase 351-400 es 33, 501-550 55 209
mientras que la frecuencia acumulada para este intervalo es 45 (33 + 12). Por lo 451-500 61 154
tanto, encontramos que 33 estudiantes ganaron puntajes del consejo universitario 401-450 48 93
351-400 33 45
entre 351 y 400, pero que 45 recibieron puntajes de 400 o menos. Podramos 301-350 12 12
continuar con este procedimiento, obteniendo frecuencias acumuladas para todos los Total 336
intervalos de clase hasta llegar a la parte ms alta, 751-800, cuya frecuencia
26 Descripcin Organizacin de datos 27

TABLA 2.9 Distribucin Intervalo de clase c%


Intervalo de clase
fa
de porcentajes acumulados
751-800 336 100% 751-800
de puntajes del Consejo 701-750
Universitario para 336 701-750 330 98.21
651-700 305 90.77 651-700
estudiantes (basado en los 601-650 274 81.55 _~60~1:.....-~65~0;-+- Intervalo de clase en que
datos de la Tabla 2.8) 551-600 244 72.62 551-600 ocurre el puntaje 620
501-550 209 62.20 501-550
451-500 154 45.83 451-500
401-450 93 27.68 401-450
351-400 45 13.39 351-400
301-350 12 3.57
301-350

RANGO PERCENTIL Hay varias caractersticas del intervalo crtico que debemos determinar antes de
aplicar la frmula pard rango percentil:
Supongamos que usted logr un puntaje de SO en un examen de estadstica. Para
determinar exactamente qu tan bien lo ha hecho, podra ser de ayuda saber cmo l. El lmite inferior del intervalo crtico. Este es el punto que est a la mitad,
se compara con los puntajes de otros en la clase que hayan tomado el mismo entre el intervalo crtico, 601-650, y el intervalo de clase inmediatamente
examen. Lograron, la mayora de los dems estudiantes, puntajes del orden de SO y abajo de l, 551-600. El lmite inferior de 601-650 es es 600,5.
90? Si fue as, su propia calificacin puede no ser muy alta. 0, la mayora de los 2. El tamao del intervalo crtico. Este est determinado por el nmero de
dems recibi puntajes del orden de 60 y 70? Si fue as, un puntaje de SO puede puntajes dentro del intervalo de clase 601-650. El tamao del intervalo
crtico es 50, ya que contiene valores desde 601 hasta 650.
muy bien estar entre los ms altos de su clase.
Con la ayuda de la distribucin de porcentajes acumulados, podemos hacer 3. El porcentaje dentro del intervalo crtico. Para determinar el porcentaje
dentro de cualquier intervalo de clase, dividimos el nmero de casos en ese
comparaciones precisas entre cualquier caso individual y el grupo donde ste ocurre.
Especficamente, podemos encontrar el rango percentil de un puntaje, un solo intervalo de clase (f) entre el nmero total de casos en la distribucin N y
multiplicamos por 100 nuestra respuesta. Por frmula.
nmero que indique el porcentaje de casos en una distribucin que cae por debajo
de un puntaje dado. Por ejemplo, si un puntaje de SO tiene un rango percentil de
95, entonces el 95% de los estudiantes en este curso de estad stica recibieron
puntajes de examen ms bajo que SO (slo un 5% sac puntajes arriba de SO). Sin % = (lOO) 1.
N
embargo, si un puntaje de SO tiene un rango percentil de 45, entonces slo un 45%
30
recibi puntajes de examp.n abajo de SO (55% logr puntajes arriba de SO). Por = (lOO) 336
frmula,
= (lOO)0,OS9
= S,93
c% abajo del lmite inferior del
Rango lmite inferior + [puntaje - intervalo crtico % en ei)~
int~r~alo
Percentil del intervalo ( CritICO
Por lo tanto, vemos que el S,93 por ciento de estos puntajes del consejo
crtico tamao del intervalo crtico universitario cayeron dentro del intervalo de clase 601-650.
4. El porcentaje acumulado abajo del lmite inferior del intervalo crtico.
Podemos leer c% directamente de la distribucin de porcentaje acumulado
A fin de ilustrar el procedimiento para obtener el rango percentil, busquemos en la Tabla 2.9. Subiendo por la columna c% de la tabla, vemos que el 72,62
el rango percentiJ para un puntaje de 620 en la distribucin en la Tabla 2.S. Antes por ciento de los puntajes caen abajo del intervalo crtico. Este es el
de aplicar la frmula debemos localizar primero el intervalo crtico, el intervalo de porcentaje acumulado asoc;ado con el intervalo de clase que cae inmedia-
clase en que aparece un puntaje de 620. Como se muestra ms abajo, el intervalo tamente abajo del intervalo crtico.
crtico para el presente problema es 601-650: Ahora estamos preparados para aplicar la frmula para rango percentil:
28 Descripcin Organizacin de datos 29

Rango percentil = 72,~2 + [ 620 ~0600,5(8,93)] 4. El porcentaje acumulado bajo el lmite inferior puede' encontrarse desde la
columna c%, refirindose al intervalo de clase inmediatamente bajo el ir.ter-
valo crtico. El porcentaje acumulado asociado al intervalo de clase 80-89 es
= 72,62 + [19 g0 (8,93~
5 87,76.
= 72,62 + (0,39) (8,93)
= 72,62 + 3,48 Ahora estamos listos para sustituir en la frmula para rango percentil:
= 76,10
.
Rango percentI1 = 87,76+
[ 92 - 895 J
10' (12,24)J
Resulta que ligeramente ms del 76% recibi un puntaje ms bajo de 620. Slo
= 87,76 + [2~~0(12,24)]
el 23,90% logr puntajes por encima de esta cifra. Como una ilustracin ms
busquemos el rango percentil para un puntaje de 92 en la siguiente distribucin de
puntajes: = 87,76 + (0,25) (12,24)
= 87,76 + 3,06
Intervalo de clase f fa c% = 90,82
90-99 6 49 100%
80-89 8 43 87,76 Casi el 91 % recibi un puntaje ms bajo de 92. Slo el9 ,18% obtuvo un puntaje ms alto.
70-79 12 35 71,43 La escala de rangos percentiles consta de 100 unidades. Hay ciertos rangos a lo
60-69 10 23 46,94 largo de la escala que tienen nombres especficos. Los deciles dividen la escala de
50-59 7 13 26,53 rangos percentiles entre diez. As, si un puntaje est localizado en el primer decil
40-49 6 6 12,24
N=49 (rango percentil = 10), sabemos que el 10% de los casos caen abajo de l; si un
puntaje est en el segundo decil (rango percentil = 20), entonces el 20% de los casos
caen abajo de l, etc. Los rangos percentiles que dividen la escala en 4 partes se
Como se muestra ms adelante, el intervalo crtico para un puntaje de 92 es 90-99: conocen como cuartiles. Si un puntaje est localizado en el primer cuartil (rango
percentil = 25), sabemos que el 25% de los casos caen abajo de l; si un puntaje est
Intervalo de clase en el segundo cuartil (rango porcentil = 50), el 50% de los casos caen abajo de l; y si
_--,9~0~-~95!-9_..- Intervalo de clase en que un puntaje est en el tercer cuartil (rango percentil = 75), el 75% de los casos caen
80-89
70-79 ocurre un puntaje de 92 abajo de l (ver Figura 2.2)
60-69
50-59
40-49 FIGURA 2.2 Escaia de Rango Percentil Decil Cuartil
rangos percentiles 90- 90.
85
dividida por deciles 80= 80.
Las siguientes son las caractersticas del intervalo crtico que debemos determinar: Ycuartiles 75 = 30.
70= 70.
65
1. El lmite inferior del intervalo crtico es 89,S. 60= 60.
55
2. El tamao del intervalo crtico es 10, ya que hay 10 valores de puntajes 50 = 50. 20.
dentro de l desde el 90 hasta el 99 (90,91,92,93\ 94, 95, 96, 97, 98,99) 45
40 = 40.
3. El porcentaje dentro del intervalo crtico es 12,24. Por frmula: . 35
30= 30.
25 = 10.
% = (lOO) 1.
N
20=
15
20.
10 = 10.
6
= (lOO) 4 9
RESUMEN
= (100)0,1224 En este t:uptulo Sl< nos presentaron algunas de las tcnicas l:lsicasutilizadas por el
= 12,24 investigador social para organizar el conjunto de nmeros crudos que recoge de sus
JO Descripcin Organizacin de datos 31

entrevistados. Las distribuciones de frecuencia y los mtodos para comparar tales 3. En un grupo de 4 televidentes con alta gudeza visual y 24 con baja agudeza
distribuciones de datos nominales (proporciones, porcentajes, razones y tasas) fueron visual, ,cul es la razn de televidentes con agudeza visual alta y baja'!
discutidos y ejemplificados. Con respecto a los datos ordinales y por intervalos, se 4. En un grupo de 125 hombres y 80 mujeres, cul es la razn de hombres a
examinaron las caractersticas de las distribuciones de frecuencia simples, agrupadas mujeres'!
y acumuladas. Finalmente, se present el procedimiento para obtener el rango 5. En un grupo de 15 nios negros y 20 nios blancos, cul es la razn de
porcentil de un porcentaje no procesado. negros a blancos'!
6. Si ocurren 300 nacimientos, entre 3 500 mujeres en edad de concebir, ,cul
es la tasa de nacimiento'!
PROBLEMAS 7. Cul es la tasa de cambio para un aumento de poblacin de 15000 en
1950 a 25000 en 1970?
l. De la siguiente tabla, que representa.la agudeza visual de los televidentes y no 8. Convertir la siguiente distribucin de porcentajes a una distribucin de
televidentes, encontrar (a) el porcentaje de no televidentes con alta agudeza frecuencia que contenga cuatro intervalos de clase, y (a) determinar el
visual, (b) el porcentaje de televidentes con alta agudeza visual; la proporcin tamao de los intervalos de clase, (b) indicar los lmites superior e inferior de
de no televidentes con alta agudeza visual y (d) la proporcin de televidentes cada intervalo de clase, (c) identificar el puntu medio de cada intervalo de
con alta agudeza visual. clase, (d) encontrar la frecuencia acumulada por cada intervalo de clase, y (e)
encontrar el porcentaje acumulado para cada intervalo de clase.
Agudeza visual en televidentes y no televidentes
Pu ntajes f
Estatus visual
12 3
No televidentes Te/evidentes 11 4
10 4
Agudeza visual f f 9 5
8 6
Alta 93 46 7 5
Baja 90 127 6 4
Total 183 173 5 3
4 2
3 1
2. De la siguiente tabla, que representa estructuras familiares para nios negros 2 1
y blancos, encontrar (a) el porcentaje de nios negros con familias de padre 1 2
y madre, (b) el porcentaje de nios blancos con familias de padre y madre, N=40
(c) la proporcin de nios negros con familias de padre y madre y (d) la
proporcin de nios blancos con familias de padre y madre
9. En la siguiente distribucin de puntajes, encontrar el rango percentil para (a)
un puntaje de 75 y (b) un puntaje de 52.
Estructura familiar para nios negros y blancos
Intervalo de e/ase f fa
Raza del nio 90-99 6 48
80-89 9 42
Negra Blanca 70-79 10 33
Estructura familiar f f 60-69 10 23
50-59 8 13
(Padre o Madre) 53 59 40-49 5 5
(Padre y Madre) 130 167 N=48
Total 183 226
32 Ducripcin

10. En la siguiente distribucin de puntajes, encontrar el rango percentil para


(a) un puntaje de 36 y (b) un puntaje de 18.

Intervalo de clase f
40-44 5
35-39 5
30-34 8
25-29 9
20-24 10
15-19 8
10-14 6
5-9 5
N=56

Sabemos muy bien que las columnas de nmeros evocan temor, aburrimiento, apata
e incomprensin. Algunas personas parecen no tener inters en la informacin esta-
dstica presentada en forma tabular, pero podran prestarle mucha atencin a los
mismos puntajes si les fueran presentados en forma de grfica o cuadro. Como resul-
tado, muchos investigadores comerciales y autores populares prefieren usar grficas en
contraposicin a las tablas. Por motivos semejantes, los investigadores sociales usan
frecuentemente grficas tales como las grficas de sectores, grficas de barra y pol-
gonos de frecuencia en un esfuerzo por aumentar el inters de sus hallazgos.

GRAFICAS DE SECTORES

Uno de los mtodos grficos ms simples es el de la grfica de sectores, una grfica


circula~ cuyos segmentos suman 100 por ciento. Las grficas de sectores son
particularmente tiles para visualizar las diferencias en frecuencia entre algunas
categoras de nivel nominal. Para ilustrar. La Figura 3.1 presenta una poblacin de
2 000 estudiantes universitarios de extraccin urbana, suburbana o rural. Ntese que

FIGURA 3.1 Poblacin de


2 000 estudiantes
universitarios de Extraccin del
estudiante f %
extraccin urbana,
Urbana 240 (12)
suburbana y rural Suburbana 1400 (70)
Rural 360 (\8) Suburbana
Total 2000 (100) (70%)

J1

",'Uf ;Z;;;;;"
14 Descripcin Grficas 35

el 70% de estos estudiantes proviene de reas suburbanas, mientras que slo el 18% FIGURA 3. 3 Grfica de 80
proviene de reas rurales. barra de una distribucin 70
ocupacional Ocupacil1 f " 60
GRAFICAS DE BARRA Artesanos 52 'g 50
Mano de obra 8" 40
no calificada
La grfica de barra nos proporciona una ilustracin sencilla y rpida de datos que 65
u::" 30
Ejecutivo 29
pueden dividirse en unas cuantas categoras. Por comparacin, la grfica de barra (o Empleados
20
-L 10
histograma) puede acomodar cualquier nmero de categoras a cualquier nivel de Total 180
O l--'--_--'---'-_ _-'-..L-_--'L.....L --'-_
medicin y, por lo tanto, se utiliza ms ampliamente en la investigacin social. Artesanos Mano de obra Ejecutivo Empleados
Examinemos la grfica de barra de la Figura 3.2 que ilustra una distribucin de no cali ficada
frecuencia de clases sociales. Esta grfica de barra se construye siguiendo el orden Ocupacin del entrevistado
estndar: una lnea de base horizontal (o eje x) a lo largo de la cual se marcan los
valores de los puntajes o categoras (en este ejemplo, las clases sociales) y una lnea POUGONOS DE FRECUENCIA
vertical (eje y) a lo largo del costado de la figura que representa las frecuencias por
cada puntaje o categora. (En el caso de los datos agrupados, los puntos medios de Otro mtodo grfico que se emplea comnmente es el poligono de frecuencia.
los intervalos de clase se ordenan a lo largo de la lnea base horizontal.) Ntese que Aunque el polgono de frecuencia puede acomodar una amplia variedad de catego-
las barras rectangulares dan las frecuencias para la amplitud de los valores de los ras, tiende a enfatizar la continuidad, a lo largo de una escala, ms que las
porcentajes. Mientras ms alta es la barra, mayor es la frecuencia de ocurrencia. diferencias y es, por tanto, particularmente til para representar puntajes ordinales y
En la Figura 3.2, las barras rectangulares de la grfica se han unido para por intervalos. Esto se debe a que las frecuencias se indican por medio de una serie
enfatizar los distintos grados de estatus social representados por diferencias de clases de puntos colocados sobre los valores de los puntajes o los puntos medios de cada
sociales. Adems, las clases sociales se han trazado sobre la lnea de base en orden intervalo de clase. Los puntos adyacentes se conectan mediante una lnea recta que
ascendente de baja-baja a alta-alta. Este es el orden convencional para construir cae sobre la lnea base en uno y otro extremo. Como lo muestra la Figura 3.4, la
grficas de barra de nivel ordinal y por intervalos. altura de cada punto indica la frecuencia de ocurrencia.
Sin embargo, al dibujar una grfica de barra de puntajes nominales, las barras Para graficar frecuencias acumuladas (o porcentajes acumulados), puede cons-
deben estar separadas, y no unidas, para evitar implicar continuidad entr~ las cate- truirse un po[(gono de frecuencia acumulada. *
goras. Es ms, las categoras de nivel nominal se pueden ordenar en cualquier forma Como se ve en la Figura 3.5, las frecuencias acumuladas se ordenan a lo
a lo largo de la lnea base horizontal. La Figura 3.3 ilustra tales caractersticas de las largo de la lnea vertical de la grfica y estn indicadas por la altura de los puntos,
grficas de barra de nivel nominal. sobre la lnea base horizontal. Sin embargo, a diferencia de un polgono de frecuencia

FIGURA 3.2 Grfica de 50


FIGURA 3.4 Polgono de 50
barra de una d~tribucin /l1tervalo
frecuencia de una de clse f
de clases sociales Clase social f 40 40
distribucin de puntajes 136-145 11
Alta-alta 5
Alta-baja 14 '0 "e 30
de coeficiente intelectual 126-135
116-125
16 "
'
e 30
29
Media alta
Media baja
23
45 ""u
106-115
96-105
40
44
""
u
~
Baja-alta 38 "=" 20 86-95
76-85
25 "- 20
Baja-baja 25
J.L
Total 178 lO
Total 150 10

O
O 80,5 90,S 100,5 110,5120,5 130,5 140,5
Coeficiente intelectual del
entrevistado (puntos medios)

Oase social del entrevistado N. del R. Tambin se suele llamar ojiva.


36 Descripcin Grfica, 37

FIGURA 3.S Polgono de 350 FIGURA 3.6 Algunas


frecuencia acumu1a$ variacione~ de la
para los datos de la 300
curtosis entre las
tabla 2.8
250 distribuciones simtricas

200
Intervalo de chue f fa
751-800 6 336 <l!, 150
701-750 25 330
6;i1-700 31 305 (a) Leptoertieas (b) Platoerticas (e) Mesoertieas
601-650 100
30 274
551-600 35 244
501-550 55 209 50
451-500 61 154 4. El primer punto sobre la lnea vertical -aquel punto en el cual se cruza con la
401-450 48 93 lnea horizontal- debe empezar 'siempre en cero, ya que cualquier otro
o
351-400 33 45
...,... ...
'-'---'----'---'----'---'----:=--'----'---'----'
orden podra dar una visin distorsionada de los puntajes.
'" '" '"
-.l -.l
301-350 ...ll...
N = 336
12
o'" o
o '"o '"oo '"o oo '"o oo '"
'"o oo
U. U. U. U. U. U. U. U. U. U.
Lmite superior del intervalo de clase FORMA DE UNA DISTRIBUCION DE FRECUENCIA

comn, la lnea recta que conecta todos los puntos del polgono de frecuencia Los mtodos grficos pueden ayudarnos a visualizar la variedad de formas que toman
acumulada no tiene que tocar otra vez la lnea base horizontal, ya que las frecuen- las distribuciones de frecuencia. Algunas distribuciones son simtricas; al doblar la
cias acumuladas que se estn representando S01l el producto de sumas sucesivas. curva por el centro se crean dos mitades idnticas. Por 10 tanto, tales distribuciones
Ninguna frecuencia acumulada es menor (generalmente es mayor) que la anterior. contienen el mismo nmero de valores extremos en ambas direcciones, alta y baja.
Tambin, a diferencia de un polgono de frecuencia comn, los puntos de una grfica Se dice que otras distribuciones estn sesgadas y tienen ms casos extremos en una
acumulada se trazan sobre los lmites superiores de los intervalos de clase en lugar de direccin que en otra.
sobre los puntos medios. Esto se debe a que la frecuencia acumulada representa el Existen variaciones considerables entre las distribuciones simtricas. Por ejem-
nmero total de casos tanto dentro como por debajo de un intervalo de clase en plo, pueden diferir marcadamente en trminos de su "puntiagudez" (o curtosis).
particular. Algunas distribuciones simtricas, como en la Figura 3.6(a), son bastante picudas o
altas (llamadas leptocrticas); otras, como en la Figura 3.6(b), son bastante planas
CONSTRUCCION DE GRAFICAS DE BARRA Y POLIGONOS DE FRECUENCL~
(llamadas platocrticas) y, aun otras, no son ni muy picudas ni muy plmas (llamadas
Las siguientes reglas y procedimientos pueden aplicarse a la construccin de mesocrticas). Una clase de distribucin simtrica mesocrtica, como la que se
muestra en la Figura 3.6(c),' la curva normal, tiene especial importancia para la
grficas de barra y polgonos de frecuencia:
investigacin social y se estudiar en detalle en el Captulo 6.
l. Como una cuestin de tradicin, y para evitar confusiones, el investigador Existe una variedad de distribuciones asimtricas o sesgadas. Cuando existe
siempre ordena los porcentajes a lo largo de la lnea base horizontal y las sesgo, apilndose los puntajes en una sola direccin, la distribucin tendr una
frecuencias (o el porcentaje de casos) a lo largo de la lnea vertical. "cola" pronunciada. La posicin de esta cola indica dnde estn localizados los
2. Toda grfica debe ir completamente rotulada. La lnea base horizontal relativamente pocos puntajes extremos y determina la direccin del sesgo.
debe rotularse en relacin con las caractersticas (por ej., edad del entrevista- La distribucin (a) en la Figura 3.7 est negatil'amente sesgada (sesgada hacia la
do), la lnea vertical debe rotularse de acuerdo con lo que se est represen- izquierda), ya que tiene una cola mucho ms larga a la izquierda que a la derecha.
tando (ya sean "frecuencias" o "porcentajes") y los valores numricos de los Esta distrihucin indica que la mayora de los entrevistados recibieron puntajes altos
puntos a lo largo de la escala. Adems, la grfica debe titularse indicando la y que slo unos cuantos obtuvieron puntajes bajos. Si se tratara de una distribucin de
naturaleza de los puntajes que se estn ilustrando. calificaciones, en un examen final, podramos afirmar que a la mayora de los estu-
3. Al construir una grfica, la longitud de la lnea vertical debe ser como de un diantes les fue bastante bien y a unos cuantos mal.
75%de la longitud de la lnea base horizontal. Este arreglo representa una Miremos ahora la distribucin (b) cuya cola est situada a la derecha. Ya
manera relativamente estndar de dibujar grficas y minimiza una fuente de que la direccin de la cola indica el sesgo, podemos decir que la distribucin est
confusin potencial. positivamente sesgada (sesgada hacia la derecha). Las calificaci,ones del examen final
de los estudiantes. de nuestro hipottico grupo seran bastante bajas!

"---.
38 Descripcin
..... ',',',
'" ,C'

'.:, ." '.


.',:
FIGURA 3.7 Tres
'.'
distribuciones que
representan la direccin
del sesgo
....
;.: .;. .' ':', .;;::~;, '"

, :.:.. ;: '
(a) ,.',." .: .... '.. J"

:, .: ... ", " ....


"
. ...
Examinemos finalmente la distribucin (c) que contiene dos colas idnticas. En
tal caso, existe el mismo nmero de puntajes en ambas direcciones. La distribucin :-a. r. ra .'

no est en absoluto sesgada, sino que es perfectamente simtrica. Si se tratara de la :.. ;::
distribucin de calificaciones en nuestro examen final, tendramos un gran nmero .
,
de estudiantes ms o menos promedio y pocos alumnos que obtuvieran calificaciones
.,',0: ..., <',' ~ j, ::".
altas o bajas.
....' ..

RESUMEN
Los investigadores, en muchos campos, han utilizado el trmino "promedio" para
Las presentaciones grficas de datos pueden usarse para aumentar la legibilidad hacer preguntas tales como: Cul es el ingreso promedio que perciben los bachille-
de los hallazgos de la investigacin. Nuestro anlisis de las presentaciones grficas res y los profesionales? Cuntos cigarrillos se fuma el adolescente promedio?
incluy grficas de sectores, grficas de barra y polgonos de frecuencia. Las grfi- Cul es el promedio de calificaciones de las universitarias? En promedio, cuntos
cas de sectores nos dan una simple ilustracin de los puntajes que pueden divi- accidentes automovilsticos ocurren como resultado directo del alcoholo las drogas?
dirse en unas cuantas categoras. Las grficas de barra se utilizan ms ampliamente, Una forma til de describir a un grupo en su totalidad es encontrar un nmero
ya que pueden acomodar cualquier nmero de categoras. Los polgonos de frecuen- nico que represente lo "promedio" o "tpico" de ese conjunto de puntajes. En la
cia acomodan tambin un amplio rango de categoras, pero son especialmente tiles investigacin social, ese valor se conoce como una medida de tendencia central, ya
para datos ordinales y por intervalos, ya que enfatizan una con tinuidad a lo largo de que est generalmente localizada hacia el medio o centro de una distribucin en la
la escala. que la mayora de los puntajes tienden a concentrarse.
Las variaciones en la forma de las distribuciones pueden caracterizarse en Lo que el lego quiere decir con el trmino "promedio" resulta a menudo vago
trminos de simetra o, si contienen ms casos extremos en una direccin que en y hasta confuso. La concepcin del investigador social es mucho ms precisa que la
otra, en trminos de sesgo positivo o negativo. de uso popular; se expresa numricamente como una entre varias clases distintas de
mediciones de "promedio" o tendencia central que puede asumir valores numricos
bastante diferentes en el mismo conjunto de puntajes. Slo trataremos aqu de las
tres medidas de tendencia central ms conocidas: la moda. la mediana y la media.

LA MODA

Para obtener la moda (Mo), simplemente buscamos el puntaje O categora que


ocurre ms frecuentemente en una distribucin. La moda puede encontrarse fcil-
mente por inspeccin ms que por clculo. Por ejemplo, en el conjunto de datos
(D. 2, 3, (D, (D, 6, 5, 4, (D, 4, 4, 3, la moda es 1, ya que es el nmero que ocurre
ms que cualquier otro en el conjunto (ocurre 4 veces).
En el caso de una distribucin de frecuencia simple en la que los valores de los
puntajes y las frecuencias se presentan en columnas separadas, la moda es el valor

39

L
4 " t l KA ><#'d"

40 Descripcin Medidas de tendencia central 41

TABLA 4.1 Si el nmero de casos es par, la mediana es siempre aquel punto sobre el cual
Cmo buscar la moda
Valor de los puntajes f cae el 50% de los casos y bajo el cual cae el otro 50% de los mismos. Para un nmero
en una distribucin de 7 2 par de casos habr dos casos medios. Para ilustrar, los nmeros 16 y 17 representan
frecuencia simple 6 3 los casos medios para los siguientes puntajes: 11,12,13,@,@, 20,25,26. Por la
5 4
Mo-- 4
frmula (8 + 1)/2 = 4,5, la mediana caer a mitad de camino entre el cuarto y el
5
3 4 quinto caso; el punto ms cercano al medio en esta distribucin resulta ser 16,5 ya
2 3 .que est a medio camino entre 16 y 17, los puntajes cuarto y quinto del conjunto.
1 2
Total 23
De igual forma, la mediana es 9 en los puntajes 2,5,8,10,11,12, nuevamente por estar
situado exactamente a medio camino entre los dos casos medios (6 + 1)/2 = 3,5.
Debemos explicar e ilustrar otra circunstancia: tal vez nos pidan que busquemos
que aparece ms a menudo en la columna de frecuencia de la tabla. Por lo tanto, en la mediana de puntajes que contienen varios puntajes medios de idntico valor
la distribucin de frecuencia simple localizada en la Tabla 4.1, Mo=4. numrico. La solucin es simple: la mediana es el valor numrico. Por lo tanto, en los
Algunas distribuciones de frecuencia contienen dos o ms modas. En el siguien- puntajes 11,12,13,16,16,16,25,26,27, el caso mediano es 16, a pesar de que
te conjunto de datos, por ejemplo, los puntajes 2 y 6 ocurren ambos ms frecuente- ocurre ms de una vez.
mente: 6,6,7,2,6,1,2,3,2,4. Grficamente, tales distribuciones tienen dos puntos de
frecuencia mxima, sugirindonos las dos jorobas del lomo de un camello. Nos refe- Cmo obtener la mediana de una
rimos a estas distribuciones como bimodales, en contraste con la variedad unimodal distribucin de frecuencia simple
ms comn, que tiene una sola joroba o punto de mxima frecuencia (ver Figura 4.1)
Para encontrar la mediana de puntajes orden~s en forma de distribucin de frecuen-
LA MEDIANA cia simple, comenzamos con el procedimiento que acabamos de ver. En el caso de la
Tabla 4.1,
Cuando los puntajes ordinales o por intervalos, se organizan por orden de tamao, 23 + 1
Posicin de la mediana -2-
resulta posible localizar la mediana (Mdn), el punto ms cercano al medio en una
distribucin. Por lo tanto, se considera la mediana como la medida de tendencia central 24
que corta la distribucin en dos partes iguales. 2""
Si tenemos un nmero impar de casos, entonces la mediana ser el caso que cae 12
exactamente en la mitad de la distribucin. La posicin del valor de la mediana puede
localizarse por inspeccin o por frmula. . La mediana resulta ser el duodcimo puntaje en esta distribucin de frecuencia.
Para ayudar a localizar este duodcimo puntaje, podramos construir una distribucin
Posicin de la mediana = N + de frecuencia acumulada como se muestra en la tercera columna de la Tabla 4.2
2 (esto puede hacerse mentalmente para un nmero pequeo de puntajes). Comen-
zando con el valor ms bajo, sumamos frecuencias hasta llegar al duodcimo puntaje
As, 16 es el valor de la mediana para los puntajes 11,12,13,@, 17,20,25; este
TABLA 4. 2 Cmo
es el caso en que divide los nmeros de manera que le quedan 3 nmeros a cada Valores del puntaje f fa
encontrar la mediana
lado. De acuerdo con la frmula (7 + 1)/2, vemos que la mediana 16 es el cuarto
para una distribucin de 7 2 23
puntaje en la distribucin, contando desde cualquiera de los 2 extremos. frecuencia simple 6 3 21
5, ~4---18
FIGURA 4.1 Presentaciones
Mdn --4 5 14
grficas de distribuciones
3 4 9
unimodales y bimodales 2 3 5
1 2 2
Total 23
Bimodol
,-
I

42 Descripcin Medidas de tendencia central 43

en )a distribucin. En el presente ejemplo, la mediana d'e los valores de los puntajes punto alrededor del cual las desviaciones positivas y negativas de cualquier distribu-
es 4. cin se eq uilibran. Para comprender esta caracterstica de la media, debemos com-
prender primero el concepto de desviacin, que indica la distancia entre cualquier
LA MEDIA puntaje no procesado y la media. Para encontrar la desviacin, simplemente le
restamos la media a cualquier puntaje no procesado. De acuerdo con la frmula,
La medida de tendencia central ms comnmente utilizada, la media aritmtica X,
puede obtenerse sumando un conjunto de porcentajes y dividiendo entre el nmero de x =X - X
stos. Por lo tanto, definimos la media ms formalmente como la suma de un conjunto donde
de puntajes dividido entre el nmero total de puntajes del conjunto. Por frmula,
x = el puntaje de desviacin (simbolizarlo siempre por x minscula)
X = cualquier puntaje no procesado en la distribucin
X = la media

donde TABLA 4.4 Desviaciones X x

de un conjunto de puntajes 9
x= +3} +5
la media (lase X barra) no procesados de X 8 +2
~ = la suma (expresada como la letra mayscula griega sigma)' 6 O X=6
X = un puntaje no procesado en un conjunto de datos 4
3
-2}
-3 -5
N = el nmero total de puntajes en un conjunto.
Como X = 6 para el conjunto de puntajes no procesadcs 9,8,6,4, y 3, el
Aplicando la frmula arriba expuesta, encontramos que la media del coeficiente puntaje no procesado 9 se encuentra exactamente 3 unidades de puntajes no
intelectual de los 8 entrevistados listados en la Tabla 4.3 es 108. procesados por sobre la media de 6 (o X - X = 9 - 6 = + 3). De igual forma, el puntaje
no procesado 4 est 2 unidades de puntaje no procesado por debajo de la
TABLA 4.3 Cmo calcular
la media: un ejemplo Entrev,'stado X(CI}
. _. . _ media (o X - X = 4 - 6 = -2). Conclusin: mientras ms grande es la desviacin x,
ms grande es la distancia entre ese puntaje no procesado y la media de la
Leticia 125
Francisco 92
distribuclOn.
Sara 72 Considerando la media como un punto de equilibrio en la distribucin, pode-
Miguel 126 mos decir ahora que la suma de las desviaciones que caen por encima de la media es
Rebeca 120 864 igual en valor absoluto (haciendo caso omiso de los signos menos) a la suma de las
Roco 99 =8 desviaciones que caen por abajo de la media. Volvamos a un ejemplo anterior, al
Benjamn 130 conjunto de puntajes 9,8,6,4,3 en que X = 6. Si la media para esta distribucin es el
Pablo = 108 "centro de gravedad", pasando por alto los signos menos, la suma de las desviaciones
100
lX = 8f.4 positivas (desviaciones de los puntajes no procesados 8 y 9) debieran igualar la suma
de las desviaciones negativas (desviaciones de los pUlltajes no procesados 4 y 3).
Como se indica en la Tabla 4.4, este resulta ser el caso, ya que la suma de las
A diferencia de la moda, la media no es siempre el plIntaje que ocurre ms a
desviaciones por abajo de X (-5) es igual a la suma de las desviaciones por encima
menudo. A diferencia de la mediana, no es necesariamente el punto ms cercano al
medio en una distribucin. Entonces, q u significa media? cmo puede interpre- de X (+5).
Tomando otro ejemplo, 4 es la media para los nmeros 1,2,3,5,6 y 7.
tarse'! Como veremos, la media puede considerarse como el "centro de grawdad". el
Vemos que la suma de las desviaciones por abajo de este puntaje es -6,
I La letra mayscula griega sigma (L) se encontrar muchas veces en el texto. Indic" simplemente que debemos
mientras que la suma de las desviaciones por encima de l es + 6. Volveremos sobre
sumar lo que sigue. Ln el pr.esente eJemplo, Lx indica sumar los porcentajes crudos o no procesados. el concepto de la desviacin en los Captulos 5 y 6.
44 Descripcin Medidas de tendencia central 45

Cmo obtener la media de una intervalos. Por ejemplo, podramos determinar que la categ~ra modal en una
distribucin de frecuencia simple medicin de nivel nominal de afiliaciones religiosas (protestante, catlica y juda)
es "protestante", ya que el mayor nmero de nuestros entrevistados se identifican
La frmula X = ":,X/N sirve para obtener la media de un pequeo nmero de como tales. Del mismo modo, podramos saber que el mayor nmero de estudiantes
puntajes. Sin embargo, cuando tenemos un mayor nmer0 de casos podra ser ms que asisten a Una universidad privada tiene un promedio de 2,5 (Mo = 2,5).
prctico, y se gastara menos tiempo, calcular la media de una distribucin de frecuen- La mediana requiere un ordenamiento de categoras de la ms alta a la ms
cia por la frmula baja. Es por esto que slo puede obtenerse a partir de datos ordinales o por intervalos y no
de datos nominales. Para ilustrar, podramos encontrar que la mediana de los ingresos
- =
X ":,lx
- anuales entre los dentistas de un pequeo pueblo es $17000. Este resultado nos da una
N
forma signficativa de examinar la tendencia central de nuestros datos. Por contraste,
en que
tendra poco sentido que furamos a calcular la mediana para escalas de afiliacin
X= la media religiosa (protestante, catlica o juda), se,xo (masculino o femenino) o pas u origen
X = el valor de un puntaje no procesado en la distribucin (Inglaterra, Polonia, Francia o Alemania), cuando no se ha realizado una categoriza-
IX = un puntaje multiplicado por su frecuencia de ocurrencia cin o ajuste a una escala.
":,IX = la suma de los IX's El uso de la media se restringe exclusivamente a los datos por intervalos. Su
N = el nmero total de puntajes aplicacin a datos ordinales o nominales da un resultado sin significado que
generalmente no indica en absoluto la tendencia central. Qu sentido tendra
La Tabla 4.5 ilustra el clculo de la media de una distribucin de frecuencia simple. calcular la media para una distribucin de afiliacin religiosa o de sexo? Aunque es
menos obvio, es igualmente inapropiado calcular una media para datos que pueden
TABLA 4.5 Cmo obtener
J{ de una distribucin X f fX categorizarse pero no puntuarse.
de frecuencia simple - = - 8 - - - - - - 2 - - - - - - - 1 - 6 - - - - - - - - - - -
Forma de la distribucin
7 3 21
6 5 30

4
5
4
6 30
16 x = Y2S.
N
= 132 = 4 71
28 '
La forma de una distribucin es otro factor que puede influir en la eleccin de la
medida de tendencia central que haga el investigador. En una distribucin unimodal
3 4 12
2 3 6 perfectamente simtrica, la moda, la mediana y la media sern idnticas, ya que el
1 1 1 punto de mxima frecuencia (Mo) es tambin el puntaje ms cercano a la mediana
N = 28 "2.fX = 132 (Mdn), as como el "centro de gravedad" (X). Como se muestra en la Figura 4.2, las
medidas de tendencia central coincidirn en el punto ms central, en el "pico" de la
COMPARACION DE LA MODA, LA MEDIANA Y LA MEDIA distribucin simtrica.
Cuando el investigador social trabaja con una distribucin simtrica, su eleccin
Llega un momento en que el investigador social escoge una medida de tendencia central de la medida de tendencia central se basar principalmente en sus objetivos particu-
para una situacin en una investigacin particular. Emplear la moda, la mediana o la
media? Su decisin involucra varios factores que incluyen:
FIGURA 4.2 Una distribucin
l. El nivel de medicin,. simtrica, unimodal, que
2. la forma de distribucin de sus puntajes, y demuestra que la moda, la
3. el objetivo de la investigacin. mediana y la media asumen
valores idnticos
Nivel de medicin

Como la moda requiere slo un conteo de frecuencia, puede aplicarse a


cualquier conjunto de datos en el nivel de medicin nominal, ordinal o por Mo
Mdn
X
46 Descripcin Medidas de tendencia central 47

lares de investigacin y en el nivel a que estn medidos sus datos. Sin embargo, pblica favorable, probablemente querramos calcular la media para demostrar que el
cuando trabaje con una distribucin sesgada su decisin estar muy influida por la empleado "promedio" gana $18000 y est relativamente bien pagado. Por otra parte,
forma de sus datos. si furamos representantes sindicales que buscan elevar los niveles salariales, querra-
Como lo demuestra la Figura 4.3, la moda, la mediana y la media no coinciden mos, probablemente, emplear la moda para demostrar que el salario "promedio" es
en las distribuciones sesgadas, a pesar de que sus posiciones relativas permanecen de slo $1 000, una suma atrozmente baja. Finalmente, si furamos investigadores
constantes -alejndose del "pico" y acercndose a la "cola ,,0_, el orden es siempre sociales buscando informar con exactitud sobre el salario "promedio" entre los
de moda, a mediana y a media. La moda cae ms cerca del "pico" de la curva, ya empleados de la corporacin, sabiamente emplearamos la mediana ($3000), ya que
que este es el punto en que ocurren los puntajes ms frecuentes. Por contraste, la cae entre las otras medidas de tendencia central y da, por lo tanto, una visin ms
media se encuentra ms cerca de la "cola", donde estn localizados relativamente eq uilibrada de la estructura salarial. El mtodo ms aceptable sera el de dar a
pocos valores de puntajes extremos. Por este motivo, el puntaje medio en la conocer las tres medidas de tendencia central y dejar que el pblico interpretase los
distribucin sesgada positivamente de la Figura 4.3 (a) se encuentra cerca de los resultados. Desafortunadamente, es cierto que pocos investigadores sociales -publi-
valores altos; la media en la distribucin sesgada negativamente de la Figura 4.3 (b) rrelacionistas y los representantes sindicales- informan sobre ms de una medida de
cae cerca de los valores bajos. tendencia central. Es ms desafortunado an el hecho de que algunos informes de
investigacin no especifican exactamente cul medida de tendencia central -la moda,
FIGURA 4.3 Posiciones la mediana o la media- se utiliz para calcular la cantidad "promedio" o la posicin
relativas de medidas de dentro de un grupo de puntajes. Como lo demuestra la ilustracin anterior, sera
tendencia central en (a) imposible una interpretacin razonable de los descubrimientos si no se contara con
una distribucin '
1:
" tal informacin.
sesgada positivamente y ":u:J
(b) una distribucin tt" TABLA 4.6 Medidas de
sesgada negativamente Salario
tendencia central de una
distribucin sesgada de $100000
Mo Mdn X X. Mdn Me
salarios anuales 25000
10000
x= $18000
(a> (b> 5000
Mdn = $3000
1000
Mientras que la media est muy influida por los puntajes extremos en ambas 1000 Me = $1000
direcciones, los cambios en los valores extremos modifican poco o nada la mediana. 1000
1000
Esto se debe a que la media considera todos los puntajes en una distribucin,
mientras que, por definicin, la mediana se entiende slo con el valor numrico de
puntaje que cae en la posicin ms cercana al medio de la distribucin. Como se Ya se anot, anteriormente, que algunas distribuciones de frecuencia pueden
ilustra ms adelante, el cambio del valor de un puntaje extremo de 10, en la caracterizarse como bimodales, ya que contienen dos puntos de frecuencia mxima.
distribucin A, a 95 en la distribucin B no modifica en absoluto el valor de la Para describir apropiadamente las distribuciones bimodales, generalmente es til
mediana (Mdn = 7,5), en tanto que la media vara de 7,63 a 18,25: identificar ambas modas; el uso de la mediana o la media podra oscurecer aspectos
importantes de tales distribuciones.
Consideremos la situacin del investigador social que dirigi entrevistas con 26
distribucin A: 5 6 6 7 89 10 10 Mdn = 7,5 x= 7,63
personas de bajos ingresos para determinar cul era su concepcin ideal sobre el
d'stribucin B: 5 6 6 7 8 9 10 95 Mdn = 7,5 X = 18,25 tamalo de su familia. A cada entrevistado se le pregunt: "Suponga que usted
puede decidir exactamente qu tan grande debe ser su familia, cuntas personas le
En una distribucin sesgada, la mediana cae siempre en algn punto entre la gustara ver en su familia ideal, incluyendo a todos los nilos y adultos? " Como se
media y la moda. Es esta caracterstica la que convierte a la mediana en la medida muestra en la Tabla 4.7, los resultados de este estudio indicaron una amplia gama de
de tendencia central ms deseable para describir una distribl.l,cin de puntajes sesga- preferencias en cuanto al tamao de la familia, desde vivir solo (1) hasta vivir con
da. Para ilustrar esta ventaja de la mediana volvamos a la Tabla 4.6 y examinemos el muchas personas (10). Usando la media o la mediana, podr~mos concluir que la
salario anual "promedio" entre los empleados de una pequea corporacin. Si familia ideal de los entrevistados constaba de seis miembros (X = 5,58; Mdn = 6).
furamos publirrelacionistas contratados por una corporacin para darle una imagen Sin embargo, sabiendo que la distribucin es bimodal, vemos que estaban represen-
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -.....- - " " "...9..1

48 Descripcin
Medidas de tendencia central 49

tadas, en realidad, dos concepciones ideales sobre el tamao de la familia dentro del COMO OBTENER LA MODA. LA MEDIANA Y LA MEDIA DE
grupo de entrevistados: una con un nmero bastante grande de personas (Mo = 8), Y UNA DISTRIBUCION DE FRECUENCIA AGRUPADA
la otra con slo unas cuantas personas (Mo = 3).
En una distribucin de frecuencia agrupada, la moda es el punto medio del intervalo de
El Objetivo de la Investigacin clase que tiene mayor frecuencia. De acuerdo con esta definicin, la moda para la
distribucin situada en la Tabla 4.8 es 72, ya que ste es el punto medio del
Hasta este punto, hemos estudiado la eleccin de una medida de tendencia central
intervalo que ocurre ms frecuentemente (ocurre 17 veces).
en trminos del nivel de medicin y de la forma de una distribucin de los pun-
Para encontrar la mediana de los puntajes agrupados en una distribucin de
tajes. Preguntamos ahora: qu espera hacer el investigador social con su medida
frecuencia, debemos (1) encontrar el intervalo de clase que contiene la mediana y
de tendencia central? Si busca una medicin rpida, sencilla, pero crudamente (2) interpolar.
descriptiva o si est trabajando con una distribucin bimodal, emplear generalmente
la moda. Sin embargo, en la mayora de tas situaciones que enfrenta el investigador, la TABLA 4.8 Cmo obtener
la moda de una distribucin Imervalo de clase Punto medio f
moda slo tiene utilidad como un indicador preliminar de la tendencia central que
puede obtenerse rpidamente mediante una breve exploracin de los puntajes. Si de frecuencia agrupada 95-99 97 3
busca una medicin precisa de la tendencia central, la decisin est generalmente 90-94 92 2
entre la mediana y la media. 85-89 87 4
80-84 82 7
Para describir una distribucin sesgada, el investigador generalmente escoge la 75-79 77 12
mediana ya que (como se anot anteriormente) tiende a dar un cuadro equilibrado 70-74 72 17
de los puntajes extremos. La mediana se utiliza adems como un punto de la 65-69 67 12
distribucin donde los puntajes pueden dividirse en dos categoras de acuerdo con 60-64 62 5
55-59 57 5
preferencias sobre el tamao familiar -aqullos que prefieren una familia pequea 50-54 52 4
contra los que prefieren una familia grande. N = 71
Para una medida precisa de las distribuciones simtricas se tiende a preferir la
media sobre la mediana, ya que la media puede usarse fcilmente en el anlisis Paso l-para localizar el intervalo mediano, construimos primero una distri-
estadstico ms avanzado, como el que se introduce en los captulos subsiguientes del bucin de frecuencia acumulada, como se indica en la tercera columna de la Tabla
texto. Es ms, la media es ms estable que la mediana, ya que vara menos a travs 4.9. Comenzando con el intervalo que contenga los valores ms bajos (las edades
de las distintas muestras tomadas de cualquier poblacin dada. Esta ventaja de la menores, 20-29), sumamos las .frecuencias hasta llegar al intervalo que contenga el
media -aunque quizs no haya sido entendida o apreciada por el estudiante- se har caso que divide a la distribucin en dos partes iguales, el puntaje ms cercano al
ms manifiesta en el subsiguiente estudio de la funcin de toma de decisiones de la medio.
estadstica (ver Captulo 7).
En el presente ejemplo, N = 100 y, por lo tanto, buscamos el quincuagsimo
caso (N12 = 100/2 = 50). Subiendo desde el intervalo ms bajo, vemos que 26 de los
casos tienen edades de 39 o menos. Vemos tambin que el quincugesimo caso cae
dentro del intervalo 40-49, ya que ste es el intervalo de clase cuyas frecuencias
TABLA 4.7 Concepciones
acumuladas contienen a 53 o a ms de la mitad de los casos. En otras palabras,
ideales sobre el tamao de Tamoo ideal de la familia f
refirindose a las frecuencias acumuladas, los casos vigesimosptimo hasta el quin-
la familia entre 26
entrevistados de bajos
10 1 cuagsimotercero se encuentran dentro del intervalo 40-49. Esta es la mediana del
9 2 intervalo.
ingresos: una distribucin 8 6
bimodal 7 3
TABLA 4.9 Una distribucin
6 2 Inlervalo f fa
5 1 de frecuencia agrupada por
4 2 edades 60-69 15 100
3 6 50-59 32 85
2 2 40-49 27 53
1 1 30-39 16 26
N= 26 20-29 10 10
N= 100

". 'o3.'H.j -"L R4D""' n." "i%'"" M,""P;, -'''''''''''''


. ""'
.,,,,, "'."';'.-_ ..,'..,0;&4 , "'""""""'
.. '''''&MI. """ "'''"''''" , ''' ''''',,. ,""'1.4&" 3""' ."..""'- "' L __ ~,,-._~ _
Medidas de tendencia central 5/
SO Descripcin
PASO 1: Encontrar el punto medio de cada intervalo de clase
Paso 2-Para encontrar el valor exacto de la mediana, aplicamos la frmula

N fa bajo el lmite ) Intervalo x = punto medio


Lmite inferior '2 - inferior de la
17-19 18
Mediana = de la mediana + ( mediana del intervalo tamao del 14-16 15
del intervalo f en la mediana del intervalo intervalo 11-13 12
8-10 9
Para los datos de la Tabla 4.9, la mediana se determina como sigue: 5-7 6
2-4 3

.
Medlana= 39,5 + \
(50 27
- 26) 10 PASO 2: Multiplicar cada punto medio por el nmero de casos dentro de su
= 39,5 + 8,89 intervalo y obtener 'f,IX
= 48,39
Intervalo X = punto medio I IX
\1
Para calcular la media de una distribucin de frecuencia agrupada, puede l'
17-19 18 1 18
utilizarse una versin modificada de la frmula para una distribucin de frecuencia 14-16 15 2 30 [1
3 36
simple (ver Tabla 4.5). Como se muestra abajo, el smbolo X ya no se usa para.
designar un puntaje, sino que se refiere al punto medio de un intervalo de clase. Por
11-13
8-10
12
9 5 45 il
5-7 6 4 24
lo tanto, 2-4 3 2 6
N = 17 "ifX = 159
- 'ifX
X=-
N
PASO 3: Insertar el Resultado del Paso 2 en la Frmula para X
en que - 'J:...g
X = N
x = la media 159
=17
x = el punto medio de un intervalo de clase
= 9,35
fX = un punto medio multiplicado por el nmero de casos dentro de su RESUMEN
intervalo de clase
Este captulo ha presentado las tres medidas de tendencia central ms conocidas,
N =el nmero total de puntajes medidas de lo que es "promedio" o "tpico" en un conjunto de datos. Se defini
la moda como la categora o puntaje que ocurre ms a menudo; se consider la
mediana como el punto ms cercano al medio en una distribucin; la media se conside-
Podemos ilustrar el clculo de una media de datos agrupados con re- r como la suma de un conjunto de puntajes dividida entre el nmero total de
ferencia a la siguiente distribucin: puntajes en un conjunto. Se compararon estas medidas de tendencia central conside-
rando el nivel de medicin, la forma de su distribucin y el objetivo de la
investigacin. Podemos resumir esas condiciones para elegir entre tres medidas de la
Intervalo I siguiente manera:
17-19 1
14-16 2 Moda:
11-13 3 1. Nivel de medicin: nominal, ordinal o por intervalos.
8-10 5
5-7 4 2. Forma de la distribucin: ms apropiada para la bimodal:
2-4 2 3. Objetivo: medida de tendencia central rpida y sencilla pero aproximativa.
N=17
,
:1
52 Descripcin Medidas de tendencia central 53

Mediana: 9. Buscar (a) la moda (b) la mediana y (c) la media para los puntajes 8, 6, 10, 12.
1. Nivel de medicin: ordinal o por intervalos 1,3,4,4.
2. Forma de la distribucin: ms apropiada para las altamente sesgadas. IO. Busca~ (a) la moda (b) la mediana y (c) la media para los puntajes 12, 12, 1,
3. Objetivo: medicin precisa de la tendencia central, puede utilizarse a veces 12,5,6,7.
para operaciones estadsticas ms avanzadas o para dividir las distribuciones 11. Cul es- la desviacin de cada uno de los siguientes puntajes de una media de
en dos categoras (por ejemplo, alto contra bajo). 20,S? (a) X = 20,5; (b) X = 33,0; (c) X = 15,0; (d) X = 21,0.
12. Cul es la desviacin de cada uno de los siguientes puntajes de una media de
Media: 3,0? (a)X= 4,0, (b)X= 2,5; (c)X= 6,3; (d)X= 3,0.
l. Nivel de medicin: por intervalos 13. Cul es la desviacin de cada uno de los siguientes puntajes de una media de
2. Forma de la distribucin: ms apropiada para las simtricas unimodales. 15? (a) X = 22,5; (b) X = 3; (c) X = 15; (d) X = 10,5;
3. Objetivo: medicin precisa de la tendencia central, puede utilizarse a menu- 14. Los puntajes de actitudes hacia los portorriqueftos, de 31 estudiantes, se ubicaron
do para operaciones estadsticas ms avanzadas, incluyendo pruebas para en la siguiente distribucin de frecuencia (los puntajes ms altos indican actitudes
tomar decisiones de las que se tratar en los captulos subsiguientes del ms favorables hacia los portorriqueos):
texto.

PROBLEMAS Puntaje de actitud f


7 3
I. Los salarios por hora de siete empleados de una peque.1a compaa son $9, $8, 6 4
5 6
$9, $4, $1, $6, y $3. Encontrar (a) el salario modal por hora, (b) el salario 7
4
mediano por hora y (c) el salario medio por hora. 3 5
2. Supongamos que la pequea compaa del Problema I contrat a otro empleado 2 4
con un salario de $1 por hora, dando por resultado los siguientes salarios por 1 2
N= 31
hora: $9, $8, $9, $4, $1, $6, $3 y $1. Encontrar (a) el salario modal por hora,
(b) el salario mediano por hora, (c) el salario medio por hora.
3. Encontrar (a) la moda, (b) la mediana y (c) la media para los puntajes 205, 6, Encontrar la) la moda (b) la mediana y (c) la media.
S, 5, S, 2 Y I. Qu medida de tendencia central no usara para describir este 15. Se pidi, a 31 nios matriculados en el 3er. curso elemental de una escuela urbana,
conjunto de puntajes? Por qu? que indicaran el nmero de sus hermanos y/o hermanas que vivieran en su hogar.
4. Seis alumnos de un semina;-io de sociologa fueron interrogados mediante una Los datos resultantes se ordenaron en forma de distribucin de frecuencia como
medicin de nivel por intervalos respecto de su actitud hacia los portorriqueftos. sigue:
Sus respuestas en la escala de I a 10 (los valores de pun tajes ms altos indican
actitudes ms favorables hacia los portorriqueftos) fueron como sigue: S, 2, 6, 3,
Nmero de hermanos J
I y I.
Buscar (a) la moda (b) la mediana y (c) la media para los anteriores puntajes de 5 6
actitud. En conjunto, qu tan favorables eran estos estudiantes hacia los 4 7
3 9
portorriq ueftos? 2 5
5. Buscar (a) la moda (b) la mediana y (c) la media para los puntajes 10, 12, 14, 1 4
8,6,7, 10, 10. N = 31
6. Buscar (a) la moda (b) la mediana y (c) la media para los puntajes 3, 3,4, 3, 1,
6, 5, 6, 6, 4.
7. Encontrar (a) la moda (b) la mediana y (c) la media para los puntajes 8, 8, 7, 9, Encontrar (a) el nmero modal de hermano (b) el nmero mediano de hermanos
y (c) el nmero medio de hermanos para este grupo de 31 estudiantes.
10,5,6,8.8.
8. Buscar (a) la moda (b) la mediana y (c) la media para los puntajes 5, 4, 6, 6, l. 16. Encontrar (a) la moda (b) la mediana y (cl la media para la siguiente distribu-
Y 3. cin de frecuencia:
---.,
54 Descripcin T
Valores del pUll1aje I
-----------
10 3
9 4
8 6
7 8
6 9
5 7
4 5
3 2
2 1
1 1
N= 46

17. Encontrar (a) la moda (b) la mediana y (c) la media para la siguiente distribu-
cin de frecuencia agrupada:

Intervalo de clase f
En el Captulo 4 vimos que la moda, la mediana y la media podan usarse para
20-24 2
15-19 4
resumir, en un slo valor, lo que es "promedio" en una distribucin. Sin embargo,
10-14 8 cuando se usa cualquier medida de tendencia central, sta nos da slo un cuadro
5-9 5 incompleto de un conjunto de datos y, por consiguiente, podra conducir tanto a
N = 19 conclusiones errneas o distorsionadas como a una posible aclaracin.
Para ilustrar esta posibilidad, supongamos que Honolulu, Hawa y Sonora.
18. Encontrar (a) la moda (b) la mediana y (e) la media para la siguiente distribu- Mxico tienen la misma temperatura media de 38C durante el da. Podemos
cin de frecuencia agrupada:
entonces suponer que la temperatura es bsicamente igual en ambas localidades? O,
no es posible que una ciudad sea ms apropiada que la otra para la natacin y otras
Intervalo de clase f actividades al aire libre? Como se muestra en la Figura 5.1, la temperatura de
90-99 16 Honolulu slo tiene leves variaciones durante el ao, fluctuando usualmente entre
80-89 17 33C y 42C. Por contraste, la temperatura en Sonora puede diferir, de estacin en
70-79 15 estacin, de una mnima de cerca de 21C en enero a una mxima de cerca de 45C
60-69 3 en julio y agosto. No es necesario decir que las playas de Sonora no se encuentran
50-59 2
40-49 3 atestadas durante todo el ao.
N= 56 Tomemos otro ejemplo: supongamos que se ha encontrado que los ladrones y
los profesores de secundaria, en una ciudad determinada, tienen el mismo ingreso
19. Encontrar (a) la moda (b) la mediana y (c) la media para la siguiente distri- anual medio de $ 8 000. Indicara necesariamente, este descubrimiento, que las dos
bucin de frecuencia agrupada: distribuciones de ingresos son iguales? Por el contrario, podra encontrarse que
difieren marcadamente en otro aspecto importante -o sea, que los ingresos de los
Intervalo de clase profesores se agrupan estrechamente alrededor de los $ 8 000, mientras que los
f ingresos de los ladrones son mucho ms irregulares, reflejando mayores oportu-
17-19 2 nidades de encarcelamiento, desempleo y pobreza, as como de una riqueza poco
14-16 3
11-13 6
usual.
8-10 5 Se puede ver que, adems de una medida de tendencia central, necesitamos un
5-7 1 ndice de cmo estn diseminados los puntajes alrededor d.el centro de la distribu-
N = 17
cin. En una palabra, necesitamos una medida de lo que se conoce comnmente

55
------.----.-- ~-.~. ...'"""""""'"_....
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -...... ""1
,'414IjjIlji
....

'l
I

56 Descripcin Medidas de dispersin o variabilidad 57

FIGURA 5.1 Diferencias deseamos obtener ahora una medida de dispersin que tome en cuenta cada puntaje en
de dispersin: La una distribucin (en vez de slo dos valores), podramos tomar la desviacin
distribucin de temperatura .!! absoluta (o distancia) entre cada puntaje y la media de la distribucin (L,"I), sumar
u
en Honolulu y Sonora e estas desviaciones, y luego dividir esta suma entre el nmero de puntajes. El
(nmeros aproximados) '"" resultado sera la desviacin media. Por frmula,
J:"
DM -
- lxl
N
en que
DM la desviacin media
como dispersin o variabilidad. Volvindo sobre el ejemplo anterior, podramos = la suma de las desviaciones absolutas (sin tomar en cuenta los signos + y _)
~lxl
decir que la distribucin de temperatura en Sonora, Mxico, tiene mayor variabilidad N = el nmero total de pllntajes
que la distribucin de temperatura en Honolulu, Hawa. Del mismo modo, podemos
Una nota importante: para llegar a ~Ix 1, debemos pasar por alto los sig~o~ (+)
decir que la distribucin de ingresos entre los profesores tiene mellar variabilidad
y (_.) y sumar valores absolutos. Esto es cierto porque la suma. de ~~s deSViaCiones
que la distribucin de ingresos entre los ladrones. Este captulo trata slo de las
reales (Lx) -desviaciones que usan signos para mostrar la dlrec.cl~n ya sea..por
medidas de dispersin o variabilidad ms conocidas: el rango, la desviacin media y
la desviacin estndar. encima o por abajo de la media- es siempre igual a cero. Las deSViaCiones pos.lt~vas
y negativas se cancelan a s mismas y, por tanto, no pueden usarse para descnblr. o
EL RANGO comparar la dispersin de las distribuciones. Por contraste, la ~uma. ~e las d~sv~~
ciones absolutas tiende a agrandarse a medida que aumenta la dlsperslOn o vanabih-
dad de la distribucin.
Para lograr una medida de dispersin rpida, pero aproximada, podramos buscar lo
Podemos ilustrar ahora el procedimiento paso a paso para calcular la desviacin
que se conoce como el rango (R), o sea la diferencia entre el puntaje ms alto y el
media, considerando el conjunto de datos 9, 8, 6, 4, 2 Y l.
ms bajo de la distribucin. Por ejemplo, si la temperatura ms alta de Honolulu, en
el ao fue de 44C y la ms fra de 28C, entonces el rango de la temperatura anual PASO 1: Buscar la Media para la Distribucin
en Honolulu sera 16 C (44 - 28 = 16). Si el da ms caluroso en Sonora fue de
4'rC y el ms fro de 23C, el rang( de la temperatura en Sonora sera 24C (4r- x
13= 24C), 9
La ventaja del rango -su clculo rpido y fcil- es a la vez su ms importante 8 - "i.X
6 X=N
desventaja. Es decir, que el rango depende totalmente de slo dos valores de
4 30
puntajes, del caso ms grande y el ms pequeflo, en un determinado conjunto de 2 =6
datos dado. Como resultado, el rango generalmente da slo un ndice no procesado 1 = 5
de la dispersin de la distribucin. Por ejemplo, R = 98 en los datos 2, 6, 7, 7, 10, "i.X = 30
12, 13, 100, (R = 100 - 2 = 98), mientras que R = 12 en los datos 2, 6, 7, 7,10,
12, 13, 14, (R = 14 - 2 = 12). Por lo tanto, cambiando un solo puntaje (de 100 a PASO 2: Restarle la media a cada puntaje no procesado (crudo) y sumar estas
14), hicimos que el rango fluctuara bruscamente de 98 a 12. Cualquier medicin que desviaciones (sin considerar sus signos)
est tan afectada por los pllntajes de un slo entrevistado, no puede darnos una idea x x
precisa con respecto a la dispersin y, en el mejor de los casos, debe considerarse
slo como un ndice preliminar o muy aproximado. 9 +4
LA DESVIACION MEDIA 8 +3
6 +1
4 -1
En el captulo anterior se defini el concepto de desviacin como la distancia entre 2 -3
1 -4
cualquier porcentaje no procesado y su media. Para encontrar la desviacin. se nos IX = 30 "i.lxl =16
dijo que le restramos la media a cualq lIier porcentaje no procesado (x = X - Xl. Si
Medidas de dispersin o variabilidad 5 \1
58 Descripcin

PASO 3: Dividir ~ I xl entre N para controlar el nmero de casos involucrados LA DESVIACION ESTANDAR

Por motivos que pronto sern evidentes. la desviacin media ya no es utilizada


DM=~
N ampliamente por los investigadores sociales; ha sido abandonada como medida de
=11 dispersin en favor de una ms efectiva, la desviacin estndar. Sin embargo. corno
= 2,67 veremos, la desviacin media no puede considerarse como una prdida de tiempo, ya
que, por lo menos, nos da una base firme para comprender la naturaleza de la
Siguiendo el procedimiento anterior, vemos que para el conjunto de datos 9, 8, desviacin estndar.
6, "4, 2 y 1, la desviacin media es 2,67. Esto indica que, en promedio, los puntajes En un estudio previo vimos que la desviacin media evita el problema de los
de esta distribucin se desvan de la media por 2,67 unidades. nmeros negativos, que cancelan a los positivos, pasando por alto los signos (+) y
Para comprender mejor la utilidd de la desviacin media, volvamos a las (-) y sumando las desviaciones absolutas de la media. Este procedimiento para crear
distribuciones de ingresos diarios (a), (b) y (c), tal como estn localizadas en la una medida de variabilidad tiene la notoria desventaja de que tales valores absolutos
Tabla 5.1. Ntese primero que la media de cada distribucin es $ 20. Ntese no son siempre tiles en el anlisis estad stico ms avanzado (ya q uc no se pueden
tambin que parecen existir importantes diferencias de dispersin entre las distribu- manipular algebraicamente con facilidad).
ciones, diferencias que pueden detectarse con ayuda del rango y la desviacin media. Para superar este problema y obtener una medida de dispersin que sea ms
Examinemos primero la distribucin de ingresos (a) en la que todos los tratable, en los procedimientos estadsticos ms avanzados, podramos elevar al
ingresos son exactamente iguales. Como todos los puntajes de esta distribucin cuadrado las desviaciones reales de la media y sumarlas (~X2). Como lo ilustra la
toman valores numricos idnticos (20), podemos decir que la distribucin (a) no Tabla 5.2, este procedimiento se librara de los signos -ya que los nmeros elevados
tiene ninguna dispersin. Todos ganaron la misma cantidad de dinero ese da. Come al cuadrado son siempre positivos.
resultado, el rango es O y no hay absolutamente ninguna desviacin de la media Despus de sumar las desviaciones de la meclia elevadas al cuadrado, podramos
(DM = O). Las distribuciones (b) y (c) s contienen dispersin. Ms especficamente, la dividir esta suma entre N para controlar el nmero de puntajes involucrados y obtener
distribucin (b) tiene un rango de 6 y una desviacin media de 1,71; la distribucin lo que se conoce como la media de estas desviaciones cuadrticas. (Nota: Recurdese
(c) tiene un rango de 30 y \Ina desviacin media de 8,57 Podemos afirmar, por lo que se sigui un procedimiento semejante para llegar a la desviacin media cuanclo
tanto, que la distribucin (b) contiene menor variabilidad que la distribucin (c) dividimos ~ lx I entre N). Continuando con la ilustracin de la Tabla 5.2, vemos que
-los ingresos de la distribucin (b) son ms parecidos que los ingresos de la 2
distribucin (c). lx = g = 867
N 6 '
Surge an otro problema. Como resultado directo de la elevacin al cuadrado
TABLA 5.1 Dispersin
de las desviaciones de la media, la unidad de medicin ha cambiado, lo qUe hace que
Distribucin (a) Distribucin (b) Distribucin (e) nuestro resultado 8,67 sea bastante difcil de interpretar. Tenemos 8,67 pero 8,67
en las distribuciones
unidades de qu? Entonces, para regresar a nuestra unidad de medicin original,
de ingresos diarios que x Ixl x Ixl x Ixl
tomamos la ra{z cuadrada de la media de las desviaciones elevadas al cuadrado:
tienen la misma media ($ 20)
$20 O $23 +3 $35 +15
20 O 22 +2 30 +10
20 O 21 +1 25 +5 [YX2
20 O 20 O 20 O
y; = V8,67 = 2,95
20 O 19 -1 15 -5
20 O 18 -2 10 -10 Definimos ahora la desviacin estndar como el resultado de la anterior serie de
20 O 17 -3 5 -15
lxl = O lxl = 60 operaciones, es decir, como la ra{z cuadrada de la media de las desviaciones de la
lxl =12
media de una distribucin elevadas al cuadrado. Simbolizada por DE o por la letra
X = $20 X = $20 X= $20
R=$O R =$ 6 R = $30 minscula griega sigma a.
DM = $ O DM = $ 1,71 DM = $ 8,57
Ninguna Algtna Mayor
dispersin dispersin dispersin
------------------------------------~"'@. ,..
60' Descripcin Medidas de dispersin o variabilidad 61

x % %' x % %'

TABLA 5.2 Puntaje de 9 +4 16 9 +4 16


desviaciones cuadrticas para 8 +3 9 8 +3 9
eliminar los nmeros negativos: 6 +1 1 6 +1 1
en el ejemplo se utilizan los 4 -1 1 4 -1 1
2 -3 9 2 -3 9
datos de la Tabla 5.1. 1 1
-4 16 -4 16
Ix = O Ix' = 52 Ix' = 52

en que PASO 4: Dividir entre N y encontrar la raz cuadrada del resultado


CT = la desviacin estndar
2
lx = la suma de las desviaciones de la media elevadas al cuadrado ffX2
N = el nmero total de puntajes
CT = VN
Para resumir, el procedimiento para calcular la desviacin estndar no difiere =;pf
mucho del mtodo que vimos anteriormente para obtener la desviacin media. En = \/8,67
relacin con el presente ejemplo, se desarrollan los siguientes pasos.
= 2,95.
PASO 1: Encontrar la media para la distribucin
Podemos decir ahora que la desviacin estndar para el conjunto de datos 9, 8,
6, 4, 2 Y I es 2,95.
x
La frmula de los puntajes crudos
- IX
9 x=-
N
o no procesados para DE
8
6 30
=6 Hasta ahora se ha utilizado la frmula \/lx 2 /lil para calcular la desviacin
4
2 =5 estndar. Existe un mtodo ms sencillo para obtener DE -especialmente si hay una
1 calculadora a la mano- un mtodo que no requiere buscar las desviaciones, sino que
IX = 30 trabaja directamente con los puntajes no procesados.
La frmula de los puntajes crudos es

PASO 2: Restar la media a cada puntaje no procesado para obtener la desviacin

x % en la que
9 +4 CT= la desviacin estndar
8 +3 IT'= la suma de los puntajes no procesados elevados al cuadrado (importan-
6 +1 te: cada puntaje no procesado se eleva al cuadrado primero y luego se
4 -1
2 -3 suman- estos puntajes no procesados elevados al cuadrado)
1 -4 N= el nmero total de puntajes
)(2 = la media elevada al cuadrado

PASO 3: Elevar cada desviacin al cuadrado antes de sumar las desviaciones elevadas El procedimiento paso a paso para calcular DE, por el mtodo de los puntajes no
al cuadrado
procesados, puede ilustrarse volviendo sobre los datos de la Tabla 5.2.

, Ii&SMii
T

Medidas de dispersin o variabilidad 63


61 Descripcin 1

PASO 1: Elevar cada puntaje no procesado al cuadrado antes de sumar los puntajes Valor de los pUl1tajes f
no procesados elevados al cuadrado 7 1
6 2
5 3
X X' 4 5
81 3 2
9
64 2 2
8
36 1 1
6
4 16 N = 16
2 4
1 1 PASO 1: Multiplicar cada valor (X) por su I para obtener IX
lX' = 202
X f fX
PASO 2: Obtener la media y clevarla al cuadrado 7 1 7
6 2 12
X 5 3 15
4 5 20
9 3 2 6
8 2 2 4
6 )( = I.X = 30 = 5 1 1 1
N 6
4
2 X' = 25
1 PASO 2: Multiplicar cada IX por X para obtener IX' (antes de sumar para obtener
I.X = 30 "'i.fX 2 )

PASO 3: "Insertar" los resultados de los pasos 1 y 2 en la frmula


X fX fX'

(T = ~'!:f- - )(2
7
6
5
7
12
15
49
72
75
= y1p - 25 4 20 80
= Y33,67 - 25,00 3 6 18
2 4 8
= V8.6f 1 1 1
= 2,95 I.fX' = 303
Como se mostr anteriormente, la aplicacin de la frmula de los puntajes no
procesados a los datos de la Tabla 5.2 nos da exactamente el mismo resultado que el
mtodo original. PASO 3: Obtener la media y elevarla al cuadrado

Cmo obtener la DE de una distribucin de frecuencia simple fX


Para obtener la desviacin estndar de datos ordenados en forma de distribu- 7
12
cin de frecuencia simple, aplicamos la frmula
15 X=~
N
20 65
6 = 16
)(, = 16,48
4
1 = 4,06
Para ilustrar paso a paso, calculemos la desviacin estndar de la siguicnte distribu- I.fX = 65
cin:
64 Descripcin Medidas de dispersin o variabilidad 65

PASO 4: "Insertar" los resultados de los pasos l. 2 Y 3 en la frmula calificacin ms alta'! Un poco de reflexin nos mostrar que depende de cmo les
haya ido a los otros estudiantes en cada clase.
{J = ~J:Jf- X 2- Un mtodo que da una estimacin aproximada de la anchura de una lnea base
es el rango, ya que da la distancia entn: los puntajes ms alto y ms bajo a lo largo
= VW - 16,48 de la lnea base. Pero el rango no puede utilizarse efectivamente para situar un
= V18,94 - 16,48 puntaje en relacin con su media. ya que -aparte de sus otras debilidades- la
= V2,46 amplitud cubre la anchura completa de la lnea base. Por contraste, el tamao ele la
= 1,57 desviacin estndar es ms pequeo que el del rango y usualmente cubre mucho
menos que la anchura completa de la lnea base.
El significado de la desviacin estndar Tal como medimos un tapete en centmdros o metros, tambin podramos
medir la lnea base en unidades de desviacin est'ldar (en unidades sigma). Por
La serie de pasos que se requieren para calcular la desviacin estndar puede dejar al
ejemplo, podramos sumar la desviacin estndar al valor de la media para encontrar
estudiante con una sensacin de incertidumbre con respecto al significado de su resulta-
cul puntaje no procesado est situado exactamente a una desviacin estnd~ (una
do. Por ejemplo, supongamos que encontramos que o = 4 en una distribucin particular
distancia sigma) de la media. Por Jo tanto, como lo muestra la Figura 5.2, si X = 80
de puntajes. Qu nos indica este nmero? Qu podemos exactamente decir ahora
y DE = 5, entonces el puntaje no procesado 85 est exactamente una desviacin
sobre esa distribucin. que no pudimos haber dicho antes?
estndar por sobre la media (80 + 5 = 85), una distancia de + la. Esta direccin es
El siguiente captulo buscar aclarar el significado completo de la desviacin
"ms" porque todas las desviaciones sobre la media son positivas; todas las desvia-
estndar. Por ahora, notemos brevemente que la desviacin estndar (como la
ciones por debajo de la media son "menos" o negativas.
desviacin media que le antecede) representa la "variabilidad promedio" de una
distribucin, ya que mide el promedio de desviaciones de la media. Tambin entran
a escena los procedimientos de elevar al cuadrado y sacar la raz cuadrada pero, FIGURA 5.2 Trazado de
principalmente, con el fin de eliminar los signos (-) y volver a la unidad de la lnea base en unidades
medicin ms cmoda, la unidad del puntaje no procesado. de desviacin estndar
cuando la desviacin
Notemos tambin que mientras mayor sea la dispersin alrededor de la media
estndar (a) es S y
en una distribucin, mayor ser la desviacin estndar. As, a = 4,5 indica una
la media (.l') es 80
mayor variabilidad que a = 2,5. Por ejemplo, la distribucin de la temperatura diaria
en Sonora, Mxico, tiene una desviacin estndar mayor que la que tiene la
distribucin de temperatura, en la misma poca, en Honolulu, Hawaii.
5 70 75 80 85 90 95
Si deseamos estudiar la distancia entre una mesa y la pared de la sala, -3a -2a -la X ~la +2a +3a
podramos pensar en trminos de metros o centmetros como unidades de medicin
(por ejemplo, "la mesa de la sala est situada a 50 centmetros de esta pared"). Continuamos trazando la lne<l base sumando el valor de la desviacin estndar
Pero, cmo medimos la anchura de la lnea base de un polgono de frecuencia que con el puntaje no procesado 85. Este procedimiento nos da el puntaje no procesado
contenga los puntajes de un grupo de entrevistados ordenados de bajo a alto (en 90, que est exactamente a dos desviaciones estndar sobre la media (85 + 5 = 90).
orden ascendente)? Como un asunto relacionado, cmo ingeniamos un mtodo Del mismo modo, le sumamos la desviacin estndar al (luntaje no procesado y
para encontrar la distancia entre cualquier puntaje no procesado y su media -un obtenemos 95, lo cual representa el puntaje no procesado que cae exactamente tres
mtodo estandarizado que permita comparaciones entre puntajes no procesados desviaciones estndar sobre la media. Para continuar el proceso por abajo de la
dentro de la misma distribucin, as como entre diferentes distribuciones? Si media, restamos la desviacin estndar de la media: restamos 5 de 80, 5 de 75 y 5
estuviramos hablando de mesas, podramos encontrar que una est a 50 cm de la de 70 para obtener -1 a, -2a, y -3a.
pared de la sala, mientras que la otra est a 100 cm de la pared de la cocina. Como se ilustra en 1<1 Figura 5.3, el proceso ele trazado de 1<1 lnea base en
Tenemos una unidad de medicin estndar en el concepto de centmetros y, por lo unidades de desviacin estndar es, en muchos aspectos. igual que medir la distancia
tanto, podemos hacer tales comparaciones en forma significativa. Pero, qu hay con entre una mesa y ia pared en unidades de centmetros. Sin embargo, la analoga se
las comparaciones entre puntajes crudos? Por ejemplo, podemos siempre comparar rompe en por lo menos un aspecto importante: mientras lo~ centmetros y los
un 85 en un examen de ingls con un 80 en alemn'! Cul es en realidad la metros son- de dimensin constante (1 centmetro siempre es igual a la centsima
66 Descripcin Medidas de dispersin o variabilidad 7

FIGURA 5.3 Medicin no se utiliza ampliamente en la investigacin social, ya que no puede emplearse en
de la distancia (a) entre muchos anlisis estadisticos avanzados. Por contraste, la desviacin estndar emplea
el procedimiento matemticamente aceptable de despejar los signos en lugar de pa-
una mesa y una pared en
(.)~2m 1 m = 100 cm
sarlos por alto. Como resultado, la desviacin estndar se ha convertido en el paso
unidades de cm y (b)
entre un puntaje no inicial para obtener ciertas medidas estaMsticas, especialmente en el contexto de
procesado y una media en la toma de decisiones en estad stica. Analizaremos esta caracterstica de la desvia-
unidades de desviacin cin estndar en detalle en los captulos subsiguientes, particularmente en los Ca-
unidades de punlajc
estndar (b) X=90 - + 2 0 - - - - X=80 o = 5 no procesado ptulos 6 y 7.
A pesar de su utilidad como medida confiable de dispersin, la desviacin
parte del metro, 1 metro siempre tendr lOO cm), el valor de la desviacin estndar
estndar tiene tambin sus desventajas. Comparada con otras medidas de variabilidad,
vara de distribucin a distribucin. De otro modo, no podramos utilizar la desvia-
calcular la desviacin estndar tiende a ser difcil y tardado. Sin embargo, esta
cin estndar como se ilustraba anteriormente para comparar distribuciones en
desventaja est siendo superada ms y ms por el creciente uso de calculadoras de
cuanto a su variabilidad (por ejemplo, DE = $ 5 000 para la distribucin de ingresos
alta velocidad y computadoras para realizar anlisis estad sticos. La desviacin
de profesores de secundaria; DE = $ 15 000 para la distribucin de 'ingresos de los
estndar (como la desviacin media) tiene tambin la caracterstica de ser una
ladrones). Por este motivo, debemos calcular el tamaflo de la desviacin estndar
medida de nivel por intervalos y. por 10 tanto. no puede usarse con datos nominales
para cualquier distribucin con la que estemos trabajando. Como resultado, es por lo
u ordinales -datos que frecuentemente les sirven a muchos investigadores sociales.
general ms difcil entender la desviacin estndar en contraposicin con centmetros
o metros como unidad de medicin. Volveremos sobre este concepto de la desvia- COMO OBTENER EL RANGO, LA DESVIACION MEDIA y
cin estndar en el captulo siguiente. LA DESVIACION ESTANDAR DE DATOS AGRUPADOS
COMPARACION DEL RANGO, LA DESVIACION Ya sea que se trabaje con datos agrupados o no agrupados. el rango es siempre la
MEDIA y LA DESVIACION ESTANDAR diferencia entre Jos Juntajcs ms altos y ms bajos. No es necesario ningn mtodo
o frmula especial.
El rango se considera meramente como un ndice preliminar o aproximado de la A fin de ilustrar el procedimiento paso a paso para obtener la desviacin
variabilidad de una distribucin. Es rpida y fcil de obtener, pero no muy confiable, y
media para una distribucin de frecuencia agrupada, consideremos la siguiente
puede aplicarse a datos ordinales o por intervalos. distribucin de frecuencia agrupada:
El rango tiene un propsito til en relacin con el clculo de las desviaciones
estndar. Como se ilustra en la Figura 5.2, seis desviaciones estndar cubren casi la
distancia total entre el puntaje ms alto y el ms bajo en una distribucin (-30 a
I/lten'alo de e/ase r
+ 30). Este slo hecho nos proporciona un mtodo conveniente para la estimacin 17-19 ~

14-16 2
(pero no para el clculo) de la desviacin estndar. Generalmente, el tamao de la 11-13 3
desviacin estndar es de aproximadamente un sexto del tamao del rango. Por 8-10 5
ejemplo, si el rango es de 36, entonces podra suponerse que DE cae cerca de 6; si 5-7 4
2-4 2
el rango es 6, la DE, estar probablemente cerca de 1. N = 17
Esta regla puede revestir de una considerable importancia para el estudiante que
desea saber si su resultado est cercano a lo correcto. Para tomar un caso extremo, si PASO 1: Encontrar el punto medio de cada intervalo dI.' ciase
R = 10 y DE que hemos calculado, es 12, hemos cometido algn error, ya que DE
no puede ser mayor que el rango. Una nota de precaucin: la regla de un sexto es Intervalo x = PU/lto medio
aplicable cuando tenemos un gran nmero de puntajes. Para un pequeo nmero de 17-19 18
casos, habr generalmente un nmero menor de desviaciones estndar para cubrir el 14-16 15
rango de la distribucin. 11-13 12
Mientras que el rango se calcula con slo 2 valores numricos, tanto la des- 8-10 9
5-7 6
viacin estndar como la desviacin media toman en cuenta cada valor en una dis- 2-4 3
tribucin. Sin embargo, a pesar de su relativa estabilidad, la desviacin media ya
'*"'Ol '-'i"ri

l'
68 Descripcin
Medidas de dispersin o variabilidad 69
PASO 2: Determinar la media de la distribucin
u la= desviacin estndar
x= punto medio f IX f la= frecuencia en un intervalo de clase
X = el punto medio de un intervalo de clase
18 1 18
15 2 30 - YJs. N = el nmero total de puntajes
12 3 36 X= N 5(' = li media elevada al cuadrado
9 5 45 159
6 4 24 =17 El procedimiento paso a paso para encontrar la desviacin estndar puede
3 2 6 = 9,35 ilustrarse con referencia a los datos agrupados:
'IX = 159
Intervalo de clase f
PASO 3: Encontrar la desviacin, de cada punto medio, de la media
17-19 1
14-16 2
x = punto medio X - X = Ixl 11-13 3
8-10 5
18 8,65 5-7 4
15 5,65 2-4 2
12 2,65
9 ,35
6 3,35 PASO 1: Multiplicar cada punto medio por la frecuencia en el intervalo de clase y
3 6~5 sumar estos productos

PASO 4: Multiplicar cada puntaje de desviacin por la frecuencia en el respectivo Intervalo de clase f Punto medio (Xl fX
intervalo de clase y sumar estos productos
17-19 1 18 18
14-16 2 15 30
Intervalo f Ixl flil 11-13 3 12 36
17-19 8-10 5 9 45
1 8,65 865
14-16 5-7 4 6 24
2 5,65 1l;30
11-13 2-4 2 3 6
3 2,65 7;95
8-10 5 ,35 1,75
N = 17 'IX = 159
5-7 4 3,35 13,40
2-4 2 6,35 12,70 PASO 2: Obtener la media y elevarla al cuadrado
N = 17 'f1x1 = 55,75 - 2fX
X=N
PASO 5: Dividir entre N
159
DM = kf/xl = 17 X' = 87,42
N
= 9,35
55,75
= ---u- PASO 3: Multiplicar cada punto medio por IX y sumar estos productos
= 3,28
Intervalo de clase f Punto medio
Llegamos a una desviacin media de 3,28. (Xl IX fX'
Una frmula de puntajes no procesados puede usarse para calcular la desviacin 17-19 1 18 18 324
14-16 2 15 30
estndar para una distribucin de frecuencia agrupada. En trminos de frmula, 11-13
450
3 12 36 432
8-10 5 9 45 405
5-7 4 6 24 144
2-4 2 3 6 18
en que
'IX' = 1773

L
~
ti
70 Descripcin Medidas de dispersin o variabilidad 71
I
PASO 4: "Insertar" los resultados de los pasos 2 y 3 en la frmula Comparar la variabilidad de actitudes hacia la segregacin racial entre los
miembros de los grupos A y B calculando (a) el rango de los puntajes para qda \
CT - ~'J..fX2 _ X2 grupo (b) la desviacin media de los puntajes para cada grupo y (c) la desviacin
- N estndar de los puntajes para cada grupo. Cul grupo tiene mayor variabilidad 1

= v.i.fP- - 87,42 de puntajes de actitud?


= VI04,29 - 87,42 3. Para el conjunto de puntajes 3, 5, 5, 4, l hallar (a) el rango, (b) la desviacin
= v'"i6,87 media y (c) la desviacin estndar.
= 4,11 4. Para el conjunto de puntajes 1,6,6,3,7,4, la, calcular la desviacin estndar.
5. Calcular la desviacin estndar para el conjunto de puntajes 12, 12, la, 9, 8.
La desviacin estndar resulta ser 4,11. 6. Hallar la desviacin estndar para la siguiente distribucin de frecuencia de
puntajes:
RESUMEN
x f
En el presente captulo nos han presentado el rango, la desviacin media y la
desviacin estndar (tres medidas de dispersin o cmo los puntajes se encuentran 5 3
4 5
dispersos alrededor del centro de una distribucin). Se ha considerado el rango como 3 6
un indicador rpido, pero muy general, de dispersin o variabilidad, que puede 2 2
encontrarse fcilmente tomando la diferencia entre los puntajes ms alto y ms bajo 1 2
N = 18
en una distribucin. La desviacin media (la suma de las desviaciones absolutas
dividida entre N) se trat como una medida de dispersin matemticamente inadecua-
da, pero como una base slida para comprender la desviacin estndar, la raz cua- 7. Hallar la desviacin estndar para la siguiente distribucin de frecuencia de
drada del promedio de las desviaciones de la media elevadas al cuadrado. En la puntajes:
desviacin estndar tenemos una medida de dispersin confiable, a nivel de inter-
valos, que puede utilizarse para operaciones estadsticas descriptivas y en toma de x f
decisiones ms avanzadas. El sentido completo de la desviacin estndar se analizar
en el subsiguiente estudio de la curva normal y de las generalizaciones de muestras a 7 2
6 3
poblaciones. 5 5
4 7
PROBLEMAS 3 4
2 3
1 1
1. Los puntajes de examen obtenidos por un grupo :le 5 estudiantes son 7, 5, 3, 2 N = 25
Y l sobre una escala de la puntos. Para este conjunto de puntajes, buscar (a) el
rango (b) la desviacin media y (c) la desviacin estndar.
8. Hallar la desviacin estndar para la siguiente distribucin de frecuencia de
2. Sobre una escala diseada para medir actitudes hacia la segregacin racial, dos
puntajes:
grupos universitarios lograron los siguientes puntajes:

x f
Grupo A Grupo B
10 2
4 3 9 5
6 3 8 8
2 2 7 7
1 1 6 4
1 4 5 3
1 2 N = 29
ih 'i'$'

72 D~scripcin

9. Hallar (a) el rango (b) la desviacin media y (e) la desviacin estndar para la
siguiente distribucin de frecuencia agrupada de puntajes:
Intervalo de clase f
90-99 6
80-89 8
70-79 4
60-69 3
50-59 2
N = 23

10. Hallar (a) el rango (b) la desviacin media y (e) la desviacin estndar para la
siguiente distribucin de frecuencia agrupada de puntajes:
Intervalo de clase f
17-19 2
14-16 3
11-13 6
8-10 5
5-7 1

11. Hallar (a) el rango (b) la desviacin media y (e) la desviacin estndar para la
siguiente distribucin de frecuencia agrupada de puntajes:
Intervalo de clase f
20-24 2
15-19 4
10-14 8
5-9 5
N = 19
En los captulos anteriores vimos que las distribuciones de frecuencia pueden tomar
una variedad de formas. Algunas son perfectamente simtricas o libres de sesgo;
otras son sesgadas ya sea negativa o positivamente y algunas otras, incluso, tienen
ms de una "joroba", etc. Dentro de esta gran diversidad existe una distribucin de
frecuencia con la cual muchos de nosotros ya estamos familiarizados, aunque sea
slo por las calificaciones que nos dan los instructores de acuerdo a la "curva". Esta
distribucin, que se conoce comnmente como la curva normal, es un modelo
terico o ideal que se obtuvo de una ecuacin matemtica ms que de una inves-
tigacin y recoleccin de datos real. l Sin embargo, la utilidad de la curva normal,
para el investigador social, puede verse en sus aplicaciones a las situaciones reales de
investigacin.
Como veremos en el presente captulo, por ejemplo, la curva normal puede
utilizarse para describir distribuciones de puntajes, para interpretar la desviacin
estndar y para hacer un informe de probabilidades. En los captulos siguientes
veremos que la curva normal es un ingrediente esencial en la toma de decisiones en
estadstica, por medio de la cual el investigador social generaliza sus resultados de
muestras a poblaciones. Antes de proceder a un estudio de las tcnicas de la toma de
decisiones es necesario lograr primero una comprensin de las propiedades de la
curva normal.

La curva normal puede: construirse con la rrmula


y = --l::!.- e-(X-f):!l2o- 2

(T"VZ:;
dondo
y = la ordenada para un valor dado de X (frecuencia con que ocurr~)
'Tr = 3,1416
e = 2,7183

75
76 De /o descripcin a la toma de decisiones La curva normal 77

CARACTERISTICAS DE LA CURVA NORMAL FIGURA 6.2 Distribucin


hipottica de puntajes
Cmo puede caracterizarse la curva normal? y cules son las propiedades que la de coeficiente intelectual
distinguen de otras distribuciones? Como lo indica la Figura 6.1, la curva normal es
un tipo de curva uniforme y simtrica cuya forma recuerda a muchos una campana
y por tanto se conoce como la "curva en forma de campana". Tal vez el rasgo ms
sobresaliente de la curva normal es su simetria: si doblamos la curva en su punto
ms alto al centro, crearamos, dos mitades iguales, cada una fiel imagen de la otra.
Adems, la curva normal es unimodal. ya que slo tiene un' pico o punto de
mxima frecuencia -aquel punto en la mitad de la curva en el cual coinciden la
media, la mediana y la moda- (el alumno recordar que la media, la mediana y la
moda ocurren en distintos puntos en una distribucin sesgada, ver Captulo 3). asemejara a la distribucin normal -el mayor uso ocurnna en el centro de la
Desde el pico central redondeado de la distribucin normal, la curva cae gradual- entrada, mientras que a uno y otro lado ocurriran cantidades gradualmente decrecientes.
Hasta este punto, algunos lectores habrn notado que el mundo hipottico de la
mente en ambas colas, extendindose indefinidamente en una y otra direccin y
curva normal no difiere radicalmente del "mundo real" en que vivimos actualmente.
acercndose ms y ms a la lnea de base sin alcanzarla realmente.
De hecho, fenmenos tales como la estatura, el coeficiente intelectual, la orientacin
CURVAS NORMALES: EL MODELO Y EL MUNDO REAL
poltica y el uso en las entradas parecen aproximarse a la distribucin normal
terica. Debido a que muchos fenmenos poseen esta caracterstica, ya que ocurre
Podramos preguntarnos: hasta qu punto se asemejan o aproximan las frecuentemente en la naturaleza (y por otros motivos que luego conoceremos), los
distribuciones de datos reales (esto es, los daTOs recogidos por los investigadores investigadores, en muchos campos, han hecho extensivo el uso de la curva normal
sociales en el curso de una investigacin) a la forma de la curva normal? Imaginemos, aplicndola a los datos que recogen y analizan.
con fines ilustrativos, que todos los fenmenos sociales, psicolgicos y fsicos estu- Pero debera anotarse tambin que algunos fenmenos, tanto en las ciencias
vieran distribuidos normalmente, cmo sera este mundo hipottico? sociales como en otros campos, simplemente no se ajustan a la nocin terica de la
En lo concerniente a las caractersticas fsicas de los humanos, la mayora de los distribucin normal. Muchas distribuciones son sesgadas; otras tienen ms de un
adultos caera dentro del' campo de los 1,60 Y 1,80 m de statura, siendo muy pico; algunas son simtricas pero no tienen forma de campana. Como un ejemplo
pocos muy bajos (menos de 1,60 m) o muy altos (ms de 1,90 m). Como lo muestra concreto, consideremos la distribucin de la riqueza en el mundo. Es muy bien
la Figura 6.2, el Coeficiente Intelectual (C.I.) sera igualmente predecible -la mayor sabido que los "desposedos" superan en nmero a los "pudientes". As, como lo
proporcin de puntajes de C.I. caeran entre 90 y 110; veramos una cada gradual muestra la Figura 6.3, la distribucin de la riqueza (como lo indica el ingreso per
de los puntajes en una y otra cola con unos pocos "genios" que marcaran ms de 140; cpita) est aparentemente muy sesgada, de tal manera que una pequea proporcin
igualmente, pocos marcaran menos de 60. De igual manera, relativamente pocos de la poblacin mundial recibe una gran proporcin del ingreso mundial. Del mismo
individuos se catalogaran como extremistas polticos, ya sea de derecha o izquierda, modo, los especialistas en poblacin nos dicen que los Estados Unidos se han
mientras que a la mayora se les considerara polticamente moderados o neutrales.
Finalmente, hasta el patrn del uso resultante del flujo de trfico en las entradas se FIGURA 6.3 La 20
distribucin del
ingreso per cpita 15
FIGURA 6.1 La forma de en tre las naciones del "e
'
la curva normal mundo (en dlares ;":: 10
americanos) e 5

O
oo
II VI

...
N

II ln~reso

l I
L
La curva normal 79
78 De la descripcin a la toma de decisiones
FIGURA 6.5 El
convertido recientemente en una tierra de jvenes y ancianos. Desde el punto de
porcentaje del
?
vista econmico, esta distribucin de edad repre~enta una car g par~ una fue!,za de rea total bajo
trabajo relativamente pequea, compuesta por ciudadanos de mediana edad , que la curva normal
est manteniendo a un nmero desproporcionadamente grande de personas no pro- entre Xy el
ductivas, tanto jubilados como jvenes en edad escolar. punto uno de desviacin
Cuando tenemos buenos motivos para suponer alejamientos radicales de la estndar arriba
normalidad -como en el caso de la edad y el ingreso- la curva normal no puede de la X.
usarse como un modelo de hs datos que hemos obtenido. Por tanto, no puede
X +10
aplicrsele, a voluntad, a todas las distribuciones con que se encuentre cl inves-
tigador, sino que debe usarse con una buena dosis de discrecin. Afortunadamente,
poltica o el patrn de uso en una entrada. El requisito bsico, en cada caso, es slo
los estadsticos saben que muchos fenmenos de inters para el investigador social
que estemos trabajando con una distribucin normal de puntajes.
toman la forma de la curva normal. La naturaleza simtrica de la curva normal nos lleva a otra importante conclusin;
EL AREA BAJO LA CURVA NORMAL a saber, que cualquier distancia sigma dada arriba de la media contiene una proporcin
Para poder emplear la curva normal en la resolucin de problemas, debemos familia- idntica de casos que la misma distancia sigma por abajo de la media. As, si el
rizarnos con el rea bajo la curva normal: aquella rea que est entre la curJla y la 34,13% del rea est entre la media y 1 DE por arriba de la X, entonces el 34,13%
lnea base y que contiene el 100 por cienlo, o todos los casos, en una distribucin del rea total est entre la media y 1 DE por abajo de X; si el 47,72% est entrc la
normal dada. La Figura 6.4 ilustra esta caracterstica. . media y 2 DEs_ por arriba de la .x. entonces el 47,72% est entre la media y 2 DE s
Podramos encerrar una porcin de esta rea total dibujando lneas a partir de por abajo de X; si el 49,87% est entre la media y 3 DEs por arriba de x:entonces
dos puntos cualesquiera en la lnea base hasta la curva. Por ~jempl0, usando la media el 49,87% est tambin entre la media y 3 DEs por abajo de x: En otras palabras,
como punto de partida, podramos dibujar una lnea en X y otra en el punto que como se ilustra en la Figura 6.7, el 68,26% del rea total de la curva normal
est a 1 DE (una distancia sigma)* sobre X. Como 10 ilustra la Figura 6.5, esta r34.l3% + 34.13%) caen entre -la y +10 de la media; el 95,44% del rea (47,72%
porcin sombreada de la curva normal incluye 34,13% de la frecuel:cia total. + 47,72%) caen entre -20 y +20 de la media; el 99.74%, o casi todos los casos
De igual manera, podemos decir_que el 47,72% de los casos, b~o la curva normal, (49,87% + 49,87%) caen entre -30 y + 30 de la media. Puede decirse, entonces que
estn entre X y 2 DEs arriba dc la X y que el 49,87% estn entre X y 3 DE, arriba de 6\DE, incluyen prcticamente todos los casos (ms del 99%) bajo cualquier distribucin
la X (ver Figura 6.6). normal.
Como veremos, una proporcin constante del rea total, bajo la curva normal, ACLARANDO LA DESVIACION
estar entre la media y cualquier distancia dada de X, medida en unidades DE. Esto
ESTANDAR: UNA ILUSTRACION
es cierto a pesar de la media y la DE de la distribucin en particular, y se aplica
universalmente a todos los datos normales distribuidos. As, el rea bJjo la curva Una importante funcin de la curva normal es la interpretacin y aclaracin del
normal entre X y el punto 1 DE arriba de la X incluye siempre el 34,13% del total significado de la desviacin estndar. Para comprender cmo se realiza esta funcin,
de casos, as estemos estudiando la distribucin de estJtura, inteligencia, orientacin
FIGURA 6.6 El
FIGURA 6.4 Area porcentaje del
bajo la curva normal rea bajo la
curva normal
entre X y los
puntos uno y dos
de desviaciones
estndar
a partir de X. X +20 +30

L47.72%~ t
N. del R. Debemos anotar que el trnno "distancia sigma" se refiere a la misma "desviacin estndar" pero
"poblacional". Las maysculas "DE", en el captulo anterior. indican una "desviacin estndar muestraJ'.
L 49 .87 %- =---..J
IN

f 80 DI! la dl!scripcin a la toma dI! dl!cisionl!s


La curva normal 81

"l, FIGURA 6.9 Una


~ !
FIGURA 6.7 El
porcentaje del
distribucin de
puntajes de
11. ! rea total bajo
w coeficientes
,,1 ": la curva normal
entre -la y intelectuales
',!I,j .: femeninos
I +la, -2a
i
1, y +2a, y
11,: -3a y +3a
!

TT -t":,,J' T T
~9S.44%-~
99.74%
L- 99.74%-------'
115
(+3 o)

mas estimar y comparar el porcentaje de hombres y mujeres que tienen cualquier


examinemos lo que nos dicen los antroplogos sobre las diferencias de sexo en cuanto al extensin de puntajes de coeficiente intelectual.
coeficiente intelectual. A pesar de las pretensiones de los chauvinistas. existen evi- Por ejemplo, midiendo la lnea base de la distribucin de coeficientes intelectua-
dencias de que tanto los hombres como las mujeres tienen puntajes medios de coefi- les masculinos en unidades DE, sabremos que el 68,26% de los puntajes de coeficien-
ciente intelectual de aproximadamente 100. Digamos tambin que estos puntajes de tes intelectuales masculinos cae entre -1 a y + 1a de la media. De igual manera, como
coeficiente intelectual difieren marcadamente en trminos de la variabilidad alrede- la desviacin estndar siempre est dada en unidades de puntaje crudas* y a = ID,
dor de la media. En particular, supongamos que los coeficientes intelectuales mascu- sabremos tambin que stos son puntos de 'la distribucin en los que se localizan los
linos tienen mayor heterogeneidad que los femeninos, esto es. la distribucin de los coeficientes 110 Y 90 (X - a = X: 100 - 10 = 90 Y 100 + 10 = 110). As, el
coeficientes intelectuales masculinos presenta un porcentaje mucho mayor de punta- 68,25% de los hombres tendran puntajes de coeficiente intelectual que fluctan
jes extremos que representan tanto a individuos muy inteligentes como a otros muy entre 90 y 110.
tontos, en tanto que la distribucin de coeficientes femeninos tiene un mayor porcen- Alejndonos de la X y ms aIl de estos puntos, encontraramos, como se ilustra
taje localizado cerca del promedio, hallndose al centro el punto de mxima frecuencia. en la Figura 6.8, que el 99,74% de estos casos, o prcticament~ todos los hombres,
Como la desviacin estndar es una medida de variacin, estas diferencias de tienen puntajes de coeficiente intelectual entre 70 y 130 (entre -3a y +3a).
sexo en la variabilidad deberan reflejarse en el valor de las DE en cada distribucin Del mismo modo, mirando ahora la distribucin de los puntajes de coeficientes
de puntajes de coeficiente intelectual. As, podramos encontrar que la DE para los intelectuales femeninos como se grafican en la Figura 6.9, vemos que el 99,74% de
coeficientes intelectuales masculinos es 10, mientras que para los femeninos es de 5. estos casos caeran entre los puntajes 85 y 115 (entre -3a y +3a). Entonces, en
Conociendo la desviacin estndar de cada conjunto ele puntajes de coeficiente contraste con los hombres, la distribucin de puntajes de coeficientes intelectuale~
intelectual, y suponiendo que cada conjunto est distribuido normalmente, podra- femeninos podra considerarse relativamente homognea, teniendo una proporcin
menor de puntajes extremos en una y otra direccin. Esta diferencia se refleja en el
FIGURA 6.8 Una
tamao comparativo de cada DE, y en los coeficientes intelectuales que oscilan entre
distribucin de
pontajes de .~
-3a y + 3a de la media.
coeficientes EL USO DE LA TABLA B
intelectuales e"
masculinos :.t.
Al estudiar la distribucin normal slo hemos analizado aquellas distancias de la
media que son mltiplos exactos de la desviacin estndar. Es decir, las DE 1, 2 o 3
ya sea por arriba o por abajo de la media. Por lo tanto, surge ahora la
70 pregunta: qu debemos hacer para determinar el porcentaje de casos para las
130
(-30) (+30) distancias entre dos ordenadas cualesquiera? Supongamos, por ejemplo, que desea-

- - - - - - 9 9 . 7 4 % - - -_ _....J N. del E. Recordemos que tambin se llaman "no procesadas".

'_1 _

....L .
La curva normal 83
1~
82 De la descripcin a la toma de decisiones l'

FIGURA 6.10 La LOS PUNTAJES ESTANDAR y LA CURVA NORMAL


posicin de un
puntaje crudo que De este modo, estamos preparados para encontrar el porcentaje del rea total, bajo la
est a 1,40 DEs curva normal, en relacin con cualquier distancia sigma de la media dada. Sin
por arriba de X embargo, queda por lo menos una importante pregunta ms por contestar: cmo
determinamos la distancia sigma de cualquier puntaje crudo? es decir, cmo nos
las arreglamos por traducir nuestro puntaje crudo -que recogimos originalmente
de nuestros entrevistados- a unidades de desviacin estndar? Si deseramos convertir
centmetros a metros, simplemente dividiramos el nmero de centmetros entre 100
+1,40 o ya que hay 100 en un metro. Igualmente, si estuviramos convirtiendo minutos
en horas, dividiramos el nmero de minutos entre 60, ya que hay 60 minutos en
mas determinar el porcentaje de la frecuencia total que cae entre la media y un cada hora. Exactamente de la misma manera, podemos convertir cualquier puntaje
porcentaje crudo que est localizado a 1,40 DE por arriba de la media. Como lo crudo en unidades DE divj.jiendo la distancia entre ste y la media entre la
ilustra la Figura 6.10, un puntaje crudo a 1,450 OE por arriba de la media es DE. Para ilustrar imaginemos un puntaje crudo de 6 en una distribucin donde la
obviamente ms grande que 1 DE, pero menor que 2 DE5 a partir de la media. As, media es 3 y la DE es 2. Tomando la diferencia entre el puntaje crudo y la media,
sabemos que esta distancia de la media incluira ms del 34,13%, pero menos del y obteniendo un puntaje de desviacin (6-3), vemos que una puntuacin de 6 est
47,72% del rea total bajo la curva normal. a 3 unidades de puntaje crudo por arriba de la media. En otras palabras, la distancia
Para determinar el porcentaje exacto dentro de este intervalo, debemos emplear sigma de un puntaje crudo de 6 es 1,5 en esta distribucin en particular. Debemos
la tabla B al final del texto que da el porcentaje bajo la curva normal entre la media hacer notar que siempre hay 100 centmetros en 1 metro y 60 minutos en una hora,
y varias distancias sigma de ella. Estas distancias sigma (de 0,0 a 5,0) se encuentran sin importar la situacin de medicin. La desviacin estndar no comparte la cons-
en la columna del lado izquierdo de la Tabla B y se les ha asignado un lugar decimal. tancia que marca a estas otras medias estndares, sino que cambia de una distribu-
El segundo lugar decimal se ha dado en la hilera superior o primera de la tabla. cin a otra. Es por esto que debemos conocer la desviacin estndar de una
Ntese que la simetra de la curva normal permite dar porcentajes para un slo distribucin, ya sea que la calculemos, la estimemos o la sepamos de otra persona,
lado de la media que constituye slo la mitad de la curva (50%). Los valores en la antes de poder convertir cualquier puntaje particular a unidades de desviacin
Tablll B representan uno y otro lado. A continuacin se reproduce una parte de la estndar.
misma. El proceso que acabamos de ilustrar -de encontrar la distancia sigma de X-
da un valor que se llama puntaje z o estndar, que indica la direccin y el grado en
*
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 que cualquier puntaje crudo se desva de la media de una distribucin en una escala
de unidades DE (ntese que la columna al lado izquierdo de la Tabla B, al final del
0.0 00.00 00.40 00.80 01.20 01.60 01.99 02.39 02.79 03.19 03.59
0.1 03.98 04.38 04.78 05.17 05.57 05.96 06.36 06.75 07.14
libro, lleva el ttulo "z". As, un puntaje z de + 1,4 indica que el puntaje crudo sc
07.53
0.2 07.93 08.32 08.71 09.10 09.48 09.87 10.26 10.64 11.03 11.41 encuentra 1 1,4 DE (casi 11/ 2 DE) por a"iba de la medIa, mientras que un puntaj<
0.3 11.79 12.17 12.55 12.93 13.31 13.68 14.06 14.43 14.80 15.17 z de -2, l' significa que el puntaje cae un poco ms de 2 DEs por abajo de la mecHa
0.4 15.54 15.91 16.28 16.64 17.00 17.36 17.72 18.08 18.44 18.79
(ver Figura 6.11).
Cuando aprendamos a usar y entender la Tabla B, podremos intentar localizar FIGURA 6.11 La
primero el porcentaje de casos entre una distancia sigma de 1,0 y la media (pues ya posicin de
sabemos que el 34,13% del rea total cae entre estos puntos sobre la lnea base). z = -2,1 Y
Observando la Tabla B nos damos cuenta, ciertamente, de que sta nos indica que z = +1,4 en
exactamente el 34,13% del rea total oscila entre la media y una distancia sigma de una distribucin
normal
1,00. Igualmente, vemos que la distancia sigma 2,00 incluye exactamente el 47,72%
del rea total bajo la curva, mientras que la distancia si"ma 2 01 contiene el 47 78%
de esta rea total. ", , ,
,
N. del E. Las Tablas de esta edicin (Apndice B) han sido fotografiadas fielmente del original en ingls; en el !
resto del texto se ha ehm.mado el tradicional punto decimal y puesto, en cambio, la-coma decimal.
I
J
..
r
'1 84 De la descripcin a la toma de decisiones La curva normal 85

Obtenemos un puntaje z encontrando el puntaje de desviacin (x = X - X) (que FIGURA 6.12 La


da la distancia entre el puntaje no crudo y la media) y luego dividindola entre a. posicin de
z = 1,33 para un
Calculado por frmula, puntaje crudo de
S70~

z=
x-x
(T
o
x
(T

donde
$5000 $7000
= +1,33
x = el puntaje de desviacin
a = la desviacin estndar de una distribucin Entonces, como se ve en la Figura 6.13, un puntaje crudo de 3 cae a 3,5
z = un puntaje estndar desviaciones estndar por abajo de la media en esta distribucin de frecuencias.
Nota: si conocemos un puntaje z y buscamos obtener su equivalente en pun-
tajes crudos, usamos la frmula
Ejemplo 1
X = za + X
Estamos estudiando la distribucin del ingreso anual en una ciudad en la cual el
Para el presente ejemplo,
ingreso medio anual es de $ 5000 y la desviacin estndar es $ 1 500. Suponiendo
que la distribucin del ingreso anual est normalmente distribuida, podemos convertir X ~ (-3,5)(2) + 10
el puntaje crudo de esta distribucin, $ 7000, en un puntaje estndar, de la siguiente = -7 + 10
manera: =3
FIGURA 6.13 La
z= 7000 - 5000 = + 1 33 posicin de
1500 ' z = -3,5 para
el puntaje .~
As, un ingreso anual de $ 7 000 est a 1,33 desviaciones estndar por arriba del crudo 3 1lu
ingreso medio anual de $ 5 000 (ver Figura 6.12). "
~

Ejemplo 2
3 10
Estamos trabajando con una distribucin de puntajes normal que representa la = -3,5
conformidad de un grupo de presuntos inquilinos con la vivienda' pblica (los
PROBABILIDAD Y LA CURVA NORMAL
puntajes ms altos indican mayor satisfaccin con la vivienda pblica). Digamos que
esta distribucin tiene un media de 10 y una desviacin estndar de 2. Para
Como veremos ahora, la curva normal puede usarse conjuntamente con los puntajes
determinar a cuntas desviaciones estndar est un puntaje de 3 de la media de 10,
obtenemos la diferencia entre este puntaje y la media, esto es, . z y la Tabla B para determinar la probabilidad de obtener cualquier puntaje crudo en
una distribucin. En el presente cont~xto, el trmino probabilidad se refiere a la
frecuencia relativa de ocurrencia de cualquier resultado o evento dado; esto es, la
x=X-X probabilidad asociada con cualquier evento es el nmero de veces en que dicho
= 3 - 10 evento puede ocurrir, en relacin con el nmero total de eventos. En forma de
= -7
x proposicin,
z = -(T
Dividimos entonces entre la desviacin estndar nmero de veces en que el resultado o evento
La probabilidad de cualquier
-1 resultado o evento = ". puede ocurrir
= -3,5 nmero total de resultados o eventos

).,.9 ,.,$ . 4 ;;x


-,:e-"

86 De la descripcin a la toma de decisiones La curva normal 87

As, la probabilidad de sacar una sola carta (digamos el as de espadas) de una que ocurrir. j Los investigadores sociales nunca, no estn, absolutamente seguros de
baraja de 52 cartas es I en 52, ya que el resultado del "as de espadas" slo puede nada! Como resultado, podramos esperar frecuentemente encontrar probabilidades
ocurrir una vez entre el nmero total de tales resultados, 52 cartas. La probabilidad iguales a 0,60, 0,25 o 0,05, pero casi nunca esperaramos reducir la probabilidad a O
de caer en "cara" una moneda "imparcial o perfectamente equilibrada" que se lanza o aumentarla a l.
al aire slo una vez, es I en 2, ya que "cara" ocurre una vez entre el nmero total Otra caracterstica importante de la probabilidad es la regla de la suma, que
de posibles resultados, que es 2. Igualmente, si se nos dijera que abriramos un libro afirma que la probabilidad de obtener un resultado cualquiera entre varios diferentes
de 100 pginas en cualquier pgina dada (d igamos, en la pgina 23) la probabilidad es igual a la suma de sus distintas probabilidades. Supongamos, por ejemplo, que
de abrir el libro "al azar" en la pgina deseada en un solo intento es 1 en 100. deseamos encontrar la probabilidad de sacar ya sea el as de espadas, la reina de I
diamantes, o el rey de corazones de un conjunto de naipes bien barajado de 52 car- I
En el presente context'o, la curva normal es una distribucin en la cual es posible
determinar probabilidades asociadas con varios puntos a lo largo de su lnea base.
tas en el primer intento. Sumando sus probabilidades separadas (& + + ~), h I
I
i
vemos que la probabilidad de obtener cualquiera de estas cartas, en un solo intento,
Como se hizo notar anteriormente, la curva normal es una dislribucin de frecuen- es igual a S2
1. (P = 0,06). En otras palabras, tenemos 6 oportunidades entre 100 de
cia en la cual la frecuencia total bajo la curva es igual a 100%; contiene un rea obtener ya sea el as dt:: espadas, la reina de diamantes o el rey de corazones a la \
central que rodea la media, donde los puntajes ocurren con m<lyor frecuencia, y primera tentativa (ver Figura 6.14). ,
reas ms pequeas hacia uno y otro lado, donde hay un aplanamiento gradual y por La regla de la suma siempre supone que los resultados se excluyen mutuamente,
tanto una menor proporcin de puntajes extremadamente altos y bajos. Entonces, en esto es, no pueden ocurrir simultneamente dos resultados. Por ejemplo, ninguna 1

trminos de probabilidad, podemos decir que la probabilidad disminuye a medida carta de una baraja de 52 cartas puede ser espada, diamante y corazn al mismo ,i
que viajamos a lo largo de la lnea base alejndonos de la media en una y otra tiempo. Igualmente, una moneda que se lanza slo una vez no puede, de ninguna
direccin. Por tanto, decir que el 68,26% de la frecuencia total bajo la curva normal manera, caer sobre su "cara" y su "cruz" al mismo tiempo. :1
Suponiendo que los resultados se excluyesen mutuamente, podemos decir que la 1,
cae entre -la y + la de la media, es decir, que la probabilidad de que cualquier
probabilidad asociada con todos los posibles resultados de un evento siempre es igual a l. '1
"

puntaje crudo caiga dentro de este intervalo, es de 68 en 100 aproximadamente. De


igual manera, decir que el 95,44% de la frecuencia total bajo la curva normal cae
entre -20 y + 20 de la media es decir, tambin, que la probabilidad de que cualquier
Esto indica que debe ocurrir algn resultado. Si no es "cara", entonces ser "cruz"; si no il
es un as, entonces ser un rey, reina, sota, diez, etc. Al lanzar una moneda la probabilidad I
puntaje crudo caiga dentro de este intervalo es de 95 en 100 aproximadamente, y de caer "cruz" es igual a t
(P = 0,50). Por supuesto, la probabilidad de caer "cruz" "
11
as sucesivamente. tambin es t (P = 0,50). Sumando las probabilidades de todos los resultados posibles, I
Este es precisamente el mismo concepto de probabilidad o frecuencia relativa vemos que la probabilidad de caer "cara" o "cruz" es igual a I + = 1). (t t 1

ti
que vimos operar al sacar una sola carta de una baraja completa, al lanzar una Otra propiedad importante de la probabilidad ocurre en la regla ae la multiplica- i
moneda al aire o al abrir un libro en una pgina determinada. Ntese, sin embargo, cin qlie se centra en el problema de obtener dos o ms resultados en orden
que las probabilidades asociadas con reas bajo la curva normal se dan siempre en sucesivo, uno despus del otro. La regla de la multiplicacin afirma que la probabili-
relacin con el 100% que constituye toda el rea bajo la curva (por ejemplo, 68 en
100, 95 en 100, 99 en 100 y as sucesivamente). Por este motivo, y para dar una
forma estndar de ver la probabilidad a travs de este libro, estaremos tratando la
~
probabilidad como el nmero de veces entre 100 en que puede ocurrir cualquier FIGURA 6.14 La
probabilida d de Probabilidad de sacar el as de i'l
evento dado. As, la probabilidad de sacar el as de espadas de un conjunto de naipes
obtener ya sea el L!J espadas
barajado es 1,92 en 100 (-A) y de caer "cara" al lanzar la moneda al aire es 50 en as de espadas, la [[l. Pro babilidad de sacar la reina de i'l
100 (t). Es ms, ntese que la probabilidad se expresa usualmente en decimales
como una proporcin (P). Por ejemplo, podemos decir que P = 0,50 UOOo) de caer
reina de diamantes o L!J diamantes
el rey de corawnes
"cara" al lanzar slo una vez la moneda. Igualmente. podemos decir que P = 0,68 en un solo intento de IT[l. Probabilidad de sacar el rey de + -b ,
(fo~) y que cualquier puntaje crudo caer entre -la y +10 bajo la curvanormal. una baraja de 52 L!J corazones
i
I
cartas: una ilustracin ti
Probabilidad de sacar ya sea el as "
Expresada como proporcin, la probabilidad siempre oscila entre O y l. La de la regla de la suma de espadas, la reina de diamantes (P = 0,06)
1,
;1
probabilidad de un evento es O cuando estamos absolutamente seguros de que no o el rey de corazones ~
ocurrir; la probabilidad de un evento es 1 cuando estamos absolutamente seguros de :1
!
r,
La curva normal 89
88 De la descripcin a la toma de decisiones
).-

FIGURA 6.16 La
FIGURA 6.1 S La
probabilidad d~
Probabilidad de caer cara al lanzarla
la primera vez
..
1 porcin del rea
total bajo la curva
sacar "caras" en nonnal para la cual
dos lanzamientos buscamQs la
Probabilidad de caer cara al lanzarla X~
sucesivos de una probabilidad de
la segunda vez
moneda: una ilustracin ocurrencia
de la regla de la
multiplicacin
~ Probabilidad de caer cara al lanzarla
~ (P =0,25)
~ dos veces consecutivas

dad de obtener una combinacin de resultados que se excluyan mutuamente, es igual As, un puntaje crudo $ 7 000 se encuentra a 1,33 DEs sobre la media.
al producto de sus probabilidades por separado. En lugar de "ya sea... o ...", la
regla de la multiplicacin establece el "primero, segundo, tercero". PASO 2: Usando la Tabla B, buscar el porcentaje de la frecuencia total bajo la curva
Por ejemplo, cul es la probabilidad de sacar "caras" al lanzar dos veces que cae entre el puntaje z (z = + 1,33) y la media.
consecutivas una moneda? Como estos resultados son independientes uno del otro,
el resultado, al lanzar la moneda por primera vez, no inf1uye en el resultado que se En la Tabla B, vemos que el 40,82% (41 % ) de la poblacin total de esta ciudad
obtiene la segunda vez. En el primer lanzamiento de la moneda, la probabilidad de gana entre $ 5 000 Y $ 7 000 (ver la Figura 6.17). As, recorriendo 2 decimales hacia
obtener "caras" es igual a -4- (P = 0,50); en el segundo, la probabilidad de obtener la izquierda, vemos que la probabilidad (redondeando) es de 41 de 100: P= 0,41 de
"caras" tambin es igual a -4- (P = 0,50). Por lo tanto, la probabilidad de caer "caras" que obtuviramos un individuo cuyo ingreso anual est entre esta cifras.
al lanzar dos veces consectivas la moneda es igual a (-}> (-4-) = 1-
(o P = 0,25). Ver En el ejemplo anterior se nos pidi determinar la probabilidad asociada con la
Figura 6.15). distancia entre la media y una cierta distancia sigma de ella. Sin embargo, puede que
Para aplicar la anterior concepcin de probabilidad, en relacin con la distribu- muchas veces deseemos encontrar el porcentaje del rea que est en un determinado
cin normal, volvamos a un ejemplo anterior. Se nos pidi que convirtiramos un puntaje crudo o ms al/ de l hacia una u otra cola de la distribucin, o bien
puntaje crudo de una distribucin del ingreso anual de una ciudad, que supusimos encontrar la probabilidad para obtener estos puntajes. Por ejemplo, en el presente
se aproximaba a la curva normal en su puntaje z equivalente. Esta distribucin de caso, podramos desear conocer la probabilidad para obtener un ingreso anual de
ingreso tena una media de $ 5 000 con un DE de $ I 500. $ 7000 o ms.
Aplicando la frmula del puntaje z, vimos anteriormente que un ingreso anual de Este problema puede ilustrarse grficamente, como se muestra en la Figura 6.18
$ 7 000 estaba a 1.33 DE por arriba de la media de $ 5 000, esto es, (nos estamos refiriendo al rea wmbreada bajo la curva). En este caso, seguiramos
los pasos 1 y 2 descritos anteriormente, obteniendo as el puntaje z y encontrando
= 7000 - 5000 = +133
z 1500 ' el porcentaje bajo la curva normal entre $5 000 y una z = 1,33 (de la Tabla B). Sin
embargo, en el presente caso debemos dar un paso ms adelante y restar el
Determinemos ahora la probabilidad de obtener un puntaje que est entre
$ 5 000 la media y $ 7 000. En otras palabras. cul es la probabilidad de elegir al FIGURA 6.17 El
azar, en una sola tentativa, a una persona de esta ciudad cuyo ingreso anual flucte porcentaje del rea
entre $ 5 000 Y $ 7 OOO? El problema se ilustra grficamente en la Figura 6.16 (nos total bajo la curva
estamos refiriendo al rea sombreada bajo la curva) y puede resolverse en dos pasos, normal entre
utilizando la frmula del puntaje z y la Tabla B al final del libro. X=SSOOOy
z = 1.33
PASO 1: Convertir el puntaje crudo ($ 7000) en un puntaje z

z=---
X-X
(J $5000 z =+1,33
7000 _. 5000
+ 1,33 L41%~
1500 I

_L
1
Lo cun'o normal 91
90 De la descripcin a la toma de decisiones

FIGURA 6.18 La p = 0,41 + 0,41


porcin del rea = 0,82
total bajo la
curva normal para Ntese que 0.82 + 0.18 es igual a l. lo que representa todos los posibles eventos bajo
la cual buscamos la curva normal.
determinar la La plicacin de la regla de la multiplicacin a la curva normal puede ilustrarse
probabilidad de que buscando la probabilidad de obtener cuatro individuos cuyos ingresos sean de
ocurra. $ 7 000 o ms. Sabemos ya que P = 0.09 asociada con la bsqueda de un individu<'
cuyo ingreso sea de por lo menos $ 7 000. Por 10 tanto.

P = (0.09) (0.09) (0.09) (0.09)


porcentaje obtenido el!. la Tabla B de 50% -el porcentaje del rea total localizado a =(0.09)"
uno y otro lado de X. Esto resulta cierto ya que la tabla B siempre se refiere al '" 0.00007
porcentaje del rea entre un puntaje z y la media, nunca al porcentaje de rea en un Aplicando la regla de la ll1ultiplicacin vemos que la probabilidad de obtener cuatro
puntaje z o ms all de ste. individuos con ingresos de $ 7 000 o ms. es de 7 oportunidades entre 100000.
Por lo tanto, restando 40,82% de 50% vemos que ligeramente ms del 9%
(9,18%! caen en $ -: 000 o ms all. En trminos de probabilidad, podemos decir
RESUMEN
(rccorne.ndo 2 decimales hacia la izquierda) que hay slo un poco ms de 9
oportul1ldades, entre 100 (P = 0,09), de que encontremos un individuo en esta ciudad Este captulo trat dc relacionar las propiedades de la distribucin normal teonca
cuyo ingreso sea de $ 7 000 o ms. con los problemas del "mundo real" en la investigacin social. As. se demostr que
Ya se anot que cualquier distancia sigma dada por arriba de la media contiene el rea bajo la curva normal puede ser empleada para interpretar la desviacin
una. proporcin id~tica de casos que la misma distancia sigma por abajo de la estndar y hacer afirmaciones de probabilidad. La importancia de la distribucin
media. Por este motivo, ~estro procedimiento para encontrar probabilidades asocia-
normal se har ms el'idente en los subsiguientes capJ"tulos dd texto.
das con puntos abajo de X es idntico al que se sigui en los ejemplos anteriores.
Por e~empl~, ,el .porcentaje de frecuencia total entre el puntaje z -1,33 ($ 3000)
PROBLEMAS
y la media es IdentIco al porcentaje entre el pU:1taje z + I ,33 ($ 7000) y la media.
Por. lo tanto, sabemos que un individuo cuyo ingreso fluctc entre $ 3000 y $ 5 000 l. En cualquier distribucin normal de puntajes. qu porcentaje del rea total cae
obtiene P = 0,4 I. ~gualmente, el porcentaje de frecuencia total en -1,33 ($ 5 000 (a) entre _1 DE y + 1 DE, (b) entre -2 DEs y + 2 DE, (el entre -3 DEs y + 3 DE,'?
menos) o mayor es Igual que en + 1,33 ($ 7000 o ms) o ms all. As, sabemos que 2. Dada una distribucin normal de puntajes crudos en la cual X = 7.5 Y DE = 1.3.
hay una P = 0,09 de que encontr<:mos que alguien de la ciudad tiene un ingreso anual expresar cada uno de los siguientes puntajes crudos como puntaJe z:
de $ 3 000 o menor. (a)(b )(c)(d)(e)(f)(g)
Podemos usar la regla de la suma para encontrar la probabilidad de obtener ms 3. Dada una distribucin ormal de ingreso diario en la cual X ~ $ 10,50 y DE '"
de una sola porcin del rea bajo la curva normal. Por ejemplo. ya hemos determina- $ 1.80. expresar cada uno de los siguientl~s ingresos como puntaje z; (a)(b)(c)(d)
de, que P = 0,09 es para ingresos de $ 3 000 o menos, y para ingresos de $ 7 000 o ( f)(g)
m~s. ~ara encontrar la probabilidad de obtener ya sea $ 3 UOO o menos, o $ 7 000 ~ 4. Para el Problema 3, de la distribucin de ingreso. determinar (a) el porcentaje de
mas; simplemente sumamos sus probabilidades por separado como sigue: entrevistados que tienen un ingreso diario de $ 15.00 o ms. (b) la probabilidad
de localizar un entrevistado cuyo ingreso diario sea de $ 15.00 o ms: (e) el por-
p=c 09 + 0,09 centaje de entrevistados que ganan entre $ 10,00 y $ 10.50: (d) la probabilidad
= 0,18
de localizar un entrevistado cuyo ingreso flucte entre $ 10.00 Y $ 10.50: (e) );.1
probabilidad de localizar un entrevistado cuyo ingreso sea de $ 10.00 o menos:
(f) la probabilidad de localizar un entrevistado cuyo ingreso sea ya de $ 10.00 o
. De ma~era semejante, podemos buscar la probabilidad de hablar a alguien cuyo
menos o de $ 11.00 o ms: (g) la probabilidad dl' localizar dos entrevistados cuyo
mgres~ oscile ~ntre $ 3 000 y $7 000, sumando las probabilidades asociadas con los
puntaJes z de 1,33 a uno y otro lado de la media. Por lo tanto, ingreso sea $ 10,00 o menos.

E
,
; ,

92 De Jp des~l'ip~iJ7 a la toma de de~isioJ7es -._-~--

~' m,oo~; - _
S. D'd. Uo. d'''rib""o 00""01 d, PUo''';" Cnodo, 'O l. CU.I X 80 y DE e 7,s,
I d""mm" l.) '1 PU""O"j, d, 'o',ey''''do, qu, Ob'uv",". pU"''"'' d, 60
e
---------------------..-........ . ' ...
~
lb) l. P,"b.bUid'd d, 10"1i'" Uo 'M"'V'".do qu, h.y, ob"oido u.
" 0
puo"J' d, 60 m,.o,; (C) " .0 ""0',", d, 'O'''vi".do, qu, oh'uv',,"o puut'"" I
ff
~,,;
'O," 80 Y 90, (d) P,"bb>/'d.d d, 10,",1',.,. Uo '.',ey'".do qu, h.Ya ob".'do
,1 ""."}e, 'ot" 80 Y 90; (').'1 Po'<'o"j, d, '.''''V''''d",
qu, 10...... PUM";" I

~
1; d, 85 If) l. P,ob.b'lid'd d, 10"U,.,. "o '.'''V'".do qu, h.y. ob".'do I
ti 0
Uo ""."Je, d, 85 o. m,,; Ig) l. Prob'bilid'd d, 10"U,,, , Uo 'o',ey''''do qu,
,,
,1
I

hay. ob'eo'do PUo"J' sea Ya de 70 me.o, de 90 m'" (b) Pmb'bilid'd
de O""" ,," e.t,ey""do, qu, hay,. 10....do pUo',"" d, 90 mi,
I
I
I
I
I
I
I
I
E/ '"""'do, 'oci., g'oe"'meo'e bu,,", "c;" cooeJu"o." ""'"' d .....d" I
.'m"o, de 'od'v'duo,. Po, ejemplo, pod,l. d"e" "'ud,., , lo, 350000 000 d.
dUd'dano, de La 'inO""",,,, lo, 1 000 m'emb,", d. Uo det'nu'oado "od,,,,o d,
I
tmb.j'do,,,, lo, 10 000 indi,eo" qu. vi"o eo lo, pueblo, del 'u, de "'Xico
lo, 45000 "tUd',o'" '."'ri'o, e. d.tenu'.ad, unive"'dad.
, I
!fu". "t. pu.,o, b'mo, ""do ,uPUo'e.do qu, el '.v",;:.do, "'c'.1 'ove,,;:, /,
'ot,lid'd del g",po qu. io',o', COmp"od". E". ","po, co.OCido COmo POblaclo
I
I
uo'""o, cO.';'te ,. u. cO.ju.to de 'od'v'du", qUe com",,,eo Po, lo m,.o, u.,
"mc'''I",,,, .." Uo, c'ud.d'ol, como, " "lidad de .." m"mb,o, d, Uo, "oci,. I
c'o voluot",. d, uo. O
Pod,l.mo, h.bl" de /, p blac'6o d, Colomb~
"za, la m"""d, 'o Uo, m;"", UO''''''d,", .mil,re,. A'I,
de ""'co, del om'm d, m'embm, I
d, Uo "odic,to
Sureo d, t"b,j'dore"
o de la cantidad pobl.cio d, 'odlgeo" ""'de",,, eo Uo pu'blo
d, " universitarios.
de estUdiantes I
Como el 'O""''''do, "'cial t"b'j, COo limi,.do " d, "'mpo, eo"", y
I

PUb~c'.
'ecu"o, ecoom;."" "" V" "tudia , tO<lo, y "d, u.o de lo, miemb,o, de "
o
I
e. que "ti i.'ere"do. E. "mbio, el i.""'gado, 'o,U", >610 "o,
mU''''a, umero P'q"60 d, ;.d'v'duo, tom'do de """., pobl'ci6o. A ,,";, del I
P'oec,o de mue"teo, el 'o"'''''do, 'oci., bu"" geoe"Ii,,, d, 'u mu,,,,, (g,Upo
j peq"6o) , l. tot.lid," d, l. pob/'ci60 d, dO.de l. obtuvo (gno po m.yo,). I
El p,oec,o de mU"'teo " UO. P'''e loto'''1 de l. v'd. di",.. De qu o,,, I

L I
I
fo'm. obteod'l.mo, '.fonuaci. ac"" d, 'o, dem" 00 h'ci'odo mU"'teo,
.ue"ro ""dedo,? Po, ejemplo, Pod'[.m", d;'CUt" '.fo,m'lm,." ,ob.. "m"
pOlitko, COn otm, e"udian,,, Patven,u" ""i" "", ", geo".t, 'u, opi.ioo"
pO!f"",; POd'l.mo, '''eo'" de,,,,,,,,o,, de quO mane" oU""o. comP.nero'de.cu""
"'udian P'" 'ierto 'xameo pOniO'dooo, eu COo ,,,to, '0ticiPad.meo'e, con "'t.
'1''''0' m;'mbro, d, l. ci.", "elu", PO<I'(.mo, invert;, e. '1 meteado de valo..,
I
I
I
I

-. ~-
9.1 I
I
I
I
I
rr-------------- --

-94 De la descripcin a la toma de decisiones


Muestras y poblaciones 95
nI
que reflejen los valores de la clase media, podramos, a un nivel intuitivo, escoger!
despus de descubrir que una pequena muestra de -nuestros campaneros ha ganado Visin, Vanidades, ya que los artculos que aparecen en estas revistas parecen reflejar !
dinero de una manera similar. I~ que la ~ayora de los latinoamericanos de la clase media desean (por ejemplo, el
nivel de vIda del norteamericano, el xito econmico y similares). De manera seme-
MEfODOS DE MUESTREO jante, los distritos estatales que tradicionalmente han votado por los candidatos gana-
dores para cargos pblicos podran ser encuestados en un intento por predecir el
Los mtodos de muestreo del investigador social son generalmente ms cuidadosos y resultado de determinadas elecciones.
sistemticos que los de la vida diaria. Su preocupacin central es asegurarse de que
los miembros de su muestra sean lo suficientemente representativos tie la poblacin Muestras aleatorias
entera como para permitir hacer generalizaciones precisas acerca de ella. Para hacer
tales inferencias, el investigador escoge un mtodo de muestreo apropiado para ver si Como se anot anteriormente, el muestreo aleatorio le da a todos y cada uno de los
todos y cada uno de 10s miembros de la muestra tienen igual oportunidad de ser miembros de la poblacin igual oportunidad de ser seleccionados para la muestra.
integrados en ella. Si a cada miembro de la poblacin se le da igual oportunidad de Esta caracterstica del muestreo aleatorio indica que cada miembro de la poblacion
ser escogido para la muestra. se est utilizando un mtodo aleatorio; de no ser as, debe ser identificado antes de obtener dicha muestra aleatoria, requisito que gene-
el mtodo empleado viene a ser no aleatorio. ralmente se llena obteniendo una lista que incluya a todos y cada uno de los miem-
bros de la poblacin. Si pensamos un poco veremos que la obtencin de una lista
Muestras no aleatorias completa de los miembros de la poblacin no es siempre una tarea fcil, especialmente
si se est estudiando una poblacin grande y diversa. Para tomar un ejemplo relati-
El mtodo de muestreo no aleatorio ms usual es el muestreo por accidente y es el vamente fcil, dnde podramos conseguir una lista completa de los estudiantes
que menos difiere con nuestros procedimientos diarios de muestreo, ya que se basa inscritos en una universidad importante? Aquellos investigadores sociales que lo han
exclusivamente en lo que es conveniente para el investigador. Es decir, el investiga- intentado darn fe de su dificultad. Para una tarea ms laboriosa, tratemos de
dor simplemente incluye los casos ms convenientes en su muestra y excluye de ella encontrar una lista de todos los residentes de una gran ciudad. Cmo podemos
los casos inconvenientes. La mayora de los estudiantes podr recordar al menos asegurarnos de identificarlos a todos, incluso a aquellos residentes que no desean ser
algunas ocasiones en que el maestro que est realizando una investigacin les ha identificados?
pedido a todos los alumnos de su clase que participen en un experimento o llenen El tipo bsico de muestra aleatoria, el muestreo aleatorio simple. puede obtener-
un cuestionario. La popularidad de esta forma de muestreo por accidente en se mediante un proceso no muy distinto de la tcnica, actualmente conocida, de
psicologa ha ocasionado que algunos detractores vean a la psicologia como "la poner todos los nombres en diferentes pedazos de papel y luego sacar slo algunos
ciencia del estudiante universitario" de 20 semestre debido a que muchos de ellos nombres de un sombrero con los ojos vendados. Este procedimiento le da, idealmen-
son sujetos de investigacin. te, igual oportunidad a todos los miembros de la poblacin de ser seleccionados para
la muestra ya que se incluye slo un pedazo de papel por persona. Por varios
Otro tipo no aleatorio es el muestreo por cuota. En este procedimiento de
motivos (incluyendo el hecho de que el investigador necesitara un sombrero extre-
muestreo, las diversas caractersticas de una poblacin, tales como edad, sexo, clase
madamente grande) el investigador social que intenta tomar una muestra aleatoria
social o raza, son muestreadas de acuerdo con el porcentaje que ocupan dentro de la
generalmente no saca nombres de sombreros. En cambio, usa una tabla de nmeros
poblacin. Supongamos, por ejemplo, que se nos pidiera sacar una muestra por cuota
aleatorios tal como la tabla H localizada al final del texto. Hemos reproducido a
de los estudiantes que asisten a una universidad donde el 42% son mujeres y el 58%
continuacin una porcin de una tabla de nmeros aleatorios.
son hombres. Usando este mtodo, se da a los entrevistadores una cuota de estu-
diantes para localizar, de manera que slo el 42% de la muestra consista de mu-
jeres y el 58% de hombres. Se incluyen en la muestra los mismos porcentajes que Nmero de columna
estn representados en la poblacin. Si el tamano total de la muestra es 200, ,!;! 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
~
entonces se seleccionan 84 estudiantes del sexo femenino y 116 del. sexo masculino. { 1 2 3 1 5 7 5 4 8 5 9 O 1 8 3 7 2 5 9 9 3
Una tercera variedad de muestra no aleatoria se conoce como muestreo intencio- 2 6 2 4 9 7 O 8 8 6 9 5 2 3 O 3 6 7 4 4 O
nal o de juicio. La idea bsica que involucra este tipo de muestra es que la lgica, el sen- ~ 3 O 4 5 5 5 O 4 3 1 O 5 3 7 4 3 5 O 8 9 O
E: 4 1 1 8 3 7 4 4 1 O 9 6 2 2 1 3 4 3 1 4 8
tido comn o el sano juicio, pueden usarse para seleccionar una muestra que sea repre- ~ 5 1 6 O 3 5 O 3 2 4 O 4 3 6 2 2 2 3 5 O .0
sentativa de una poblacin. Por ejemplo, para sacar una muestra de juicio de revistas
-- --------~~------------------------------------------ '--
..............................

96 De la descripcin a la toma de decisiones Muestras y poblaciones 97

Una tabla de nmeros aleatorios se construye en forma tal que genere series de ciertos miembros de la poblacin, mientras que otros definitiva~ente no se seleccio-
nmeros sin ningn patrn u orden determinado, Como resultado, el proceso de usar nan. Esto Iluede suceder, por ejemplo, cuando se muestrean sistemticamente casas
una tabla de nmeros aleatorios produce una muestra imparcial semejante a aqulla de una lista en la que las casas de esquina (que son generalmente ms caras que las
que se logra poniendo pedazos de papel en un sombrero. y sacando nombres con los dems casas de la cuadra) ocupan una posicin fija o cuando se sacan muestras de
ojos vendados. los nombres de un directorio telefnico por intervalos fijos, de manera que los
Para obtener una muestra aleatoria simple por medio de una tabla de nmeros nombres asociados a ciertos lazos tnicos no se seleccionan.
aleatorios, el investigador social obtiene primero su lista de la poblacin y le asigna Otra variacin del muestreo aleatorio simple es el muestreo estratificado; involu-
un nmero de identificacin nico a todos y cada uno de sus miembros. Por cra la divisin de la poblacin en subgrupos o estratos ms homogneos de los que
ejemplo, si est realizando una investigacin acerca de los 500 estudiantes inscritos se toman entonces muestras aleatorias simples. Supongamos, por ejemplo, que
en la materia de "Introduccin a la Sociologa" podra obtener una lista de ellos deseamos estudiar la aceptacin de varios mtodos de control de la natalidad entre la
con el profesor y asignarle a cada alumno un nmero de 001 a 500. Habiendo poblacin de cierta ciudad. Como las actitudes hacia el control de la natalidad varan
preparado la lista, procede a sacar los miembros de su muestra de una tabla de segn la religin y el estatus socioeconmico, podramos estratificar nuestra pobla-
nmeros aleatorios. Digamos que el investigador busca sacar una muestra de 50 cin sobre estas variables, formando as subgrupos ms homogneos con respecto a
~studiantes para representar a
los 500 miembros de la pobiacin del curso.' Podra la aceptacin del control de la natalidad. Ms especficamente, digamos que podra-
entrar a la tabla de nmeros aleatorios en cualquier nimero (con los ojos cerrados, mos identificar a los miembros de la poblacin, catlicos, protestantes y judos, as
por ejemplo) y moverse en cualquier direccin tomando nmeros apropiados hasta como a los de clase alta, media y baja. Nuestro procedimiento de estratificacin
que haya seleccionado los 50 miembros para la muestra. Mirando una porcin de la podra dar los siguientes subgrupos o estratos:
anterior tabla de nmeros aleatorios, podramos comenzar arbitrariamente en la
interseccin de la columna 1 y la fila 3 movindonos de izquierda a derecha para
Protestantes de clase alta
tomar cada nmero que aparezca entre 001 y 500. Los primeros nmeros que
Protestantes de clase media
aparecen en la columna 1 y la fila 3 son O, 4 y 5. Por lo tanto, el alumno nmero
Protestantes de clase baja
045 es el primer miembro de la poblacin que se elegir para la muestra. Continuan-
Catlicos de clase alta
do de izquierda a derecha vemos que 4, 3 y I aparecen enseguida, de manera que se
Catlicos de clase media
selecciona el alumno nmero 431. Se contina con este proceso hasta que se hayan
Catlicos de clase baja
tomado todos los 50 miembros para la muestra. Una nota para el estudiante: al usar
Jud os de clase alta
la tabla de nmeros aleatorios, pase siempre por alto los nmeros que aparezcan por
segunda vez o que estn ms arriba de lo necesario. Judos de clase media
Judos de clase baja
Todos los mtodos de muestreo aleatorio son en realidad variaciones del
procedimiento de muestreo simple que se acaba de ilustrar. Por ejemplo, con el Habiendo identificado nuestros estratos, procedemos a tomar una muestra
muestreo sistemtico no se requiere tabla de nmeros aleatorios, ya que se hace el aleatoria simple. de cada subgrupo o estrato (por ejemplo, de protestantes de clase
muestreo con una lista de miembros de la poblacin' por intervalos fijos. Entonces, baja, de catlicos de clase media, etc.) hasta que hayamos muestreado la poblacin
empleando el muestreo sistemtico se incluye cada ensimo miembro de una po- entera. O sea que, para los efectos del muestreo, cada estrato se trata como una
blacin, en una muestra de ella. Para ilustrar, al sacar una muestra de la poblacin poblacin completa y se aplica el muestreo aleatorio simple. Especficamente se le
de 10000 amas de casa de cierta colonia podramos organizar una lista de amas da a cada miembro de un estrato un nmero de identificacin, se pone en lista y se
de casa, tomar cada dcimo nombre de la lista y presentar una lista de 1 000 amas saca una muestra por medio de una tabla de nmeros aleatorios. Como paso final del
de casa. procedimiento, los miembros seleccionados de cada subgrupo o estrato se combinan
La ventaja del muestreo sistemtico es que no se requiere una tabla de nmeros para lograr tener una muestra de toda la poblacin,
aleatorios. Como resultado, este mtodo es siempre menos demorado que el procedi- ! La estratificacin se basa en la idea de que un grupo homogneo requiere una
miento aleatorio simple, especialmente para sacar muestras de grandes poblaciones. muestra ms pequea que un grupo heterogneo. Por ejemplo, el estudio de los
Por el contrario, al tomar una muestra sistemtica se presume que la posicin en una II individuos que caminan por la esquina de una calle cntrica requiere, probablemente,
lista de miembros de una poblacin no influye en la aleatoriedad. Si esta presuncin una muestra ms grande que el estudio de los individuos de clase media que viven en
no se toma seriamente, el resultado puede ser que se seleccionen ms de una vez
I un suburbio. Se pueden encontrar generalmente caminando por el centro individuos

I
__1._
r------------- -
---~

911- De la descripcin a la toma de decisiones Muestras y poblaciones 99

que tienen cualquier combinacin de caractersticas.- Por contraste, las personas de la e~trevistas a a~uellos individuos situados dentro de relativamente pocos cmulos. Por
clase media que viven en un suburbio son generalmente ms parecidos entre s en lo ejemplo, podnamos empezar tratando al primer cuadro de la ciudad co t .
'd d . . mo nues ra
que se refiere a educacn, ingresos, orientacin poltica, tamao de la familia, ~111 a pnmana de muestreo o cmulo. Podramos proceder entonces a obtener una
actitud hacia el trabajo, para mencionar slo algunas caractersticas. 1I.sta de todas las cuadras dentro del rea, por lo cual tomamos Una muestra aleatoria
A primera instancia, las muestras aleatorias estratificadas tienen una asombrosa slmpl~ de cuadras. H~biendo tomado nuestra muestra de cuadras. podramos
semejanza con el mtodo no aleatorio por cuotas tal como se explic anteriormente, se~ecclOnar a los entrevistados individuales (o familias) en cada cuadra por el mismo
ya que ambos procedimientos requieren usualmente que se incluyan las caracters- metodo aleatorio simple. Ms especficamente, todos los individuos (o familias) en
ticas de la muestra en las proporciones exactas en que contribuyen a la poblacin. cada una .de las cuadras seleccionadas se ponen en una lista y se escoge una muestra
Por lo tanto, si el 32% de nuestra muestra se compone de protestantes de la clase de. ~ntrevlstados de cada cuadro con ayuda de una tabla de nmeros aleatorios.
media, entonces exactamente el 32% de nuestra muestra debe sacarse de protestantes Utlhzando el mtodo de cmulos, cualquier entrevistador dado localiza una de las
de clase media; del mismo modo, si el 11 % de nuestra poblacin consiste de judos cuadras seleccionadas y hace contacto con ms de un entrevistado que vive all.
de clase baja, entonces el 11 % de nuestra muestra debe constituirse de manera , A una escala mucho ms amplia, se puede aplicar el mismo procedmiento de
semejante y as sucesivamente. Surge una excepcin en el contexto del muestreo cu~ulos a ~ncu~stas nacionales, tratando a las ciudades, estados o pueblos, como
estratificado cuando un estrato en particular est desproporcionadamente bien repre- umdades pnmanas de muestreo para ser seleccionadas inicialmente y entrevistando a
sentado en la muestra, posibilitando un subanJisis ms intensivo de ese grupo. ulla ~uestra aleatoria simple de cada una de las ciudades, estados o pueblos
Tal evento puede surgir, por ejemplo, cuando los indgenas, quienes constituyen esco,gldos. ~e es~a manera, los entrevistadores no necesitan cubrir todos y cada uno
una pquea proporcin de una poblacin dada, son "sobre-muestreados" en un de estos, Sll1? solo un nmero mucho menor d~ tales reas que han sido seleccio-
esfuerzo por examinar ms de cerca sus caractersticas. nadas aleatonamente para ser incluidas.
A pesar de sus semejanzas superficiales, las muestras por cuotas y estratificadas
son esencialmente diferentes. Mientras los miembros de las muestras por cuotas se
toman por cualquier mtodo que escoje el investigador, los miembros de las muestras ERROR DE MUESTREO
estratificadas se seleccionan siempre sobre una base aleatoria, generalmente por
medio de una tabla de nmeros aleatorios aplicada a una lista completa de miembros
A travs del resto del texto seremos cuidadosos en distinguir entre las caractersticas
de la poblacin.
de las .muestras que estudiamos realmente y las poblaciones a las cuales esperamos
Antes de dejar el tema de los mtodos de muestreo, examinemos la naturaleza generahzar. Para hacer esta distincin, en nuestros procedimientos estadsticos no
de una forma de muestreo aleatorio especialmente popular que se conoce como el podemos, por tanto, seguir usando los mismos smbolos para representar la m~dia
mtodo de cmulos. Tales muestras se usan ampliamente para reducir los costos de y la desviacin estndar tanto de la muestra como de la poblacin. En su lugar
las grandes encuestas en que los entrevistadores deben ser enviados a localidades debemos emplear diferentes sm~olos, dependiendo de si nos estamos refiriendo a
dispersas, ya que se requieren muchos viajes. Empleando el mtodo de cmulos se
desarrollan por lo menos dos niveles de muestreo: zcaractersticas
. de la muestra o de la poblacin. En relacin con la media simboli-
,
aremos sIempre a la media de una muestra como X y a la media de una poblacin
co~o [J. En relacin con la desviacin estndar, simbolizaremos a la desviacin
l. La unidad primaria de muestreo o cmulo, que es aquella rea bien delineada estandar de una muestra como s y a la desviacin estndar de su poblacin como a.
en la que se considera que estn incluidas caractersticas que se encuentran Normalmente, el investigador social trata de obtener una muestra que sea
en toda la poblacin (por ejemplo, un estado, una regin de empadrona- representativa de la poblacin en la que est interesado. Como las muestras aleatorias
miento, una cuadra d-e una ciudad, etc.), y le dan a todos y a cada uno de los mIembros de la poblacin la misma oportunidad
2. Los miembros de la muestra dentro de cada cmulo. de ser seleccionados para la muestra, son, a la larga, ms representativas de las
caractersticas poblacionales que sus contrapartes no aleatorias. Sin embargo como
Imaginemos, con fines ilustrativos, que quisiramos entrevistar a una muestra Jise exp l'IC b revemente en, el Ca~'tulo 1, siempre podemos esperar, por mera' casua-
representativa de individuos que viven en una gran rea de nuestra ciudad. Extraer una ~ad, ~ue haya alguna dlferen~la el~re ~na muestra, aleatoria o de otro tipo, y la
muestra aleatoria simple, sistemtica o estratificada de entrevistados diseminados p blacln de la que se ha extraldo. X casI nunca ser exactamente igual a [J y s rara
sobre una amplia rea implicara una buena cantidad de viajes, sin mencionar tiempo vez ser exactamente igual a a. Esta diferencia, conocida como error de muestreo
result . - '. .
y dinero. Sin embargo, por medio del muestreo por cmulos limitaramos nuestras a Slll Importar que tan bIen se haya diseado y realizado el plan de muestreo
f"
>
I
I
100 De la descripcin a la toma de decisiones Muestras y poblaciones /0/

!I TABLA 7.1 Una poblacin - - - - - - - - - - - - - - - - - - - - - - - - -


y tres muestras aleatorias Poblacin Muestra A Muestra B Muestra e_
FIGURA 7.1 El tiempo
promedio de audicin
Nota: X =
101,55
de caliIJCaciones de 70 80 93 para una muestra aleatoria representa
96 40 72
exmenes finales 86 85 90 99 86 96 tomada de una poblacin una muestra
56 52 67 56 56 49 hipottica. aleatoria de
40 78 57 52 67 56 500
89 49 48 303 249 273 en trevistados
99
96
72
94 1431
'----
X = 75.75 X = 62.25 X = 68.25 tomados de
una poblacin
Jl = 71.55 en la que
Jl=99,7S
minutos
con las mejores intenciones del investigador y donde no ocurre ningn fraude ni se nuestro excntrico investigador social producen medias que van desde 89 hasta 111
han cometido errores. minutos. De acuerdo con nuestro estudio previo, esto podra suceder fcilmente,
simplemente con base en el error de muestreo.
Para ilustrar la operacin del error de muestreo miremos ahora la Tabla 7.1,
Las distribuciones de frecuencia de los puntajes crudos pueden obtenerse tanto de
que contiene una poblacin de 20 calificaciones de exmenes finales y 3 muestras,
muestras como de poblaciones. De modo semejante podemos construir una distribu-
A, B Y C, extradas aleatoriamente de esta poblacin (cada una se tom con la cin muestral de medias, una distribucin de frecuencia de un gran nmero de
ayuda de una tabla de nmeros aleatorios). Como se esperaba, la media de la medias de muestras aleatorias que se han extrado de la misma poblacin. La Tabla
poblacin (JJ = 71,55) no es aritmticamente idntica con ninguna de las tres medias 7.2 presenta las 98 medias muestra les recogidas por nuestro excntrico investigador
muestrales; de manera similar, existen diferencias entre las mismas medias muestrales. social en forma de distribucin muestra!. Como cuando se trabaja con una distribu-
cin de puntajes crudos, las medias de la Tabla 7.2 se han ordenado en forma
D(STRIBUCION MUESTRAL DE MEDIAS decreciente (de aIta a baja) y la frecuencia con que ocurren se ha indicado en una
columna adyacente.
Dada la presencia del error de muestreo, el estudiante se preguntar cmo es posible
Caractersticas de una
generalizar siempre a partir de una muestra a una poblacin. Para llegar a una
distribucin muestral de medias
respuesta razonable, consideremos el trabajo de un hipottico investigador social que
estudia la audicin de radio entre el milln de residentes de una ciudad. Para ahorrar Hasta este punto, no nos hemos enfrentado directamente al problema de generalizar
tiempo y dinero entrevista a slo una muestra tomada aleatoriamente del total de la
poblacin de residentes. Extra~ 500 residentes por medio de una tabla de nmeros Nota: Cada
aleatorios y le pregunta a cada I!liembro de la muestra: cuntos minutos escucha X representa
usted la radio diariamente?" y encuentra que el tiempo empleado en escucharla va una muestra
de 500
desde O a 240 minutos. Como se ve en la Figura 7.1, el tiempo medio empleado en entrevistados
escuchar la radio en una muestra de 500 residentes es de 101,55 minutos.
Resulta que nuestro hipottico investigador social es levemente excntrico y
tiene una notable inclinacin a extraer muestras de poblaciones. Es tan intenso su
entusiasmo por el muestreo que contina extrayendo muchas muestras adicionales de Jl = 99,75 mins.
500 residentes cada una y calculando el tiempo de audicin de radio de los
miembros <.te cada muestra. Este procedimiento contina hasta que nuestro excn-
trico investigador ha extrado 98 muestras de 500 residentes cada una. En el proceso
de extraer 98 muestras aleatorias estudia, de hecho, a 49000 entrevistados (500 X FIGURA 7.2 El tiempo
promedio de audicin en
98 = 49000). 98 muestras aleatorias
Supongamos, como se muestra en la Figura 7.2, que la poblacin total de nuestra tomadas de una poblacin
ciudad en estudio tiene un tiempo promedio Jc 99,75 minutos de audicin de radio. hipottica en la que

1
Como lo ilustra tambin la Figura 7.2, supongamos que las muestras tomadas por Jl = 99,75 minutos.

i9Q.i\iUIMYkbt& . X , lUMa;,.
~-_.- ._---~--~- _.

/02 De la descripcin a la toma de decisiones Muestras y poblaciones /OJ

TABLA 7.2 Distribucin FIGURA 7.3 Polgonos de


muestra! de medias Media f frecuencia de (a) la
(audicin de radio) para 111 min 1
distribucin muestral de .g
98 muestras aleatorias. 110 1 medias de la Tabla 7.2 y ~
109 1 (b) de la poblacin de la G
108 2 que se extrajeron estas ,~
107 2 medias.
106 3
105 4
89
104 5
103 6 (al (b)
102 8
101 9
100 9 distribucin muestral de medias (a) es la misma que la media de la poblacin
99 9 de la que se sac (b). Pueden considerarse como valores intercambiables.
98 8
97 7 3. La desviacin estndar de una distribucin muestral de medias es menor que
96 6
95 5
la despjacin estndar de la poblacin.
94 4
93 3
92 2 Como lo ilustra la Figura 7.3, la dispersin de la distribucin muestral es siempre
91 1 menor que la dispersin de la poblacin total. Esto es cierto porque tomamos datos
90 1
medios (ms que el rango de puntajes crudos que componen esas medias), eliminando
89 min 1
N = 98 as Jos valores de puntajes crudos extremos. Por ejemplo, el puntaje de desviacin
media 100 puede obtenerse de los pun tajes crudos 60, 90, 110 Y 140. (60 + 90 +
110 + 140 = 400/4 = 100). Graficando los puntajes crudos, incluimos valores entre
de muestras a poblaciones. El modelo terico conocido como distribucin muestral 60 y 140. Graficando el puntaje de la media, sin embargo, reducimos obviamente la
de medias (como lo ilustran las 98 medias muestrales obtenidas por nuestro excn- ocurrencia de tales valores extremos de los puntajes a un valor nico de 100. Como
trico inwstigador social) tiene ciertas propiedades que le otorgan un importante resultado, esperamos obtener una desviacin estndar menor cuando se tomen en
papel en el proccso de muestreo. Antes dc dirigirnos hacia el procedimiento para hacer conjunto y se grafique un determinado nmero de puntajes de medias.
generalizaciones de muestras a poblaciones, debemos examinar primero las caracte-
rsticas de una distribucin muestral de medias: La distribucin muestral de
medias como una curva normal
l. La distribucin muestral de medias se aproxima a una cun'a normal. Como
lo ilustra grficamente la Figura 7.3 (a). al arreglar las medias mucstr~ les de Como se indic en el Captulo 6, si definimos la probabilidad en trminos de
la Tabla 7.2, en un polgono de frecuencia, obtenemos la forma de una frecuencia de ocurrencia, entonces la curva normal puede considerarse como una
distribucin normal. Esto es cierto para todas las distribucioncs muestrales distribucin de probabilidad (podemos decir que la probabilidad disminuye a medida
tic mcdias sin importar la forma de la distribucin de puntajes crudos dc la que viajamos por la lnea base alejndonos de la media en una u otra direccin).
poblacin de la cual se extraen las medi~ls.' Con esta idea, podemos encontrar la probabilidad de obtener varios puntajes
1. La media de una distribucin muestral de medias ("la media de medias") es crudos en una distribucin, dadas una cierta media y su desviacin estndar. Por
igual a la perdadera media de la poblacin. Si tomamos un gran nmero de ejemplo, para encontrar la probabilidad asociada con la obtencin de alguien que
medias de muestras aleatorias de la misma poblacin y encontramos la media tenga un ingreso anual entre $5 000 y $7000, en una poblacin con un ingreso
de todas las medius mucslrales tendremos el valor de la verdadera media de medio de $5 000 y una desviacin estndar de $1 500, convertimos el puntaje crudo
la poblacin. Por lo tanto. l:Omo se ve' en la Figura 7.3, la media de la $7000 en un puntaje z (+ 1,33) y vamos a la Tabla B al final del texto para obtener
el porcentaje de la frecuencia total que cae entre el puntaje z 1,33 y la media. Esta
Esto supone qu~ hemos e'ttrlJo grandes lIlucstns ttlci:ltorias. de iglltl 1:II11aio. de una poblacin dada de
puntai~s crudos. rea contiene el 40,82% de los puntajes crudos. As, P = 0,4 i redondeado, para que
r,
104 De la descrip.:in a la toma de decisiones Muestras y poblaciones lOS

encontremos un ind ivid uo cuyo ingreso anual oscile entre $5 000 y $7 000. Si FIGURA 7.5 La probabilidad
queremos saber la probabilidad que existe de encontrar a alguien cuyo ingreso sea de asociada con la obtencin
$7 000 o ms, debemos ir un paso ms all y restar el porcentaje obtenido en la de una media muestra! de
Tabla B de 50~o -el porcentaje del rea que est a uno y otro lado de la media.
$ 14 000 o menos, si la e
verdadera media poblacional ~
" Restando 40,82% de 50%, vemos que el 9,18% cae en o ms all de $7 000. Por lo es de 20 000 y' la desviacin
i,
~ I tanto, movindonos 2 lugares decimales hacia la izquierda, podemos decir que estndar es de $2 600. i;
i! tenemos P = 0,09 (9 oportunidades entre 100) de encontrar un individuo cuyo
,1
ingreso sea de $80 000 o ms.
En el presente contexto no nos interesa ya obtener probabilidades asociadas
con la distribucin de puntajes crudos. En lugar de esto nos encontramos traba-
jando con una distribucin de medias muestra/es que se han extrado de la usar. tambin los puntajes z y la Tabla B para obtener la probabilidad de cualquier
poblacin total de puntajes y deseamos hacer afirmaciones de probabilidad acerca de medIa muestral y no slo aquellas que son mltiplos exactos de la desviacin estndar.
esas medias muestrales. Dada una media de medias y la desviacin estndar de la distribucin muestral, el
Como lo ilustra la Figura 7.4, ya que la distribucin muestral de medias toma proceso es idntico al que se us en el captulo anterior para una distribucin de
la forma de la curva normal, podemos decir que la probabilidad disminuye a medida puntajes crudos. Slo se han cambiado los nombres.
que nos alejamos de la media de medias (la verdadera media de la poblacin). Esto Imaginemos, por ejemplo, que cierta universidad sostiene que sus ex-alumnos tienen
tiene sentido porque, como recordar el estudiante, la distribucin muestral es un ingreso anual promedio (J.I) de $20000. Tenemos motivos para dudar de la
producto de diferencias casuales entre las medias muestrales (error de muestreo). Por legitimidacl de esta pretensin y decidimos ensayarla en una muestra aleatoria de 100
este motivo esperamos que pQr casualidad, y slo por casualidad, la mayora de las ex alumnos. En el proceso obtenemos una media muestral de slo $14000. Pregun
medias muestrales caigan cerca del valor de la verdadera media de la poblacin, tamos ahora: qu tan probable sera que obtuviramos una media de $14000 o
mientras que relativamente pocas medias muestrales caigan lejos de ella. al menos de que la verdadera media poblacional fuera realmente $20000? Ha
La Figura 7.4 indica que cerca del 68% de las medias muestrales en una dicho la universidad la verdad? 0, es este slo un intento de hacer publicidad entre
distribucin muestral fluctan entre - IDE y + !DE de la media de medias (ver- el pblico para incrementar las inscripciones o donaciones? La Figura 7.5 ilustra el
dadera media poblacional). En trminos de probabilidad, podemos decir que P = 0,68 rea para la cual buscamos una solucin.
Supongamos que sabemos que la desviacin estndar de la distribucin muestral es
de cualquier media muestral dada que caiga dentro de este intervalo. De igual
manera, podemos decir que la probabilidad de que cualquier media muestral caiga $2 600. Siguiendo el procedimiento estndar, convertimos la media muestral en un
puntaje z, como sigue:
entre -2DE y + 2DE de la media de medias es de cerca de 0,95 (95 oportunidades
entre 100) Y as sucesivamente.
Dado que I~ distribucin muestral toma la forma de la curva normal. podemos
z = X - M = 14000 - 20000 = _ 231
ax 2600 '
donde
FIGURA 7.4 La distribucin
muestral de medias como X= una media muestral en la distribucin
una distribucin de M = J.I = la media de medias (igual a la pretensin de la universidad sobre la
probabilidad .~ verdadera media de la poblacin)
<.l
e
<.l
:o al' = la desviacin estndar de la distribucin muestral de medias
"
:.t'"'
El resultado del procedimiento anterior nos dir que una media muestral de
$14000 yace exactamente en 2,31 desviaciones estndar por abajo de la supuesta
-3DE-2DE-IDE J +IDE+2DE+3DE
media poblacional verdadera, $20000. Recurriendo a la Tabla B, al final del texto,
I vemos que el 48,96% de las medias muestralescaen entre $14,000 y $20,000. Restan-
I t~95.44%--.-J
L".26%J t 1 1 do del 50% obtenemos el porcentaje de la distribucin que representa medias
muestrales de $14 000 o menos si es que la verdadera media poblacional es de $20 000.
99.74%

L I
..1..-

__4, &S,li'it1S
106 De la descripcin a la toma de decisiones Muestras y poblaciones 107

Esta cifra es 1,04% (50% - 48,96% = 1,04%). Por 16 tanto, la probabilidad es 0,0 I Para ilustrar, si la desviacin estndar de una muestra de diez entrevistados es 2,5,
redondeando (1 oportunidad en tre 100) de obtener una media muestral de $14 00 o entonces
menos, cuando la verdadera media poblacional es $20 000. Con una probabilidad tan 2,5
pequea de equivocarnos, podemos decir, con cierta confianza, que la verdadera ax = ViQ=l
media de la poblacin no es realmente $20000. Es dudoso que el informe de la 2,5
universidad sobre el ingreso anual de sus exalumnos represente algo ms que mala = 3,0
publicidad. = 0,83

ERROR ESTANDAR DE LA MEDIA Como se anot arriba, el investigador social que slo estudia una o dos
muestras no puede conocer la media de medias, cuyo valor es igual al de la
Hasta ahora hemos hecho de cuenta que el investigador social tiene efectivamente verdadera media de la poblacin. Slo tiene la media muestral que ha obtenido, que
informacin de primera mano acerca de la distribucin muestral de las medias. Hemos difiere de la verdadera media poblacional como resultado del error de muestreo. Pero,
actuado como si l, al igual que el investigador excntrico, hubiera recogido realmen- no hemos cado en un crculo vicioso? Cmo es posible estimar la verdadera
te datos sobre U:I gran nmero de medias muestrales que se extrajeron aleatoria- media poblacional a partir de una sola media muestral, especialmente a la vista de
mente de alguna poblacin. Si as fuera, sera una tarea bastante simple hacer gene- tales diferencias inevitables entre muestras y poblaciones?
ralizaciones acerca de la poblacin, ya que la media de medias toma un valor que es De hecho, hemos recorrido una distancia considerable desde nuestra posicin
igual al de la verdadera media poblaciona\. original. Habiendo tratado la na turaleza._ de la distribucin muestral de medias,
En la prctica real, el investigador social rara vez recoge datos sobre ms de una estamos preparados ahora para estimar el valor de una media poblacional. Con la
o dos muestras de las que an espera generalizar a una poblacin completa. Extraer ayuda del error estndar de la media, podemos encontrar el rango de valores de la
una distribucin muestral de medias requiere el mismo esfuerzo que tamal a estudiar media dentro del cual es probable que flucte nuestra verdadera media poblacional.
a todos y cada uno de los miembros de la poblacin. Como resultado, el investigador Podemos tambin estimar la probabilidad de que nuestra media poblacional caiga
social no tiene un conocimiento real sobre la media de medias o la desviacin realmente dentro de ese rango de valores medios. Este es el concepto del intervalo
estndar de la distribucin muestra\. Sin embargo, s tiene un buen mtodo para de confianza.
estimar la desviacin estndar de la distribucin muestral de medias sobre la base de
los datos recogidos en una sola muestra. Esta estimacin se conoce como el error INTERVALOS DE CONFIANZA
estndar de la media y se simboliza por 0 . 2 Por frmula,
Para explorar el procedimiento que se sigue para encontrar un intervalo de confian-
s
aT=~ za, ampliemos un ejemplo anterior. Supongamos que la muestra aleatoria (de un
investigador) de 100 exalumnos de cierta universidad marca un ingreso anual medio de
$ 14000. Como stsdatos provienen solamente de una muestra aleatoria, y no de la
donde
poblacin total de exalumnos, no podemos estar seguros de que el ingreso medio
a.v = el error estndar de la media (una estimacin de la desviacin estndar reportado sea realmente un reflejo de esta poblacin de exalumnos universitarios.
de una distribucin muestral de medias) Como ya hemos visto, el error de muestreo es, despus de todo, el producto
s= la desviacin estndar de una muestra inevitable de sacar muestras de poblaciones. !I
N= el nmero total de puntajes en una muestra Sin embargo, s sabemos que el 68,26% de todas las medias muestrales I
1
aleatorias, en la distribucin muestral de medias, caern entre -1 DE Y + 1 DE de la I
verdadera media poblacional. Estimando la desviacin estndar de la distribucin
muestral (o; = $2000) y usando nuestra media muestral $14000 como una
2 En muchos textos, el error estndar de la media, basado en la desviacin estndar poblacionaJ Y simbolizado \
por o , se distingue del error estndar de la media estimado, basado en la desviacin estndar de la muestra y estimacin de la media poblacional, podemos establecer el rango dentro del cual hay
simbo1izado por s;. Sin embargo, si no se mide la poblacion entera no se conoce el valor de la de5viacin 68 oportunidades entre 100 (redondeando) de que la verdadera media poblacional
estndar de
por alto la
la poblacin y por lo tanto debe estimarse. Con el fin de simplificar, hemos elegido, por tanto, pasar
anterior distincin e introducir en su lugar una frmula nica para el error estndar de la media,
caiga. Este rango de ingresos medios, conocido como el intervalo de confianza del
68% se ilustra grficamente en la Figura 7.6.
I
simbolizado por O; y basado en los datos de la muestra. I
"
:I
;~
-~--~--~-~---~------------------------------------------............_ .............'"...
'....1

108 De la descripcin a la toma de decisiones

FIGURA 7.6 Un intervaio


r
,
i
Muestras y poblaciones

(95 de cada 100 medias muestrales caen dentro del intervalo). Sin embargo, incluso
109

de Confl8Jlza del-68% usando el intervalo de confianza del 95%, debe tenerse en mente el hecho de que la
cuando 0i = S2 000 y media muestral del investigador podra ser una de esas cinco medias muestra les que
X= S14000 -oe caen fuera del intervalQ establecido. En la toma de decisiones, en estadstica, nunca se
"u
~
est completamente seguro.
:" 'Cmo hacemos para encontrar el intervalo de confianza del 95%? Sabemos ya que
~I 95,44% de las medias muestrales en una distribucin muestral se encuentran entre
_ 2 DE Y + 2 DE de la media de medias. Mirando la Tabla B podemos afirmar que
$12000 $14000 $16000
1.96 desviaciones estndar en ambas direcciones cubren exactamente el 95% de las
,1 medias muestrales (47,50% a cada lado de la media de medias). Para encontrar el
-1 a]l +1 a~
'1
intervalo de confianza del 95%, debemos multiplicar primero el error estndar de la
L68.26%~ media por \,96 (el intervalo est a 1,96 unidades de 0% en una y otra direccin de la
EI-intervalo de confianza del 68% puede obtenerse de la siguiente manera: media). Por lo tanto,

intervalo de confianza del 68% = X + O[ el intervalo de confianza del 95% = X :t (l,96)U';,


donde
donde
X = una media muestral
U'"K = el error estndar de la media X = una media muestral
= el error estndar de
U'j la media
Aplicando la frmula anterior a nuestro problema:
Si aplicamos el intervalo de confianza del 95% a nuestra estimacin del ingreso
1 el intervalo de confianza del 68% = $ 14,000 $ 2 000 medio entre los exalumnos universitarios, vemos que:
r 12 000 -..... $ 16 ,000
1 el intervalo de confianza del 95% = $14000 (1,96) $2000
= $14 000 :t $3 920
1 Por lo tanto, el investigador social informa que tiene un 68% de confianza en
! = $10080 +--+ $17 920
que el ingreso poblacional medio estre estos exalumnos universitarios sea de
$ 14000, ms o menos $ 2 000. En otras palabras, hay 68 oportunidades entre 100 Conclusin: Tenemos un 95% de confianza en que la verdadera media poblacional
(P = 0,68) de que la verdadera media poblacional caiga realmente dentro de un rango cae entre los $ 10 080 y los $ 17 no.
entre $12000 y $16000 ($14000 - $2000 = $12000; $14000 + $2000 = Resumamos el procedimiento paso a paso para obtener el intervalo de confianza
$ 16 000). Esta estimacin se hace a pesar del error de muestreo, aunque dentro de de195% en la siguiente. muestra aleatoria de datos crudos.
un margen de error (ms o menos $20000) y a un nivel de confianza especfico (del
68%). x
Pueden construirse intervalos de confianza para cualquier nivel de probabilidad.
1
La mayora de los investigadores sociales no estn suficientemente seguros 5
para estimar una media poblacional sabiendo que slo hay 68 oportunidades entre
i.'
2
100 de estar en lo correcto (68 de cada 100 medias muestrales caen den tro del 3
il intervalo entre $ 12 000 y $ 16 000). Como resultado, se ha convertido en una
cuestin convencional utilizar un intervalo de confianza ms amplio, menos preciso,
4
1
2
que tiene mejores probabilidades de hacer una estimacin exacta de la media 2
poblacional. Tal modelo se encuentra en el intervalo de confianza del 95%, por 4
3
medio del cual se estima la media poblacional sabiendo que hay 95 oportunidades
entre 100 de estar en lo cierto; hay 5 oportunidades entre 100 de equivocarse PASO 1: Encontrar la media de la muestra

.L
Muestras y poblaciones JJJ
r
110 De la descripcin a la toma de decisiones

PASO S: Sumar y restar este producto de la media muestral para encontrar el


x rango de puntajes promedio dentro de los cuales cae la media poblacional:
1
5 el intervalo de confianza del 95% = 2,7 0,82
2 = 1,88 <---> 3,52
3
4 Podemos tener un 95% de confianza de que la verdadera media poblacional est
1
2 entre 1,88 y 3,52. 3
2
4 = 2,7
Un intervalo de confianza an ms riguroso es el intervalo de confianza del 99%. En
3 la Tabla B, al final del texto, vemos que el puntaje z 2,58 representa el 49,50% del
X = 27
rea a cada lado de la curva. Doblar esta cantidad prod uce el 99% del rea bajo la
curva; el 99% de las medias muestra les cae dentro de ese intervalo. En trminos de
PASO 2: Obtener la desviacin estndar de la muestra probabilidad, 99 de cada 100 medias muestrales se encuentran entre -2,58 DE Y + 2,58
DE de la media. A la inversa, slo l de cada 100 medias cae fuera del intervalo. Por
!I

X X' frmula, el intervalo de confianza del 99% = X (2,58)ox


11
1 1 :1
donde
5
2
3
25
4
9
s = ~~' - X' x= una media muestral
~
4
1
2
2
16
1
4
4
=

=
=
vl1l - (2,7)2
V8,9 -
Vl,6i
7,29
er,1' = el error estndar de la media

Con respecto a nuestra estimacin del ingreso medio entre exalumnos universitarios:
I
4
3
U'= 89
16
9 = 1,27
el intervalo de confianza del 99% = $14000 (2,58) $2000 I
I
= $14000 $5 160
= $8840 <---> $19 160

PASO 3: Obtener el error estndar de la media Hemos determinado, con un 99% de confianza, que la verdadera media poblacional

erx=~
s

1,27
cae en algn sitio entre $ 8 840 y $ 19 160.

El estudiante deber notar que el intervalo de confianza del 99% consiste en una
banda ms amplia ($ 8 840 a $ 19 160) que el intervalo de confianza del 95%
I
VID=! de $ 10 080 a $ 17 920). El intervalo del 99% abarca ms del rea total bajo la curva 1
1,27 normal y, por lo tanto, a un mayor nmero de medias muestrales. Esta banda ms ,
=-3- j
amplia de puntajes promedio nos da mayor confianza en que hemos estimado la "
I

= 0,42 verdadera media poblacional con exactitud. Una sola media muestral de cada 100 se 11
encuentra fuera del intervalo. Por otra parte, al aumentar nuestra confianza del 95 al i
PASO 4: Multiplicar el error estndar de la media por l .96 99 por ciento, hemos sacrificado tambin un grado de precisin al sealar la media
poblacional. Manteniendo constante el tamai'lo de la muestra, el investigador social

El intervalo de confianza del 95% = X::!: (l,96) erx 3 Para propsitos ilustrativos empleamos una muestra pequea, En la prctica, el investigador que utilice dicho
procedimiento para encontrar un intervalo de confianza deber trabajar por lo menos con 30 ca,o' para hallar la
= 2.7 (1,96) (0,42)
Condicin de normalidad en la distribucin muestral de medias (vase la discusin de la r'azn , Captulo 8).
= 2,7 :t 0,82
l
j
F"
J J2 De la descripcin a la toma de decisiones
r Muestras y poblaciones JI J

debe escoger entre. una mayor precisin o una mayor confianza de estar en lo PASO 3: Obtener el error estndar de la media
correcto.
s
Para resumir el procedimiento que se sigue paso a paso para encontrar el CT.\.=~

intervalo de confianza del 99%, reexaminemos la muestra aleatoria de puntajes:


1,27
'v"'l=l
1,27
=-3-
x
= 0,42
1
5
2 PASO 4: Multiplicar el error estndar dc la media por 2,58
3
4
1
el intervalo de confianza del 99% = X (2,58) CT.V

2 = 2,7 (2,58) (0,42)


2 = 2,7 :!: 1,08
4
3 PASO 5: Sumar y restar este producto de la media muestral para encontrar el rango
de puntajes promedio dentro del cual cae la media poblacional
PASO 1: Encontrar la media de la muestra
el intervalo de confianza del 99% = 2,7 L08
1 = 1,62 +---> 3,78
5
2
3 - U
4
X=N Tenemos un 99% de confianza en que la verdadera media poblacional cae entn: 1.62
1 27 y 3.78.
2 = 10
2
4 = 2,7
3
~X = 27
ESTIMACION DE PROPORCIONES
PASO 2: Obtener la desviacin estndar de la muestra
Hasta aqu, nos hemos centrado en los procedimientos para estimar medias poblacio-
x nales. El investigador social a menudo busca presentar una estimacin de lIna
proporcin poblacional estrictamente con base en la proporcin que obtiene en lIna
1 1
5 25 muestra aleatoria. Una circunstancia conocida es la del encuestador. cuyos datos

3
2 4
9
s = v';r
iX' - -
X' sugieren que una cierta proporcin de los votos irn hacia un determinado tema o
candidato poltico para un cargo pblico. Cuando un encuestador informa que el
4 16 =~-)2
1 1 45% de la votacin ser a favor de cierto candidato, lo hace sabindolo con una
2 4 = \/8,9 - 7,29 precisin menor de 100%. En general, tiene una confianza de 95 o 99% de que su
2 4 = Vl.6l proporcin estimada cae dentro de la extensin del rango (por ejemplo, entre 40 y
4 16
3 = 1,27 50 por ciento).
9
~X' = 89 Estimamos las proporciones por medio del procedimiento que acabamos de usar
para estimar medias. Todos los estadsticos -incluyendo las medias y las proporcio-
nes- tienen sus distribuciones muestra les. Tal como encontramos anteriormente. el
J 14 De la descripcin a la loma de decisiones Mues/ras y poblaciones 115

error estndar de la media, podemos buscar ahora el error estndar de la proporcin. Tenemos un 95 por ciento de confianza en que la verdadera proporcin poblacional
Por frmula, no es ni menor a 0,35 ni mayor de 0,55. Ms especficamente, entre el35 y el 55 por
ciento de esta poblacin de estudiantes universitarios estn a favor de la legalizacin
de todas las drogas. Existe un 5 por ciento de probabilidad de que nos equivoquemos;
5 veces entre 100, tales intervalos de confianza no contendrn la verdadera propor-
cin poblacional.
donde
Resumamos el procedimiento para estimar una proporcin por medio del
Up = el error estndar de la proporclOn (una estimacin de la desviacin estn- intervalo de confianza del 95%. Supongamos que la proporcin muestral para la cual
dar de la distribucin muestral de proporciones) haremos nuestra estimacin resulta ser 0,40 (40 por ciento de los 100 casos caen
P = una proporcin muestral dentro de esta categora).
N = el nmero total en la muestra
PASO 1: Obtener el error estndar de la proporcin
Con fines ilustrativos, digamos que el 45 por ciento de una muestra aleatoria de 100
estudiantes universitarios informa que stos estn a favor de la legalizacin de las up = ~ PO;; P)
drogas. El error estndar de la proporcin sera
0,40(0,60)
100
_ ,j0,45(0,55)
(T p - ----roo = ~0,24
100
= ~0,2475 = v'0,0024
100 = 0,049
= v'0,0025
= 0,05
PASO 2: Multiplicar el error estndar de la proporcin por 1,96 el intervalo de
confianza del 95% = P (1,96)u p
Para encontrar el intervalo de confianza del 95 por ciento multiplicamos el = 0,40 (1,96) (0,049)
error estndar de la proporcin por 1,96 Y sumamos Y restamos este producto a la = 0,40 0,096
proporcin muestral:
PASO 3: Sumar y restar este producto de la proporcin muestral para encontrar el
el intervalo de confianza del 95% = P 0.96) Up rango de proporciones dentro de la que cae la proporcin poblacional

donde el intervalo de confianza del 95% = 0,40 0,096


= 0,30 <--> 0,50
P = una proporcin muestral Podemos decir, con un 95% de confianza, que la verdadera proporcin poblacional
Up = el error estndar de la proporcin
flucta entre 0,30 y 0,50.

Si buscamos la proporcin de estudiantes universitarios que estn a favor de la RESUMEN


legalizacin de las drogas,
Este captulo ha explorado los procedimientos y conceptos claves relacionados con
el intervalo de confianza del 95% = 0,45 (1,96) 0,05 la generalizacin de muestras a poblaciones. Se presentaron los mtodos aleatorios y
= 0,45 0,098 no aleatorios de muestreo. Se seal que el error de muestreo -la diferencia inevi-
= 0,35 <--> 0,55 table entre muestras y poblaciones- ocurre a pesar de un plan de. muestreo bien
diseado y ejecutado. Como resultado del error de muestreo podemos estudiar las
~~~~~~~~~---------------------------- ...,--.... ...
"'

1 16 De la descripcin a la toma de decisiones


Muestras.v poblaciones 117

caractersticas de la distribucin muestral de medias, una distribucin que forma una 5 4


curva normal y cu'ya desviacin estndar puede estimarse con la ayuda del error 8 5
estndar de la media. Armados con tal informacin, podemos construir intervalos de 4. Con la media muestral del Problema 3 encontrar (a) el intervalo de confianza del
confianza para las medias (o las proporciones) dentro de las cuales tenemos confian- 95% y (b) el intervalo de confianza del 99%.
za (95 por ciento o 99 por ciento) de que caiga la verdadera media (o proporcin)
poblacional. De esta manera podemos hacer generalizaciones de una muestra a una 5. Hallar el error estndar de la media con la siguiente muestra de 32 puntajes:
poblacin.
4 4
PROBLEMAS 2 3
5 6
l. Encontrar el error estndar de la media con la siguiente muestra de 30 puntajes: 6 6
3 5 1 7
3 3 1 1
2 3 7 5
1 2 8 7
5 2 7 8
4 3 8 8
5 2 8 4
1 4 2 5
6 6 6 3
3 1 5 2
2 1 6 6
1 3 4 5
1 4
2 3 6. Con la media muestral del Problema 5 buscar (a) el intervalo de confianza del
3 4 95% y (b) el intervalo de confianza del 99% .
7. Para estimar la proporcin de estudiantes de una determinada universidad que
2. Con la media muestral del Problema l buscar (a) el intervalo de confianza del favorecen la abolicin de grupos polticos, un investigador social entrevist una
95% y (b) el intervalo de confianza del 99%. muestra aleatoria de 50 estudiantes de la poblacin universitaria. Encontr que el
57 por ciento de la muestra estaba a favor de deshacerse de los grupos polticos
3. Buscar el error estndar de la media con la siguiente muestra de 34 puntajes: (proporcin muestral = 0,57). Con esta infonnacin (a) buscar el error estndar de
10 1 la proporcin y (b) construir un intervalo de confianza del 95% .
4 8 8. Dados el tamao muestral de 150 y una proporcin muestral de 0,32 (a) buscar
10 7 .. el error estndar de la proporcin y (b) construir un intervalo de confianza del
5 5 95%.
5 6
9. Dados el tamao muestral de 200 y una proporcin muestral de 0,25 (a) buscar el
6 10
7 error estndar de la proporcin y (b) construir un intervalo de confianza del 95%.
6
3 8
5 7
4 7
4 6
5 5
6 5
6 4
7 3

1
IL. _-l. __
'."
:,'

,,'

. . ''',,:, ..',", .... :::,'


',,' ,;.
. ..
,"

"",
'"

,.,
Hit htHf w
,'1'
rt

tn el Captulo 7 vimos que una media poblacional o una proporcin puede


estimarse a partir de la informacin que obtenemos de una sola muestra. Por
ejemplo, podramos estimar el nivel de anomia en una ciudad, en particular la
proporcin de personas ancianas que estn en una situacin econmica mala o la acti-
tud media hacia la segregacin racial entre una poblacin de negros norteamericanos.
Aunque el enfoque descriptivo y de recoleccin de datos de la estimacin de
medias y proporciones tiene una importancia obvia, no constituye el objetivo
fundamental de la toma de decisiones o de la actividad de la investigacin social.
Muy por el contrario, la mayora de los investigadores sociales se interesan en la
tarea de contrastar las hiptesis que existen acerca de las diferencias entre dos o ms
muestras.
Cuando comprueban diferencias entre las muestras, los investigadores sociales se
hacen preguntas tales como: Difieren los alemanes de los norteamericanos con
respecto a la obediencia a la autoridad? Quin presenta una tasa de suicidios ms
alta, los catlicos o los protestantes? Qu efecto producen los entrevistadores negros
frente a los blancos sobre la honestidad de los entrevistados negros? Las personas
polticamente conservadoras disciplinan ms severamente a sus nios que las perso-
nas polticamente liberales? (ver Captulo 1). Ntese que cada pregunta de investiga-
cin implica hacer una comparacin entre dos grupos: conservadores frente a libe-
rales, entrevistadores negros frente a entrevistadores blancos; protestantes frente a
catlicos; alemanes frente a norteamericanos.

LA HIPOTESIS NULA: NINGUNA


DIFERENCIA ENTRE LAS MEDIAS

En el anlisis estadstico se ha vuelto convencional empezar con la comprobacin de


la hiptesis nula -la hiptesis que sustenta que dos muestras han sido extradas de la

121

-.:L-.
J22 La toma de decisiones Comprobacin de diferencias entre medias 12.~

misma poblacin. De acuerdo con la hiptesis nula, cualquier diferencia observada ilustrar, quin se molestara en estudiar a los catlicos y a los protestantes con la
entre las muestras se considera como un hecho casual resultante nicamente del esperanza de que sus tasas de suicidio no difieran? Las diferencias que existen entre
errr de muestreo. Por lo tanto, la diferencia que existe entre dos medias muestrales los grupos -ya sea que se esperen en terrenos tericos o empricos- proporcionan a
no representa una diferencia real entre sus medias poblacionales. menudo la razn fundamental sobre la cual se realiza el estudio.
En el presente contexto, la hiptesis nula puede sim bolizarse como Si rechazamos la hiptesis nula, si encontramos que nuestra hiptesis, de que no
existe ninguna diferencia entre las medias, no se sostiene, aceptamos automticamen-
te la hiptesis de investigacin (hiptesis alterna) que plantea que s existe una
verdadera diferencia poblacional. Este es un resultado frecuentemente esperado en la
donde investigacin social. La hiptesis de investigacin establece que las dos muestras se
han tomado de la poblacin teniendo medias diferentes. Afirma que la diferencia
/JI la media de la primera poblacin obtenida entre medias muestrales es demasiado grande como para ser explicada por
/J2 la media de la segunda poblacin el error de muestreo.
La hiptesis de investigacin para diferencias entre medias se simboliza como
Examinemos las hiptesis nulas para las preguntas de investigacin planteadas ante-
riormente:
donde
l. Los alemanes no son ni ms ni menos obedientes a la autoridad que los
norteamericanos. /JI = la media de la primera poblacin
2. Los protestantes presentan la misma tasa de suicidios que los catlicos. /J2 = la media de la segunda poblacin (el signo * se lee: "no es igual")
3. Los entrevistados negros son igualmente sinceros, sean entrevistados por Podemos especificar las sigu ientes hiptesis de investigacin para las preguntas
blancos o por negros. planteadas anterionnente:
4. Las personas polticamente conservadoras disciplinan a sus nios en el
mismo grado que las personas polticamente' liberales. l. Los alemanes difieren de los americanos con respecto a la obediencia a la
autoridad.
Debe notarse que la hiptesis nula no niega la posibilidad de obtener diferencias 2. Los protestantes no tiene la misma tasa de suicidio que los catlicos.
entre medias muestrales. Al contrario, busca explicar tales diferencias entre las medias 3. La honestidad de los entrevistados negros difiere, dependiendo de si los
muestrales atribuyndolas a la operacin del error de muestreo. Por ejemplo, de entrevistan blancos o negros.
acuerdo con la hiptesis nula, si encontramos que una muestra aleatoria de mujeres 4. Las personas polticamente liberales difieren de las polticamente conserva-
dentistas ganan menos dinero (X = $12000) que u na muestra aleatoria de hombres dentis- doras con respecto a sus mtodos en la crianza de los nios.
tas (X = $15000), no concluimos, sobre esa base. que la poblacin de mujeres den-
tistas gana menos dinero que la poblacin de hombres dentistas. En lugar de esto DISTRIBUCION MUESTRAL DE
tratamos la diferencia muestral obtenida ($15 000 - $12 000 = $3 000) como pro- DIFERENCIAS DE MEDIAS
ducto del error de muestreo -la diferencia que resulta inevitablemente del proceso
de muestrear de una poblacin dada. Como veremos ms tarde. este aspecto de la En el capItulo anterior vimos que las 98 medias de las 98 muestras extradas por
hiptesis nula proporciona un importante vnculo con la teora del muestreo. nuestro investigador social excntrico podan representarse en forma de distribucin
muestral de medias. De manera semejante, imaginemos ahora que el mismo investiga-
LA HIPOTESIS DE INVESTIGACION: ALGUNA dor social excntrico toma al mismo tiempo no una, sino dos muestras aleatorias de
DIFERENCIA ENTRE LAS MEDIAS una poblacin dada de personas.. Supongamos, por ejemplo, que toma una muestra
de 500 personas polticamente liberales y otra de 500 personas polticamente
La hiptesis nula se expone generalmente (aunque no necesariamente) con la espe- conservadoras. Para comprobar la hiptesis de investigacin de que los liberales son
ranza de rechazarla. Esto tiene sentido. ya que la mayora de los investigadores sociales menos estrictos como padres. que los conservadores, l interroga entonces a todos
busca establecer relaciones entre variables. Esto es, estn frecuentemente ms interesa- los miembros de la muestra acerca de sus mtodos de crianza (por ejemplo: Castiga
dos en encontrar diferencias que en determinar que las diferencias no existen. Para usted siempre a sus nios? Les pega usted? Si es as, qu tan frecuentemente? ).

I
,l
r~ t i "ti

r
'
!
124 La toma de decisiones

FIGURA 8.1 La
r FIGURA 8.2 Setenta
puntajes de
Nora: Cada
puntaje
Comprobacin de diferencias entre medias

o
o
125

representa la +3 -2 +4
diferencia media en diferencia entre +3
diferencia entre +2
permisibilidad entre medias que representan -1
Nota: 5,0 una muestra de O -1 +2
muesfras de liberales diferencias de 500 liberales y
representa la O -2 -1
y conserVadores tomada permisibilidad -entre una muestra de +1 -2
+1
diferencia entre O
de una poblacin muestras liberales y 500 conservadores -4
las medias de dos +2 O
hipottica muestras conservadoras tomadas '-... +5 -3 -2 +1
aJeatoriaJ de aleatoriamente de una -2 -2 -1
500 miembros poblacin hipottica -3 -1
-1 +2
cada una O
-2 -4 O
+1 -3 -2
O -3
De las respuestas a tales preguntas se obtiene una med-ida de- permisibilidad * en la -1
+1 O +1 -3
crianza de los nios que puede utilizarse para comparar las muestras liberal y +3 O
O -5
conservadora. Los puntajes de esta medida van desde I (no rgido) hasta 10 (muy O
+1 O +1 O
rgido). Como se ilustra grficamente en la Figura 8.1, nuestro investigador social O
+2
-1 -1
excntrico encuentra que s.!:!. muestra de liberales es menos rgida (X = 8,0) que su +3 +3
+2 +1
O
muestra de conservadores (X = 3,0). +1
Podramos preguntarnos: A la luz del error de muestreo, podemos esperar que
una diferencia entre 8,0 y 3,0 (8,0 - 3,0 = + 5,0) se d estrictamente con base en el
azar y solamente por el azar?, debemos aceptar la hiptesis nula de que no existe
ninguna diferencia poblacional?, esta diferencia muestral obtenida de + 5,0 es lo acerca de sus mtodos de crianza de los nios y presenta un puntaje medio de
suficientemente amplia para indicar la verdadera diferencia poblacional que se mues- permisibilidad para cada una de las muestras liberales y conservadoras. Adems,
tra entre los conservadores y los liberales con respecto a sus prcticas de crianza de obtiene un dato de diferencia entre las medias restando el puntaje medio conserva-
los nios? dor del puntaje medio liberal por cada par de muestras. Por ejemplo. si el puntaje
En el Captulo 2 se nos presentaro.n las distribuciones de frecuencia de puntajes medio de permisibilidad de los liberales es de 7,0 Y el puntaje medio de los conserva-
crudos de una poblacin dada. En el Captulo 7 vimos que era posible construir una dores es de 6,0. entonces el puntaje de diferencia sera + 1,0; igualmente, si el puntaje
distribucin muestral de puntajes promedio, una distribucin de frecuencia de medio liberal es de 5,0 Yel puntaje medio conservador es de 8,0, la diferencia sera -3,0.
medias muestrales. Al dirigirnos al asunto que tenemos entre manos, debemos llevar Obviamente, mientras mayor es el puntaje de diferencia, ms difieren las dos
la idea de la distribucin de frecuencia un paso ms adelante y examinar la muestras con respecto a la caracterstica que se est investigando. Ntese que
naturaleza de una distribucin muestral de diferencias, esto es, una distribucin de siempre restamos la segunda media muestral de la primera (en el presente caso
frecuencia de un gran nmero de diferencias entre medias muestrales aleatorias que restamos los plintajes medios conservadores de los puntajcs medios de los liberales).
se han extrado de una poblacin dada. Los 70 puntajes de diferencia entre las medias obtenidas por nuestro investigador social
Para ilustrar la distribucin muestral de diferencias, volvamos sobre el trabajo
excntrico se ilustran en la Figura 8.2.
de nuestro investigador social excntrico cuya pasin por la extraccin de muestraS
aleatorias lo ha llevado una vez ms a continuar el proceso de muestreo ms all de Supongamos que sabemos que las poblaciones de conservadores y liberales
los lmites ordinarios. En lugar de tomar una sola muestra de 500 liberales y una realmente no difieren en absoluto con respecto a la pennisibilidad en los mtodos de
sola muestra de 500 conservadores, toma 70 pares de tales muestras (70 muestras crianza de los nios. Digamos que . o: 5,0 en ambas poblaciones. Si suponemos que
que contienen 500 conservadores y 70 muestras con 500 liberales cada unll). O sea la hiptesis nula es correcta y que los liberales y los conservadores son idnticos en
que, cada vez que extrae aleatoriamente 500 conservadores, extrae tambin 500 este aspecto. podemos usar las 70 diferencias entre las medias obtenidas por nuestro
liberales. excntrico investigador social para ilustrar la distribucin muestral de diferencias.
Habiendo tomado sus muestras, nuestro investigador social excntrico interroga Esto es cit'rto porque la distribucin muestral de diferencias supone que todos los
a todos y cada uno de los miembros de la muestra (1 000 X 70 = 70 000 personas) pares de muestras difieren slo en virtud del ~rror de muestreo y no en funcin de
verdaderas diferencias poblacionales.

l
N. del L. Trmino utiUzado para denotar la cualidad de mostrarse poco estricto con los hijos.

_ .....L..:....
.~

{26 La toma de decisiones Comprobacin de diferencia~' entre medias J 27

TABLA 8.1 FIGURA 8.3 20


Diferencia entre medias G f
Distribucin muestral Polgono de
de diferencias para +5 1 frecuencia de la
+4 15
70 pares de muestras 2 distribucin
aleatorias +3 5 muestral de "
+2
+1 10
7
diferencias de la '""

u
10
O 18 Tabla 8.1 2
-1 10
-2 8 5
-3 5
-4 3
-5 1 O~-'---.l_..L--L-L--l_..L-.....L..--L_L-...I:::o: __
N = 70 -5 -4 -3 -2 -1 o +1 +2 +3 +4 +5

GEstos punt:Jjes de diferencia nduyen volorcs fraccionarios (por ejemplo. -5 incluye los
valores d"sde -5.0 hosta +5.9). Podemos dccir que la probabilidad disminuye a medida que nos alejamos ms y ms
dc la media de diferencias (cero). Ms especficamente, como se ilustra en la Figura
Las 70 diferencias medias de la Figura 8.2 se han ordenado como una distribu-
clOn muestral de diferencias de medias en la Tabla 8. I. Como los puntajes de otros 8.4, vemos que el 68,26 por ciento de las diferencias entre medias caen entre -1 DE
tipos de distribuciones de frecuencia, stos se han ordenado en forma decreciente y + 1 DE de cero. En trminos de probabilidad, esto indica que P = 0,68 de que
mientras que la frecuencia en que ocurre se indica en una columna adyacente. cualquier diferencia entre medias muestrales caiga dentro de este intervalo. De
Para describir mejor las propiedades claves de una distribucin muestral de manera similar, podemos decir que la probabilidad es aproximadamente 0,95 (95
diferencias, los datos de la Tabla 8.1 se han presentado grficamente en la Figura oportunidadcs entre 100) de que cualquier diferencia entre medias muestrales caiga
8.3. Tal como all se ilustra, vemos que la distribucin muestral de diferencias en- entre -2 DE y + 2 DE de una diferencia media de cero, y as sucesivamente.
La distribucin muestral de diferencias proporciona una base slida para com-
tre medias muestrales se aproxima a una curva normal cuya media ("media de dife-
probar hiptesis acerca de la diferencia de media entre dos muestras aleatorias.
rencias ") es cero. 1 Esto es lgico porque las diferencias positivas y negativas de las
Supongamos, por ejemplo, que una muestra de 100 Ji berales tiene un puntaje medio
I~edias de la distribucin tienden a cancelarse unas a otras (por cada valor negativo
de permisibilidad de 7, mientras que una muestra de 100 conservadores tiene un
tiende a haber un valor positivo a igual distancia de la media).
puntaje medio de permisibilidad de 2. El razonamiento es as: si nuestra diferencia
Como curva normal, la mayora de las diferencias entre medias muestrales de
entre medias obtenida-de 5 (7 - 2 = 5) est tan lejos de una diferencia de cero que
esta distribucin cae cerca de cero su punto ms cercano al centro; hay relativa-
slo tiene una pequea probabilidad de ocurrir en la distribucin muestral de
men te pocas diferencias entrl' medias con valores extremos en una u otra direccin
diferencias, rechazamos la hiptesis nula, que como antes dijimos es la hiptesis que
de la media de diferencias. Esto es de esperarse ya que la distribucin de diferencias
completa es un producto dd error de muestreo ms que de diferencias poblacionaJcs establece que la diferencia obtenida es un resultado del error de muestreo. Si por
reales entre conservadores y liberales. En otras palabras, si la diferencia media real
entre las poblaciones de conservadores y liberales es cero, esperamos tambin que la
media de la distribucin muestra! de diferencias sea cero.
FIGURA 8.4 La
CONTRASTACION DE LAS HIPOTESIS CON LA distribucin muestral
DISTRlBCION DE DIFERENCIAS de diferencias como
una distribucin de
En captulos anteriores aprendimos a hacer afirmaciones de probabilidad con respec- probabilidad
to a la frecuencia con que ocurren tanto los puntajes crudos como las medias
muestrales. En el presente caso buscamos' hacer afirmaciones de probabilidad acerca
de los puntajes de diferencia en la distribucin muestral de diferenciaS entre medias. -3DE-2DE-1DE O +lDE +2DE+3DE

L:=~--l I
Como se seal anteriormente, esta distribucin muestral toma la forma de la curva
normal y, por lo tanto. puede considerarse como una distribucin de probabilidad. 1 1
I Esto supone que=- !Icmos extrilLlo ~r;.ndt:'s 11111t"stras aleatori;.s ut' una poblacin dada de puntajes c.:rudos. 99,74%
128 La lOma de decisiones Comprobacin de diferencias entre medias 129

otra parte nuestra diferencia de medias muestrales cae tan cerca de cero que la XI La media de la primera muestra
probabilidad de que ocurra es grande, debemos aceptar la hiptesis nula y tratar Xl la media de la segunda muestra
nuestra diferencia obtenida como un resultado del error de muestreo. "O" = cero, el valor de la media de la distribucin muestral de diferencias
Por lo tanto, buscamos determinar qu tan lejos est muestra diferencia. entre (suponemos que JJ 1 - JJl = O)
las medias, obtenida (en este caso 5) de una diferencia media de cero. Al hacerlo adlt = la desviacin estndar de la distribucin muestral de diferencias

debemos convertir primero 'nuestra diferencia obtenida a unidades de desviacin


estndar. Debido a que siempre se supone que el valor de la media de la distribucin de
Recordemos que convertimos los puntajes crudos* a unidades de desviacin diferencias es cero, podemos desprendernos de l, en la frmula del puntaje z, sin
estndar por la frmula. alLerar nuestro resultado. Por lo tanto,

x x z= :..:)(:.1.1_----=..:)(;.:2
z =--- ITdll
a
Con respecto a la permisibilidad que existe entre los liberales y los conservado-
donde
res, debemos traducir primero nuestra diferencia entre medias obtenidas a su
puntaje z equivalente . Si la desviacin estndar de la distribucin muestral de
X un puntaje crudo
diferencias (aM) es 2, obtenemos el siguiente puntaje z:
X la media de la distribucin de puntajcs crudos
a = la desviacin estndar de la distribucin de puntajes crudos
7 - 2
Z=--
2
Igualmente, convertimos los puntajes medios de una distribucin de medias
5
muestrales a unidades de desviacin estndar por la fnnula =2"
= -+ 2,5
X-J.
z =
As, una diferencia de medias de 5 entre los liberales y los conservadores cae a 2,5
donde desviaciones estndar de una diferencia media de cero en la digtribucin de diferencias.
Nos preguntamos: Qu probabilidad hay de que una diferencia de 5 o ms,
X una media muestral entre medias muestra/es, puedu suceder estrictamente con base en e/ error de
JJ la media poblacional (media de medias) muestreo? Acudiendo a la Tabla B, al final del texto, vemos que z = 2,5 representa
a.< = el error estndar de la media (estimacin de la desviacin estndar de la el 49,38 por ciento de la distribucin en una u otra direccin de la media de cero.
distribucin de medias) O sea que el 98,76 por ciento (49,38% + 49,38+ = 98,76%) de las diferencias
entre medias muestrales estn entre cero y una diferencia media de 5 en ambas
En el presente contex to buscamos, de un modo similar. t rad ucir nuestra direcciones de cero, ms y menos (ver Figura 8.5). En trminos de probabilidad, esto
diferencia entre medias JI1uestrales (+ 5) a unidades de desviacin estndar por la indica que P = 0,99 (99 oportunidades entre 100) de que una diferencia entre medias
frmula caiga entre -5 y +5. Restando de lOO por ciento (100% - 98,76% = 1,24%),
encontramos que P = 0,0 l (redondeado) de que una diferencia media de 5 (o mayor
de 5) entre las muestras, pueda ocurrir estrictamente con base en el error de muestreo.
z = Esto es, que una diferencia media de 5 o ms ocurre por error de muestreo (y por lo
tanto aparece en la distribucin muestra!) slo una vez en cada 100 diferencias entre
donde medias. Sabiendo esto, no pensaramos en rechazar la hiptt:sis nula y aceptar la
hiptesis de investigacin de que una diferencia poblacional existe realmente entre
conservadores y liberales con respecto a la permisibilidad en la crianza de los nios?
N. de E. "no proce,ados:'
/30 La toma de decisiones Comprobacin de diferencias entre medias J JI

FIGURA 8.5 Representacin FIGURA 8.6


grfica del porcentaje Represen tacin
del rea total en la grfica del nivel
'"
'
de confianza de 0,05
distribucin de dife- l:

rencias entre ""


z = -2,5 Y z = +2,5 ~
z= + 2.5

-7 -6 -5 -4 -3 -2 -1 o +1 +2 +3 +4 +5 +6 +7 z=-196 O z=+1,96

L---- 98 76% - - - - -
tL..' 95%, _ _ -t
Para comprender mejor por qu este punto en particular de la distribucin
Una oportunidad entre 100 representa una probabilidad bastante buena no es muestral representa el nivel de confianza de 0,05 podramos volver a la Tabla B, al
verdad? final del texto, para determinar el porcentaje de frecuencia total asociado con I 96
Dada la situacin anterior, la mayora de nosotros elegira rechazar la hiptesis desviaciones estndar de la media. Vemos que 1,96 desviaciones estndar en un~ u
nula a pesar de que nos podramos equivocar al hacerlo (no olvidemos que an otra direccin representan el 2,5% de las diferencias entre medias muestrales (50%-
queda I oportunidad entre 100). Sin embargo, la decisin no es siempre tan clara. 47,5% = 2,5%). En otras palabras, el 95 por ciento de las diferencias muestrales
Supongamos. por ejemplo, que nos enteramos de que nuestra diferencia media cae entre -1.96 DE y + 1.96 DE de una diferencia media de cero; slo el 5 por
sucede por error de muestreo 10 (P = O, 10), 15 (P = 0.15), o 20 (P = 0,20) veces de ciento cae en este punto o ms all de l (2,5% + 2,5% = 5% ).
100. Rechazamos an la hiptesis nula? o "vamos a lo seguro" y atribuimos Los niveles de confianza pueden establecerse para cualquier grado de probabili-
nuestra diferencia obtenida al error de muestreo? dad. Por ejemplo, un nivel de confianza ms estricto es el nivel de confianza de 0,01,
Necesitamos un punto de referencia consistente para decidir si una diferencia por medio del cual se rechaza la hiptesis nula si solamente hay I opor.tunidad entre
entre dos medias muestrales es tan grande que ya no puede atribursele al error de 100 de que la diferencia muestral obtenida pueda ocurrir por error de muestreo (1
muestreo. Necesitamos un mtodo para determinar cunto es estadz'sticarnente signi- por ciento). El nivel de confianza de 0,01 est representado por el rea que est a
ficativo nuestro resultado. 2,58 desviaciones estndar en ambas direcciones de una diferencia de media de cero.
Las niveles de confianza no nos dan una afirmacin absoluta acerca de b'
NIVELES DE CONFIANZA
correccin de la hiptesis nula. Siempre que decidamos rechazar la hiptesis nula a
Para establecer si nuestra diferencia muestral obtenida es estadsticamente significati- un cierto nivel de confianza, nos abriremos a la posibilidad de tomar la decisin
va -resultado de una diferencia poblacional real y no slo del error de muestreo- equivocada. Rechazar la hipte~is nula cuando se debera aceptar se conoce como el
se acostumbra establecer un nivel de confianza (tambin conocido como nivel de
error alpha (o error tipo [). La probabilidad de cometer el error alpha slo puede
significancia), nivel de probabilidad en el cual se puede rechazar a la hiptesis surgir cuando rechazamos la hiptesis nula y vara de acuerdo con el nivel de
confianza que escojamos. Por ejemplo, si rechazamos la hiptesis nula al nivel de
nula y se puede aceptar con confianza la hiptesis de investigacin. Por lo tanto,
decidimos rechazar la hiptesis nula si la probabilidad es muy pcqueJia (por ejemplo. confianza de 0,05 y concluimos que los conservadores realmente difieren de los
slo 5 oportunidades entre 100) de que la difercncia muestral sea un producto del liberales en trminos de sus mtodos de crianza de los nios, entonces hay 5
error de muestreo. oportunidades entre 100 de que nos equivoquemos. En otras palabras, P = 0,05 de
Es un asunto convencional utilizar el nivel de confianza de 0,05. O sea que que hayamos cometido el error alpha y de que los conservadores no difieran
estamos dispuestos a rechazar la hiptesis nula si una diferencia muestral obtenida realmente de los liberales. Igualmente, si escogemos el nivel de confianza de 0,0 l slo
ocurre casualmente slo 5 veces o menos entre 100 (5 por ciento). El nivel de existe una oportunidad entre 100 (P = 0,0 1) de tomar la decisin equivocada con
confianza de 0.05 se ha representado grficamente en la Figura 8.6. Como se muestra respecto a la diferencia entre liberales y conservadores. Obviamente, mientras ms
all. el nivel de confianza de 0.05 se encuentra en las pequeas reas de las "colas" de riguroso sea nuestro nivel de confianza (mientras ms cerca de la cola se encuentre),
la distribucin dc diferencias de medias. Estas son las reas bajo 'la curva que menos probabilidades tendremos de cometer el error alpha. Tomando un ejemplo
representan una distancia de ms o menos I. 96 desviaciones L'stndar de una extremo, establecer un nivel de confianza de 0,00 I produce un riesgo de que el error
diferencia media de cero. alpha ocurra solamente una vez entre mil. .
.IJ2 La toma de decisiones
r Comprobacin de diferencias entre medias 1JJ

Sin embargo, mientras ms cerca de la cola de la curva caiga nuestro nivel de Para calcular el error estndar de la diferencia, debemos encontr'ar primero el error
confianza, mayor ser el riesgo de cometer otra clase de error, conocido como el estndar para cada media muestral. Recordemos que esto se hace como sigue a
error beta (O error tipo JI), error en el que se cae al aceptar la hiptesis nula cuan- partir de la desviacin estndar para cada muestra (ver Captulo 7): '
do debi haber sido rechazada. El error beta indica que nuestra hiptesis de inves- s, s,
tigacin puede ser an correcta, a pesar de la decisin de rechazarla y de aceptar <T"
., ,~ =
--;=== <Tx,=~
la hiptesis nula. Un mtodo para reducir el riesgo de cometer el error beta es aumen-
tar el tamao de las muestras de manera que sea ms probable que quede representada 2,0 1,5
una diferencia poblacional real. V5O=l V5O=l
Nunca podemos estar seguros de que no hemos tomado una decisin equivoca- 2,0 1,5
da con respecto a la hiptesis nula, ya que examinamos solamente una muestra y no = 7,0 = 7,0
la poblacin entera. Mientras no tengamos conocimiento de los verdaderos valores = 0,29 = 0,21
poblacionales, correremos el riesgo de cometer un error tipo I o tipo n, dependiendo
Una vez que conocemos oi para cada media muestral, podemos obtener 0dif como
de nuestra decisin. Este es el riesgo de la toma de decisiones estadsticas que el
sigue:
investigador social debe estar dispuesto a asumir.
EL ERROR ESTANDAR DE LA DIFERENCIA Odif = V<T.f,2 + <T-f/

Nunca podemos tener conocimientos de fuentes directas acerca de la desviacin = VO,29 2 +0,2I2
estndar de la distribucin de diferencias de medias y, al igual que en el caso de la = VO,OS + 0,04
distribucin muestral de medias (Captulo 7), resultara un esfuerzo mayor el extraer = VO,12
realmente un gran nmero de pares de muestras para poder calcularla. Sin embargo, = 0,35
esta desviacin estndar desempea un importante papel en el mtodo que se sigue
para contrastar hiptesis acerca de las diferencias entre las medias y, por lo tanto, no El error estndar de la diferencia (nuestra estimacin de la desviacin estndar de la
puede pasarse por alto. distribucin de diferencias) resulta ser 0,35. Si estamos comprobando la diferencia
Afortunadamente, tenemos un mtodo sencillo por medio del cual puede entre los liberales (X = 7,0) y los conservadores (X = 6,0) con respecto a la
permisibilidad, usaramos nuestro resultado para convertir la diferencia entre medias
estimarse con exactitud la desviacin estndar de la distribucin de diferencias con
base en las dos muestras que hemos extrado realmente. A esta estimacin de la muestrales obtenida a su puntaje z equivalente:

= x, Odif
desviacin estndar de la distribucin muestral de diferencias la llamaremos error -X.-
estndar de la diferencia, el cual se simboliza con 0di!' por frmula, z

Odif = v<TI, 2 + <T.f,


2 7- 6
= 0,35
donde 1
=0,35
0dif = el error estndar de la diferencia = 2,86
<T.f, = el error estndar de la primera media muestral
<T.f, = el error estndar de la segunda media muestral Remitindonos a la Tabla B. al final del libro, vemos que un puntaje z de 2,86
equivale exactamente al 49,79 por ciento de las diferencias de medias a uno u otro
Supongamos, con fines ilustrativos, que hemos obtenido los siguientes datos de lado o al 99,58 por ciento de las diferencias de medias a ambos lados de una
una muestra de 50 liberales y una muestra de 50 conservadores: diferencia de media de cero (49.79% + 49.79% = 99.58%). Si restamos esta suma de
100 por ciento encontramos que menos del 1% (0,42%) de los puntajes de diferencias
Liberales (N = 50) Conservadores (N = 50) de medias tienen un valor de I o mayor de 1. Por lo tanto, P es menor a 0,0 I de
obtener una diferencia de media de 1 con base en el error de muestreo. Podemos
X = 7.0 X= 6.0 rechazar la hiptesis nula ya sea al nivel de confianza de 0,05 o de 0,01, cualquiera
s = 2,0 s = 1,5
que sea el que hayamos establecido para nuestro estudio.
J 34 La loma de decisiones
Comprobacin de diferencias e/llre medias J 35
Una Ilustracin
Para proporcionar una ilustracin minuciosa del procedimiento anterior, para compro- PASO 1: Encontrar la media para cada muestra
bar una diferencia entre dos medias mllestrales, supongamos que quisimos contrastar la - ~XI - ~X.
hiptesis nula al nivel de confianza de 0,05 que planteaba que las mujeres no son XI=N X, = N-
ni ms ni menos etnocntricas que los hombres (Il 1 = Il 2)' Nuestra hiptesis d~ 54
60
investigacin establece que las mujeres difieren de los hombres con respecto al =3"5 ="35
'*
etnocentrism0 2 (Il 1 1l2)' Para comprobar esta hiptesis, digamos qUI: JI: dimos una
= 1.71 = 1.54
medida de etnocentrismo (por ejemplo, la escala de etnocentriSIllO) a una muestra
aleatoria de 35 mujeres y a una muestra aleatoria de 35 hombres y obtuvimos los PASO 2: Encontrar la desviacin estndar para cada muestra
siguientes puntajes de etnocentrismo para cada muestra (X = datos que van desdc 1,
representando bajo etnoccntrismo, hasta S, representando alto etnocentrism o): SI = ~U'
N -,
-x- S2=
#l-
N -X2
Hombres (N = 35) Mujeres (N = 35) = ~ 142 _ 292 = _/114 _ 237
35 ' ~ 35 '
X' X, X'
= V4,06 - 2,92 = v'3.26 - 2,37
J_ 1 1 1
1 T' 1 T =Vi}4 = v'0:89
1 1 1 1
1 1 2 4
= 1,07 = 0,94
2 4 1 1 PASO 3: Encontrar el error estndar de cada media
1 1 1 1
1 1 1 1 S, S.,
3 9 3 9 (J'<;,=~ (J,<;, VN -- 1
3 9 1 1
1 1 2 4 1,07 0,94
2 4 4 16 = V34 = V34
1 1 1 1
2 4 1 1 1.07 0,94
1 1 1 1 = 5,B3 = 5,B3
1 1 1 1 = O,lB = 0,16
1 1 5 25
1 1 1 1 PASO 4: Encontrar el error estndar de la diferencia
2 4 2 4
4 16 2 4 0dlf = VCTr,2 + (J,r,2
5 25 1 1
1 1 1 1 = vtO,lB)2 + (0,16)2
1 1 1 1 = vO,03 + 0,03
2 4 1 1
1 1 2 4 = "';0,06
2 4 3 9 = 0,25
1 1 1 1
2 4 1 1 PASO S: Convertir la diferencia entre medias Illlll:straks a unidades de error estn-
1 1 1 1 dar dI: la diferencia
1 1 2 4
1 1 2 4 XI - )(,
1 1 2 4 z = dlf
3 9 1 1
3 9 1 1 1,71 - 1,54
1 1 1 1 0,25
4 16 1 1 0,17
~ = 60 ~X' = 142 ~X = 54 ~X' = 114 =--
2 "E.tn()ce-ntri~11lo" Sto Tener.: ;J la tl'nd~lld~~- t'v~lll1ar a tod~~s "los ~l!.rupos dt." p~rson.:lS usando OlIt's'tr:Js propias 0,25
normas cultur6lles.
= 0,68
..
136 La toma de decisiones

PASO 6: Encontr~r el porcentaje del rea total bajo la curva normal entre z y una
r
[
XI
X2
= la media de la primera muestra
= la media de la segunda muestra
Comprobacin de diferencias entre medias 137

diferencia media de cero (ver Tabla B) adie = el error estndar de la diferencia


25,17%
+ 25,17% Como se muestra arriba, la frmula de la razn t es idntica a la frmula para
50,34% el puntaje z que aprendimos anteriormente. Sin embargo, a diferencia de un puntaje
PASO 7: Restar de 100% para encontrar el porccntaje del rea total asociado con la z, la razn t debe interpretarse con referencia a los grados de libertad3 (gl), que
diferencia entre medias muestrales obtenida varan directamente con el tamao de la muestra y van a determinar la forma de la
distribucin muestral de diferencias. Mientras mayor sea el tamao de la muestra
100,00% mayores sern nuestros grados de libertad. Mientras mayores sean nuestros grados d;
-50,34%
libertad, ms se acercar la distribucin de diferencias a una aproximacin de la
49,66%
curva normal. Con infinitos grados de libertad, nuestra razn t se convierte en
Del resultado del Paso 7 vemos que P = 0,50 (redondeado) de obtener una puntaje z y de ese modo podemos emplear la Tabla B para interpretar nuestro
diferencia media de 0,17 (1,71 - 1,54) por error de muestreo. Como resultado resultado.
debemos aceptar la hiptesis nula y rechazar la hiptesis de investigacin al nivel de Pero, qu sucede cuando trabajamos con muestras pequeas? cmo sortea
confianza de O,OS. La probabilidad de que octlrra nuestra diferencia entre medias mas el asunto para encontrar grados de libertad e interpr<:tar nuestra razn t? Para
obtenida entre hombres y mujeres es mayor a S de 100. Para ser exactos. es igual una razn t que representa dos medias muestrales, el nmero de grados de libertad
a SO de lOO! Conclusin: Los datos de nuestra muestra no indican que las mujeres puede encontrarse por la frmula
sean ni ms ni menos etnocntricas que los hombres.
gl= NI + N 2 - 2
donde
COMPARACIONES ENTRE MUESTRAS PEQUEAS
NI = el tamao de la primera muestra
Los investigadores sociales trabajan frecuentemente con muestras que contienen un N 2 = el tamao de la segunda muestra
pequeo nmero de entrevistados o caso, (por ejemplo, menos de 30). Mientras que
Por lo tanto, si estamos comparando una muestra de 6 liberales y 8 conservadores,
puede ser conveniente. si no necesario, obtener resultados basados en muestras de
pequeo tamao, stos pueden ser seriamente engao!ios si se interpretan de acuerdo nuestros grados de libertad sern 6 + 8 - 2 = 12.
Podemos interpretar cualquier razn t que obtengamos con la ayuda de la Ta
al rea sealada bajo la curva normal en la Tabla B. Esto resulta cierto ya que la
bla C,al final del libro,y del nmcro de grados de libertad que hemos calculado. La
distribucin muestral de diferencias toma la forma de la curva normal slo si las
muestras que van a constituirla son grandes. Un investigador social que trabaja con Tabla C proporciona los valores de t que se requieren para rechazar la hiptesis nula
S. 10 o 20 entrevistados en cada muestra no puede encontrarse con esta suposicin. a los niveles de confianza de 0,05 y 0,01 para varios grados de libertad. Volviendo a la
Como resultado no puede usar puntajes z basados en la distribucin normal. Tabla C, vemos una columna marcada gl (grados de libertad) y una lista de valores t
para cada grado de libertad a los niveles de confianza de 0,05 y 0,01, Como veremos,
Para compensar estadsticamente este alejamiento de la normalidad, en la distri
bucin de diferencias. obtenemos en su lugar lo que se conoce comnmente como la estos valores t pueden usarse para interpretar la razn t que hemos calculado.
razn t. Al igual que el puntaje z, la razn t pUl'de usarse para convertir una
diferencia entre medias muestrales a unidades de error estndar de la diferencia, Una-ilustracin de una comparacin
entre muestras pequeas
Tambin de la misma manera en que se llega al puntaje z obtenemos una razn t,
tomando la diferencia entre nuestras medias mucstrales y dividindolas por nuestro
error estndar de la diferencia. Por frmula, Para ilustrar el uso de la razn de t, de los grados de libertad y de la Tabla C para
comprobar una diferencia de medias entre muestras pequeas, pensemos en la
siguiente situacin de investigacin: Un investigador social busca comprobar la
t = X, - X~
a die J Grados de libertad se refiere tcnicamente a la libertad de variacin entre un conjunto de puntaje. Si tenemos
una muestra de 6 puntajes, entonces S son libres de variar mientras que slo uno es de valor fijo. Por lo tanto,
en una sola muestra de 6 entrevistados. gl = N ~ I o S.
donde

_-C...-_

&1&4
Comprobacin de diferencias entre medias 139
138 La toma de decisiones
PASO 2: Encontrar la desviacin estndar de cada muestra
hiptesis de que el comportamiento caritativo vara segn si la donacin se hace
annimamente o si se da a conocer la identidad del donante. Por lo tanto,
_!;X _X'
S, - NI 1 S, -
Ix~ X'
_ VN - 2
Hiptesis nula: El grado de comportamiento caritativo no difiere si la donacin es
(JI = J2) annima o no. =~lf - (1,33)2 = )1ff - (4,50)2
Hiptesis de investigacin: El grado de comportamiento caritativo difiere si la donacin = v2,00 - 1.77 = v20,83 - 20,25
(J I "*
J2) I se hace annimamente o no. = \/0,23 = V"58
= 0,48 =0,76
Para probar esta hiptesis el investigador estipula el nivel de confianza de 0,05; esto
es, escoge inicialmente rechazar la hiptesis nula slo si resulta que hay 5 oportuni- PASO 3: Encontrar el error estndar de cada media
dades entre 1,00 de que la diferencia entre medias muestrales obtenida sea producto
S,
del error de muestreo. Habiendo establecido este criterio de significancia, l obtiene (Tx,= ~ (Ti, = vN - 1
2
dos muestras aleatorias de donantes potenciales. A todos los miembros de ambas
0,48 0,76
muestras les pide donaciones en dinero para distribuirlo entre los sobrevivientes de un =..j5 =..j5
gran terremoto. A los 6 miembros de la primera muestra les asegura el anonimato
completo; a los 6 miembros de la segunda muestra les promete colocar los nombres 0,48 0,76
de los donantes en un lugar pblico visible. Por tanto, tenemos las condiciones = 2,24 2,24
experimentales de anonimato contra identidad conocida. = 0,21 = 0,34
A continuacin se enumeran las cantidades de dinero donadas por los miembros PASO 4: Encontrar el error estndar de la diferencia
de ambas muestras:
Odif = V(T.f,' + (T!{;
Anonimato (N = 6) = \/(0,21)2 + (0,34)2
= VO,04 + 0,12
$1 1 $3 9 = vif,16
2 4 5 25 = 0,40
1 1 5 25
1 1 5 25 PASO 5: Convertir la diferencia entre medias muestrales a unidades de error estn-
2 4 4 16
1 1 5 25 dar de la diferencia
IX=B IX~ = 12 IX,= 27 X~ = 125
t = X, - X.
Vemos que los 6 miembros de la muestra que qued en el anonimato dieron $8 Odif

mientras que los 6 miembros de la muestra de identidad conocida dieron $27. El 1,33 - 4.50
siguiente procedimiento puede usarse paso a paso para probar la significancia estads- 0,40
tica de la diferencia obtenida. 3,17
0,40
PASO 1: Encontrar la media de cada muestra -7.93

- ~XI - ~X. PASO 6: Buscar el nmero de grados de libertad


X=N X2 =N
8 27 gl = N, + N. - 2
="6 =6 =6+6-2
= 10
= $1,33 = $4,50
" il'U",,i',, , ti ..

140 La toma de decisiones

PASO 7: Comparar la razn t obtenida con la razn t apropiada de b Tabla ('

razn t obtenida = 7,93


r Comprobacin de diferencias entre medias

Para ilustrar el procedimiento que se sigue para comparar m'uestras de distinto


tamao, peT.lsemos en la hiptesis de que los nios negros y blancos de cierto barrio
difieren respecto a la tendencia hacia la criminalidad. En este caso,
141

razn t de la tabla = 2,228


gl = 10
Hiptesis nula;' Los nios negros y blancos no difieren respecto a su tendencia hacia
P = 0,05
(.t I = .t 2 ) la criminalidad.
('01110 se ve en el Paso 7, para poder rechazar la hiptesis nula al nivel de confianza
Hiptesis de investigacin: Los nios negros y blancos difieren respecto a su tenden-
de 0,05 con 10 grados de libertad, nuestra razn t calculada debe ser 2,228 o ms. En
(.t I *" .t 2 ) cia hacia la criminalidad.
el presente caso hemos obtenido una razn t de 7,93. Por lo tanto, rechazamos la
hiptesis nula y aceptamos la hiptesis de investigacin. El grado de comportamiento Para comprobar este hecho en el nivel de confianza de 0,05, imaginemos que cierto
caritativo realmente vara de acuerdo a si la donacin se hace annimamente o bien investigador administr una medida de "tendencia hacia la criminalidad" a una
si se da a conocer la identidad del donante. Ms especficamente, la condicin de muestra aleatoria de 4 blancos y a una muestra aleatoria de 7 negros. Resultaron los
"identidad conocida" produce significativamente ms caridad (X2 = $4,50) que la siguientes puntajes de "tendencia hacia la criminalidad" (los datos van desde 1, que
condicin de "anonimato" (XI = $1,33). representa poca tendencia hacia la criminalidad, hasta 5, que representa una fuerte
tendencia hacia la criminalidad):
COMPARACIONES ENTRE MUESTRAS
DE DISTINTO TAMAO Blancos (N = 4) Negros (N = 7)

X, X', X,
Hasta ahora hemos trabajado con muestras que contienen exactamente el
mismo nmero de entrevistados o casos. Por ejemplo, en la ilustracin anterior cada 1 1 4 16
2 4 1 1
muestra contena 6 entrevistados. Sin embargo, cuando realmente salimos a realizar 1 1 1 1
la investigacin encontramos que. con frecuencia, nuestras muestras difieren en 3 9 1 1
tamao. As podemos tener una muestra de 50 liberales y 64 conservadores, una rr, = '7 rr = 15 2 4
2 4
muestra de 15 hombres y 22 mujeres. Para hacer comparaciones entre muestras de 1 1
distinto tamao debemos encontrar una forma de dar el peso apropiado a la in- YX, = 12 YXj = 28
fluencia relativa de cada muestra. En el caso de X esto se hace automticamente,
ya que siempre dividimos ~ X entre N. Este no es el caso para el error estndar de la El procedimiento detallado para comprobar la hiptesis anterior puede ilustrarse
diferencia: cada desviacin estndar de la muestra en que se basa adil contribuye como sigue:
igualmente a la frmula que aprendimos anterionnente, aunque existan diferencias
grandes e importantes en el tamao de las muestras. PASO 1: Encontrar la media de cada muestra
Este problema puede superarse utilizando una frmula para el error estndar de
la diferencia, en la cual la influencia relativa de cada desviacin estandar puede ser - I.X - I.X.
X I = - -I X. = N.
ponderada en trminos del tamao de su muestra. Tll frmula se presenta a N,
continuacin: 7 12
=4 T
adil = ~(N,s," + Nc.s?) (_1 +-l) = 1.75 = 1.71
N, + N" - 2 N, N" PASO 2: Encontrar la desviacin estndar de cada muestra
donde
s, = la
S2 = la
desviacin estndar de la primera muestra
desviacin esr,iIH.1ar de la segundn muestra
s, =
[Ul
YM - -.
Xi s. = IR -Xi

y/~-306
NI = el nmero total en la primera muestra
;V, = el nmero total en la segunda muestra
=
4 .
=
Y/287 _ 292

l .~
Comprobacin de diferencias entre medias 14J
/42 La toma de decisiones
0,05 con 9 grados de libertad, nuestra razn t obtenida tendra que ser 2,262 o ms.
= V3,75 - 3,06 = V 4,00 - 2,92 Corno hemos calculado una razn t de slo 0,06 debernos aceptar la hiptesis nula y

= VO,69 = V1,OS rech'lzar la hiptesis de investigacin. Nuestros resultados no respaldan el concepto I
= 0,83 = 1,04 de que los nios negros y blancos difieren respecto a su tendencia hacia la criminalidad. I
PASO 3: Encontrar el error estndar de la diferencia ji
COMPARACION DE LA MISMA MUESTRA
MEDIDA DOS VECES
\J
=
V
1(4(0,83)2+ 7(1.04)2)
4+7-2 4
(!. !.)
+
7 Hasta aqu: hemos analizado las comparaciones que se hacen entre dos muestras

= ~C76 ; 7,56)(0,25 + 0,14)


que se han extrado independientemente (por ejemplo, hombres contra mujeres,
negros contra blancos o liberales contra conservadores). Antes de dejar este tema
presentaremos ahora una ltima variacin de la comparacin entre dos medias a la que
= ~(~-)<0,39) nos referirnos corno un disei'io de antes-despus o de panel: es el caso de una sola
muestra medida en dos puntos diferentes en el tiempo (tiempo 1 contra tiempo 2).
= V(1,15)(0,39) Por ejemplo, un encuestador puede tratar de medir las reacciones que experimenta
= vo,45 una sola muestra de nios tanto antes como despus de ver cierto programa de
= 0,67 televisin. Del mismo modo podramos desear medir las diferencias de actitudes
PASO 4: Convertir la diferencia entre medias muestrales a unidades de error estn- hacia un determinado candidato a un cargo pblico antes y despus de su campaa.
dar de la diferencia Para dar una ilustracin paso a paso de una comparacin de antes-despus,
supongamos que varios individuos han sido obligados por el gobierno a reubicar sus
t = X, - X2 hogares debido a la construccin de una carretera. Como investigadores sociales, nos
a dir interesa determinar el impacto que la reubicacin residencial forzada tiene sobre los
1,75 - 1,71 sentimientos de buena vecindad (esto es, sentimientos positivos hacia los vecinos del
0,67 barrio, pre-reubicacin, contra los sentimientos hacia los vecinos del barrio, post-
0,04 reubicacin). En este caso, entonces, J.l, es el puntaje medio de buena vecindad en el
= 0,67 tiempo l (antes de la reubicacin) y J.l2 es el puntaje medio de buena vecindad en
= 0,06 el tiempo 2 (despus de la reubicacin). Por lo tanto,

PASO 5: Buscar el nmero de grados de libertad


Hiptesis nula: El grado de buena vecindad no difiere antes ni despus de la re-
().l, =J.l2) ubicacin.
:I = N, + N 1 - 2
= 4+ 7 - 2
=9
Hiptesis de investigacin: El grado de buena recindad dIfiere antes y despus de la
PASO 6: Comparar la razn t obtenida, con la razn t apropiada de la Tabla C
"*
(. I J.l2 ) reubicacin.
razn t obtenida = 0,06
razn t de la tabla = 2,262 Para probar el impacto que causa la reubicacin forzada sobre la buena vecindad,
gl=9 entrevistarnos una muestra aleatoria de 6 individuos tanto antes como despus de
P = 0,05 que se les oblig a mudarse. Nuestras entrevistas producen los siguientes puntajes de
buena vecindad (los puntajes ms altos de l a 4 indican mayor grado de buena
Como se indica en el Paso 6. para rechazar la hiptesis nula. al nivel de confianza de vecindad):

j
JIiIi;~i*'f "e

144 La loma de decisiones


r Comprobacin de diferencias entre medias 145

Antes de Despus de Diferencia (Diferencia)1 PASO 3: Encontrar el error estndar de la diferencia


mudarse mudarse
Entrevistado X, X, XI - X, = D D' s
Odif= ~

Rosalba 2 1 1 1
Ral 1 2 -1 1
1,53
Carolina 3 1 2 4 v'6=1
Ulia 3 1 2 4 1,53
Alberto 1 2 -1 1 = 2,24
Mario 4 1 3 9
XI = 14 X, = 8 lO' = 20 = 0,68
Como se mostr anteriormente, hacer una comparacin antes-despus, con- PASO 4: Convertir la diferencia entre medias muestrales a unidades de error estn. .
centra nuestra atencin en la diferencia que hay en tre el tiempo I y el tiempo 2; dar de la diferencia
esto se refleja en la frmula para obtener la desviacin estndar (para la distribucin
de pun tajes de diferencias antes-despus:

s =
IW' - (XI
VN- - -.,
- X,)- 2,33 - 1,33
0,68
donde: 1,00
- 0,68
s = la
desviacin estndar de la distribucin de puntajes de diferencias antes- = 1,47
despus
D el puntaje crudo "despus", restado del puntaje crudo "antes" PASO s: Encontrar el nmero de grados de libertad
N= el nmero de casos o entrevistados en la muestra gl = N - 1 Nota: N se refiere a! nmr.ro tota! de ca-
= 6 - 1 sos, no al nmero de puntajes, para
PASO 1: Encontrar la media para cada punto en el tiempo = 5 los cuales hay 2 por caso o entrevis-
'X = XI - = X, tado.
I N X, N
PASO 6: Comparar la razn t obtenida con la razn apropiada de la Tabla C
14 8
=6 =6 razn t obtenida = 1,47
= 2,33 = 1,33 razn t de la Tabla C = 2,571
gl = 5
PASO 2: Encontrar la desviacin estndar para la diferencia entre el tiempo I y el P = 0,05
tiempo 2
Para poder rechazar la hiptesis nula al nivel de confianza de 0,05 con 5 grados
s = ~- (XI - X,)'
de libertad, debemos obtener una razn t calculada de 2,57 l. Ya que nuestra razn t
es de slo 1,47 -menor al valor requerido por la tabla- aceptamos la hiptesis nula y
rechazamos la hiptesis de investigacin. La diferencia muestral obtenida en lo que
= ~~ - (2,33 - 1,33)' respecta a la buena vecindad antes y despus de la reubicacin era, en realidad, un
resultado del error de muestreo.
= ~20 _ 100
6 '
= \/3,33 - 1.00 REQUISITOS PARA EL USO DEL PUNTAJE z Y LA RAZON t
= V2.33 Como vert:mos a travs del resto de este texto, cada prueba estad stica debt: uti-
= 1,53 lizarse slo si el investigador social ha tomado t:n cuenta por lo mt:nos ciertos re-
r;

l
"
146 La toma de decisiones 1
Comprobacin de diferencias entre medias 147

quisitos, condiciones o suposiciones. El empleo inadecuado de una prueba puede prensa de la clase media. Empleando un "ndice de sexualidad", recogieron
confundir un problema y conducir al investigador a conclusiones errneas. Como datos de una muestra aleatoria de 40 artculos publicados en revistas de la clase
resultado, se deben tener muy presentes los siguientes requisitos al pensar en las media y ~e 40 ~rtculos de revistas clandestinas. Mientras que la muestra de
caractersticas del puntaje z o la razn t como una prueba de significancia: cla~e medIa tema un pun taje medio de sexualidad de 3,0 y una desviacin
l. Una comparacin entre dos medias:el puntaje z y la razn t se emplean para estandar de 1,5, la muestra clandestina tena un puntaje medio de sexualidad de
poder hacer comparaciones entre dos medias de muestras independientes o 4,0 y una desviacin estndar de 2,0 (los puntajes medios ms altos indican
de una sola muestra ordenadas en un diseo de panel "antes-despus." mayor sexualidad). Usando los datos anteriores, comprobar la hiptesis nula de
2. Datos por invervalos:la suposicin consiste en que tenemos puntajes al nivel que no e~iste ninguna diferencia con respecto a la sexualidad entre la prensa de
de medicin por intervalos. Por lo tanto, no podemos usar el pun taje z o la clase medIa y la prensa clandestina. Qu indican sus resultados?
razn t para datos colocados por grados o datos que slo pueden categori- 2. Dos grupos de estudiantes tuvieron exmenes finales de estadstica. Slo se dio
zarse al nivel nominal de medicin (ver Captulo 1). a un ~rupo la preparacin formal para el examen, el otro grupo ley el texto
3. Muestreo aleatorio:debemos haber extrado nuestras muestras sobre una requendo, pero nunca asisti a clases. El primer grupo (que asisti a clases) logr
base aleatoria de una poblacin de puntajes. calificaciones de 2, 2,3 y 4 en el examen; el segundo grupo (que nunca asisti a
4. Una distribucin normal:la razn t para muestras pequeas requiere que la clases) obtuvo calif.icacio.nes de e.xamen de 1, 1, 2 y 3. Comprobar la hiptesis
caracterstica de la muestra que hayamos medido est normalmente distribui- nula de que no eXIste nll1guna dIferencia en cuanto a calificaciones de examen
da en la poblacin fundamental (el puntaje z para grandes muestras no se ve ~nt~e los estudiantes que no asistieron a clases y los que asistieron. Qu
muy afectado si no se cumple esta condicin). A menudo, no podemos estar lI1dlCan sus resultados? (Nota: Los exmenes se calificaron de l a 10' las
100 por ciento seguros de que existe normalidad. Al no tener motivos para cal ificaciones ms al tas representaban mej ores conocimientos de estadstica).'
creer otra cosa, muchos investigadores suponen pragm ticamente que su 3. Comprobar la significancia de la diferencia entre las medias de las siguientes
muestras aleatorias de puntajes:
caracterstica muestral est normalmente distribuida. Sin embargo, si el
investigador tiene motivos para sospechar que no se puede suponer normali-
dad, estar ms acertado si considera que la razn t puede ser una prueba Muestra 1 Muestra 2
inapropiada (ver Captulo 6). 8 1
3 5
RESUMEN 1 8
Este captulo se ha concentrado en la comprobacin de hiptesis acerca de las 7 3
7 2
diferencias entre medias muestrales. Se describi e ilustr la distribucin muestral de las 6 1
diferencias entre medias como una distribucin de probabilidad relacionada con este 8 2
propsito. Con ayuda de esta distribucin, y del error estndar de la diferencia,
podra hacerse una afirmacin de probabilidad y, sobre esa base, rechazar o
4. Comprobar la significancia de la diferencia entre las medias de las siguientes
aceptar una hiptesis nula a un nivel de confianza especfico. Adems, vimos que
muestras aleatorias de puntajes:
la razn t (y los grados de libertad) podran usarse para comprobar hiptesis acerca
de diferencias entre muestras pequeas, entre muestras de distinto tamao y para
una sola muestra medida en dos puntos en el tiem po. La propiedad de la razn t Muestra 1 Muestra 2
depende de ciertos requisitos tales como (1) hacer una comparacin entre dos me-
6 6
dias, (2) los datos por intervalos, (3) el muestreo aleatorio y (4) una distribucin 6 5
normal. 8 7
7 7
PROBLEMAS 5 3
4 3
8 5
l. Los investigadores sociales buscaban comprobar la hiptesis de que la prensa 7 6
7 3
clandestina no est ni ms ni menos orientada, hacia cuestiones sexuales, que la
M_ '.,,;,,;,;e,

148 La toma de decisiones Comprobacin de diferencias entre medias 149

5. Comprobar la significancia de la diferencia entre las medias de las siguientes mues- 9. Comprobar la significancia de la diferencia entre las me'dias de las siguientes
tras aleatorias de puntajes muestras aleatorias de puntajes:
Muestra 1 Muestra 2 Muestra J Muestra 2
15 10 10 10
18 11 4 10
12 12 1 8
17 10 2 7
19 10 4
8
3
5
6. Comprobar la significancia de la diferencia entre las medias de las siguientes mues-
tras aleatorias de puntajes la. Tanto antes como despus de ver una pelcula diseada para reducir los prejui-
cios contra los grupos minoritarios. se interrog a seis estudiantes acerca de sus
Muestra 1 Muestra 2 actitudes hacia los judos. Sobre los siguientes datos comprobar la hiptesis de
1 2 que no hubo diferencia en las actitudes hacia los judos entre estos estudiantes
1 2 antes y despus de ver la pelcula (los puntajes ms altos indican actitudes ms
2 4 favorables hacia los judos):
3 2
3 2
Estudiante Antes Despus

A 2 4
7. Comprobar la significancia de la diferencia entre medias de los siguientes B 2 5
muestras aleatorias de puntajes: e 4 3
D 6 8
Muestra J Muestra 2 E 7 9
F 5 8
5 10
7 7
9
11. Comprobar la significancia de la diferencia "antes-despus" entre las medias en
7
3 9 la siguiente muestra aleatoria de puntajes:
6 7
5 8 Entrevistado Antes Despus
4
6 A 7 3
7 B 6 4
e 5 2
D 4 3
8. Comprobar la significancia de la diferencia entre las medias de las siguientes
muestras aleatorias de puntajes:
12. Comprobar la significancia de la diferencia "antes-despus" entre las medias en
la siguiente muestra aleatoria de puntajes:
Muestra J Muestra 2

3 7 En trevistado Antes Despus


6 8
4 8 A 6 3
2 9 B 7 4
1 9 e 10 9
6 D 9 7
5 E 8 5

.~
w-
- -"
I

Anlisis de varianza J5 J

El procedimiento de calcular una serie de razones t no slo implica una gran


cantidad de trabajo, sino que tambin tiene una limitacin estadstica. Esto se debe
a que aumenta la probabilidad de cometer el error alpha: error de rechazar la
hiptesis nula cuando debe ser aceptada. Recordemos que el investigador social
generalmente est dispuesto a aceptar un riesgo deIS por ciento de cometer el error
alpha (el nivel de confianza de 0,05). Por lo tanto, espera que por mera casualidad 5
de cada 100 diferencias entre medias muestrales sern lo suficientemente grandes
como para considerarlas significativas. Sin embargo, mientras ms pruebas estads-
ticas realicemos, ms probable ser que obtengamos resultados estadsticamente
significativos por error de muestreo (ms que por una verdadera diferencia pobla-
cional) y que por ello cometamos el error alpha. Cuando llevamos a cabo un gran
nmero de estas pruebas, la interpretacin de nuestro resultado se vuelve proble-
mtica. Para tomar un ejemplo extremo: cmo interpretaramos una razn t
significativa de entre I 000 comparaciones en un determinado estudio? Sabemos que
podemos esperar que por lo menos algunas grandes diferencias entre medias oc\!rran
simplemente con base en el error de muestreo.
Para superar este problema y aclarar la interpretacin de nuestro resultado,
necesitamos una prueba estadstica que mantenga el error alpha a un nivel constante,
Negros contra blancos, hombres contra mujeres Y liberales contra conservadores haciendo una decisin global nica acerca de si existe una diferencia significativa
representan el tipo de comparaciones entre dos muestras que ocup nuestra atencin entre las tres o ms medias muestrales que buscamos comparar. Tal prueba se conoce
en el captulo anterior. No obstante, la realidad social no siempre puede rebanarse como el anlisis de varianza.
convenientemente en dos grupos; los entrevistados no siempre se dividen en forma
tan simple. LA LOGICA DEL ANALISIS DE VARIANZA
Como resultado, el investigador social busca frecuentemente hacer compara-
ciones entre tres, cuatro, cinco o ms muestras o grupos. Como ejemplo diremos que Para realizar un anlisis de varianza, tratamos la variacin total en un conjunto de
puede estudiar la influencia de la identidad racial (negra, blanca u oriental) en la puntajes como si se pudiera dividir en dos componentes: la distancia entre los puntajes
discriminacin laboral, el grado de privacin econmica (grave, moderada o leve) crudos y su media de grupo, conocida como la variacin dentro de los grupos y la
en la delincuencia juvenil, o la clase social subjetiva (alta, media, trabajadora o baja) en la distancia entre las medias de los grupos, conocida como variacin entre grupos.
motivacin para la realizacin. Para examinar la variacin dentro de los grupos, representamos grficamente, en
El estudiante se preguntar si usamos una serie de razones t para hacer la Figura 9.1, los datos de motivacin para la realizacin de los miembros de cuatro
comparaciones entre tres o ms medias mestrales. Supngase por ejemplo, que clases sociales -(1) baja, (2) trabajadora, (3) media y (4) alta- donde XI' X 2 X 3 y
queremos comprobar la influencia de la clase social en la motivacin para la X 4 representan cualquier puntaje crudo de su respectivo grupo y XI .1'2 .1'3 y .K4
realizacin. 'Por qu no comparar por pares todas las posibles combinaciones de constituyen las medias de dichos grupos. En trminos simblicos, vemos que la
clases social:s y tener una razn t para cada comparacin? Usando este mtodo, variacin dentro de los grupos se refiere a la distancia entre XI y XI , entre X 2 y
cuatro muestras generan seis pares de combinaciones para las cuales se deben calcular X2 , entre X 3 y X 3 , y entre X 4 y X4
seis razones t: Tambin podemos visualizar la variacin entre grupos. Con la ayuda de la
Figura 9.2 vemos que el grado de motivacin para la realizacin est en funcin de
l. clase alta contra clase media;
FIGURA 9.1 Representa-

J~
2. clase alta contra clase trabajadora;
3. clase alta contra clase baja; cin grfica de la
variacin dentro de
4. clase media contra clase trabajadora; cuatro grupos de clases
5. clase media contra clase baja; sociales. X2 -X2 Xa-Xa X.-X"
6. clase trabajadora contra clase baja. tra bajadora Media Alta

150
/J'H"t !' ( fe rO!l''''i

Ana1isis de varianza 153


152 La toma de decisiones
entre la variacin total y sus dos componentes, tenemos la suma total de cuadrados

l~
FlGURA 9.2 Representa- (SCtotal), la suma de cuadrados entre grupos (SCent ), y la suma de cuadrados dentro
cin grfica de la de los grupos (SCdentro)'
variacin entre cuatro
grupos de clases sociales. Un ejemplo de investigacin
Xl _ _ X 2" - - Xa _ X.
B~a Trabajadora Media Alta Consideremos una situacin de investigacin en la que se podra calcular cada tipo
la clase social: el grupo de clase alta (X4 ) tiene una mayor motivacin para la realiza- de suma de cuadrados. Supngase que buscamos determinar la influencia de la
cin que el grupo de clase media (X3 ), el cual tiene a su vez mayor motivacin que el orientacin poltica en los mtodos de crianza de los nios. En el captulo anterior
grupos de clase trabajadora (X2 ), cuya motivacin tambin es mayor que la del grupo abordamos este problema mediante una comparacin entre liberales y conservadores.
de clase baja (Xl ). Por contraste, ahora queremos hacer comparaciones que representen varios puntos en
La diferencia entre variacin dentro de los grupos y variacin entre grupos no es la escala poltica. Por ejemplo, podramos comparar la permisibilidad, en la crianza
privativa del anlisis de varianza. Aunque no se nombr como tal, encontramos una de los nios, de conservadores, liberales, radicales y moderados. En tal caso,
distincin semejante en la forma de la razn t, en la cual se compar una diferencia
entre XI y X2 con el error estndar de la diferencia (OdiC), estimacin combinada de Hiptesis Nula: Los conservadores, liberales, radicales y moderados no difieren entre
las diferencias dentro de cada grupo. Por lo tanto, lI = 112 = 113 = 114) s respecto a la permisibilidad en la crianza de los nios.

Xl - X 2 - variacin entre grupos Hiptesis de Investigacin: Los conservadores, liberales. radicales y moderados, di-
t = 0dif -variacin dentro de los grupos l I 7= 112 7= 113 7= 114) ieren entre s respecto a la permisibilidad en la crianza
de los nios.
De igual manera, el anlisis de varianza produce una razn F, cuyo numerador
representa la variacin entre los grupos que se comparan y cuyo denominador Imaginemos que realmente hemos entrevistado muestras aleatorias de cuatro
contiene una estimacin de la variacin dentro de estos grupos. Como veremos, la conservadores, cuatro liberales, cuatro radicales y cuatro moderados, para determinar
razn F indica la magnitud de la diferencia entre los grupos en relacin con la sus mtodos de crianza de los nios. Imaginemos adems que hemos obtenido los
magnitud de la variacin dentro de cada grupo. Como sucedi con la razn t, puntajes de permisibilidad que se ven en la Tabla 9.1 (los puntajes van desde 1, que
mientras mayor sea la razn F (mientras mayor sea la variacin entre los grupos en representa poca permisibilidad, hasta 5, que representa mucha permisibilidad).
relacin con la variacin dentro de ellos), mayor ser la probabilidad de rechazar la
hiptesis nula y aceptar la hiptesis de investigacin. La suma de cuadrados dentro de los grupos

La suma de cuadrados dentro de los grupos nos da la suma de las desviaciones


LAS SUMAS DE CUADRADOS de cada puntaje crudo con su media muestral elevadas al cuadrado. Por lo tanto, la
suma de cuadrados dentro de los grupos puede obtenerse por la simple combinacin
El concepto de la suma de cuadrados est en el centro del anlisis d~ v~~anza y de las sumas de cuadrados dentro de cada mu"estra. Por frmula,
representa el paso inicial para medir la variacin total, as como la vanaClan entre
los grupos y dentro de ellos. Saber que slo el rtulo "suma de los cuadra.dos" es
nuevo para nosotros, puede ser una agradable sorpresa. El concepto mismo se donde
present en el Captulo 5 como un paso importante en el procedimiento para x = un puntaje de desviacin (X-X)
obtener la desviacin estndar. En ese contexto aprendimos a encontrar la suma de
los cuadrados elevando al cuadrado las desviaciones de la media de una distribucin Aplicando la frmula SCdentro a los datos de la Tabla 9.1, vemos que
y sumando estos puntajes de desviacin (1:x 2 ). Este procedimiento eliminaba los SCdentro = 1,00 + 2.00 + 0,74 + 2,74
signos menos pero segua proporcionando una slida base matemtica para la = 6.48
desviacin estndar. Suma de cuadrados entre los grupos
Cuando se aplica a una situacin en la que se estn comparando grupos, existe
La suma de cuadrados entre los grupos representa la suma de las desviaciones
ms de un tipo de suma de cuadrados, aunque cada tipo representa la suma de
de cada media muestral de la media total elevadas al cuadrado. En consecuencia,
desviaciones de la media elevadas al cuadrado. En correspondencia con la distincin

L " _-:i.
~-_ .. _------ .

154 Lo toma de decisiones Anlisis de varianza 155

debemos determinar la diferencia entre cada media muestral y la media total (X - La suma total de cuadrados
Xto tal),elevar al cuadrado este puntaje de diferencia., multiplicar por el nmero de
puntajes en la muestra y sumar estas cantidades. La frmula de definicin para la Puede demostrarse que la suma total de cuadrados, la suma de las desviaciones de
suma de cuadrados entre los grupos es cada puntaje crudo de la media total del estudio elevadas al cuadrado. es igual a una
combinacin de sus componentes dentro y entre los grupos. La sllma tot,\ de
SCent = k(X - Xtotal )2 N
cuadrados para los datos de la Tabla 9.1 se puede encontrar como sigue:
donde
x = cualquier media muestral SCtotal = SCent + SCdentro
= 0,48 + 6,48
= 6,96
~otal = la media total (la media de todos los puntajes crudos de la totalidad de las
muestras combinadas) La suma total de cuadrados tambin se puede definir en trminos de la ecuacin
N = el nmero de puntajes de cualquier muestra
SCent = la suma de cuadrados entre los grupos donde

El procedimiento para encontrar la suma de cuadrados entre los grupos para los x = un puntaje crudo en cualquier muestra
datos de la Tabla 9.1 puede resumirse como sigue:
Xtolal = la media total (la media de todos los puntajes crudos de todas las
muestras combinadas)
TABLA 9.1 Puntajes' Ccnser1JOdores (N = 4) Moderados (N = 4)
de pennisibilidad en - - - - - - - - - - ' - - - x' SCto lal = la suma total de cuadrados
la crianza de lo~ X X x' X' x _
nios para rnuestra~ 1 -0,50 0,25 -1 1 Utilizando la frmula anterior, restamos la media total (Xtotal) de cada puntaje
de conservadores, rno- 2 0,50 0,25 1 1
-0,50 0,25 O O
crudo del estudio (Xl. elevamos al cuadrado, los puntajes de desviacin que resulten
derados, liberales y 1
radicales IX1 = 0,50 0,25
Ix' = 1,00
O
Ix' =
O
2,00
y los sumamos.
Para los datos de la Tabla 9. \.
X, = t = 1,5 )(, = ! = 2,0
selot l = (l -\,75)2 + (2 - 1,75)2+ (l -1,75)2 + (2 -1,75)2
+ (l - 1,75)2+ (3 -1,75)2 + (2 - 1,75)2
Liberales (N = 4) Radicales (N = 4) + (2 - \,75)2 + (i - 1,75)2 + (2 - 1,75)2
+ (2 -1,75)2+ (2 -1,75)2+ (3 -1,75)2
x x' X, x x' + (2 - 1,75)2 + (l - 1,75)2+ (l - 1,75)2
-0,75 0,56 1,25 1,56 =(-0,75)2+ (0,25)2 + (-0,75)2 +(0,25)2+ (-0.75)2
0,25 0,06 0,25 0,06 + (1,25)2 + (0,25 2 + (0,25)2 + (-0,75)2 + (0,25)'
0,25 0,06 -0,75 0,56 + (0,25)2 + (0,25)2 + (0,25)2 + (0,75)2 +
0,25 0,06 -0,75 0,56 + (-0,75)2
Ix' = 0,74 Ix' = 2,74 = 0,56 + 0,06 + 0,56 + 0,06 + 0,56 + 1,56 + 0.06
X3 = t = 1,75 X, = t = 1,75 + 0,06 + 0,56 + 0,06 + 0,06 + 0,06 + 1.56 + 0,06
X,o,al = 1,75 + 0,56 + 0,56
= 6,96
SCent = (1,50 - 1,75)'4 + (2,0 - 1,75)'4
+ (1,75 - 1,75)24 + (1,75 - 1,75)'4
= (- 0,25)2 4 + (0,25)24 + (0)4 + (0)4 Cmo calcular sumas de cuadrados
= (0,06)4 + (0,06)4 + (0)4 + (0)4
= 0,24 + 0,24 Las frmulas de definicin para las sumas de cuadrados. dentro de los grupos, entre
= 0,48 los grupos y totales, en la forma en que se presentaron anterio'rmente, se basan en el
*''''*,'!r'~

156 La toma de decisiones Anlisis de varianza 157

manejo de puntajes de desviacin, requisito difcil y demorado. Afortunadamente, pode- La suma de cuadrados cntn: los grupos puede obtenerse por medio de la siguiente
mos usar en su lugar las frmulas de clculo que se indican ms adelante, las cuales son frmula:
mucho ms simples para obtener un resultado en forma de razn F, que es idntica
(exceptuando los errores de redondeo) a la que obtuvimos con las frmulas de
definicin mucho ms largas.
Se
ont
=' [L (INX)'] _(IX,o,.')'
N'o'"1
Los puntajes crudos de la Tabla 9.1 se han colocado en la Tabla 9.2 con el fin donde
de ilustrar el uso de las frmulas de clculo de la suma de cuadrados.
La frmula para calcular la suma total de cuadrados es la siguiente: \' = el nmero total de puntajes en cualquier muestra
Al
"to tal = el nmero total de puntajes en todas las muestras combinadas
Sr'-'tolal-L.A-tolal-
- ... V2 (LXtotal)2
'"
"to tal Por ejemplo, en la Tabla 9.2,
donde
(6)' (8)' (7)' (7)' (28)'
N tOla' = el nmero total de puntajes en todas las muestras combinadas. SCont =4 +4 + 4 + 4-16

Desarrollando esta frmula para los datos de la Tabla 9.2, 36 64 49 49 784


=4+4+4+4-r
S~otal = (lO + 18 + 13 + 15) _ (6 + 8 + 7 + 7)2 = 9,0 + 16 + 12,25 + 12,25 - 49,0
4+4+4+4 = 49,S - 49,0
= 56 _ (28)2 = 0,50
16
E virtud de que la suma ele cuadrados dentro de los grupos es ms lenta para
= 56 _ 784
16 ca~cularse,podemos sacar ventaja del hecho de que la suma total de los cuadrados es
= 56 - 49 ioual
o a una combinacin de sus dos componentes. Por lo tanto,
=7
SCdontro = SCtotal -- SConl
TABLA 9.2 Puntajes de Conservadores (N = 4) Moderados (N = 4)
pennisibilidad en la EI1 el presente caso,
crianza de los nios para X, X' X2 X'
muestras de conservadores, SCdontro = 7,00 -0,50
1 1 1 1
liberales, radicales y 2 4 3 9
= 6,50
moderados. 1 1 2 4 La siguicnte frmula para la suma de cuadrados dentro de los grupos puede servir
2 4 2 4
IX = 6 IX2 - 10 IX = 8 IX 2 - 18 como~ verificacin de errores de clculo:
XI =!=1,5 X2 = , = 2,0
Liberales (N = 4) Radicales (N = 4)
X, X2 X. X2 donde

1 1 X = un Funtaje crudo en cualquier muestra


3 9
2 4 2 4
2 4 1 1
N = el nmero total de pUl1tajes en cualquier llluestra
2 4 I
1 1
IX =7 IX' - 13 IX =7 IX' = 15 Sustituycndo los datos de la Tabla 9.2.
X3 = t= 1,75 X.= t = 1,75
X"."' = 1,75 I
SCdentro = [ 10 - 4(6)'] + [ 18 - 4(81'] +

. ~n
I l
_....3:.-.

(A" '_.c .. t. 'e


158 La toma de decisiones Anlisis de varianza 159

+ [13 - (~2J + [15 - (~2J SCdontro = la suma de cuadrados dentro de los grupos
gldontro = los grados de libertad dentro de los grupos
= (10 - 346) + (18 _6:) Pero an debemos obtener los grados de libertad apropiados.
Para la media cuadrtica entre los grupos,
+ (13 - ~9) + (15 _ ~)
= (10 - 9,0) + (18 - 16,0) + (13 - 12,25) glont=k-
+ (15 - 12,25)
= 1,0 + 2,0 + 0,75 + 2,75 donde
= 6,50
k = el nmero de muestras
LA MEDIA CUADRATICA Para encontrar la media cuadrtica dentro de los gmpos,
gldontro = Ntotal - k
Como es de esperarse de una medida de variaclOn, el valor de las sumas de los
donde
cuadrados tiende a crecer a medida que la variacin aumenta. Por ejemplo, SC =
10,9 probablemente indica mayor variacin que SC = 1,3. Sin embargo, la suma de N to tal = el nmero total de puntajes en todas las muestras combinadas
los cuadrados tambin crece con el aumento de la magnitud de la muestra, la manera
k = el nmero de muestras
que N = 200 producir un SC mayor que N = 20. Como resultado, la suma de los
cuadrados no puede considerarse una medida "pura" de variacin totalmente satis- Ilustrando con los datos de la Tabla 9.2, para los cuales SCont 0,50 Y
factoria, a no ser, por supuesto, que podamos encontrar una forma de controlar el SCd ontro = 6,50, calculamos nuestros grados de libertad como sigue:
nmero de puntajes involucrados.
Afortunadamente existe tal mtodo en una medida de variacin conocida como g10nt = 4 - 1
= 3
la media cuadrtica (o varianza), que obtenemos dividiendo SCont o SCdontro
mediante los grados de libertad apropiados (en el Captulo 5 dividimos igualmente y
rx 2 por N como un paso hacia la obtencin de la desviacin estndar). Por lo
tanto, gldontro = 16 - 4
= 12
C - SCont
. ont - - -
glont Ahora estamos preparados para obtener las medias cuadrticas

donde pCont = 0;0

p Cont = la media cuadrtica entre los grupos = 0,17


SCont = la suma de cuadrados entre los grupos
y
glont = los grados de libertad entre los grupos
y Ji
e-dentro = 12
6,50

= 0,54
p Cdontro = SCdontro
gldontro
RAZON O COCIENTE F
donde
Como se anot anteriormente. el anlisis de varianza produce una, razn F en la que
pCdentro = la media cuadrtica dentro de los grupos se comparan la variacin entre los grupos y la variacin dentro de los grupos. Ahora
._-------------------------------------~ ,---_% ..
160 La lonul d~ d~cision~J 1III7iJiJ de IIGrianza 161

estamos en condiciones de especificar el grado de cada tipo de variacin tal como se TABLA 9.3 Tabla de
gl se Me F
Fuente de la variacin
midi por las medias cuadrticas. Por 10 tanto, la razn F puede considerarse como resumen del anlisis de
un indicador de la magnitud de la media cuadrtica entre los grupos en relacin Con varianza para los datos Entre grupos 3 0,50 0,17 0,31
de la Tabla 9.2. Dentro de los grupos 12 6,50 0,54
el tamao de la media cuadrtica dentro de los grupos, o

F = IlCont Los resultados de nuestro anlisis de varianza se .pueden colocar en una "tabla
de resumen" como la que se muestra en la Tabla 9.3. Se ha convertido en un
Il Cdontro
procedimiento estndar resumir de esta manera un an~lisis de varianza.
Para la Tabla 9.2,
Una ilustracin
F = 0,17
0,54 Para ilustrar paso a paso un anlisis de varianza, supongamos que deseamos compro-
= 0,31 bar la lptesis de que el coeficiente intelectual (C.I.) vara segn la clase social. Por
Habiendo obtenido una razn F debemos detenninar ahora si es lo suficien- 10 tanto,
temente grande para rechazar la hiptesis nula y aceptar la hiptesis de investigacin. Hiptesis Nula: Las clases alta, media y baja, no difieren respecto al coeficiente
Difieren los conservadores, los liberales, los radicales y los moderados con respecto (tI = 112 = 1l3) intelectual.
a la permisibilidad en la crianza de los nios? Mientras mayor sea nuestra razn F
calculada (mientras mayor sea la MCont y menor la MCdontro), ms probabilidades Hiptesis de Investigacin: Las clases alta, media y baja, difieren respecto al coefi-
tendremos de obtener un resultado estadsticamente significativo. (tI * 112 *Ild ciente intelectual.
Pero, cmo reconocer exactamente una razn F significativa? Recordemos
Digamos que, para investigar esta hiptesis, establecemos el niv.el de confianza
que, en el Captulo 8, la razn t obtenida con los grados de libertad apropiados, se
de 0,05 como criterio significativo. Imaginemos que podemos medir el C.1. de los
comparaba con una tabla de razones t para el nivel de confianza de 0,05, etc. miembros de tres muestras de clases sociales: alta, media y baja. Se supone que
Igualmente, ahora debemos interpretar la razn F que hemos calculado, con la ayuda resultan los siguientes puntajes de C. l.:
de la Tabla D al final del libro. La Tabla D contiene una lista de razones F
significativas -razones F que debemos obtener para poder rechazar la lptesis I nula a Media (N= 5)
Alta (N = 5)
los niveles de confianza de 0,05 y 0,01. Al igual que en caso de la razn t el valor X2
exacto de F que debemos obtener depende de sus grados de libertad asociados. Por XI X2 X2
lo tanto, nuestro uso de la Tabla D se inicia buscando los dos valores g1, los grados de 16900 120 14400
130
15625 115 13225
libertad entre los grupos y los grados de libertad dentro de los grupos. Los 125 13225
130 16900 115
grados de libertad asociados con el numerador (g1ont) se han indicado en la parte supe- 14400 110 12100
.120
rior de la pgina, mientras que los grados de libertad asociados con el denominador 14884 112 12544
122
(gldontro) se han colocado al lado izquierdo de la tabla. El cuerpo de la Tabla D U = 627 U 2 = 78709 U = 572 U2 =65494
presenta razones F significativas a los niveles de confianza de 0,05 y 0,0 l. XI = 125,4 X2 = 114,4
Para los datos de la Tabla 9.2, hemos encontrado que glont = 3 Ygldontro = 12. As,
en la Tabla D vamos hacia la columna marcada gI = 3 y desde ese punto Baja (N = 5)
continuamos hacia abajo hasta llegar a la columna marcada gl = 12. Mediante este X2 X2
procedimiento encontramos que una razn F significativa al nivel de confianza de
0,05 debe ser por lo menos 3,49 y al nivel de confianza de 0,01 debe ser igualo 110 12100
100 10000
mayor que 5,95. La razn F que hemos calculado es de slo 0,31. Como resultado, 90 8100
no tenemos ms alternativa que aceptar la hiptesis nula y atribuir nuestra diferencia 100 10000
entre medias muestrales, sobre la permisibilidad en la crianza de los nios, al error -& 7225
U = 485 !.X2 = 4"7425
de muestreo ms que a una diferencia real en las poblaciones de conservado-
)(,- 97,0
res, liberales, radicales y moderados.
,...------------~- .
'

162 La tOrntl de decisiones A ntlisis de varianza 163

El procedimiento, paso por paso, para verificar la signiflcancia estadstica de la dife- = [ 78709 - (6~7)2] + [ 65494 _ (5~2)~
rencia obtenida entre las medias es como sigue.
+ [ 47425 _ (4~5)2]
PASO 1: Encontrar la media de cada muestra
- XI - X2 - X3 = [ 78709 - 393 129] + [ 65494 _ 327;84]
X I =--
N
X2 =--; X3 =--; 5
627 572 485 + [ 47425 _ 235 225]
=5 =5 =5 5
97,0 = [78709 - 78625,8] + [65494 - 65436,8]
= 125,4 = 114,4 =
+ [47425 - 47045,0]
Ntese que las diferencias entre las medias existen! siendo la tendencia que los pun- = 83,2 + 57,2 + 380,0
tajes de C.I. aumenten de la clase baja a la media o a la alta. = 520,40

PASO 2: Encontrar la suma total de cuadrados PASO 5: Encontrar los grados de libertad entre los grupos

sCt - I:X' (I:Xtota1 )2 glent = K - 1


ota1 - total- N =3 - 1
tota1
(627 + 572 + 485)2 =2
= (78709 + 65494 + 47425) - 15
PASO 6: Encontrar los grados de libertad dentro de los grupos
= 191628 _ (1684)2
15
gldentro = Ntotal -K
= 191628 _ 2835856 = 15 - 3
15
= 12
= 191628 - 189057,07
= 2570,93 PASO 7: Encontrar la media cuadrtica entre grupos
PASO 3: Encontrar la suma de cuadrados entre los grupos /lC _ SCent
,.. ent -
glent
SC
ent
= [L (X)2]
N
_ (~XIO"1)2
Nlotal
2050,53
2
(627)2 (572)2 (485)' (1684)2
=-5-+-5-+-5--~ 1025,27

_ 393129 327184 + 235225 _ 2835856 PASO 8: Buscar la media cuadrtica dentro de los grupos
- 5 + 5 5 15
= 78625,8 + 65436,8 + 47045,0 - 189057,07 /lC = SCdentro
,.. dentro l
= 191107,60 - 189057,07 g dentro
= 2050,53 520,40
=-1-2-
PASO 4: Encontrar la suma de los cuadrados dentro de los grupos
= 43,37
SCdentro = SCtotal - SCent
= 2570,93 - 2050,53 PASO 9: Obtener la razn F
= 520,40

SCde ntro= L[~~X2) - U:-;)1


.__ ._-_._-_._--~-------------------------------------""" ...- -..................1
.,

~
I 164 La tomo de decisiones Anlisis de varianza 165

.. 1025,27 DSH = qakCdentro


1,/ 43,37 n
23,64
!:
ji: donde
PASO 10: Comparar la razn F obtenida cen la razn F correspondiente
en la Tabla D qa = un valor de la tabla a un nivel de confianza dado para el nmero
mximo de medias que se estn comparando
razn F obtenida = 23,64 ,Cd en tro = la media cuadrtica dentro de los grupos (que se obtuvo del
razn F de la tabla = 3,88 anlisis de varianza)
2 n = el nmero de entrevistados en cada grupo (supone el mismo
gl =
12 nmero en cada grupo)
p= 0,05
A diferencia de la razn t, la DSH toma en cuenta que la probabilidad del error
Como muestra el Paso 1U, para rechazar la hiptesis nula al nivel de confianza alpha se incrementa a medida que aumenta el nmero de medias que se est
de 0,05 con 2/12 grados de libertad, la razn calculada F debe ser al menos 3,88 comparando. Dependiendo del valor de qa, mientras mayor sea el nmero de medias,
Debido a que obtuvimos una razn F de i3,64, podemos rechazar la hiptesis nula y ms "conservadora" se volver la DSH en cuanto al rechazo de la hiptesis nula.
aceptar la hiptesis de investigacin. Especficamente, concluimos que las clases baja, Como resultado, se obtendrn menos diferencias significativas con la DSH (ue con la
media y alta, realmente difieren respecto al c.1. razn t. Adems, una diferencia entre medias ser posiblemente ms significativa en
una comparacin mltiple, entre tres medias, que en una comparacin mltiple entre
UNA COMPARACION cuatro o cinco medias.
MULTlPLE DE MEDIAS Para ilustrar el uso de la DSH, regresemos a un ejemplo anterior en el cual se
encontr que las clases sociales diferan en relacin con el C.I. Ms especficamente,
Una razn F significativa nos informa de una diferencia global entre los grupos que se obtuvimos una razn F significativa (F = 23,64) para las siguientes diferencias entre
estn estudiando. Si estuviramos investigando una diferencia entre slo dos medias las muestras de clase alta, media y baja:
muestrales, no se necesitara ningn anlisis adicional para interpretar nuestro re-
sultado: en tal caso, la diferencia obtenida es estadsticamente significativa o no, x't (alta) = 125,4
dependiendo de la magnitud de nuestra razn F. Sin embargo, cuando encontramos X2 (media) = 114,4
una F significativa para las diferencias entre tres o ms medias, puede ser importante X3 (baja) = 97,0
determinar exactamente dnde estn las diferencias significativas. Por ejemplo, en la
ilustracin anterior, descubrimos diferencias de C.1. estad sticamente significativas PASO 1: Construir una tabla de diferencias entre medias ordenadas. Para los
entre tres cla~s sociales. Considrense las posibilidades l3lle presentl!..,. esta razn F presentes datos, el orden jerrquico de las medias (de menor a mayor) es 97,0, 114,4
significativa: Xl (alta) puede diferir significativamente de X 2 (media); Xl (alta) puede y 125,4. Estos puntajes medios se colocan en forma de tabla de manera que la
diferir significativamente de X3 (baja); o X2 puede diferir significativamente de diferencia entre cada par de medias se muestran dentro de una tabla. As, la
X3 (baja). diferencia entre X; (alta) y 'X3 (baja) es 28,40; la diferencia entre XI (alta y %2
Como se explic anteriormente en este captulo, obtener una razn t para cada (media) es 11,0; y la diferencia entre X 2 (media) y X3 (baja) es 17,4.
comparacin -XI contra %2" XI contra X3 .. X2 contra X 3 - implicara una gran
cantidad de trabajo y tambin aumentara la vrobabilidad del error alpha. Afortuna-
damente se han desarrollado muchas otras pruebas estadsticas para hacer compara- X:. = 97,0 X, = 114,4 Xl = 125,4
ciones mltiples despus de una razn F significativa, con el fin de sealar dnde se 5{, - 17,4 28,4
encuentran las diferencias significativas entre medias. Presentaremos la DSH de
Tukey -diferencia significativa honesta (honestly significant difference HSD- una de X, - - 11,0
las ms tiles pruebas de comparacin mltiple.
La DSH de Tukey se usa slo despus de haber obtenido una razn F
X, - - -
significativa. Por el mtodo de Tukey comparamos la diferencia entre dos puntajes
medios cualquiera con la DSH. Una diferencia entre medias es estadsticamente PASO 2: Encontrar qa en la Tabla 1. Para encontrar qa en la Tabla 1, al final del
significativa slo si es igualo mayor que la DSH. Por frmula, libro, debemos tener (a) los grados de libertad (gl) para ,Cdentro, (b) el mayor

._~ ..
166 La loma de decisiones Anlisis de varianza 167

nmero de medias (k), y (c) un nivel de confianza, bien sea 0,01 o 0,05. Del anlisis RESUMEN
de varianza sabemos ya que gl = 12. Por lo tanto, seguimos la columna de la
izquierda de la Tabla 1 hasta llegar a los 12 grados de libertad. Posteriormente, ya El anlisis de varianza puede usarse para hacer comparaciones entre tres o ms
que estamos comparando por pares tres puntajes medios, nos movemos a travs de la medias muestrales. Esta prueba origina una razn F cuyo numerador representa la
Tabla 1 hasta un nmero mximo de medias (k) igual a 3. Suponiendo un nivel de variacin entre los grupos y cuyo denominador contiene una estimacin de la variacin
confianza de 0,05 encontramos que qO,05 = 3,71.
dentro de los grupos. La suma de cuadrados representa el paso inicial para medir la
PASO 3: Encontrar la DSH variacin. Sin embargo, est muy afectada por la magnitud de la muestra.
Para superar este problema dividimos SCent o SCdentro entre los grados de libertad
correspondientes para obtener la media cuadrtica. F indica el tamao de la media
DSH = qO ,05 ~ ,uCdentro
n cuadrtica entre los grupos con respecto al tamao de la media cuadrtica dentro de
los grupos. Interpretamos nuestra razn F calculada comparndola con la razn F
= 377
,
~43,37
5 correspondiente en la Tabla D. Sobre esa base decdimos si rechazamos o aceptamos
3,77 V8,67 nuestra hiptesis nula. Despus de obtener una F significativa podemos determinar
3,77(2,94) exactamente dnde estn las diferencias significativas aplicando el mtodo de Tukey
11,08 para la comparacin mltiple de medias.

PASO 4: Comparar DSH con la tabla de las diferencias entre medias. Para que se la PROBLEMAS
considere estadsticamente significativa, cualquier diferencia entre medias que obten-
gamos debe ser igual o mayor que la DSH. Refirindonos a nuestra anterior tabla l. Comprobar, en las siguientes muestras aleatorias de clases sociales, la hiptesis
de diferencias entre medias, vemos que la diferencia de C.l. de 28,4 entre Xl (clase nula de que la sociabilidad no vara segn la clase social. (Nota: Los puntajes ms
alta) y Xl (clase baja) y la diferencia de c.l. de 17,4 entre X 2 (clase media) y Xl altos indican mayor sociabilidad.)
(clase baja) son mayores que la DSH = 11,08. Como resultado, concluimos que estas
diferencias entre las medias son estadsticamente significativas al nivel de confianza
: de 0,05. Slo la diferencia de 11,0 entre x; y Xl - no es igual ni mayor que la DSH- Baja Trabajadora Media Alta
y, por lo tanto, no es estadsticamente significativa. _. . .. 8 7 6 5
4 3 5 2
7 2 5 1
REQUISITOS PARA EL USO DE LA RAZON F 3
8 8 4

El anlisis de varianza deber hacerse slo despus de que el investigador haya


tomado en cuenta los siguientes requisitos:
2. Comprobar la significancia de las diferencias entre las medias de las siguientes
l. Una comparacin entre tres o ms medias independientes: la razn F se muestras aleatorias de puntajes:
emplea usualmente para comparar tres o ms medias de muestras inde-
pendientes. No se puede comprobar una sola muestra colocada en un diseo
de panel. Sin embargo, es posible obtener una razn F en lugar de una razn
Muestra 1 Muestra 2 Mue~tra 3
r cuando se hacen comparaciones entre dos muestras. Para el caso de dos
muestras F = t 2 Y se obtienen resultados idnticos. 2 5 8
2. Los datos de intervalo: para realizar un anlisis de varianza suponemos que 1 4 9
hemos logrado el nivel de medicin por intervalos. Preferentemente, no se 3 3 7
3 4 8
usarn datos categorizados o colocados por rango.
3. El muestreo aleatorio: debimos haber tomado nuestras muestras aleatoria-
mente de una poblacin de puntajes.
4. Una. distribucin normal: suponemos que la caracterstica muestral que 3. Comprobar la significancia de las diferencias entre las medis de--Ias siguientes
medimos est distribuida normalmente en la poblacin original. muestras aleatorias de puntajes:
168 La tOmD de decisiones

i Muestra 1 Muestra 2 Muestra 3


!.
12 6 3
' 6 5 2
i 8 7 5
I
fi
7 5 3
t: 6 1 1

4. Comprobar la significancia de las diferencias entre las medias de las siguientes


muestras aleatorias de puntajes:

Muestra 1 Muestra 2 Muestra 3


5 4 3
5 3 5
4 2 1
3 2 3
6 1 3 Como se indic en los Captulos 8 y 9, debemos exigir bastante del investigador
social que emplea una razn t o un anlisis de varianza para hacer comparaciones
entre sus muestras. Cada una de estas pruebas de significancia tiene una lista de
S. Realizar una comparaclOn mltiple de medias siguiendo el mtodo de Tukey para requisitos que incluye la suposicin de que la caracterstica que se estudia est
determinar exactamente dnde ocurren las diferencias significativas del problema distribuida normalmente en una determinada poblacin. Adems, cada prueba exige
anterior. el nivel de medicin por intervalos, de manera que se le pueda asignar un puntaje a cada
6. Comprobar la significancia de las diferencias entre las medias de las siguientes miembro de la muestra. Cuando una prueba de significancia, tal como la razn o
muestras aleatorias de puntajes: cociente t o el anlisis de varianza, requiere de (1) normalidad y (2) de una medida de
nivel por intervalos, a la cual nos referimos como una prueba paramtrica. I
Qu sucede con el investigador social que no puede emplear una prueba
Muestra 1 Muestra 2 Muestra 3 Muestra 4 paramtrica, esto es, que, o no puede suponer honestamente la normalidad o cuyos
1 3 4 6 datos no se sujetan a una medida de nivel por intervalos? Supongamos, por ejemplo.
1 2 4 6 que est trabajando con una distribucin sesgada, tal como el ingreso anual, o con
3 2 2 5
4 1
datos que han sido categorizados y contados (nivel nominal) o colocados por rangos
2 5
2 5 3 4 (nivel ordinal). Cmo se las arregla este investigador para hacer comparaciones entre
1 5 3 6 las muestras sin violar los requisitos de una prueba determinada?
Afortunadamente, los estadsticos han desarrollado varias pruebas no param-
tricas de significancia -pruebas cuya lista de requisitos no incluye una distribucin
normal o el nivel de medicin por intervalos. Para comprender la importante
7. Realizar una comparacin mltiple de medias segn el mtodo de Tukey para deter- posicin de las pruebas no paramtricas en la investigacin social, debemos entender
minar exactamente dnde ocurren las diferencias significativas del Problema 6. tambin el concepto estadstico de potencia. La potencia de una prueba es la
probabilidad de rechazar la hiptesis nula cuando sta es realmente falsa y debe ser
rechazada.
La potencia vara de una prueba a otra. Las pruebas ms poderosas -aqullas
que ms probablemente rechazarn la hiptesis nula cuando sta sea falsa- son las

1 Esta designacin se basa en el trmino "parmetro'", que se refiere a cualquier caracterstica de una poblacin.

169
170 Lo toma de decisiones ehi cuadrada y otras pruebas no paramtricas / 7/

pruebas que tienen los requisitos ms fuertes o los ms difciles de satisfacer. pedido investigar una vez ms la relacin entre la orientacin poltica y la permisi-
Generalmente, estas son pruebas paramtricas tales como t o F las cuales suponen bilidad en la crianza de los nios. Ms que llevar una cuenta de los liberales y los
que se han logrado datos por intervalos y que las caractersticas en estudio se hallan conservadores, en trminos de su grado de permisibilidad, podramos categorizar los
distribuidas normalmente en sus poblaciones. En contraste, las alternativas no para- miembros de nuestra muestra estrictamente sobre la base de uno u otro; esto es,
mtricas tienen exigencias menos estrictas y constituyen pruebas de significancia podramos decidir que o son rgidos o que no lo son. Por lo tanto,
menos poderosas que sus contrapartes paramtricas. Como resultado, suponiendo que
la hiptesis nula sea falsa (y se mantengan constantes otros factores tales como el Hiptesis Nula: La frecuencia relativa de los liberales que no son rzgidos es la misma
tamao de la muesha), ser ms probable que un investigador rechace la hiptesis que la de los conservadores que son rgidos.
nula mediante el uso apropiado de F o t que de una alternativa no paramtrica. Hiptesis de Investigacin: La frecuencia relativa de los liberales que no son rgidos
Es natural que los investigadores sociales ansen rechazar la hiptesis nula no es la misma que la de los conservadores que son
cuando sta es falsa. Como resultado, muchos de ellos preferiran emplear ideal- rzgidos.
mente pruebas de significancia paramtricas. Sin embargo, como ya se anot,
frecuentemente no es posible satisfacer los requisitos de las pruebas. paramtricas. En CALCULO DE CHI CUADRADA
primer lugar, muchos de los datos de la investigacin social estn al nivel de La prueba de significancia chi cuadrada tiene que ver esencialmente con la distincin
medicin ordinal o nominal. En segundo lugar, no siempre podemos estar seguros de entre las frecuencias esperadas y las frecuencias obtenidas. Las frecuencias esperadas
que las caractersticas que se estudian estn de hecho distribuidas normalmente en la (fe) se refieren a los trminos de la hiptesis nula, de acuerdo con la cual se espera
poblacin. que la frecuencia relativa (o proporcin) sea la misma de un grupo a otro. Por
No es posible conocer la potencia de una prueba estadstica cuando se han ejemplo, si se espera que el 50% de los liberales no sea rgido, entonces tambin
violado sus requisitos. Por lo tanto, los resultados de una prueba paramtrica cuyos esperamos que el 50% de los conservadores tampoco lo sea. En contraste, las
requisitos no se han llenado carecen de interpretacin significativa. Bajo tales frecuencias' obtenidas (fa) se refieren a los resultados que obtenemos realmente al
condiciones, muchos investigadores sociales recurren sabiamente a las pruebas de
realizar un estudio y, por lo tanto, pueden variar o no de un grupo a otro. Slo si la
significancia no paramtricas.
dIferencia entre las frecuencias esperadas y obtenidas es lo suficientemente grande,
Este captulo presenta algunas de las pruebas de significancia ms conocidas: la
rechazamos la hiptesis nula y decidimos que existe una diferencia poblacional
chi cuadrada, la prueba de la mediana, el anlisis de varianza en una direccin de verdadera.
Kruskal-Wallis y el anlisis de varianza en dos direcciones de Friedman. Continuando con el mismo ejemplo, supngase que furamos a extraer muestras
CHI CUADRADA COMO UNA aleatorias de 20 liberales y 20 conservadores, quienes podran categorizar como no
PRUEBA DE SIGNIFICANCIA rgidos o como rgidos respecto a los mtodos de crianza de los nios. La Tabla 10_1
muestra las frecuencias obtenidas que podran resultar.
La prueba de significancia no paramtrica ms popular en la investigacin social se Los datos de la Tabla 10.1 indican que 5 de 20 liberales y l de 20
conoce como chi cuadrada (Xl). Como veremos, la prueba Xl se usa para hacer conservadores usaron mtodos no rgidos de crianza de los nios. Estos resultados se
comparaciones entre dos o ms muestras. pueden volver a escribir en una tabla 2 X 2 (2 renglones por 2 columnas), en la que
Como en el caso de la razn t y el anlisis de varianza, hay una distribucin se presentan las frecuencias obtenidas para cada casilla y entre parntesis se mues-
muestral para chi cuadrada que se puede usar para estimar la probabilidad de tran sus frecuencias esperadas (ver Tabla 10.2). Ntese que estas frecuencias espera-
obtener por mera casualidad un valor de chi cuadrada significativo ms que por das se basan en la operacin de la simple casualidad, suponiendo por tanto que la
diferencias poblacionales reales. Sin embargo, a diferencia de las anteriores pruebas hiptesis nula es correcta. Ntese tambin que los totales marginales de la Tabla
de significancia, chi cuadrada se emplea para hacer comparaciones entre frecuencias 10.2 (que se obtienen sumando las frecuencias por casilla en una u otra direccin)
ms que entre puntajes medios. Como resultado la hiptesis nula para la prueba c-hi estn dados para los renglones (15 y 25) y las columnas (20 y 20). El nmero total
cuadrada establece que las poblaciones no difieren con respecto a la frecuencia de (N = 40) puede obtenerse sumando los marginales de rengln o de columna.
ocurrencia de una caracterstica dada, en tanto que la hiptesis de investigacin dice Habindose dado las frecuencias obtenidas y esperadas para el problema por
que las diferencias muestrales reflejan diferencias poblacionales reales en cuanto a la resolver, ahora podemos obtener el valor de chi cuadrada por la frmula
frecuencia relativ" de una caracterstica dada.
N' - r.)2
Con el fin de ilustrar el uso de chi cuadrada para los datos de frecuencia (o X2 = vo e

I
para proporciones que pueden reducirse a frecuencias), imaginemos que se nos ha fe
._------------------------------------""'-"-,,-
J 72 La toma de decisiones ehi cuadrada y otras pruebas no paramtricas 173

TABLA 10.1 Frecuencias


Orientacin politica.
= 6,25 + 6,25 + 6,25 + 6,25
obtenidas en lU1 estudio . 7,5 7,5 12,5 12,5
de pennisibi6dad segn Mtodos de crianza Liberales Conservadores =0,83 + 0,83 + 0,50 + 0,50
la orientacin poltica de los .nios r. r. =2,66
~-:-:---------~-----------
:'1
I Rgidos 5 10
As encontramos que x2 = 2,66. Para interpretar este valor de chi cuadrada,
No rgidos 15 10
Total 20 20 debemos determinar an el nmero apropiado de grados de libertad. Esto puede
hacerse por medio de tablas, teniendo cualquier nmero de renglones y columnas y
empleando la frmula
TABLA 10.2 Los datos
de la Tabla 10.1 colocados Liberales conservadores-
gl = (r - 1)(c - 1)
en una Tabla 2 X 2 Frecuencia Frecuencia
obtenida esperada
donde
No 5 (7,5) 10 (7,5) 15
rgidos r = el nmero de renglones en la tabla de frecuencias obtenidas
Un total e = el nmero de columnas en la tabla de frecuencias obtenidas
,,-marginal gl = los grados de libertad
Rgidos 15 (12,5) 10 (12,5) 25
Puesto que las frecuencias obtenidas en la Tabla 10.2 forman dos renglones y
dos columnas (2 X 2),
20 20 N = 40
gl = (2 - 1)(2 - 1)
= (1)(1)
= 1
donde
Consultando la Tabla E al final del texto, encontramos una lista de valores de chi
cuadrada que son significativos a los niveles de confianza de 0,05 y 0,01. Para el
lo = la freuencia obtenida en cualquier casilla
nivel de confianza de 0,05 vemos que el valor de chi cuadrada con 1 grado de
f. = la frecuencia esperada en cualquier casilla libertad es de 3,84. Este es el valor que debemos igualar o exceder antes de poder
x2 = chi cuadrada rechazar la hiptesis nula. Ya que la x 2 que hemos calculado es de slo 2,66 y, por
consiguiente, menor que el valor de la tabla, debemos aceptar la hiptesis nula y
De acuerdo con la frmula para x2 debemos restar cada frecuencia esperada de rechazar la hiptesis de investigacin. Las frecuencias obtenidas no difieren lo
su correspondiente frecuencia obtenida, elevar al cuadrado la diferencia, dividir entre suficiente de las frecuencias al azar esperadas para indicar que existen diferencias
la frecuencia esperada apropiada y sumar estos cocientes para obtener el valor de chi poblacionales reales.
cuadrada.
Los datos de la Tabla 10.2 pueden usarse para ilustrar el procedimiento COMO BUSCAR LAS FRECUENCIAS ESPERADAS
anterior:
Las frecuencias esperadas para cada casilla deben reflejar la operacin del azar bajo
x2 = (5 - 7,5? + (lO - 7,5)2 + (l5 - 12,5)2 los trminos de la hiptesis nula. Si las frecuencias esperadas deben indicar "semejan-
7,5 7,5 12,5 za" a travs de todas las muestras, deben ser proporcionales a sus totales marginales
(lO - 12,5)2 tanto para los renglones como para las columnas.
+ 12,5 Para obtener la frecuencia esperada para cualquier casilla, simplemente multipli-
= (_2,5)2 + (2,5)2 + {2,5? + (-2,5)2 camos los totales marginales de columna y de rengln para una casilla determinada y
7,5 7,5 12,5 12,5 dividimos el producto entre N. Por lo tanto,

ti

L
,
---r---
ehi cuadrada y otras pruebas no para mtricas 175
J 74 La toma de decisiones
Hiptesis Nula: La proporClOn de fumadores de mariguana entre los estudiantes de
(total marginal de rengln) (total marginal de columna) bachillerato orientados hacia la universidad es igual a la de los
f. = N estudiantes que no piensan asistir a la universidad.
Para la casilla superior izquierda en la Tabla 10.2 (liberales no rgidos), Hiptesis de Investigacin: La proporcin de fumadores de mariguana entre los estu-
diantes de bachillerato orientados hacia la universidad no
r. = (20)(15)
40
es igual a la de los estudiantes que no piensan asistir a la
300
universidad.
=40
= 7,5 Para verificar esta hiptesis al nivel de confianza de 0,05, digamos que debemos
en trevistar a dos muestras aleatorias de la poblacin de una escuela de bachillerato
Igualmente, para la casilla superior derecha en la Tabla 10.2 (conservadores no acerca del uso de la mariguana: una muestra de 21 estudiantes que van a ingresar a
rgidos), la universidad y una muestra de 15 estudiantes que no planean extender su educa-
cin ms all del bachillerato. Supngase que resultaran los datos de la Tabla 10.3.
= (20)(15)
r.
e 40 TABLA 10.3 Uso de la Orientacin hac/il la
300 mariguana entre estudiantes _ _~U~n~iversidad
=40 orientados y no orientados Uso de la Universidad No universidad
= 7,5 hacia la urnversidad mariguana ro ro
Fumadores 15 5
Para la casilla inferior de la izquierda en la Tabla 10.2 (liberales rgidos), No fumadores 6 10
Total 21 15
= (20)(25)
r.
e 40
500 Como se muestra en la Tabla, 15 de 21 estudiantes orientados hacia la universidad,
=40 pero slo 5 de 15 no orientados hacia ella, eran fumadores de mariguana. Para
= 12,5 averiguar si esta es una diferencia significativa entre los estudiantes de bachillerato
orientados hacia la universidad y los estudiantes no orientados hacia sta, desarro-
Para la casilla inferior derecha en la Tabla 10.2 (conservadores rgidos), llamos el siguiente procedimiento paso a paso:
= (20)(25) PASO 1: Reordenar los datos en forma de Tabla 2 X 2
r.
e 40
500 Universidad No universidad
=40
= 12,5

Fumadores 15 ( ) 5( ) 20
Como veremos, el mtodo anterior para determinar fe puede aplicarse a cualquier
problema de chi cuadrada para los cuales las frecuencias esperadas deben obtenerse.

Una ilustracin
Nofi.madores 6( ) 1O( ) 16
Para resumir el procedimiento paso a paso para obtener chi cuadrada, supongamos
que queremos estudiar el uso de la mariguana en estudiantes de bachillerato en 21 15 N = 36
relacin a sus planes de ingreso a la universidad. Podramos especificar nuestra
hiptesis como sigue:
I
I
1
~~ ~-----__-----------------"-"""""""'""-"""""'-"'I

1 76 La toma de decisiones ehi cuadrada y otras pruebas no paramtricas 177

PASO 2: Obtener la frecuencia esperada para cada casilla (inferior izquierda) 11 ,09 = 1 19j
9,33 '
(superior izquierda) f. = <21j~20) (inferior derecha) 11,09 = 166
6,67 '
420
=36" PASO 6: Sumar estos cocientes para obtener el valor de chi cuadrada
15 (11,67) 5 (8,33) 20 = 11,67
(superior derecha) f. = (l5j~20) ([. - fe)2
300 fe
=36" 0,95
6 (9,33) 10 (6,67) 16 = 8,33 1,33
(inferior izquierda) f. = <21j~16) 1,19
1,66
336
=36" X' = 5,13
21 15 N = 36
= 9,33
(inferior derecha) f. = (l5j~16) PASO 7: Encontrar los grados de libertad

=36"
240 gl = (r - 1) (e - 1)
= (2 - 1) (2 - 1)
= 6,67
=(l)(l)
=1
PASO 3: Restar las frecuencias esperadas de las frecuencias obtenidas
PASO 8: Comparar el valor de chi cuadrada obtenido con el valor de chi cuadrada
f. - f. correspondiente en la Tabla E
(superior izquierda) 15 - 11 ,67 3,33
(superior derecha) 5 - 8,33 = - 3,33 obtenido x2 = 5,13
(inferior izquierda) 6 - 9,33 = - 3,33 de la tabla x2 = 3,84
(inferior derecha) 10 - 6,67 = 3,33 g1 = 1
P = 0,05
PASO 4: Elevar al cuadrado esta diferencia Como se indica en el Paso 8, para rechazar la hiptesis nula, al nivel de
confianza de 0,05 con 1 grado de libertad, nuestro valor de chi cuadrada calculado
([. - fe)2 tendra que ser de 3,84 o ms, Como hemos obtenido un valor de chi cuadrada de
(superior izquierda) (3,33)2 = 11,09
5,13, podemos rechazar la hiptesis nula y aceptar la hiptesis de investigacin,.
(superior derecha) (-3,33)2 = 11,09
(inferior izquierda) (-3,33)2 = 11 ,09
Nuestros resultados sugieren que la proporcin de fumadores de mariguana es mayor
entre los estudiantes de bachillerato que van a ingresar a la universidad que entre los
(inferior derecha) (3,33? = 11,09
estudiantes cuyos planes no incluyen el ingreso a la universidad.
PASO 5: Dividir entre la frecuencia esperada El procedimiento que se acaba de ilustrar paso a paso, para la obtencin de chi
cuadrada, se puede resumir en forma de tabla:
([. - f.)2 <f,. - f,.)'
fe
f,. f. f,. - f. <f,. - f..>' f.
11,09
(superior izquierda) 0,95
11,67 = (superior izquierda) 15 11,67 3,33 11,09 0,95
11,09 (superior derecha) 5 8,33 -3,33 11,09 1,33
(superior derecha) 1,33 (inferior izquierda) 6
8,33 = 9,33 -3,33 11,09 1,19
(inferior derecha) 10 6,67 3,33 11,09 1,66
X' = 5,3
eh; cuadrada y otras pruebas no paramtr;cas 179
178 La t01l1il de decisiones
36(120)2
UNA FORMULA 2 X 2 PARA CALCULAR CHI CUADRADA 100800
36(14400)
Podemos evitar el largo proceso de calcular las frecuencias esperadas
100800
para un problema de chi cuadrada de 2 X 2 (2 renglones por 2
columnas) usando la siguiente frmula de clculo: 518400
= 100800
2
N(AD - BC)2 = 5,14
X = (A + B)(C + D)(A + C)(B + D)
CORRECCIONES PARA PEQUENAS FRECUENCIAS ESPERADAS
donde:
Si las frecuencias esperadas en un problema de chi cuadrada 2 X 2 son muy
A = la frecuencia obtenida en la casilla superior izquierda pequeas (menos de lOen una casilla), las frmulas que hemos aprendido hasta aqu
B = la frecuencia obtenida en la casilla superior derecha pueden producir un valor de chi cuadrada inflado. Ntese que esto es cierto slo
e = la frecuencia obtenida en la casilla inferior izquierda para las frecuencias esperadas y no para las frecuencias obtenidas realmente en el
D = la frecuencia obtenida en la casilla inferior derecha curso de la investigacin, las cuales pueden ser de cualquier tamao.
N = el nmero total en todas las casillas Para reducir la sobreestimacin de chi cuadrada y obtener un resultado ms
Graficamos las casillas A. B. e y D Y sus totales marginales en una tabla 2 X 2 conservador, aplicamos lo que se conoce como la correccin de Yates a la situacin
como sigue: 2 X 2. Usando la correccin de Yates, la diferencia entre las frecuencias obtenidas y
esperadas se reduce en 0,50. Ya que x 2 depende de la magnitud de esa diferencia,

~
tambin reducimos el tamao de nuestro valor calculado para chi cuadrada. La frmula de
A+B chi cuadrada corregida para pequeas frecuencias esperadas es la siguiente:

[EJ C+D X2 = (lfo - fel - 0,50)2


fe
A+C B+D N En la frmula anterior corregida, las lneas rectas que encierran fo - fe indican que de-
bemos reducir el valor absoluto (ignorando los signos menos) de cada fo - fe en 0,50.
Para ilustrar el uso de la frmula para calcular chi cuadrada, regresamos a los
datos de la Tabla 10.3 (uso de la mariguana segn la orientacin hacia la universi- Apliquemos a los datos de la Tabla 10.3 la frmula corregida:
dad) para los cuales ya se ha obtenido un valor x 2 de 5,13. Podemos colocar, las X2 = (115 - 11,671- 0,50)' + (15 - 8,331- 0,50)2
frecuencias obtenidas para la frmula de clculo, de la manera siguiente: 11,67 8,33
+ (16 - 9,33 I - 0,50)2 + (110 - 6,67 1- 0,50)'
15 9)3 6~7
5
A B _ (3,33 - 0,50? + (3)3 - 0,5W
- 11,67 8,33
C D + (3,33 - O,5W + (3,33 - 0,50)'
6 10 9,33 6,67
= (2,83)2 + (2,83)2 + (2,8W + (2,83)2
Aplicando la frmula de clculo, 11,67 R,33 9,33 6,67

2_ 36[(15)(10) - (5)(6)2
= ~ + 8,01 + 8,01 + 8,01
11 ,67 8,33 9,33, 6,67
X - (15 + 5)(6 + 10)(15 + 6)(5 + 10)
0,69 + 0,96 + 0,86 + 1,20
36(150 - 30)2 = 3,71
= (20)(16)(2~)(15)
180 La toma de decisiones eh; cuadrada y otras pruebas no paramitricas 181

El procedimiento para aplicar la frmula de chi cuadrada corregida se puede COMPARANDO VARIOS GRUPOS
resumir en fonna de tabla:
Hasta aqu{, hemos limitado nuestras ilustraciones al problema 2 X 2 ampliamente
f. f. If. - f.1 If. -f.1 -0,50 usado. Sin embargo, deber enfatizarse que chi cuadrada se calcula frecuentemente
15 11,67 3,33 2,83 para tablas mayores que 2 X 2, tablas en que se han de comparar varios grupos o
5 8,33 3,33 2,83 categoras. El procedimiento paso a paso para comparar varios grupos es esencial-
6 9,33 3,33 2,83 mente igual a su contraparte 2 X 2. Ejemplifiquemos con un problema 3 X 3 (3
la 6.67 3,33 2,83 renglones por 3 columnas), aunque se podra usar cualquier nmero de renglones y
columnas.
Imaginese una vez ms que estuviramos investigando la relacin entre la
<lf. - f.1 - 0,5W orientacin poltica y los mtodos de crianza de los nios. Sin embargo, en esta
<It. - f.1 - 0,5W f. ocasin digamos que pudimos presentar tres muestras aleatorias: 32 conservadores,
8,01 0,69 30 moderados, y 27 liberales. Supngase, adems que furamos a categorizar los
8,01 0,96 mtodos de crianza de los nios, de los miembros de nuestra muestra, como no
8,01 0,86 rgidos, moderados o autoritarios. Por lo tanto,
8,01 1,20
x' = 3,71 Hiptesis Nula: La frecuencia relativa de los mtodos no rgidos, moderados y
autoritarios de crianza de los nios es igual para liberales, moderados
Como se muestra arriba, la correCClOn de Yates produce un valor de chi y conservadores.
cuadrada menor (Xl = 3,71) que el que se obtena mediante la frmula no corregida
(Xl = 5,13). En el presente ejemplo, nuestra decisin con respecto a la hiptesis nula Hiptesis de Investigacin: La frecuencia relativa de los mtodos no rgidos. modera-
dependera de si hemos usado o no la correccin de Yates. Con la frmula corregida, dos y autoritarios de crianza de los nios no es igual para
aceptamos la hiptesis nula; sin ella, la rechazamos. liberales, moderados y conservadores.
La correccin de Yates tambin se puede aplicar a la frmula para calcular una
chi cuadrada 2 X 2 como sigue: Digamos que generamos las diferencias muestrales, en cuanto a mtodos de
crianza de los nios, que se muestran en la Tabla 1DA. All vemos que 7 de 32
2 _ N(\AD - BC - N/2)2 conservadores, 9 de 30 moderados y 14 de 27 liberales pueden considerarse no
X - (A + B)(C + D)(A + C)(B + D) rgidos en sus prcticas d~ crianza de los nios.
Regresando a los datos de la Tabla 10.3,
TABLA 10.4 Crianza de
2_ 36[i(l5)(10) - (5)(6)1 - 36/2]2 los nios segn la Orientacin poltica
X - (15 + 5)(6 + 10)(15 + 6)(5 + 10) orientacin poltica: Mtodo de crillnza Conservador Moderado Liberal
_ 36<1150 - 301 - 18)2 un problema 3 X 3 de los nios f. f. f.
- (20)(15)(21)(15) ----------------------
No rgido 7 9 14
36(120 - 18)2 Moderado 10 10 8
100800 Autoritario 15 11 5
Total 32 30 27
36(102)2
100800
36(10404) Debe tenerse en cuenta que la correCClOn de Yates y la frmula 2 X 2 para
100800 calcular X1 slo se aplican al problema 2 X 2 Y por lo tanto no pueden utilizarse
374544 para comparar varios grupos, como en la presente situacin 3 X 3. Para determinar si
= 100800 hayo no una diferencia significativa en la Tabla IDA, debemos aplicar la fnnula
= 3,71 original Xi que se present anteriormente:
~--_._ ... -.- _._-------_ ...


182 La toma de decisiones ehi cuadrada y otras pruebas no paramtricas 183

x = ~ ([o - fe)2 j" = (30)(30) j" = (30)(27)


2
fe
(central superior) 'e 89 (superior derecha) 'e 89
900 810
La anterior frmula para chi cuadrada puede aplicrsele al problema 3 X 3 en = 89 =8"9
el siguiente procedimiento paso a paso: I 10,11 = 9,10

PASO 1: Reordenar los datos en forma de una Tabla 3 X 3 (central central) fe = . .:.:(2:...:8-=-:)(,:-30-,-) (central derecha)
j" = (28)(27)
89 'e 89
Orientacin po[(tica 840 756
=8"9 = 89
Mtodos de crianza Conservadores Moderados Liberales
de los nios = 9,44 = 8,49
j" = (31)(30) j" = (31)(27)
No rigidos 7 9 14 30 (central inferior) 'e 89 (inferior derecha) 'e 89
930 837
=8"9 =8"9
Moderados 10 10 8 28
= 10,45 = 9,40
Frecuencia
obtenida
PASO 3: Restar las frecuencias esperadas de las frecuencias obtenidas
Autoritarios 15 11 5 31
fo - fe
32 30 27 N = 89 (superior izquierda) 7 - 10,79 -3,79
(central izquierda) 10 '- 10,07 -0,07
Totar (inferior izquierda) 15 - 11,14 3,86
marginal
(superior central) 9 - 10,11 = -1,11
(central central) 10 - 9,44 = 0,56
PASO 2: Obtener la frecuencia esperada para cada casilla
(inferior central) 11 - 10,45 0,55
(superior derecha) 14 - 9,10 4,90
(central derecha) 8 - 8,49 -0,49'
7 9 14
(10,79) (10,11) (superior izquierda) f. = (30J~32) (inferior derecha) 5 - 9,40 -4,40
(9,10)
30 = 960
89
10 10 8 = (10,79) PASO 4: Elevar al cuadrado esta .diferencia
(10,07) (9,44) (8,49)
28 (central izquierda'
)
r.
e
= (28)(32)
89
896 ([o - fe)2
15 11 5 ='89
(11,14) (10,45) (9,40) (superior izquierda) (-3,7W = 14,36
31 = 10,07 (central izquierda) (_0,07)1 = 0,01
32 30 27 N = 89 (inferior izquierda) (3,86)1 = 14,90
(_1,11)1 = 1,23
(superior central)
(31)(32)
. fi.ferior izquierda) r.e = 89 (central central)
(inferior central)
(0,56)2
(0,55)2
=
=
0,31
0,30
992 (superior derecha) (4,90)2 = 24,01
= 89 (central derecha) (_0,49)2 = 0,24
(inferior derecha) (_4,40)2 = 19,36
= 11,14
T -3'1'" tri

184 lA toma de decisiones eh; cuadrada y otras pruebas no paramtricas 185

PASO 5: Dividir entre la frecuencia esperada PASO 8: Comparar el valor de chi cuadrada obtenido con el valor de chi cuadrada
{fa - f.)2
correspondiente en la Tabla E
f. x2 obtenido = 7,58
14,36 .
(superior izquierda) - - = 133 x2 en la tabla = 9,49
10,79 ' gl = 4
0,01 P = 0,05
(central izquierda) 0,00
10,07
14,90
Por lo tanto, necesitamos un valor de chi cuadrada de por lo menos 9,49
(inferior izquierda) - - = 134 para rechazar la hiptesis nula. Dado que nuestra X2 obtenida es de slo 7,58, debemos
11,14 '
aceptar la hiptesis nula y atribuir nuestras diferencias muestrales a la operacin de
(superior central) 1,23 012 la simple casualidad. No hemos descubierto evidencias estadsticamente significativas que
10,11 = ,
indiquen que la frecuencia relativa de los mtodos de crianza de los nios difiere
0,31 para los liberales, los moderados y los conservadores.
(central central) - = 003
9,44 '
0,30 = 003 REQUISITOS PARA EL USO DE CH!" CUADRADA
(inferior central)
10,45 '
24,01 A pesar del hecho de que las pruebas no paramtricas no suponen una distribucin
(superior derecha) - - = 264 normal en la poblacin, tambin tienen una serie de requisitos que el investigador
9,10 '
social debe tomar en cuenta si ha de hacer una seleccin inteligente entre las pruebas
0,24
(central derecha) - = 0,03 de significancia. El estudiante notar, sin embargo, que los requisitos para el uso de
8,49 las pruebas no paramtricas son generalmente ms fciles de satisfacer que aqullos
19,36 para el uso de sus contrapartes paramtricas, tales como la razn t o el anlisis de
(inferior derecha) - - = 206
9,40 ' varianza. Teniendo esto en mente, veamos algunos de los requisitos ms importantes
PASO 6: Sumar estos cocientes para obtener el valor de chi cuadrada para el uso de la prueba de significancia chi cuadrada:

{fa - f.)2 l. Una comparacin entre dos o ms muestras: como se describi e ilustr en
f. el presente captulo, la prueba chi cuadrada se emplea para hacer compara-
1,33 ciones entre dos o ms muestras independientes. Esto requiere que tengamos
0,00
por lo menos una tabla 2 .X 2 (por lo menos 2 renglones y 2 columnas). La
1,34
suposicin .de independencia indica que chi cuadrada no puede aplicarse a
0,12
0,03 una sola muestra colocada en un diseo de panel antes/despus. Deben
0,03 obtenerse por Id menos dos muestras de entrevistados.
2,64 2. Los datos nominales: slo se requieren las frecuencias.
0,03 3. El muestreo aleatorio: debimos haber extrado nuestras muestras aleatoria-
2,06 mente de una poblacin determinada.
X2 = 7,58 4. Las frecuencias esperadas por casilla no deben ser demasiado pequeas: el
tamao exacto de f. depende de la naturaleza del problema. Para un
PASO 7: Encontrar el nmero de grados de libertad problema 2 X 2, ninguna frecuencia esperada deber ser menor que 5.
Adems, la frmula corregida de Yates deber usarse para un problema 2 X 2
gl = (r - 1)(c - 1) en el cual una frecuencia esperada por casilla es menor que 10. Para una
= (3 - 1)(3 - 1)
situacin en la cual se estn comparando varios grupos (digamos un proble-
= (2)(2)
=4 ma 3 X 3 o 4 X 5), no existe ninguna regla rpida y rgida respecto al

186 La toma de decisiones ehi cuadrada y otras pruebas no paramtricas 187

mujeres en orden consecutivo (sin importar de qu muestra provienen) y localizamos


mnimo de frecuencias por casilla, aunque deberemos tener cuidado de ver que su mediana combinada:
pocas casillas contengan menos de 5 casos. En cualquier evento, las frecuencias
I
esperadas para todas las casillas combinadas (I:.fe) deben ser siempre iguales a I
i
las frecuencias obtenidas para todas las casillas combinadas (I:.fo ). 18
18
17
LA PRUEBA DE LA MEDIANA
17
16
Se puede aplicar chi cuadrada a cualquier nmero de muestras independientes 16
medidas al nivel nominal. Para datos ordinales, la prueba de la mediana es un 16
procedimiento no paramtrico simple para determinar la probabilidad de que dos 15
muestras aleatorias hayan sido tomadas de poblaciones con las mismas medianas. 15
A fin de ilustrar el procedimiento para realizar la prueba de la mediana, 15
supngase que un investigador quisiera estudiar las reacciones masculinas y femeninas 14
ante una situacin socialmente embarazosa. Para crear la turbacin el investigador 14
pidi a 15 hombres y 12 mujeres, quienes posean una habilidad escasamente 13
12 +- Mediana (el decimocuarto puntaje de uno u otro extremo)
"promedio" para el canto, que interpretaran individualmente varias canciones, tales
11
como "El amor es una cosa esplendorosa", ante un auditorio de "expertos". A
11
continuacin se muestra el nmero de minutos que cada sujeto estuvo dispuesto a
10
continuar cantando (un menor periodo de tiempo indica supuestamente mayor 10
turbacin) : 10
9
Nmero de minutos cantados 9
9
Hombres Mujeres Hombres Mujeres
8
15 12 8
18 7 11 9 7
15 15 10 11 6
17 16 8 14 6
17 6 14 9
16 8 9 PASO 2: Contar el nmero en cada muestra que cae por encima de la mediana y
10 10 18
13 6 16 por abajo de ella (Mdn = 12)

Hombres Mujeres
PASO 1: Encontrar la mediana de las dos muestras combinadas. Por frmula, f f
... d e 1a me d'lana = --2-
N + 1 Sobre la mediana 10 3
P oSlclon Abajo de la mediana 5 9
N = 27
27 + 1
=-2-
Como se vio anteriormente, el nmero que representa el tiempo de canto arriba y
= 140.
abajo de la mediana de cada muestra de hombres y mujeres se representa en una
La mediana es el decimocuarto puntaje contando de uno u otro extremo de la tabla de frecuencia 2 X 2. En el presente ejemplo, 10 de los 15 hombres, pero slo
distribucin arreglada por tamaos. 3 de las 12 mujeres, continuaron cantando por un periodo de tiempo mayor que el
Para encontrar la mediana, ordenamos todos los pun tajes para hom bres y tiempo mediano de canto para la totalidad del grupo.
l.'
,1
,!
l
r
lIJ8 La toma de decisiones

PASO 3: Realizar una prueba de significancia chi cuadrada. Si no existen diferencias


de sexo respecto al tiempo de canto (y, por 10 tanto, de turbacin social),
esperaramos que la misma mediana se dividiera dentro de cada muestra, de manera
EL ANA LISIS DE VARIANZA EN DOS DIRECCIONES
POR RANGOS DE FRIEDMAN
ehi cuadroda y otras pruebas no paramtricas 189

"! que la mitad de los hombres y la mitad de las mujeres cayeran sobre la mediana. En el Captulo 8 presentamos una variacin de la razn t que se pod a usar para
t Para determinar si las diferencias de sexo obtenidas son estadsticamente significati- comparar la misma muestra medida dos veces. Por ejemplo, en el diseo antes/des-
,
I
vas o slo un producto del error de muestreo, realizamos el anlisis de X2 pus podra medirse el grado de hostilidad en una muestra de nios antes y despus
de mirar un violento programa de televisin.
Hombres Mujeres El anlisis de varianza en dos direcciones por rangos de Friedman (Xr 2 )
constituye un enfoque no paramtrico para verificar las diferencias en una sola
Sobre la mediana 10 (A) 3 (8)
Abajo de la mediana 5 (e) 9 W) muestra de entrevistados a quienes se ha medido al menos bajo dos condiciones.
N = 27
Por frmula,

2 _ NqAD - BCI - N/2)2 x/ = Nk(~2+ 1) (kR)2 - 3N(k + 1)


X - (A + B)(C + D)(A + C)(B + D)
27[1(10)(9) - (3)(5)1 - V- F donde
(10 + 3)(5 + 9)(10 + 5)(3 + 9)
27(75 - 13,5)2 k = el nmero de mediciones (representa usualmente las condiciones bajo las
32760 cuales se estudia a los entrevistados)
102120,75
N = el nmero total de entrevistados
r.R = la suma de los rangos para una medicin cualquiera (usualmente represen-
32760
ta una condicin cualquiera en estudio)
3,12

Al buscar en la Tabla E, al final del texto, encontramos que x 2 debe ser igualo Una ilustracin
mayor que 3,84 (gl = 1) para poder considerarlo significativo al nivel 0,05. Como
nuestra X2 obtenida es de 3,12, no podemos rechazar la hiptesis nula. No hay Para ilustrar la aplicacin del anlisis de varianza en dos direcciones de Friedman,
evidencias suficientes para concluir, con base en nuestrOs resultados, que los hombres supngase que deseamos comprobar la hiptesis de que la hostilidad de los nios
difieren de las mujeres respecto a sus reacciones ante una situacin socialmente vara segn el nivel de violencia en sus programas de televisin. Con el fin de
embarazosa. estudiar la influencia de la violencia televisada, imaginemos que podemos exponer
una muestra aleatoria de diez nios a tres distintos niveles de violencia en un
programa que es esencialmente igual en todos los dems aspectos. Digamos tambin
Requisitos para el uso de la prueba de la mediana que hemos obtenido los siguientes puntajes de hostilidad de estos 10 nios bajo cada
condicin como espectador de televisin (1os puntajes van desde 20 hasta 60; los
Las siguientes condiciones deben cumplirse para poder aplicar adecuadamente la puntajes ms altos representan mayor hostilidad):
prueba de la mediana a un problema de investigacin.
PASO 1: Colocar por grados los puntajes de cada entrevistado a travs de todas las
1. Una comparacin entre dos o ms medianas independientes: la prueba de la condiciones (en cada rengln). Para realizar el anlisis de varianza en dos direcciones
mediana se emplea para hacer comparaciones entre dos o ms medianas de de Friedman, trabajamos directamente con los rangos para cada entrevistado sobre
muestras independientes. todas las mediciones. 2 Como se muestra arriba, el nivel de hostilidad del nio A
2. Los datos ordinales: para realizar la prueba de la mediana, suponemos por 10
menos el nivel ordinal de medicin. Los datos nominales no se pueden usar. 2 En este ejemplo no hubo empates entre rangos. En caso de rangos empatados (por ejemplo, si el nivel de
hostilidad del nio A hubiera sido el mismo para dos o ms niveles de violencia) sgase el procedimiento para
3. El muestreo aleatorio: debimos haber extrado nuestras muestras sobre una tratar con rangos empatados como se presentan, en relacin con el coeficiente de correlacin del orden de los
base aleatoria de una poblacin dada. rangos, en el Captulo 11.
190 Lo tOTTID de decisiones ehi cuadrado y otras pruebas no paramtricas 191

Condicin como espectador Rango Rango Rango


Nio (baja) (mediana) (alta)
Violencia Violencia Violencia
Nio baja mediana alta A 3 2 1
B 3 1 2
A 23 30 32 e 2 :> 1
B 41 45 43 D 3 2 1
e 36 3fi 39 E 3 2 1
D 28 29 35 F 3 1 2
E 39 41 47 G 3 2 1
F 25 28 27 H 3 2 1
G 38 46 51 1 2 1 3
H 40 47 49 J 3 2 1
1 45 46 42 lR = 28 I.R = 18 lR = 14
J 29 34 38

PASO 3: Reemplazar en la frmula para obtener x;


aument de 23 a 30 y a 32 a medida que el nivel de violencia televisada, al que
estaba expuesto, aumentaba de baja a mediana y a alta. Por rango, el puntaje de xr' = Nk(~2+ 1) (IR i )2 - 3N(k + 1)
hostilidad del nio A fue mayor (1) a una violencia alta, un poco menor (2) a una
violencia mediana y menor (3) a una violencia baja. Continuando hacia abajo, vemos
que la hostilidad del nio B fue mayor (1) a una violencia mediana, un poco menor
(l0)(3~(~ + 1) 2
(28 + 18 + 14
2 2
) - 3(10)(3 + 1)
(2) a una violencia alta y menor (3) a una violencia baja. La del nio C fue mayor = 11 2 (784 + 324 + 196) - 120
(1) a una violencia alta, un poco menor (2) a una violencia baja y menor (3) a una 20
violencia mediana. El orden de los rangos de los tres puntajes de hostilidad de cada = 0,10(1304) - 120
nio se muestra a continuacin: = 130,4 - 120
= 10,4

Violencia Violencia Violencia PASO 4: Encontrar el nmero de grados de libertad


Nio baja Rango mediana Rango alta Rango
A 23 3 30 2 32 1
gl=k-l
B 41 :> 45 1 43 2 = 3 - 1
e 36 2 35 3 39 1 =2
D 28 3 29 2 35 1
E 39 3 41 2 47 1 PASO 5: Comparar x~ con el valor correspondiente de chi cuadrada en la Tabla E
F 25 3 28 1 27 2
G 38 3 46 2 51 1
H 40 3 47 2 49 1 x; obtenido = 10,4
1 45 2 46 1 42 3 x 2 de la tabla = 5,99
J 29 3 34 2 38 1 gl=2
P = 0,05

PASO 2: Sumar los rangos bajo cada condicin (para cada columna). Si la hiptesis x; es en realidad un valor de chi cuadrada derivado de la suma de los rangos
nula es correcta -y no ocurren diferencias significativas entre las condiciones- para todas las condiciones. Como resultado, podemos comparar nuestro x; obtenido
podemos esperar que las sumas de los rangos a travs de las condiciones sean iguales con el correspondiente x en la Tabla E. Con gl = 2 necesitamos un valor de chi
entre s (menos el error de muestreo). En el presente ejemplo hay tres condiciones: cuadrada de por lo menos 5,99 a fin de rechazar la hiptesis nula. Ya que nuestro
violencia televisada baja, mediana y alta. Los rangos para cada una de estas condi- x; obtenido es de 10,4, rechazamos la hiptesis nula y aceptamos la hiptesis de
ciones se suman como sigue: investigacin. Hemos descubierto evidencias de que la violencia televisada s induce

1
ehi cuadrada y otras pruebas no paramitricas 193
192 lA toma de decisiones

r a la hostilidad en
de violencia.
lo~ nmos. Hay diferencias significativas en la hostilidad segn el nivel
se da un cierto nmero de das para encontrar empleo. Digamos que se obtuvieron
los siguientes resultados:

1 Requisitos para el uso del anlisis de varianza Nmero de das antes de encontrar empleo
! en dos direcciones por rangos de Friedman Adultos seniles Adultos de edad mediana Adultos jvenes
(n = 7) 63 (n = 8) 33 (n = 6) 25
Para aplicar el anlisis de varianza en dos direcciones de Friedman, deben cumplirse 20 42 31
las siguientes condiciones: 43 27 6
58 28 14
57 51 18
l. Una comparacin de una sola muestra medida bajo dos o ms condiciones: 71 64 13
el procedimiento de Friedman no se puede aplicar para contrastar diferencias 45 12
entre muestras independientes, sino que supone que la misma muestra de 30
entrevistados se ha medido por lo menos dos veces (o que los miembros de
dos o ms muestras se han comparado sobre variables apropiadas). . PASO 1: Ordenar por rango el grupo total de puntajes y encontrar la suma de los
2. Los datos ordinales: slo se requieren datos que puedan colocarse por rangos para cada muestra. Todos los puntajes deben clasificarse por orden de menor
rangos. a mayor (al puntaje ms pequeo se le debe asignar un rango de 1; de 2 al que le
3. El nmero de entrevistados no debe ser demasiado pequeo: el requisito sigue, y as sucesivamente). En este ejemplo, los puntajes se han ordenado desde 1
mnimo exacto para N depende del nmero de condiciones (k) a las que se (que representa 6 das) hasta 21 (que representa 71 das).3
va a exponer a los entrevistados. Por ejemplo, N debe ser igualo mayor que 10
cuando k = 3; en tanto que N debe ser igualo mayor que 5 cuando k = 4. X, Rango X. Rango X, Rango
63 19 33 12 25 7
ANAUSIS DE VARIANZA EN UNA DIRECCION 20 6 42 13 31 11
POR RANGOS DE KRUSKAL-WALUS 43 14 27 8 6 1
58 18 28 9 14 4
57 17 51 16 18 5
El anlisis de varianza en una direccin de Kruskal-Wallis es una alternativa no 71 21 64 20 13 3
paramtrica para el anlisis de varianza (razn F) que puede usarse para comparar 45 15 12 2 IR, = 31
varias muestras independientes, pero que slo requiere datos de nivel ordinal. Para IR, = 110 30 10
IR. = 90
aplicar el procedimiento de Kruskal-Wallis buscamos el estadstico H como sigue:
PASO 2: Reemplazar en la frmula para obtener H
H = 12 ~[CI.Rj)2] _ 3(N + 1) . _ 12 [(LR )2]
N(N + l)4J n H - N(N + 1) L j
- n - - 3(N + 1)
donde 12 ) (110 90
2
31:,\
2
= ( 21(21 + 1) -7- + 8 + 6} - 3(21 + 1)
N = el nmero total de casos e entrevistados
n = el nmero de casos en una muestra dada = (~) (12100 + 8100 + 961) _ 66
ER = la suma de los rangos para una muestra dada. 462 7 8 6
= (0,03)(1728,57 + 1012,50 + 160,17) - 66
Una ilustracin = (0,03)(2901,24) - 66
= 87,04 - 66
A fin de ilustrar el procedimiento para aplicar el anlisis de varianza en una = 21,04
direccin por rangos, pensemos en la posible influencia de la edad sobre la capacidad 3 En este ejemplo no hubo empates entre rangos. En caso de rangos empatados (por ejemplo, si dos personas
de un individuo para encontrar empleo. Supngase que estudiamos este problema demoran exactamente 24 das en encontrar trabajo) sgase el procedimiento para tratar rangos empatados como
se presentan, en relacin con el coeficiente de correlacin de orden de los rangos, en el Captulo 11.
~omando muestras aleatorias de adultos seniles, de edad mediana y jvenes a quienes
,
--_._--_._-------~--
-----:r--
ehi cuadrada y otras pruebas no paramtricas 195
194 La tOTTUl de decisiones
diferencia entre las frecuencias esperadas y las frecuencias obtenidas es lo suficien-
PASO 3: Encontrar el nmero de grados de libertad temente grande rechazamos la hiptesis nula y aceptamos la validez de una diferen-
cia poblacional real. Este es el requisito para que un valor de chi cuadrada sea
gl=k-1
significativo. Otros procedimientos no paramtricos incluyen: la prueba de la me-
=3-1
=2 diana para determinar si existe una diferencia significativa entre las medianas de dos
muestras, el anlisis de varianza en dos direcciones de Friedman para comparar la misma
PASO 4: Comparar H con el valor de chi cuadrada correspondiente en la Tabla E muestra medida por lo menos dos veces, y el anlisis de varianza en una
direccin por rangos de Kruskal-Wallis para comparar varias muestras independientes.
H = 21,04
Xl de la tabla = 5,991
gl=2 PROBLEMAS
P =0,05
l. Se entrevistaron muestras aleatorias de hombres y mujeres para determinar si
Para rechazar la hiptesis nula al nivel de confianza de 0,05 con 2 grados de
fumaban cigarrillos o no. Se encontr que de 29 hombres 15 eran fumadores y
libertad, nuestro H calculado tendra que ser 5,991 o ms. Como hemos obtenido un
que de 30 mujeres 20 eran fumadoras. Comprobar la hiptesis nula de que la
H igual a 21,04, podemos rechazar la hiptesis nula y aceptar la hiptesis de
frecuencia relativa de los hombres fumadores es la misma que la de las mujeres
investigacin. Nuestros resultados indican que hay diferencias significativas, segn la
fumadoras. Qu indican sus resultados?
edad, en la cantidad de tiempo necesario para encontrar un empleo.
2. Dos grupos de estudiantes presentaron exmenes finales de estadstica. Slo se
dio preparacin formal para el examen a un grupo; el otro ley el texto
Requisitos para el uso del anlisis de varianza requerido pero nunca asisti a clases. Mientras que 22 de los 30 miembros del
en una direccin de Kruskal-Wallis primer grupo (que asisti a clases) aprobaron el examen, slo 10 de los 28
miembros del segundo grupo (que no asisti a clases) lo aprobaron. Comprobar
Para aplicar el anlisis de varianza en una direccin por rangos debemos considerar los la hiptesis nula de que la frecuencia relativa de los "asistentes" que pasan el
siguientes requisitos: examen final es la misma que la de los "no asistentes" que lo pasan. .Qu
indican sus resultados? (,
l. Una comparacin de tres o ms muestras independientes: el anlisis de 3. Realizar una prueba de significancia chi cuadrada aplicando la correccin de
varianza en una direccin no se puede aplicar para contrastar diferencias Yates al siguiente problema 2 X 2:
dentro de una sola muestra de entrevistados que se midi ms de una vez.
2. Los datos ordinales: slo se requieren datos que puedan colocarse por
rangos.
3. Cada muestra debe contener por lo menos 6 casos: cuando hay ms de 5 EG
entrevistados en cada grupo, la significancia de H puede determinarse por
medio del valor correspondiente de chi cuadrada en la Tabla E. Para
comprobar las diferencias entre muestras ms pequeas, recomendamos al
~
4. Realizar una prueba de significancia chi cuadrada aplicando la correccin de
lector las tablas especiales de Siegel (1956).
Yates al siguiente problema 2 X 2:

RESUMEN

Los estadsticos han desarrollado varias pruebas de significancia no paramtricas R


-pruebas cuyos requisitos no incluyen una distribucin normal ni el nivel de
medicin por intervalos. La ms conocida de ellas, la chi cuadrada, se emplea para
hacer comparaciones entre frecuencias ms que entre puntajes medios. Cuando la
ill
1
196 lA toma de decisiones
ehi cuadrada y otras pruebas no paramtricas 197
5. Realizar una prueba de significancia chi cuadrada aplicando la correccin de
Yates al siguiente problema 2 X 2: XI (Se les dijo que el X. (Se les dijo que el
autor era una mujer) autor era un hombre)

Ea 6
5
1
6
8
8

W 1
3
4
3
2
5
6
3
6. Realizar una prueba de significancia chi cuadrada para el siguiente problema 3 X 3: 6 8
5 6
5 8
1 2
20 17 5 3 2
5 6
6 8
15 16 16 6 4
3 3
4 14 18

Aplicando la prueba de la mediana, determinar si existe una diferencia signi-


7. Realizar una prueba de significancia chi cuadrada para el siguiente problema 4 X 2: ficativa entre las medianas de estos grupos. Se vieron influenciadas las evalua-
ciones del cuento corto por el sexo que se atribuy al autor?
25 6
10. Aplicando la prueba de la mediana, determinar si existe una diferencia signi-
19 10 ficativa entre las medianas de las siguientes muestras de puntajes:

15 15
XI X,
7 4
8 20
8 9 7 3
7 5 3 2
6 9 2 2
8. Realizar una prueba de significancia chi cuadrada para el siguiente problema 2 X 3: 7 8 3 6
7 9 4 4
8 7 7 5
8 10 15 9 9 4 4
7 9 5 4
6 6 4
12 10 9 9 2 3

9. Se pidi a dos muestras de estudiantes que leyeran y luego evaluaran un cuento


11. La "armona e identificacin de grupo" entre una muestra de 14 nios se
corto escrito por un autor nuevo. A la mitad de ellos se les dijo que el autor era midi antes y despus de que participaron en una tarea escolar cooperativa
una mujer, mientras que a la otra mitad se le dijo que el autor era un hombre. preparada para que dependieran ms unos de otros en la obtencin de una
Se obtuvo la siguiente evaluacin: (los. puntajes ms altos indican evaluaciones calificacin en el curso. Se consiguieron los siguientes puntajes de identificacin
ms favorables) de grupo (los puntajes ms altos indican mayor armona de grupo):
ehi cuadrada y otras pruebas no paramtricas 199
198 Lo tomo de decisiones

(Antes de la tarea (Despus de la tarea


cooperativa) Tien1po 2 cooperativa) Xl (Artes liberales) X 2 (Ingenieria) X 3 (Bellas artes)
llstudiante Tien1po 1
A 62 75 95 92 99
B 51 53 93 100 100
e 60 62 106 90 104
D 43 51 102 96 103
E 49 52 92
F 45 46
G 73 62
H 66 68 Aplicando el anlisis de varianza en una direccin de Kruskal-Wallis, determinar
1 57 55 si existe una diferencia significativa segn la especializacin universitaria con
J 63 69
K 43 45 respecto al nivel de alienacin poltica.
L 46 45 14. Aplicando el anlisis de varianza en una direccin de Kruskal-Wallis, determinar
M 67 68 si existe una diferencia significativa entre las siguientes muestras de puntajes:
N 61 67
X, X, X3
Aplicando el anlisis de varianza en dos direcciones por rangos de Friedman,
125 100 95
determinar si existe una diferencia significativa entre el Tiempo l y el Tiempo 2 100 99 90
en cuanto a la armona de grupo. 122 105 86
127 103 96
. 12. Aplicando el anlisis de varianza en dos direcciones por rangos de Friedman, 115 116 88
determinar si existe una diferencia significativa entre los puntajes de los tiempos 129 98 89
1, 2 Y 3 de la siguiente muestra de ll entrevistados: 130

llntrevistado. Tien1po 1 Tien1po 2 Tien1po 3


A 60 62 64
B 53 54 50
e 59 65 71
D 65 66 68
E 55 63 61
F 71 74 76
G 57 58 63
H 77 76 79
1 63 65 70
J 54 59 62
K 63 62 65

13. Los investigadores probaron la alineacin poltica entre muestras de estudiantes


que se especializan en artes liberales, ingeniera y bellas artes. Se obtuvieron los
siguientes resultados por muestra (1os puntajes ms altos indican mayor alinea-
cin):

X, (Artes liberales) X, (Ingenier(a) X 3 (Bellas artes)


100 101 97
110 90 98

1
1
2

1
I
Correlacin 201

una grfica que muestra la forma en que los puntajes de dos variables cualesquiera X
y Y estn dispersas en toda la escala de los posibles valores de los puntajes. En el
1: arreglo convencional, un diagrama de dispersin se construye de manera que la
i variable X se sita a lo .largo de la lnea base horizontal, mientras que la variable Y
,I
se mide sobre la lnea vertical.
Observando la Figura 11.1 encontramos dos diagramas de dispersin, cada uno
de los cuales representa la relacin entre los aos de estudio (X) y el ingreso (Y). La
Figura 11.1 (a) grafica esta relacin respecto a los hombres, mientras que la Figura
11.1 (b) representa la relacin respecto a las mujeres. Ntese que todos y cada uno
de los puntos en estos diagramas de dispersin grafican dos puntajes, estudios e
ingreso, obtenidos de un entrevistado. Por ejemplo, en la Figura 11,1 (a) vemos que
un hombre con 4 aos de estudio ganaba $ 4 000, mientras que un hombre con 13
aos de estudio ganaba $ 10 000. .
Podemos decir que la fuerza de la correlacin entre X y Y aumenta a medida
que los puntos de un diagrama de dispersin forman al estrecharse ms una lnea
recta que baja por el centro de la grfica. Por lo tanto, la Figura 11.1 (a) (hombres)
representa una correlacin ms fuerte que la Figura ll.l(b) (mujeres), aunque ambos
Caractersticas tales como la orientacin poltica, la inteligencia y la clase social
diagramas de dispersin indican que el ingreso tiende a aumentar con un mayor
var(an de un entrevistado a otro y, por lo tanto, nos referimos a ellas como
variables. En captulos anteriores nos hemos preocupado por establecer la presencia estudio. Tales datos respaldaran ciertamente la imagen de que el ingreso de las
mujeres (en relacin con el de los hombres) est menos relacionado con el nivel de
o ausencia de una relacin entre dos variables cualesquiera que ahora llamaremos X
y Y por ejemplo, entre la orientacin poltica (X) y los mtodos de crianza de los estudios a que llegan.
nios (Y); entre la clase social (X) y la inteligencia (Y); o entre la orientacin a
estudios universitarios (X) y el uso de la mariguana (Y). Anteriormente, y con ayuda DIRECCION DE LA CORRELACION
de la razn t, del anlisis de varianza o de la chi cuadrada, tratamos de descubrir si
A menudo se puede describir a la correlacin como positiva o negativa respecto a la
una diferencia entre dos o ms muestras poda considerarse estadsticamente signifi-
direccin. Una correlacin positiva indica que los entrevistados que obtienen punta-
cativa -reflejo de una diferencia poblacional real- y no como simple producto del
error de muestreo. jes altos sobre la variable X tambin tienden a obtener puntajes altos sobre la
variable Y. Recprocamente, los entrevistados que obtienen punt!ijes baj?~ sobre X
tambin tienden a obtener puntajes bajos sobre Y. La correlaclOn posltlva puede
LA FUERZA DE LA CORRELACION
ilustrarse mediante la relacin entre estudios e ingreso. Como hemos visto anterior-
mente, los entrevistados que completan muchos aos de estudio tienden a percibir
El descubrimiento de la existencia de una relacin no dice mucho acerca del grado ingresos anuales elevados, en tanto que aqullos que completan slo unos cuantos
de asociacin o correlacin entre dos variables. Muchas relaciones son estadstica- aos de estudio tienden a ganar muy poco anualmente.
mente significativas; pocas expresan una correlacin perfecta o exacta. Para ilustrar,
sabemos que la estatura y el peso estn asociados, ya que mientras ms alta es una FIGURA 11.1 Diagramas de $14000 $14000
persona su peso tiende a aumentar. Sin embargo, hay numerosas excepciones a la
regla. Algunas personas altas pesan muy poco, mientras que algunas personas bajas
dispersin .que
representan diferencias
;>.,
Q
12000
10000 .. ;>.,
g
12000
10000
pesan mucho. Del mismo modo, una relacin entre la orientacin a estudios univeI?i- en la fuerza de la ~ 8000
.. ~ 8000
relacin entre la ~
tarios y el uso de la mariguana no impide la posibilidad de encontrar muchos 6000 6000
preparacin y el
estudiantes que van a ingresar a la universidad que no fuman o bien muchos fumadores ingreso para hombres y
4000 4000
entre aqullos que no piensan asistir a ella. OL-.l..--'---'---'---'-----'-_ O~.l---'--'--'---'"--:'-:
mujeres 6 8 10 12 14 4 6 8 10 12 14
Las correlaciones realmente varan respecto a su fuerza. Podemos visualizar Aos de
Aos de
diferencias en la fuerza de la correlacin por medio de un diagrama de dispersin, ~rudlo {al Hombres, )( estudio (b) Muier~s, X

200
i
I
1.
202 _La toma de decisiones T FIGURA 11.3 La
Correlacin 20]

Existe una correlacin negativa, si los entrevistados que obtienen puntajes altos 12
sobre la variable X tienden a obtener puntajes bajos sobre la variable Y. A la inversa, relacin entre el ~ 10
los entrevistados que logran puntajes bajos sobre X tienden a lograr puntajes altos estatus socioeconmico 'E
~ 8
sobre Y. La relacin entre los estudios y el ingreso no representara una correlacin (X) y el tamao de la ..; 6
negativa puesto que los entrevistados que completan muchos aos de estudio no familia (Y): una ~ 4
correlacin curvilnea I~
tienden a percibir ingresos anuales bajos. Un ejemplo de correlacin negativa ms
E 2
adecuado es la relacin entre los estudios y el prejuicio contra los grupos minorita- ~ O L--'---_"L-..L--L--l_.L-J
rios. El prejuicio tiende a disminuir a medida que aumenta el nivel educativo. Por lo 1234567
tanto, los individuos con pocos estudios formales tienden a mantener fUertes pre- (Bajo) (Alto)
Esta/us socioeconmico
juicios, en tanto que los individuos con muchos ai'ios de estudio tienden a tener
pocos prejuicios. recta. As, las familias de clase media tienen un nmero pequeo de hijos: el tamao
de la familia (n aumenta a medida que el estatus socioeconmico (X) se vuelve ms
CORRELACION CURVILINEA alto y ms bajo.

Una correlacin positiva o negativa representa un tipo de relacin lineal. Representa- EL COEFICIENTE DE CORRELACION
dos grficamente, los puntos de un diagrama de dispersin tienden a formar uoa
lnea recta a travs del centro de la grfica. Si existe una correlacin positiva, El procedimiento para encontrar la correlacin curvilnea se encuentra fuera del
entonces los puntos del diagrama de dispersin se agruparn alrededor de la lnea mbito de este texto. En cambio, volvemos nuestra atencin hacia los coeficientes de
recta imaginaria que se indica en la Figura lI.2(a). Por el contrario, si una correla- correlacin, que expresan numricamente tanto la fuerza como la direccin de la
. cin negativa est presente, los puntos del diagrama de dispersin rodearn la lnea correlacin lineal en lnea recta. Tales coeficientes de correlacin se encuentran
imaginaria como se muestra en la Figura l1.2(b). generalmente entre -1,00 Y + 1,00 como sigue:
En su mayora los investigadores sociales buscan establecer una correlacin
lineal, ya sea positiva o negativa. Sin embargo, es importante hacer notar que no se -1,00 <-- correlacin negativa perfecta
puede considerar que todas las relaciones entre X y Y forman una lnea recta. -0,95 <-- correlacin negativa fuerte
Existen muchas correlaciones curvilneas que indican que una variable aumenta a
medida que la otra se incrementa hasta que la relacin misma se invierte, de manera -0,50 <-- correlacin negativa moderada
que una variable decrece finalmente mientras que la otra sigue acrecentndose.
-0,10 <-- correlacin negativa dbil
O sea que una relacin entre X y Y que comienza como positiva se vuelve negativa; una
relacin que comienza como negativa se vuelve positiva. Para ilustrar una correlacin 0,00 <-- ninguna correlacin
curvilnea, estdiese la relacin entre el nmero de hijos (tamao de la familia) y el
estatus socioecon6mico. Como se muestra en la Figura 11.3, los puntos del +0,10 <-- correlacin positiva dbil
diagrama de dispersin tienden a formar una curva en forma de U ms que una lnea +0,50 <-- correlacin positiva moderada
+0,95 <-- correlacin positiva fuerte
$14 000 (Alto) 140
FIGURA 11.2 Diagramas 12000 120 +1,00 <-- correlacin positiva perfecta
de dispersin que 10000 100
representan (a) una <> 8000 80
correlacin positiva ~ 6000 60 Vemos entonces que valores numencos negativos como -1 00 -O 95 -o 50 y
entre la preparacin y
..s 4000 40 -0,10 significan una correlacin negativa, en tanto que valor~s ~umrico~ po~itivos
2000 (Bajo) 20
el ingreso y (b) una como +1,00, +0,95, +0,50 y +0,10 indican una correlacin positiva. Con respecto
O l.-L--l.....L....L-L.l-L-l---l~ Ol.-4'--J'-'6-.L-SL.J'-'10-1-'-1-1L-i
correlacin negativa 4 5 6 7 S 9 10 11 12 13 5 7 9 2 13 al grado de asociacin, mientras ms cerca est de 1,00, en una u otra direccin,
entre la preparacin y Aos de Aos de mayor es la fuerza de la correlacin. En vista de que la fuerza de una correlacin es
el prejuicio estudio (a) estudio (b) indepen dien te de su direccin, podemos decir que -0,10 y '+0,10 son iguales en

1
._--------------------------------.................. _~-'---, .....
204 lA toma de decisiones Correlacin 205

FIGURA 11.4 Una Disrribucin X Disrribucin Y


cuanto a fuerza (ambas son muy dbiles) y que -0,95 y +0,95 tambin tienen igual
in terpretacin de la
fuerza (ambas son muy fuertes).
correlacin positiva
contra la negativa por
UN COEFICIENTE DE CORRELACION PARA DATOS POR INTERVALOS
el puntaje z

Con la ayuda del coeficiente de correlacin de Pearson (r), podemos determinar la


fuerza y la direccin de la relacin entre las variables X y Y. las cuales han sido
medidas al nivel por intervalos. La r de Pearson refleja hasta qu punto cada
miembro de la muestra obtiene el mismo puntaje z sobre dos variables X y Y. En el Correlacin positiva
caso de una correlacin positiva, los dos puntajes z de un entrevistado tienen el
mismo signo, ya sea positivo o negativo, y estn situados aproximadamente a la
misma distancia de la media de cada distribucin de puntajes. As, si el individuo A
logra un puntaje por encima de la media en X. tambin 10 hace en Y; si el individuo
B logra un puntaje por debajo de la media en X. tambin lo hace en Y. En el caso
de una correlacin negativa, los puntajes z de un entrevistado tienen signos opuestos,
indicando que son equidistantes de sus medias pero que caen en lados opuesto~ a
ellas. Si el individuo A logra un puntaje sobre la media en X. en Y lo obtiene por
debajo de la media si el individuo B obtiene un puntaje por debajo de la media en
X. en Y lo logra por encima de ella. La interpretacin de la correlacin positiva y Correlacin negariva
negativa por el puntaje z se ha ilustrado en la Figura 1104. Para aplicar la frmula para la r de Pearson debemos encontrar primero X. Y,
Ahora podemos definir la r de Pearson como la media de los productos del
puntaje z para las variables X y Y. Por frmula, Sx y Sy como sigue:
TABLA 11.1 Relacin Aos de estudio
entre el nivel educativo
:E(ZXZy) del entrevistado y la Nio Padres (X) Nios (Y)
r =-;- ----------_ ..
preparacin del padre
A 12 12
B 10 8
donde: e 6 6
D 16 11
r = el coeficiente de correlacin de Pearson E 8 10
F 9 8
G 12 11
Zx = el puntaje z de un individuo en la variable X. igual a X - X
Sx Para cada muestra ahora encontramos los puntajes z y los puntajes z-producto para las
variables X y Y.
z y = el puntaje z de un individuo en la variable Y. igual a y - y
Sy X X' Y Y'
12 144 12 144
N = el nmero total de pares de puntajes X y Y 10 100 8 64
6 36 6 36 - 'X - lY
A fin de ilustrar la aplicacin de la r de Pearson, utilicemos la frmula anterior 16 256 11 121 X = Y= N
8 64 10 100
para obtener un coeficiente de correlacin para la relacin entre el nmero de aos 9 81 8 64
de estudio que complet el padre (X) y el' nmero de aos de estudio que complet 12 144 11 121 73 66
lX = 73 lX' = 825 lY = 66 lY' = 650 =7 =7
su hijo (Y). Los datos de la Tabla 11.1 representan esta relacin en una muestra = 10,43 = 9,43
aleatoria de siete entrevistados.

---~.
206 Lo toma de decisiones

Sx'" R-x' Sy=


Y' -
fW
VN
N
-Y'
l el de sus padres. Es decir, los entrevistados cuyos padres alcanzaron un alto nivel
e?ucativo t~mbin. tiende~ a l~grarloi los entrevistados cuyos padres lograron un
Correlacin 207

ruvel educativo baJo tambIn tienden a tener un bajo nivel de educacin.


= ~~ - (10,43)2 = ~~ - (9,43)'
UNA FORMULA PARA CALCULAR LA r DE PEARSON
=V 117,86 - 108,78 = v92,86 - 88,92
'" v9,08 = V3,94 El clculo de la r de Pearson a partir de los puntajes z ayuda a relacionar el tema de
= 3,01 = 1,98 la correlacin con nuestro anterior estudio de los puntajes estndar y la curva
normal. Sin embargo, la frmula de los puntajes z para la r de Pearson requiere
clculos largos y demorados. Afortunadamente existe una frmula alternativa para la
Para ilustrar el procedimiento para obtener zx, Zy, y ZXZy, examinemos las r de Pearson que trabaja directamente con puntajes crudos, eliminando con ello la
respuestas X y Y del mi~bro A de la muestra. Ya sabemos que X = 10,43 y sx = necesidad de obtener puntajes z productos para las variables X y Y. De acuerdo con
3,01. Puesto que X - X = 12 - 10,43 = 1,57 para el miembro A de la muestra, la frmula para calcular la r de Pearson,
encontramos que su Zx = 1,57/3,01 = +0,52. En otras palabras, los 12 aos de
NIXY - (IX)(I Y)
r =
x-x y-y v[NIX' - (IX)'][NIY' _ (IY)')
X X-X Sx Y y-y Sy Z,rZII

A 12 1,57 0,52 12 2,57 1,30 0,68 donde:


B 10 -0,43 -0,14 8 -1,43 -0,72 0,10
e 6 -4,43 -1,47 6 -3,43 -1,73 2,54 r = el coeficiente de correlacin de Pearson
D 16 5,57 1,85 11 1,57 0,79 1,46 N = el nmero total de pares de puntajes X y Y
E -2,43 -0,81 10 0,57 -0,24
8
-1,43 -0,48
0,29
0,34
X = puntaje crudo en la variable X
F 9 8 -1,43 -0,72
G 12 1,57 0,52 II 1,57 079 0,41 Y = puntaje crudo en la variable Y
i(z...z.) = 5,29
Para ilustrar el uso de la frmula para calcular la r de Pearson volvamos a los
educacin de A caen aproximadamente media desviacin estndar por encima de la datos de la Tabla 11.1 respecto a la relacin entre el nmero de aos de estudio que
media de la distribucin. Igualmente sabemos que Y = 9,43 y Sy = 1,98. Ya que Y complet el padre (X) y el nmero de aos que complet su hijo (Y). Para aplicar la
- Y = 12 - 9,43 = 2,57 para e: miembro A de la muestra, encontramos que su Zy frmula de la r de Pearson debemos obtener primero X, Y. XY, Xl y Yl, como
= 2,57/1,98 = + 1,30. En otras palabras, los 12 aos de educacin de A caen sigue:
aproximadamente una y un tercio desviaciones estndar por encima de la media de
esta distribucin. Para obtener ZXZy para A, multiplicamos su puntaje Z +0,52 por X X' y Y' XY
su puntaje z + 1,30 (0,52 X 1,30 = 0,68). Como se muestra en la columna de la 12 144 12 144 144
derecha anterior, la suma de estos puntajes productos z es 5,29. 10 100 8 64 80
Sustituyendo en la frmula de Pearson, 6 36 6 36 36
16 256 11 121 176
8 64 10 100 80
(z XZy) 9 81 8 64 72
r=--- 12 144 11 121
N 132
X = 73 X' = 825 y = 66 Y' = 650 UY = 720
5,29
=-7-
= + ,75 7(720) - (73)(66)
r = -yr.[==7(;;:'872 5:07)""'_===:(7::3"""),2)[==7~(6""'5'='0)""'_==:'(7
66:07)==,]
En el ejemplo anterior, la r de Pearson es igual a +0,75, lo que indica una 5040 - 4818
correlacin positiva bastante fuerte entre el nivel educativo que alcanzan los nios y V(5775 - 5329)(4550 - 4356)
Correlacin 209
208 La tOMa de decisiones

222 t = ~O,~75~4;:;;V5::::;5~
=; -V-;(=4=4~6=)(==1=:9=4=) vI - (0,754)2
0,754(2,236)
222
= v86524 vl -0,569
1,69
222
= 294,15 = vO,431

= +<l,75 1,69
= 0,656
Comprobando la significancia de la r de Pearson = 2,58

El coeficiente de correlacin de Pearson nos da una medida exacta de la fuerza y la Al consultar la Tabla C, al final del texto, encontramos que una razn t significativa
direccin de la correlacin en la muestra que se est estudiando. Si hemos tomado debe ser igualo mayor que 2,57 al nivel de confianza 0,05 con 5 grados de libertad.
una muestra aleatoria de una poblacin especfica, es posible que an busquemos Ya que nuestra razn t calculada (t = 2,58) es mayor que el valor de la tabla
determinar si la asociacin obtenida entre X y Y existe en la poblacin y no se debe requerido, podemos rechazar la hiptesis nula de que r = O Y aceptar la hiptesis de
solamente al error de muestreo. investigacin de que r *
O. Los niveles educativos del entrevistado y de su pad,re
Para comprobar la significancia de una medida de correlacin, usualmente estn realmente asociados en la poblacin.
planteamos la hiptesis nula de que no existe correlacin en la poblacin. Con
respecto al coeficiente de correlacin de Pearson, la hiptesis nula afirma que Un mtodo simplificado para comprobar la significancia de r

r= O Afortunadamente, el proceso que se ilustr anteriormente para comprobar la signifi-


cancia de la r de Pearson ha sido simplificado, de manera que es innecesario calcular
\' en tanto que la hiptesis de investigacin establece que realmente una razn t. En lugar de esto vamos a la Tabla F de la parte final del
texto, donde encontramos una lista de valores significativos de la r de Pearson para
r *O los niveles de confianza de 0,05 y 0,01 con el nmero de grados de libertad de 1 a
90. Comparando directamente nuestro valor calculado de r con el valor correspon-
Como sucedi en captulos anteriores, comprobamos la hiptesis nula seleccio- diente en la tabla, se produce el mismo resultado que si hubiramos calculado
nando un nivel de confianza tal como 0,05 o 0,01 y calculando una prueba de realmente una razn t. Si el coeficiente de correlacin de Pearson calculado es
significancia apropiada. Para comprobar la significancia de la r de Pearson podemos menor que el valor correspondiente en la tabla, debemos aceptar la hiptesis nula de
calcular una razn t con los grados de libertad iguales a N - 2 (N es igual al nmero que r = O; si, por otra parte, el r calculado es igualo mayor que el valor de la tabla,
de pares de puntajes). Con este fin, la razn t se puede calcular por la frmula, rechazamos la hiptesis nula y aceptamos la hiptesis de investigacin de que existe
una correlacin en la poblacin.
t_r~ Volvamos, con fines ilustrativos, sobre nuestro ejemplo anterior en el cual se
-~
comprueba un coeficiente de correlacin igual a +0,754 por medio de una razn t
que se encontr estadsticamente significativa. Mirando la Tabla F, al final del texto,
donde
encontramos ahora que el valor de r debe ser de por lo menos 0,754 para rechazar la
t = la razn t para comprobar la significancia estadstica de la r de Pearson hiptesis nula al nivel de confianza de 0,05 con 5 grados de libertad. Por 10 tanto,
N = el nmero de pares de puntajes X y Y este mtodo simplificado nos lleva a la misma conclusin que el procedimiento ms
largo del clculo de la razn t.
r = el coeficiente de correlacin de Pearson obtenido

Volviendo al ejemplo anterior, podemos comprobar la significancia de un


La correlacin: una ilustracin
coeficiente de correlacin igual a +0,754 entre el nivel educativo del entrevistado y
Para ilustrar el procedimiento paso a paso para obtener un coeficiente de correlacin
el de su padre.
210 La toma de decisiones

de Pearson (r), examm


. emos la relacin entre los aos de estudio completados (X) Y
t ' n la siguiente muestra de diez entrevistados:
T -910
'1'(1325)(736)
los prejuicios (Y) tal como se encon ro e
- 910
v'975200
Aos de estudiO (Xl Prejuicios ( Yf
Entrevistado -910
10 1 = 987,52
A
3 7
B = -0,92
12 2
e 3
D 11
6 5
E 4
Nuestro resultado indica una correlacin negativa bastante fuerte entre la educacin
F 8
14 1 y los prejuicios.
G
9 2
H 3
1 10 PASO 3: Hallar los grados de libertad
2 10
J
a Los datos ms altos sobre la medida de los prejuicios (de 1 a 10)
gl=N-2
= 10 - 2
indican mayores prejuicios.
=8
Para encontrar la r de Pearson seguimos los siguientes pasos:
PASO 4: Comparar la r de Pearson obtenida con el valor correspondiente de la r de
PASO 1: Encontrar los valores de (1) :EX, (2) :EX', (3) :E Y, (4):EX', Y (5) :EXY Pearson en la Tabla F

X X' Y Y' XY r obtenida = -0,92


Entrevistado
r de la tabla = 0,63
100 1 1 10 gl 8
A 10 21
=
3 9 7 49
B 4 24 P = 0,05
e 12 144 2
11 121 3 9 33
D 25 30
E 6 36 5 Como se indica ms arriba, para rechazar la hiptesis nula de que r = O al nivel
64 4 16 32
F 8 14 de confianza de 0,05 con 8 grados de libertad, nuestro valor calculado para la r de
14 196 1 1
G 4 18 Pearson debe ser de por 10 menos 0,63. Ya que nuestra r obtenida es igual a -0,92,
H 9 81 2
10 100 3 9 30 rechazamos la hiptesis nula y aceptamos la hiptesis de investigacin. Esto es,
1 100 20
J 2 4 10 nuestro resultado sugiere que hay una correlacin entre la educacin y los prejui-
IX = 85 IX' = 855 y = 38 Y' = 218 IXY = 232
cios que est presente en la poblacin de la cual se extrajo nuestra muestra.
(1) (2) (3) (4) (5)
Requisitos para el uso del coeficiente de correlacin de Pearson
en la frmula para el coeficiente de
PASO 2: Sustituir los valores del paso
Con el fin de emplear correctamente el coeficiente de correlacin de Pearson, como
correlacin de Pearson
medida de asociacin entre las variables X y Y, se deben tomar en cuenta los
NIXY - (IX)(IY) siguientes requisitos:
r = V[NIX' _ (IX)')[NIY' (IY)')
10(232) - (85)(38) I. Una relacin lineal en lnea recta: la r de Pearson es til solamente para
= v'0(855) - (85)')[10(218) (38)') detectar una correlacin lineal en lnea recta entre X y Y.
2. Los datos de intervalo: ambas variables, X y Y, deben medirse al nivel por
2320 - 3230
intervalos de manera que se pueda asignar puntajes a jos entrevistados.
= '1'(8550 - 7225)(2180 - 1444)
111 La toma de decisiones Corre/acin 213

3. El muestree;> aleatorio: los miembros de la muestra deben haberse extrado ciones perfectas,
" ya sea,+ 1,00 o -1,00. Esto es importante ya que por regla gen era 1
aleatoriamente de una poblacin especfica. De esta manera no puede apli- 1as pre dICClOnes se vuelven mas exactas a medida que aumenta el tama'lo de u
.. P na
carse una prueba de significancia. corre 1aClOn. ara las correlaciones que son menos que perfectas, podemos construir
4. Las caractersticas normalmente distribuidas: la prueba de la significacin de an una prediccin o lnea de regresin que se "ajuste" mejor a la direccin de los
la r de Pearson requiere que tanto la variable X como la Y estn normalmen- puntos en un -diagrama de dispersin. Esto es cierto incluso aunque todos los puntos
te distribuidas en la poblacin. En muestras pequeas, el no llenar el nunca estn sobre esa lnea y nuestras predicciones sean menos que exactas. La lnea
requisito de caractersticas normalmente distribuidas puede menoscabar seria- de regresin para esa correlacin que es menos que perfecta se presenta en la Figura 11.6.
mente la validez de la r de Pearson. No obstante, este requisito es secundario
cuando la magnitud de la muestra es igualo mayor que 30 casos.
La ecuacin de regresin
ANALISIS DE REGRESION
La lnea de regresin puede describirse mediante la frmula
Establecer una correlacin entre dos variables puede ser til para predecir los valores
de una variable (Y) conociendo los valores de otra variable (X). La tcnica que se Y' = r (:.:) X - r G:) X + Y
emplea para hacer tal prediccin se conoce como anlisis de regresin.
Hemos visto anteriormente en este captulo que la fuerza de una correlacin donde
entre X y Y aumenta a medida que los puntos del diagrama de dispersin se
estrechan formando una lnea recta imaginaria. Podemos ahora identificar esa lnea Y' = el valor calculado para Y (Nota: Es slo una prediccin y puede variar
como una lnea de regresin, lnea recta que se dibuja a travs del diagrama de de Y.)
dispersin, la cual representa la mayor "conveniencia" posible para hacer prediccio- r = el coeficiente de correlacin de Pearson para la relacin entre las variables
nes de X a Y. XyY
Sy = desviacin estndar muestral de la distribucin de la variable Y
Prediccin de Y a partir de X Sx = desviacin estndar muestral de la distribucin de la variable X
X= I'n valor dado de X
Imaginemos un estudio que trata de la correlacin entre el nmero de aos de X= media muestral de la distribucin de la variable X
estudio completados (X) y el ingreso anual (Y) en el que obtenemos una correlacin y= media muestral de la distribucin de la variable Y
positiva perfecta (r = + 1,00) y los siguientes resultados para una muestra de seis
entrevistados: Para ilustrar el uso de la frmula de regresin para 'predecir los valores de Y,
supongamos que hemos obtenida un coeficiente .de correlacin igual a +0,85 entre
Entrevistado Aos de estudio (X) Ingreso (Y)
los aos de estudio (X) y el ingreso anual (Y). '
FIGURA 11.5 Una lnea de $35000
A 18 $30000
B 6 10000 regresin para la 30000
e 9 15000 relacin entre los aos
D 15 25000 de estudio completados 25000
E 12 20000 (X) y el ingreso anual
F 3 5000 o 20000
(Y) (r =+1,00) II
~ 15000
Como muestra la Figura 11.5, podemos marcar los puntajes anteriores y dibujar
lO 000
una lnea recta a travs de ellos, una lnea de regresin que conecta los puntajes de
cada entrevistado de la muestra. Una lnea de regresin de este tipo permite la
siguiente prediccin: un individuo con 18 aos de estudio ganar $ 30 000; un
5000

O
individuo con 3 aos de estudio ganar $ 5 000 Y as sucesivamente. 3 6 9 12 15 18

1 Como se seal anteriormente, en la investigacin social son pocas las correla- Afios de estudio

I
l ~--
114 Lo toma de decisiones

Dados los datos yo = 1,06(6) + 4989,4


= 6,36 + 4989,4
r = +0,85 = $4995,76
Sr = 0,50
El anlisis de regresin: una ilustracin
Sx = 0,40
X = 10 aflos
El anlisis de regresin se puede ilustrar ms volviendo a examinar la relacin entre
y = $5000
el nivel educativo logrado por los padres (X) y el de sus hijos (Y). Como se anot
anteriormente en este captulo, esta relacin produjo un coeficiente de correlacin
ahora podemos calcular la ecuacin de regresin como sigue:
de Pearson igual a 0,75 en una muestra de siete entrevistados:

Y' = 0,85 (0,5) X _ 0,85 (~ ) 10 + 5000 Educacin


0,4 0,4. Entrevistado Padres Entrevistados
= 1,06X - 1,06(10) + 5000
(X) (Y)
= 1,06X - 10,6 + 5000
= I,06X + 4989,4 A 12 12
B 10 8
Para predecir el valor de Y por cada X, simplemente "sustituimos" los valores e 6 6
D 16 11
de X Por ejemplo: cul es el ingreso anual calculado para un individuo que ha E 8 10
terminado 12 afias de estudio? Sustituyendo en la ecuacin de regresin, F 9 8
G 12 11
Y' = 1,06(12) + 4989,4
= 12,72 + 4989,4 Podemos predecir los valores de Y (educacin del hijo) del conocimiento de los
= 5002,12 valores de X (educacin del padre) mediante los pasos siguientes:

PASO 1: Encontrar el coeficiente de correlacin de Pearson


FIGURA I 1.6 Una lnea
r = NllY - (U)(Y)
de regresin para la $35000
v'[NU2 - (U)2][NP - (Y)2]
relacin entre los aos
.' .'..
de estudio completados
(X) y el ingreso anual
30000

25000
..
.. .
7(720j - (73)(66)
v'[7(825) - (73)2][7(650) - (66)2]
(Y) (r < +1,00) ~
'"te,
20 000 e.e . 5040 - 4818

....''
.:; v'(5775 - 5329)(4550 - 4356)
15000
222
10000 . .' v'86524
5000
222
o = 294,15
3 6 9 12 15 18
= +0,754
Aos de estudio

Por 10 tanto, predecimos que el ingreso anual de alguien que tiene 12 aos de PASO 2: Obtener la media muestral para X yY
estudio es de $ 5 002,12.
Del mismo modo, podemos predecir que un individuo que completa 6 aos de -
X=-
U -
Y=-
y
estudio gana $ 4 995,76, o N N

j
--- ----~----------:------------""""'--- -
.......I

Correlacin 217
216 La tomo de decisiones
cuyos padres han completado 6 arios de estudio habrn completado 7,21 aos de
~ 73 66
-7 =7 educacin.
= 10,43 = 9,43 COEFICIENTE DE CORRELACION PARA LOS DATOS ORDINALES.

PASO 3: Obtener la desviacin estndar muestral para X y Y Hasta este punto hemos presentado la r de Pearson un coeficiente de correlacin
para aplicarse a los datos que se pueden marcar en el nivel de medicin por
~X' - y. - intervalos. Vamos ahora al problema de encontrar el grado de asociacin para los
sx= N -x' Sy = "VN - y. datos ordinales: datos que han sido colocados por rangos u ordenados en relacin a
= v'a.p - (10,43)2 = v'~ - (9,43)2 la presencia de una caracterstica dada.
= v1l7,86 - 108,79 = v'92,86 - 88,93 Para tomar un ejemplo de la investigacin social, considrese la relacin entre el
= V3,93 estatus socioeconmico y la cantidad de tiempo empleado en mirar televisin.
= V9,07
Imaginemos que una muestra de ocho entrevistados pudiera colocarse por rangos
= 3,01 = 1,98
como sigue:
PASO 4: Sustituir los valores de los pasos 1, 2 Y 3 en la ecuacin de regresin
Esta tus Tiempo
Entrevistado socioeconmico (X) empleado
Y' = r(:;) X - r(:;) X + Y Rango en ver TV (Y) Rango

1,98) X - 0,75 ( -1,98) 10,43 + 9,43 Miguel 1 ms alto 2 mayor


= 0,75 (- Araceli 2 estatus socio- 1 tiempo
3,01 3,01
Juan 3 ~ viendo TV
= O,75(O,66)X - 0,75(0,66)10,43 +
9,43 Norma 4
econmico
= O,SOX - 5,22 + 9,43 Mara 5 4
= O,50X + 4,21 Toms 6 8
Rafael 7 6
Alejandra 8 7
PASO 5: Determinar el valor de Y' para los valores de X
Como se muestra aqu, Miguel ocup el primer rango con respecto al estatus
[Ejemplos) socioeconmico, pero el segundo en relacin con la cantidad de tiempo empleado en
mirar televisin; la posicin de Araceli fue segunda con respecto al estatus socioeco-
1. Para un entrevistado cuyo padre complet 16 aos de estudio: nmico y primera en trminos del tiempo empleado en mirar televisin, y as
Y' = O,SOX + 4,21 sucesivamente.
= 0,50(16) + 4,21 Para determinar el grado de asociacin entre el estatus socioeconmico Y la
= 8,0 + 4,21 cantidad de tiempo empleado en ver televisin, aplicamos el coeficiente de correla-
= 12,21 cin por rangos ordenados (r,) de Spearman. Por frmula.

2. Para un entrevistado cuyo padre complet 6 aos de estudio: 6W 2


r, = 1 - N(N 2 - 1)
Y' = O,SOX+ 4,21
= 0,50(6) + 4,21
= 3,0 + 4,21 donde:
., = 7,21 r, = el coeficiente de correlacin por rangos ordenados
D = la diferencia de rangos entre las variables X YY
l1 Conclusin: Podemos predecir que los entrevistados cuyos padres han completa-
do 16 aos de estudio habrn completado 12,21 aos de educacilI; los entrevistados
N = el nmero total de casos
J
l. ~-
218 LD toma de decisiones Correlacin 219

Exponemos el presente ejemplo tal como se muestra en la Tabla 11.2. colocar por rangos una muestra de 10 bachilleres, que estn por graduarse, con
r~specto a su posicin en la clase y que podemos obtener sus puntajes de C.l. como
Estatus Tiempo sIgue:
Entrevistado socio- empleado en
econmico X ver TV y D D'
Entrevistado Posicin en CI.
1 1 2 -1 1 la clase X y
TABLA 11.2 La relacin 2 2 1 1 1
entre el status socio- 3 3 3 O O Jaime 10 - (ltimo) 110
4 4 5 -1 1 Juan 9 90
econmico y el tiempo
5 5 4 1 1 Araceli 8 104
empleado en ver 8 -2 4 Norma 7 100
6 6
televisin 7 7 6 1 1 Carlos 6 110
8 8 7 1 1 Rosa Mara 5 110
!.D' = 10 Alejandra 4 132
Paco 3 115
Ricardo 2 140
Aplicando el coeficiente de correlacin por rangos ordenados a los datos de la Aldo 1 - (primero) 140
Tabla 11.2

6(10) Antes de seguir con el procedimiento estndar para obtener un coeficiente de


r, = 1 - 8(64 - 1) correlacin por rangos ordenados, coloquemos primero, por rangos, los puntajes de
el. de nuestros futuros bachilleres:
60
= 1 - 8(63)
60 Entrevistado Cl Rango Cl
=1 - 504
Jaime 110 7
=1 -0,12 Juan 90 10~
+ 0,88 Araceli 104 8 las posiciones 5, 6
Norma 100 ~;? Y 7 estn empatadas
Carlos 110
Rosa Mara 110 5
Por lo tanto, encontramos una fuerte correlacin positiva (r, ;: + 0,88) entre el Alejandra 132 3
estatus socioeconmico y el tiempo empleado en ver televisin: los entrevistados con Paco 115 4
Ricardo 140 271as posiciones 1 y
un alto estatus socioeconmico tienden a ver bastante televisi6n; los entrevistados con ba- 140
Aldo 1 2 estn eropatadas
jo estatus socioecon6mico tienden a pasar poco tiempo viendo televisin.

Como tratar los rangos empatados Como se muestra aqu, Ricardo y Aldo recibieron los puntajes de C.l. ms altos, y,
por lo tanto, estn empatados para el primero y segundo puestos. Igualmente, ~osa
En la prctica real no es siempre posible colocar a nuestros entrevistados por rangos Mara, Carlos y Jaime lograron un puntaje de el. de 110 que los deja empatados en
u ordenados evitando los empates en todas y cada una de las posiciones. Podramos los puestos quinto, sexto y sptimo.
encontrar, por ejemplo, que dos o ms entrevistados pasan exactamente la misma Para determinar la posicin exacta en el caso de un empate, debemos sumar los
cantidad de tiempo frente al televisor, que el rendimiento acadmico de dos o ms rangos empatados y dividir entre el nmero de empates. Por lo tanto, la posicin de
estudiantes es indistinguible, o que varios entrevistados tienen el mismo puntaje de un C.l. de 140, que se ha categorizado como 1 y 2, constituira el rango "promedio".
coeficiente intelectual.
Para ilustrar el procedimiento de obtencin de un coeficiente de ~orrelacin por 1+2=15
rangos ordenados, en el caso de un empate entre ellos, digamos que estamos 2 '
interesados en determinar el grado de asociacin entre las categoras en un grupo
que se grada y el coeficiente intelectual (C.l.). Supngase tambin que podemos Del mismo modo, encontramos que la posicin de un puntaje d'e C.l. de 110 es

.
220 LtJ tOTTUJ de decisiones Correlacin 221

5+6+7 =60 (N) ms que a un nmero rle grados de libertad en particular.' En el presente caso N
3 ' = 10 Y un '. significativo debe ser igual o mayor que 0,648. Por lo tanto
rechazamos la hiptesis nula de que '. = O Y aceptamos la hiptesis de investigaci~
Habiendo encontrado la posicin por rango de cada puntaje de C.I. podemos de que la posicin en la clase y el C.I. en realidad estn relacionados en la poblacin
proceder a exponer este problema tal como se muestra en la Tabla 11.3. de la cual se extrajo nuestra muestra.

Posicin en C.l Correlacin por rangos ordenados: una ilustracin


Entrevistado la clase (X) (Y) X-Y=D D2
1 10 6 4,0 16,00 Podemos resumir el procedimiento paso a paso para obtener el coeficiente de
Tabla 11.3 la relacin 2 9 10 -1,0 1,00 correlacin por rangos ordenados en relacin entre el grado de participacin en las
entre la posicin en la 3 8 8 O O
4 7 9 -2,0 4,00
asociaciones voluntarias y el nmero de amigos cercanos. Esta relacin se indica en
clase y el eJ. 5 6 6 O O la siguiente muestra de cinco entrevistados:
6 5 6 -1,0 1,00
7 4 3 1,0 1,00
8 3 4 -1,0 1,00 Participacin en
9 2 1,5 0,5 0,25 asociaciones Nmero de
10 1 1,5 -0,5 O,:!5 voluntarias (X) Rango amigos (Y)
llJ2 = 24,50 1 __ mayor
A 6
B 2 participacin 4
Obtenemos el coeficiente de correlacin por rangos ordenados para el problema e 3 6
de la Tabla 11.3 como sigue: D 4 2
E 5 -.--menor 2
participacin
6(24,50)
r. = 1 - 10(100 _ 1)
= 1 _ 147 Para determinar el grado de asociacin entre la participacin en las asociaciones
990 voluntarias y el nmero de amigos, llevamos a cabo los siguientes pasos.
= 1 - 0,15
+0,85 PASO 1: Colocar por rangos a los entrevistados sobre las variables X y Y Como
antes se mostr, colocamos por rangos a los entrevistados en relacin a X. participa-
cin en asociaciones voluntarias, asignando el rango de 1 al entrevistado que
El coeficiente por rangos ordenados resultante indica una correlacin positiva bastan-
participa ms y el rango de 5 al entrevistado que participa menos.
te fuerte entre la posicin en clase y el c.I. o sea que los estudiantes con puntajes Tambin colocamos por rangos a los entrevistados en trminos de Y, nmero de
de C.1. altos tendieron a ocupar un alto rango en su clase; los estudiantes con amigos. En el presente ejemplo tenemos casos de rangos empatados como se muestra
puntajes de c.1. bajos tendieron a lograr bajos rangos en el grupo. a continuacin:
Prueba de significancia del coeficiente
de correlacin por rangos ordenados Nmero de amigos (Y) Rango
1 >Empa.tados
Cmo hacemos para comprobar la significancia de un coeficiente por rangos 3 en prImero
ordenados? Por ejemplo: Cmo podemos determinar a la correlacin obtenida de 2 y segundo
+0,85 entre la posicin en la clase y el C.I. puede generalizarse a una poblacin ~::==- Empatados
mayor? Para comprobar la significancia de un '. calculando simplemente vamos al en cuarto y quinto
final del texto, a la Tabla G, donde encontramos los valores significativos del
coeficiente de correlacin por rangos ordenados para los niveles de confianza de Para transformar los rangos empatados, tomamos un "promedio" de las posicio-
0,05 y 0,01. Ntese que nos referimos directamente el nmero de pares de puntajes nes empatadas:
112 La tomo de decisiones
r Correlacin

Al consultar la Tabla G al final del libro encontramos que un coeficiente de


223

1 + 2 correlacin de 1,00 (correlacin perfecta) es necesario para rechazar la hiptesis nula


Para las posiciones primera y segunda: - 2 - = 1,5
al nivel de confianza de 0,05 con un tamao muestral de 5. Por lo tanto, aunque
hemos descubierto una fuerte correlacin positiva entre la participacin en asociacio-
Para las posiciones cuarta y quinta: 4+5=45
2 ' nes voluntarias y el nmero de amigos, an debemos aceptar la hiptesis nula de que
r, = O. Nuestro resultado no puede generalizarse a la poblacin de la que extrajimos
Por lo tanto, nuestra muestra.

x y Requisitos para el uso del coeficiente de correlacin por rangos ordenados


1 1,5
2 3,0 El coeficiente de correlacin por rangos ordenados deber emplearse cuando se
3 1,5 puedan cumplir las siguientes condiciones:
4 4,5
5 4,5
l. Una correlacin lineal: el coeficiente por rangos ordenados detecta relacio-
nes lineales entre X y Y.
PASO 2: Buscar T.D 1 Debemos encontrar la diferencia entre los rangos X y Y (D), 2. Los datos ordinales: las variables X y Y deben ordenarse o colocarse Qor
2
elevar al cuadrado cada diferencia (D 2 ) Y sumar estos cuadrados (T.D ): rangos.
3. El muestreo aleatorio: los miembros de la muestra deben haber sido extra-
dos aleatoriamente de una poblacin mayor.
x y D D'
1 1,5 -0,5 0,25 LA GAMMA DE GOODMAN y KRUSKAL
2 3,0 -1,0 1,00
3 1,5 1,5 2,25
4 4,5 -0,5 0,25 La correlacin puede mirarse en trminos del grado hasta el cual se pueden predecir
5 4,5 0,5 0,25 o adivinar los valores de una variable conociendo los valores de otra. Esto se puede
ID' =4,00 ver muy directamente en la gamma (G) de Goodman y Kruskal, una alternativa para
el coeficiente de correlacin por rangos ordenados que prefieren muchos investiga-
PASO 3: Sustituir el resultado del paso 2 en la frmula para el coeficiente de dores sociales para medir el grado de asociacin entre variables de nivel ordinal.
correlacin por rangos ordenados La frmula bsica para gamma es

r, = 1 - N!N' - 1)

6(4) donde
=1- 5(24)
24 fe = la frecuencia de coincidencias
= 1 - 120 /; = la frecuencia de las inversiones
= 1-0,20
= +0,80 Las coincidencias y las inversiones se pueden entender como expresiones de la
direccin de la correlacin entre las variables X y Y. Una coincidencia perfecta
PASO 4: Comparar el coeficiente de correlacin por rangos ordenados obtenido con indica una correlacin positiva perfecta (+ 1,00): todos los individuos que se estn
el valor correspondiente de r, en la Tabla G estudiando se han colocado por rangos exactamente en el mismo orden sobre ambas
variables. Como se muestra a continuacin, un individuo que logra un primer rango
r, obtenido =0,80 sobre X tambin lo logra sobre Y; un individuo que tiene un segundo rango sobre X
r, de la tabla = 1,00
tambin lo tiene sobre Y; y as sucesivamente.
N= 5
P = 0,05
- ------_._-----------_._---

224 La tomo de decisiones Correklcin 225

Supngase que pudiramos ordenar por rangos las seis reas" metropolitanas ms
Individuos Rango Sobre
grandes de .los Estados Unidos con respecto tanto a la magnitud de su poblacin
X y negra (X) y su nivel de discriminacin (Y) como sigue:
A 1 1
B 2 2 Nivel de
e 3 3 Magnitud de la discriminacin
D 4 4
E 5 5 Area metropolitana poblacin negra (X) laboral (Y)
F 6 6 A 6 4
B 1 2
e 2 3
Por contraste, la inversin perfecta indica una correlacin negativa perfecta D 5 5
(-1,00), de manera que los individuos en estudio se colocan por rangos en un orden E 4 6
exactamente inverso sobre dos variables. As, un individuo que logra un primer rango F 3 1
sobre X obtiene el ltimo rango sobre Y; un individuo que tiene un segundo rango sobre X
logra el penltimo sobre Y, y as sucesivamente. As, vemos que el rea metropolitana A tena el nmero ms pequeo de negros y era
la cuarta ms alta respecto a la discriminacin: el rea metropolitana B tena la
poblacin negra ms grande y fue segunda respecto a la discriminacin, y a;
Rango Sobre
sucesivamente.
Individuos X Y
PASO 1: Reordenar los datos de manera que la variable X quede perfectamente
A 1 6 ordenada de mayor a menor. Para determinar el grado de asociacin entre el tamao
B 2 5
e 3 4 de la poblacin negra y la discriminacin laboral, colocamos primero los datos en
D 4 3 una tabla en la que la variable X (en este caso el tamao de la poblacin negra) haya
E 5 2 sido perfectamente ordenada de primero (1) a ltimo (6) y la variable Y (en este
F 6 1
caso el nivel de discriminacin) se haya dejado desordenada. La frecuencia de
coincidencias e inversiones en la columna desordenada (variable Y) indica cunto
Cuando ocurre perfecta coincidencia o inversin se hace posible predecir con difiere, esta columna de rangos, de una colocacin por rangos perfectamente ordena-
total exactitud el rango de un individuo sobre una variable, conociendo el rango que da, ya sea positiva (1, 2, 3, 4, 5,6) o negativa (6, 5,4,3,2,1):
ocupa sobre la otra variable. En el caso de la coincidencia perfecta, por ejemplo, sa-
bemos que una persona que obtiene el tercer rango sobre X tambin lo hace sobre Y. Nivel de
Sin embargo, ya que la correlacin perfecta rara vez ocurre en la prctica de la Tamao de la discrim inacin
investigacin social, nuestra habilidad para hacer predicciones correctas acerca de una Area metropolitana poblacin negra (X) laboral (Y)
variable, basndonos en el conocimiento de otra, debe depender de la cantidad de
coincidencia o inversin en el orden de los rangos de los individuos sobre las dos B 1 2
e 2 3
variables. F 3 1
.E 4 6
D 5 5
El coeficiente gamma: una ilustracin A 6 4

Para ilustrar el uso de gamma, digamos que estuviramos estudiando la magnitud de PASO 2: Obtener la frecuencia de las coincidencias. Para obtener la frecuencia de las
la poblacin negra en las reas metropolitanas de los Estados Unidos en relacin con coincidencias (fe) empezamos con el rango ms alto en la columna Y (rea metropo-
su nivel de discriminacin laboral. Tal estudio podra desarrollarse, por ejemplo, litana B). Para cada rango contamos el nmero de rangos que caen sobre l en la
analizando los datos de poblacin e ingreso disponibles en la Oficina de censos de tabla y que son menores en valor numrico. El nmero de rangos que ocurren por encima
los Estados Unidos. del rango ms alto es siempre cero (puesto que no hay ningn rango por
226 lA toma de decisiones

encima de la cifra ms alta en la tabla). Como resultado, escribimos un cero en la


r Correlacin

tana F), encontramos un rango de 1. Ya que los dos rangos sobre l (3 y 2) son
227
I
j

columna de las coincidencias para el rea metropolitana B. Pasando al segundo rango mayores que 1, aadimos un 2 en la columna de inversiones. Bajando una vez ms,
de la columna Y (rea metropolitana C) contamos el nmero de rangos que caen encontramos un rango de 6 para el rea metropolitana E. Como ninguno de los
sobre l y que son menores en valor numrico. Vemos que solamente el rango de 2 rangos sobre l (1, 3, 2) es mayor que 6, colocamos un cero en la columna de
cae por encima de eso para el rea metropolitana C. Luego, como este rango es inversiones. Continuamos entonces con los rangos restantes y repetimos el procedi-
menor que 3, aadimos un 1 en la columna de las coincidencias. Pasando al siguiente miento de contar o agregar inversiones.
rango de la lista (rea metropolitana F) encontramos un rango de l. Como los
rangos sobre l (3 Y 2) son mayores que 1, anotamos un cero en la columna de las PASO 4: Obtener Lfc Y Lfj. Una vez que se han contado todas las coincidencias e
coincidencias. Bajando una vez ms por la columna Y al rea metropolitana E, inversiones, sumamos las coincidencias (Lfc) Y las inversiones (Lfi) como se muestra
contamos el nmero de rangos sobre l y que son menores de 6. Como los tres a continuacin:
rangos arriba mencionados (l, 3, 2) son menores, colocamos un 3 en la columna de
coincidencias. Seguimos hacia los rangos restantes de la columna Y y repetimos el Coincidencias Inversiones
procedimiento de contar y poner coincidencias. B O O
e 1 O
Nivel de discri- F O 2
E 3 O
Tamao de la minacin (Y) D 3 1
Area metropolitana poblacin negra (X) laboral Coincidencias A 3 2
B 1 2 o
"ire = 10 "ir. = 5
e 2 3 1
F 3 1 o PASO 5: "Sustituir" Lfe Y Lfi en la frmula para gamma
E 4 6 3
D 5 5 3
A 6 4 3 G = "ife - "if
"ife + "ifl
PASO 3: Obtener la frecuencia de las inversiones. Para encontrar la frecuencia de 10 - 5
inversiones, comenzamos de nuevo con la anotacin ms alta en la colurna Y (rea = 10 + 5
metropolitana B). Sin embargo, esta vez contamos para cada rango el nmero de 5
rangos que caen sobre l y que son mayores en valor numrico. Comenzando con el =15
rango ms alto, vemos nuevamente que no existen rangos sobre l y aadimos un = +0,33
cero en la columna de inversiones. Continuando con el segundo rango de la lista en
la columna Y (rea metropolitana C), contamos el nmero de rangos que caen sobre Un coeficiente gamma igual a +0,33 indica la presencia de una correlacin positiva
3 y que son mayores en valor. Slo el rango de 2 cae sobre eso para el rea dbil. Esta es una correlacin basada en la predominancia de coincidencias: hay un
metropolitana C. Ya que este rango es menor, no mayor, que 3, agregamos un cero 33 por ciento de mayor coincidencia que de inversin entre el tamao de la
en la columna de inversiones. Bajando al siguiente rango en la lista (rea metropoli- poblacin negra y la discriminacin laboral.

Nivel de Como manejar los rangos empatados


Tamao de la discriminacin
Area metropolitana poblacin negra (X) laboral (Y) Inversiones Como vimos en relacin con el coeficiente de correlacin por rangos ordenados, no
B 1 2 o siempre es posible evitar empates en los rangos al nivel ordinal de medicin. En
e 2 3 0 efe~to, los investigadores sociales trabajan frecuentemente con medidas ordinales
F 3 1 2 brutas que producen un sinnmero de rangos empatados. Cuando ocurre un nmero
E 4 6 o
D 5 5 1 muy grande de empates, los procedimientos de clculo simples de gamma la convier-
A 6 4 2 ten en una medida de asociacin especialmente til. Para los 'rangos empatados se

,1 \
.- ...
d ...
it.IiIlil
... 6I.............. '**...
# ..... ICeWlt
. ."'#... ...
-dt .......

~
~
J
;

k
~
~
~
_
"
'
228 lA tO/'TUI de decisiones
Correlacin 229
emplea la frmula bsica para gamma, pero las frecuencias de las coincidencias y las CIase alta/afiliacin
inversiones se calculan de manera algo distinta.
Ilustremos el procedimiento para obtener un coeficiente con rangos empatados. ilta . ' " 15(10 + 8 + 7 + 11) = 15(36) = 540
CI ase medla/afihaclOn
Supongamos que un investigador quiera examinar la relacin entre la clase social y la
alta 8(8 + 11) = 8(19) = 152
afiliacin a determinada asociacin voluntaria y obtenga los siguientes datos de Un Clase alta/afiliacin
estudio con cuestionarios de 80 residentes de una ciudad: entre 29 entrevistados de media 10(7 + 11) = 10(18) = 180
la clase alta, 15 eran de la "alta", 10 eran de la "media" y 4 eran de la "baja" CIase media/afiliacin
respecto a la afiliacin a asociaciones voluntarias; entre 25 entrevistados de la clase