You are on page 1of 89
Octava Edicién ESTADISTICA ELEMENTAL John E. Freund Arizona State University Gary A. Simon New York University TRADUCCION JOSE JULIAN DIAZ DIAZ Traductor REVISION TECNICA MARCIAL GIL RICO RICO Ingeniero Civil México» Argentina» Brail + Colombia * Costa Rica + Chile + Eeuador Espata + Guatemala» Panam + Pera * Puerto Ricp + Uryguay ¢Vemézuela 040220 COLEF BIBLIOTECA INTRODUCCION 1.1 El crecimiento de la estadistica moderna 2 1.2 Elestudio de la estadistica 3 1.3 Estadistica descriptiva e inferencia estadistica 5 1.4 La naturaleza de los datos estadisticos * 7 1.5 Revisi6n de términos clave 10 1.6 Ejercicios de revisién 10 17 Referencias 11 2 ‘car. TRODUCCION La recopilacién, el proceso, la interpretacién y la presentacién de los datos numéricos pertenece al dominio de la estadistica. Estas tareas comprenden el célculo de los pro- medios de bateo de beisbol, la recopilacién de datos sobre nacimientos y muertes, la evaluaci6n de la efectividad de productos comerciales y el pronéstico del tiempo. La in- formacién estadistica se nos presenta constantemente en la radio y a television. Nues- {ro entusiasmo por los hechos estadisticos se ve alentado por diarios nacionales, tales como The Wall Street Journal y USA Today. La palabra “estadistica’ se usa de varias maneras. Se puede referir no s6lo a la simple tabulacién de informacién numérica, como en los informes de las transacciones bursatiles, sino también al conjunto de técnicas que se utilizan en el procesamiento 0 el andlisis de datos. ‘También el término “estadista" se usa de varias maneras. Eltérmino se puede api cara quienes simplemente recopilan informacion, asi como a aquellos que elaboran anélisis 0 interpretaciones y también a los académicos que desarrollan la teoria mate- matica sobre la cual se basa la estadistica. En las secciones 1.1 y 1.2 estudiamos el crecimiento reciente de la estadistica y ‘su campo de aplicaciones siempre creciente, En la seccién 1.3 explicamos la diferencia ‘entre las dos ramas principales de la estadistica, la estadistica descriptiva y la inferen- cia estadistica y en la seccién 1.4, que es opcional, analizamos la naturaleza de las di- versas clases de datos y en relaci6n con esto, advertimos al lector acerca del uso del tratamiento matematico indiscriminado de los datos estadisticos. 1 EL CRECIMIENTO DE LA ESTADISTICA MODERNA Hay varias razones por las que el alcance de la estadistica y a necesidad de estudiar la cstadistica han crecido de manera considerable en los tiltimos quince alos 0 algo asf Una razén es el planteamiento cuantitativo que se usa en forma creciente en todas las Ciencias, asf como en los negocios y muchas otras actividades que afectan nuestras vi ddas de modo directo. Esto incluye el uso de técnicas matemiéticas en la evaluacién de sistemas de control de emisin de contaminantes, la planificacién de las existencias, el ‘andlisis de los patrones del trinsito, el estudio de los efectos de varias clases de medi ‘camentos, la evaluacién de técnicas de ensefianza, el anslisis del comportamiento com- petitivo de empresarios y gobiernos, el estudio de la dieta y la longevidad y demas ac- tividades pertinentes. La disponibilidad de computadoras poderosas ha incrementado cen gran medida nuestra capacidad para manejarinformacién numérica, El costo de mu- cchas computadoras también es accesible, de modo que pequefias empresas, estudiantes universitarios y aun bachilleres pueden efectuar un trabajo estadfstico sofisticado. La otra raz6n es que la cantidad de datos que se recopila, procesa y difunde al pi- blico poralgiin motivo se ha incrementado casi masallé de la comprensi6n y cada quien debe determinar la parte “buena” y Ia parte “mala” de la estadistica, Para actuar como vigilantes, se requiere que cada vez mis personas con cierto conocimientoestadistico participen en forma activa en la recopilaciGn y el audlisis de los datos y, lo que es de igual importancia, en toda la planificacién preiiininar. Sin haber participado en esta tl- tima actividad, es aterrador pensar en todos los aspectos que pueden presentar proble- mas en la recopilacién de datos estadisticos. Los resultados de costosas encuestas pue- EJEMPLO Solucién EJEMPLO Solucién den ser ittiles si las preguntas son ambiguas ose formulan errSneamente, si se formu: Jan a las personas equivocadas, en el lugar oel momento equivocado. Como lo ilustran Jos ejemplos siguientes, gran parte de esto consiste tan sélo en el sentido comin: Para determinar la opiniérdel pablico acerca de la continuacién de cierto programa gu- bernamental, un entrevistador pregunta: “Piensa que este programa derrochador se deberfa detener?” Explique por qué esta pregunta quiz4 no obtendré la informacion de- seada, De hecho, el entrevistador esté “rogando por la pregunta” a sugerir que el programa in- ccurre en el dispendio. Para estudiar la reaccién de los consumidores en relacién con un nuevo producto ali- ‘menticio, se realiza una encuesta casa por casa todos los dias durante las mafianas, sin repetir la visita en caso que nadie se encuentre en casa. Explique por qué esto puede ge- nerar informacién equivocada, Esta encuesta no Hlegard a aquellas personas que es més probable usen el producto: sol- teros y parejas de casados en las que ambos trabajan. Si bien gran parte del crecimiento de la estadistica al que se hizo mencién comen- 26 antes de la “revolucién de las computadoras”, la amplia disponibilidad y el uso de Ja computadora han acelerado el proceso en gran medida. En particular, las computa- doras nos permiten manejar, analizary clasificar grandes cantidades de datos, asi como realizar cdlculos que en el pasado parecfan demasiado complicados inclusive para ob- servarlos, El objetivo de este libro ser que usted comprenda las ideas de la estadistica. Para ésta, el acceso a la computadora no es crucial. A veces, en el texto se ilustran los uusos de la computadora, pero casi todos los ejercicios pueden realizarse s6lo con una calculadora de cuatro funciones, 12 EL ESTUDIO DE LA ESTADISTICA ‘La materia de la estadistica puede presentarse en diferentes niveles de dificultad mate- ‘matica y puede estar dirigida hacia aplicaciones en distintos campos de la investiga- cidn, De acuerdo con esto, se han escrito muchos libros de texto sobre estadistica empresarial, estadistica educativa, estadistica médica, estadistica psicol6gica,...,e in- clusive sobre estadistica para historiadores. Si bien los problemas que surgen en estas distintas disciplinas en ocasiones requerirdn de técnicas estadisticas especiales, ninguno de los métodos basicos que se analizan en este libro esta limitado a un campo de apli- caciénen particular, De la misma forma en que 2+2= 4 sin importar silo que sumamos son délares, caballos o drboles, Los métodos que presentaremos proporcionan modelos ‘estadisticos que se aplican sin importar silos datos son coeficientes intelectuales, pa- ‘208 de impuestos, tiempos de reaccidn, lecturas de la humedad, evaluacién de pruebas, SEC.12 / ELESTUDIODELAESTADISTICA 3 4 ‘cap. / BNTRODUCCION eteétera, Para ilustrar mejor esto, considere el ejercicio 13.96 de la pégina 379, que ela- bors el autor. 13,96 En una muestra aleatoria de 200 personas jubiladas, 137 afirmaron que prefieren vivir en un departamento que vivir en una casa unfamiliar. En el hivel 0.05 de significancia, zest refuta la aseveracidn de que el 60% de todas las personas jubiladas prefieren vivir en un departamento que en una casa unifamiliar? puesta serfa interesante sobre todo para los cientificos sociales o para personas de la in- {lusria de la construcci6n, Sin embargo, si quisiéramos satisfacer los intereses de estu- diantes de biolog(a, ingenieria, educdcién oecologt, tendrfamos que replantearel eer- La pregunta que se plantea au‘ deberfa ser clara y también deberia serlo que la res- cicio como sigue: 13.96 En una muestra aleatoria de 200 Arboles de cftricos expuestos a una tempe- ratura de — 6.66", 137 mostraron dafios en sus frutos. En el nivel 0.05 de significancia, esto refuta la aseveraciGn de que el 60% de todos los érboles de citricos expuestos a una temperatura de ~6.66° presentarén algin daio en sus frutos? 13.96 En una muestra aleatoria de 200 transstores producidos por un fabricante 1 0 que 2.< 4 y no podemos expresar que 2-1 = 4-3, que 1+3=40 que 4+2=2, de ahi que siempre es importante verificar si los célculos mateméticos efectuados en un andlisis estadistico en realidad son legitimos. ‘Ahora consideremos algunos ejemplos en que los datos comparten algunas, pero no necesariamente todas las propiedades de los nmeros que manejamos con Ia aritmé- tica ordinaria, Por ejemplo, en mineralogta, la dureza de los s6lidos se determina me- diante la observacién de “qué raya qué”. Si un mineral puede rayar otro, éte recibe un niimero de dureza més alto y en Ia escala de Mohs, los nmeros det 1 al 10 se asignan al talco, el yeso, la calcita, la fluorita, la apatita, el feldespato, el cuarzo, el topacio, el zafiro y el diamante. Con estos niimeros podemos expresar que 6 > 3, por ejemplo, © que 7 <9, yaque el feldespato es mas duro que la calcita y el cuarzo es més suave que el zafiro. Por otro lado, no podemos expresar que 10 9 = 2 ~ 1, por ejemplo, porque la diferencia entre el diamante y el zafiro en realidad es mucho més grande que la di- ferencia entre el yeso y el talco. Asi mismo, no seria significativo indicar que el topacio dos veces mas duro que la fluorita simplemente porque sus nimeros de dureza res- pectiva en la escala Mohs son de 8 y 4. Sino podemos hacer nada mas que determinar desigualdades, como fue el casoen el ejemplo anterior, nos referimos a los datos ordinales. En relacién con los datos or- dinales, > no significa necesariamente “mayor que”; Se puede usar para denotar con- ‘mis dificil que”, "més sabroso que” y ceptos como “més feliz que”, “preferible que”, demis, ‘Como se expicéenetprefacio todas las secciones marcadas con el simbolo son opeionals. Aunque el material de esta seceiénpretende servir como una advertencia en contra del teataniento matemtico indi criminado de los datos estadistcos, es de mayor importanca para los estudiantes dela ciencias del compor- tamiento sociales, donde lasescalasatfcialssirven pra medi, digamos, tendencias de neurosis, felicidad ‘© conformidad con ls normas sociales SEC. 14 J LANATURALEZA DELOS DATOS ESTADISTICOS. 7 ccap.1 1 yTRODUCCION Si también podemos determinar diferencias, pero no podemos multiplicar o di nos referimos a los datos como datos de intervalo, Para dar un ejemplo, suponga ‘que se nos dan las lecturas de temperatura siguientes en grados Fahrenheit: 63°, 68°, 91°, 107°, 126° y 131°. Aqui, podemos expresar que 107° > 68° 091° < 131°, que sim- plemente significa que 107° es més célido que 68° y que 91° es mas frio que 131°. Del mismo modo, podemos expresar que 68° — 63° = 131° ~ 126°, ya que las diferencias de temperatura iguales son iguales en el sentido de que se requiere de la misma cantidad de calor para aumentar la temperatura de un objeto de 63° a 68° al igual que de 126° a 131°. Por otro lado, no serfa muy significativo expresar que 126° es el doble de célido de 63°, aunque 126° + 63° = 2, Para demostrar por qué, s6lo tenemos que convertir a ‘grados Celsius, donde la primera temperatura se convierte en $(126-32)=52.2°, lase- ‘gunda temperatura se convierte en $(63 ~ 32) = 17.2°, y demostrar que la primera ci fra ahora es de mas de tres veces de la segunda. Esta dificultad surge porque las escalas Fahrenheit y Celsius tienen origen (cero) artificial; en otras palabras el nfimero cero de ninguna escala indica la ausencia de cualquier cantidad que intentemos medir. ‘Sitambién podemos formar cocientes, nos referimos a los datos como datos racio- nales y no es dificil obtener tales datos. Estos incluyen todas las medidas (o determina- ciones) comunes de longitud, altura, cantidades de dinero, peso, volumen, rea presiGn, tiempo transcurrido (aunque noel tiempo calendario), intensidad del sonido, densidad, brillo, velocidad y demés. La diferencia que hemos hecho aqui entre datos nominales, de intervalo y raciona- les es importante, ya que como apreciaremos, la naturaleza de un conjunto de datos puede sugerirel uso de técnicas estadisticas particulares. Para enfatizarel punto de que lo que podemos y lo que no podemos hacer aritméticamente con un conjunto de datos determinado depende de la naturaleza de los datos, considere las siguientes calificacio- nes obtenidas por cuatro estudiantes en las tres partes de una prueba de historia com- pleta Historia de Historia de Historia América Europa antigua Linda 89 st 40 Tom 6 56 s4 Henry 40 0 5s Rose B 1 n Los totales de los cuatro estudiantes son de 180, 171,165 y 162, de modo que Linda ob- tuvo la calificacién més alta, seguida por Tom, Henry y Rose. ‘Ahora suponga que alguien propone que comparemos el rendimiento total de los, ‘cuatro estudiantes clasificando sus calificaciones de altas a bajas para cada parte de la, prueba promediando luego sus clasificaciones. Lo que obtenemos aparece en la tabla siguiente Historiade Historiade Historia Rago ‘América Europa antigua _—_promedio Linda 1 4 4 3 Tom 2 3 3 4 Henry 3 2 2 a Rose 4 1 1 444_9 ‘Aqui, la clasificacién del promedio de Linda se caleulé como 1+ 4* 24+343_8 3 3 Ahora, si observamos el rango promedio, encontramos que Rose resulté ser la me- jor, seguida por Henry, Tom y Linda, de modo que el orden es el inverso del anterior. {,Cémo es esto posible? Bien, pueden suceder cosas raras cuando promediamos rangos. Por ejemplo, cuando se trata de sus rangos, el excedente de 28 puntos de Linda sobre ‘Tom en historia de América cuenta tanto como el excedente de Tom de 5 puntos en his- toria de Europa y el excedente de Tom sobre Henry de 21 puntos en historia de América cuenta tanto como el excedente de Henry sobre él por un solo punto en historia antigua. Concluimos que, tal vez, no deberiamos haber promediado sus rangos sino que también se podria sefialar que ni siquiera deberiamos haber totalizado las calificaciones origi- nales. La variacin de las calificaciones en historia de América que van de 13 a 89 es ‘mucho mis alta que lade las otras dos clases de calificaciones y esto afectaen gran me- dida las calificaciones totales y sugiere un resultado imperfecto del procedimiento. No ‘alo o racionales? Explique sus respuesta. 15 REVISION DE TERMINOS CLAVE* (con referencias de pégina a sus definiciones) Analisis exploratorio de datos, 6 xDatos de intervalo, 8 Datos nominales, 7 Datos ordinales, 7 ‘xDatos racionales, 8 16 EJERCICIOS DE REVISION+ 1.13 El boletaje pagado para asistr alos juegos de futbol en, casa de una pequeiia universidad fue de 12,305, 10,984, 6,850, 11,733 y 10,641. ,A cual de las siguientes conclu- siones se puede legar a partir de estas cifras por medio de ‘métodos meramente descriptivos y que requieren de ge- neralizaciones? Explique sus respuesta. (a) Nameros de seguridad social (b) El mimero de pasajeros que viajan en autobis de Los Angeles a San Diego. (©) Clasificaciones del interés vocacional, consistentes ‘ene niimero total de respuestas de "sf" para un con. junto de preguntas, si se puede suponer que cada respuesta de “s{” representa el mismo incremento del interés vocacional (@) Grados militares. Las clasificaciones del coeficiente intelectual en ocasio- res se consideran como datos de intervalo. Qué suposi- ‘cin implicarfa esto acerca de las diferencias de la inteli- ‘encia de tres personas con coeficientes intelectuaes de 95, 105 y 135? .Es logica esta suposici6n? +L 41.12. E> lapigina8 indicamos que los datos que pertenecen al tiempo calendario (por ejemplo, los aos en que el equipo de futbol dela Armada derrota al dela Marina) no son da- tos racionales. Explique por qué. ; Qué tipo de medidas temporales constituyen los datos racionales? Estadistica descriptiva, 5 Inferencia estadistica, 6 Modelos estadisticos, 3 Teorfa de la probabilidad, 6 (2) La asistencia al tercer partido en casa fue baja por- que ovis, (b) Entre os cinco juegos, el boletaje pagado fue mas alto en el primer partido. (©) El boletaje pagado supers los 11,000 en dos de los cinco juegos. ‘Los txminos qu se han seal comelsfmbolo s forman parte del material opcional ‘Los ejercicios de revisién marcados con el simbolo + pertenecen al material opciona 10 canis INTRODUCCION (8) Elbotetae pagado se inerement6 del tercer al cuat- to partido en casa porque el equipo de futbol de la universidad habia estado ganando, ‘#114 {Los datos siguientes son nominales, ordinals, de inter- Valo 0 racionales? Explique sus respuestas. (a) Elevaciones sobre el nivel del mar (b) Respuestas ala pregunta de si (en el rea del centro de una ciudad grande) las condiciones de vida "es- ‘tin empeorando mucho”, “estin empeorando un poco”, “permanecen igual”, “estin mejorando un poco” 0 “estin mejorando mucho”, (©) Antigdedad de automéviles usados. (@) Respuestas de las licencias para conductores en re- lacién con el color de ojos. 1.15. Explique por qué cada uno de los datos siguientes bien podria fracasar para proporcionar la informacién deseada: (@) Para pronosticar una eleccién municipal, un en- cuestador de opinin pdblica hace preguntas a las personas que caminan frente a la oficina de gobier- ‘no municipal. (b) Paradeterminar la opinin del pablico sobre ciertas. restricciones a las importaciones, un entrevistador pregunta alos electores: ",Cree que a los consumi- dores norteamericanos se les deberia negar el uso de estos productos?" 41.16 Silos estudiantes calculan sus indices de puntuacién de calificaciones (esto es, el promedio de sus calificaciones) contando A, B,C, Dy F como 4, 3,2, 1 y 0, qué implica esto acerca de la naturaleza de las calificaciones? 1.17 Explique por qué cada uno de los datos siguientes bien ppodrfa fracasar para proporcionar la informacién desea- da: (@) Para conocer Ia opinién del piblico en cuanto alas 17 REFERENCIAS Se pueden encontrar andlisis breves e informales sobre lo que es la estadis importaciones de India, e pregunta a personas se- leccionadas si les agrada el arte hinds, (b) Para valorar los hechos relacionados con los hibi- tos de bao, a una muestra de los ciudadanos de un pais europeo se le pregunta cudntas veces en pro- ‘medio se bafian a la semana. 1.18 Usando el mismo modelo de automévil, cinco conducto- res promediaron 9.95, 9.57, 10.2, 9.95 y 9.65 kil6metros por ltr. A cud de las siguientes conclusiones se puede Iegara partir de estas cifras por medio de métodos mera- ‘mente descriptivos y que requieren de generalizaciones? Explique sus respuestas (a) Con mayor frecuencia que ninguna de las otras ci- fras, los conductores promediaron 9.95 kil6metros Por litro. (b) Con mayor frecuencia que ninguna de las otras. {ras los conductores de este tipo de automevil pro- ‘mediaron 9.95 kilémettos por litt. (©) Ninguno de los promedios difiere de 9.99 por mas de 1.6093 kilémetros. (B) Sise repite el experimento completo, ninguno de los conductores promediard menos de 9.57 ni mis de 10.41 kilmetros por itr. 41.19 En dos torneos de golf de Ia liga mayor, un golfista pro- fesional terminé en el segundo y el noveno lugar, en tanto {que otro terminé en el sextoy el quinto, Comente sobre el argumento de que como 2 +9 = 6+5, el rendimiento total de los dos golfstas en estos dos torneos fue igualmente bueno, 1.20 _Replantee el ejercicio al que nos referimos en la pigina 4 cde manera que sea de especial interés para (a) un abogado; (b) um agente de viajes; (©) unautor. -ayloque hacen los estadistas en los panfletos titulados Careers in Statistics y Statistics asa Ca- reer: Women at Work, publicados por la American Statistical Association, Se pueden obtener escribiendo a esta organizacién a 1429 Duke Street, Alexandria, VA, 22314. Entre los pocos libros sobre la historia de laestadistica, en el nivel elemental, tenemos WALKER H.M., Studies inthe History of Statistical Method. Baltimore: The Williams & Wit- kins Company, 1929. SEC.17 1 REFERENCIAS 14 2 ccaP.1. J INTRODUCCION y enel nivel ms avanzado PEARSON E. S. y KENDALL, M. G.,editores, Studies in the History of Statistics and Prob- ability. Nueva York: Hafner Press, 1970. KENDALL, M.G. y PLACKET, R.L., editores, Studies in the History of Statistics and Prob- ability, Vol. I, Nueva York: Macmillan Publishing Co., Inc., 1977. : SmIGLER, S. M., The History of Statistics. Cambridge, Mass.: Harvard University Press, 1986. Un anélisis més detallado de la naturaleza de los datos estadisticos y el problema ge- neral de la escala (en particular, el problema de la construccién de escalas de medicién) se puede encontrar en Hi.peBrAND, D. K., LAING, .D. y ROSENTHAL, HL, Analysis of Ordinal Data, Beverly Hill, Calif: Sage Publications, Inc., 1977 REYNOLDS, H. T, Analysis of Nominal Data, Beverly Hills, Cali 1977. ‘SiecEt, S., Nonparametric Statistics for the Behavioral Sciences. Nueva York: McGraw-Hill ‘Book Company, 1956. ‘Sage Publications, Inc., Los siguientes son algunos titulos de la lista siempre creciente de libros sobre estadis- ticaeseritos para los principiantes. BROOK, R. J, ARNOLD, G. C., HASSARD, T. H. y PRINGLE, R. M.,editores, The Fascination ‘of Statistics. Nueva York: Marcel Dekker, Inc. 1986. CAMPBELL, S.K., Flaws and Fallacies in Statistical Thinking. Englewood, Cliffs, N. J: Pren- tice-Hall, Ine. 1974 HOLLANDER, M. y PROSCHAN, F., The Statistical Exorcist: Dispelling Statistics Anxiety. ‘Nueva York: Marcel Dekker, Inc., 1984 Hooke, R., How to Tell the Liars from the Statisticians. Nueva York: Marcel Dekker, Inc., 1983. Kime, G. A., How to Use (and Misuse) Statistics. Englewood Cliffs, N..: Prentice-Hall, Inc., 1978. Larsen, R.J.y STROUP, D. F., Statistics in the Real World. Nueva York: Macmillan Publis- hing Co., Inc., 1976. RUNYON, RP., Winning with Statistics. Reading, Mass.: Addison-Wesley Publishing Com- pany, Inc., 1977. ‘Tana, J.M. editor, Statistics: A Guide to the Unknown, San Francisco: Holden-Day, Inc., 1972. RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA “4 En afos recites, a recoplaciin de datos estadistcos se ha incrementado con una tasa tal que seria imposible mantenerse al dia siquiera con una pequefia parte de los factores quo afecan drectamente nuestas vidas, a menos de que se difunda esta informacién en una forma “digrida’o resumida, La actividad de agrupar grandes can- tidades de datos en una forma uti siempre ha sido imporiante, pero en las ulimas décadas esta actividad se ha mulipicado en gran medida En part, esto ha sido con- secvencia del desarrollo de compuladoras que ahora permitan efectuar on minutos ac. tvidades quo antes se evtaban porque habrian requerido de meses oafosy en parte son resultado dela multud de datos generados por el planteamiento cada vez més cuanttatvo dela clencas, en especial de las cioncias del comportamientoy las soca- tes, donde casitodos los aspectos de a vida humana ena actualdad se miden de una ota manera Elmélodo de resumen de datos mas coman consste en su presentacién en forma condensada en tablaso gréficasy en algun momento esto consuy la mejor pate de Un curso elemental de estadistic, Hoy en dla, hay tanto més que aprender sobre es- tadistica, que se dedica muy poco tiempo a este tipo de trabajo. En cierto modo, esto 8 desafortunado porque no se necesita buscar con detenimiento«n dari, revistas y aun en publcaciones perédicas profesional para encontrar gréficas estadistias que ton intenionslmente engafosas La seccién 2.1 abordala area del istado de valores numércos y presenta una téc- nica nueva, la exposiciin de troncoy hoje. La seccién 22 estucia las distribuciones de ta frecuencia, elmétodo esténdar para a agrupacion de datos La secciin 2.3 presenta algunos métodos géficos 24 LISTA DE VALORES NUMERICOS La organizacién y la presentacién de un conjunto de informacién numérica es una de las primeras tareas para comprender un problema. Como una situacién tipica, conside- re los valores que aparecen en seguida, los cuales representan el tiempo del trayecto al trabajo de 100 empleados de un gran edificio de oficinas ubicado en el centro. Los tiempos se dan en minutos y cada valor representa el tiempo promedio de un empleado encinco dfas de trabajo consecutivos. La simple recopilacién de esta informacién no ‘es una tarea sencilla, pero es evidente que se debe hacer més para que los niimeros sean comprensibles. 440 354 284 370 460 354 194 204 S64 432 362 384 492 318 864 126 274 140 394 394 158 288 380 440 384 740 230 114 398 302 292 406 496 304 122 1238 420 470 324 392 352 S64 310 450 902 1000 390 370 494 282 126 220 478 526 410 400 280 236 376 378 300 458 180 410 226 242 896 904 430 298 562 248 126 536 1254 162 390 408 336 394 456 374 180 506 1034 524 202 646 222 600 422 420 162 1082 480 426 394 376 414 404 CCAP.2. / RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA {Qué se puede hacer para que esta informacién sea mas préctica? Algunas personas en- ‘cuentran interesante identificar los valores extremos. Para esta lista, el valor més bajo es de 11.4 minutos y el més alto es de 125.4 mi nutos. En ocasiones, es itil ordenar los valores de los datos en orden de creciente a de- reciente. La lista que se presenta a continuacién da estos valores ordenados y ahora es posible saber més acerca de los tiempos de trayecto. Por ejemplo, ahora vemos que hay ‘muchos valores que se aproximan a 40 minutos. 114 122 126 126 126 140 158 162 162 180 180 194 202 204 222 226 230 236 242 248 270 274 280 282 284 2S 29.2 298 300 302 304 31.0 M8 324 336 352 354 354 362 370 370 374 376 376 378 380 384 384 390 390 392 304 394 394 304 398 400 404 406 408 410 41.0 414 420 420 422 426 430 432 440 440 440 450 456 458 460 470 478 492 494 49.6 506 S24 526 S36 562 564 S64 600 646 TAO 864 896 90.2 904 1000 1034 1082 1238 1254 ‘Ordenar un conjunto numeroso de datos en forma creciente o decreciente es una labor sorprendentemente difcil Esta lista de niimeros, aun en su forma ordenada, sigue siendo una vasta pieza de informacién, Sera itil contar con otras formas de manejar estos valores. Una técnica desarrollada hace poco, la grafiea de tronco y hoja, brindaré una buena impresi6n to- tal de los datos. Para ilustrar esta técnica, considere las siguientes calificaciones en una prueba de coordinacién fisica aplicada a 20 estudiantes que habfan ingerido una cantidad de al- cohol equivalente a 0.1% de su peso: 69 84 52 93 61 74 79 65 88 63 57 64 67 72 74 55 82 61 68 77 Ahora divida cada niimero en sus decenas y unidades, disponiendo juntos los valores ‘que comparten las decenas. Esto es, pensaremos en el ntimero 69 como en 6 | 9. En- tonces las decenas se dispondrén en forma vertical con unidades dispuestas al lado, Para el conjunto de las 20 calificaciones de coordinacicn fisica, la gréfica es ésta: El primer renglén de la gréfica, expresamente 5 | 2 7 5,nos indica que la lista con-* tiene los valores de 52, 57 y 55. El segundo renglén nos indica que la lista contiene ocho valores de la decena de los 60. Esta tabla se conoce como una representacin grifica de tronco y hoja porque cada renglén representa una posicién de tronco y cada dfgito a la derecha de Ia linea vertical se puede considerar como una hoja. Para hacer esta grfica de tronco y hoja, comience s6lo con los troncos, de la siguiente manera: SEC.21 / LISTADE VALORES NUMERICOS. 15 16 Con todo, este paso no tiene que ser perfecto, es fécil disponer posiciones de tronco adi- cionales en la parte superior o en Ia inferior. Luego, marque las hojas por elementos de datos individuales en orden consecutivo. Después de los tres primeros valores (69, 84, 52), la grfica de tronco y hoja luciré a 5 6 1 8 9 La gréfica de tronco y hoja estaré completa después de efectuar s6lo un paso.con los da- tos. La grfica de tronco y hoja contiene la misma informacién que la lista original, pero es mucho més compacta. La gréfica de tronco y hoja destaca, os aspectos impor- tantes de los datos. Por ejemplo, en este caso revela de inmediato que la mayorfa de los datos pertenece al orden de los 60. La grfica de tronco y hoja desarrolla la mayor parte dela tarea de clasificacion de los valores. A la mayoria de la gente le agrada completar la clasificacién ordenando también las hojas. En este ejemplo, se llega a lo siguiente: s]257 6]/11345789 7)24479 a}248 913 ‘No todos los valores se pueden disponer en una gréfica de tronco y hoja con tanta facilidad. El tratamiento de situaciones més complicadas es una cuesti6n de dit cernimiento. Consideremos los 100 tiempos de trayecto antes seftalados. Estos ntime- 10s se dieron con décimas de minuto. Al realizar la gréfica de tronco y hoja, més que redondear los valores al minuto més cercano, recomendamos que se ignoren las dé ‘mas. Este introduce un sesgo de medio minuto en la gréfica, pero con casi el mismo.es- fuerzo se produce el mismo resultado tan apropiado como el redondeo.' Usaremos los digitos de las decenas para clasificar el tronco y esto produce la siguiente gréfica: *Descartar mero representa varias ventas durante el proceso de redondeo cuidadosoyéste esl pro- cedimientorecomendado por John Tukey, el inventor de la epresentacin grifica de troncoy ho, Su libro parece en la lista de referencia al final del captuo. CAP.2/- RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA 122224566889 (0022334477888899 (0001 123555677777788899999999 (0000111222233444555677999 0223666 o4 4 6 9 | 0 10 | 038 n NOTA: 7 | 4 medidas 74 minutos 12 | 35 12 | 3 medidas 123 minutos B Esta grfica de tronco y hoja s6lo requiere una revisiGn de la lista original. Se pueden ordenar las hojas. De hecho, esta gréfica comunica el mensaje de la lista original en una forma muy clara en términos gréficos. Es dtil agregar una nota, como lo hicimos, para ayudar al lector de esta gréfica. Esta ciertamente es til cuando los nmeros del tronco no son decenas. La grafica de tronco y hoja se puede modificar de varias formas para satisfacer ne- cesidades particulares. Si queremos elaborar una gréfica de tronco y hoja con mAs tron- os de los que habria de otra manera, podemos dividir en dos cada posicién del tronco. Usamos 1a primera posicién del tronco para disponer las hojas 0, 1, 2,3 y 4 y usamos la segunda posicién para disponer las hojas 5,6, 7,8 y 9. Por tanto, para el segundo gru- po de datos de la pégina 15, obtendrfamos la representaciGn gréfica de doble tronco: Se e 6+ p 1 & 8e 9 Enesta grética, duplicamos el ndmero de posiciones del tronco dividiendo por la mitad el intervalo que cubre cada decena. ‘Asif mismo, en el caso de algunas descripciones més detalladas (véase la secci6n 3.4), es conveniente tener algunas hojas en cada tronco dispuestas por tamafio, comoen Ia figura 2.1, donde usamos una computadora para elaborar la gréfica de tronco y hoja anterior. No estudiaremos las gréficas de tronco y hoja con mayor detalle, ya que nuestro objetivo fue en esencia presentar una de las técnicas relativamente nuevas que forman parte del término general de andlisis exploratorio de datos. Estas técnicas se utilizan sobre todo para anaizar datos sin emplear los métodos mas tradicionales de andisises- tadisticos o antes de aplicar los mismos. SEC.21 / LISTADE VALORES NUMERICNS 17 040230 Maree BIBLIOTECA TY" se 6 R a 3 MtB_ > conguwro ct DATOS > 69 84 52 DaTos > 57 64 67 MIB > TRONCO cL GRAEICA. DE TRONCO 2 57 1is4 5789 244 79 24 H ¥ HOJA DE ct ‘DNEDAD. DE TRONGO Y HOA = 1.998 REPRESENTA 12. 63 7 93 n 61 "4 "4 35 1 82 65 61 88 68 FIGURA 21 Impresin por computadora para la elaboracién de una gréfica de doble tronco, EJERCICIOS 2a 23 18 Las siguientes son las alturas en centimetros de dieciséis, estudiantes de bachillerato: 172, 182, 177, 174, 166, 158, 170, 178, 163, 161, 191, 167, 171,201, 166, 172. Elabore una grafica de tronco y hoja con las clasificaciones de tronco 15, 16, 17, 18, 19 y 20, Los siguientes son los pesos en libras de veintesolicitan- tes de empleo en un departamento de bomberos de la ciu- dad: 225, 182, 194, 210, 205, 172, 181, 198, 164, 176, 180, 193, 178, 193, 208, 186, 183, 170, 186, 188. Elabore tuna gréfica de tronco y hoja con las clasificaciones de tronco 16, 17, 18, 19, 20, 21 y 22. Las siguientes son las ganancias semanales en d6lares de quince vendedores: 425, 440, 610, 518, 324, 482, 624, 390, 468, 457, 509, 561, 482, 480, 520. Elabore una gré- fica de tronco y hoja con ls clasificaciones de tronco 3, 4, 5 6; las decenas se deben usar como hojas. 2.2 24 25 26 labore una lista de los valores de datos que aparecen en la geifica de tronco y hoja siguiente Elabore una grea de doble tronco para los datos del ejercicio 22. Las siguientes son las edades de treinta y dos cabezas de familia de una comunidad de jubilados: 68,81, 62,61, 76, 65, 69, 73, 66, 68, 71, 74, 64, 70, 68, 73, 82, 79,63, 69, (68, 66,73, 74,77, 80, 73,66,67,81,77y 66 alos. Elabore una grifica de doble tronco para estos valores. DISTRIBUCIONES DE LA FRECUENCIA. Cuando manejamos conjuntos cuantiosos de datos, a menudo podemos obtener una GAP.2. /- RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA SESUuBe buena imagen general y toda la informacin que necesitemos agrupando los datos en un. niimero de clases, intervalos 0 categorfas. Por ejemplo, los datos correspondientes a 1983 sobre el tamafio de los sistemas de televisi6n por cable de Estados Unidos se pue- den resumir como sigue: Nimerode Sistemas de television suscriptores porcable Menos de 1,000 1,000 3,499 3.500 9,999 10:000-19,999 20,000-49,999 50,000 0 més Toul 5.640 Una tabla como ésta se conoce como una distribucién de la frecuencia (0 simple ‘mente como una distribucién); esto demuestra cémo se distribuyen los sistemas de te- levisi6n por cable entre las seis clases. Entonces cuando los datos se agrupan por tama- fios hacemos referencia a una tabla como la anterior como una distribucién numérica (0 cuantitativa). Enel ejemplo de la televisi6n por cable, cada clase cubri6 un amplio rango de va- lores, pero también hay distribuciones numéricas en que la clase cubre s6lo un valor \inico. Esto se ilustra por medio del ejemplo siguiente con base en un estudio en el que se pregunté a 200 personas cudintas veces habfan visitado el z0016gico local durante los doce meses anteriores: Niimero de visitantes Nimero de del zoolégico local personas %0 n % x 3 ° 1 Total — 200 Si se agrupan los datos en categorfas no numéricas, a tabla resultante se conoce como una distribucién categérica (0 cualitativa). Esta clase de aistribuci6n se ilustra mediante la tabla siguiente de 2,439 quejas sobre las caracterfsticas de comodidad de una linea aérea: SEC.22 / DISTRIBUCIONES DE LAFRECUENCIA 19 Niimero de Naturaleza de ta queja quejas —<—<—_—_—_—_——— Espacio insuficiente para Tas piernas 79 Asientos incémodos 914 Pasllos angostos 146 ‘Compartimientos de ‘equipaj insuficientes 218 Sanitarios insuficientes 58 (tras quejas diversas 384 Tora 2.439 Podrfamos convertir una distribucién como ésta en una distribucién numérica codit cando los datos, digamos, asignando a las seis alternativas los nimeros 1, 2, 3,4, 5 y 6, pero esto nos darfa datos nominales, que son numéricos s6lo en un sentido trivial. Las distribuciones de la frecuencia presentan los datos en una forma relativamente compacta, dan una buena imagen en general y contienen informacién adecuada para muchos propésitos, pero por lo general hay algunos factores que no se pueden determi- nar sin referirse alos datos originales. Por ejemplo, a partir de la primera tabla de esta ‘eccidn no podemos encontrar ni el tamafio del més pequefio de los 5,640 sistemas de televisién por cable, ni el promedio de suscriptores de los diez sistemas més grandes. De modo similar, con base en la tercera tabla no podemos indicar el ntimero de quejas sobre asientos ineémodos por la amplitud de los asientos de los mismos 0 el ntimero de ‘quejas por compartimientos de equipaje insuficientes en relacién con el espacio para Jos portatrajes. No obstante, las dstribuciones de la frecuencia presentan datos en bru- to (no procesados) de una manera més prictica y el precio que debemos pagar por esto Ia pérdida de cierta informacién— por lo regular vale la pena. ‘En esencia la claboraciGn de una distribucién de la frecuencia consiste en tres pa- sos: (I) la seleccién de las elases (intervalos 0 categorias), (2) la selecci6n 0 clasifica- Cin de los datos en estas clases y (3) el conteo del ntimero de factores de cada clase. Dado que el segundo y el tercer paso son meramente mecdnicos en este caso debemos ‘concentrarnos, a saber, en el de la seleccién de una clasificacién ideal. Para las distribuciones numéricas, esto consiste en decidir el nimero de clases que se usardn y de qué clase a qué clase se debe ir. Ambas alternativas son en esencia ar- bitrarias, sin embargo por lo comiin se observan las reglas siguientes: Rara vez usamos menos de 6 o mis de 15 clases; el ntimero exacto que tusaremos en una situaci6n determinada dependeré en gran medida del niimero de lecturas u observaciones implicitas. Es evidente que perderiamos més de lo que ganarfamos si agrupéramos cinco observa~ ciones en doce clases con la mayor parte de éstas vacfas y quiz4 descartarfamos mucha informacién si agrupdramos mil lecturas en tres clases. Asegarese siempre de que cada factor (lectura u observacién) perte- nezea a una y sélo una clase. Para concluir, debemos asegurarnos de que los valores inferiores y superiores caigan en 20. cAP.2./-_RESUMEN DE DATOS: DISTRIBUCION DE LA FRECUENCIA EJEMPLO- la clasificacién, que ninguno de los valores caiga en una brecha entre clases sucesivas ¥y que las clases no se traslapen, expresamente, que las clases sucesivas no tengan va- lores en comin. Siempre que es posible hacemos que las clases cubran rangos de valo- res iguales. Del mismo modo, si podemos, disponemos los rangos en miltiplos de ndimeros de ma- nejo fécil, tales como 5, 10 0 100 porque esto tenderé a facilitar Ia elaboracién y el uso de una distribucién, Por lo que respecta a estas reglas, la distribucién dela televisién por cable de la pé- gina 19 satisface las dos primeras, pero viola la tercera. En realidad, la tercera regla se viola de varias maneras, ya que las clases 1,000-3,499, 3,500-9,999, 10,000-19,999 y 20,000-49,999 cubren distintos rangos de valores, la primera clase no tiene ningsin If mite inferior especifico y la dtima clase no tiene ningtin limite superior espectfico. Es probable que los estadisias del gobierno responsables de esta tabla tengan buenas razo- nes para seleccionar las clases como lo hicieron. Nos referimos a las clases de la variedad de “menos de”, “o menos”, “més de” més” como clases abiertas y las usamos para reducir el mimero de clases necesarias cuando algunos de los valores son bastante menores 0 bastante mayores que el resto. Sin embargo, generalmente se deben evitar las clases abiertas, ya que éstas hacen im- posible el célculo de ciertos valores de interés, tales como los promedios o los totales (véase el ejercicio 3.52, pagina 62). En cuanto a la segunda regla, tenemos que observar si los datos se dan al délar 0 al centavo més cercano, si se dan a la pulgada o a la décima de pulgada més cercana, la onza o al céntimo de onza més cercano y asf, dependiendo el caso. Por ejemplo, si ‘queremos agrupar los pesos de ciertos animales podriamos usar la primera de las cla- sificaciones siguientes cuando los pesos se dan al kilogramo més cercano, la segunda ‘cuando se dan a la décima de kilogramo més cercana y latercera cuando se danalla cén- tima de kilogramo més cercana: Peso Peso Peso (ilogramos) —_—_(kilogramos)__—_(kilogramos) 10-14 100-149 10,00-14.99 15.19 150.199 15.00-19.99 20-24 200-249 2000-2499 25-29 250.299 2500.29.99 30-34 300-349 30000-3499 ee. te. ete. Para ilustrar lo que hemos estudiado en esta seccién, ahora revisemos los pa- sos reales de agrupacién de un conjunto de datos de una distribucién de la fre- cuenci Elabore una distribucién de las siguientes cantidades de éxidos de azufre (en toneladas cmitidas por una planta industrial en 80 dias: 'SEC.22 / DISTRIBUCIONES DELAFRECUENCIA 24 22 158 264 173 112 239 248 187 139 90 132 227 98 62 147 175 261 128 286 176 237 268 227 180 205 110 209 15S 194 167 107 19.1 152 229 266 204 214 192 216 169 190 185 230 246 201 162 180 7.7 135 235 145 144 296 194 170 208 243 225 246 184 181 83 219 123 223 132 118 193 200 257 318 259 105 159 275 181 179 94 241 2.1 285 Solucién Dado que el valor inferior es 6.2 y el valor superior es 31.8, podrfamos seleccionar las, seis clases 5.0-9.9, 10.0-14.9,... y 30.0-34.9, las siete clases 5.0-8.9, 9.0-12.9,...y 29.0-329, las nueve clases 5.07.9, 8.0-10.9,.. y 29.0-31.9 0 muchas otras clasifica- cciones. Nétese que en cada una de las clasificaciones mencionadas, las clases acomo-

You might also like