You are on page 1of 335

Matemticas, Azar, Sociedad

Conceptos bsicos de estadstica

Patricia Ins Perry Felipe Fernndez

Vilma Mara Mesa Pedro Gmez

una empresa docente Bogot, 1996

Segunda edicin, junio de 1996

Matemticas, Azar, Sociedad


Conceptos bsicos de estadstica Autores: Patricia I. Perry, Vilma M. Mesa, Felipe Fernndez, Pedro Gmez D. R. 1996 una empresa docente & Grupo Editorial Iberoamrica, S.A. de C.V. Ninguna parte de esta publicacin puede ser reproducida, archivada o transmitida en forma alguna o mediante algn sistema, ya sea electrnico, mecnico, de fotorreproduccin, de almacenamiento en memoria o cualquier otro, sin el previo y expreso permiso por escrito de una empresa docente, del Grupo Editorial Iberoamrica y de los autores.

Diseo cartula: una empresa docente Grupo Editorial Iberoamrica, S.A. de C.V. Nebraska 199. Col. Npoles. 03810 Mxico, D.F. Tel. 523-09-94 Fax: 543-11-73 una empresa docente Universidad de los Andes Cra. 1 Este # 18 A - 70 Apartado Areo 4976 Tel. (57-1) 284-9911 ext. 2717. Fax: 284-1890 Servidor WWW: http: //ued.uniandes.edu.co Bogot. Colombia ISBN Impreso en Mxico / Printed in Mxico

Contenido

Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .vii Los problemas sociales Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 A ciencia cierta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Los sistemas sociales Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Del problema social al sistema social . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Ejemplos de sistemas sociales Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Primer ejemplo: Dime cmo vistes y te dir qu estudias . . . . . . . . . . . 11 Un resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Segundo ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Tercer ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Construya usted el sistema social (1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Construya usted el sistema social (2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Invente su propio problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Poblacin y muestra Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Vamos al grano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Algo ms acerca de las muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Variables Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 El apartamento de Perla Madonna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Formalicemos un poco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 Algunos ejercicios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Qu vamos a hacer y cmo lo vamos a hacer? Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

iv

Matemticas, Azar, Sociedad Por qu inventar herramientas?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Organizacin y resumen grfico de datos Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .58 Tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .58 Diagramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .60 Formalicemos un poco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .67 Otras grficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Otro resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 Algunos ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .82 Para terminar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 Medidas de tendencia central Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Dilogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Un resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 Medidas de dispersin Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 El rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .110 La varianza y la desviacin estndar . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 Un resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 Cmo hallar la desviacin? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .123 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .125 La ley Lectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .134 Distribucin normal Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .140 Motivacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 En busca de un modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Comparemos formas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .147 Una aproximacin al modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .153 Una pausa para resumir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 La probabilidad como rea bajo una curva . . . . . . . . . . . . . . . . . . . . . . 156 La curva normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 Existe una nica curva normal? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .161 Y... el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .164 Manejo de la distribucin normal estndar . . . . . . . . . . . . . . . . . . . . . .168

v Tabla de la distribucin normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Para terminar: de vuelta a los problemas . . . . . . . . . . . . . . . . . . . . . . . . 186 A practicar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 Estadstica inferencial Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 Motivacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 Algunos conceptos fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 Distribucin muestral de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 Distribucin muestral de diferencias de medias . . . . . . . . . . . . . . . . . . 218 Intervalos de confianza Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 Motivacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 Formalizacin de algunos conceptos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 Dos ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 Pruebas de hiptesis Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 Motivacin: Juicio contra Tahuro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 Formalizacin de los conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 Proceso de las pruebas de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 Ejemplo: Contaminacin peligrosa en el centro de Bogot? . . . . . . . 262 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 Prueba de hiptesis sobre diferencia de medias para muestras independientes Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 Motivacin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 Caracterizacin y solucin de los problemas. . . . . . . . . . . . . . . . . . . . . 269 Resumen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277 Situaciones problemticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 Referencias bibliogrficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317

Introduccin

El mundo de hoy se enfrenta, en diversos campos, a un volumen de informacin que cada vez va en aumento y que es necesario manejar gil y ecientemente. La estadstica, en muchos casos, se constituye en una buena opcin para hacerlo. La estadstica y la probabilidad son tpicos presentes en la vida diaria de los individuos. Evidentemente se hace necesario que el ciudadano comn y corriente maneje apropiadamente ideas y conceptos bsicos del lenguaje de la estocstica 1 y conozca y comprenda algo acerca del razonamiento estadstico. Se requiere que pueda usar las herramientas bsicas de la estadstica como apoyo para asimilar, criticar y contrastar la informacin recibida y que adems las pueda aplicar en el campo del saber donde desarrollar su trabajo (Sobrino, 1994). Ya en 1981 se destacaba la importancia de incluir temas de probabilidad y estadstica en los currculos escolares de matemticas y se argumentaba que el estudio de tales tpicos proporciona aplicaciones signicativas de las matemticas en todos los niveles, proporciona mtodos para trabajar con la incertidumbre, da alguna comprensin de los argumentos estadsticos que se utilizan frecuentemente y ayuda a identicar cundo un procedimiento estadstico se ha utilizado o no de manera correcta (Shulte & Smart, 1981). Es incuestionable la importancia de la educacin estadstica en todos los niveles. Sin embargo, no es tan evidente qu ensear y cmo hacerlo de manera que los estudiantes adquieran una visin apropiada y amplia de esta rama de las matemticas y adems puedan aplicarla exitosamente al abordar problemas de la vida real en los que est presente el azar y la necesidad de razonar estadsticamente. Gareld (1995) pone de maniesto que en muchos casos la prctica docente de profesores de estadstica revela que ellos dan una importancia relativa mayor de la que reconocen a la enseanza de algoritmos y procedimientos mecnicos y mucho menor al desarrollo de la comprensin de conceptos y del pensamiento estadstico. Tampoco se favorece el desarrollo de la capacidad para evaluar informacin cuantitativa ni la construccin de una visin enriquecida de la naturaleza de la estadstica junto con unas actitudes positivas hacia su aprendizaje.
1 Trmino utilizado para referirse a la estadstica y la probabilidad simultneamente.

viii

Matemticas, Azar, Sociedad

De acuerdo con uno de los principios del constructivismo en el aprendizaje de las matemticas creemos que el individuo es quien construye su propio conocimiento en la interaccin social que establece con otros (el profesor y sus compaeros del saln de clase). Por otro lado, hacemos eco a quienes, desde hace por lo menos una dcada, establecen el desarrollo de habilidades para resolver problemas como una de las metas principales del aprendizaje de las matemticas escolares. Esos dos supuestos pretenden guiar la propuesta de diseo curricular para un curso de estadstica elemental realizada por una empresa docente a travs de su proyecto Matemticas, Azar, Sociedad. El libro que aqu presentamos, titulado Matemticas, Azar, Sociedad. Conceptos bsicos de estadstica, recoge y explcita slo algunos aspectos de esa propuesta: los temas a tratar junto con su organizacin y presentacin, el tipo de problemas alrededor de los cuales se construye y consolida el conocimiento de los estudiantes y la importancia relativa de ciertos aspectos formales del conocimiento matemtico para un curso elemental de estadstica. Por esta razn parece necesario orientar al lector sobre algunas caractersticas de la propuesta que no estn sucientemente explcitas en el libro. Antes de entrar en detalle en aspectos de la propuesta que son interesantes para un profesor que quiera utilizar este libro, haremos una breve contextualizacin del mismo. Este libro de texto es uno de los resultados de un proceso de innovacin curricular desarrollado en el segundo curso del ciclo de matemticas para los estudiantes de ciencias sociales2 de la Universidad de los Andes en Bogot, Colombia. El proyecto Matemticas, Azar, Sociedad fue concebido en 1987 por cuatro profesores del Departamento de Matemticas de la Universidad 3 con el propsito de mejorar la enseanza y el aprendizaje en un curso de probabilidad y estadstica descriptiva. En un esquema de trabajo similar a la metodologa de la investigacin-accin, inicialmente, se hizo una propuesta de cambio al currculo del curso, se puso en prctica, se observaron y evaluaron los resultados y con base en la reexin sobre ellos se hicieron modicaciones que fueron puestas a prueba y evaluadas, dando lugar a nuevos cambios. Trabajando de esa manera se realizaron varias iteraciones no menos de ocho hasta llegar a un diseo curricular aceptable. A continuacin se detallan los objetivos que se pretenden lograr con los estudiantes en un curso de estadstica que siga de cerca esta propuesta, se hace
2 3 Estudiantes de antropologa, ciencia poltica, derecho, lenguas modernas y psicologa. Al poco tiempo de iniciar el proyecto, tales profesores constituyeron al interior de la Facultad de Ciencias un grupo de trabajo llamado una empresa docente, que en la actualidad es un centro de investigacin en educacin matemtica.

Diseo curricular

ix

una descripcin breve del contenido, las metodologas y actividades que pueden ser tiles para conseguir los objetivos y el tipo de evaluacin que se desprende de los dems elementos del currculo y es coherente con ellos.

Diseo curricular
Objetivos
Las teoras de cada profesor sobre cmo se aprende y cmo se debe ensear matemticas y en particular estadstica, interactan con las metas que plantea con respecto a la formacin que debe lograr el estudiante como resultado de haber participado en el curso. De ah la importancia de que el profesor haga explcitas las metas y los objetivos que persigue con el currculo del curso que realiza. Matemticas, Azar, Sociedad considera y en esto coincide con Gareld (1995) que un curso de estadstica elemental debe buscar resultados atinentes a por lo menos tres aspectos de la formacin del estudiante, todos ellos igualmente relevantes. Estos aspectos cognitivos, sociales y motivacionales se pueden concretar en lo siguiente: Comprender conceptos e ideas que subyacen al empleo adecuado del razonamiento estadstico, tales como el azar y determinismo, la localizacin y variabilidad de informacin cuantitativa, la organizacin, resumen y descripcin de datos, el papel de la distribucin normal como modelo, la lgica de los procesos de inferencia y el poder real de conclusin de la estadstica. Desarrollar la capacidad de razonar estadsticamente. Reconocer el papel que en la vida diaria juegan el azar, la probabilidad y la estadstica y desarrollar herramientas que ayuden a manejar la incertidumbre. Reconocer la importancia de lograr una comunicacin efectiva y expresar ese reconocimiento a travs del empleo adecuado del lenguaje oral y escrito, la notacin y la argumentacin. Elaborar una visin de la estadstica como herramienta til para abordar problemas en los que interviene el azar, que incluya la conviccin de que saber estadstica significa aprender a comunicarse utilizando el lenguaje estadstico, resolver problemas estadsticos, obtener conclusiones y justificarlas explicando el razonamiento que las sustenta. Ampliar la visin acerca de la naturaleza de las matemticas; com-

Matemticas, Azar, Sociedad prender que ellas son ms que un conjunto de verdades y algoritmos pre-establecidos. Aumentar la confianza en la propia capacidad para aprender cuando se estudia sistemticamente y se trabaja en equipo.

Contenido
La propuesta curricular dene un curso de estadstica que involucra algunos conceptos de probabilidad. Enfatiza el signicado de los conceptos y las relaciones entre ellos. Se enfoca ms en la lgica que respalda a las deniciones operativas que en las deducciones formales de frmulas y su empleo en forma mecnica y sin signicado real para los estudiantes. La introduccin de conceptos se inicia con una aproximacin intuitiva, algunas veces emprica, hasta llegar a la institucionalizacin del conocimiento. Es decir, despus de explicitar las ideas intuitivas de los estudiantes y de discutirlas y confrontarlas, se llega al saber aceptado como vlido por la comunidad educativa. Los temas se agrupan en cinco grandes bloques. Problemas sociales, sistemas sociales y azar. Con estos temas se busca hacer una reexin sobre la naturaleza de los problemas sociales y la necesidad de simplicar la complejidad que los caracteriza. Surge el concepto de sistema social como un modelo posible que identica los elementos relevantes y las relaciones ms importantes del problema que se est simplicando. En conexin con este tema, se aborda el concepto de azar, su naturaleza, su presencia en la vida cotidiana y el papel que juega en ella. Para el estudio del azar, se puede recurrir a lecturas tales como: Ateo, gracias a Dios de Luis Buuel y Un dilogo azaroso, versin adaptada de un texto de Henri Poincar. Esas dos lecturas se encuentran en Perry et al. (1990). Se recomiendan otras lecturas como por ejemplo, El orden naci del caos de Ilya Prigoguin y La ciencia est atascada desde hace veinticinco aos de Rene Thom; ambas son captulos de Guy Sorman (1991). Otro libro del que se pueden obtener ejemplos interesantes sobre el azar es Al Azar. La suerte, la ciencia y el mundo de Ivar Ekeland (1992). Poblacin, muestra y variable. Son conceptos que, por estar presentes de manera explcita o implcita en todo lo que se hace en estadstica, reciben una gran atencin a lo largo de todo el curso. Ellos se retoman permanentemente. Aunque parecen ser conceptos fciles de comprender y de manejar, los estudiantes tienen dicultad para identicarlos en situaciones problemticas concretas. Conceptos de estadstica descriptiva y probabilidad. Se inicia el estudio de

Diseo curricular

xi

estos temas con una aproximacin intuitiva y en lo posible, emprica. Para ello se realizan alrededor de ocho talleres4 en los que los estudiantes, trabajando en grupos pequeos, se enfrentan a problemas nuevos que deben resolver. Despus del trabajo en grupos se hacen puestas en comn con el n de socializar el trabajo y de ir elaborando o modicando las ideas intuitivas de los alumnos. Sin embargo, an no es el momento de la formalizacin. La formalizacin e institucionalizacin del conocimiento se hace posteriormente con base en las lecturas de los correspondientes captulos. Se incluyen temas de organizacin y resumen de datos, el concepto de probabilidad y sus propiedades ms importantes 5 y la descripcin de conjuntos de datos cuantitativos a travs de medidas de tendencia central y de dispersin. Distribucin normal. El nfasis est puesto en lo que signica lograr un modelo para representar la tendencia del comportamiento de ciertas variables y en la utilidad que tiene el modelo normal estndar. Se quiere que el estudiante maneje los procesos de estandarizacin y desestandarizacin sin necesidad de recurrir a la aplicacin mecnica y sin sentido de una frmula. Es conveniente iniciar la comprensin de esos dos procesos cuando se estudian la dispersin y la desviacin estndar. Establecer la relacin entre aqullos y la desviacin estndar contribuye a dar signicado real al concepto de desviacin estndar. Introduccin a la inferencia estadstica. Se quiere que el estudiante vea y reconozca en la inferencia estadstica una forma de razonar que hasta ahora no ha utilizado en los cursos previos de matemticas. De manera emprica, se induce el concepto de distribucin muestral y se presenta el signicado del teorema del lmite central. Adems se estudia la lgica que subyace a las pruebas de hiptesis y a los intervalos de conanza y se hace inferencia sobre la media y la diferencia de medias empleando el modelo normal.

Metodologa y actividades
Una vez denidos los objetivos que se pretenden lograr con el curso en la formacin de los estudiantes y establecido el supuesto muy general acerca de cmo se aprende (el sujeto construye su propio conocimiento en la interaccin social con otros) cabe preguntarse acerca de cmo debe ser la enseanza para
4 5 En el captulo Situaciones problemticas (ltimo de este libro) se incluyen algunos de estos talleres. Para este tema se utiliza lo hecho en Perry et al . (1990). Matemticas, Azar, Sociedad. Una introduccin emprica a los conceptos de probabilidad. (pp. 267-276). Bogot: una empresa docente.

xii

Matemticas, Azar, Sociedad

asegurar el logro de tales objetivos de manera coherente con la naturaleza del aprendizaje. Creer que esa pregunta tiene una sola respuesta y que por tanto existe una nica manera ptima de ensear supone reducir el problema de la enseanza y el aprendizaje a trminos muy simples cuando esos procesos son fenmenos que implican al ser humano como ser social inmerso en una cultura y que por esa razn son muy complejos. Sin embargo, se pueden establecer pautas de enseanza que insinan dar buenos resultados de aprendizaje (Burril, 1990). Se pueden agrupar en dos clases: las que se reeren a aspectos propiamente didcticos y las que se reeren a aspectos de interaccin en el saln de clase. Aspectos didcticos Papel del profesor. El papel del profesor se debe centrar sobre todo en la construccin de situaciones de aprendizaje (situaciones didcticas) sucientemente ricas y diversas que permitan el surgimiento de las ideas intuitivas del estudiante y el enriquecimiento de su comprensin. Naturaleza de las situaciones didcticas. Las situaciones didcticas planteadas al alumno deben tener en cuenta sus intereses y asuntos que tengan signicado para l. Deben dar al estudiante la oportunidad de experimentar previamente y trabajar con tcnicas sencillas de conteo y tabulacin de datos y de construccin de grcas. Deben dar una visin amplia, no cerrada, de la naturaleza de las matemticas y, en particular, de la estadstica en la medida en que las soluciones no se obtengan de manera mecnica al aplicar algoritmos establecidos previamente en la clase. Deben dar la oportunidad de trabajar individualmente pero tambin y esto es muy importante de hacerlo en pequeos grupos de manera que sea posible discutir y confrontar las propias ideas con las de los compaeros. Tambin se requiere abrir espacios para la comunicacin y la exposicin de argumentos tanto en forma oral como en forma escrita. Realizacin de un proyecto de investigacin. Paralelamente al desarrollo del contenido del curso, los estudiantes deben realizar un proyecto de investigacin. Con respecto a este punto la propuesta Matemticas, Azar, Sociedad se ha implementado como se describe a continuacin. Se escoge un problema6 relacionado con el ambiente universitario que se pueda abordar desde la estadstica con los conceptos que se tratan en el curso. Se forman grupos interdisciplinarios de cuatro o cinco estudiantes. Ellos deben hacer un trabajo individual y tambin un trabajo en equipo. Para apoyar el desarrollo del proyecto se dedican algunas horas de clase para explicar y acordar cuestiones generales, para hacer el diseo metodolgico y coordinar el trabajo de los diferentes grupos. Inicialmente se hace un trabajo para la identicacin y denicin del

Diseo curricular

xiii

problema y de los objetivos que puede tener el estudio. Luego, se dedica tiempo al diseo de la investigacin. Despus, entre todos los estudiantes del curso (ms o menos 170 distribuidos en seis secciones) se recoge la informacin necesaria. Cada grupo usa la muestra tomada por todos los estudiantes para adelantar la investigacin particular que se haya planteado. Para terminar, cada grupo hace una exposicin de su estudio ante sus compaeros y entrega un informe nal7. El profesor coordina el trabajo de los diferentes grupos. Manejo de las situaciones didcticas por parte del profesor. El nfasis en cualquier trabajo de estadstica debe recaer en el anlisis y la comunicacin del mismo y no en simples respuestas. En tanto sea posible deben utilizarse datos reales para los trabajos en estadstica. Las experiencias de clase deben ser tales que ayuden al estudiante a aumentar su autoestima y conanza en su propia capacidad para aprender. El manejo del error, la formacin de hbitos de estudio, el manejo de la interaccin en el saln de clase son elementos que inuyen signicativamente en la motivacin y en las actitudes de los estudiantes hacia la estadstica y su aprendizaje. Aspectos de interaccin Discusin en clase. Esta es la metodologa predominante. Para participar en las discusiones que se llevan a cabo en la clase, cuando se introducen temas nuevos, cada estudiante debe preparar el tema con anterioridad leyendo lo que se estipula y respondiendo la gua de lectura propuesta. Se pretende que ese trabajo de preparacin d al estudiante la posibilidad de hacer una reexin sobre temas an no tratados en clase, le lleve a explicitar cules son
6 En los cursos que se han desarrollado siguiendo la propuesta curricular que aqu se presenta se han trabajado, entre otros, los siguientes problemas: 1) Existe polmica nacional alrededor de la dosis personal de droga. Se quiere conocer la aceptacin de esta medida en la poblacin uniandina y cmo se relaciona esta opinin con el uso de la droga, el cigarrillo y el alcohol. 2) Los estudiantes que traen vehculo a la Universidad enfrentan problemas originados por la falta de espacio para el estacionamiento, los altos costos y la inseguridad. Se quiere examinar qu tan real es el problema. 3) La Ocina X de la Universidad est interesada en determinar si las actividades en las que se involucran los estudiantes por el hecho de estar en la Universidad son situaciones que generan estrs en ellos. 4) Estn informados los estudiantes uniandinos de lo que ocurre en el pas? Un grupo de profesores de la Universidad encomienda a los estudiantes del curso de estadstica, realizar un estudio con el objetivo principal de describir la situacin de inters. 7 Se pide a los estudiantes que tanto para el informe nal como para el levantamiento de los datos y su procesamiento utilicen el computador.

xiv

Matemticas, Azar, Sociedad

sus pre-conceptos y adems le lleve a identicar posibles dudas y preguntas. Usualmente el profesor es quien coordina la discusin y hace la institucionalizacin del conocimiento. Trabajo en equipo durante la clase. Es la metodologa propuesta para los talleres. Se hacen grupos de dos o tres estudiantes con la tarea de buscar entre ellos solucin a algn problema o a preguntas especcas. Lo que se pretende es que entre ellos se genere una discusin y se llegue a una respuesta de grupo. Posteriormente, se lleva a cabo una discusin plenaria sobre las soluciones o se hace exposicin de las mismas. El papel del profesor consiste en monitorear los procesos de discusin en los grupos pequeos para detectar su desarrollo y poder tomar decisiones con relacin a aspectos que requieran mayor discusin dentro de los grupos o ampliacin al grupo total o que deban considerarse en la institucionalizacin. Tambin debe detectar dicultades en la apropiacin de conceptos, en el uso de estrategias y en las relaciones sociales de los grupos y entre ellos. Los trabajos que se formulan tienen fundamentalmente dos propsitos: identicar dicultades de comprensin o manejo de conceptos por medio de presentacin de situaciones problemticas diseadas con tal n, y consolidar la comprensin de un cierto tema.

Evaluacin
El diseo curricular propuesto enfatiza la coherencia entre la evaluacin y los dems elementos del currculo a nivel del saln de clase, a saber, los objetivos, la metodologa y el contenido. Si se proponen objetivos cognitivos, sociales y motivacionales y adems, los primeros no se centran en repetir lo que el profesor dice en clase o lo que los autores del texto arman, es necesario que la evaluacin no se limite a considerar aspectos cognitivos y ms exactamente a detectar qu tanto recuerdan los estudiantes los procedimientos y los conceptos denidos en clase. Entonces, qu otros aspectos podran considerarse en la evaluacin? Hay muchos; a manera de ejemplo, citaremos tres. Dado que la metodologa propuesta sugiere que el estudiante haga una reexin que le permita explicitar sus ideas intuitivas sobre un tema antes de que se trate en clase, la evaluacin de ese trabajo 8, no necesariamente tiene que centrarse en qu tan correctas son
8 La forma de concretar esa reexin en algo escrito puede hacerse de diversas maneras. Una, es a travs de un resumen de la lectura donde se expongan las ideas centrales y las dudas que surgieron al lector. Otra forma es responder por escrito slo aquellas preguntas de la gua de lectura cuyas soluciones no sean evidentes. Una tercera es hacer un mapa conceptual.

Conclusiones

xv

las respuestas. En cambio, puede ser interesante ver qu tan coherente y completo es el discurso, qu tipo de argumentos se dan, qu recursos se utilizan para explicar las armaciones, etc. Tambin resulta interesante evaluar, ya no el trabajo que ellos hicieron como tarea, sino las correcciones, los apuntes y comentarios que hacen sobre su tarea escrita como resultado de haber participado en una discusin plenaria. Al evaluar la exposicin de un alumno o un grupo de alumnos ante el resto de sus compaeros se puede evaluar algo ms que el contenido de la presentacin; se pueden considerar puntos tales como los recursos utilizados en la preparacin y en la presentacin misma, la estructura y el desarrollo de la presentacin, la creatividad, etc. En realidad, la propuesta curricular Matemticas, Azar, Sociedad impulsa la evaluacin en dos sentidos. Por un lado, se pretende que reeje el trabajo y el compromiso del estudiante con su aprendizaje en el curso; y por otro, que d informacin tanto al profesor como al estudiante acerca de cmo se estn desarrollando los procesos de enseanza y aprendizaje para detectar oportunamente dicultades y logros y as poder tomar decisiones pertinentes. Por tanto, para que la evaluacin cumpla esas dos funciones primordiales, se sugiere buscar diversas fuentes entre las que se pueden mencionar: tareas diarias, pruebas escritas, talleres, proyecto de investigacin, exmenes, exposiciones, aspectos de la interaccin social dentro del saln de clase y de las actitudes de los estudiantes ante su aprendizaje y ante el curso del que hacen parte. Al ser un canal de comunicacin entre el profesor y los estudiantes, la evaluacin se convierte en un medio importante para la construccin del contrato didctico. A travs de la evaluacin el profesor le indica a los estudiantes que es lo que l considera relevante en el aprendizaje de la estadstica. Por su parte, el estudiante puede utilizar la evaluacin para informar al profesor acerca de sus intereses, sus capacidades y sus dicultades.

Conclusiones
Esperamos que el conocimiento de algunos aspectos curriculares que subyacen a este libro d ideas y pautas de manejo al profesor que quiera utilizarlo en un curso y tambin le ayude al estudiante que lo sigue a comprender por qu y para qu este libro se sale de los esquemas tradicionales de presentacin a los que est acostumbrado.

xvi

Matemticas, Azar, Sociedad

Este libro es tan slo uno de los resultados de un proyecto de innovacin curricular; est estrechamente ligado con el diseo de un curso descrito breve y parcialmente en los prrafos anteriores y de ninguna manera pensamos que sea auto-suciente. Los autores somos conscientes de las deciencias que tiene; por ejemplo, hace muy poca referencia al diseo de experimentos y por eso, aunque no enfatiza en frmulas y en cambio destaca el signicado y sentido de los conceptos y de las relaciones entre ellos, el libro es, en todo caso, un compendio de herramientas y la estadstica no es slo herramientas. Sin embargo, la utilidad que puede prestar depende en gran medida de la forma en que el profesor lo maneje, pues l es quien interpreta, adapta y modica las propuestas hechas. Al nal del libro hemos puesto unas referencias bibliogrcas con el propsito de sugerir la consulta de artculos y libros sobre la educacin estadstica. Para terminar, los autores queremos reconocer la colaboracin que nos han prestado los profesores de la Universidad de los Andes que han realizado el curso con el diseo curricular propuesto. A su inters y contribucin debemos los cambios que han enriquecido el diseo; ellos son coautores del captulo Situaciones problemticas. Queremos agradecer especcamente a Luisa Andrade, Claudia Arvalo, Cecilia Corvaln, Martha Espinosa, Camilo Gutirrez, Alejandro Mateus, Cesar Muoz, Claudia Rebolledo y David Ricaurte. Agradecemos tambin a los estudiantes que han prestado su valiosa ayuda como monitores de nuestros cursos y a los que han participado en la realizacin de pequeos proyectos para la formulacin de problemas de inters. Por supuesto, damos las gracias a todos los estudiantes que han tomado el curso siguiendo la propuesta, pues ellos son quienes han dado la realimentacin necesaria. Los autores Bogot, enero de 1996

Los problemas sociales

Introduccin
Este captulo consta de una breve lectura y de un conjunto de preguntas relacionadas con ella. Se pretende poner de maniesto la existencia de cierto tipo de problemas que son de inters para los investigadores en ciencias sociales y se quiere delimitar de alguna manera las caractersticas de tal tipo de problemas, estableciendo simultneamente diferencia entre ellos y los problemas que son de inters para las ciencias naturales. Adems, se entreve ya la necesidad de lograr un tratamiento especial para los problemas sociales.

A ciencia cierta
(Stadi Shka y Ana Liza se encuentran en un pasillo, a la salida de clase.) Stadi Shka: Hola!, Ana Liza, acabo de salir de clase de proceso poltico y antes estuve en clase de fsica. Y, estoy en una confundida terrible... Ana Liza: Y eso, por qu Stadi Shka? Stadi Shka: En ambas clases hablan de problemas que hay que resolver, pero no veo con claridad la relacin entre ellos. Adems, en fsica hablan de ciencia, y tambin lo hacen en proceso poltico. En este curso hablan de la ciencia social, mientras que en fsica hablan de ciencia natural. Pero, me parece que no tienen ninguna relacin esos dos cursos. T, qu piensas de esto? Ana Liza: Pues, creo que tanto la fsica como la ciencia poltica son ciencias. Sin embargo, son ciencias diferentes, particularmente porque tratan problemas diferentes. Como nos interesan las ciencias sociales, te propongo que tratemos de analizar los problemas que estas ciencias abordan. Qu se te ocurre?

Matemticas, Azar, Sociedad

Stadi Shka: Lo primero que se me ocurre es que los problemas de las ciencias sociales son mucho ms complejos que los problemas de las ciencias naturales. Mira, te doy un ejemplo: en clase de fsica estamos viendo la cada libre de los cuerpos. A m me parece sencillo. Para este caso, conocemos las leyes que rigen el proceso, hay muy pocas variables involucradas (la fuerza de gravedad, la masa del cuerpo en cuestin, la altura), las leyes han sido plenamente corroboradas, podemos experimentar con el proceso tantas veces como se quiera y, por consiguiente, nos es posible predecir con certeza. En proceso poltico estamos analizando la eleccin popular de alcaldes. En este caso, no conocemos leyes que rijan el proceso, hay muchas variables involucradas (situacin econmica del municipio, situacin geogrca del mismo, grado de urbanismo, aspectos sociales, aspectos polticos, y muchas otras), las interrelaciones entre estas variables son innumerables, no nos es posible experimentar y, por consiguiente, resulta prcticamente imposible predecir con exactitud. Por todo lo anterior, digo que la clase de proceso poltico me parece complicadsima. Ana Liza: Pues s; los problemas de las ciencias sociales son ms complejos que los de las ciencias naturales. Sin exagerar, nias!, porque en niveles avanzados de las ciencias naturales hay problemas tanto o ms complejos que los de las otras ciencias. Pero, de dnde sale esa complejidad? Stadi Shka: Para comenzar, hay que tener en cuenta que en los problemas sociales interviene el hombre y el hombre es muy complejo. O, es que no has visto cmo se comporta Askanio? Ana Liza: Pero, t crees que la complejidad de los problemas venga exclusivamente de que en ellos interviene el hombre? Stadi Shka: No; la verdad es que la cosa es ms complicada an. Porque no interviene slo un hombre, sino que intervienen muchos hombres. Ana Liza: S. Pero en fsica hay problemas en que intervienen muchos tomos. Y la cosa no es tan complicada. Stadi Shka: En fsica todos los tomos son iguales o se comportan de manera muy similar. En tanto que los hombres son diferentes unos de otros, tienen criterios y formas de pensar diferentes; ms an, interactan entre ellos de maneras diferentes. Eso es lo que hace que los problemas sociales sean tan difciles de manejar! Te das cuenta Ana Liza? Ana Liza: S, claro que me doy cuenta. Evidentemente los problemas de las

A ciencia cierta

ciencias sociales son muy diferentes de los problemas de las ciencias naturales. Para resumir, en los problemas de las ciencias sociales interviene el hombre, el hombre es complicado por naturaleza, normalmente intervienen muchos hombres, todos son diferentes y, para acabar, las relaciones entre los hombres suelen ser muy complejas. Qu problema, no? Pero qu signica esto Stadi Shka? Quiere decir que mejor deberamos estudiar fsica o qumica y dejar a un lado la ciencia poltica? Stadi Shka: Uy, no! Ni de riesgos. Fjate que al estudiar ciencia poltica no se nos ensucian las uas en los laboratorios... Mentiras, ese era un chiste malo. Sin embargo, me da la impresin de que debemos tratar de abordar los problemas de las ciencias sociales de manera diferente a como se hace con los problemas en las ciencias naturales. Por ejemplo, el otro da, en un programa de televisin explicaron cmo el color de las alas de una mosca que ya no me acuerdo cmo se llama depende de la posicin de unas molculas en no s qu sitio de no s qu clulas. T crees que eso se puede hacer en ciencias sociales? Crees que podamos explicar por qu eligieron a algn alcalde a partir de la personalidad y los gustos de cada uno de los habitantes del municipio en cuestin? Ana Liza: Claramente no. Creo que has dado con la clave del asunto. En las ciencias sociales, los problemas que ellas tratan no se pueden reducir a sus ltimas consecuencias. Es muy difcil meterse por dentro de los problemas. Me da la impresin de que lo mejor es mirarlos desde afuera y tratar de simplicarlos lo ms posible para llegar a denir algo que llaman un sistema social. Por ejemplo, en el caso del color de las alas de una mosca, podemos llegar a conocer la composicin molecular de las clulas de las alas. A partir de esta composicin molecular y del conocimiento que se tiene del comportamiento de los tomos cuando la luz incide en ellos, podemos deducir cul debera ser el color que percibimos cuando observamos las alas de la mosca. En este caso, nos hemos introducido al interior del sistema y hemos sido capaces de predecir a partir del conocimiento que tenemos del comportamiento de cada uno de los elementos y cada una de las interrelaciones que intervienen en el mismo. En el caso del problema de la eleccin popular de alcaldes, esto no sera posible. Por ejemplo, tendramos que conocer el estado, el comportamiento y las interrelaciones de cada una de las neuronas de cada uno de los electores. Es por ello que, en este caso, nos vemos obligados a analizar el problema desde afuera con el propsito de simplicarlo al construir un sistema social. Stadi Shka: Mira, all viene Chepa. Veamos qu tanto sabe ella sobre sistemas sociales.

Matemticas, Azar, Sociedad

a. Explique qu quiere decir que un problema social sea complejo. Adems, proponga un problema social que sea de su inters, diferente al que se menciona en el dilogo, y diga en qu consiste la complejidad de tal problema. b. Explique por qu un problema social es complejo. c. Establezca todas las diferencias que pueda entre los problemas de las ciencias sociales y los de las ciencias naturales. d. Haga un comentario crtico sobre la comparacin que se hace en el dilogo con respecto a la complejidad de los problemas que son de inters para las ciencias naturales y para las sociales. e. Qu cree usted que signica la expresin mirar el problema desde afuera?

Los sistemas sociales

Introduccin
Como consecuencia de la complejidad de los problemas sociales se hace necesario buscar una manera adecuada de abordarlos. En este captulo se presenta la construccin de un modelo sistema social como la mejor forma de aproximacin al anlisis de un problema social. Adems, se presenta la estadstica como una herramienta para manejar conjuntos de datos, obtener generalizaciones y sustentar numricamente las conclusiones inferidas a partir de ellos. Este captulo, al igual que el anterior Los problemas sociales y el siguiente Ejemplos de sistemas sociales debe considerarse como un primer intento para lograr una caracterizacin de los problemas sociales cuya solucin se puede realizar empleando la estadstica.

Del problema social al sistema social


(Chepa se une a la conversacin de Stadi Shka y Ana Liza.) Stadi Shka: Hola Chepa! Apuesto a que t tienes una idea clara acerca de qu es un sistema social y cmo se construye. Chepa: Pues, de verdad, no recuerdo bien toda esa historia. Precisamente tena la esperanza de que ustedes me explicaran pues tengo una evaluacin sobre ese tema pasado maana y me voy a rajar. Ana Liza: No te preocupes Chepa. Creo que, aunque no nos acordemos bien de qu se trata, a partir de lo que hemos hablado con Stadi Shka, podemos descubrir muchas cosas acerca de los sistemas sociales. Para comenzar, hace un rato concluimos con Stadi Shka que una de las caractersticas de un problema social es su complejidad y que esa complejidad no nos permite, al con-

Matemticas, Azar, Sociedad

trario de lo que sucede con los problemas de la ciencia natural, mirar el problema por dentro, esto es, conocer todas las causas y el funcionamiento interno del fenmeno que queremos estudiar. Stadi Shka: Concluimos entonces que es necesario hacer por lo menos dos cosas: mirar el problema desde afuera y tratar de simplicarlo. Para mirar el problema desde afuera tendremos que limitarnos a determinar los elementos y las interrelaciones relevantes, y adems creo que en la parte de simplicacin del problema interviene el concepto de sistema social. A m esto me recuerda toda una historia en la que insisti mi profesor de matemticas acerca de modelar situaciones complejas. Ana Liza: Es verdad. Siempre que se tena una situacin compleja, para llegar a conocerla, a manejarla, a analizarla y a solucionarla, lo primero que nos aconsejaba era que tratramos de simplicarla a travs de un modelo. Chepa: S. Entonces podemos considerar que un sistema social es un modelo de un problema social. El problema es que no me acuerdo de la historia de los modelos. Ana Liza: Bueno, no importa. Veamos cmo se puede caracterizar un sistema social. Tal vez, lo mejor sea considerar un ejemplo. Qu tal si pensamos en nuestro curso de matemticas y en las notas del parcial que vamos a tener la semana entrante? Chepa: Pues a menos que ustedes me expliquen, yo tengo una idea muy clara de cul va a ser mi nota en ese parcial. Stadi Shka: No te preocupes, Chepa. Vas a ver que con Ana Liza, uno entiende rpido. Pero, pensemos: cules son las caractersticas de nuestro sistema social? Chepa: Eso es fcil. En primer lugar, hay unos elementos involucrados en el sistema social: por ejemplo, los estudiantes, el profesor, los temas del curso, las calicaciones. Y, debe haber ms, pero por ahora no se me ocurren. Stadi Shka: Y, en segundo lugar, hay una cierta cantidad de interrelaciones entre esos elementos. Por ejemplo, la importancia que cada profesor da a cada uno de los temas, el tipo de preguntas que cada profesor tiene la costumbre de hacer, los objetivos que cada profesor ha denido para el curso y varias otras.

Del problema social al sistema social

Ana Liza: De acuerdo. Cada sistema social tiene elementos y entre ellos hay unas interrelaciones. Sin embargo, como el sistema social es un modelo simplicado de un problema social es necesario determinar cules son los elementos y las interrelaciones que se consideran realmente relevantes para el problema social que se est modelando. Chepa: Pero, falta considerar una parte vital de todo sistema social. Veamos el ejemplo de las notas del parcial: si el da del parcial llueve sorpresivamente, alrededor de la hora de clase, puede haber estudiantes que llegan tarde, no alcanzan a responder todo el parcial y por tanto, la calicacin general del parcial se vera afectada por un factor externo. Stadi Shka: O, tambin es posible que para el da del parcial tengamos que entregar varios trabajos para otros cursos. Chepa: Podemos entonces concluir que para denir un sistema social debemos construir un modelo en el cual se determinen los elementos y las interrelaciones entre ellos y adems los factores externos que inuyen sobre aqullos. Y, lo que nos interesa es analizar cmo se comportan los elementos y las interrelaciones entre ellos dadas unas inuencias externas. Ana Liza: Para poner otro ejemplo de factores que inuyen en el sistema social de nuestro ejemplo, podramos pensar en que el profesor decida hacer un parcial conceptual o prctico. Es posible que las notas del parcial dependan de estos factores y que al profesor le interese saber qu tipo de parcial hacer. Yo me pregunto si el profesor puede predecir cul va a ser la nota del parcial, si hace un parcial conceptual. Stadi Shka: Pues claro que no, Ana Liza. En los sistemas sociales, por su complejidad, es imposible predecir con absoluta certidumbre. Fjense!, esa es otra diferencia con los problemas de la ciencia natural. Si se lanza una piedra hacia arriba, con toda seguridad se sabe que despus de un tiempo, sta caer. En cambio,... Chepa: Bueno, s. Pero si no se puede predecir con certidumbre, entonces para qu sirve todo lo que hemos descubierto acerca de los problemas sociales? Stadi Shka: Pues sirve y mucho, porque predecir con absoluta certidumbre no es la nica manera de predecir. Tambin se puede predecir con algn grado de certidumbre, con alguna probabilidad de equivocarnos. El profesor puede, por

Matemticas, Azar, Sociedad

ejemplo, predecir con una probabilidad del 80%, que si hace un parcial prctico, una tercera parte del curso se raja. Ana Liza: Y que si hace un parcial conceptual, dos terceras partes se van a rajar con un 80% de probabilidad. Chepa: Pero, todava no entiendo por qu no se puede predecir con absoluta certidumbre. Ana Liza: La razn es sencilla. El problema social es tan complejo que en una gran medida se ve inuido por el azar. Por consiguiente, si se analiza un sistema social, correspondiente a un determinado problema social y con base en ese anlisis se quiere hacer una prediccin, sta debe hacerse de tal manera que se tenga presente la accin del azar y, as entonces, la prediccin debe ser con probabilidad. En el ejemplo que di anteriormente, el problema consiste en saber qu tiene que hacer nuestro profesor para efectuar esas predicciones. Stadi Shka: S; ese es otro problema. Me imagino que deber tener una idea de cmo se ha comportado el sistema en ocasiones pasadas. Chepa: Pero eso signica que nuestro pobre profesor tendra que mirar al mismo tiempo todas las notas de todos los parciales de todos los estudiantes del curso. Eso me parece muy difcil. Ms an si tenemos en cuenta que de las tres neuronas que l tiene, una est daada, la otra est normalmente dormida y la otra se fue de vacaciones... Ana Liza: Entonces, el profesor tendra que hacer algn tipo de resumen de todos esos datos para poder comprenderlos. Y su resumen debera basarse slo en una parte de todo lo que podra observar. Si no lo hiciera as, si lo quisiera hacer con base en todas las observaciones, entonces no tendra sentido predecir; en ese caso sera una descripcin lo que estara realizando. De todas maneras, trabajar con todas las posibles observaciones, en muchos casos, resulta fsicamente imposible y casi siempre muy costoso. Stadi Shka: En realidad, no s cmo va l a resumir esos datos. Pero supongamos que l s sabe. Qu har despus de resumir la informacin? Ana Liza: Una vez que tenga resumidos los datos, tendr que utilizarlos adecuadamente e interpretarlos para extraer de ellos generalizaciones y conclusiones que son las que permitirn que el profesor haga predicciones sobre lo que espera que suceda en ocasiones similares a las que ha analizado; y claro,

Del problema social al sistema social

esas predicciones no estarn libres de error, pero lo importante es que ese error s se puede cuanticar, se puede medir de alguna manera. Stadi Shka: Y, frecuentemente el proceso no termina en la prediccin, sino que se extiende hasta el punto de tomar decisiones. Es ms, se hacen predicciones por la necesidad que existe de tomar decisiones. Frente a un determinado problema social que tiene diversas alternativas de solucin, cuando se ha hecho una prediccin, se pueden evaluar tales alternativas de solucin y a partir de esa evaluacin se puede tomar una decisin. Ana Liza: En el caso de las calicaciones del parcial de nuestro curso, la decisin crucial que debe tomar el profesor es hacernos un examen prctico. Verdad, Chepa? Chepa: Todo muy bonito, pero muy abstracto. Porque, quin le va a decir, o nos va a decir, cmo hacer esos resmenes y esas predicciones? Ana Liza: Pues ah est el meollo del asunto. En lo que queda del semestre nos vamos a dedicar a aprender tcnicas para resumir y para predecir en sistemas sociales. Y el conjunto de esas tcnicas es lo que se llama estadstica. Chepa: Como quien dice, vine aqu para que me explicaran lo que no entiendo y ustedes, en cambio, me cuentan que hay muchas cosas que no s y que voy a ver en el resto del semestre. Muchas gracias! Dizque amigas!

a. Qu signica simplicar un problema social? Qu relacin hay entre un problema social y el correspondiente sistema social? b. Qu tan seguras son las generalizaciones obtenidas de la parte al todo en los sistemas sociales? c. Por qu debe tenerse presente la accin del azar en los sistemas sociales? Cul es la relacin entre el azar y la probabilidad? d. A continuacin se dan tres situaciones problemticas. Escoja una de ellas y construya un sistema social que le facilite abordar y manejar el problema. (Haga explcitas todas las suposiciones que crea necesarias para poder construir el sistema social que se le pide.)

10

Matemticas, Azar, Sociedad Imagine que usted es el jefe de la seccin de control de calidad de una cierta de fbrica y durante los ltimos tres meses ha recibido, de distintos clientes, quejas con respecto a la calidad de los artculos producidos. Usted est interesado en analizar el problema para decidir qu polticas debe adoptar. Usted es el director de un colegio y tiene indicios de que los estudiantes del colegio estn consumiendo drogas alucingenas. Usted est interesado en analizar el problema para decidir qu polticas debe adoptar. Usted es el jefe de la divisin de Bienestar Universitario en una cierta universidad y ha notado que la asistencia de los estudiantes a las actividades culturales y de recreacin que programa la divisin es muy reducida. Usted est interesado en analizar el problema para decidir qu polticas debe adoptar.

Ejemplos de sistemas sociales

Introduccin
Este captulo tiene bsicamente dos propsitos: uno, aclarar algunas armaciones hechas en los dos captulos anteriores; y otro, presentar de manera informal una lista de puntos que deben tenerse en cuenta siempre que se vaya a realizar cualquier investigacin estadstica. Se presentan, como ejemplos, tres problemas sociales, de diferente contenido, con una denicin de sus respectivos sistemas sociales. A travs del primer caso, adems de presentar en qu consiste la construccin del modelo, se determina una lista de pasos que constituyen una correcta aproximacin al problema que se tiene que resolver y que necesariamente deben haberse dado antes de pretender aplicar la estadstica a la solucin del problema. Adems, se presentan dos situaciones concretas con sus correspondientes preguntas las cuales dan la oportunidad de completar o mejorar el modelo construido. Finalmente, se propone un ejercicio en cuya solucin se puede observar la comprensin de los conceptos mencionados en este captulo y los dos anteriores.

Primer ejemplo: Dime cmo vistes y te dir qu estudias


(Dilogo en la plazoleta exterior de la cafetera.) Ana Liza: Hola Stadi Shka, qu haces ah sentada? Se dira que llevas un buen tiempo sin hacer nada. Stadi Shka: Por el contrario, Ana Liza. Estoy trabajando para mi curso de estadstica.

12

Matemticas, Azar, Sociedad

Ana Liza: Trabajando? A m me parece que ests disfrutando del paisaje. Mira: all viene Juan Mario, el estudiante de ingeniera que nos gusta tanto. Stadi Shka: Cmo sabes que estudia ingeniera? Solamente lo hemos visto de lejos un par de veces. O, ser que t ya has estado haciendo tus averiguaciones? Ana Liza: Realmente no estoy segura de que estudie ingeniera. Lo que pasa es que basta verlo para intuirlo. Mrale los pantalones bien limpiecitos, el suter de rombos y la calculadora colgada de la cintura. No me vas a decir que estudia losofa... Stadi Shka: Tienes razn, Ana Liza. Es muy probable que Juan Mario estudie ingeniera. Y, precisamente eso tiene que ver con el trabajo que estoy haciendo desde hace dos horas, aqu sentada. Ana Liza: No me vengas con el cuento de que estabas trabajando. Insisto en que estabas sencillamente mirando el paisaje. Stadi Shka: Pero es que mirar el paisaje hace parte de mi trabajo para hoy. Figrate que nuestro profesor de estadstica nos ofreci la oportunidad de ganarnos unos puntos adicionales... Ana Liza: Unos puntos adicionales! Tu profesor s que es buena persona. El nuestro nos tiene estudiando para un examen que haremos maana. Y, de qu se trata el trabajo? Stadi Shka: Nuestro profesor propuso darnos unos puntos adicionales, si somos capaces de adivinar qu carrera estudia un estudiante de la Universidad, basndonos en su forma de vestir. Ah! y podemos hacerle al estudiante, mximo una pregunta si sta no tiene relacin con su carrera. Claro est, que cualquiera que sea nuestra respuesta debemos justicarla, estadsticamente. Por eso, llevo dos horas mirando pasar a la gente. Ana Liza: Y, t crees que mirar a la gente te va ayudar a resolver el problema? Stadi Shka: Me da la impresin de que no mucho. Sin embargo, esta pequea observacin me ha ayudado a acercarme un poco al problema y creo que ya tengo una idea de cmo comenzar mi investigacin. Ana Liza: Y, qu es lo que crees que tienes que hacer?

Primer ejemplo: Dime cmo vistes y te dir qu estudias

13

Stadi Shka: Lo primero, denir el problema. Y, como ste es claramente bastante complejo, voy a tratar de identicar el contexto dentro del cual se enmarca, es decir, voy a delimitar de la manera ms completa y clara posible a qu seres se referir mi investigacin. Ana Liza: Mi profesor de estadstica nos ha insistido mucho en la importancia de aproximarnos a los problemas complejos a travs del concepto de sistema social. Cul crees que es el sistema social? Stadi Shka: Por un lado, pienso que el problema se restringe a los estudiantes de la Universidad, es decir, el contexto en el que se enmarca el problema es el conjunto de todos los estudiantes que estn inscritos en la Universidad este semestre. Y por otro lado, para construir un sistema social que corresponda al problema tengo que identicar los elementos relevantes del problema y descubrir las interrelaciones que existen entre esos elementos. Sin embargo, imagnate que estuve averiguando cuntos estudiantes hay en la Universidad y son ms de 6.000! Ana Liza: Eso quiere decir que no puedes pretender observar a todos y cada uno de los estudiantes. Stadi Shka: Por supuesto. Y adems, antes de lanzarme a tratar de comprobar si verdaderamente existe una relacin entre la forma de vestir del estudiante y la carrera que ste estudia, quisiera tener una idea general del comportamiento de estos elementos. Para darte un ejemplo, quisiera saber si es razonable pensar que el semestre que cursa un estudiante es un factor externo que inuye en el problema. Pero no puedo preguntarles a todos para sacar la distribucin real de frecuencias de toda la poblacin. Qu hago? Ana Liza: Pienso que debes comenzar por organizarte un poco, intentando hacer una primera aproximacin a la construccin de un sistema social para el problema. Y para lograr eso basta, por ahora, identicar los factores externos y los elementos que son ms relevantes para el problema en cuestin. Se te ocurren algunos? Stadi Shka: Claro. Ya te haba comentado que me interesara conocer el semestre en el que est cada estudiante. Adems, es claro que tengo que conocer la forma de vestir y la carrera que estudia, puesto que all est el centro del problema. Tambin creo que me interesara conocer alguna medida de los ingresos de la familia. En resumen tengo los siguientes elementos: (anotando)

14

Matemticas, Azar, Sociedad forma de vestir, carrera, semestre, ingreso familiar.

Ana Liza: Pues ya tienes una base sobre la cual construir un sistema social. Sin embargo, recuerda que un sistema social no es nicamente una lista de elementos. Es esta lista de elementos, junto con unas interrelaciones entre ellos. Se te ocurren algunas posibles interrelaciones? Stadi Shka: Por supuesto. Pienso que semestre y forma de vestir estn relacionados as: entre ms adelantado est el estudiante en su carrera, ms seriamente se vestir o usar la ropa que impone la moda profesional. Por otra parte, no estoy segura de que el nivel de ingresos de la familia pueda llegar a ser importante en la forma de vestir del estudiante. Ana Liza, ahora tengo otro problema. Ana Liza: Y, ahora qu te pasa? Stadi Shka: Ahora que tengo una idea ms clara de lo que es el problema, dado que he construido un modelo que lo ha simplicado, se me han comenzado a ocurrir ideas de lo que puede suceder al interior de ese sistema social; pero, esas son puras sensaciones personales, impresiones subjetivas! Y mi profesor de estadstica no me va a aceptar un trabajo basado en impresiones. Ana Liza: Pero, es que sa es precisamente la funcin principal de la estadstica: darte bases con las que puedas justicar racionalmente tus hiptesis acerca de un sistema social y darte herramientas para que puedas resolver un problema que te hayan asignado o que te interese. Lo importante es que te des cuenta de que la estadstica es una herramienta, y que esta herramienta puede cumplir apropiadamente con sus propsitos solamente en aquellos casos en los que el investigador se haya aproximado correctamente al problema que tiene que resolver. Como normalmente los problemas a los que el investigador se enfrenta son problemas complejos, esto signica que es necesario llevar a cabo un proceso previo antes de la aplicacin de la estadstica. Este proceso que podemos llamar la construccin del modelo del sistema social implica que el investigador: Identique la realidad que va a investigar. Determine y exponga explcitamente los objetivos de su investigacin.

Primer ejemplo: Dime cmo vistes y te dir qu estudias

15

Delimite el sistema social al identicar qu factores se consideran externos al problema. Delimite el sistema social al identicar qu elementos se consideran relevantes de acuerdo a los objetivos de la investigacin. Delimite el sistema social al determinar las interrelaciones relevantes entre los elementos identicados, de acuerdo a los objetivos de la investigacin. Formule hiptesis acerca de estas interrelaciones y del comportamiento de los elementos en cuestin. Solamente en este momento, cuando el investigador haya satisfecho las etapas anteriores, podr intervenir la estadstica como medio para manejar las dicultades que resultan de la presencia del azar y de la complejidad del sistema social que se est estudiando. Es decir, es en este momento cuando se requieren de herramientas estadsticas para resumir la informacin e interpretarla. Stadi Shka: Me descresta tu sabidura, Ana Liza. Y, entonces ahora, qu hago con los 6.000 estudiantes de la Universidad? Yo no puedo ir a averiguarle la vida a todos y cada uno de ellos! Ana Liza: Aunque pienso que, dada tu personalidad, esa sera una actividad que no te desagradara, tienes razn: no puedes pasarte un mes recogiendo toda esa informacin. Yo creo que tendrs que preguntarle a unos cuantos y ver si lo que te dice esa muestra realmente es vlido para la poblacin, o sea para todos los estudiantes. Stadi Shka: Y, qu condiciones debe cumplir esa muestra? Cmo debo construirla? Ana Liza: En realidad, no s responderte a esas preguntas. Pero, estoy segura de que deben existir unas ciertas condiciones para conseguir una muestra sobre la cual se puedan basar vlidamente las conclusiones acerca de la poblacin. Posiblemente, esas preguntas que t formulas ahora se resolvern en el curso ms adelante. Stadi Shka: Bueno... tengo clase, Ana Liza. Nos vemos. Ana Liza: Adis.

16

Matemticas, Azar, Sociedad

Un resumen
En el dilogo anterior nos encontramos con que Stadi Shka tena que resolver, desde el punto de vista estadstico, una serie de preguntas acerca de una poblacin. La dicultad que se le presenta a Stadi Shka en un primer momento consiste en identicar y denir el sistema social dentro del cual se enmarca el problema. Para poder conocer un poco el interior del sistema social, se desea saber cmo es el comportamiento general de algunos de sus elementos relevantes. Lo ideal sera considerar toda la poblacin y obtener toda la informacin. Sin embargo, como sucede en la mayora de las investigaciones estadsticas, esto es imposible desde el punto de vista prctico. Esto tiene que ver con el hecho de que toda investigacin estadstica cuenta con una cierta cantidad de recursos (fsicos, nancieros, computacionales) y esos recursos no son sucientes para analizar toda la poblacin. Adems, se han introducido ya los primeros factores o consideraciones que intervienen cuando se comienza toda investigacin estadstica: La necesidad de denir el problema a travs de la identicacin del sistema social dentro del cual ste se enmarca. La determinacin de los objetivos de la investigacin que se deducen de la denicin del problema y de la identicacin del sistema social. La necesidad de recoger informacin para conocer el sistema social y hacer un anlisis previo del mismo. La necesidad de recoger la informacin a travs de una muestra, dado que, en general, los recursos disponibles no permiten recoger la informacin concerniente a toda la poblacin. La necesidad de que la muestra cumpla algunos requisitos para efectos de la calidad de las conclusiones que se obtengan a partir de ella.

Segundo ejemplo1
Un grupo interdisciplinario formado por un psiquiatra, un terapista y un psiclogo deseaba estructurar un programa especializado, dirigido a la rehabili1 Este problema sobre la rehabilitacin sexual del minusvlido fue formulado por Marta Patricia Ulloque, estudiante de Psicologa de la Universidad de los Andes.

Segundo ejemplo

17

tacin sexual del minusvlido. Para llevar a cabo su propsito establecieron contacto con Teletn con el n de conseguir patrocinio y ayuda tcnica y humana. El programa se inici hace cinco meses2 y hasta ahora ha atendido un total de 250 personas, hombres y mujeres cuyas edades oscilaban entre 18 y 45 aos, radicadas en la ciudad de Bogot. Ellos se han incorporado ms efectivamente al ejercicio de la vida sexual y social en general. Problema de investigacin. Evaluar la efectividad de un tratamiento dirigido a la rehabilitacin sexual del minusvlido, cuando ste es incorporado a su vida normal activa y a su rol social. Objetivos. Algunos de los objetivos de la investigacin se expresan de la siguiente manera: Plantear alternativas de solucin para la rehabilitacin sexual del minusvlido. Determinar mtodos de trabajo social interdisciplinario en el campo estudiado. Identicar las necesidades sexuales del minusvlido para lograr una vida sexual activa. Encontrar estrategias concretas que contribuyan a fomentar la autoestima en el minusvlido y a prepararlo para su vida sexual en pareja. Elementos considerados en el problema. Se incluyen, entre otros, los siguientes elementos: Tipo de lesin y reas corporales implicadas Causa de la lesin e historia clnica del minusvlido Edad en que se present la lesin Sexo Clase de tratamiento previo Experiencia sexual anterior Nivel o estrato socio-econmico del minusvlido

Interrelaciones entre los elementos. Considerando los elementos anteriormente mencionados, se pueden generar las siguientes interrelaciones: El tipo de lesin, por un lado, est muy relacionado con la posible mejora que tenga el minusvlido. Una lesin total como una parlisis
2 La fecha en que se escribi este texto fue mayo de 1991.

18

Matemticas, Azar, Sociedad desde el cuello, implica un proceso ms lento, costoso y difcil de orientar, a diferencia de una lesin parcial como una hemiplejia la cual es ms sencilla, rpida y ecaz de tratar. La edad en la cual ocurri la lesin puede inuir en la percepcin que se tiene de la sexualidad. Un minusvlido muy joven puede estar en desventaja en cuanto al tratamiento en el ciclo de desinhibicin y confrontacin con su situacin sexual si no le es posible evocar ninguna relacin sexual o sensaciones relacionadas. El nivel socio-econmico puede inuir notablemente puesto que algunos interesados en su rehabilitacin no estn en capacidad de costearlo. El tratamiento de rehabilitacin sexual de un individuo se puede ver afectado por alguna experiencia frustrante en tratamientos precedentes. El sexo del minusvlido puede estar relacionado con la forma de reaccionar ante el programa como tal, ya que por tradicin las mujeres han sido ms recatadas y conservadoras en su apertura a la vida sexual. La edad actual del minusvlido y sus necesidades sexuales pueden determinar el inters del minusvlido hacia su propia rehabilitacin y por consiguiente el xito del programa. El xito del programa depende del tipo de relacin del minusvlido con su pareja. La tolerancia, la aceptacin de la lesin y de su gravedad, y el apoyo por parte de la pareja son factores determinantes del xito del tratamiento en cada caso particular.

Restricciones de la investigacin. Al igual que en toda investigacin existen condiciones que limitan los alcances de ella. Para el particular, entre otros se consideran las siguientes restricciones: Nivel educativo de la pareja con respecto a temas concernientes a la sexualidad. Posibles conictos interpersonales de tolerancia, comprensin y ayuda como pareja. Falta de recursos para seguir el tratamiento.

Tercer ejemplo

19

Tercer ejemplo3
El problema del sicariato en la juventud antioquea es un fenmeno preocupante no slo por el proceso de descomposicin social que lo caus, sino tambin por la violencia que ha generado. Los jvenes pertenecientes a los sectores menos favorecidos de Medelln han desarrollado una manera fcil y rpida de satisfacer su mentalidad de lucro: el asesinato de personas a cambio de sumas de dinero que van desde los miles hasta los millones de pesos.4 Dentro de los muchos factores (polticos, sociolgicos, antropolgicos, econmicos, etc.) que de alguna manera se relacionan con la cultura de la muerte se encuentran los lingsticos, ya que uno de los componentes ms destacables de la cultura sicarial es el lenguaje. Las formas lexicales que estos jvenes han conformado para referirse a sus actividades reejan las concepciones que ellos tienen sobre la realidad y el entorno en el cual se desenvuelven. El anlisis del fenmeno anteriormente planteado, por medio de la sociolingstica5, permite identicar la funcin que cumple un lenguaje determinado dentro de un contexto social especco. Con miras a realizar una investigacin sociolingstica sobre el sicariato, un grupo de acadmicos observ el lenguaje hablado por 30 jvenes delincuentes de las comunas nororientales de Medelln, durante octubre de 1989. El objetivo general que perseguan los investigadores era establecer que la mentalidad social decadente de los jvenes sicarios se identica con un lenguaje propio que maniesta los anti-valores de la cultura de la muerte. Las variables consideradas en la investigacin y su importancia para el desarrollo de la misma son: Las actividades de los individuos, con las cuales se muestra el papel de stos en el sistema social. El nivel de educacin de los individuos que permite ver el concepto de sociedad que ellos se han formado.
3 Este y todos los problemas sobre socio-lingstica que se presentan en el texto fueron formulados por Paola Valero, estudiante de Lenguas y Ciencia Poltica de la Universidad de los Andes. Salazar, Alonso. No nacimos pa' semilla. Bogot: Cinep, 1990. La sociolingstica es el estudio cientco del lenguaje enmarcado dentro del entorno social en el que aqul tiene lugar.

4 5

20

Matemticas, Azar, Sociedad La identicacin del lenguaje propio de los sicarios, la cual ayuda a establecer el cdigo de comunicacin usado entre ellos. El signicado del lxico empleado que contribuye a descubrir la relacin que estos individuos establecen entre la realidad social y su propia concepcin de ella. Las diferencias entre el lenguaje de los sicarios y el de otras personas del resto de la sociedad, que facilitan el establecimiento de relaciones cultura-lenguaje.

Las relaciones que se encontraron entre las variables pueden resumirse as: la pertenencia de un individuo a una clase social determinada y su falta de educacin hacen que las posibilidades de ascenso en la escala socioeconmica sean cerradas para esta persona. Por esto, el individuo, desde muy joven debe suplir sus expectativas mediante una ocupacin que reporte fcilmente benecios econmicos. Adems, el desarrollo de una actividad delictiva induce al individuo a manejar un lenguaje que, si bien reeja una serie de realidades muy concretas, no las nombra con las palabras estndar que les corresponden sino con un conjunto de convenciones que establecen una nueva relacin entre signicante y signicado. Como resultado de lo anterior, se obtiene un lenguaje con caractersticas semnticas, lexicales y morfolgicas muy particulares. Tal lenguaje reeja las situaciones sociales de una cultura diferente a la tradicional antioquea capitalina.

Construya usted el sistema social (1)6


El clientelismo es un fenmeno caracterstico de las democracias representativas. Sin lugar a dudas existen diferentes concepciones acerca de su signicado: Para unos se reere al nombramiento de funcionarios pblicos incompetentes; para otros, a la compra de votos y al trco de inuencias; o a la inmoralidad imperante en la poltica y en la administracin pblica.7 Para estudiar como investigadores sociales un fenmeno como el del clientelismo es preciso hacer algunas consideraciones histricas de importancia.
6 Este y todos los problemas sobre Ciencia Poltica que se presentan en el texto fueron formulados por Roco Mario, estudiante de Ciencia Poltica de la Universidad de los Andes. Eduardo Daz. El clientelismo en Colombia.

Construya usted el sistema social (1)

21

Segn algunos autores, el perodo de cimentacin de los partidos liberal y conservador, en Colombia, se vio enmarcado por el sentimiento de pertenencia a cada una de las dos facciones, lo que contribuy signicativamente a que tales partidos se conguraran y consolidaran como entes capaces de canalizar las demandas de la comunidad. Con la instauracin del Frente Nacional las graticaciones emocionales partidistas fueron truncndose por la bsqueda de algn favor burocrtico o econmico como condicin de delidad partidista.8 Debido a la escasez de bienes y servicios del Estado institucional, el compadrazgo y el favor personal se constituyeron en mecanismos de supervivencia comunitaria a nivel regional, lo que conllev a que el clientelismo se convirtiera en articulador poltico de grupos y clases sociales. De esta manera vamos viendo cmo el sentimiento de pertenencia partidista es sustituido por la necesidad de aliacin a alguno de los partidos como condicin para aspirar a benecios econmicos. Es preciso sealar que esta despolitizacin de los partidos se gener especialmente por el control de los movimientos polticos a nivel regional. Como investigadores sociales nos cuestionamos acerca de la presente coyuntura poltica nacional y deseamos analizar el desarrollo de las recientes alternativas para salir de la crisis del rgimen poltico bipartidista. Indudablemente los ltimos gobiernos han presentado propuestas que de alguna manera buscan reducir el clientelismo en los municipios colombianos como mecanismo deslegitimador del sistema. Por tal razn, conviene resaltar la importancia de la Eleccin Popular de Alcaldes (EPA) como reforma descentralizadora dentro del proceso electoral colombiano. Es necesario tener en cuenta ciertos criterios que nos permitan ver, como investigadores sociales, si la Eleccin Popular de Alcaldes en los municipios colombianos9 logr romper con la forma tradicional de hacer poltica (clientelismo) y que, adems, nos permitan establecer si el proceso (EPA) se convirti en un verdadero mecanismo de representacin y puente de comunicacin entre los ciudadanos y el Estado.
8 9 Francisco Leal Buitrago. Estado y poltica en Colombia. Vale la pena sealar que debido al alto nmero de municipios colombianos, debemos basarnos en el anlisis de los municipios aledaos a Bogot, en el perodo comprendido entre marzo de 1988 y marzo de 1990. Por tanto, las conclusiones a las que lleguemos slo podrn ser aplicables a aquellos municipios colombianos que hacen parte de la poblacin de estudio.

22

Matemticas, Azar, Sociedad

A continuacin se consideran algunos elementos que son relevantes para lograr una primera aproximacin al fenmeno del clientelismo en relacin con la EPA: El potencial electoral . Est relacionado en gran medida con el nivel de abstencin. Con base en l se puede observar el comportamiento de la participacin electoral en la muestra escogida. La situacin econmica del municipio. Es relevante porque se relaciona con el nivel de vida de los habitantes del municipio, factor que permite ver en qu grado el clientelismo ha inuido en la vida municipal, pues con base en el grado de desarrollo se puede observar qu tan alto es el manejo econmico de los gamonales de la regin. La orientacin partidista de los ciudadanos. Es importante tenerla en cuenta ya que en la mayora de los casos, sta se ve afectada por factores clientelistas que incitan al ciudadano a votar a cambio de algo y no por su identicacin con dicha organizacin. La orientacin partidista de los candidatos . En la medida en que el candidato sea capaz de transmitir la ideologa concreta de su partido, de alguna manera lograr captar ms votos a favor de su organizacin. Vemos de esta manera, la necesidad que tenemos como investigadores sociales, al afrontar el estudio de un fenmeno determinado, de considerar los siguientes factores: denir el problema, ubicndolo dentro de un contexto de tiempo y lugar determinados, resaltando la importancia del fenmeno para una determinada situacin (en el caso anterior el clientelismo y el sistema electoral colombiano). A partir de lo anterior, distinguir los elementos que a nuestro modo de ver son bsicos y presentan entre s relaciones relevantes para el estudio que interesa y que a la postre servirn de postulados para formular las hiptesis, comprobarlas mediante la investigacin y llegar a una conclusin.

a. Identique el problema de estudio. (Recuerde que como parte de la denicin del problema est la delimitacin del correspondiente contexto). b. Seale los objetivos de la investigacin y mencione otros que para usted sean importantes. c. Hay elementos relevantes, segn su criterio, que no hayan sido considerados al denir el sistema social correspondiente al problema que se

Construya usted el sistema social (2)

23

est tratando? Exprese cules son esos elementos y diga por qu son relevantes. d. Segn su criterio, hay entre los elementos, interrelaciones relevantes que no hayan sido consideradas al denir el sistema social correspondiente al problema que se est tratando? Exprese cules son. Justique su respuesta. e. Haga una propuesta sobre cmo conformara una muestra a partir de la cual pudiera recoger informacin sobre toda la poblacin. Explique claramente. f. Haga una propuesta sobre cmo obtendra la muestra. Explique.

Construya usted el sistema social (2)10


Segn dicen por ah, los mariscos tienen un efecto afrodisaco en los seres humanos a determinada edad. Tambin se sabe que todo elemento afrodisaco es un excitante sexual que al ser ingerido, aplicado o utilizado produce en el organismo ciertos cambios tales como aumento en la frecuencia cardaca y respiratoria, dilatacin de la pupila y piel de gallina. Para comprobar esta hiptesis un estudiante de psicologa se fue un sbado por la noche al restaurante La Fragata (ya que los sbados es cuando hay una mayor diferencia de edades: aproximadamente entre 18 y 60 aos) y pregunt en cada una de las mesas si aceptaban hacer un pequeo experimento a la salida. Slo algunos aceptaron.

a. Dena el problema. (Recuerde que como parte de la denicin del problema est la delimitacin del correspondiente contexto.)
10 Este y todos los problemas sobre Psicologa que se presentan en el texto fueron formulados por Paola Turbay, estudiante de Psicologa de la Universidad de los Andes.

24

Matemticas, Azar, Sociedad b. Seale los objetivos de la investigacin y mencione otros que para usted sean importantes. c. Cul es la muestra que se ha escogido para estimar ciertos datos acerca de la poblacin? Por qu se escogi esa muestra y no otra? d. Cules son los elementos ms relevantes del problema y qu relacin existe entre ellos? e. Qu problemas, cree usted, que se podran presentar en el experimento?

Invente su propio problema


1.- Proponga un problema de la vida real (preferiblemente relacionado con cuestiones de la Universidad) y lleve a cabo los pasos siguientes: a. Dena el problema. b. Plantee los objetivos de su investigacin. c. Determine el sistema social correspondiente. Esto es, diga cules son los elementos relevantes y las interrelaciones relevantes entre esos elementos. d. Determine cules son las restricciones de recoleccin de informacin. e. Haga una propuesta sobre cmo conformara una muestra a partir de la cual pudiera recoger informacin sobre toda la poblacin. Explique claramente. f. Haga una propuesta sobre cmo obtendra la muestra. Explique.

Poblacin y muestra

Introduccin
En el captulo anterior se mencionaron dos conceptos bsicos en la estadstica: poblacin y muestra. En este captulo se denen de manera precisa y se hacen algunos comentarios que se deben tener en cuenta cuando haya que manejar dichos conceptos. Aunque nuestra intencin no es entrar en detalles sobre la teora del muestreo, se presenta una lectura con la cual se logra tener una idea de los problemas que pueden surgir en una investigacin cuando las muestras han sido tomadas de manera inadecuada. Finalmente, hay una seccin de ejercicios.

Vamos al grano
El n ltimo de la estadstica por lo menos de la estadstica inferencial es hacer inferencias. Es decir, obtener generalizaciones, hacer predicciones, hacer estimaciones o determinar si una hiptesis dada se puede rechazar o no con algn grado de certidumbre. La estadstica inferencial debe dar las herramientas necesarias para llevar a cabo esas tareas a partir de la informacin que arroje un conjunto pequeo de datos, y tambin debe dar las herramientas que hagan posible aplicar los resultados obtenidos a un cierto conjunto ms grande de datos, de donde se supone que se extrajo el conjunto pequeo. El primer conjunto mencionado en el prrafo es una muestra y el segundo es una poblacin. Puesto que los conceptos de poblacin y muestra estn estrechamente ligados con el n ltimo de la estadstica, la perfecta comprensin de los correspondientes signicados es una condicin necesaria para manejar apropiadamente temas que se estudiarn posteriormente.

26

Matemticas, Azar, Sociedad

La poblacin de una investigacin o simplemente la poblacin de estudio se dene como el conjunto de todos los entes a los cuales se pueden aplicar las conclusiones obtenidas a travs de la prediccin, estimacin, o vericacin de una hiptesis, acciones stas realizadas como parte nal de la investigacin. A partir de lo dicho anteriormente se deduce que la poblacin de una investigacin puede ser un conjunto de personas, un conjunto de animales o un conjunto de objetos. De qu tipo de ente se trate, no interesa; eso depende, por supuesto, del asunto alrededor del cual se est haciendo la investigacin. Lo que s es muy importante es la precisin con que se dena la poblacin para cada caso. Las caractersticas de esa denicin son las mismas que tiene la denicin de cualquier conjunto. En otras palabras, lo que se diga acerca de los elementos de la poblacin debe ser aquella informacin que permita, en todo caso, decidir si un determinado ente es o no un elemento de la poblacin. En trminos generales, las caractersticas que se expresen para delimitar los elementos de una poblacin establecen el contexto en el cual se va a trabajar, porque ubican a dichos elementos en el espacio y en el tiempo y adems sealan las condiciones que estn presentes y que es necesario tener en cuenta para cualquier anlisis que se haga. Veamos un ejemplo: un psiclogo quiere determinar si existe relacin entre el rendimiento escolar y el hecho de que los nios provengan de familias de padres separados. Para ello toma un grupo de nios y les hace un seguimiento. Cul es la poblacin de estudio? Tal como est expresado el problema tendramos que aceptar que la poblacin es el conjunto de todos los nios. Sin embargo, un estudio, en ese aspecto, que tenga como poblacin a todos los nios del mundo no tiene sentido, por muchas razones. Por ejemplo, hay diferencias signicativas entre la concepcin de la vida familiar que tienen los latinos y la que tienen los norteamericanos; no se puede comparar el nivel de escolaridad de los pases desarrollados con el de los pases menos desarrollados; los resultados que se obtengan con una muestra tomada a nales del siglo XX no se pueden comparar con los que se habran obtenido a comienzos del mismo siglo, etc. Por tanto, si se quiere hacer una investigacin seria que arroje alguna informacin vlida es necesario limitar el alcance de los resultados. Por ejemplo, el problema podra replantearse as: un psiclogo quiere determinar si existe relacin entre el rendimiento escolar y el hecho de que los nios provengan de familias de padres separados. La investigacin se va a realizar para los nios de Colombia que estn entre 4 y 7 aos. La investi-

Vamos al grano

27

gacin se hace con la intencin de determinar si es conveniente darles un tratamiento especial antes de que inicien la primaria. Adems esta investigacin tendr un alcance de 10 aos porque se espera que las situaciones esenciales involucradas en este asunto se mantengan iguales por lo menos dentro de los prximos 10 aos. Aunque as replanteado el problema, se ha limitado en gran medida el contexto, de todas maneras la poblacin an sigue siendo muy vasta, por ejemplo, para el caso en que ese fuera el tema de tesis de un estudiante universitario, pues el costo de tal investigacin sera muy alto. Ahora considere que lo que se quiere estudiar es la relacin que hay entre el tipo de alimentacin que reciben los nios y la cantidad de horas que ellos duermen diariamente. Tambin suponga que la investigacin se va a realizar para los nios de Colombia que estn entre 4 y 7 aos. En este caso y en el anterior se trata de la misma poblacin de estudio. Sin embargo, es evidente que el tipo de mediciones que se harn sobre los elementos que conformen las muestras en cada caso es diferente. Con el ejemplo anterior se quiere poner de maniesto el siguiente hecho: a un mismo conjunto de elementos puede haber asociados muchos conjuntos de datos, puesto que en los elementos de una poblacin de estudio, se pueden observar caractersticas muy variadas. Conviene por tanto hacer alguna precisin al respecto. La poblacin de datos o simplemente la poblacin se dene como el conjunto de todas las mediciones que es posible obtener a partir de observar una cierta caracterstica en cada uno de los elementos de la poblacin de estudio. De lo dicho anteriormente se deduce que para un cierto estudio habr tantas poblaciones de datos como elementos relevantes se quieran considerar. Adems, los elementos de dichas poblaciones sern, o bien valores numricos, o bien valores cualitativos. Veamos un ejemplo: para el caso de la relacin entre el tipo de alimentacin que reciben los nios y las horas que duermen diariamente, habra dos poblaciones de datos. Una, corresponde a las mediciones obtenidas a partir de observar en todos los nios de Colombia, que estn entre 4 y 7 aos el tipo de alimentacin que reciben. Suponiendo que sta se calica como buena, regular o deciente, la correspondiente poblacin de datos sera el conjunto constituido por la calicacin, en ese aspecto, de cada uno de los nios. La otra poblacin de datos corresponde a las mediciones obtenidas a partir de obser-

28

Matemticas, Azar, Sociedad

var en todos los nios de Colombia, que estn entre 4 y 7 aos el nmero de horas que duermen diariamente. En este caso, la poblacin de datos sera el conjunto constituido por el nmero de horas de sueo de cada uno de los nios. Una vez que se han comprendido los conceptos poblacin de estudio y poblacin de datos, es fcil entender los correspondientes conceptos de muestra de estudio y muestra de datos. Una muestra de estudio es cualquier subconjunto no vaco de la poblacin de estudio. Y, una muestra de datos es cualquier subconjunto no vaco de la poblacin de datos. En resumen: vamos a distinguir el conjunto de entes sobre los cuales efectuamos observaciones, del conjunto de mediciones obtenidas a partir de las observaciones que se hagan sobre tales entes. Y son los conjuntos de mediciones con los que trabajaremos para hacer anlisis.

a. Para cada una de las siguientes situaciones, usted debe describir la poblacin de estudio de la cual usted seleccionara una muestra. Se quiere hacer una estimacin del consumo mensual de agua en su casa. Se quiere hacer una estimacin del tiempo que emplea Fernando en llegar desde su casa a la Universidad, cuando viaja en bus.

Algo ms acerca de las muestras11


A continuacin se plantean cinco situaciones descritas de manera muy breve, cada una con una corta alusin a aspectos que tienen que ver con la accin de obtener muestras de una poblacin. Con ello se quiere destacar, de manera informal, la existencia de algunos problemas inherentes a la toma de muestras
11 Versin libre de La muestra que presenta un factor de inuencia en s misma en Cmo mentir con estadsticas de Darrell Huff.

Algo ms acerca de las muestras

29

y a su manejo; se quiere establecer requisitos que deben cumplir las muestras para que los informes que se derivan del estudio de ellas sean, en lo posible, vlidos; y adems, se quiere justicar la necesidad de una posicin crtica y activa frente a las armaciones hechas a partir de estudios realizados con base en muestras de una poblacin. Ejemplo 1. En una encuesta que se hizo en las distintas zonas de la ciudad, con la nalidad de conocer el nmero de lectores de revistas y determinar preferencias, la pregunta clave era: Qu revistas leen los miembros de su familia? La manera de obtener la informacin es la adecuada? Muy probablemente no. Tal vez esa encuesta revela solamente el grado de esnobismo de los informantes. Posiblemente si se desea saber lo que cierta clase de pblico lee, no se obtiene una informacin conable a partir de una pregunta directa. Podra ser ms efectivo, por ejemplo, visitarlos y decirles que se desea comprar todas las revistas viejas que tengan. Aun as, no se podra asegurar que las revistas que vendan sean precisamente lo que leen. Ejemplo 2. En un informe se dice algo as como el americano medio se cepilla los dientes 1,02 veces por da. Qu reeja la armacin? Dado que los anuncios publicitarios establecen que la aceptacin social depende de cosas tales como una fragancia agradable en la boca, puede creerse que el americano medio que no se lave los dientes responder sinceramente a la pregunta del encuestador? Estos resultados estadsticos pueden tener signicado para quien quiera solamente la opinin de la gente acerca de la higiene dental, pero no se puede deducir mucho ms. Ejemplo 3. Un psiquiatra inform una vez que prcticamente todo el mundo est neurtico. A quines se reere la armacin? Aparte del hecho de que esta armacin destruye el signicado de la palabra neurtico, examinemos la muestra utilizada por el doctor. Es decir, a quin observ el psiquiatra? Evidentemente parti del estudio de sus pacientes, que distan mucho de constituir una muestra de la poblacin. Si un hombre fuera normal, l no sera paciente de tal psiquiatra. Ejemplo 4. Para una encuesta de opinin, una entrevistadora consider la estacin del ferrocarril como el lugar ideal, ya que all se encuentra a toda clase de personas.

30

Matemticas, Azar, Sociedad

Se obtienen muestras representativas de la poblacin? No, porque por ejemplo, las madres con hijos pequeos tienen una representacin muy exigua en ese lugar. Ejemplo 5. El promedio de los componentes de la promocin de 1924 de la Universidad de Yale gana 25.111 dlares al ao. Se puede conar plenamente en el dato? El conocimiento exacto de los ingresos de una persona es muy difcil de lograr, a menos que ellos provengan exclusivamente de su salario y que el investigador tenga acceso a la nmina de empleados. Adems, pocas veces, los ingresos del orden de 25.000 dlares provienen totalmente de un salario; la gente que se encuentra en este nivel disfruta, probablemente, de inversiones bien distribuidas. Por tanto, es muy probable que este dato haya sido obtenido de lo que dijeron los graduados de Yale. En una encuesta no es muy probable que una persona declare con veracidad cunto gana, bien sea porque no desea tener problemas de impuestos, o porque siente vergenza de declarar su verdadero ingreso. Es posible que las tendencias de sobreestimar y de subestimar los ingresos se neutralicen en una muestra grande, pero esto tampoco parece muy probable, segn la experiencia que uno tiene del comportamiento de las personas y de la manera como la riqueza est distribuida. Cmo se obtuvo ese dato? El dato deriva de una muestra. Es poco creble, por no decir completamente inaceptable, que la encuesta se haya realizado entre todos los egresados de la promocin mencionada, pues al cabo de 25 aos (segn la fecha del artculo), es prcticamente imposible localizar a todos los miembros vivientes de la promocin. Adems, no todos los que hayan recibido la encuesta habrn respondido; entre estos ltimos estarn seguramente aquellos que no han obtenido xito econmico. Es representativa esa muestra? Como ya se dijo, no es absurdo pensar que de aquellos cuya direccin se conoca, slo algunos respondieron la encuesta, por tanto es evidente que la muestra ha omitido grupos que muy probablemente reduciran la media. Suponiendo que 25.111 dlares es una cifra representativa, lo que representa es, sin duda, el grupo especial de miembros de la promocin de 1924 cuyas direcciones se conocen y que estn dispuestos a colaborar y publicar los ingresos de que disfrutan. Incluso en tal caso, hay que partir del supuesto de que estos hombres dicen la verdad. En los ejemplos trabajados anteriormente hay implcitos conceptos tales como: muestra aleatoria, muestra aleatoria estraticada, tcnica de muestreo,

Algo ms acerca de las muestras

31

muestra representativa y factores de inuencia de una muestra. Todos esos conceptos son de gran importancia en la estadstica; nosotros vamos a aproximarnos de manera rpida e informal a ellos. La base de la tcnica del muestreo se presenta con el ejemplo que se da a continuacin: si se tiene una bolsa de chas rojas y blancas existe slo una manera de averiguar exactamente cuntas hay de cada color: contarlas! Sin embargo, puede averiguarse de una forma ms fcil, pero con aproximacin, la cantidad de chas rojas: se saca de la bolsa un puado de chas, se cuentan las que lo componen y se da por sentado que la proporcin ser la misma en todo caso. Si la muestra es lo bastante extensa y bien seleccionada, representar al conjunto con bastante aproximacin en la mayora de los casos. Si no es as, puede ser menos precisa que una hiptesis sensata, y no tiene nada que la apoye, a no ser un aire aparente de precisin cientca. Es una triste verdad el hecho de que detrs de lo que leemos o creemos saber estn las conclusiones derivadas de muestras subjetivas y demasiado pequeas, o ambas cosas a la vez. La muestra bsica es la llamada muestra aleatoria, la cual se selecciona por azar, partiendo de una poblacin. Se toma, por ejemplo, uno de cada diez nombres buscados en un chero o relacin. De un sombrero se extraen cincuenta papeletas dobladas. Se entrevista a una de cada veinte personas que pasan por una determinada calle de Bogot (pero tenga presente que esta no sera una muestra de la poblacin del mundo, ni de los Estados Unidos, ni de Bogot, sino solamente de la gente que pasa por tal calle en aquel momento). Para comprobar que una muestra fue tomada al azar se procede segn el criterio siguiente: Tiene cada nombre o cosa de la poblacin la misma probabilidad de formar parte de la muestra? La muestra escogida al azar es la nica que puede examinarse con completa conanza por medio de la teora estadstica, pero existe un factor desfavorable a la misma. Es tan difcil y cara de obtener, en muchos casos, que queda descartada por su costo. Un sustituto ms econmico, usado en todo el mundo para trabajos tales como las encuestas de opinin y estudios de mercado, es la llamada muestra al azar por estratos. Para obtener esta muestra estraticada se divide la poblacin en estratos (grupos bien diferenciados de la poblacin) y de cada uno de ellos se saca, aleatoriamente, un grupo cuyo nmero de elementos sea proporcional al tamao del estrato del cual provino.

32

Matemticas, Azar, Sociedad

En una muestra aleatoria representativa se incluyen, proporcionalmente, elementos de todos los diferentes grupos que haya en la poblacin. No todas las muestras aleatorias son representativas. Con frecuencia se publican artculos en las revistas, en los cuales se presentan armaciones respaldadas con encuestas o con reportes sobre muestras supuestamente representativas de una poblacin, para estimular la credibilidad del lector. Al leer esa clase de artculos debemos poner en guardia nuestro sentido crtico, si no queremos tragar entero todo lo que se nos presente. Conviene pues, examinar dos veces lo que se lee, y evitar creer una cantidad de cosas que no son verdad. Son varios los elementos que entran en juego y determinan la seriedad, la validez y la conabilidad de un informe estadstico obtenido a partir de muestras. Se pueden mencionar aspectos relacionados con: La conformacin de la muestra (tamao, proporcin en la que se representa cada uno de los grupos de la poblacin en la muestra, aleatoriedad, tcnica de muestreo utilizada para obtenerla) La calidad de la muestra (representatividad) La forma de obtener la informacin requerida (encuestas, entrevistas, preguntas directas, observacin, etc.) La calidad de las respuestas dadas por los investigados (veracidad, autenticidad) A continuacin se presenta una lista de factores tendenciosos que pueden estar presentes en los resultados obtenidos a partir de muestras: Tendencia a dar respuestas agradables. Tendencia a responder lo que se acepta socialmente como ptimo. Tendencia a distorsionar ciertas realidades o a no hablar de ellas. Tendencia a explorar actitudes que pueden basarse en sentimientos o en prejuicios sociales, y que por tanto, arrojan informacin no autntica. Tendencia a dirigirse a personas que poseen ms dinero, mejor educacin, mejor informacin, mejor aspecto, mejor comportamiento convencional, y unas costumbres ms jas que el promedio de la poblacin que representan. Tendencia a aceptar la informacin que tiene visos estadsticos sin cuestionarla, sin cargarla de signicado.

Algo ms acerca de las muestras

33

En todo caso, cuando los datos han sido ltrados a travs de distintas fases de manipulacin estadstica y reducidas a una medida expresada en decimales, el resultado empieza a presentar una aureola de conviccin que slo se vera empaada por una revisin cuidadosa de la muestra. Para que un informe basado en una muestra tenga valor, debe utilizar una muestra representativa, donde se hayan eliminado todos los posibles factores de inuencia. Vale la pena tener en cuenta tambin, que la representatividad de una muestra puede ser destruida con la mayor facilidad, tanto por inuencia de factores visibles como por la de los invisibles. Es decir, incluso en caso de que no pueda demostrarse que existe un factor de inuencia apreciable, es prudente conservar cierto grado de escepticismo sobre los resultados, siempre que haya una posibilidad de inuencia en alguna parte. Siempre la hay. En realidad, no hace falta que la encuesta est falseada, es decir, que se tergiversen los resultados deliberadamente a n de crear una falsa impresin. La tendencia de la muestra a presentar un factor de inuencia en el sentido que acabamos de explicar puede falsear la encuesta automticamente.

a. Explique por qu es importante tomar muestras al hacer una investigacin. b. Explique en qu se basa la tcnica del muestreo. c. Realice un experimento que muestre en qu consiste la tcnica del muestreo. Haga comentarios pertinentes a los resultados que obtiene. d. Qu es una muestra aleatoria? e. Suponga que la poblacin de un cierto estudio es el conjunto de alumnos que estn inscritos este semestre en la Universidad, en Ciencias Sociales. Y el objetivo del estudio es establecer la relacin que hay entre el tiempo que ellos dedican a la investigacin y sus hbitos culturales. Es evidente que no es posible trabajar con la poblacin, por tanto se requiere tomar una muestra. Sugiera mtodos para obtener muestras aleatorias de la poblacin. Adems, justique claramente por qu esos mtodos conducen a muestras aleatorias.

34

Matemticas, Azar, Sociedad f. Con respecto al problema denido en el item anterior, d ejemplo de un mtodo que conduzca a una muestra no aleatoria (las muestras no aleatorias se llaman sesgadas). Explique su respuesta. g. Qu es una muestra aleatoria por estratos? Qu problemas se presentan al intentar hacer muestreo estraticado? h. Con respecto al problema denido en el item e), explique qu criterios podran tenerse en cuenta para estraticar la poblacin. Adems, diga cmo obtendra una muestra aleatoria estraticada de la poblacin. i. Qu condiciones debe cumplir la muestra para representar adecuadamente al conjunto del cual se extrae? j. Explique por qu una muestra aleatoria puede no ser representativa. D un ejemplo. k. Una caja contiene 100 bolas, de las cuales 36 son azules, 25 son negras, 9 son verdes y 30 son rojas. A continuacin se dan 4 muestras tomadas de la caja que contiene 100 bolas:
Muestra 1 2 3 4 5 azules 8 azules 7 azules 6 azules Composicin de la muestra 5 negras 4 negras 5 negras 5 negras 5 verdes 3 verdes 2 verdes 4 verdes 5 rojas 5 rojas 6 rojas 5 rojas

Determine cul de esas muestras es la que ms reeja la conformacin de la poblacin. Explique su respuesta. l. En las siguientes situaciones planteadas, usted debe determinar cules de las tcnicas de muestreo conducen a obtener muestras aleatorias y cules a obtener muestras no aleatorias o sesgadas. Poblacin de estudio: residentes de Bogot. Objetivo del estudio: se quiere determinar el grado de popularidad de un cierto candidato a la presidencia de la Repblica. Tcnica de muestreo: durante una semana se detiene a toda persona que pase por la esquina de la carrera 13 con la calle 60 y se le pide que responda a dos preguntas.

Algo ms acerca de las muestras

35

Poblacin de estudio: residentes en Tunja. Objetivo del estudio: se quiere estimar la calicacin que se da a la prestacin del servicio de telfono. Tcnica de muestreo: de la gua telefnica de la ciudad se selecciona un nmero de telfono de cada 100, se llama all y a quien conteste se le hace una encuesta que consta de 3 preguntas. Poblacin de estudio: matas de lechuga en una huerta. Objetivo del estudio: se desea estimar el tamao de las matas de lechuga en esa huerta. Tcnica de muestreo: Extraer, con los ojos vendados, una mata de cada metro cuadrado. Poblacin de estudio: estudiantes de la universidad donde usted estudia. Objetivo del estudio: usted quiere establecer si hay relacin entre las calicaciones de un estudiante de la Universidad y la carrera que estudia. Tcnica de muestreo: el mircoles de la semana entrante se seleccionar uno de cada veinte estudiantes entre los que ingresen a la Universidad por la puerta principal y le pedir que responda una encuesta. Poblacin de estudio: habitantes de Bogot. Objetivo del estudio: un psiclogo quiere averiguar el nivel de esquizofrenia en Bogot. Tcnica de muestreo: el psiclogo se fue al restaurante Pozetto y le hizo un test a cada una de las personas que estaban all. Poblacin de estudio: estudiantes de la universidad donde usted estudia. Objetivo del estudio: se quiere conocer una cifra aproximada del nivel de drogadiccin en la universidad. Tcnica de muestreo: un estudiante escogi al azar a cinco personas de cada semestre de cada carrera y los someti a un examen escrito. Poblacin de estudio: estudiantes del colegio X. Objetivo del estudio: se quiere saber si el mal rendimiento de los estudiantes del colegio se debe a la forma en que los profesores dictan las clases.

36

Matemticas, Azar, Sociedad Tcnica de muestreo: el psiclogo de un colegio asisti a todas las clases de los alumnos del curso dcimo, durante una semana. Poblacin de estudio: estudiantes de la universidad donde usted estudia. Objetivo del estudio: el jefe del Departamento de Matemticas de la universidad donde usted estudia, quiere saber si a los estudiantes les gusta la forma en que se estn dictando todas las clases de matemticas. Tcnica de muestreo: un monitor del Departamento de Matemticas se ubic en una de las puertas de entrada a la universidad y le pregunt a 1 de cada 10 personas que salan, qu piensa al respecto.

Ejercicios
1.- La Comunidad Econmica Europea (CEE) ha generado, sin lugar a dudas, una serie de expectativas a nivel internacional y particularmente a nivel latinoamericano. Un grupo de politlogos busca estudiar las repercusiones polticas de la consolidacin del bloque econmico europeo en Amrica Latina y con base en su anlisis, predecir si el proceso poltico latino, con sus caractersticas especcas, estara en capacidad de llevar a cabo un movimiento integracionista a nivel latinoamericano, teniendo en cuenta factores como costos y benecios de integracin. El grupo de investigadores considera que es necesario analizar el problema teniendo como referencia una experiencia particular europea (cualquier pas que conforme el grupo de los Estados de la Comunidad Econmica Europea) en la que se contemplen elementos tales como: nivel de inacin, PNB, rgimen poltico existente, clase de economa que posee el pas (mercado, o, socialista) entre otros. Por supuesto es necesario considerar cada uno de esos elementos dentro de un cierto contexto; para este caso puede pensarse en 1990 como el ao base del estudio. a. Dena el problema de estudio. b. Seale posibles objetivos de investigacin.

Ejercicios

37

c. Mencione qu otros elementos se podran tener en cuenta para la investigacin. d. Determine la muestra con base en la cual se hara la investigacin. 2.- La reforma de descentralizacin administrativa iniciada en el gobierno de Belisario Betancur y puesta en marcha en el gobierno de Virgilio Barco ha venido acompaada de procesos que como la Eleccin Popular de Alcaldes, incrementan la participacin ciudadana y fortalecen la vida regional y municipal. Esto a largo plazo signica la modernizacin del Estado y hace que se cumpla cabalmente con las demandas de la comunidad. Un grupo de estudiantes de ciencia poltica realiz un estudio acerca del fenmeno de la Eleccin Popular de Alcaldes teniendo como referencia los municipios aledaos a Bogot y analizando el caso particular del municipio de Cha, en el perodo comprendido entre 1988 (primera EPA) y 1990 (segunda EPA). Para construir un sistema social del problema que les interesaba analizar tuvieron en cuenta elementos tales como: participacin de terceros partidos en el proceso, comportamiento tradicional del municipio; el clientelismo frente a la eleccin local de mandatarios; cambios en el voto (cautivo, opinin y de lealtad partidista). a. Dena el problema. b. Seale los posibles objetivos de la investigacin. c. Plantee algunas hiptesis sobre los elementos que el grupo de investigadores identic como relevantes. d. Y, usted qu elementos relevantes cree que sera necesario considerar para estudiar el problema? e. Cul es la muestra con base en la cual se va a analizar el problema? 3.- Un grupo de politlogos desea analizar el fenmeno de la Asamblea Nacional Constituyente en el departamento de Cundinamarca y para ello toman como referencia tres ciudades: Bogot, Girardot y Zipaquir. Los investigadores buscan determinar si esta convocatoria nacional por parte de las fuerzas sociales, polticas y econmicas constituye realmente la salida a la honda crisis nacional que vive el pas. Es decir, se busca determinar si la Asamblea Nacional Constituyente ser capaz de construir un nuevo Estado y una nueva organizacin pblica que interprete y exprese la reali-

38

Matemticas, Azar, Sociedad dad poltica y social. Algunos de los aspectos que consideraron como relevantes para la investigacin son: la democracia participativa o representativa; canales de participacin (gremios, juntas de accin comunal, organizaciones indgenas); nmero de votantes en favor y en contra de la Asamblea; nivel de abstencin. a. Dena el problema que se pretende estudiar. b. Seale cul es la muestra de estudio. c. De qu manera cree usted que se podran medir los elementos mencionados en el texto anterior? d. Sugiera otros elementos relevantes para el anlisis del problema en cuestin.

4.- Se rumora que la mayor concentracin de consumo de droga en una cierta universidad se encuentra en los estudiantes de X carrera (no se sabe cul). La psicloga de la universidad debe averiguarlo para ofrecerle a dichos estudiantes unas sesiones de terapia de prevencin y control. a. Cul es el problema? (Recuerde que como parte de la denicin del problema est la delimitacin del correspondiente contexto.) b. Seale los objetivos de la investigacin y mencione otros que para usted sean importantes. c. Cules son los elementos ms relevantes del problema y qu relacin existe entre ellos? d. Haga una propuesta sobre cmo conformara una muestra a partir de la cual pudiera recoger informacin sobre toda la poblacin. Explique claramente. e. Haga una propuesta sobre cmo obtendra la muestra. Explique. 5.- Un psiclogo del colegio X de Bogot cree que los alumnos del colegio que son hijos de padres separados tienen nivel acadmico medio-bajo (calicacin 3.0). El psiclogo desea averiguar qu tanto coincide su apreciacin con la realidad para poder brindar a tales estudiantes una atencin especial.

Ejercicios

39

a. Cul es el problema? (Recuerde que como parte de la denicin del problema est la delimitacin del correspondiente contexto.) b. Seale los objetivos de la investigacin y mencione otros que para usted sean importantes. c. Cules son los elementos ms relevantes del problema y qu relacin existe entre ellos? d. Haga una propuesta sobre cmo conformara una muestra a partir de la cual pudiera recoger informacin sobre toda la poblacin. Explique claramente. e. Haga una propuesta sobre cmo obtendra la muestra. Explique. 6.- Un fenmeno muy frecuente en las clases bajas de Bogot es la elisin del sonido /k/ en combinaciones de sonidos consonnticos como /kt/, y /kf/ principalmente. Palabras como accin, actuacin o Icfes que deberan pronunciarse /aksin/, /aktuasion/ o /ikfes/ son pronunciadas corrientemente /asion/, /atuasion/ o /ifes/. Con el n de determinar las causas del fenmeno y su identicacin como variante estigmatizada,12 un grupo de lingistas realiz un estudio durante mayo-septiembre de 1989 en los sectores de estrato 1 y 2 de la capital de la Repblica de Colombia. Para ello se recolect una muestra aleatoria de 1.000 individuos a quienes se les hizo una entrevista de quince minutos aproximadamente, sobre un tema que requera el uso de palabras con los sonidos en cuestin. a. Cul es el problema de estudio? b. Cmo se delimita del problema? c. Cules son los objetivos de la investigacin? d. Cul es la poblacin del estudio? e. Cul es la muestra del estudio?
12 Una variante estigmatizada es un rasgo que se asocia con los grupos de baja posicin social y con estilos informales de lenguaje.

40 f. Cul es la muestra de datos?

Matemticas, Azar, Sociedad

7.- Una de las tcnicas de investigacin ms frecuentes en estudios sociolingsticos es el anlisis del discurso, herramienta que a partir de una muestra del lenguaje (oral o escrito) permite abordar un texto desde varios niveles: nivel del texto, nivel gramatical, nivel semntico, etc. Usando esta tcnica quiere mirarse el concepto de poder que se han formado los nios colombianos de acuerdo con las diferentes condiciones sociales en que se han desenvuelto. Para tal efecto, se recolectaron cartas de todos los nios que en el ao 1989 cursaban quinto de primaria tanto en reas rurales como urbanas, en escuelas pblicas o privadas y en cualquier calendario escolar. Las cartas respondan a la pregunta: Qu hara yo si fuera el presidente de Colombia? a. Cul es el problema de estudio? b. Cules son los elementos importantes que se deben tener en cuenta? Explique su respuesta. c. Cul es la poblacin de estudio? d. Cul es la muestra de estudio? Es representativa de la poblacin? Justique su respuesta. e. Cree usted que la pregunta a la cual deben responder los nios es adecuada para adquirir informacin sobre lo que se quiere estudiar? Justique su respuesta.

Variables

Introduccin
Al igual que los conceptos de poblacin y de muestra, el concepto de variable es bien importante en la estadstica. En la siguiente frase se resume muy brevemente la relacin que liga esos tres conceptos y por qu armamos que son bsicos en el estudio de la estadstica: la estadstica permite hacer inferencia acerca del comportamiento de una variable en una poblacin, a partir del anlisis del comportamiento de dicha variable en una muestra. En realidad, en todos los captulos anteriores nos hemos referido al concepto de variable, aunque no hayamos mencionado exactamente tal palabra. Al hablar de los elementos relevantes en un problema, estamos rerindonos a las variables de inters para el caso. En este captulo vamos a denir el concepto de variable y a establecer una clasicacin de las variables segn el tipo de valores que ellas asuman.

El apartamento de Perla Madonna


(Ana Liza se encuentra con su hermana, Perla Madonna, en una cafetera.) Perla Madonna: Pues s, Ana. Voy a comprar un apartamento en Bogot y quiero que t me ayudes a tomar la decisin. Desde hace algunos das he venido mirando los avisos clasicados que salen en el peridico El Desinformador y me parecen muy completos, de manera que voy a seguir hacindolo, hasta completar un mes, para tratar de encontrar el apartamento que busco. Ana Liza: Claro que te ayudo. Qu dicha que puedas comprar tu apartamento! Tienes aqu el peridico de hoy?

42 Perla Madonna: S. Tmalo.

Matemticas, Azar, Sociedad

(Encuentra la pgina de avisos clasicados y la ojea rpidamente; todos los avisos que ve sealados anuncian apartamentos nuevos.) Ana Liza: Uf! Qu cantidad de apartamentos nuevos que ofrecen! Perla Madonna: Es verdad; hoy ofrecen 30 apartamentos todos ubicados en Bogot y nuevos. Yo quiero un apartamento para estrenar, no me importa que sea pequeo, pero lo quiero nuevo. Ana Liza: Ofrecen apartamentos de una, dos o tres alcobas. Y, los apartamentos que anuncian estn clasicados segn la zona de la ciudad donde estn ubicados. En qu zona lo quieres t? Perla Madonna: An no lo he decidido. Lo que s s, es que debe tener una buena vista, es decir, que cuando me asome a la ventana pueda ver algn paisaje y no, por ejemplo, otro edicio. Ana Liza: Debemos, entonces, hacer una lista de los aspectos que son importantes para t, de modo que los tengamos presentes al tomar la decisin. Perla Madonna: Es una buena idea. Comencemos. Anota: precio, nmero de habitaciones, facilidades de pago,... Ana Liza: Perla, me tengo que ir a clase. Pero, tan pronto como vuelva acabamos de hacer la lista y comenzamos a conseguir informacin sobre los apartamentos anunciados, para poder tomar una decisin. Perla Madonna: Est bien, Ana. Te espero.

a. Determine exactamente cul es la poblacin de estudio en este caso. Adems, diga cul es la muestra que se est tomando y qu tamao tiene. b. Haga una lista de todos las caractersticas importantes, para la decisin que deben tomar Ana Liza y su hermana. c. En el caso que nos ocupa, una de las caractersticas relevantes hace referencia al nmero de habitaciones de cada apartamento y otra, a la ciu-

El apartamento de Perla Madonna

43

dad donde est construido. Encuentra usted alguna diferencia esencial entre los dos tipos de caractersticas mencionadas, en cuanto a la variacin de ellas de elemento a elemento en la poblacin? Cul? Puede armarse que el nmero de habitaciones vara de un apartamento a otro? Tiene sentido, en este caso, armar que la ciudad donde est construido el apartamento vara? Explique sus respuestas. d. Con base en la respuesta que dio a la pregunta anterior, encuentre un adjetivo apropiado para calicar cada una de las caractersticas: nmero de habitaciones y ciudad donde est construido el apartamento. e. Considere las caractersticas: barrio donde est ubicado el apartamento y calidad de los acabados del apartamento. De qu manera se expresan los posibles resultados en cada caso? Encuentra usted diferencias entre el tipo de valores que asume cada una de tales caractersticas? Cules? f. Considere las caractersticas: barrio donde est ubicado el apartamento y nmero de habitaciones que tiene. Encuentra usted diferencias entre el tipo de valores que asume cada una de esas caractersticas? Cules? g. Considere las caractersticas: nmero de habitaciones y precio del apartamento. Encuentra usted diferencias entre el tipo de valores que asume cada una de tales caractersticas? Cules? h. Con base en las respuestas que dio a las preguntas anteriores, clasique las caractersticas que se presentan a continuacin y diga qu criterio emple para esa clasicacin: Zona de ubicacin dentro de la ciudad Area Calidad de los acabados Nmero de habitaciones Precio Piso Barrio

44

Matemticas, Azar, Sociedad

Formalicemos un poco
El concepto de variable est ligado estrechamente con las caractersticas, rasgos o atributos comunes que tienen los elementos de la poblacin de estudio y, tambin est ligado con la variacin que se da en dichos elementos con respecto a esos atributos. Expliquemos lo dicho en el prrafo anterior, empleando la situacin que se plantea en el dilogo. La poblacin de estudio es el conjunto de todos los edicios nuevos de Bogot, que son ofrecidos en venta en los avisos clasicados del peridico El Desinformador, durante un determinado lapso; y la muestra a la cual se hace referencia est constituida por los elementos de la poblacin, es decir, los edicios que se ofrecen en venta el da que se sostiene el dilogo. Pues bien, todos los elementos de la muestra de estudio, al igual que los de la poblacin de estudio, tienen muchos atributos: todos los apartamentos estn ubicados en alguna zona de la ciudad, todos tienen rea, todos tienen un cierto nmero de habitaciones, etc. y se podra hacer una lista extensa de atributos o rasgos que, considerados en conjunto, son los que hacen la esencia de los entes. A pesar de que todos y cada uno de los elementos de la poblacin tienen los mismos atributos, de elemento a elemento hay variacin en los valores que asume el atributo, y entonces se dice que el atributo es variable. Volviendo al ejemplo del dilogo, uno de los apartamentos puede estar ubicado en la zona 1, otro en la zona 3, etc.; uno puede tener 2 habitaciones y otro, 1 habitacin, etc. Al hablar en estadstica de una variable nos referimos a un atributo observable, en los elementos de una muestra o de una poblacin de estudio que no asume el mismo valor para todos los elementos, es decir, toma dos o ms valores. En caso de que el atributo considerado tome el mismo valor para todos los elementos observados, en realidad no se trata de una variable sino de un atributo constante. En el ejemplo que estamos considerando, todos los apartamentos son nuevos y todos estn situados en Bogot, por tanto ni ciudad de ubicacin, ni estado del apartamento son atributos variables. Puesto que los atributos tienen diferente naturaleza, esto debe reejarse en la forma de medirlos. Para efectos de producir una medida correspondiente a cada uno de los edicios observados en la muestra, no es lo mismo considerar el barrio en donde est ubicado que el rea de construccin que tiene: en el

Formalicemos un poco

45

primer caso, la medida es una categora, ms exactamente un nombre; en cambio en el segundo caso, la medida es un nmero. El primer atributo describe a cada edicio cualitativamente, en realidad, esa variable no produce medidas en el sentido usual de tal palabra; lo que produce es una clasicacin en tanto que el segundo lo describe cuantitativamente. El hecho descrito anteriormente da un criterio de clasicacin de las variables: una variable puede ser categrica o cuantitativa. Variables como el lugar de ubicacin de una construccin, el sexo de una persona, la nacionalidad, la universidad donde estudia una persona, la calidad de una obra, el estado de un objeto que se va a comprar, el semestre que cursa un estudiante, etc. son variables categricas. Variables como el rea, el volumen, la edad, la estatura, el tiempo de duracin de un suceso, la calicacin obtenida en un examen, el nmero de hijos de una familia, el nmero de objetos defectuosos, el nmero de semestres cursados en la universidad, etc. son variables cuantitativas. Una variable se dice que es categrica si sus posibles valores son categoras de clasicacin. Una variable se dice que es cuantitativa si los resultados que puede asumir son los resultados de medidas numricas. Con respecto al problema de los apartamentos, consideremos las dos variables barrio y calidad de terminados. Ambas son categricas, sin embargo, existe una diferencia entre el tipo de categoras que establece cada una de esas variables. En el primer caso, se asignan nombres a los diferentes valores que puede tomar la variable. En el segundo caso, los valores que puede tomar la variable son algo ms que nombres: son categoras que conllevan un juicio de valor que exige comparar a los diferentes elementos de la muestra con respecto a la variable en cuestin, para terminar ordenndolos. Variables categricas del mismo tipo que barrio donde est ubicado un apartamento, se llaman nominales. Variables categricas del mismo tipo que calidad de terminados de un apartamento, se llaman ordinales. Una variable categrica se llama nominal si los valores que puede asumir clasican los elementos observados, pero no los ordenan. En caso de que los valores que pueda asumir la variable categrica, clasiquen y ordenen los elementos observados, entonces se dice que la variable es ordinal.

46

Matemticas, Azar, Sociedad

Con respecto al problema de los apartamentos, consideremos las dos variables nmero de habitaciones y rea. Ambas son cuantitativas, sin embargo, existe una diferencia entre ellas. En el primer caso, los valores que puede asumir la variable son nmeros enteros: por ejemplo, puede ser que un apartamento tenga dos habitaciones y otro tenga tres, pero con certeza se sabe que no existe apartamento alguno que tenga un nmero de habitaciones que est entre dos y tres. Para variables como sta, en caso de que se representen sobre una recta todos los posibles valores que asume, la apariencia de la grca ser una serie de puntos separados unos de otros; la separacin entre los puntos puede ser eventualmente mayor o menor, pero existe esa separacin. En el segundo caso, los valores que puede tomar la variable por lo menos tericamente son todos aquellos que estn en un intervalo determinado. Si se quiere representar sobre una recta los valores que asume una variable de este tipo, la apariencia de la grca ser un segmento de recta, una semirrecta o una recta. Variables cuantitativas del mismo tipo que nmero de habitaciones de un apartamento, se llaman discretas. Variables cuantitativas del mismo tipo que rea de un apartamento, se llaman continuas. Una variable cuantitativa se llama discreta si los valores que puede asumir estn separados entre s por una cierta cantidad. En caso de que los valores que pueda asumir la variable cuantitativa, sean todos los de un intervalo, entonces se dice que la variable es continua. Para terminar, queremos hacer notar que el conjunto de todos los valores, que con respecto a una cierta variable, pueden tomar los elementos de una poblacin de estudio es lo que en el captulo anterior se deni como poblacin de datos.

Algunos ejercicios
1.- En la seccin anterior, cuntos y cules criterios se dieron para la clasicacin de las variables? Haga un esquema que muestre tal clasicacin. 2.- D dos o tres ejemplos de las distintas clases de variables mencionadas en la seccin anterior. Explique su respuesta.

Algunos ejercicios 3.- Clasique las siguientes variables:

47

El peso de un adulto La altura de los edicios del centro de Bogot, de ms de cuatro pisos El nmero de carros que posee un colombiano cualquiera La profesin de un grupo de amigos El color de un edicio El nmero de das que llueve en un mes del ao El ingreso familiar La edad de las mujeres de una fbrica El nmero de libros de las bibliotecas de la universidad donde usted estudia El tiempo de experiencia laboral de un trabajador 4.- Determine qu variables son importantes en la eleccin de la universidad donde una persona puede estudiar. Clasifquelas. 5.- Tahuro est realizando un estudio sobre los casinos de Bogot. Le interesa principalmente conocer la edad promedio y la proporcin de hombres y mujeres que entran en estos salones de juego. a. Cul es la poblacin de estudio? b. Cules son las variables de inters y de qu tipo son? 6.- Determine en cada caso, si se trata o no de una variable. En caso de ser variable, clasifquela. La edad mnima para poder votar por primera vez El nmero de llamadas telefnicas que se hacen de una determinada lnea durante un mes El nmero de clases que recibe usted este semestre, los mircoles La mxima calicacin que puede obtener un alumno en un parcial, calicado sobre 50 La calicacin que puede obtener un alumno en el parcial descrito en el caso anterior El nmero de hijos que tiene la familia Prez Gonzlez El nmero de hijos que tiene una familia colombiana cualquiera La calicacin que dan las personas a la atencin recibida en el restaurante X Las materias que recibe un estudiante de segundo semestre en la Universidad X

48

Matemticas, Azar, Sociedad

7.- Para maana, Stadi Shka debe llevar un ejemplo de una situacin que eventualmente pueda estudiarse desde el punto de vista de la estadstica. Ella piensa que podra resultar divertido hacer un test adecuado para medir memoria visual de los estudiantes de la Universidad donde ella estudia. Suponga que se acepta esto como tema de estudio. a. Cul es la poblacin de estudio? b. Cul es la variable que se est tratando de medir? c. Determine tres variables importantes de tener en cuenta al seleccionar las muestras y diga de qu tipo son los valores que toman. d. Describa cmo conseguira una muestra aleatoria para este experimento. 8.- Sexo es una de las variables consideradas en una encuesta que se practic a los estudiantes de la Universidad. Se convino que 1 representa hombre y 0 representa mujer. D su opinin sobre la siguiente armacin: Esta variable es cuantitativa porque los valores que asume son nmeros. 9.- Explique lo que para usted signica la siguiente frase: Toda variable cuantitativa se puede convertir en variable categrica. Cree que esa armacin sea verdadera? Explique su respuesta. 10.- Estudiantes de quinto semestre de Ciencia Poltica realizaron una investigacin sobre el proceso de Eleccin Popular de Alcaldes en los municipios de la sabana de Bogot. Tuvieron como referencia los casos particulares de los municipios de Cha y Cota en cuanto a las elecciones de alcalde de 1988 y 1990. Al inicio de su investigacin se plantearon unos objetivos: buscaban conocer hasta qu punto la Eleccin Popular de alcaldes constituy una nueva vivencia poltica no slo en el comportamiento de los partidos polticos sino tambin en la participacin del electorado. Su investigacin se realiz

Algunos ejercicios

49

en torno a una serie de variables: nmero de votantes de EPA en 1988 y en 1990; participacin del electorado (nmero de personas que votaron con respecto al nmero de personas que estn en capacidad de hacerlo); orientacin partidista de los electores; orientacin partidista de los candidatos; resultados electorales de 1988 en relacin con los de 1990. a. Dena claramente cul es la poblacin de estudio y seale cul es la muestra con base en la cual se va a inferir. b. Clasique las variables mencionadas anteriormente. c. Qu otras variables considerara usted para tal estudio? d. Cree usted que la participacin de los oricultores en el proceso electoral sea un indicador apropiado para medir la compra de votos en la eleccin? Por qu? 11.- Estudiantes de Ciencia Poltica quieren determinar si el mecanismo de la Consulta Popular empleado el ao pasado (1990) por el partido liberal en las elecciones de marzo sirvi como mecanismo modernizador y oxigenizador del partido liberal, para as predecir si el empleo de este mecanismo por parte de otras fuerzas polticas podra contribuir de manera signicativa a la modernizacin del rgimen electoral colombiano. Ellos centrarn su estudio en los municipios cundinamarqueses que presentan caractersticas polticas (determinada tendencia partidista) similares a las de la capital y tomarn tres municipios: Cha, Tabio y Cota para observar el comportamiento de los ciudadanos frente a la Consulta Popular. Tomarn como variables: nivel de abstencin en las elecciones de esa fecha; partidos polticos (liberal, conservador, etc.) potencial electoral y nmero de votantes frente al proceso. a. Dena la poblacin de estudio y la muestra. b. Clasique las variables mencionadas anteriormente. c. Qu otras variables tendra en cuenta usted para el estudio? Por qu? 12.- La desinstitucionalizacin de los espacios de negociacin es un problema que ha suscitado varios interrogantes. Estudiantes de sexto semestre de Ciencia Poltica desean analizar el problema. Para eso buscan vericar hasta qu punto las reformas de descentralizacin hechas en 1986 amplia-

50

Matemticas, Azar, Sociedad ron espacios para el acceso a la formalidad poltica y permitieron de alguna manera la reinstitucionalizacin de conictos sociales. Los politgos se basaron en el anlisis de algunas variables: partidos polticos, espacios nuevos de negociacin, canales de participacin ciudadana. Es importante sealar que harn su investigacin basados en una muestra (teniendo en cuenta las elecciones de alcalde en 1990 en el municipio de Tabio) para inferir conclusiones acerca de la correspondiente situacin en los municipios aledaos a Bogot. a. Mencione cul es la poblacin de estudio. b. Cules objetivos adems de los planteados considerara usted? c. Clasique las variables mencionadas y diga cules se escapan a la luz del marco conceptual.

13.- La adicin de partculas diminutivas a las palabras es casi una costumbre en la mayora de hispanoparlantes. Este fenmeno se ha visto en Colombia en regiones como Nario y Boyac principalmente.13 Un antroplogo observ en el municipio de Llano Blanco, cerca de Villa de Leyva (Boyac), que haba cierta tendencia a adicionar terminaciones diminutivas preferiblemente a palabras que se reeren a alimentos, ya que establecer mayor amistad con el alimento ocasiona que ste no haga tanto dao al ingerirse, es decir que no cause enfermedad. Para comprobar la hiptesis de que existe cierta relacin entre el uso de diminutivos y las concepciones de enfermedad en esa comunidad campesina, Jorge Morales Gmez decidi adelantar una investigacin en Llano Blanco durante el perodo comprendido entre 1981 y 1983. La investigacin consider tres aspectos: 1) la lexicografa, 2) las formas de alimentacin y 3) los conceptos de salud y enfermedad, los cuales fueron observados mediante el registro de conversaciones cotidianas entre los habitantes del municipio. Elementos relevantes considerados en el estudio fueron: Ubicacin del municipio Actividad econmica de los habitantes
13 Problema tomado de El diminutivo y la nocin de enfermedad, investigacin realizada por Jorge Morales Gmez, antroplogo de la Universidad de los Andes. Tomado de Estudios sobre espaol de Amrica y lingstica afroamericana. Bogot: Instituto Caro y Cuervo, 1989, pp. 127-136.

Algunos ejercicios Forma generalizada de tenencia de la tierra Concepto de comunidad Clase social Clases de palabras a las que se les agrega diminutivos Forma generalizada de alimentacin Alimentos bsicos que se consumen Concepto de salud Concepto de enfermedad a. Cul es el problema de estudio? b. Cul es el objetivo de la investigacin? c. Cul es la hiptesis? d. Cul es la poblacin?

51

e. De los diez puntos mencionados, cules son variables? De qu tipo de variable se trata? Justique su respuesta. f. Mencione posibles categoras de esas variables.

Qu vamos a hacer y cmo lo vamos a hacer?

Introduccin
En los captulos anteriores se han realizado principalmente dos cosas: una, intentar motivar y justicar el estudio de la estadstica en un curso de Ciencias Sociales, y otra, aproximarnos a los tres conceptos ms elementales con que trabaja permanentemente la estadstica. Vamos a suponer que estamos frente a un problema social muy complejo, cuyas caractersticas exigen el empleo de la estadstica como herramienta para solucionarlo. Tambin vamos a suponer que ya estn dados los primeros pasos requeridos en cualquier investigacin, es decir, ya est bien denido el problema, est delimitada la poblacin de estudio, estn claramente determinados los objetivos de la investigacin, ya estn determinadas las variables que se quiere estudiar, y an ms, ya se cuenta con una muestra de datos. En este punto cabe preguntarnos y, ahora qu? Pues bien, ahora que contamos con una muestra de datos debemos obtener de ellos toda la informacin que sea til para lo que interesa en la investigacin y esto se logra organizando y resumiendo la informacin de la muestra de datos. La estadstica descriptiva se encarga precisamente de esa tarea: describir las muestras de datos. Pero, aunque la tarea de describir es importante e imprescindible como parte del mtodo estadstico, en la mayora de los casos no es suciente, es decir, debe hacerse algo ms que conduzca a la solucin del problema que est planteado en trminos muy generales . En efecto, se requiere interpretar y generalizar los resultados obtenidos en la muestra de manera que se puedan aplicar las conclusiones obtenidas a la poblacin de datos de donde provino la muestra de datos tomada. La estadstica inferencial se encarga precisamente de esa tarea: emplear la informacin contenida en una muestra de datos para hacer predicciones sobre la correspondiente poblacin de datos y adems para justicar la toma de decisiones.

Por qu inventar herramientas?

53

En los tres captulos siguientes Organizacin y resumen grco de datos, Medidas de tendencia central y Medidas de dispersin centraremos nuestra atencin en herramientas proporcionadas por la estadstica descriptiva. Para describir una muestra se cuenta con diferentes clases de medios, cada uno de los cuales tiene su propia importancia dentro del mtodo estadstico y su importancia relativa con respecto a las dems herramientas. Las herramientas a las que nos referimos permiten organizar datos, (tablas, distribucin de datos) representarlos grcamente (diagramas) y describir (medidas de posicin y medidas de dispersin) los valores que asume una variable en una muestra. En este captulo damos a conocer la metodologa de trabajo que hemos adoptado para abordar el conocimiento de las distintas herramientas con las que trabajaremos en lo que queda del curso.

Por qu inventar herramientas?


(Algunos alumnos del curso estn charlando mientras llega el profesor de matemticas.) Stadi Shka: Ahora s comienza mi sufrimiento en la clase de matemticas. Estoy muy asustada. Estrella: Por qu? Stadi Shka: No oste al profesor? Vamos a comenzar a emplear herramientas de estadstica para organizar, manejar e interpretar los datos que recojamos en el experimento que vamos a realizar. Uy, qu susto! Ahora se me vienen encima una cantidad de frmulas, de deniciones y con mi mala memoria ya no voy a saber qu frmula usar ni cmo hacerlo; adems, recuerda que soy malsima para los clculos. Ana Liza: Ay, no seas bobita, Stadi Shka! T no atendiste a todo lo que dijo el profesor. Eso que te est asustando tanto, fue lo ltimo que l dijo. Pero lo que l se propone es que en clase logremos que se desarrolle el proceso de construccin de cada una de las herramientas que vamos a usar; por tanto, no creo que el empleo de ellas sea difcil.

54

Matemticas, Azar, Sociedad

Estrella: S, pero de todas maneras, las demostraciones o deducciones suelen ser muy complicadas. Tahuro: Pero... si no me equivoco, la idea que planteaba el profesor es la de reinventar las herramientas; eso nos remontara al origen de ellas; es decir, ese proceso debera aclararnos ms las ideas que lo que lo podra hacer la sola deduccin de una frmula. Ana Liza: S. Creo que lo que ms le interesa al profesor es que entendamos que cada herramienta tiene su justicacin (es decir, que no fue inventada por capricho de alguien, sino que surge a partir de necesidades concretas) y que conocer esa justicacin sirve para aplicar racionalmente las frmulas a las que se llegue. Askanio: Y, cmo sera un ejemplo del proceso al que haca referencia Tahuro? Intentemos construir una herramienta que pueda ser til en estadstica. Ana Liza: A ver... No se me ocurre... Cmo re-inventar el promedio? (En ese momento llega el profesor, un poco retardado, y Ana Liza le pide que les d un ejemplo adecuado de la forma como se espera que ellos trabajen.) Profesor: Bien. Veamos... Supongan que un delegado de la Junta de Consumidores recoge algunos precios de venta de un determinado artculo, en varios almacenes del sector norte de la ciudad y encuentra la siguiente informacin: $350, $380, $300, $385, $315, $367, $365, $380, $310, $385. Si el delegado quiere obtener, a partir de los datos que recogi, un nmero que sirva para representar el precio de costo de tal artculo, cul creen ustedes que pueda ser tal nmero? Askanio: Pues, eso es fcil. Hagamos el promedio de esos diez datos. Stadi Shka: Un momento, por favor! Yo habra tomado otro nmero como representante. No estoy segura si es correcto, pero creo que yo habra escogido el menor de los diez nmeros, es decir habra escogido a $300 como el nmero ms prximo al precio de costo del artculo que se est mencionando. Askanio: Verdad, no? Es ms adecuado tomar $300 que lo que resulte al hacer el promedio pues... con toda seguridad todos los almacenes visitados le ganan algo al artculo: posiblemente, unos ganen ms que otros pero lo que es seguro es que el precio de costo del artculo debe ser menor de $300.

Por qu inventar herramientas?

55

Estrella: Y, claro eso no signicara que estemos seguros de que el precio de costo del artculo sea $300, slo que $300 es un nmero cercano, pero superior al precio de costo. Adems, creo que tendramos que aclarar que ese nmero es un buen representante de lo que se quiere slo si los diez datos recolectados fueron adecuadamente tomados, es decir, si son representativos de lo que en ese aspecto sucede en el sector norte de la ciudad. Ana Liza: Creo que Stadi Shka, Askanio y Estrella se sobraron en la respuesta. No es cierto? Profesor: De acuerdo. Ahora, supongan que el administrador de un edicio en el cual viven 50 familias tiene que alquilar un nmero determinado de sillas para colocarlas en el saln comunal para una reunin trimestral que debe efectuarse con los propietarios de los apartamentos. El administrador sabe que en las diez ltimas reuniones del mismo tipo han asistido 23, 18, 25, 25, 30, 20, 28, 22, 33, 17 personas. Si el administrador debe decidir cuntas sillas alquilar, con base en la informacin que tiene, cul creen ustedes que sea el nmero ms representativo en este caso? Tahuro: Si yo fuera el administrador, pensara en dos aspectos para tomar la decisin: primero, deseara que todos los asistentes pudieran sentarse; segundo, deseara no alquilar en vano unas cuantas sillas. Por tanto, creo que yo alquilara unas 33 sillas, lo que representa el nmero ms grande de asistentes que ha habido en ese tipo de reuniones a partir de las ltimas diez. Ana Liza: En este caso, tambin se habra podido escoger el promedio, no es cierto? Profesor: Ciertamente. Sin embargo, creo que la respuesta de Tahuro para este caso es ms adecuada. En cambio, para el primer caso que consideramos es evidente que el promedio denitivamente no sirve. Askanio: Entiendo lo que se ha dicho hasta el momento, pero... en qu qued el proceso de re-inventarnos las herramientas? Hasta ahora no veo que hayamos inventado ninguna. Profesor: Y, los dems qu opinan? (Chepa, quien haba permanecido en silencio, habl.)

56

Matemticas, Azar, Sociedad

Chepa: Yo creo que hemos encontrado dos herramientas estadsticas cada una de las cuales es apropiada para una de las dos situaciones planteadas. Profesor: Correcto, Chepa! Y, qu nombre sugieres que le demos a cada una de tales herramientas? Chepa: A la primera que encontramos, mnimo y a la segunda, mximo. Profesor: S; esa respuesta es correcta. Askanio: Y, as de fcil? Profesor: Bueno, aqu debemos hacer aclaraciones sobre algunas condiciones que deben cumplir los objetos que estamos re-inventando. En primer lugar, al igual que toda herramienta, las herramientas estadsticas son instrumentos que deben servir a quien las emplea para facilitar un cierto trabajo. Es, entonces, esencial saber claramente en qu consiste el trabajo que queremos realizar para poder encaminar inteligentemente nuestros pasos en la bsqueda del instrumento. Es decir, es imprescindible saber qu vamos a hacer y para qu lo vamos a hacer aunque no conozcamos an cmo se realizar. En los dos ejemplos que trabajamos se quera obtener un nmero que representara un conjunto determinado de datos y para elegir ese representante se tuvo en cuenta adems de la composicin especca del conjunto, el propsito que tena la eleccin de dicho representante. (Tahuro, insistiendo.) Tahuro: S, pero uno no se espera que una herramienta sea tan simple. Profesor: Relacionados con ese punto hay dos aspectos que me gustara mencionar. En primer lugar, la complejidad no es un requisito para la construccin de una herramienta. La complejidad de una herramienta est estrechamente ligada a la naturaleza del trabajo para el cual se ha construido. Por tanto, es perfectamente justicado que existan herramientas muy simples, y tambin herramientas muy complicadas. En segundo lugar, quiero resaltar una condicin que ha estado presente en las respuestas que ustedes han dado a las preguntas que yo he formulado: la intuicin. La intuicin es una facultad que encamina, por lo menos, las primeras actividades del supuesto inventor o descubridor hacia el objetivo nal. Es posible que la intuicin en algunos casos se quede corta para lograr la construccin de una herramienta sosticada; de acuerdo. Pero lo que no debera suceder es que una buena herramienta, pro-

Por qu inventar herramientas?

57

duzca un resultado contrario al que dara una buena intuicin. De manera que si ustedes se aproximan intuitiva y correctamente a una posible solucin de un problema, casi con seguridad tendrn xito en hallarla; y no se sorprendan si en ocasiones esa solucin es muy sencilla. Adems, tengan presente que buscamos una herramienta que sea universal: esto es, una herramienta que sea til para la mayor parte de los casos en los que se quiera encontrar un nico nmero que sea representativo de un conjunto de datos. Stadi Shka: Lo que ustedes han dicho me tranquiliza bastante. No lograba imaginarme cmo podra yo llegar a inventarme una frmula o cmo podra encontrar la deduccin de otra! Askanio: Propongo que se haga un resumen de las conclusiones a las que hemos llegado. Stadi Shka y Tahuro: (Al tiempo.) De acuerdo. Estrella: Que lo diga Ana Liza. Ana Liza: En resumen, hemos visto que una herramienta estadstica debe tener ciertas caractersticas: nalidad, aplicabilidad, sencillez (si es posible), universalidad, compatibilidad con una buena intuicin. Y, en general, las herramientas que se van a redescubrir en este curso no surgen gratuitamente sino que se llega a ellas a travs de un proceso corto o largo, sencillo o complejo basado en la necesidad que presentan las situaciones concretas que nos interesan. Profesor: Muchachos, se nos acab el tiempo. Nos vemos maana.

Organizacin y resumen grco de datos

Introduccin
En este captulo se estudiarn algunas de las herramientas que permiten organizar y resumir grcamente la informacin que se considere pertinente obtener a partir de una muestra. La importancia de tratar estos temas radica en que siempre que se aborde un problema desde el punto de vista de la estadstica con el n de llegar a obtener generalizaciones y a hacer inferencias sobre la poblacinser necesario tomar como base muestras de la poblacin de estudio y describirlas. Los primeros pasos del proceso son, precisamente, la organizacin de los datos y el resumen de los mismos. El resumen de los datos puede hacerse grca o numricamente. En este captulo nos interesa hacerlo grcamente. Por lo general, antes de hacer la representacin grca de un conjunto de datos conviene organizarlos en forma tabular con el n de realizar el proceso de la manera ms eciente posible. Es esa la razn por la cual comenzaremos con una breve seccin sobre tablas.

Tablas
Con el objeto de decidir si es necesario o no prestar un servicio de transporte a una cierta comunidad universitaria, se quiere determinar cul es el medio de transporte ms utilizado por los estudiantes de la universidad para llegar a clase diariamente. Se hizo una encuesta a algunos estudiantes, seleccionados al azar, y los resultados obtenidos son:

Tablas

59

buseta bus a pie buseta buseta a pie buseta

bus buseta buseta moto moto auto buseta

a pie moto a pie buseta a pie auto bus

a pie a pie auto a pie buseta buseta bus

a pie moto buseta bus buseta bus moto

a. D una ojeada rpida a los resultados obtenidos a partir de la encuesta y diga: Cuntas personas fueron encuestadas. Cuntos y cules medios de transporte son empleados por ellas. Cul es el medio de transporte ms empleado por ellas. Despus de responder las preguntas anteriores, usted estar de acuerdo en que la forma que se utiliz para presentar la informacin no es la ms adecuada si se quiere que quien la mire obtenga rpidamente una cierta cantidad de informacin. La tarea es, entonces, encontrar una mejor manera de presentar dicha informacin y seguramente usted ya tiene sugerencias al respecto. b. Diga cul es la variable que se est midiendo y de qu tipo es. Cuntos y cules valores asume dicha variable? c. Complete la tabla que se da a continuacin. (Utilice la segunda columna con el n de hacer eciente el proceso de contar.)
Valores Conteo (marcas) Total de marcas

60

Matemticas, Azar, Sociedad

Si usted construye una tabla, empleando la primera y ltima columnas de la tabla anterior obtiene lo que se llama una tabla de distribucin de frecuencias. Una tabla de distribucin de frecuencias contiene dos columnas; una de ellas, la primera, muestra todos los posibles valores que asume la variable y la segunda, para cada valor de la variable, muestra el nmero de veces que se presenta dicho valor, en el contexto en el que se est trabajando; tal nmero se denomina frecuencia. d. D una ojeada rpida a la tabla de distribucin de frecuencias correspondiente al problema que estamos tratando y responda las tres preguntas planteadas inicialmente. Si se observan cuidadosamente las dos maneras de presentar la informacin que se han mostrado en esta seccin, se ve que la diferencia esencial radica en la organizacin: en la clasicacin que se hace en el segundo caso y no en el primero; y eso incide en la cantidad de informacin que, en cada caso, se brinda en el menor tiempo posible.

Diagramas
(Muy cerca de la universidad hay por lo menos tres cafeteras, a las cuales vamos a llamar A, B y C. Chepa y Estrella estn tomando caf en una de ellas.) Chepa: Estrella, acabaste de trabajar el problema que te asign el profesor? Estrella: Todava no he terminado; ya consegu la informacin relacionada con el problema, pero me falta representarla grcamente. Y, es ah donde tengo dudas sobre cmo hacerlo. Aydame, quieres? Chepa: Yo tambin tengo mis dudas. Pero, tratemos de aclararlas. Estrella: El enunciado del problema arma que durante los das de clase, en la cafetera A almuerzan ms estudiantes de la universidad que los que almuerzan en la cafetera B. Mi trabajo consiste en tomar una muestra de estudiantes de la universidad, con el objeto de determinar si, para dicha muestra, la ar-

Diagramas

61

macin es verdadera o no lo es; y debo presentar una grca en la que se haga evidente la informacin que obtenga. Chepa: Pues, tu problema y el mo son muy similares. Cuntame qu has hecho para responderlo. Estrella: Tom una muestra aleatoria de 100 estudiantes de la universidad y a cada uno de ellos les pregunt cul es el sitio donde almuerzan con ms frecuencia durante los das de clase. Y, despus de clasicar las respuestas que me dieron, constru la tabla de distribucin de frecuencias. (Estrella saca su cuaderno y muestra la siguiente tabla)
Lugar Cafetera A Cafetera B Cafetera C Casa Otros Frecuencia 16 20 24 20 20

Chepa: Entonces, en esa muestra no es cierto que haya ms estudiantes de la universidad que almuercen en la cafetera A que en la B. Y, si ese es uno de los mensajes que debe dar la grca, entonces, creo que podra ser del siguiente estilo. (Chepa dibuja. La Grca 1 se presenta en la pgina siguiente.) Estrella: Claro! En esa grca es muy fcil comparar entre s las frecuencias de las diferentes categoras en que se clasic la variable. (Llega Askanio) Askanio: Hola amigas! Qu hacen? Chepa y Estrella: (en coro) Salsa de tomate. No ves? (Askanio mira el diagrama que hizo Chepa, es decir, la Grca 1 y se reere a l)

62 Grca 1

Matemticas, Azar, Sociedad

caf. A caf. B caf. C casa Askanio: Qu representa ese dibujo?

otros

Chepa: Ay, Askanio! T y tus preguntas... Es que acaso no ves? Askanio: Perdn! Qu genio! (Askanio se va) Chepa: Ahora, aydame a responder el problema que me asign el profesor. El enunciado arma que durante los das de clase, la mayora de los estudiantes de la universidad almuerzan en la cafetera C. Al igual que t, debo tomar una muestra de estudiantes de la universidad y debo presentar una grca que permita ver muy claramente si la armacin se cumple o no, para la muestra. Estrella: Tu problema es idntico al mo. Chepa: S, creo que s. Yo tom una muestra de 100 estudiantes de la universidad, les pregunt su preferencia al respecto, y aqu tengo los resultados. Estrella: Pues hagamos el dibujo de la misma manera que el anterior. (Despus de un momento, tienen la Grca 2, que se presenta en la pgina siguiente)

Diagramas Grca 2

63

Frecuencia A

B C casa Lugar de almuerzo

otros

(Regresa Askanio, acompaado de Ana Liza. Se sientan y piden un caf.) Ana Liza: Hola, muchachas! Cmo les va? Askanio: Ya les pas el mal genio? Estrella: Disclpanos! Estbamos muy ocupadas, pero ya terminamos nuestra tarea. (Askanio ojea el ltimo diagrama) Askanio: De manera que... la mayora de las personas, a quienes se reere ese diagrama, almuerzan en el sitio que ustedes llaman C. Ana Liza: Mirando la grca rpidamente puede parecer que la mayora de las personas, a las que se reere, almuerzan en la cafetera C, pero yo no estara tan segura. Puede ser que s, como puede ser que no. Eso depende; para saberlo con certeza, tendramos que sumar las frecuencias de todas las categoras, sin incluir la correspondiente a C, y comparar ese nmero con la frecuencia de C. Slo, as podramos saber si lo que dice Askanio es cierto o no. (Chepa mira la tabla) Chepa: Ana Liza tiene razn: de los 100 estudiantes que entrevist, 49 preeren almorzar en la cafetera C y los dems, 51, preeren no almorzar all.

64

Matemticas, Azar, Sociedad

Estrella: Fjate, Chepa! Por muy poco, la armacin que hizo Askanio que es la misma hecha en el enunciado de tu problema no es cierta. Sin embargo, eso no se hizo completamente evidente en la grca. Por tanto,... Chepa: Ya me di cuenta, Estrella! Para este caso, este tipo de grca no es la ms conveniente. Y, entonces qu hago? Askanio: Qu es lo que pasa? Chepa: Mi problema es el siguiente: tengo una variable categrica que asume varios valores y quiero encontrar un tipo de grca que permita comparar muy fcilmente la frecuencia de una de las categoras con la frecuencia de las dems categoras, o con el total. Dicho en otras palabras, la grca que haga debe permitir una comparacin eciente de una parte con el todo. Ana Liza: Ah! Para eso puedes hacer una torta. Hagmosla. (Ana Liza saca de su bolso un transportador, hace clculos y dibuja. Despus de algn tiempo muestra el siguiente diagrama.) Grca 3 caf. B 12% caf. A 18% caf. C 48% otros 4% casa 18% Distribucin de la variable lugar de almuerzo Estrella: Este diagrama s dice que quienes almuerzan en la cafetera C no son la mayora. Hay ms del 50% de las personas encuestadas que no almuerzan en tal lugar. Chepa: Listo! Gracias muchachos. Voy a pasar a limpio mi tarea. Adis.

Diagramas

65

a. Cul es la variable que se est midiendo? De qu tipo es? Cuntos y cules valores asume la variable? b. Observe detenidamente el primer diagrama que se present en el dilogo, (Grca 1) tiene Askanio toda la informacin necesaria para entender e interpretar la informacin que se pretende dar? O sea, que esas viejas
histricas regaaron a Askanio injustamente Explique su respuesta.

c. Si el diagrama al que se hace referencia en el item anterior tuviera toda la informacin necesaria para poder leerlo e interpretarlo, cmo se sabra cuntas observaciones hay en cada clase? d. Considere la muestra seleccionada por Estrella. Con base en la correspondiente tabla de distribucin de frecuencias, compare las frecuencias de las categoras Cafetera B y Otros. Haga la misma comparacin con base en el diagrama (Grca 1). Deberan coincidir las dos respuestas anteriores? Coinciden? (Mire bien!) e. Suponga que Chiripa y Hazard tomaron tambin dos muestras de estudiantes de la universidad, les preguntaron en dnde almuerzan frecuentemente los das de clase y quieren comparar los resultados obtenidos en las dos muestras. A continuacin se presenta la tabla de distribucin de frecuencias:
Lugar Cafetera A Cafetera B Cafetera C Casa Otros Frecuencia Chiripa 24 10 14 12 20 Hazard 36 15 21 18 30

Represente grcamente los resultados obtenidos para cada una de las dos muestras. Compare el aspecto de las dos grcas y exprese esa comparacin en palabras. Cul es el tamao de cada una de las dos muestras? Qu porcentaje de los encuestados por Hazard preeren la cafetera C? Qu porcentaje de los encuestados por Chiripa preeren la

66

Matemticas, Azar, Sociedad cafetera C? Reejan las grcas que usted hizo el hecho de que esas proporciones son iguales? Qu cambio tendra que hacer en sus grcas para que al compararlas sea evidente la comparacin? Ahora s, vuelva a presentar las grcas que le permitan comparar fcilmente los resultados obtenidos en las dos muestras. f. Existe alguna diferencia esencial entre los diagramas que se muestran a continuacin? Cul es? Reeja esa diferencia entre los diagramas alguna diferencia entre las variables cuya distribucin representan? Explique su respuesta. (Para dar su respuesta, tenga en cuenta si cree que alguna de las dos grcas es ms adecuada para representar un determinado tipo de variable.) Grca 4

Frecuencia

Valores de la variable

Grca 5

Frecuencia

Valores de la variable

Formalicemos un poco

67

g. Cree usted que el diagrama empleado en el caso que trabaj Estrella (Grca 1) es adecuado? Por qu? Explique claramente por qu el mismo tipo de diagrama no result adecuado para la situacin que trabaj Chepa (Grca 2). h. Explique cmo cree que se hace un diagrama de torta y diga en qu casos es conveniente usarlo. i. Haga un resumen ilado de las conclusiones a las que lleg despus de haber ledo el dilogo y despus de haber respondido las preguntas anteriores.

Formalicemos un poco
En esta seccin vamos a tratar de hacer explcitas algunas consideraciones que conviene tener en cuenta cuando se quiere representar grcamente la informacin contenida en una muestra. Para organizar y resumir la informacin contenida en una muestra existen tcnicas herramientas ms o menos sencillas de usar. Resulta interesante conocerlas y saberlas emplear. Sin embargo, no hay que olvidar que la funcin de esas tcnicas es contribuir al manejo eciente de la informacin. Al hacer una grca, a partir de una muestra, lo que se pretende es que quien la observe se haga rpida y fcilmente una idea aproximada de lo que expresan los datos. Puede pensarse, entonces, que existen muchas reglas que rigen el empleo de las grcas. En realidad no es as; lo que hay son razones que justican el empleo de un determinado tipo de grca en determinado caso, y esas razones se reeren bsicamente a tres aspectos. Uno de ellos es el tipo de variable que se quiere representar; por ejemplo, como hay diferencias esenciales entre las variables categricas y las variables cuantitativas, es natural que esas diferencias se reejen en las correspondientes grcas. El otro aspecto, est relacionado con qu se quiere presentar en la grca y para qu; por ejemplo, si se quieren comparar dos grcas referentes al mismo asunto es conveniente usar la misma escala para que la comparacin sea evidente. Y, el tercer aspecto se reere a cuestiones elementales de presentacin como son dar a conocer el ttulo de la grca y hacer explcitos todos aquellos detalles que permiten a cualquier persona entender de qu se trata la grca.

68

Matemticas, Azar, Sociedad

El siguiente ejemplo intenta aclarar lo dicho anteriormente. Si se quiere mostrar grcamente cmo se distribuye una variable categrica, se puede construir un diagrama de bloques. En tal caso, como los valores que asume la variable no son numricos no interesa dar un orden a la disposicin de los mismos y por consiguiente no se puede hablar de la clase X que est entre las clases Y y Z, por lo cual los rectngulos que las representan se hacen separados unos de otros. En cambio, si se quiere mostrar la distribucin de una variable cuantitativa continua no conviene hacerlo con un diagrama de bloques pues si se hiciera, se dara la impresin de que la variable no toma todos los valores que realmente puede tomar. Pero, qu es un diagrama de bloques? Un diagrama de bloques es una grca que se emplea para representar la distribucin de una variable categrica. Consta de una serie de rectngulos, cada uno de los cuales representa una categora de la variable. Las bases de los rectngulos estn sobre una misma recta y se nombran con los valores que toma la variable cuya distribucin se quiere representar. Las bases de todos los rectngulos tienen la misma longitud y la altura de cada uno de ellos es proporcional al nmero de observaciones de la muestra que estn incluidas en cada clase. Los rectngulos que conforman la grca estn separados entre s para indicar que entre uno y otro valor de la variable no hay ms valores. El diagrama de bloques es muy fcil de construir y muy til siempre que se comparen entre s las frecuencias de las diferentes categoras en que se clasica la variable, pues esa comparacin se establece atendiendo al rectngulo que tenga mayor o menor altura. Un diagrama de bloques tiene la siguiente forma: Grca 6

Frecuencia

Valores de la variable

Formalicemos un poco

69

Sin embargo, si se quiere comparar la frecuencia de una de las clases con la frecuencia de las dems clases o con el total de observaciones que constituyen la muestra, no es el diagrama de bloques el ms adecuado. Para esos casos, es mejor construir un diagrama circular. Un diagrama circular es una grca que se emplea para representar la distribucin de una variable categrica. Para construirlo se utiliza un crculo: se divide en tantos sectores como categoras tenga la variable. El tamao de cada sector (o sea del ngulo central correspondiente) debe ser proporcional al nmero de observaciones de la muestra que estn incluidas en cada clase. Veamos en un ejemplo cmo se construye un diagrama circular para representar una variable categrica. Suponga que tiene una muestra de 50 estudiantes de la Universidad, se les pregunta en qu semestre van y lo que interesa es clasicar las respuestas obtenidas en una de tres clases, denidas as: De primero a tercer semestre: clase A De cuarto a sexto semestre: clase B De sptimo en adelante: clase C A continuacin se da la distribucin de frecuencias que se obtuvo: Semestre Clase A: de primero a tercero Clase B: de cuarto a sexto Clase C: de sptimo en adelante Frecuencia 23 18 9

En este caso debe dividirse el crculo en tres sectores, cada uno de los cuales representar una de las clases. El tamao de cada sector deber ser proporcional a la frecuencia de la clase que representa. Por tanto para calcular el valor del ngulo bastar hacer una regla de tres. Por ejemplo, el ngulo central correspondiente a la clase A deber medir 165,5 grados.

70

Matemticas, Azar, Sociedad

De manera similar se obtiene el tamao de los otros sectores. Y con esa informacin se construye el diagrama circular. A continuacin se presenta: Grca 7 Clase A 46%

Clase B 36%

Clase C 18%

Distribucin de la variable semestre

Otras grcas
(Hazard llega a la casa de Chepa.) Hazard: Estrella y t se lucieron en clase! Chepa: Gracias, Hazard. Y, t, cundo vas a exponer? Hazard: Maana. Mi exposicin tiene que ver con un problema real en el que estoy metido. Me quieres ayudar? Chepa: Claro! Hazard: Mi hermana, la que estudi pre-escolar, quiere montar un jardn infantil en el barrio donde vivimos, pero no tiene el dinero necesario y est buscando que nuestro pap la nancie. Para lograrlo debo convencer a pap de que la idea es buena, pues muy seguramente habr una gran demanda. Chepa: Uy! es un problema complejsimo. Hay una gran cantidad de elementos involucrados y muchas interrelaciones entre ellos!

Otras grcas

71

Hazard: S. Ya tengo construido, ms o menos satisfactoriamente, el modelo del problema social correspondiente. Creo que una de las variables de inters es el nmero de hijos que tiene cada familia residente en el barrio; y otra, es la edad de los hijos de las familias. Chepa: Y, en qu te puedo ayudar? Hazard: Mira: tom una muestra aleatoria de 50 familias, visit a los dueos de casa y les hice responder 10 preguntas relacionadas con los aspectos que determin como ms importantes para lo que me interesa. Como mi objetivo principal es convencer a pap de que la idea de mi hermana es buena, quiero presentarle, de la manera ms adecuada, la informacin que recog, y es ah donde puedes ayudarme. Chepa: Pues, a comenzar. Muestra las encuestas. (Hazard busca las encuestas y las da a Chepa.) Hazard: Comencemos por organizar los datos sobre el nmero de hijos; los encuentras como respuesta a la tercera pregunta. Yo ya estuve mirando las respuestas que dieron a esa pregunta y s que los valores que toma la variable son: 0, 1, 2, 3, y 5. Chepa: Comienzo a dictarte las respuestas a la pregunta 3: 0, 3, 5, 1, 1, 2, 2, 2, 2, 3, 1, 2, 2, 0, 5,... (Chepa dicta los 50 valores.) Hazard: Listo! Mira un bosquejo de la forma que tendr la grca cuando se haga elegantemente. Chepa: Qu maravilla! Ese mtodo de presentar la informacin es mejor que dar una tabla de distribu cin de frecuencias; pues a la vez 0 1 2 3 4 5 que organiza la informacin, da una representacin grca de la misma. Grca 8: # hijos familia del barrio X Hazard: Observa, la mayora de las familias encuestadas tienen menos de 4 hijos, y son muy pocas las familias que no tienen hijos. Volviendo al tema,

72

Matemticas, Azar, Sociedad

aunque esa presentacin de los datos es muy diciente, quiero hacer un diagrama que d todava ms informacin. Pienso que podra hacer un diagrama de bloques como el que se us en clase esta maana, para la variable lugar de almuerzo. T qu dices? Chepa: Creo que el diagrama adecuado para este caso, est prcticamente insinuado por el que t hiciste el de puntos, y en esencia es muy similar al de bloques; sin embargo, en vez de emplear rectngulos para representar cada una de las clases se puede usar segmentos de recta, cuya longitud sea proporcional a la frecuencia del correspondiente valor de la variable. Hazard: Y, cul es la razn por la cual, para este caso, es mejor usar segmentos que bloques? No es una decisin un poco caprichosa? Chepa: Realmente puede parecer cuestin de capricho. Miremos qu diferencia hay entre las variables lugar de almuerzo y nmero de hijos. Hazard: Lugar de almuerzo es una variable categrica, mientras que nmero de hijos es una variable cuantitativa discreta. Como s hay una diferencia esencial entre las dos variables y convinimos usar bloques para representar las variables categricas, entonces podemos acordar que vamos a emplear diagramas de segmentos para los casos en que trabajemos con variables cuantitativas discretas. Chepa: Entonces, el diagrama quedara as: Grca 9 20 Frecuencia 15 10 5

Otras grcas

73

Hazard: Ahora miremos cmo est distribuida la edad de los hijos de esas 50 familias. Yo ya hice la tabla de distribucin de frecuencias. Mrala. (Hazard muestra la siguiente tabla.) Edad (aos) 0.4 0.7 1.5 1.7 1.9 2.0 2.3 2.6 3.0 3.5 3.7 4.2 4.6 5.0 5.3 5.7 6.0 6.2 6.8 7.0 Frecuencia 1 2 4 3 4 6 9 5 6 6 8 3 7 2 1 2 4 2 3 1 Edad (aos) 7.6 8.0 10.0 10.5 10.7 11.2 11.4 11.6 13.0 13.5 14.0 14.5 15.0 15.6 16.0 16.2 16.9 17.0 17.5 17.8 Frecuencia 2 2 5 2 4 2 3 1 2 1 2 1 1 2 3 2 1 2 1 2

Chepa: Qu montn de valores los que asume esta variable! Me da la impresin de que para este caso no es muy adecuado hacer una grca como la que hicimos para representar la distribucin de la variable nmero de hijos.

74

Matemticas, Azar, Sociedad

Hazard: A ver..., cmo quedara si la hiciramos como hicimos la anterior? Si por cada valor de la variable hiciramos un segmento de recta, tendramos toda la informacin que se obtiene de la tabla. Pero, qu tan diciente es esa informacin? Es decir, qu tanto le puede signicar esa grca a cualquier persona que pretenda describir en trminos generales la situacin correspondiente al problema? Realmente, vale la pena dar todo el detalle de los datos? Creo que en ocasiones es preferible perder algo de informacin en aras de poder leer e interpretar ms cmodamente, o por lo menos, ms rpidamente la informacin, porque recuerda que, en ltimas, lo que queremos es resumir la informacin. Chepa: S. Tal vez t tienes razn. Adems, si convinimos en emplear los diagramas de segmentos de recta para representar la distribucin de una variable cuantitativa discreta, entonces debemos emplear otro tipo de grca en casos como el que estamos tratando, pues la variable es cuantitativa continua. Hazard: Resumamos lo dicho hasta ahora. Para decidir cul es una buena manera de representar grcamente una variable cuantitativa continua debemos tener en cuenta especialmente dos condiciones: en primer lugar, debemos resumir la informacin y en segundo lugar, en la grca debe reejarse el hecho de que la variable es continua. Por tanto, esas dos condiciones que mencion deben marcar la pauta. Chepa: Djame decirlo a m. Respecto a la primera condicin que diste, hagamos grupos de edades; y con respecto a la segunda condicin, en la grca, demos la sensacin de que no hay espacios entre uno y otro grupo. Hazard: Entonces, la grca debera ser de este estilo: (Hazard hace rpidamente un dibujo y lo muestra a Chepa.) Chepa: S; parecido al diagrama de bloques, pero sin las separaciones entre las diferentes clases. Ahora, el problema que se presenta es decidir cuntas clases hay que construir.

Grca 10

Frecuencia Clases de la variable

Otras grcas

75

Hazard: Qu lstima que no pueda quedarme para que me ayudes a resolver ese problema! Pero, creo que con lo que hemos hecho puedo salir adelante. Cuando termine de hacer el anlisis de mi problema del kinder, te contar si logr convencer o no a pap. Adis, Chepa. Chepa: Adis, Hazard.

a. En el dilogo, Chepa dice (...) Ese mtodo de presentar la informacin (se reere al diagrama de puntos, a la Grca 8) es mejor que dar una tabla de distribucin de frecuencias; (...). Est usted de acuerdo con esa armacin? Al justicar su respuesta mencione los pro y los contra de ese tipo de diagrama. b. Un experimento consiste en lanzar simultneamente seis monedas durante cierto nmero de veces, y cada vez anotar el nmero de sellos obtenidos. El diagrama siguiente muestra los resultados. Con base en l, responda las siguientes preguntas: Grfica 11 Lanzamiento de 6 monedas

80 Frecuencia 60 40 20 0

Nmero de sellos

Cul es el espacio muestral del experimento aleatorio denido? Cul fue el resultado obtenido con mayor frecuencia? Cul es el nmero de sellos menos frecuente? En el eje vertical del diagrama (el correspondiente a Frecuencia) no est marcada la frecuencia del resultado 2 sellos ni tampoco la de

76

Matemticas, Azar, Sociedad 5 sellos. Sin embargo, observando la longitud de los correspondientes segmentos, usted puede saber dichas frecuencias. Encuntrelas. Qu caracterstica importante del diagrama es la que permite responder la pregunta anterior? Explique su respuesta. Cul valor de la variable tiene frecuencia igual a 75? Cuntas veces se realiz el experimento? Cuntas veces se obtuvo menos de 4 sellos?

c. En el dilogo, Chepa dice (...) pues... hagamos grupos de edades; (...) rerindose a una de las condiciones importantes para representar grcamente la distribucin de la variable edad. Explique por qu y para qu es conveniente hacer lo mencionado por Chepa. d. Suponga que usted le tiene que ayudar a Hazard a establecer los grupos de edades. Con qu criterios hara usted esos grupos? O, cree que no es necesario jar unos criterios para hacerlo? Explique su respuesta. e. De acuerdo a la respuesta que dio en el item anterior, haga una tabla que muestre los grupos de edades en que usted clasica los datos y sus correspondiente frecuencias. Adems, con base en dicha tabla y teniendo como modelo el diagrama hecho al nal del dilogo por Hazard, haga la representacin grca de la distribucin de las edades.

Otro resumen
En la seccin Formalicemos un poco se mencionaron dos tipos de diagramas para representar la informacin contenida en una muestra: el diagrama de bloques y el circular, los cuales se emplean para distribuciones de variables categricas. Puesto que no todas las variables son categricas es preciso, entonces, encontrar formas adecuadas de representar las distribuciones de esas otras variables. Y, de la identicacin de esa necesidad, surge naturalmente la tarea (buscar los diagramas ms adecuados para cada caso) que se realiz a travs del dilogo Otras grcas y de la reexin hecha para responder las preguntas correspondientes. Ahora, vamos a hacer un resumen de las conclusiones a las que se lleg.

Otro resumen

77

Se presentaron tres tipos de diagramas: el diagrama de puntos, el diagrama de barras y el histograma. En caso de que la variable cuantitativa sea discreta, asuma pocos valores, el total de observaciones sea un nmero relativamente pequeo y el objetivo sea presentar organizadamente la informacin, el diagrama de puntos es una manera eciente de representar la informacin contenida en una muestra. Es mejor que una tabla de distribucin de frecuencias porque hace evidente la forma de la distribucin de la variable. Sin embargo, quien observe este tipo de diagrama y quiera saber la frecuencia de un determinado valor de la variable deber hacer el conteo. Un diagrama de puntos es una grca que se emplea para dar una idea aproximada de la forma de la distribucin de una variable cuantitativa discreta. Sobre una misma recta (usualmente horizontal) se disponen en orden ascendente los posibles valores de la variable y encima de cada uno de esos valores se anotan tantos puntos como veces se repita el valor. Aunque el diagrama de puntos se usa especialmente con variables discretas, en ciertas ocasiones puede usarse para representar la distribucin de una variable continua, con el n de tener una idea de la forma de la distribucin. El diagrama de barras es muy parecido al de bloques; tanto, que en repetidas ocasiones se emplean indistintamente. Sin embargo, nosotros haremos distincin en el uso de ellos para signicar que el de bloques representa la distribucin de una variable categrica, y el de barras se reere a la distribucin de una variable discreta. Un diagrama de barras es una grca que se emplea para representar la distribucin de una variable cuantitativa discreta. Sobre un misma recta (usualmente horizontal) se disponen en orden ascendente los posibles valores de la variable y encima de cada uno de esos valores se trazan segmentos de recta cuya longitud es proporcional a la frecuencia de cada valor de la variable. Al tener que representar grcamente la distribucin de una variable continua, la grca que se elija tiene que reejar las caractersticas de dicho tipo de variable. Esas dos caractersticas se reeren a que:

78

Matemticas, Azar, Sociedad hay innidad de valores que puede asumir la variable entre cualquier par de valores que asuma la variable, existe por lo menos otro valor que tambin puede ser asumido por la variable.

Esas dos condiciones se reejan exactamente en la grca, as: Se usan bloques dichos bloques son adyacentes La anterior descripcin da lugar a grcas como la que se muestra en la Grca 12. Tales grcas reciben el nombre de histogramas. Un histograma es una grca que se emplea para representar la distribucin de una variable cuantitativa continua. Est constituida por rectngulos ubicados sobre una misma recta. Cada uno de los grupos en que se clasica la variable est representado por la base de un rectngulo; y la altura del mismo es proporcional a la frecuencia del correspondiente grupo de valores. Adems tales rectngulos son adyacentes.

Grca 12

Frecuencia c1 c2 c3 c4 c5 Como puede notar, la construccin de un histograma no presenta ninguna dicultad. El problema reside en agrupar los datos de la variable en la forma ms adecuada posible. Para lograr esto es necesario tener en cuenta algunas caractersticas de los valores que asume la variable: qu tan grandes son, qu

Otro resumen

79

tanta diferencia hay entre ellos, qu tantos valores hay, etc., de manera que se puedan establecer criterios de agrupacin. De lo anterior se deduce que la agrupacin de los valores no es nica, pues depende del criterio de quien est haciendo la clasicacin. Sin embargo, hay unas reglas prcticas que pueden servir como base para tomar la decisin. Puesto que el objetivo de hacer un histograma es permitir un resumen de datos y facilitar la lectura e interpretacin de los mismos para describir el conjunto, esas consideraciones debern reejarse en la grca. Al tener que decidir cuntas clases deben hacerse, la respuesta es: ni tantas, ni tan pocas. Si se hacen muy pocas, el resumen es tal que se pierde mucha informacin, y si se hacen muchas clases no se est logrando un verdadero resumen. En la prctica, el nmero de clases suele variar entre 5 y 15. El otro aspecto que interesa decidir es qu tamao debe tener cada una de las clases. Para eso, es necesario saber qu tan grande es la variacin de los datos del conjunto, y una manera eciente de lograr esa informacin es calcular la diferencia entre los valores mximo y mnimo del conjunto. Por tanto, si se tiene denido el nmero de clases, y se quiere que todas tengan el mismo tamao, al dividir la diferencia de los valores mximo y mnimo por el nmero de clases, queda determinado el tamao que debe tener cada una de ellas. Y, con esa informacin slo queda por denir cada una de las clases, determinar su frecuencia Se quiere representar grcamente las calicaciones de un parcial de estadstica. La grca debe dar un cierto detalle de las diferencias entre las calicaciones de los alumnos a quienes les fue mal, regular y bien. O sea la distribucin BRM! Dichas calicaciones son las siguientes
1.5 2.5 3.6 1.7 2.6 3.6 1.8 2.8 3.6 2.2 3.1 3.7 2.3 3.2 3.8 2.4 3.3 3.9 2.4 3.3 3.9 2.4 4.5 4.4 3.4 3.9 4.1 4.1 4.0 4.0 3.9 3.9

Si se quiere clasicar los valores de la variable calicacin, atendiendo las sugerencias dadas anteriormente, se podra llegar a algo similar a esto:

80

Matemticas, Azar, Sociedad

1.- Puesto que son pocos datos (32), y entre ellos no hay diferencias grandes en cuanto a su valor, hacer 6 clases puede ser suciente. 2.- Como el mnimo valor de la variable es 1.5 y el mximo es 4.5, entonces la longitud del segmento que se quiere dividir es 4.5 - 1.5 = 3. 3.- Puesto que la longitud del segmento es 3 y se quiere hacer 6 clases, entonces el tamao de cada clase debe ser 3 / 6 = 0.5 4.- La tabla de distribucin de frecuencias agrupadas se puede presentar as:
Clase 1.5 - 2.0 2.0 - 2.5 2.5 - 3.0 3.0 - 3.5 3.5 - 4.0 4.0 - 4.5 Frecuencia 3 5 3 5 10 5

La forma como se han construido las clases presenta un problema de interpretacin de las mismas. Veamos cul es: por ejemplo, el extremo superior de la primera clase es 2.0 y es el mismo extremo inferior de la segunda clase, entonces quien interprete la tabla no necesariamente sabe en cul de las dos clases se cont la frecuencia del valor 2.0, en caso de que ese valor sea uno de los que asume la variable. Para solucionar problemas como ese podemos convenir en que para cada clase, el extremo inferior se incluye, pero no el extremo superior. Es decir, volviendo a nuestro ejemplo, 2.0 es un valor excluido de la primera clase, pero incluido en la segunda; de esa manera se evitan posibles ambigedades. Con respecto a la tabla de frecuencias agrupadas del ejemplo que estamos desarrollando, si usted tuvo la precaucin de totalizar las frecuencias de las diferentes clases, debi obtener 31 y no 32 como era de esperarse. Qu ocurri? Efectivamente no hay ningn error de conteo ni de suma. Slo que en realidad, con el tamao que se dio a cada clase quedan denidas 7 clases y no 6 como se dijo. Entonces, qu hacer? Una forma de resolver el problema es denir la ltima clase como 4.0 ms. Si eso se acepta, entonces la tabla de frecuencias queda:

Otro resumen

81

Clase 1.5 - 2.0 2.0 - 2.5 2.5 - 3.0 3.0 - 3.5 3.5 - 4.0 4.0 ms

Frecuencia 3 5 3 5 10 6

La otra forma de solucionar el problema es adicionar una clase ms, que incluya los valores de la variable que haga falta considerar. 5.- De manera que el histograma correspondiente a la tabla anterior sera el siguiente: Grca 13 Distribucin de calicaciones

Frecuencia

6 5

1.5 2.0 2.5 3.0 3.5 4.0 Clases

82

Matemticas, Azar, Sociedad

Algunos ejercicios
1.- Hable de las diferentes formas de representar grcamente los datos de una variable. 2.- Un grupo de politlogos est estudiando las caractersticas generales del municipio de Cha para un trabajo de investigacin. Los datos14 que se muestran a continuacin corresponden al uso de los suelos en el municipio. Con base en ellos podemos ver el desarrollo del aspecto socio-econmico en Cha.
Uso del suelo reas en desarrollo recreacin y turismo minero agricultura oricultura ganadera bosques agro-industrial Porcentaje 13.08 0.72 4.34 6.82 1.41 36.27 3.61 3.82

a. Cul es la variable de estudio, de qu tipo es y cules valores toma? b. Represente grcamente la informacin contenida en la tabla. 3.- Un politlogo desea determinar qu tipo de mecanismo preeren las personas para elegir a un candidato: el tarjetn o la papeleta. Uno de los asistentes del politlogo aplica una encuesta en un municipio cercano a Bogot, Tabio, a 175 personas y encuentra que 25 no votan, 96 preeren el tarjetn y 54 preeren la papeleta.
14 Tomados de Pedro Gmez y Cia. grupo de consultora.

Algunos ejercicios a. Cul es la poblacin de estudio? b. Cul es la muestra de estudio y su tamao?

83

c. Cul es la variable de estudio? Comente los resultados obtenidos por el asistente, con respecto a la variable que l pretende medir. Proponga una manera de eludir el problema que presentan los resultados. d. Acoja la sugerencia que dio en el item anterior para elaborar una tabla de frecuencias y representar grcamente la informacin. 4.- Un estudiante de Ciencia Poltica desea conocer cul es el candidato para alcalde de Bogot por el cual se inclina la mayora de los estudiantes de la universidad donde l estudia. Para eso, toma una muestra aleatoria de 80 estudiantes de la universidad y cada uno de ellos da su voto a favor de alguno de los siguientes candidatos: el del M-19, el del Partido Conservador o el del Partido Liberal. Los resultados son los siguientes:
M-19 M-19 Lib. M-19 Lib. Con. Con. Lib. M-19 Lib. M-19 Lib. Lib. Lib. Con. Con. Con. Con. Lib. M-19 Lib. Con. Con. Lib. Con. Con. M-19 Lib. M-19 Lib. Con. Con. Lib. Lib. Con. M-19 Lib. Lib. Con. Lib. M-19 Lib. Lib. Lib. N vot. Lib. LIb. M-19 Con. M-19 Lib. M-19 Lib. N vot. Lib. Con. Con. M-19 M-19 M-19 M-19 Lib. M-19 Con. Con. Con. M-19 Lib. M-19 Lib. N vot. M-19 Con. Con. Lib. M-19 Con. M-19 M-19 Lib.

a. Diga cul es la variable que se est midiendo y diga de qu tipo es y cuntos valores toma. b. Realice una tabla de frecuencias que represente la informacin dada anteriormente. c. Haga un diagrama que le permita ver fcilmente cul fue el candidato con ms votacin.

84

Matemticas, Azar, Sociedad

5.- Un cientco cree que el color rojo tiene un mayor grado de estimulacin para las palomas, que el verde. Para comprobar su hiptesis expuso a 15 palomas a una sesin completa de condicionamiento operante que consista en poner a las palomas en una caja que tena dos luces (una roja y una verde) y un comedero. Las palomas deban picotear cualquiera de las luces para recibir comida. Algunas veces picoteaban la luz roja y otras, la verde. Cada sesin duraba 30 minutos y las respuestas que dieron las palomas durante ese transcurso de tiempo fueron las siguientes:
1 rojo verde 76 63 2 49 53 3 66 65 4 82 91 5 57 85 6 67 12 7 72 53 8 84 62 9 63 56 10 59 42 11 56 40 12 64 32 13 68 50 14 81 60 15 79 23

a. Identique la poblacin de estudio y la muestra que representa a dicha poblacin. b. Cul es la variable que se est midiendo? De qu tipo es? c. Haga tablas de frecuencias que representen la situacin y tambin haga un diagrama que la represente. 6.- Un psiclogo desea establecer si los programas de televisin que presentan situaciones violentas tienen la misma inuencia en nios de distinto sexo, que viven en ciudades grandes. Para ello, escogi al azar de sus 50 pacientes (25 nios y 25 nias) 10 de cada sexo y con ellos realiz el siguiente experimento: todos los das durante un mes someti a esos 20 nios a observar un programa violento de una hora de duracin. Al nalizar el experimento, el psiclogo evalu, por medio de un test escrito, el nivel de agresividad en cada nio. Los puntajes obtenidos en el test se dan a continuacin:
1 2 90 68 3 76 65 4 92 73 5 86 89 6 83 75 7 67 62 8 86 70 9 90 64 10 92 66

nios nias

88 93

a. Identique la poblacin de estudio y la muestra con la que se hizo el experimento.

Algunos ejercicios

85

b. Cree usted que esa muestra sea lo sucientemente representativa para estimar o predecir el comportamiento de la variable dentro de la poblacin? c. Haga las tablas de frecuencias correspondientes a cada grupo. d. Para cada caso (nios, nias) haga una grca que represente los resultados. e. Cree usted que el sexo sea el nico factor que inuye en el grado de agresividad del nio? Qu otros factores pueden inuir en la conducta de la cual se est hablando? 7.- El gerente de ventas de un supermercado organiza un estudio para determinar el tipo de aceite usado en la cocina. Tal estudio se lleva a cabo en la zona norte de Bogot y se realiza con 180 familias de clase media. Los resultados fueron los siguientes: 40 familias consumen aceite de ajonjol, 35 familias emplean aceite de soya, 15 emplean manteca de cerdo, 15 usan aceite de oliva, 50 emplean aceite de girasol y 36 familias emplean aceite de maz. a. Cul es la poblacin de estudio? b. Cul es la muestra sobre la que se va a realizar el estudio y cul es su tamao? c. Cul es la variable que se est investigando? De qu tipo es? d. Construya una distribucin de frecuencias. e. Cunto da la suma de frecuencias? Cmo se explica que la suma de frecuencias sea superior al nmero de familias del estudio? f. Represente grcamente la distribucin de frecuencias. 8.- En una fbrica textil la produccin en miles de metros de los ltimos meses se presenta en la siguiente tabla. El gerente nanciero est muy preocupado por la situacin. Cul es la razn de ello?

86
enero: 3.500 abril: 2.500 mayo: 3.000 marzo: 2.000 agosto: 3.000 julio: 2.000

Matemticas, Azar, Sociedad


febrero: 4.000 junio: 2.500

9.- La persona encargada de asignar salones a los cursos que se dictan en la universidad, quiere determinar la proporcin de estudiantes que hay en cada una de las carreras que conforman la facultad de Humanidades para explicar por qu no conviene hacer la asignacin de salones al azar. Despus de que haya recogido la informacin va a presentarla en un diagrama. a. Cul es la variable que se va a medir? De qu tipo es? b. Qu tipo de diagrama es el ms adecuado? Por qu? 10.- Un estudiante de derecho quiere determinar la proporcin de estudiantes que hay en cada una de las carreras que conforman la facultad de Humanidades para corroborar su armacin de que los estudiantes de derecho son los que deciden en una votacin pues son la mayora. Despus de que haya recogido la informacin va a presentarla en un diagrama. a. Cul es la variable que se va a medir? De qu tipo es? b. Qu tipo de diagrama es el ms adecuado? Por qu? 11.- El administrador de un supermercado est interesado en determinar si es necesario instalar ms cajas registradoras en el almacn para darle una atencin ms rpida a la comunidad. Para el efecto, la persona encargada de hacer la investigacin toma, un da cualquiera, una muestra aleatoria de 50 compradores y anota el tiempo que cada uno de ellos gasta haciendo cola para pagar sus compras. Despus de que haya recogido la informacin va a presentarla en un diagrama. a. Cul es la variable que se va a medir? De qu tipo es? b. Qu tipo de diagrama es el ms adecuado? Por qu? 12.- En el curso de estadstica se han realizado tres parciales. El profesor del curso cree que, en general, sus alumnos van bien pues la mayora de ellos han aprobado los tres parciales. El profesor quiere presentar la informacin correspondiente en un diagrama.

Algunos ejercicios a. Cul es la variable que se va a medir? De qu tipo es? b. Qu tipo de diagrama es el ms adecuado? Por qu?

87

13.- Numerosos lingistas han explicado el problema de la pluralizacin del verbo haber. Para unos, ninguna forma del verbo haber admite plural; otros explican que el uso coloquial de formas como haban o han habido se ha impuesto hasta ser aceptado; y otros argumentan que la naturaleza lingstica del verbo s permite la forma plural.15 A pesar de las muchas razones tericas, la forma plural, correcta o incorrecta, sigue siendo utilizada. (La forma correcta es la singular. Por ejemplo, haba muchos carros.) Para profundizar en el problema, un grupo de lingistas colombianos hizo una prueba en Cali. Realizaron entrevistas a veinte personas; diez de ellas, entre 19 y 30 aos y las otras diez entre 31 y 45 aos. De cada persona entrevistada se registr el empleo que ella hizo del verbo haber (segn lo que interesa para este caso) en tres ocasiones tomadas aleatoriamente de la entrevista. Se codicaron con 1 las formas del verbo haber en singular y con 2 las formas del verbo haber en plural. Los resultados del corpus fueron los siguientes:
1 19 - 30 aos 2 1 1 31 - 45 aos 2 1 2 2 1 1 1 1 1 2 2 1 1 1 2 1 2 1 2 2 1 1 1 1 1 1 1 2 2 2 2 1 2 2 2 2 1 1 2 2 2 1 1 1 1 1 1 1 2 1 1 1 2 2 2 2

a. Cul es la poblacin de estudio y cul la muestra de estudio? b. Qu es un corpus? c. Cules variables se consideran en la investigacin?
15 Bentivoglio, Paola. Haber: un verbo impersonal? Estudios sobre espaol de Amrica y lingstica afroamericana. Bogot: Instituto Caro y Cuervo, 1989, pp. 61-64.

88

Matemticas, Azar, Sociedad d. Para la variable que se est midiendo, elabore una tabla de frecuencias y un diagrama de bloques. e. Considere el conjunto de datos que se le presenta segn la generacin. Haga un diagrama circular para cada uno de los subgrupos y comprelos. f. Cree usted que el uso del plural en el verbo haber puede ser una evolucin que se da en el lenguaje a travs del tiempo? (Apyese en la respuesta dada a la pregunta anterior.)

14.- Un factor que inuye notablemente en el estilo del lenguaje hablado es el ambiente en el que se encuentra el hablante. Para rearmar la hiptesis de que existe una relacin directa entre la formalidad del contexto y la formalidad del lenguaje, un profesor de lingstica de una universidad de Medelln decidi calicar el lenguaje de un grupo de alumnos suyos durante las exposiciones realizadas en clase y durante los descansos en una cafetera. Las calicaciones (que variaban entre 1 y 5, donde 1 corresponda a un lenguaje puramente coloquial y 5 corresponda a un lenguaje muy elevado o renado), de los veinte estudiantes en los dos contextos fueron:
3,0 En la clase 4,2 3,0 En la cafeteria 1,0 3,5 3,9 2,5 1,5 4,0 4,0 2,0 0,9 4,5 4,1 1,0 3,0 2,5 3,5 0,2 3,4 2,0 2,8 0,7 4,0 3,0 3,2 3,0 2,7 4,0 2,5 4,2 2,8 4,7 3,5 3,0 1,5 3,9 4,0 2,9 1,9

a. Cul es el problema de estudio? b. Cul es la muestra del estudio? c. Cules variables se consideran? De qu tipo son? d. Para las calicaciones obtenidas en cada uno de los dos contextos estudiados elabore una tabla de frecuencias y un histograma. e. Compare la informacin ya resumida y diga si el caso particular que se est considerando parece apoyar la hiptesis planteada.

Algunos ejercicios

89

15.- El lenguaje es la herramienta propia del hombre para comunicarse con los otros miembros de una sociedad. Con el n de comprobar el cumplimiento de la funcin comunicativa de su peridico en toda la sociedad cucutea, el director de un destacado diario de la capital nortesantandereana adelant una investigacin que pretenda medir el alcance de la informacin contenida en el peridico con respecto al grado de comprensin que de sta lograba el lector. Para tal efecto, se tom una muestra de cien suscriptores del diario a quienes se pidi calicar tres tipos de escritos segn el grado de dicultad de comprensin que presentaban. A continuacin se especica un poco ms el estudio.
Muestra estraticada por nivel socioeconmico de los suscriptores del peridico Alto Medio alto Medio bajo Bajo 20 30 20 30

Tipos de textos sometidos a calicacin A B C Temas de inters general Temas sociales y polticos Temas especializados

Escala de calicaciones para el grado de dicultad de comprensin del texto +2 +1 0 -1 -2 Muy difcil Difcil No muy difcil Fcil Muy fcil

90

Matemticas, Azar, Sociedad Los resultados, de la calicacin general a los tres textos, obtenidos segn el nivel socioeconmico fueron:
Calicacin segn nivel socioeconmico Alto 0 0 Medio alto -1 -1 -2 Medio bajo -1 0 Bajo 0 +1 +1 +1 +1 -2 -2 -1 0 0 0 +1 +1 +1 +1 +2 -2 0 +1 +1 +1 +1 +1 0 -1 +2 0 0 0 +1 -1 +2 +2 -1 -1 0 0 0 0 0 -2 0 0 -1 -1 0 +1 +1 +1 -1 +2 0 0 -1 0 +1 +1 0 -1 -1 +2 0 +1 +2 0 +1 +2 0 -2 -1 0 -1 +1 0 +1 +1 -1 0 +2 -1 0 0 0 0 -1 0 0 +1 +1 0 0 0 0

a. Cul es el problema de estudio? b. Cul es la muestra de estudio? c. Cules son las variables y de qu tipo son? d. Elabore una tabla de frecuencias para las calicaciones dadas y represente esta informacin con un diagrama de puntos. e. Elabore tablas de frecuencias y diagramas de barras para las calicaciones obtenidas segn los cuatro niveles socioeconmicos considerados en el conjunto de datos presentado. f. Compare los cuatro diagramas y concluya sobre la relacin entre el nivel socioeconmico y el grado de comprensin. g. Puede concluir algo sobre la diferencia entre grado de comprensin y el tipo de texto presentado? Explique su respuesta.

Para terminar

91

Para terminar
En este captulo nos hemos referido slo a algunas de las formas de organizar y representar grcamente la informacin contenida en una muestra. Eso no quiere decir que las que hemos mencionado sean las nicas, o las ms tiles. Lo que ocurre es que la intencin principal de este captulo no es hacer un estudio exhaustivo de todas las formas de representacin grca. El objetivo principal de este captulo es mostrar cmo en las actividades de organizar y representar grcamente los datos obtenidos, se requiere saber qu se quiere hacer, para qu y por qu se quiere hacer, adems de conocer la naturaleza de la informacin, para poder encontrar, de manera natural, a partir de las respuestas que se den a esas preguntas, cmo se pueden hacer. En pocas palabras, el contexto, los objetivos y la naturaleza de los datos determinan la mejor forma de organizar y representar grcamente la informacin.

Medidas de tendencia central

Introduccin
Hasta ahora, para describir un conjunto de datos, se han empleado los diagramas. Estos son tiles para dar rpidamente una visin general del comportamiento de los valores que asume la variable. Incluso en el caso de variables categricas, los diagramas son sucientes para dar una descripcin completa. Sin embargo, para describir el comportamiento de variables cuantitativas, en general, se requiere una mayor precisin que la que puede suministrar un diagrama: es necesario que esa descripcin trascienda los lmites de lo visual y lo subjetivo en cuanto sea posible. Como solucin a la situacin planteada anteriormente, surgen las medidas numricas. Es decir, la descripcin que se quiere hacer de un conjunto de datos numricos se puede llevar a cabo a travs de unos ciertos nmeros que dan cuenta de los aspectos importantes de la distribucin de los datos del conjunto. Ms exactamente, la precisin que es deseable obtener al describir el conjunto de datos numricos se reere a dos aspectos, cada uno de los cuales se puede traducir en una pregunta: Existe algn valor de la variable que represente a la mayora de los valores del conjunto de datos? Qu tan separados estn, entre s, los diferentes valores que asume la variable? La primera pregunta hace referencia a las llamadas medidas de tendencia central y la segunda, a las llamadas medidas de dispersin . En este captulo nos ocuparemos de encontrar algunas de las medidas de tendencia central.

Dilogo
(En clase se da el siguiente dilogo que, de alguna manera, es continuacin del dilogo que tuvieron el profesor y sus alumnos sobre Por qu inventar herramientas.)

Dilogo

93

Profesor: Muchachos, recuerdan las dos medidas que se mencionaron en clase hace algunos das, para describir un conjunto de datos? Tahuro: Profesor, est hablando del conjunto de precios de venta y del conjunto de personas que van a una reunin trimestral? Profesor: Exactamente, Tahuro. A esos ejemplos me estoy reriendo. Cules fueron los valores que en cada uno de esos casos se tomaron como buenos representantes del correspondiente conjunto? Chepa: Yo me acuerdo. Para el problema de los precios se tom el mnimo, y para el de las personas se tom el mximo. Profesor: Pues bien. En la clase de hoy vamos a proponer otras situaciones con el n de encontrar otras medidas que son muy usuales para describir conjuntos de datos numricos. Imaginen esta situacin: una persona que no conoce el reglamento de la universidad quiere tener una idea acerca del nmero de crditos que toman los estudiantes de ciencias sociales de segundo semestre en esta universidad. Para el efecto, recoge un conjunto de datos numricos que se reeren al nmero de crditos que toman 200 alumnos de la correspondiente poblacin. Creen ustedes que el mximo o el mnimo sirvan en este caso para representar el conjunto? Tahuro: Realmente creo que ni el mximo ni el mnimo son buenos representantes en este caso, pues corresponden a situaciones extremas en las que slo unos pocos estudiantes habrn cado. La mayora de los estudiantes de esa poblacin debe estar tomando el nmero regular de crditos sealados en cada programa, por tanto el nmero que se escoja para representar al conjunto debe ser el nmero que aparece con ms frecuencia que los dems. Stadi Shka: Como quien dice... la moda en ese semestre es ponerse 18 crditos. Profesor: Pues, aunque lo digas en broma, moda es el nombre que recibe la herramienta que mejor representa al conjunto de datos al que me estaba reriendo. Veamos otro ejemplo: supongan que sabemos que las calicaciones de Stadi Shka, en los diez quizes que hemos hecho en el curso de matemticas son: 3,8; 4,2; 2,5; 2,8; 3,8; 2,0; 4,2; 3,7; 3,5; 3,3. Si yo tuviera que elegir un nmero para calicar a Stadi Shka, quedara ella conforme si yo escogiera el mnimo del conjunto de sus diez calicaciones?

94

Matemticas, Azar, Sociedad

Stadi Shka: Est loco profesor? Por qu, mejor, no piensa en escoger el mximo? Sera la primera vez en mi vida que yo obtendra una buena calicacin en matemticas. Askanio: Mejor no suees Stadi Shka. Ana Liza: Ahora no vayan a comenzar a pelear. En este caso, creo que es evidente que no es buena idea escoger ni el mximo, ni el mnimo, ni la moda como representante del conjunto de datos. Debemos, entonces, encontrar una herramienta que sea eciente para representar al conjunto de calicaciones y yo creo que es... Profesor: No lo digas an. Vamos a hacer el proceso para descubrir esa herramienta. Si ninguna de las herramientas que hemos inventado hasta ahora es adecuada para representar el conjunto de calicaciones, vamos a buscar una que supere los problemas o limitaciones que tienen aqullas. Por ejemplo, la herramienta que encontremos debe tener en cuenta todos los datos del conjunto y no slo algunos. Stadi Shka: Profesor yo s cul es esa herramienta. Djeme mencionarla. Profesor: No, Stadi Shka. Yo s que todos estn pensando en la herramienta que es; pero, supongamos por un momento que no lo saben, recuerden que lo que nos interesa es el proceso que ustedes deben seguir para descubrir las herramientas que realmente no conocen. Para ello voy a guiarlos en ese descubrimiento con algunas preguntas. Askanio: Cul es entonces la pregunta que va a formularnos? Profesor: Si con base en las diez calicaciones de Stadi Shka que mencion anteriormente, tuviera que dar un nmero que represente el rendimiento de ella en la clase de matemticas, sera adecuado dar el total de la suma de esas diez notas? (Por un momento, todos quedan pensativos.) Stadi Shka: Nunca haba pensado en esa forma de calicar, pero... ahora que usted lo dice, s, creo que s podra calicarse de esa manera y sera ms cmoda: no habra que hacer tantos clculos aburridos.

Dilogo

95

Profesor: S; esa forma de obtener la calicacin denitiva sera bien sencilla. Pero, es necesario determinar si esa herramienta es eciente para asignar calicaciones que deben representar el rendimiento de una persona comparado con el de otras. En este momento yo les aseguro que la suma de todas las notas que tenga una persona en un determinado curso no siempre es una herramienta eciente pues podra no permitir establecer comparaciones entre el rendimiento de dos o ms personas y en ltimas eso es lo que se busca cuando se asignan calicaciones. Ahora, ustedes deben pensar en un ejemplo que aclare lo que estoy armando. Ana Liza: Supongamos que Daniel y Ricardo son alumnos del mismo profesor pero tienen la clase de matemticas a diferentes horas. En el curso en el que est Daniel hicieron cuatro evaluaciones mientras que en el que est Ricardo hicieron cinco. Las notas de Daniel fueron 4,0; 4,2; 4,5 y 4,3; las de Ricardo fueron 3,0; 3,5; 3,8; 4,2; 4,5. Si cualquiera de nosotros debiera determinar cul de los dos muchachos tuvo un mejor rendimiento acadmico, no dudaramos en decir que... Stadi Shka: Daniel! Profesor: Aj! La intuicin nos dice que Daniel; si los calicramos con la suma de sus notas, tendramos que aceptar que fue Ricardo quien tuvo mejor desempeo. En este caso estamos seguros de tener una buena intuicin y entonces tenemos que concluir que lo que creamos que era una buena herramienta para este tipo de situaciones, en realidad no lo es. Estrella: Claro! hay algunas ocasiones en las que s podra servir como una buena herramienta. Si las personas presentaron el mismo nmero de evaluaciones, forzosamente tiene mejor rendimiento aquella para la cual la suma de sus notas sea mayor. Profesor: Aqu quiero mencionar otro de los puntos importantes. Lo que ha dicho Estrella es cierto y con seguridad ustedes lo entienden y lo aceptan, pero una herramienta es ms eciente en cuanto sea ms aplicable a un gran nmero de situaciones anlogas. De manera que cuando nosotros reinventemos una herramienta, tendremos en cuenta esta condicin. An estamos en el problema de encontrar una buena herramienta que se pueda emplear para el propsito mencionado por Ana Liza. Concretamente, cul fue la causa por la cual no sirvi la suma de las notas como una herramienta sucientemente universal?

96

Matemticas, Azar, Sociedad

Estrella: Que el nmero total de calicaciones no es el mismo. Profesor: Perfecto! Por tanto, el problema de la particularidad de la herramienta debera quedar resuelto si la herramienta misma tiene en cuenta ese factor. Estrella: S, yo creo que no debe importar cuntas evaluaciones haga, sino el desempeo acadmico del estudiante. Askanio: Muy bien, pero cmo se determina el desempeo acadmico al que tu te reeres? Estrella: Vemoslo con un ejemplo. Si en tres evaluaciones, las calicaciones de Askanio son, por ejemplo, 4,0; 4,0; y 4,0 es razonable calicarlo globalmente con 4,0. Si las tres calicaciones de Tahuro son 2,5; 4,5; y 5,0 entonces se tendra que: (Estrella escribe en el tablero.)
notas Askanio notas Tahuro diferencia 4,0 2,5 1,5 4,0 4,5 -0,5 4,0 5,0 -1,0

por un lado, en la primera evaluacin Askanio le lleva a Tahuro una ventaja de 1,5; en la segunda, es Tahuro quien tiene una ventaja sobre Askanio de 0,5; y en la tercera, tambin es Tahuro quien tiene una ventaja de 1,0 sobre Askanio; de modo que al nal de cuentas ninguno aventaja al otro, por tanto, si la calicacin de Askanio es 4,0 tambin lo ha de ser la de Tahuro. Chepa: Ya veo; el desempeo acadmico que se reeja en la calicacin global se basa en hacer de cuenta que el alumno no tuvo altibajos en sus calicaciones, o sea, en suponer que en todas las evaluaciones obtuvo la misma calicacin. Stadi Shka: Claro! Y eso se logra repartiendo la suma de todas las calicaciones entre el nmero de calicaciones obtenidas. Profesor: Pues bien. Hemos descubierto la herramienta que estbamos buscando; es el promedio o lo que, normalmente, llamaremos la media. Aunque el concepto es intuitivo y sencillo, pues slo se requiere sumar los datos y dividir por el nmero de datos, me parece interesante que utilicemos este ejemplo

Dilogo

97

de herramienta para encontrar una frmula que la represente y de esa manera ustedes se den cuenta de que la frmula no es ms que una forma reducida de escribir o describir la herramienta. A alguien se le ocurre una idea? Chepa: A m se me ocurre, profesor. Por ejemplo, tomemos el caso de... Profesor: No Chepa. Si lo que estamos buscando es la frmula para la herramienta, no nos sirve describirla con un ejemplo. Necesitamos una forma de describirla que sea aplicable a todos los casos posibles y no slo a un ejemplo particular. Stadi Shka: A m me da la impresin de que el problema es encontrar una forma general de identicar los elementos que intervienen en la herramienta. Y en este caso, afortunadamente, no hay sino dos elementos: los datos y el nmero de datos. Profesor: Exacto. Se les ocurre alguna manera general de representarlos? Tahuro: Para el nmero de datos, el problema me parece sencillo. Como es un nmero, lo podemos representar por una letra. Por ejemplo, n. Se tiene entonces que n representa el nmero de datos y como estamos en el caso general, n representa cualquier nmero entero no negativo. Chepa: Ah! Ahora s entiendo qu quera decir el profesor cuando me pidi que no explicara la cuestin por medio de un ejemplo. Pero, aun as me queda un poco complicado imaginarme cmo podemos representar de manera general el conjunto de datos. Para comenzar, no sabemos cuntos son. Stadi Shka: Claro que sabemos cuntos son, Chepa: son n. Creo que tenemos que representarlos tambin por medio de letras. Sin embargo, veo que tenemos un problema y tal vez a eso te referas t, Chepa. No podemos representarlos por letras cualesquiera como A, B, C, etc. porque como no sabemos exactamente cuntos son, no sabemos cundo tendramos que acabar de hacer la lista. Tahuro: Pero para eso hay una solucin. Utilicemos una misma letra y a cada dato lo diferenciamos con una marca, con un nmero. De esa forma, podramos hablar del primer dato, del segundo dato, del tercer dato, y as sucesivamente hasta el ensimo dato que sabemos que es el ltimo. Chepa: Este Tahuro, cuando le da, le da. Qu genio! Ahora s entiendo. Pode-

98

Matemticas, Azar, Sociedad

mos representar los datos, sencillamente, por x1, el primero; x2, el segundo; x3, el tercero, y, as sucesivamente, hasta llegar al ensimo que lo representaramos por xn. Profesor: Muy bien Chepa. Ves que la cosa no es tan difcil? Pero, ustedes no han respondido la pregunta que les hice. Cmo podemos representar la media de un conjunto de datos con una frmula? Estrella: Profesor, a m se me ocurre una especie de frmula, pero como no tiene smbolos matemticos, no s si realmente sea una frmula. Profesor: A ver Estrella, qu se te ocurre? Estrella: Pues a m se me ocurre que uno podra decir que: media = suma de todos los datos dividida por el nmero de datos. O lo que es lo mismo, para resumir la cosa: media = suma de todos los datos nmero de datos

Tahuro: Sin embargo, fjate Estrella que ya tenemos unas maneras de resumir lo que ests diciendo. Por ejemplo, sera lo mismo decir: media = suma de todos los datos n

Stadi Shka: De acuerdo Tahuro. Pero podemos resumir an ms. Podramos escribir: media = ---------------------------------n Chepa: Un momento! Me acabo de acordar de un smbolo que vimos al principio del curso de matemticas. Y creo que sirve aqu como medio para resumir an ms la cosa. Miren, yo creo que la frmula es:
1 media = -n x +x +x 1 2 n

i=1

xi

Dilogo

99

Profesor: Muy bien, muchachos. Ahora consideren la siguiente situacin. Carlos, un estudiante de la Universidad, entra a una librera para averiguar los precios de siete libros que debe comprar. Los precios son $7.200, $6.500, $7.300, $6.000, $6.000, $8.000 y $18.900. Cuando llega a su casa le dice a su pap que en promedio cada libro vale $8.557. Ustedes qu opinan de la armacin de Carlos? Stadi Shka: Un momento, profesor. Ya casi tengo el promedio. S, Carlos tiene razn. Askanio: Profesor, reptame los precios, quiere? Profesor: Mira, son: $6.000, $6.000, $6.500, $7.200, $7.300, $8.000 y $18.900. Askanio: Me parece raro tener que aceptar que el precio promedio de cada libro sea $8.557. Pero, en n, si ustedes lo aseguran. Ana Liza: Un momento, Askanio. No cerremos este asunto tan rpido. Yo estoy de acuerdo contigo: a pesar de que el valor que calcul Stadi Shka es correcto, creo que en este caso no tiene sentido emplear el promedio para representar a todos los elementos del conjunto. En realidad, $8.557 no representa a ninguno de los diferentes valores del conjunto de los siete precios. Por tanto, opino que la armacin que hizo Carlos es cierta, pero carece de sentido en el caso dado. Profesor: Lo que han dicho Askanio y Ana Liza es muy cierto. Observen qu caractersticas tienen los valores de ese conjunto de precios y traten de determinar cules son las razones por las cuales no es adecuado en ese caso, hablar de promedio. Tahuro: Puede ser porque hay pocos datos, slo hay dos iguales y la diferencia entre algunos de ellos es grande; en particular la diferencia entre el mayor y el menor es enorme. Adems, el valor mximo es un valor raro en el conjunto. Chepa: Bueno. Y, en casos como este en el que ni la moda ni la media aritmtica son valores adecuados para representar el conjunto, se puede encontrar alguna otra medida que permita dar alguna idea de lo que ocurre en el centro de la distribucin? Profesor: En casos como ese, podramos recurrir entonces, a determinar cul es el dato central del conjunto; es decir, despus de haber ordenado los datos

100

Matemticas, Azar, Sociedad

de menor a mayor, podramos escoger aquel valor del conjunto antes del cual y despus del cual hay igual cantidad de datos. Askanio: En el caso que estamos analizando, ese nmero es $7.200. Verdad? Ana Liza: S, y como medida que est en el centro del conjunto expresa que en dicho conjunto hay tantos valores menores que 7.200 como valores mayores que 7.200. Askanio: Y, aunque ese valor no represente muy bien al conjunto de los precios en el que estamos interesados, de todas maneras, s es ms representativo del conjunto que la moda y que la media aritmtica. Stadi Shka: Y, qu nombre recibe esa herramienta? Profesor: La mediana del conjunto. Hasta aqu dejamos por hoy. Adis muchachos.

a. Explique qu entiende por medidas de tendencia central. b. Nombre las medidas de tendencia central presentadas en el dilogo, defnalas y d un ejemplo en el que sea pertinente emplear cada una de ellas. c. Si la variable es categrica, tiene sentido calcular alguna de las medidas de tendencia central? Cul? Explique su respuesta. d. Las calicaciones de Estrella en el curso de estadstica estn dadas en el siguiente conjunto: {3,5, 4,5, 3,2, 4,5, 3,8, 4,2, 4,2, 4,2}. Para dicho conjunto, calcule la media aritmtica, la mediana y la moda. Cul de esas tres medidas es la ms representativa en este caso? Explique su respuesta. e. Si tiene que calcular la mediana de un conjunto que tiene un nmero par de elementos, cmo hace el clculo? D un ejemplo. f. Considere el conjunto {1, 2, 3, 4, 5, 6, 7, 8, 9} como la poblacin de datos de un cierto estudio. De esa poblacin, obtenga diez muestras aleatorias de tamao 5 (suponga que puede construir las muestras con sustitucin y con orden). Segn eso, {1, 1, 1, 2, 3} es una de tales muestras y adems esa muestra

Un resumen

101

es diferente de {1, 3, 2, 1, 1}. Para cada una de esas diez muestras obtenga la media aritmtica, la mediana y la moda. Con base en esas repuestas diga cul de las tres medidas de tendencia central tiene mayor variacin de muestra a muestra.

g. Suponga que la distribucin de una variable es tal que su media aritmtica, su mediana y su moda son el mismo valor. Qu caracterstica debe tener la grca de esa distribucin? Para dar su respuesta recurra a ejemplos en los cuales se cumplan la condiciones que se estn imponiendo. Una vez que los tenga, haga las correspondientes grcas y con base en ellas d su respuesta. h. Explique qu signica para usted la siguiente armacin: La media aritmtica es una medida muy sensible a los valores muy grandes o muy pequeos. i. Si para dos muestras de datos sacadas de la misma poblacin de datos, usted conoce las correspondientes medias aritmticas, puede a partir de ellas calcular la media aritmtica del grupo que rene a las dos muestras? Cmo? j. Responda la pregunta anterior para el caso de la mediana y para el caso de la moda.

Un resumen
El problema central que motiva el desarrollo de este captulo es la necesidad de describir, objetivamente y de manera ms o menos sencilla, un conjunto de datos numricos. Para hacer esa descripcin hemos recurrido a denir unas ciertas medidas que contribuyen a dar la imagen de la correspondiente distribucin porque determinan valores especiales del conjunto. Tales medidas se llaman medidas de posicin. Y, ese nombre es muy signicativo: esas medidas sealan valores de la distribucin que se destacan de los dems por el lugar que ocupan dentro de ella.

102

Matemticas, Azar, Sociedad

Es as como dos de esas medidas que no fueron mencionadas en el dilogo de este captulo por estar ya presentadas en el captulo titulado Qu vamos a hacer y cmo lo vamos a hacer? son el mnimo y el mximo del conjunto. Aunque esas dos medidas son muy sencillas y no aportan mucho a la descripcin del conjunto de datos, de todas maneras son tiles por cuanto sealan cules son los valores extremos entre los cuales se encuentran todos los posibles valores de la variable. Adems de esas dos medidas de posicin, estn las medidas de tendencia central. Son valores de la variable alrededor de los cuales se agrupan gran cantidad de valores de la variable; son valores especiales por diferentes razones. Por ejemplo, la moda es especial porque es el valor de la variable que aparece con ms frecuencia en la distribucin. La mediana es especial porque es el valor de la variable que est en el centro del conjunto cuando los datos se han dispuesto de menor a mayor. Ms formalmente se pueden establecer las siguientes deniciones: La moda de un conjunto de datos es el valor observado con mayor frecuencia. La mediana de un conjunto de n datos es el valor que est ubicado en el centro, cuando se han ordenado los datos de menor a mayor o viceversa y si n es un nmero impar. Si n es par, la mediana es el promedio de los dos valores ubicados en el centro de la distribucin. La media aritmtica o simplemente la media de un conjunto de datos es la suma de los datos dividida por la cantidad de datos
1 del conjunto. Es decir, media = -n

i=1

xi

En este punto del desarrollo del texto conviene denir dos conceptos fundamentales: parmetro y estimador de parmetro. Los parmetros son valores que se reeren a poblaciones, en tanto que los estimadores de parmetros son valores que se reeren a las muestras. As, por ejemplo, si P = {1, 2, 3, 4, 5} es una poblacin y M = {2, 2, 4, 5} es una muestra extrada de P, con sustitucin, se tiene que: (1 + 2 + 3 + 4 + 5)/5 = 3, la media de la poblacin P es un parmetro

Un resumen (2 + 2 + 4 + 5)/4 = 3,25, la media de la muestra M es un estimador de la media de la poblacin

103

Aunque la esencia del concepto es la misma en el caso de la media de la poblacin que en el caso de la media de una muestra, en estadstica se requiere distinguir los dos valores y ese hecho se reeja en la notacin empleada. En trminos generales, los parmetros se denotan con letras griegas y los estimadores de parmetros con letras de nuestro alfabeto. Particularmente, la media de la poblacin se designa con el smbolo y la media muestral se designa con el smbolo x .

Algunas consideraciones generales sobre la media, la mediana y la moda


La moda es la nica medida que sirve tanto para el caso de variables categricas como para variables cuantitativas, puesto que su denicin no exige ni ordenar los valores de la variable, ni hacer operaciones matemticas con ellos. Por ejemplo, si se est trabajando la distribucin de la variable nacionalidad para un determinado conjunto de personas, no tiene ningn sentido hablar del promedio o de la mediana de esa distribucin; en cambio s tiene sentido hablar de la moda. Si se trabaja la distribucin de una variable cuantitativa, en principio, tiene sentido calcular la media, la moda, y la mediana; pero, para efectos prcticos, puede no tenerlo. Entonces, hace falta desarrollar un cierto criterio para decidir en casos particulares, cul es la mejor medida de tendencia central. Ese criterio est relacionado con por lo menos dos factores: en primer lugar, tiene que ver con los objetivos que hay detrs del estudio que se est realizando. En segundo lugar, tiene que ver con los datos mismos: qu tan homogneos son, qu tan tpicos son, etc. Con respecto a lo expuesto anteriormente, con frecuencia, si la moda y la media de una distribucin dieren mucho, es preferible usar la moda que la media. La media es muy sensible a valores extremos muy grandes o muy pequeos. Esto quiere decir que si en la distribucin hay valores evidentemente atpicos, la media no necesariamente es un buen representante de todos los datos. En cambio, la mediana no es sensible a valores extremos muy grandes o muy pequeos. En realidad, su denicin es independiente del valor mismo de los datos. La moda tampoco es sensible a valores extremos muy grandes o muy pequeos, a menos de que tales cambios afecten su propio valor.

104

Matemticas, Azar, Sociedad

Ejercicios
1.- Se sabe que en un municipio de la Sabana de Bogot, Cota, hay un potencial electoral de 13.875. Unos estudiantes de Ciencia Poltica desean saber cul es el promedio de edad de los votantes en dicho municipio, cul de las edades es la que presenta mayor auencia a las urnas el da de las elecciones. Esto con el propsito de determinar cul es la edad de los votantes que con mayor frecuencia elige a sus representantes. Los estudiantes obtuvieron los siguientes datos: de 9.680 personas que votaron las pasadas elecciones presidenciales (mayo de 1990) se tom una muestra de 100 personas, teniendo en cuenta su edad dentro del proceso electoral. El registro de las edades de esas personas se da a continuacin:
18 19 24 45 63 29 29 18 21 23 41 38 39 53 23 21 44 61 35 28 27 20 26 20 35 46 50 44 19 20 34 35 41 48 32 70 65 24 23 34 20 21 19 19 47 27 23 23 43 47 71 29 33 36 20 23 32 21 39 21 19 37 21 43 33 40 18 20 24 37 43 18 21 19 26 32 45 29 55 34 40 30 19 40 30 61 28 19 20 19 21 37 20 30 24 52 18 18 34 27

a. Identique la poblacin de estudio y la muestra de estudio. b. Cul es la variable que se quiere medir? De qu tipo es? c. Elabore una tabla de frecuencias para organizar la informacin y con base en ella haga un diagrama que le permita mostrar claramente cul es la edad con mayor nivel de votacin. d. Cul es la medida de tendencia central ms apropiada para el estudio de los politlogos? Explique su respuesta. 2.- Se realiz una investigacin para conocer por cul de las listas de la pasada eleccin a Asamblea Nacional se inclinaron ms los estudiantes de la Universidad X de Bogot. Se tom una muestra de 50 estudiantes de diferentes

Ejercicios

105

carreras y cada uno de ellos dio el nmero de la lista por la cual vot. Haba 118 listas inscritas. Se encontraron los siguientes resultados:
09 113 09 24 90 24 113 24 36 27 02 24 90 90 32 09 09 38 36 73 09 24 113 24 90 27 99 09 13 32 09 09 113 38 90 113 24 09 24 90 02 90 90 09 24 09 09 24 90 09

a. Identique la poblacin del estudio y la muestra de estudio. b. Cul es la variable que se est midiendo y de qu tipo es? c. Haga una tabla de frecuencias que represente la informacin dada. Elabore una grca que muestre claramente cul es la lista con mayor votacin. d. De las medidas de tendencia central, cul considera usted que sea la ms apropiada para observar por qu lista se inclin la mayora de los estudiantes? Explique por qu y calclela. e. Tiene sentido calcular las otras medidas de tendencia central? Por qu? 3.- En un experimento con la caja de Skinner, una rata debe oprimir una palanca un determinado nmero de veces para recibir comida. Se someti a una rata a diez sesiones en la caja de Skinner y se obtuvieron los siguientes resultados:
Sesin # respuestas 1 53 2 67 3 52 4 76 5 58 6 63 7 49 8 62 9 84 10 75

a. Identique la poblacin de estudio y la muestra. b. Cul es la variable que se est midiendo? c. Qu objetivos podra tener el estudiante al realizar el experimento? d. Haga una tabla de frecuencias despus de haber agrupado los datos en cinco grupos: 40-49, 50-59, etc.

106

Matemticas, Azar, Sociedad e. De acuerdo a la tabla anterior haga un histograma. f. Qu medida de tendencia central podra ser la mejor para describir los resultados obtenidos?

4.- Ana Liza investiga el precio de cierto artculo en veinte almacenes de Bogot y encuentra la siguiente informacin: (en pesos)
82 60 60 68 60 74 74 74 87 87 74 68 82 74 74 68 82 68 82 82

a. Cul es la variable que est investigando Ana Liza? De qu tipo es? b. Presente una tabla de distribucin de frecuencias. c. Haga un diagrama de puntos para representar la distribucin. d. Calcule tres medidas de tendencia central que describan la distribucin. Cul de ellas es ms representativa en este caso? e. Agrupe los datos en seis clases (todas del mismo tamao) y represente grcamente esa informacin. 5.- De 400 estudiantes cuya estatura media es 1,57 metros, 250 son mujeres. Si la estatura media de las mujeres es 1,54 metros, cul es la estatura media de los hombres? 6.- Enuncie un problema para el cual la media aritmtica de los datos sea cero. 7.- Las calicaciones de los alumnos de un curso de estadstica en el examen nal se presentan en la siguiente tabla de frecuencias agrupadas:
Clase [1,5, 2,0) [2,0, 2,5) [2,5, 3,0) [3,0, 3,5) [3,5, 4,0) [4,0, 4,5) [4,5, 5,0] Frecuencia 3 6 8 15 12 7 4

Ejercicios a. Haga un diagrama que represente la distribucin de la variable.

107

b. Cuntas clases se denieron? Cuntos alumnos presentaron el examen? c. Invntese una manera de calcular la calicacin promedio. (Tenga en cuenta que hay siete clases pero no siete alumnos: hay muchos ms. Adems, por ejemplo, slo tres de ellos obtuvieron nota inferior a 2,0, mientras que doce de ellos sacaron calicacin no inferior a 3,5 e inferior a 4,0). Observe que usted sabe, por ejemplo, que hay ocho alumnos cuya calificacin est en
el intervalo [2,5, 3,0), pero no sabe exactamente cul fue la calificacin de cada uno de ellos. Por tanto, tiene que elegir una calificacin que represente esas ocho calificaciones.

d. Invntese una manera de calcular la calicacin mediana y la moda. Encuentre esas medidas. 8.- Las diferencias en la riqueza del lenguaje de nios en edad escolar pueden ser estudiadas desde el punto de vista sociolingstico, es decir, introduciendo factores sociales en la explicacin de fenmenos lingsticos. Un estudio realizado en una escuela pblica de Baltimore (EUA), sobre el porcentaje de verbos utilizados por veinte nios blancos y veinte nios negros en conversaciones de 30 minutos, arroj los siguientes resultados:16
Nios blancos % de verbos 19,4 20,0 22,5 23,2 26,7 28,1 28,7 16 frecuencia 1 2 1 2 2 5 1 Nios negros % de verbos 12,0 13,9 14,3 15,0 18,6 20,6 23,7 frecuencia 1 2 2 4 2 2 2

Datos tomados de Entwisle, Doris. Developmental Sociolingistics: Inner-city Children. Advances in the Sociology of Language, Joshua Fishman ed. Paris: Mouton Publishers, 1972, p.438. Los datos corresponden al porcentaje de verbos empleados por el nio, sobre el total de palabras de su conversacin.

108
Nios blancos % de verbos 29,8 31,8 34,4 frecuencia 2 3 1

Matemticas, Azar, Sociedad


Nios negros % de verbos 24,5 29,0 30,0 frecuencia 2 2 1

a. Cules variables considera la investigacin? De qu tipo son? b. Compare el comportamiento de la variable en cada grupo por medio de histogramas. (Recuerde que la comparacin slo tiene sentido si hay uniformidad de escalas, nmero de clases y tipo de frecuencia en los histogramas que se van a comparar.) c. Los investigadores arman que los nios blancos de la muestra tienden a usar frecuentemente mayor cantidad de verbos al expresarse que los nios negros. Compruebe esta hiptesis, ayudndose con la medida de tendencia central que usted crea ms relevante para la hiptesis. Justique su respuesta. d. El rector de la escuela estudiada arm que no haba diferencia entre el uso promedio de verbos por nios blancos y por nios negros de la muestra. Es verdadera la armacin del rector? Justique. e. Qu factores (sociales, de la investigacin misma, etc.) inuyen en las posibles diferencias entre los dos grupos de estudio? f. Qu validez tiene comparar estos dos grupos de nios? Piense en sus costumbres, su lenguaje, su status social, etc. 9.- La inuencia de los medios de comunicacin sobre el hombre moderno es un elemento importante en el anlisis de los cambios y variaciones que presenta una lengua en un contexto social determinado. Con el n de estudiar el inujo de la televisin en la adopcin de expresiones o formas lingsticas incorrectas, se realiz una investigacin que comparaba el lenguaje usado en los cinco programas de T.V. de mayor rating entre jvenes de 15 a 20 aos con el lenguaje de 60 jvenes pertenecientes a este grupo de edad. Para esto, se realizaron entrevistas de 1 hora y se contaron las palabras y expresiones propias de los personajes de T.V. usadas por los jvenes en cuestin. Los resultados arrojados por los corpora son:

Ejercicios

109

10 22 20 20 27 20

15 20 21 21 29 31

8 21 35 22 30 16

2 25 40 23 33 8

9 28 42 41 27 40

10 30 45 38 20 43

15 31 33 20 19 41

22 30 25 19 20 20

25 29 22 20 34 25

30 17 20 18 20 23

a. Cules son los corpora de la investigacin? b. La investigacin planteaba como una de sus hiptesis que existe una inuencia de la T.V. sobre el lenguaje si el promedio de palabras o expresiones iguales era ms de 30. Con los datos disponibles verique la hiptesis. c. Se esperaba que de las 50 palabras y expresiones encontradas en el corpus obtenido de los cinco programas de T.V., al menos veinte fueran usadas por el 35% de las personas entrevistadas para que se pudiera pensar que existe inuencia de la T.V. en el lenguaje. Los resultados obtenidos conrman la hiptesis?

Medidas de dispersin

Introduccin
En el captulo anterior se denieron tres medidas que permiten indicar la ubicacin del centro de una distribucin y que, por tanto, contribuyen a la descripcin del correspondiente conjunto de datos. Pero, para lograr una imagen completa de cmo es la distribucin que se est describiendo, es necesario saber cmo se distribuyen los datos. Retomamos, entonces, la segunda pregunta formulada al inicio del captulo anterior: Qu tan separados estn, entre s, los diferentes valores que asume la variable? El objetivo principal de las actividades que se hagan en este captulo ser encontrar una forma adecuada de responder a tal pregunta, es decir, encontrar una buena manera de medir esa dispersin.

El rango

Considere la siguiente situacin. En dos secciones del curso de estadstica se aplic el mismo examen, pues se quiere comparar el desempeo de las dos secciones. Las calicaciones obtenidas por los dos grupos se muestran en los siguientes histogramas. a. Observe los diagramas correspondientes a la distribucin de frecuencias de las calicaciones de cada seccin y, con base en esa observacin, determine si alguna de las secciones tuvo mejor desempeo que la otra. Le doy una ayuda: yo preferira ser uno de los que present el examen en la seccin 1. Explique su respuesta.

El rango Grfica 1 Desempeo de la seccin 1 10

111

Frecuencia

2 3 4 Grfica 2

Clases

Desempeo de la seccin 2 10

Frecuencia

5 4

1 2 3 4 5

Clases

b. Sirve, para comparar las dos distribuciones, emplear la media de cada una de ellas? Por qu? Qu signica, en trminos de desempeo, que la media de los dos conjuntos de datos sean iguales? c. Por qu, a pesar de que la media de las dos distribuciones es la misma, ellas no reejan que las dos secciones del curso hayan tenido el mismo

112

Matemticas, Azar, Sociedad rendimiento en el examen? En cul de las dos secciones, los estudiantes tuvieron un desempeo ms uniforme?

Si usted contest que los estudiantes de la seccin 1 tienen un desempeo ms uniforme que los de la seccin 2, eso signica que usted ha notado que lo que diferencia a los dos diagramas es la dispersin de los datos. Dicho de otra manera, las calicaciones de la seccin 2 presentan ms variabilidad que las de la seccin 1. El diagrama que representa la situacin de la seccin 2 muestra que las calicaciones son ms dispersas; es decir, que el desempeo del curso no fue tan homogneo, como en el caso de la seccin 1, para el que el diagrama resulta ms compacto. Ahora intentemos descubrir una herramienta para medir esa dispersin. d. Halle las notas mxima y mnima obtenidas en cada una de las dos secciones. Utilice el valor mximo y el mnimo de una distribucin para inventar una herramienta que le permita argumentar por qu la dispersin de los datos de la seccin 2 es mayor que la dispersin de los datos de la seccin 1. Note que los datos de la seccin 2 se encuentran ms dispersos, puesto que la nota mnima obtenida en la seccin 2 es menor que la nota mnima de la seccin 1, y adems, la nota mxima obtenida en la seccin 2 es mayor que la nota mxima de la seccin 1. En otras palabras, las notas de la seccin 2 varan en un intervalo ms grande de valores. En este caso es muy fcil encontrar una medida que permita medir y comparar la dispersin de los datos de los conjuntos. Tal medida se llama rango y se dene as: El tamao del intervalo en el cual varan los elementos de un conjunto de datos numricos es lo que se conoce con el nombre de rango y se dene como la diferencia entre el mayor y el menor valor de dicho conjunto. e. Cree usted que el rango le sirve para comparar ecientemente la dispersin entre los elementos de cualquier par de conjuntos? Busque un caso en el que el rango no le sirva para medir y comparar la dispersin de dos conjuntos de datos. Se ha encontrado una herramienta fcil de calcular para medir la dispersin de los datos. Pero, es universal? Es decir, sirve para medir la dispersin en todos los casos? Veamos el siguiente ejemplo, usando datos de calicaciones de un examen:

El rango Grca 3 Calicaciones de la seccin 1 10 Frecuencia 6

113

2 1.5 3.0 Clases 4.5

Grca 4 Calicaciones de la seccin 2 10 6

Frecuencia

1.5 2.0 3.0 4.0 4.5

Clases

f. Cul grca, reeja mayor dispersin de los datos? En otras palabras, en cul curso cree usted que fue menos homogneo el desempeo de los estudiantes? Justique su respuesta. g. Calcule el rango para cada uno de los conjuntos de datos. Sirve, en este caso, el rango para comparar adecuadamente la dispersin? Por qu? Se ha visto que, en este caso, el rango es el mismo para las dos distribuciones de calicaciones. Por otro lado, tenemos que aceptar que la dispersin de los dos conjuntos no es la misma. La distribucin de las calificaciones de la seccin 1 es menos dispersa que la de las calificaciones de la seccin 2. Por tanto, en este caso el rango es un

114

Matemticas, Azar, Sociedad

nmero que no reeja las diferencias que, segn la intuicin y la observacin, son evidentes entre las dos distribuciones. Y, esa situacin nos exige seguir buscando una medida de dispersin que supere las limitaciones que tiene la que hemos encontrado. h. Retome la denicin de rango y determine cul es la causa por la cual sta no es una buena medida de la dispersin de todos los datos de la distribucin. Se ha encontrado que un problema que presenta la denicin del rango como medida de la dispersin de un conjunto de datos es que depende exclusivamente de dos de los datos del conjunto y en cambio, la dispersin depende de todos los datos de la distribucin. Descubramos, pues, una herramienta que tenga en cuenta todos los datos.

La varianza y la desviacin estndar


Es claro que se necesita inventar una herramienta ms na, que remedie la deciencia del rango; es decir, una herramienta que tenga en cuenta todos los valores del conjunto y no slo los valores extremos. Pero, cmo medir la dispersin con una herramienta que verdaderamente represente la sensacin de dispersin? Note que la dispersin de los datos se reeja en que las grcas resultan concentradas en pocos valores. A menor dispersin, los datos se encuentran concentrados en pocos valores, como se observa en los diagramas de barras de la siguiente pgina.

a. Suponga que, para cada una de las situaciones representadas en las grcas siguientes, se va a realizar lo siguiente: primero, calcular, para cada valor, la distancia que hay de l a un dato jo; segundo, sumar esas distancias; y, tercero, emplear dicho resultado como medida de dispersin de la correspondiente distribucin. Qu relacin hay entre esas sumas de distancias? Es decir, en qu caso resultar mayor esa suma de distancias?

La varianza y la desviacin estndar Grca 5 8

115

Frecuencia 1 1.5 8 3.0 Grca 6 4.5 Valores Frecuencia 3

1.5

2.0

3.0

4.0 4.2 4.5

Valores

b. Generalizando la respuesta a la pregunta anterior, qu relacin hay entre la suma de distancias a un dato jo para una distribucin muy dispersa y la correspondiente suma de distancias para una distribucin menos dispersa? En este momento debe ser claro, que para medir la dispersin de un conjunto de datos, es necesario tener en cuenta la distancia que hay de cada uno de los datos del conjunto a otro dato, que se va a tener como referencia. El problema consiste en determinar cul es la mejor referencia. Veamos si conviene que el mnimo sea tal referencia.

116

Matemticas, Azar, Sociedad c. Considere cada una de las siguientes distribuciones: Distribucin 1: 1, 2, 3, 4 Distribucin 2: 5, 6, 7, 8 Alguna de las dos distribuciones es ms dispersa que la otra? Por qu? d. Halle el mnimo de cada una de las dos distribuciones y calcule la distancia que hay de cada uno de los datos de la primera distribucin al mnimo de dicha distribucin (diferencia entre un valor de la distribucin y el mnimo de la misma) y haga la suma de esas distancias. Tambin calcule la suma de las distancias que hay de cada uno de los datos de la segunda distribucin al mnimo de la misma. (D su respuesta completando la siguiente tabla.)
Distribucin 1 mnimo =
valor valor - mnimo valor

Distribucin 2 mnimo =
valor - mnimo

suma de diferencias

e. Corroboran los nmeros que encontr en el item anterior su intuicin con respecto a la dispersin de las dos distribuciones que estamos analizando? Es decir, se puede pensar que la suma de distancias de cada uno de los valores de la distribucin al mnimo de la distribucin es una buena medida de la dispersin? f. Ahora, considere las dos distribuciones siguientes: Distribucin 3: 1, 4, 6, 9 Distribucin 4: 1, 1, 2, 3 Cul de las dos distribuciones es ms dispersa? Por qu? g. Emplee el mismo criterio que se utiliz en el item d.-, para hallar nmeros que permitan comparar la dispersin de las dos distribuciones. (D su respuesta completando la siguiente tabla.)

La varianza y la desviacin estndar

117

Distribucin 3 mnimo =
valor valor - mnimo

Distribucin 4 mnimo =
valor valor - mnimo

suma de diferencias

Al usar ese criterio, se corrobora su intuicin? h. Considere la distribucin: Distribucin 5: 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4 Haga el diagrama de las distribuciones 1 y 5. Intuitivamente, alguna de esas dos distribuciones es ms dispersa que la otra? Cul? i. Emplee el mismo criterio que se utiliz en el item d.-, para comparar la dispersin de las dos distribuciones 1 y 5. Se corrobora su intuicin? Observe que aunque las distribuciones tienen la misma dispersin, el criterio que venamos utilizando y que pareca ser un buen criterio para medir y comparar la dispersin de dos conjuntos, arroja una informacin que en este caso no sirve, pues es contrario a la evidencia. Por tanto, la suma de todas las distancias de los datos de un conjunto al mnimo no constituye una buena herramienta para medir la dispersin pues no es universal. j. Comente la validez de esta armacin: La medida de dispersin denida anteriormente no sirve porque no tiene en cuenta el nmero de datos. Considere entonces otro criterio para medir la dispersin: primero, se calcula la distancia de cada uno de los datos de la distribucin al mnimo de dicha distribucin; segundo, se hace el promedio de dichas distancias; y tercero, se emplea ese resultado como medida de la dispersin de los datos de la correspondiente distribucin.

118

Matemticas, Azar, Sociedad k. Utilice este nuevo criterio para medir la dispersin de las distribuciones 1 y 5. Y, comente la bondad de este criterio. (D su respuesta empleando una tabla como la siguiente.)
Distribucin 1 mnimo =
valor valor - mnimo valor

Distribucin 5 mnimo =
valor - mnimo

suma de diferencias promedio de diferencias

l. Considere las siguientes distribuciones: Distribucin 6: 1, 5, 6, 7, 8 Distribucin 7: 1, 2, 3, 4, 8 Intuitivamente, alguna de las dos distribuciones es ms dispersa que la otra? Utilice el ltimo criterio denido, el promedio de las distancias de cada uno de los datos de la distribucin al mnimo de la misma para medir la dispersin de las distribuciones 6 y 7 y compararlas. Se corrobora su intuicin? Cul es el problema? Emplee una tabla como la siguiente:
Distribucin 6 mnimo =
valor valor - mnimo valor

Distribucin 7 mnimo =
valor - mnimo

suma de diferencias promedio de diferencias

Debe ser claro que la ltima medida de dispersin que hemos denido tampoco es una buena herramienta para comparar la dispersin de dos distribuciones pues depende de qu tan alejado est el mnimo del resto de los datos de la distribucin. Por tanto, an no hemos encontrado cul es la mejor referencia con respecto a la cual debemos medir las distancias.

La varianza y la desviacin estndar

119

m. Sugiera cul es una buena referencia con respecto a la cual se deban medir las distancias, para obtener una medida de dispersin. Puesto que la media de una distribucin es, en trminos generales, un buen representante de la distribucin, resulta natural pensar que la referencia que hemos estado buscando es esa medida. Bien, entonces denamos ahora como medida de dispersin el promedio de las distancias (diferencias entre los valores de la distribucin y la media de la misma) de cada uno de los datos de la distribucin a la media de la distribucin. n. Para cada una de las distribuciones 1, 5 y 6 emplee la denicin dada anteriormente para medir y comparar la dispersin de los datos de cada una de las tres distribuciones.
Ditribucin 1 media =
valor valor - media valor

Distribucin 5 media =
valor - media

Distribucin 6 media =
valor valor - media

suma de diferencias promedio de diferencias

Le sorprende el resultado? En qu consiste y cmo se puede resolver el problema que hemos encontrado al denir as la medida de la dispersin? Usted debi encontrar que el problema reside en que los valores positivos (que corresponden a los datos por encima de la media) se anulan con los valores negativos (que corresponden a los datos por debajo de la media). En otras palabras, no se est haciendo el promedio de verdaderos valores de distancia. o. Cmo lograr que todas las diferencias sean positivas? Como lo que nos interesa es la distancia de cada valor a la media, debemos obtener valores positivos (recuerde que no existen distancias negativas). Una posible manera de obtener valores positivos es elevar al cuadrado cada una de las diferencias obtenidas. (La otra forma es trabajar con el valor absoluto de las diferencias; sin embargo, no tomaremos ese camino.) Y, entonces, se puede

120

Matemticas, Azar, Sociedad

pensar en denir una herramienta que mida la dispersin de una distribucin, como el promedio de los cuadrados de las diferencias de cada uno de los datos a la media de la distribucin. p. Verique que al emplear esta ltima herramienta para medir y comparar la dispersin de cualquier par de distribuciones de las dadas anteriormente, el resultado que se obtiene corrobora la intuicin correspondiente. Para ello compare las distribuciones 5 y 6.
Distribucin 5 media =
xi xi - media (xi media)2 xi

Distribucin 6 media =
xi - media (xi - media)2

promedio de los cuadrados de las diferencias

q. Emplee la ltima herramienta denida para comparar el desempeo de los dos cursos en el examen del que se habla al comienzo de esta seccin. Se corrobora su intuicin? Hemos encontrado, entonces, una herramienta que depende de todos los datos de la distribucin y adems tiene en cuenta el nmero de datos que hay en ella. Adems, proporciona resultados que son coherentes con la observacin y la intuicin. Esta medida se conoce como la varianza de la distribucin. La varianza de un conjunto de datos numricos es una medida de su dispersin y se dene como el promedio de los cuadrados de las diferencias de cada valor a la media aritmtica. r. En una cierta investigacin se tom una muestra de 10 nios y por cada uno de ellos se obtuvo una medida correspondiente a su estatura (en metros). A continuacin se da la muestra de datos: {1,25, 1,32, 1,38, 1,25, 1,32, 1,20, 1,32, 1,32, 1,25, 1,25}

Un resumen

121

Determine la estatura promedio de ese conjunto de datos. No olvide dar la respuesta en metros. Adems, utilice la varianza para medir la dispersin de los datos. En qu unidades se expresa esa medida? Comente ese hecho y sugiera alguna solucin. Por razones como la que usted descubri en el caso de las estaturas, en ciertas ocasiones, el valor ms comnmente empleado para medir la dispersin es el llamado desviacin estndar que se dene como la raz cuadrada de la varianza La desviacin estndar de un conjunto de datos numricos es una medida de su dispersin. Se dene como la raz cuadrada del promedio de los cuadrados de las distancias que hay de cada uno de los datos del conjunto a la media aritmtica del mismo. s. Para el problema planteado al iniciar este captulo, el que se reere al desempeo de los alumnos de dos secciones del curso de estadstica en un mismo parcial calcule la desviacin estndar de cada una de las dos distribuciones y compruebe que tales nmeros reejan efectivamente la diferencia de dispersin que hay entre los dos conjuntos de calicaciones.

Un resumen
Recapacitemos un poco sobre la nueva herramienta que hemos descubierto. Recordemos que el problema que da lugar a buscar esta herramienta es el hecho de que, a veces, nos encontramos con conjuntos de datos que son claramente diferentes, pero que tienen la misma medida de tendencia central. Esta diferencia se debe a que los conjuntos de datos tienen diferente dispersin. Se entiende por dispersin la cualidad que se reere al grado de esparcimiento que hay entre los elementos de un conjunto de datos numricos, a la variabilidad que presentan dichos datos. En primera instancia, pensamos que el rango, que es la diferencia entre el valor mximo y el valor mnimo de los datos podra ser una herramienta adecuada para medir la dispersin. En algunos casos, esta herramienta proporciona medidas de la dispersin que estn de acuerdo con la intuicin. Sin embargo, tambin encontramos conjuntos de datos para los cuales el rango da

122

Matemticas, Azar, Sociedad

lugar a resultados que van en contra de la intuicin. Por consiguiente, no pudimos aceptar el rango como una herramienta adecuada para medir la dispersin, puesto que desebamos encontrar una herramienta universal. La causa por la cual el rango no es una herramienta universal para medir la dispersin de un conjunto de datos, es que tiene en cuenta solamente dos de esos datos; y, claramente, la dispersin depende de la distribucin de todos los datos. Entonces, decidimos buscar otra herramienta ms general que satisciera estas condiciones. Para ello, buscamos, primero que todo, una herramienta que tuviera en cuenta todos los datos. Y no fue difcil darnos cuenta de que esa herramienta deba medir las distancias entre los datos. El problema, entonces, era determinar con respecto a qu se mediran esas distancias. Y la respuesta fue que deban ser medidas con respecto al punto medio de los datos. Con este concepto sencillo e intuitivo logramos encontrar nuestra nueva herramienta: ella mide las distancias de todos y cada uno de los datos con respecto a la media. Lo que sigui fue la solucin de problemas prcticos al intentar expresar este concepto intuitivo en algo que nos diera como resultado un nmero. Cmo medir las distancias? Claramente no podamos medir las distancias como diferencias de los datos a la media, puesto que esto nos dara diferencias negativas y toda distancia debe ser mayor o igual que cero. La solucin era sencilla: elevar las diferencias al cuadrado. De hecho, ese es el cuadrado de la distancia. En seguida, tenamos que encontrar una forma de resumir todo ese conjunto de cuadrados de diferencias en un slo nmero. Podramos haber pensado que bastara con sumarlos y eso nos dara el nmero buscado. Sin embargo, sta no habra sido una herramienta apropiada, puesto que entonces un conjunto de datos numeroso resultara con una dispersin ms grande que un conjunto de datos poco numeroso y no necesariamente esto debera ser as. Es por ello que decidimos dividir la suma por el nmero de datos, lo que es igual a sacar el promedio de los cuadrados de las diferencias. Se obtiene entonces la herramienta llamada varianza, cuya frmula es:
1 varianza = -n

i=1

( x media ) i

La varianza es una buena medida de la dispersin de un conjunto de datos. Sin embargo, tiene un pequeo problema: puesto que considera los cuadrados de las diferencias, y no las diferencias mismas, el resultado no se encuentra en la misma escala que los datos originales. Por ejemplo, si los datos se reeren a

Cmo hallar la desviacin?

123

estaturas de personas, en centmetros, entonces la herramienta que tenemos hasta ahora nos da un resultado en centmetros cuadrados. Este problema se resuelve fcilmente: basta con sacar la raz cuadrada del resultado que tenemos. Esta es la herramienta que hemos obtenido. Se llama desviacin estndar. Si a usted le gustan las frmulas, la que corresponde a esta herramienta se escribe: desv. est. =
1 -n

i=1

( x media ) i

Al igual que para las medidas de tendencia central, para el caso de las medidas de dispersin, tambin podemos hablar de parmetro o de estimador de parmetro segn que el valor se reera a la poblacin o a una muestra. As, por ejemplo, si consideramos como poblacin a P = {1, 2, 3, 4, 5} y de P se extrae la muestra M = {2, 2, 4, 5} se tiene que: 1,4142136 la desviacin estndar de P es un parmetro 1,2990381 la desviacin estndar de M es un estimador de la desviacin estndar de P Para distinguir los valores de los parmetros de los valores de los estimadores se emplean notaciones diferentes. En caso de que se hable de la desviacin estndar de una poblacin, el valor se denota con la letra griega y la varianza correspondiente se nota por 2. En caso de que se hable de la desviacin estndar de una muestra, el valor se denota con la letra s y la varianza correspondiente se nota por s2.

Cmo hallar la desviacin?


Una cosa es conocer el concepto intuitivo, otra es conocer la frmula que surge de ese concepto y, otra es tener un mtodo para utilizar esa frmula cuando se desee aplicar la herramienta a un conjunto de datos. Cuando obtuvimos la media como herramienta, nos encontramos con que cada uno de estos tres aspectos de la herramienta era sencillo. Sin embargo, en el caso de la

124

Matemticas, Azar, Sociedad

desviacin estndar, aunque el concepto intuitivo es tambin sencillo, la herramienta es un poco ms compleja cuando se expresa en una frmula y, por consiguiente, se pueden tener dudas acerca de la manera de aplicar la frmula para poder calcular la desviacin estndar de un conjunto de datos. Pero la situacin no es tan complicada, si la aproximacin al problema se hace en forma ordenada. Basta observar la frmula y seguir los pasos que sta sugiere. En este caso, los pasos son los siguientes: Se hace una tabla que tenga tres columnas y tantas las como datos haya. En la primera columna se escriben los datos. Se calcula la media de estos datos. En la segunda columna se escribe, frente a cada dato, la diferencia entre ste y la media. En la tercera columna se calcula el cuadrado de las diferencias. Se obtiene el promedio de los cuadrados de las diferencias. Se calcula la raz cuadrada del promedio de los cuadrados de las diferencias. El nmero que se obtiene es la desviacin estndar. Veamos un ejemplo del mtodo que se describi anteriormente: calcular la desviacin estndar del siguiente conjunto de datos: {36, 37, 39, 40, 48}

Datos 36 37 39 40 48

Diferencia con la media -4 -3 -1 0 8

Diferencia al cuadrado 16 9 1 0 64

Al hacer los clculos, se obtiene que: La media de los datos es 40: x = 40 La media de los cuadrados de las diferencias es 18: s2 = 18 La raz cuadrada de la media de los cuadrados de las diferencias es 4,2426: s= 4,2426 Por consiguiente, la desviacin estndar de la distribucin es 4,2426.

Ejercicios

125

Ejercicios
1.Se realiz una investigacin en el departamento de Santander y se tom como referencia el municipio de Rionegro con el n de observar cmo ha sido all el comportamiento de la votacin para Asamblea Departamental en el perodo comprendido entre 1970 y 1986 teniendo en cuenta la votacin por partidos, y de esa manera conocer las tendencias partidistas en dicho municipio. Se obtuvieron los siguientes resultados:
Ao 70 72 74 76 78 80 82 84 86 # votos por P. Liberal 3.933 4.756 9.514 7.441 8.097 9.454 9.633 8.840 6.399 # votos por P. Conservador 1.997 368 1.335 1.027 1.310 1.770 96 2.653 215

a. Cul es la poblacin de estudio? Y, cul es la muestra de estudio? b. Cul es la variable que se quiere medir? De qu tipo es? c. Por medio de diagramas de barras represente los datos de los votos por el Partido Liberal y por el Partido Conservador. Con base en esos diagramas determine en cul de los dos partidos Liberal o Conservador hubo una votacin ms homognea, a travs del perodo comprendido entre 1970 y 1986. d. Calcule dos valores que le permitan comparar la dispersin de la votacin por los partidos Liberal y Conservador, a travs de los 16 aos que se estn considerando. Corroboran esas medidas la respuesta que usted dio a partir de la observacin de los diagramas?

126

Matemticas, Azar, Sociedad e. Si los investigadores quisieran determinar alrededor de qu dato se agrupan los resultados de la votacin liberal, cul sera la medida ms aconsejable para tal propsito? Por qu? f. Con base en las respuestas anteriores haga un comentario que sea pertinente para el objetivo de la investigacin.

2.- Un politlogo quiso investigar los resultados de las elecciones presidenciales de 1978 con el propsito de observar y determinar qu tan dispersos fueron los datos de la votacin por candidato. Su estudio tom en cuenta algunas alcaldas menores de Bogot del total de alcaldas de la capital. Encontr los siguientes resultados:
zonas Chapinero Santa Fe San Cristbal Tunjuelito Kennedy Bosa Teusaquillo Mrtires A. Nario P. Aranda # de votos por Turbay A. 10.616 6.833 7.591 8.342 12.521 2.629 14.310 6.990 18.430 11.741 # de votos por Betancur C. 13.770 7.377 8.224 7.401 15.092 2.330 16.982 5.838 16.628 13.489

a. Identique la poblacin de estudio y la muestra. b. Cul es la variable que se est midiendo y de qu tipo es? c. Elabore grcas que representen la distribucin de los datos. d. Con base en la grcas anteriores calcule las medidas que considere ms adecuadas para:

Ejercicios

127

observar alrededor de que nmero se agrupan los datos de la votacin por Belisario Betancur. comparar la dispersin de los datos de la votacin por Betancur y por Turbay. En cul de las alcaldas se present la mayor votacin por Turbay? 3.- Se conoce el potencial electoral de algunos de los municipios ubicados al sur de Bogot. A continuacin se presenta un cuadro con el potencial electoral de 15 de esos municipios:
municipio A B C D E F G H I J K L M N O nmero de electores 13.914 9.667 10.035 11.205 10.500 11.623 10.961 9.350 12.976 9.877 9.580 10.720 10.214 11.530 12.425

a. Identique la poblacin de estudio y la muestra. b. Cul es la variable que se est midiendo y de qu tipo es? c. Qu medida de tendencia central considera que es la ms adecuada para determinar alrededor de qu dato se agrupa el potencial electoral de dichos municipios? Por qu? Determine esa medida.

128

Matemticas, Azar, Sociedad d. En caso de que quisiera ver qu tan dispersos se hallan unos datos de otros, qu medida aconsejara usar? Por qu? Tambin se conoce el nmero de personas que votan en cada uno de esos 15 municipios:
municipio A B C D E F G H I J K L M N O nmero de votantes 9.554 8.721 9.720 10.442 9.530 9.560 8.925 8.023 10.330 8.905 8.030 9.932 9.555 10.024 9.327

e. En este caso, cul es la variable de estudio y de qu tipo es? f. Realice una grca con los datos de potencial electoral y nmero de votantes para observar el comportamiento de dichas variables y de esa manera determinar el nivel de abstencin de cada municipio. g. Si usted como investigador buscara determinar alrededor de qu dato se agrupa el potencial electoral y alrededor de qu dato se agrupa el nmero de votantes, qu medidas hallara? Y si quisiera comparar la dispersin de esos dos conjuntos de datos, qu medidas hallara? Establezca esa comparacin.

Ejercicios

129

4.- En el colegio X de Bogot, se est realizando un experimento para comprobar si realmente la enseanza de las matemticas por computador supera la enseanza tradicional, en cuanto a resultados inmediatos de los nios. Dicho experimento se realiz en los estudiantes de cuarto de primaria y ocurri as: se tom un grupo control formado por 17 de esos nios, elegidos de su curso aleatoriamente, se les ense un cierto tema a la manera tradicional. Tambin se tom un grupo experimental formado por otros 17 nios, elegidos del mismo curso en forma aleatoria y se les ense el mismo tema con asistencia del computador. Cuando terminaron de ver el tema, se les hizo a los 34 alumnos el mismo examen. Las calicaciones obtenidas por los nios se presentan a continuacin.
Gpo. control 38 35 36 41 42 36 32 29 28 Gpo. experimental 40 38 35 45 45 40 35 39 38 Gpo. control 40 33 39 40 38 40 30 41 Gpo. experimental 40 35 42 44 38 40 38 40

a. Identique la poblacin de estudio y la muestra a partir de la cual se van a realizar las inferencias. b. Cul es la variable que se est midiendo? c. Haga una tabla de frecuencias agrupadas para cada uno de los casos, es decir, para el grupo control y para el grupo experimental. d. Haga dos diagramas que representen los datos obtenidos en los dos casos. e. Cul de las medidas de tendencia central podra describir el comportamiento de la variable en cada una de los dos grupos?

130

Matemticas, Azar, Sociedad f. Compare la dispersin de las calicaciones en cada uno de los dos grupos. g. Cree usted que las calicaciones obtenidas en los dos grupos corroboran la hiptesis de que la enseanza por computador supera en resultados inmediatos a la enseanza tradicional? Explique su respuesta. h. Independientemente de los resultados, cree usted que es ventajosa la enseanza por computador? Justique su respuesta.

5.- Un estudio sociolingstico desarrollado en una universidad pblica de Bogot en 1990 pretende demostrar la hiptesis, anteriormente trabajada por lingistas norteamericanos, de que existe una relacin entre la pertenencia a un grupo social y la preferencia por el lenguaje, acento o dialecto distintivo del grupo social al que deseara pertenecer.17 El estudio peda a diez sujetos de estrato socioeconmico medio bajo evaluar de 1 a 10 el lenguaje de tres personas cuyas voces se encontraban registradas en una cinta magnetofnica. La primera persona era de clase alta; la segunda de clase media alta; y la tercera de clase baja. Las calicaciones que dieron los sujetos a cada una de las tres grabaciones fueron:
Persona 1 Persona 2 Persona 3 5,2 6,5 5,2 7,0 7,3 3,8 7,2 8,0 4,2 6,5 8,5 6,0 9,0 7,0 4,0 7,2 7,4 5,1 5,0 8,9 3,9 6,5 9,0 4,1 7,0 7,5 5,0 5,2 7,3 4,5

a. Cul es el problema de estudio? b. Qu variables se toman en consideracin? De qu tipo son? c. Mirando rpidamente los datos presentados, cul de los tres grupos de calicaciones est ms disperso? d. Calcule la varianza de cada grupo de calicaciones. Conrman estos valores su respuesta a la pregunta anterior? Justique.
17 Tucker, Richard and Wallace Lambert. White and Negro Listener's Reactions to Various American-English Dialects. Advances in the Sociology of Language, Joshua Fishman, ed. Paris: Mouton Publishers, 1972, p. 176.

Ejercicios

131

e. Para el primer grupo de calicaciones, qu porcentaje de observaciones se alejan de la media ms de dos desviaciones estndar a derecha e izquierda. f. Teniendo en cuenta las calicaciones a la persona 2 y a la persona 3, suponga que un sujeto calic con 9,2 ambas personas. En cul de los dos grupos esa calicacin es ms rara? (Piense en qu tan alejado se encuentra el 9,2 de la media de cada uno de los grupos de calicaciones.) g. Los sujetos de una clase social quieren ascender lenta y paulatinamente en la estraticacin socioeconmica y no hacerlo rpida y bruscamente. Valindose de la informacin que posee para los diferentes niveles socioeconmicos pruebe esta hiptesis justicando sus armaciones. 6.- Considere el siguiente dilogo: Askanio: Ana Liza, qu calicaciones llevas en los parciales del curso de estadstica? Ana Liza: En el primero saqu 3,3, en el segundo, 3,5, y en el tercero, 3,9. Askanio: Uf! Vas muy bien. Seguro que en el cuarto sacas por encima de 4,0. Ana Liza: S me ha ido bien. Sin embargo, con respecto al curso, en el primer parcial me fue mejor que en el segundo y en el segundo me fue mejor que en el tercero. Eduardo: (hermano de Askanio) Cmo es esa locura? Te fue mejor en el que sacaste 3,3 que en el que sacaste 3,9? Ana Liza: As es, Eduardo. Una calicacin en s misma no tiene signicado. Pero se llena de signicado cuando se compara con otras calicaciones. Eduardo: Entiendo. Entonces tiene que ser que en el primer parcial, en general, le fue mal al grupo. Y, adems que poco a poco ha ido mejorando. a. Con respecto al dilogo anterior, demuestre que la segunda armacin de Ana Liza es verdadera. Para ello utilice la siguiente informacin:

132
# de parcial 1 2 3 media 2,,8 3,,0 3,,5

Matemticas, Azar, Sociedad


desviacin estndar 0,,56 0,,60 0,,70

b. Estrella y Ana Liza son compaeras en el curso de estadstica. Si en el segundo parcial, la calicacin de Estrella est a 2,5 desviaciones estndar por encima de la media, qu calicacin obtuvo Estrella? 7.- Considere el lanzamiento de un par de dados durante 3.600 veces. Cada vez se registra el valor de la suma de los resultados de las caras superiores. Los resultados se presentan en la siguiente tabla:
Valor suma Frecuencia 2 100 3 200 4 300 5 400 6 500 7 600 8 500 9 400 10 300 11 200 12 100

a. Describa de la manera ms completa posible la distribucin presentada anteriormente. (No recurra a la enumeracin de los datos.) b. Cree usted que la distribucin que se present se obtuvo empricamente? Justique su respuesta. c. En qu porcentaje del total de lanzamientos se obtuvo un valor de la suma que estuviera a menos de 1 desviacin estndar de la media? d. En qu porcentaje del total de lanzamientos se obtuvo un valor de la suma que estuviera a menos de 2 desviaciones estndar de la media? e. En qu porcentaje del total de lanzamientos se obtuvo un valor de la suma que estuviera a menos de 3 desviaciones estndar de la media? 8.- Considere las tres distribuciones que se presentan a continuacin:
Distribucin 1 Observacin Frecuencia 1 100 2 100 3 100 4 100 5 100 6 100

Ejercicios
Distribucin 2 Observacin Frecuencia 1 100 1,,5 100 2 100 2,,5 100 3 100 3,,5 100

133

Distribucin 3 Observacin Frecuencia 1 100 4/3 100 5/3 100 2 100 7/3 100 8/3 100

a. Cul de las tres distribuciones presentadas es la ms dispersa, y cul la menos dispersa? Justique matemticamente su respuesta. b. Para cada una de las tres distribuciones determine el porcentaje del total de observaciones que distan menos de 1 vez la desviacin estndar correspondiente. c. Para cada una de las tres distribuciones determine el porcentaje del total de observaciones que distan menos de 2 veces la desviacin estndar correspondiente. d. Le sorprenden los resultados obtenidos en los dos items anteriores? Explique su respuesta. 9.- Invntese una distribucin de frecuencias (que reeje el comportamiento de una determinada variable, es decir, invntese el conjunto de datos pensando en una situacin real) que usted considere muy dispersa. a. Para el conjunto de datos que ha dado, determine qu porcentaje del total de observaciones est a menos de 1 desviacin estndar de la media. b. Determine tambin el porcentaje de observaciones que est a menos de 2 desviaciones estndar de la media. c. Determine a cuntas desviaciones estndar de la media quedan contempladas todas las observaciones del conjunto de datos que usted dio. 10.- Con base en las respuestas que usted ha encontrado a las ltimas cuatro preguntas, intente explicar el papel que desempea la desviacin estndar al hablar de distribuciones de datos.

La ley

Lectura18
por Robert M. Coates El indicio de que las cosas estaban salindose de su cauce normal vino una tarde de nales de la dcada de 1940. Simplemente lo que pas fue que entre las siete y las nueve de aquella tarde el puente Triborouhg19 tuvo la concentracin de trco saliente ms elevada de su historia. Esto era raro, porque se trataba de la noche de un da laborable (para ser precisos, un mircoles) y aunque el tiempo era agradablemente benigno y claro, con una luna que estaba lo bastante crecida para atraer un buen nmero de motoristas a abandonar la ciudad, estos hechos por s solos no eran sucientes para explicar el extrao fenmeno. Las dos noches precedentes, aunque fueron igualmente tranquilas e iluminadas, no provocaron en ningn puente o carretera un fenmeno semejante. Por de pronto, el personal del puente fue cogido por sorpresa. Una gran arteria de trco como el Triborough, opera en condiciones normalmente previsibles. Todo el trco rodado, como la mayora de actividades humanas que se realizan en gran escala, obedece a la Ley de los Promedios, esta grandiosa y vieja regla, que establece que las acciones de la gente en grandes ciudades siguen siempre modelos estables; basndose en la experiencia pasada, siempre haba sido posible predecir, con toda exactitud, el nmero de coches que cruzara el puente a una hora determinada del da o de la noche. En esta ocasin todas las reglas fallaron. Las horas que transcurren desde las siete hasta cerca de medianoche son normalmente tranquilas en el puente. Pero aquella noche pareca como si todos los motoristas o buena parte de ellos se hubieran puesto de acuerdo para rom18 19 Tomada de Sigma, Grijalbo, Vol. 6, pp. 205-208. Es uno de los puentes que une a Manhattan con Nueva Jersey.

Lectura

135

per la tradicin. Empezando casi exactamente a las siete, los coches se dirigieron hacia el puente en tal nmero y con tal rapidez, que los empleados de las taquillas se vieron desbordados por el trabajo, casi desde el principio. Pronto se vio que no era una congestin momentnea, y cuando se hizo evidente que el trco prometa adquirir proporciones gigantescas, se trasladaron a toda prisa policas hacia el lugar del suceso. Los coches uan de todas direcciones, de la ruta de Bronx y de la de Manhattan, de la Calle 125 y de East River Drive. (En un extremo de la aglomeracin, apretada lnea de luces de coches que se perda de vista hacia el sur de la calle 89, al mismo tiempo que la aglomeracin cruzaba la ciudad de Manhattan interrumpiendo el trco hacia el oeste de la avenida Amsterdam.) Quiz lo ms sorprendente de esta manifestacin era el hecho de que pareca no tener ninguna causa plausible. De vez en cuando, mientras los guardias de la taquilla del peaje atendan el aparentemente innito ro de coches, preguntaban a sus ocupantes; pronto se vio claramente que los mismos participantes de la monstruosa obstruccin eran tan ignorantes de las razones que la haba ocasionado como ajenos a ella. El sargento Alfonse O'Toole, que mandaba el destacamento encargado de la carretera de Bronx, hizo un informe muy signicativo. Les hice algunas preguntas, dijo Es que hay algn partido de ftbol del que no tengamos conocimiento? O, quizs se trata de carreras de caballos? Pero lo ms divertido era que todos me preguntaban: Qu es este gento, Mac? Y yo solamente les miraba. Me acuerdo que haba un muchacho con una chica al lado de un Ford convertible, y cuando me hizo esta pregunta le respond Ests en medio de la multitud, no es verdad? Qu te ha trado aqu? le pregunt. Y el chico, mirndome, dijo: Yo?, tan slo he venido a dar un paseo a la luz de la luna. Pero si hubiera sabido que haba una aglomeracin as... dijo. Y entonces me pregunt: Hay algn lugar para que pueda dar la vuelta y salir de aqu? A la maana siguiente el Herald Tribune relat este suceso, pareca como si todos los propietarios de coches de Manhattan hubieran decidido aquella noche dirigirse hacia Long Island. El incidente era tan extraordinario que ocup la primera plana de todos los peridicos a la maana siguiente, y a causa de ello, muchos sucesos parecidos, que de otra forma no hubieran sido nunca remarcados, fueron extensamente comentados. As, el propietario del teatro Aramis, en la Octava Avenida, explic que mientras durante algunos das su sala haba permanecido prcticamente vaca, otros se haba llenado hasta los topes. Los propietarios de Luncheon notaron que con el aumento de clientes estaban desarrollando ms la

136

Matemticas, Azar, Sociedad

costumbre de hacer operaciones con artculos especcos; un da todo el mundo peda paletillas de ternera asada con salsa, mientras que otro todos pedan panecillos de viena, y al cordero asado nadie le haca caso. Un hombre que diriga un pequeo almacn de baratijas en Bayside explic que entraron en su tienda en el espacio de cuatro das, 274 clientes pidiendo un ovillo de hilo rosa. En un perodo de normalidad, esta noticia se hubiera escrito en los peridicos o bien como relleno, o bien en la seccin de curiosidades; sin embargo, en la situacin actual, adquiran una mayor relevancia. Finalmente, se hizo evidente que algo extrao estaba sucediendo con las costumbres de la gente, las cuales estaban sufriendo un cambio tan radical e imprevisto, como lo que sucede cuando en una excursin en barco todos los pasajeros a la vez se inclinan hacia un lado u otro de la embarcacin. Sucedi en un da de diciembre que, casi increblemente, por primera vez la Twentieth Century Limited sali del puerto de Nueva York en direccin de Chicago con slo tres pasajeros a bordo; fue entonces cuando los empresarios se dieron cuenta de las desastrosas consecuencias que poda traer el nuevo curso de las cosas. Hasta entonces, por ejemplo, la Central de Nueva York poda actuar con cierta conanza bajo el supuesto de que hubiera unas mil personas en Nueva York que tuvieran relaciones comerciales con Chicago, y que en cualquier da laboral algunos cientos de ellas tendran que ir all. El empresario teatral estaba seguro de que el nmero de clientes en cada funcin se regulara por s mismo, y que aproximadamente habra el mismo nmero de personas que deseara ver la obra del jueves que las que haba habido el martes o el mircoles. Ahora ya no se poda estar seguro de nada. La Ley de los Promedios haba sido tirada por la borda, y si el efecto que ello tendra en los negocios prometa ser desastroso, no iba a ser menos para los consumidores. Por ejemplo, cuando una seora se diriga a la ciudad para ir de compras, nunca poda estar segura si en el almacn Macy iba a encontrar una avalancha de gente, clientes de otros tenderos, o un desierto vaco con resonantes pasillos y dependientes cruzados de brazos. Y cuando los individuos veanse obligados a tomar alguna decisin, se produca una extraa incertidumbre. La gente se preguntaba a s misma: Puedo hacer esto o no?, sabiendo que si lo dejaban de hacer, perderan la ms satisfactoria posibilidad entre todas las posibilidades de poseer Jones Beach. Los negocios languidecan y una especie de desesperada incertidumbre otaba sobre todo el mundo.

Lectura

137

Cuando la situacin result tan grave, fue inevitable que se llamara al Congreso para que ste tomara alguna decisin al respecto. En efecto se convoc el Congreso, y debe decirse que su actuacin fue magnca. Se nombr un Comit, representado por Houses y dirigido por el Senador J. Wing Looper (R), de Indiana; y despus de una exhaustiva investigacin, el Comit se vio obligado a concluir que no haba evidencia alguna de que existiera instigacin comunista. Era evidente que los trastornos fueron ocasionados por la conducta fortuita de la gente. El problema estaba en encontrar una solucin. No se puede procesar a una nacin entera, sobre todo en materia tan vana como sta. El Senador Slooper seal audazmente: Ustedes pueden controlarlo, y nalmente se aprob un sistema de reeducacin y reforma, encaminado a conducir otra vez a la gente citamos textualmente al Senador Slooper a las regularidades fundamentales, a los promedios sencillos en la forma de vida americana. En el curso de las investigaciones realizadas por el Comit se descubri, con el consiguiente asombro de todo el mundo, que la Ley de los Promedios nunca haba sido incluida en el Cuerpo Doctrinal de la jurisprudencia federal, y aunque los defensores de los States Rights se rebelaron violentamente, el olvido fue corregido, por una enmienda constitucional y por una ley la Hills-Slooter Act que la complementaba. De acuerdo con el contenido del Act, se obligaba a la gente a estar proporcionados, y la forma ms fcil de asegurar que ello se cumplira era hacer una divisin en el alfabeto, por la que se permitira actuar a cada individuo slo cuando le correspondiera segn su apellido. De este modo una persona cuyo nombre empezara con G, N, o U, por ejemplo slo podra ir al teatro el martes, y a los partidos de ftbol slo los jueves, mientras que sus visitas al supermercado deberan hacerse entre las diez y las doce del medioda de los lunes. Desde luego la Ley tuvo sus inconvenientes. Tuvo un efecto desequilibrador en las funciones de teatro y en otras actividades sociales, y el coste de hacer cumplir a la gente las normas fue increblemente pesado. Al nal hubo que hacer tantas reformas tal como la que permita a los caballeros ir a todas las funciones o actos sociales acompaados de su novia, independientemente de la letra con que empezara su apellido, que los tribunales se encontraron sin saber qu hacer ante las violaciones de la ley. Por este lado, sin embargo, la ley serva a sus propsitos, porque induca bastante mecnicamente, es verdad, pero tambin de forma adecuada a volver a aquella vida promediada que le gustaba al Senador Slooper. Todo habra ido bien si no fuera porque, despus de un ao o un poco ms, informes

138

Matemticas, Azar, Sociedad

inquietantes empezaron a llegar desde las regiones ms apartadas del pas. Pareca que una extraa ola de prosperidad haba invadido aquellos lugares, que anteriormente se haban considerado reas marginales. Los montaeros de Tenessee estaban comprando Packards convertibles, y Sears Roebuck explic que en el Ozarks las ventas de artculos de lujo se haban incrementado en un novecientos por cien. En las miserables regiones de Vermont, hombres que con muchos apuros podan vivir de lo que la tierra les daba, ahora enviaban a sus hijo a estudiar a Europa y encargaban buenos cigarros de Nueva York. Pareca como si la Ley de las Rentas Disminuyentes tambin se comportara de forma loca.

a. Segn la lectura, una consecuencia de la ley de los promedios es que: Las acciones de la gente en grandes ciudades siguen siempre modelos estables. Est usted de acuerdo con esa armacin? Si as es, d cuatro ejemplos de comportamientos humanos en los que sea evidente el cumplimiento de tal ley. Si usted no est de acuerdo con lo que expone la ley, justique su posicin. b. Comente la siguiente armacin que aparece en la lectura: (...) basndose en la experiencia pasada, siempre haba sido posible predecir, con toda exactitud, el nmero de coches que cruzara el puente a una hora determinada del da o de la noche. c. Si se toma como marco de referencia el conjunto de los estudiantes de la universidad, los que fueron, los que son y los que sern determine cules de las siguientes variables se comportan de acuerdo a la ley de los promedios. Adems, para aquellas variables que siguen algn modelo estable, haga una grca que represente tal modelo. La estatura de hombres y mujeres La estatura de mujeres

Lectura

139

El nmero de semestres cursados por un estudiante regular, hasta terminar su carrera El valor de la matrcula que pag un estudiante este semestre Horas del da en que un estudiante recibe clase Carrera Lugar de procedencia Distancia del lugar de residencia de un estudiante a la universidad d. En el mismo marco de referencia del ejercicio anterior, determine cuatro variables que se comporten en forma similar a la variable estatura de las mujeres. No tienen que asumir los mismos valores, sino las mismas caractersticas
fundamentales.

Distribucin normal

Introduccin
La organizacin y el resumen de datos, las medidas de tendencia central y las medidas de dispersin que son los temas de estadstica tratados hasta ahora son herramientas tiles, que es importante saber emplear adecuadamente, en especial para poder describir una muestra. Sin embargo, si se quiere abordar y solucionar un problema desde el punto de vista de la estadstica, con frecuencia el trabajo no se limita a tomar una muestra y describirla. La gran contribucin de la estadstica va ms all de la descripcin de una o ms muestras. Tiene que ver con la poblacin: permite conocer, con algn grado de certidumbre, caractersticas de las poblaciones (de las cuales provienen las muestras con base en las cuales se trabaja) que no se pueden conocer de manera directa porque dichas poblaciones son innitas o tan grandes y complejas que se hace imposible abarcarlas totalmente en un estudio. En captulos posteriores se presentan las metodologas estadsticas que permiten obtener informacin de la poblacin a partir de la informacin de una muestra. En este captulo nos interesa descubrir la existencia de una distribucin con la cual se pueden modelar diversas situaciones tanto reales como tericas que tienen que ver con el comportamiento de una variable cuantitativa continua. El modelo del que se est hablando es el de la distribucin normal estndar; no es el nico modelo estadstico del que se dispone pero es quizs el ms importante puesto que es la base para comprender los procedimientos que involucran otros modelos, y adems, sus caractersticas sirven de fundamento para las inferencias que se realizarn posteriormente.

Motivacin
Considere los siguientes problemas:

Motivacin

141

Problema 1. Cul es el porcentaje de alumnos de su universidad cuyo promedio ponderado es inferior al suyo? Problema 2. Cul es la estatura mnima que debe tener un estudiante varn de su universidad para poder pertenecer al equipo de baloncesto, si se quiere que quienes conformen el equipo tengan una estatura superior a la del 90% de todos los estudiantes varones de la universidad?

a. Si usted quisiera responder al problema 1, qu datos tendra que conocer? Suponga que conoce la informacin necesaria; enuncie, entonces, los pasos que dara para solucionar el problema. b. Si usted quisiera responder al problema 2, qu datos tendra que conocer? Suponga que conoce la informacin necesaria; enuncie, entonces, los pasos que dara para solucionar el problema. En la respuesta que dio a la pregunta a., usted debi enumerar una serie de datos que se requieren para solucionar el problema 1: su promedio ponderado el promedio ponderado de todos los estudiantes de la universidad el nmero total de estudiantes Adems, debi enunciar como pasos que se deben seguir para dar solucin al problema planteado, los siguientes: Ordenar los promedios ponderados (por ejemplo, en orden ascendente). En esa distribucin de los datos, identicar el valor particular del promedio ponderado que est haciendo de referencia, (su promedio ponderado). Contar cuntos promedios son menores que la referencia. Establecer qu porcentaje del total de promedios, es el nmero encontrado anteriormente. (Y, ese porcentaje es la respuesta al problema.) El siguiente esquema puede resumir el proceso a seguir:

142

Matemticas, Azar, Sociedad suponga que su promedio es p4 p2 p1 p3 p4 p5 p6 p7 p8 se ordenan p1 p2 p3 p4 p5 p6 p7 p8

se identica y se cuenta

p1 p2 p3 p4 p5 p6 p7 p8

se determina el porcentaje %? Ahora vamos a proponer una situacin concreta e hipottica, en la cual se lleve a la prctica lo dicho. Suponga que en la universidad hay tan slo 50 alumnos y los promedios ponderados de ellos son:
4,0 3,6 3,7 3,2 3,9 4,1 3,8 3,4 3,5 3,9 3,7 3,6 3,5 3,8 3,8 3,7 3,6 3,7 3,6 3,8 3,7 3,7 3,9 3,9 3,9 4,1 3,7 3,7 3,8 4,0 3,4 3,6 3,5 3,9 4,0 3,4 3,7 3,8 3,6 4,0 3,8 3,3 3,5 3,8 4,3 3,7 3,6 3,6 3,8 3,9

Suponga que el problema para responder es: Si su promedio ponderado es 3,6, cul es el porcentaje de alumnos de su universidad, cuyo promedio ponderado es inferior al suyo? c. Elabore una tabla de distribucin de frecuencias de tales promedios. d. Muestre que el 18% del total de alumnos tiene promedio ponderado inferior a 3,6.

Motivacin

143

En la respuesta que dio a la pregunta b., usted debi enumerar una serie de datos que se requieren para solucionar el problema 2: la estatura de todos los estudiantes varones de la universidad el nmero total de estudiantes varones Adems, debi enunciar como pasos que se deben seguir para dar solucin al problema planteado, los siguientes: Ordenar las estaturas de los estudiantes varones (por ejemplo, en orden ascendente). Determinar cuntas de las estaturas constituyen el 90% del total de estaturas. En la distribucin realizada anteriormente, contar tantas estaturas como lo indique el nmero que corresponde al 90% del total de estaturas. Identicar el valor de la estatura, que divide al grupo de estaturas en dos: uno, que contiene al 90% del total y el otro, el que contiene los otros valores de estaturas. (Y, el valor de esa estatura es la respuesta al problema.) p2 p1 p3 p4 p5 p6 se ordenan p8 p7 p1 p2 p3 p4 p5 p6 p7 p8

se forman dos grupos, uno con el 90% del total de elementos y el otro, con el resto

90%

10%

p1 p2 p3 p4 p5 p6 p7 p8

se determina el ltimo valor del primer grupo

El esquema anterior resume los pasos a seguir.

144

Matemticas, Azar, Sociedad

Ahora vamos a proponer una situacin concreta e hipottica, en la cual se lleve a la prctica lo dicho. Suponga que en la universidad hay tan slo 30 alumnos varones y que sus estaturas medidas en metros son:
1,74 1,72 1,76 1,78 1,72 1,74 1,72 1,70 1,70 1,70 1,68 1,72 1,72 1,74 1,76 1,68 1,68 1,65 1,70 1,72 1,72 1,65 1,70 1,74 1,74 1,72 1,74 1,70 1,74 1,72

Entonces, el problema que tiene que responder es: Cul es la estatura que debe tener un estudiante varn de la universidad para poder armar que dicha estatura es superior a la estatura del 90% de todos los estudiantes varones de la universidad? e. Elabore una tabla de distribucin de frecuencias de las estaturas. f. Muestre que 1,75 es el valor que supera el 90% de los valores del grupo total. Ahora, para usted debe ser claro que la solucin a los dos problemas planteados al inicio de la seccin, no es difcil en s misma. Sin embargo, si se pretende solucionar los problemas como usted lo sugiri en a. y en b., hay factores que dicultan de manera parcial o total el encontrar la solucin: en la mayora de los casos, hay una gran cantidad de informacin involucrada y no es posible conocerla toda y aun en el caso de que se conozca toda la informacin, el volumen de ella es tal, que los procesos sugeridos por usted exigen un trabajo largo y tedioso que se puede evitar. Por otro lado, tambin ha de ser claro para usted que problemas como los dos que se enuncian, no necesariamente son articiales; es decir, existen situaciones concretas de inters particular y general que conducen al planteamiento de enunciados similares y, por tanto, surge la necesidad de encontrar una manera eciente y gil de abordarlos y de solucionarlos. Pues bien, en este captulo vamos a descubrir un modelo que nos permita responder a preguntas de tal estilo.

En busca de un modelo

145

En busca de un modelo
Se quiere construir un modelo que se pueda emplear para responder preguntas acerca del comportamiento de variables tales como la estatura, el peso, la presin arterial, el tiempo de duracin de ciertos procesos biolgicos, el promedio ponderado, etc. Por tanto, es natural estudiar las caractersticas de tales variables, de modo que ellas estn presentes en el modelo que se construya. Vamos pues a realizar una breve reexin sobre tales caractersticas.

Sobre la estatura

Para responder las siguientes preguntas, usted debe emplear solamente su intuicin, su sentido comn, y su observacin. No se le pide que haga clculos. Adems, considere como poblacin en la cual va a observar el comportamiento de la variable estatura, el conjunto de todos los estudiantes varones de la universidad y suponga que este conjunto es muy numeroso. a. Qu tipo de variable es la variable estatura? Explique su respuesta. b. Qu valores puede tomar la variable? En otras palabras, d el intervalo de variacin de la variable. c. Existe algn valor para la estatura, alrededor del cual se agrupe la mayor parte de las observaciones? Cul es? d. Cul es la estatura promedio? e. Qu ocurre con la frecuencia de los valores de las estaturas a medida que stos se alejan de la estatura media? f. Presenta la grca de la variable, alguna simetra? Explique. g. Qu porcentaje de la poblacin debe tener estatura inferior a la estatura promedio? Y, superior a la estatura promedio? h. Qu relacin de orden existe entre la estatura promedio, la estatura moda y la estatura mediana? Explique su respuesta.

146

Matemticas, Azar, Sociedad i. Qu tan dispersa es la distribucin? Determine el rango de la estatura. Cuntas veces, aproximadamente, cree usted que cabe la desviacin estndar en ese rango? j. Haga un bosquejo de la grca que representa el comportamiento de la variable en cuestin.

Sobre el promedio ponderado y otras variables

a. Tenga en cuenta los aspectos mencionados en las preguntas sobre la variable estatura y con base en ellos represente grcamente el comportamiento de cada una de las siguientes variables:20 Promedio ponderado de los estudiantes de segundo semestre que estudian la misma carrera que usted y en la misma universidad. Peso de una alumna de 20 aos que estudia en la universidad en la que usted estudia. Presin arterial de un varn de 60 aos. b. Compare entre s las grcas que elabor para ilustrar el comportamiento de cada una de las cuatro variables: estatura, promedio ponderado, peso y presin arterial. Existen diferencias esenciales en la forma? Le sorprende ese resultado? Usted debi encontrar que existe similitud en la forma como se distribuyen los valores de las cuatro variables que se estn considerando. Por tanto, tiene sentido pensar que el modelo que estamos buscando s resultar til para dar cuenta del comportamiento de muchas variables. Ahora veamos si su intuicin y su observacin de la realidad son correctos en el caso de las estaturas. En este punto se quiere que usted pueda observar especialmente dos aspectos, a saber: Cmo cambia la forma de la distribucin de la variable a medida que se aumenta considerablemente la cantidad de informacin Cul es la forma de la distribucin de la variable en la poblacin
20 En cada caso, suponga que la poblacin en la que se est analizando el comportamiento de la variable es muy numerosa.

Comparemos formas

147

Vamos a suponer que en la universidad hay 3.600 estudiantes varones y para ver los dos aspectos mencionados anteriormente realizaremos lo siguiente: En primer lugar, se tomar una muestra aleatoria de la poblacin, de tamao 40 y se har la distribucin de la variable para esa muestra. En segundo lugar, se tomar de la poblacin, una segunda muestra aleatoria, tambin de tamao 40, que no incluya a ninguna de las personas de la primera muestra; y la informacin que d esa muestra con respecto a la estatura, se adicionar a la informacin de la primera muestra; es decir, es como si ahora se tuviera una muestra de tamao 80. Para esa muestra se har la distribucin de la variable. En tercer lugar, se tomar otra muestra aleatoria de la poblacin, de tamao 120, (todos los sujetos de esa muestra sern diferentes a los que conformaron las dos primeras muestras). La informacin que arroje esa muestra se adicionar a la informacin correspondiente a la unin de las dos primeras muestras. Es entonces, como si se hubiera tomado una muestra de tamao 200. Para esa muestra se har la distribucin de los valores de la variable.

Comparemos formas
De acuerdo con lo dicho anteriormente, la informacin que suministra la primera muestra, de tamao 40, est dada en la siguiente tabla (medidas en metros, aproximadas hasta centmetros).
1,70 1,78 1,72 1,69 1,72 1,65 1,76 1,70 1,74 1,70 1,76 1,72 1,65 1,72 1,69 1,70 1,72 1,70 1,76 1,74 1,70 1,68 1,72 1,76 1,70 1,65 1,69 1,70 1,72 1,69 1,72 1,76 1,70 1,70 1,69 1,70 1,72 1,74 1,70 1,72

a. Haga una tabla de distribucin de frecuencias de la variable estatura en la muestra de tamao 40.

148

Matemticas, Azar, Sociedad

A continuacin se presenta un diagrama de la distribucin de la estatura en esa muestra. (Observe que hay valores de la estatura cuya frecuencia es 0.)

Porcentaje x= 1,712 s= 0,029

1.6

1.65

1.7

1.75

1.8

1.85

1.9

Estatura (metros) en la muestra de tamao 40

La informacin suministrada por la segunda muestra, de tamao 40, aparece a continuacin:


1,71 1,69 1,80 1,71 1,76 1,72 1,71 1,70 1,79 1,71 1,74 1,66 1,80 1,69 1,72 1,68 1,71 1,76 1,66 1,71 1,70 1,68 1,71 1,64 1,74 1,66 1,71 1,68 1,72 1,71 1,76 1,65 1,76 1,70 1,68 1,71 1,71 1,76 1,74 1,69

b. Acumule la informacin de esta muestra a la de la primera muestra, con el n de tener la muestra de tamao 80. Haga una tabla de distribucin de frecuencias de la variable estatura en la muestra de tamao 80. El siguiente diagrama muestra la distribucin de la variable en la muestra de tamao 80.

Comparemos formas

149

Porcentaje x= 1,712 s= 0,3

1.6

1.65

1.7

1.75

1.8

1.85

1.9

Estatura (metros) en la muestra de tamao 80 En la ltima muestra tomada, de tamao 120, la informacin es:
Estatura (m) 1,62 1,64 1,65 1,66 1,67 1,68 1,69 1,70 1,71 1,72 Frecuencia 1 3 1 2 8 6 8 1 8 8 Estatura (m) 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80 1,82 Frecuencia 20 9 12 5 11 9 5 2 1

c. Adicione la informacin de esta ltima muestra con la de la muestra de tamao 80 y haga la correspondiente tabla de distribucin de frecuencias de la variable. El diagrama correspondiente a este caso se presenta a continuacin:

150

Matemticas, Azar, Sociedad

Porcentaje 10,5 7,5 x= 1,712 s= 0,35

1.6

1.65

1.7

1.75

1.8

1.85

1.9

Estatura (metros) en la muestra de tamao 200

d. Compare las grcas de las tres distribuciones, que se han obtenido a medida que se aumenta la cantidad de informacin, segn los siguientes aspectos: nmero de picos (forma de la curva que une los puntos ms altos de las columnas) localizacin del valor de la estatura alrededor del cual se agrupan la mayora de los valores simetra de la curva frecuencia de los valores ms alejados de la estatura promedio Aunque en la mayora de los casos no se tiene acceso a la informacin de toda la poblacin y por tanto no se puede conocer con absoluta certeza la forma de la distribucin de la variable en la poblacin, en este caso, vamos a suponer que s conocemos las estaturas de todos los estudiantes varones de la universidad. A continuacin se da una tabla de frecuencias:
Estatura (m) 1,62 1,64 1,65 Frecuencia 1 18 17 Estatura (m) 1,73 1,74 1,75 Frecuencia 487 489 182

Comparemos formas
Estatura (m) 1,66 1,67 1,68 1,69 1,70 1,71 1,72 Frecuencia 50 156 148 188 485 488 491 Estatura (m) 1,76 1,77 1,78 1,79 1,80 1,82 Frecuencia 162 148 49 23 17 1

151

El siguiente diagrama representa grcamente el comportamiento de la variable estatura en la poblacin. Porcentaje 13,6 x= 1,712 s= 0,028

1.6

1.65

1.7

1.75

1.8

1.85

1.9

Estatura (metros) en la muestra de tamao 3.600 Al intentar establecer una comparacin entre las formas de las cuatro distribuciones que se tienen, es claro que dicha comparacin no se puede realizar adecuadamente si las grcas estn elaboradas en trminos de frecuencias absolutas, pues la referencia no es la misma en todos los casos: en el primero, el tamao de la muestra es 40; en el segundo, es 80; en el tercero, es 200; y, en el cuarto, es 3.600. Es pues, necesario superar el problema de la escala y eso se logra si se hacen las grcas con base en las frecuencias relativas y no con base en las frecuencias absolutas y adems se emplea la misma escala para todas las grcas. Al tener en cuenta la consideracin anterior, se obtiene la siguiente tabla:

152

Matemticas, Azar, Sociedad


Frecuencias relativas (%) Estatura 1,62 1,64 1,65 1,66 1,67 1,68 1,69 1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80 1,82 Muestra 1 0 0 7,5 0 0 2,5 12,5 30 0 25 0 7,5 0 12,5 0 2,5 0 0 0 Muestra 2 0 1,25 5 3,75 0 6,25 10 18,75 13,75 16,25 0 7,5 0 12,5 0 1,25 1,25 2,5 0 Muestra 3 0,5 2 2,5 2,5 4 5,5 8 8 9,5 10,5 10 7,5 6 7,5 5,5 5 3 2 0,5 Poblacin 0,027 0,5 0,47 1,38 4,33 4,11 5,22 13,47 13,55 13,63 13,52 13,58 5,05 4,5 4,11 1,36 0,63 0,47 0,027

e. Explique cmo se obtuvo la tabla anterior. f. Utilice algn criterio para comparar tablas de frecuencias relativas, que le permita establecer en cul de las muestras, la variable se distribuye de manera ms similar a la distribucin de la variable en la poblacin. Con seguridad, usted obtuvo que la tabla ms similar a la de la poblacin corresponde a la muestra de mayor tamao, resultado que es evidente al observar las correspondientes grcas, si stas se han hecho con la misma escala y empleando frecuencias relativas.

Una aproximacin al modelo

153

A continuacin se establecen algunos comentarios acerca de las cuatro grcas anteriores. A medida que se aumenta la cantidad de informacin, se observa que: El perl de la curva se vuelve cada vez ms suave, es decir, se disminuye el nmero de picos. (En los diagramas realizados no est explcito el perl de la curva, pero usted lo puede obtener de la siguiente manera: seale el punto medio del lado superior de cada uno de los rectngulos que conforman el diagrama y para cada par de rectngulos consecutivos una sus correspondientes puntos medios.) Los valores de la estatura se van agrupando alrededor del valor 1,72 metros, y este valor se ubica en la mitad entre el mnimo y el mximo del conjunto de estaturas. La frecuencia de los valores de la estatura disminuye a medida que stos se alejan de la estatura promedio. La curva tiende a ser simtrica con respecto a la vertical que pasa por el valor de la estatura promedio.

Una aproximacin al modelo


Se ha visto que a medida que aumenta el tamao de la muestra, la distribucin de la variable estatura de los estudiantes varones de la universidad tiende a comportarse de una determinada manera; es esa tendencia la que determinar el modelo que estamos buscando. Imaginemos que el conjunto de 3.600 estaturas al que nos hemos referido como la poblacin de datos de este caso, en realidad es tan slo una muestra representativa de una poblacin muy grande. Veamos cmo se puede esperar que sea la distribucin de la estatura en esa poblacin muy grande. Adems, supongamos que se pueden tomar medidas muy nas de la estatura, no hay aproximaciones. 1.- La variable asume todos los valores del intervalo, cuyo extremo inferior es la estatura mnima en la poblacin y cuyo extremo superior es el valor de la estatura mxima en la poblacin. Esto ocurre porque la variable es continua, y en la grca se reeja en el hecho de que la curva no tiene valles.

154

Matemticas, Azar, Sociedad

2.- La estatura promedio est en el centro del intervalo en el que se mueve la variable. Adems, es el valor de la variable ms frecuente y alrededor del cual se agrupa la mayora de las observaciones. 3.- La curva es simtrica con respecto a la vertical que pasa por el valor de la estatura promedio: a lado y lado de la estatura promedio, la variable se distribuye de igual manera. 4.- Entre ms alejado de la estatura promedio est un valor de la variable, menos frecuente es ese valor en la distribucin y recprocamente, entre menos frecuente sea un valor de la variable, ms alejado estar del promedio. De acuerdo a las caractersticas que se espera que tenga la distribucin de la variable en la poblacin imaginada, la grca de dicha distribucin debe ser similar a sta:

1,62

1,72

1,82

Estatura (metros) poblacin ideal modelo

Y es relativamente fcil aceptar que las otras tres variables mencionadas en este captulo (promedio ponderado, presin arterial y peso) tienen una distribucin similar a la de la estatura, cuando se piensa en una poblacin inmensamente grande.

a. Escoja una de las tres variables (promedio ponderado, presin arterial y peso) y explique el signicado de la armacin: Esa variable se distribuye, en una poblacin muy grande, de manera similar a como lo hace la variable estatura.

Una pausa para resumir

155

Una pausa para resumir


En este punto del proceso hagamos una pausa para resumir lo que se ha realizado. En primer lugar, se formularon dos problemas referidos a una poblacin, problemas que pueden ser complicados y hasta imposibles de resolver, si no se tiene un cierto conocimiento de la estadstica, pues en la mayora de los casos, la informacin que se requiere para la solucin es inaccesible. En segundo lugar, se hizo un anlisis del comportamiento de una de las variables involucradas en los problemas planteados, dentro de la correspondiente poblacin y se encontr que tiene una bien determinada distribucin. Se concluy que la distribucin de otras variables es similar a la de la estatura. Finalmente se lleg hasta obtener la forma de la curva que representa la distribucin de esas variables en poblaciones hipotticas (inmensamente grandes). Y ah vamos. El objetivo es llegar a encontrar un modelo que sea adecuado para representar el comportamiento de variables que se distribuyan de manera similar a como lo hacen las variables con las que hemos trabajado, y adems que tal modelo permita responder preguntas que de otra manera es imposible responder. Parece ser que una curva como la que se presenta a continuacin es un buen modelo.

Sin embargo, surgen algunas preguntas: De qu manera brinda esa curva informacin sobre proporciones especcas en la poblacin? Cualquier curva acampanada o monticular es un buen modelo para lo que se desea? Y, si la respuesta es negativa, qu caractersticas adicionales deben establecerse sobre tal curva?

156

Matemticas, Azar, Sociedad

Para poder responder las preguntas anteriores se requiere establecer la relacin que existe entre probabilidad, proporcin y rea bajo una curva de distribucin de frecuencias. En la siguiente seccin vamos a hacer explcita tal relacin.

La probabilidad como rea bajo una curva


El siguiente histograma representa la distribucin de frecuencias agrupadas de las calicaciones obtenidas en un examen de estadstica por cien alumnos de la universidad. 40 Distribucin calificaciones

30 Porcentajes 15 5 1,9 2,4 2,9 3,4 3,9 4,4 4,9 Calificaciones a. Determine la proporcin de alumnos de la muestra que obtuvieron calicacin entre 2,4 y 3,4. b. Explique cmo obtuvo el resultado a la pregunta anterior. c. En el histograma sombree los rectngulos para los cuales se cumple que el valor de la variable est entre 2,4 y 3,4. Determine qu proporcin del rea del histograma es el rea sombreada.

La probabilidad como rea bajo una curva

157

d. Calcule la probabilidad de que si se extrae, al azar, un estudiante de esa muestra, su calicacin est entre 2,4 y 3,4. e. Lea cuidadosamente las preguntas anteriores junto con las respuestas que usted les dio. A partir de eso, escriba una armacin que relacione, para el caso en cuestin, los siguientes tres conceptos: proporcin de observaciones proporcin de rea probabilidad de que ocurra un determinado evento A partir de los ejercicios anteriores, usted debi darse cuenta de dos puntos importantes: 1.- La informacin que aporta cada rectngulo construido sobre cada clase se puede interpretar de dos maneras: como la fraccin de observaciones que caen en tal clase como la probabilidad de que una observacin, extrada al azar de la muestra, caiga en tal clase. 2.- La proporcin de observaciones que caen dentro de una clase puede encontrarse en trminos de la altura de la correspondiente clase o, tambin, en trminos del rea de dicho rectngulo (dado que todos los rectngulos tienen el mismo ancho). Segn lo dicho anteriormente, al tener un histograma que representa la distribucin de una variable, es posible calcular la probabilidad de que la variable cumpla una cierta condicin, en trminos de la correspondiente fraccin del rea del histograma. Es por eso por lo que, de manera natural, se puede pensar en extender esa idea al caso en que la representacin grca de la distribucin sea una curva continua, sin saltos. Y en realidad as es como se dene la distribucin de probabilidad de una variable aleatoria continua. En este texto, aceptaremos ese hecho sin entrar en detalles; lo que interesa es saber manejar ese tipo de distribucin. La probabilidad de que una variable aleatoria continua y, tome algn valor entre a y b, es el rea de la regin bajo la curva, limitada por los valores a y b, expresada esa rea como una fraccin o un porcentaje del rea total bajo la curva. Lo anterior se nota como P(a < y < b).

158

Matemticas, Azar, Sociedad

Distribucin de probabilidad de la variable "y" P(a y b)

La curva normal
En la seccin titulada Una pausa para resumir, quedaron planteadas dos preguntas: De qu manera brinda esa curva la que se ha encontrado como modelo informacin sobre proporciones especcas en la poblacin? Cualquier curva acampanada o monticular es un buen modelo para lo que se desea? Y, si la respuesta es negativa, qu caractersticas adicionales deben establecerse sobre tal curva? Pues bien, con la consideracin hecha en la seccin La probabilidad como rea bajo una curva, se da respuesta a la primera de ellas. Para considerar que se tiene completamente construido el modelo del que hemos estado hablando, es indispensable dar respuesta a la segunda pregunta: sirve cualquier curva acampanada?

a. Piensa usted que la respuesta a esa pregunta es armativa? Por qu? Al describir el modelo, una de las caractersticas se expres as: la mayora de las observaciones se agrupan alrededor del promedio. Sin embargo, cuando

La curva normal

159

se quiere concretar esa condicin se presentan problemas: qu porcentaje del total de observaciones corresponde a la mayora? Acaso, el 50%? O, el 60%? O, el 80%? Es claro que la respuesta que se d no es nica y en todo caso depende del criterio subjetivo de quien responda. Para concretar la situacin debemos decir que vamos a trabajar con una cierta curva, a partir de la cual se determina con alto grado de precisin, el porcentaje del total de observaciones que debe haber entre el valor del promedio y cualquier valor de la variable. Veamos algunos casos especiales. En el modelo del cual estamos hablando se cumple, por ejemplo, que: 68,26% del total de observaciones se encuentra en el intervalo entre 1 desviacin estndar antes y 1 desviacin despus de la media.
P (x - s x x + s) = 68%

x-s

x+s

Valores de la variable

95,54% del total de observaciones se encuentra en el intervalo entre 2 desviaciones estndar antes y 2 desviaciones despus de la media.
P (x - 2s x x + 2s) = 95%

x - 2s

x Valores de la variable

x + 2s

160

Matemticas, Azar, Sociedad 99,74% del total de observaciones se encuentra en el intervalo entre 3 desviaciones estndar antes y 3 desviaciones despus de la media.
P (x - 3s x x + 3s) = 99,5%

x - 3s

x + 3s

Un ejemplo puede aclarar lo dicho anteriormente. Se sabe que una variable se distribuye segn el modelo del que estamos hablando. Se tom una muestra de tamao 50 y se encontr que la media de la variable es 43 y la desviacin estndar es 6. Entonces, debe cumplirse que: En el intervalo cuyos extremos son: (43 - 6) y (43 + 6) debe haber un 68,26% del nmero total de observaciones en la muestra. Es decir, 34 de las observaciones de la muestra deben ser valores de la variable que oscilan entre 37 y 49. En el intervalo cuyos extremos son: (43 - 12) y (43 + 12) debe haber un 95,54% del nmero total de observaciones en la muestra. Es decir, 47 48 de las observaciones de la muestra deben ser valores de la variable que oscilan entre 31 y 55. En el intervalo cuyos extremos son: (43 - 18) y (43 + 18) debe haber un 99,74% del nmero total de observaciones en la muestra. Es decir, 49 50 de las observaciones de la muestra deben ser valores de la variable que oscilan entre 25 y 61. El 68%, el 95% y el 99,5% (valores aproximados) son slo tres valores especiales asociados con nuestro modelo. Quien conozca el modelo se sabe de memoria dichos valores, pero esos no son los nicos valores asociados al modelo. En realidad, hay una tabla que completa la informacin con respecto al rea de la regin bajo la curva comprendida entre el promedio de la distribucin y cualquier otro valor de la variable. Tal tabla se presentar ms adelante. Lo que se ha dicho con respecto al rea bajo la curva debe conducir a la conclusin de que no toda curva acampanada sirve como el modelo buscado.

Existe una nica curva normal?

161

En resumen, el modelo que vamos a emplear para representar la distribucin de ciertas variables continuas, en poblaciones inmensamente grandes tiene las siguientes caractersticas: 1.- La variable asume todos los valores reales, es decir, va de - a . 2.- La curva es simtrica con respecto a la vertical que pasa por la media de la variable: a lado y lado de la media, la variable se distribuye de igual manera. 3.- El valor de la media, la moda y la mediana coinciden. 4.- La forma de la distribucin de la variable es acampanada. 5.- El rea bajo la curva siempre se distribuye de la misma manera y esto se expresa detalladamente en una tabla. 6.- En la curva, a lado y lado del promedio, hay dos puntos especiales llamados puntos de inexin los cuales marcan un cambio de concavidad en la curva. Esos puntos son los que se asocian a los valores de la variable cuya distancia al promedio es igual a 1 desviacin estndar. La curva que se ha descrito se llama curva normal y es posible denirla en trminos de una ecuacin. Sin embargo, en este texto ms que la ecuacin, nos interesa conocer las caractersticas de la curva y emplearlas cada vez que sea posible para hacer inferencia estadstica.

Existe una nica curva normal?

a. Cree usted que existe una nica curva normal? Explique. b. Si usted sabe que una variable se distribuye normalmente, de qu informacin requiere para tener una completa imagen grca de la distribucin?

162

Matemticas, Azar, Sociedad

En una muestra, la variable X continua se distribuye normalmente, con media igual a 3,8 y desviacin estndar igual a 0,4. En otra muestra, la misma variable se distribuye normalmente con media igual a 4,5 y desviacin estndar igual a 0,4. c. Represente grcamente, en un mismo plano, la distribucin de la variable X en cada una de las dos muestras. Compare las dos curvas. d. Al mantener igual el valor de la desviacin estndar, y variar el valor de la media de la variable, qu efecto se produce en la grca? Explique. En una muestra, la variable X continua se distribuye normalmente, con media igual a 3,8 y desviacin estndar igual a 0,8. En otra muestra, la misma variable se distribuye normalmente con media igual a 3,8 y desviacin estndar igual a 0,2. En una tercera muestra, la misma variable se distribuye normalmente con media igual a 3,8 y desviacin estndar igual a 1,4. e. Represente grcamente, en un mismo plano, la distribucin de la variable X en cada una de las tres muestras. Compare las tres curvas. f. Al mantener igual el valor de la media y variar el valor de la desviacin estndar de la variable, qu efecto se produce en la grca? Explique. La curva normal depende de dos valores: la media y la desviacin estndar de la variable. Esto quiere decir que si una variable se distribuye normalmente y si la media es x , dependiendo del valor de la desviacin estndar de la variable, se obtendrn tantas curvas normales como valores haya para la desviacin estndar. Esas curvas sern ms o menos altas y por tanto menos o ms anchas segn el valor de la desviacin estndar. En total, si se dieran todos los valores posibles a la desviacin estndar y se mantuviera jo el valor de la media, se obtendra una familia de curvas normales, las cuales diferiran entre s, slo en su altura y su anchura. Pero la distribucin del rea bajo cualquiera de ellas siempre sera la misma. Tambin es cierto que si una variable se distribuye normalmente y si la desviacin estndar es s, dependiendo del valor de la media de la variable, se obtendrn tantas curvas normales como valores haya para la media. En total, si se dieran todos los valores posibles a la media y se mantuviera jo el valor de la desviacin estndar, se obtendra una familia de curvas normales, las cuales diferiran entre s, slo en la ubicacin sobre el eje horizontal; de resto todas seran idnticas en forma. Y la distribucin del rea bajo cualquiera de ellas siempre sera la misma.

Existe una nica curva normal?

163

Lo dicho en los dos prrafos anteriores, se puede esquematizar de la siguiente manera, y permite concluir que no existe una nica curva normal.

x Tres distribuciones normales: media x y diferente desviacin estndar

x1

x2

x3

x4

x5

Cinco distribuciones normales: desviacin estndar ja y diferentes medias

164

Matemticas, Azar, Sociedad

Y... el modelo
La regin bajo la curva normal puede ser alta y delgada o corta y ancha, segn el valor de la desviacin estndar y tambin segn la relacin que exista entre las escalas horizontal y vertical empleadas al hacer la grca. Pero como ya se ha dicho antes, la distribucin del rea bajo la curva siempre es la misma. Es esa la razn por la cual, para determinar el rea bajo la curva, comprendida entre dos valores cualesquiera de la variable, no hace falta tener tantas tablas como diferentes curvas normales. Es suciente disponer de una nica tabla que exprese las reas de una curva normal, a la cual pueda reducirse cualquier otra curva normal, sin que importe en cada caso el valor particular del promedio ni el de la desviacin estndar. El problema, es entonces, decidir cul es la curva normal ms adecuada para adoptarla como la curva normal patrn o, dicho de otra manera, como la curva normal estndar. Y, la decisin estar tomada cuando se encuentren los valores ms apropiados para la media y la desviacin estndar. Las preguntas que se formulan a continuacin tienen por objeto promover la reexin sobre cules son los valores ms convenientes que deben asignarse a la media y a la desviacin estndar de la distribucin normal estndar.

a. Con respecto a la siguiente armacin, determine si usted est de acuerdo con ella. Explique su respuesta. Al hacer la tabla que describa la distribucin del rea, no es indispensable que se describa la distribucin del rea bajo toda la curva. Es suciente describir la distribucin del rea para la porcin de la curva situada, por ejemplo, a la derecha del promedio, pues como la curva es simtrica con respecto a la vertical que pasa por el valor del promedio, las regiones situadas a lado y lado son idnticas. Entonces la informacin que debe aportar la tabla es el porcentaje de rea bajo la curva, entre el promedio y un valor de la variable, (mayor que el promedio, o menor que el mismo). Aceptemos que la tabla indica cul es el rea (relativa) bajo la curva entre el valor del promedio y cualquier valor de la variable que sea mayor que el promedio.

Y... el modelo
P (x x a) = ?

165

Valores de la variable

b. Se podra asignar, por ejemplo, el valor 4 al promedio? Y, el valor 10? Y, el valor 0? De los anteriores valores, cul es el ms adecuado? Explique. c. En cul de los tres casos mencionados en la pregunta anterior, resulta ms fcil medir la distancia del promedio a un determinado valor de la variable? El valor de la media ms adecuado para denir la distribucin normal estndar es 0, pues al tener que medir distancias de un valor a otro tomado como referencia, el caso ms sencillo se da cuando la referencia es 0. Vemoslo en un ejemplo. Suponga que se tienen tres variables distribuidas normalmente, que la desviacin estndar de las tres variables es la misma, por ejemplo, 3,5 y que tienen diferente media. Para cada una de las tres distribuciones, se quiere determinar el rea bajo la curva, comprendida entre el correspondiente promedio y el valor dado a. En la tabla siguiente se da la media de cada una de las tres variables y tambin se da el valor de a.
Distribucin 1 2 3 Media 4,6 19,2 0 Valor de a 8,1 22,7 3,5

Se tiene pues que en los tres casos, la distancia del promedio al valor de a es la misma, 3,5, porque: 8,1 - 4,6 = 3,5 22,7 - 19,2 = 3,5 3,5 - 0 = 3,5

166

Matemticas, Azar, Sociedad

y por tanto el rea bajo la curva es, en los tres casos, la misma: 34%. La explicacin es la siguiente: se sabe que un 68% del rea total corresponde al rea de la regin bajo la curva, que est limitada por los valores que distan 1 desviacin estndar del valor del promedio. Por tanto, como lo que nos interesa es la mitad de tal regin, su rea ser la mitad de 68%.
34% 34% 34%

3,5 4,6

8,1

19,2

22,7

Es importante observar que aunque la respuesta es sencilla de obtener en los tres casos, la situacin ms sencilla, ms natural se tiene en el caso de la distribucin 3. En los tres casos, se hace necesario calcular la distancia del valor especco de la variable al valor de la media de la variable. Para hacer el clculo se hace una resta. Sin embargo, la situacin en la que la resta es inmediata es en el caso en el que la referencia con respecto a la cual se est calculando la distancia es 0. Por esa razn, para construir la distribucin normal estndar preferimos que el valor de la media sea 0 y no otro valor. Para denir completamente la distribucin normal estndar hace falta determinar cul es el valor de la desviacin estndar ms adecuado. Encontrmoslo. d. Explique por qu no se podra asignar el valor 0 a la desviacin estndar, para obtener una distribucin normal. e. Se podra asignar el valor 4 a la desviacin estndar? Y, el valor 10? Y, el valor 1? De los anteriores valores, cul es el ms adecuado? Explique. f. En cul de los tres casos mencionados en la pregunta anterior, se tiene la unidad de medida ms cmoda? El valor de la desviacin estndar ms adecuado para denir la distribucin normal estndar es 1. Vemoslo en un ejemplo. Suponga que se tienen tres variables distribuidas normalmente, que la media de las tres variables es la misma, por ejemplo, 0, y que tienen diferente desviacin estndar. Para cada una de las tres distribuciones, se quiere determinar el rea bajo la curva, com-

Y... el modelo

167

prendida entre el promedio y el valor dado a. En la tabla siguiente se da la desviacin estndar de cada una de las tres variables y tambin se da el valor de a.
Distribucin 1 2 3 Desviacin 2,8 0,8 1 Valor de a 5,6 1,6 2

Se tiene pues que en los tres casos, la distancia del promedio al valor de a, medida en trminos de la correspondiente desviacin estndar es la misma, 2, porque: (5,6 - 0) / 2,8 = 2 (1,6 - 0) / 0,8 = 2 (2 - 0) / 1 = 2 y por tanto el rea bajo la curva es, en los tres casos, la misma: 47,72%. La explicacin es la siguiente: se sabe que un 95,44% del rea total corresponde al rea de la regin bajo la curva, que est limitada por valores que distan 1,96 desviaciones estndar del valor del promedio; por tanto, como lo que nos interesa es la mitad de tal regin, su rea ser la mitad de 95,44%. Es importante observar que aunque la respuesta es sencilla de obtener en los tres casos, la situacin ms sencilla, ms natural se tiene en el caso de la distribucin 3. En los tres casos se hace necesario calcular la distancia del valor especco de la variable al valor de la media de la variable y medir dicha distancia en trminos de la correspondiente desviacin estndar. Para hacer el clculo se hace una divisin. Sin embargo, la situacin en la que la divisin es inmediata es en el caso en el que la unidad de medida, o sea la desviacin estndar es 1. Por esa razn, para construir la distribucin normal estndar preferimos que el valor de la desviacin estndar sea 1 y no otro valor. En efecto, si la distribucin es normal con media igual a 0 y desviacin estndar igual a 1, se habla de la distribucin normal estndar. Esta distribucin representa una idealizacin del comportamiento de cualquier variable que se distribuya normalmente.

168

Matemticas, Azar, Sociedad

s -3 -2 -1 0 1 2 3

Puntajes zz Puntajes

Distribucin normal estndar estndar Distribucin normal

Con respecto a la ltima grca, los valores que aparecen en el eje horizontal no son valores de alguna variable; se llaman puntajes estandarizados o puntajes z y siempre se puede establecer una correspondencia biunvoca entre los valores de cualquier variable que se distribuya normalmente y dichos puntajes. Es decir, siempre que se tenga una variable distribuida normalmente cada valor de esa variable tiene asociado un nico valor de la distribucin normal estndar y todo valor de la distribucin normal estndar tiene asociado un nico valor de la variable. A cada valor negativo de la distribucin normal estndar corresponde un bien determinado valor de la variable, inferior al valor del promedio, mientras que a cada valor positivo de la distribucin normal estndar corresponde un cierto valor de la variable, superior al valor del promedio.

Manejo de la distribucin normal estndar


Cmo se realiza esa correspondencia biunvoca entre valores de la variable y los puntajes z? Existen dos procesos, inversos entre s, mediante los cuales se establece la correspondencia de la cual hemos venido hablando. Vamos a llamarlos estandarizacin y desestandarizacin. A continuacin se aclarar el signicado y la forma de operar con dichos procesos.

Estandarizacin
Una variable X se distribuye normalmente con media igual a 0,8 y desviacin estndar igual a 0,2. La tabla que se presenta a continuacin muestra algunas correspondencias entre valores de la variable X y puntajes z.

Manejo de la distribucin normal estndar

169

valor de la variable puntajes z

0,2 -3

0,4 -2

0,6 -1

0,8 0

1 1

1,2 2

1,4 3

Adems, en la siguiente grca se muestran dichas correspondencias.

Distribucin de x media = 0,8 desv. est. = 0,2

Distribucin normal estndar media = 0 desv. est. = 0

x
0,2 0,4 0,6 0,8 1,0 1,2 1,4 -3 -2 -1 0 1 2 3

Correspondencia entre algunos valores de la variable y los respectivos puntajes z

a. Intente explicar cmo se obtienen esas correspondencias. Puede parecer que en algunos casos es fcil hallar la correspondencia, mientras que en otros casos no. (Por ejemplo, se puede encontrar, por simple inspeccin, el puntaje z asociado al valor 1,4 de la variable, pues 1,4 y la media de la distribucin (0,8) estn a una distancia de (0,6) lo que corresponde a una distancia de 3 veces la correspondiente desviacin estndar. Como 1,4 es superior a la media de la distribucin entonces el puntaje z asociado con 1,4 es (+3). Sin embargo, no es tan evidente cul es el puntaje z asociado al valor 1,16 de la variable.) Entonces debemos encontrar una forma que permita determinar la correspondencia entre un valor de la variable y su respectivo puntaje z, en cualquier caso. Para la distribucin de la variable X denida anteriormente, usted va a encontrar el puntaje z asociado a 0,43. Para ello, responda las siguientes preguntas:

170

Matemticas, Azar, Sociedad b. Haga la grca de la distribucin de la variable X, y en ella localice el promedio y el valor 0,43. Adems, dibuje la distribucin normal estndar y en ella localice la media (0) y ubique de manera aproximada el puntaje z asociado con 0,43. c. El puntaje z, asociado a 0,43, es positivo o negativo? Por qu? d. En la distribucin de la variable, qu distancia hay de 0,43 al promedio? Cmo calcula esa distancia? En la operacin que acaba de realizar, cmo puede indicarse el hecho de que el valor 0,43 es menor que el promedio de la variable? (Tenga en cuenta ese hecho para explicar cmo calcula la distancia entre el promedio y el valor especco de la variable.) e. Comente la siguiente armacin: La distancia que hay entre 0,43 y 0,8 debe ser la misma que haya entre 0 y el puntaje z que se busca. f. En la distribucin de la variable X, cul es la unidad de medida? Y, en la distribucin normal estndar, cul es la unidad de medida? g. Con base en la respuesta anterior, revise su comentario referente a la comparacin de distancias.

En realidad, s interesa saber cul es la distancia que hay entre el promedio y el valor 0,43, pero adems de eso interesa saber cunto es esa distancia en trminos de la unidad de medida, que es la desviacin estndar y que para el caso es 0,2. Dicho de otra manera, es necesario averiguar cuntas veces cabe, la desviacin estndar de la distribucin de la variable, en esa distancia. h. Calcule la distancia en unidades de desviacin estndar que hay entre el valor 0,43 de la variable y el promedio de la misma. i. Qu distancia, medida en desviaciones estndar de la correspondiente distribucin, debe haber entre la media (0) y el puntaje z? Entonces, qu valor asume ese puntaje z? Puesto que las distancias, medidas en unidades de la correspondiente desviacin estndar, entre la media y el valor especco de la variable (en la distribucin de la variable) y la media y el puntaje z (en la distribucin normal

Manejo de la distribucin normal estndar

171

estndar) deben ser iguales y adems la desviacin estndar de la segunda distribucin mencionada es 1, entonces se deduce que la distancia entre la media de esa distribucin (0) y el puntaje z debe ser el nmero que se encontr en el item anterior. j. Explique tan claramente como le sea posible el signicado de la siguiente frase: El puntaje z asociado al valor 1,16 de la variable X es 1,8. k. Compruebe que el puntaje z asociado al valor 1,16 de la variable X es 1,8. (Tenga en cuenta su respuesta al item anterior.) l. Explique tan claramente como le sea posible el signicado de la siguiente frase: El puntaje z asociado al valor 0,54 de la variable X es -1,3. m. Compruebe que el puntaje z asociado al valor 0,54 de la variable X es 1,3. (Tenga en cuenta su respuesta al item anterior.) n. Escriba una receta que le permita encontrar el puntaje z asociado a cualquier valor de la variable. o. Encuentre el valor de la variable, que es superior al promedio de la misma y cuya distancia a l sea de 2,67 veces el valor de la desviacin estndar. p. Encuentre el valor de la variable, que es inferior al promedio de la misma y cuya distancia a l sea de 1,38 veces el valor de la desviacin estndar. Ahora vamos a desarrollar completamente un ejemplo donde se puedan aclarar dudas con respecto al proceso que permite pasar de la distribucin de una variable normal a la distribucin normal estndar. Suponga que una variable se distribuye normalmente, tiene media igual a 6,84 y desviacin estndar igual a 1,63. Se pide encontrar los puntajes z asociados a los valores 3,2 y 7,9 de la variable.

172

Matemticas, Azar, Sociedad

Encontremos el puntaje z asociado al valor 3,2. Para ello vamos a realizar los siguientes pasos: Representamos grcamente la situacin: es decir, en una curva normal localizamos la media de la distribucin de la variable y el valor especco de la variable (3,2). En otra curva normal, representamos la distribucin normal estndar y en ella localizamos la media y el puntaje z que estamos buscando.

media = 6,84 desv. est. = 1,63

3,2 2,23 s

6,84

Distribucin de la variable

Distribucin normal estndar

En la distribucin de la variable, calculamos la distancia que hay entre 3,2 y el valor de la media. Para ello, hacemos la diferencia entre ese par de valores. Sin embargo, aqu es importante indicar si el valor especco de la variable (3,2) es menor o mayor que el valor de la media. Para lograrlo, interesa que el resultado de la diferencia tenga la posibilidad de ser mayor o menor que cero, segn cul sea el caso. Es decir: si el valor de la variable es menor que el promedio, la distancia debera resultar negativa; y si el valor de la variable es mayor que el promedio, la distancia debera resultar positiva. Por eso, para calcular la distancia entre el valor especco de la variable y la media se realiza la diferencia valor de la variable - valor del promedio En el caso que nos ocupa, esa distancia es: 3,2 - 6,84 = -3,64 Expresamos la distancia que hay del valor especco de la variable a la media en unidades de desviacin estndar, es decir, calculamos

Manejo de la distribucin normal estndar

173

cuntas veces cabe la desviacin estndar en esa distancia. Para ello se divide el valor de la distancia entre el valor de la desviacin estndar (valor de la variable - valor del promedio) / (desv. est.) En el caso que nos ocupa, se obtiene: -3,64 / 1,63 = -2,23 En la distribucin normal estndar, el puntaje z que estamos buscando dista de la correspondiente media (0), tanto como, en la distribucin de la variable, el valor especco dista de la media. Por tanto, como la media de la distribucin de puntajes z es 0, el puntaje z buscado es precisamente el ltimo valor encontrado (valor de la variable - valor del promedio) / (desv. est.) En el caso que nos ocupa, el puntaje z asociado a 3,2 es -2,23. Y, se interpreta as: el valor de la variable (3,2) est a la izquierda, y a 2,23 unidades de desviacin estndar del valor del promedio. Ahora bien, encontremos el puntaje z asociado al valor 7,9 de la variable. Primero, representamos grcamente la situacin. Segundo, calculamos la distancia que hay de 7,9 a 6,84: 7,9 - 6,84 = 1,06 Expresamos esa distancia en unidades de desviacin estndar: 1,06 / 1,63 = 0,65 Identicamos el valor 0,65 con el puntaje z que buscamos. Y, se interpreta as: el valor 7,9 de la variable est a la derecha y a 0,65 unidades de desviacin estndar del valor del promedio. El esquema de la situacin se muestra a continuacin:

174

Matemticas, Azar, Sociedad

media = 6,84 desv. est. = 1,63

6,84

7,9

0,65 s Distribucin de la variable

Distribucin normal estndar

Formalicemos un poco lo que se ha hecho en esta seccin. La correspondencia biunvoca que existe entre los valores de una distribucin normal cualquiera y los puntajes z de la distribucin normal estndar se establece a travs de un proceso llamado estandarizacin, el cual se puede resumir mediante la siguiente expresin: (Valor de la variable - media) / desviacin estndar = puntaje z

La reversa en el proceso de estandarizacin


De acuerdo al resultado obtenido anteriormente, a cada valor de una variable distribuida normalmente le corresponde un nico puntaje z de la distribucin normal estndar, mediante la expresin (valor de la variable - media) / desviacin estndar. Ahora, encontremos (no de manera mecnica, sino dando signicado al proceso) la expresin que permite asociar a cada puntaje z de la distribucin normal estndar un bien determinado valor de cualquier variable distribuida normalmente. Una variable se distribuye normalmente, con media igual a 23,56 y desviacin estndar igual a 6,5. Se sabe que el puntaje z asociado a un cierto valor de la variable es 1,67. Se quiere encontrar el valor de la variable. Para ello vamos a realizar los siguientes pasos: Representamos grcamente la situacin: es decir, en la curva normal estndar localizamos la media de la distribucin (0) y el puntaje z = 1,67. Dicho puntaje se ubica a la derecha de la media, por tanto, en la

Manejo de la distribucin normal estndar

175

distribucin de la variable, el valor buscado se encuentra tambin a la derecha de la correspondiente media (23,56). Teniendo en cuenta esto, en otra curva normal, representamos la distribucin de la variable y en ella localizamos la media y sealamos, aproximadamente, el valor que buscamos.
Distribucin normal estndar

Distribucin de la variable

0 1s

1,67

23,56 1 s = 6,5

En la distribucin normal estndar, el puntaje z (1,67) dista de la media (0) tanto como, en la distribucin de la variable, el valor que buscamos dista de la correspondiente media (23,56). Por tanto, se concluye que la distancia que debe haber entre el valor buscado de la variable y la correspondiente media (23,56) medida en unidades de desviacin estndar es 1,67 veces la desviacin estndar. Puesto que la desviacin estndar de la distribucin de la variable es igual a 6,5, entonces, la distancia entre la media de dicha distribucin y el valor buscado es igual a 1,67 x 6,5 = 10,855. Si la distancia de la media al valor buscado es de 10,855 y adems el valor buscado es mayor que la media, entonces para encontrar dicho valor debemos sumar el valor de la media con el de la distancia. Es decir, 23,56 + 10,855 = 34,415. 34,415 es el valor de la variable que es superior a la media y dista 1,67 de desviacin estndar de la media. Veamos otro ejemplo. Una variable se distribuye normalmente, con media igual a 23,56 y desviacin estndar igual a 6,5. Se sabe que el puntaje z asociado a un cierto valor de la variable es -1,89. Se quiere encontrar el valor de la variable. Representamos grcamente la situacin: es decir, en la curva normal estndar localizamos la media de la distribucin (0) y el puntaje z = -1,89. Dicho puntaje se ubica a la izquierda de la media, por tanto,

176

Matemticas, Azar, Sociedad en la distribucin de la variable, el valor buscado se encuentra tambin a la izquierda de la correspondiente media (23,56). Teniendo en cuenta esto, en otra curva normal, representamos la distribucin de la variable y en ella localizamos la media y sealamos, aproximadamente, el valor que buscamos.
Distribucin normal estndar

Distribucin de la variable

-1,89

0 1s

23,56 1 s = 6,5

En la distribucin normal estndar, el puntaje z (-1,89) dista de la media (0) tanto como, en la distribucin de la variable, el valor que buscamos dista de la correspondiente media (23,56). Por tanto, se concluye que la distancia que debe haber entre el valor buscado de la variable y la correspondiente media (23,56) medida en unidades de desviacin estndar es 1,89 veces la desviacin estndar. Puesto que la desviacin estndar de la distribucin de la variable es igual a 6,5, entonces, la distancia entre la media de dicha distribucin y el valor buscado es igual a 1,89 x 6,5 = 12,285. Si la distancia de la media al valor buscado es de 12,285 y adems el valor buscado es menor que la media, entonces para encontrar dicho valor debemos restar al valor de la media el de la distancia. Es decir, 23,56 - 12,285 = 11,275. 11,275 es el valor de la variable que es inferior a la media y dista 1,89 de desviacin estndar de la media. Formalicemos un poco lo que se ha hecho en esta seccin.

Tabla de la distribucin normal

177

Cada puntaje z de la distribucin normal estndar se puede asociar con un nico valor de una variable distribuida normalmente, mediante un proceso llamado desestandarizacin, el cual se puede resumir mediante la siguiente expresin: media (# de desviaciones estndar que hay de la media al valor de la variable) = (valor de la variable) Es decir, media (puntaje z) x (desv. est.) = (valor de la variable)

Tabla de la distribucin normal


Las calicaciones de un examen realizado a los estudiantes del curso de estadstica se distribuyen normalmente, con media igual a 3,2 y desviacin estndar igual a 0,4. Se quiere determinar qu porcentaje del nmero de alumnos obtuvo calicacin entre 2,4 y 4,0. Para ello, responda las siguientes preguntas.

a. Represente grcamente la distribucin de la variable calicacin y localice en ella la media y los valores de la variable que se conocen. b. Estandarice los valores 2,4 y 4,0 y represente esa informacin en la curva normal estndar. Seguramente usted encontr que los puntajes z asociados a 2,4 y 4,0 son respectivamente -2 y 2. La pregunta qu porcentaje del nmero de alumnos obtuvo calicacin entre 2,4 y 4,0? puede entonces reformularse as: qu porcentaje del nmero de alumnos obtuvo calicacin entre -2 y 2? La armacin anterior es cierta gracias a que la distribucin del rea bajo cualquier curva normal siempre es la misma. Y, as reformulada la pregunta su respuesta es inmediata puesto que sabemos que 95,44% del total de las observaciones se encuentra en el intervalo entre 2 desviaciones antes y 2 desviaciones despus de la media.21 Por tanto,
21 Vase la seccin titulada La curva normal.

178

Matemticas, Azar, Sociedad

95,44% de los alumnos que presentaron el examen obtuvieron calicacin entre 2,4 y 4,0. Si la pregunta hubiera sido, por ejemplo, qu porcentaje del nmero de alumnos obtuvo calicacin entre 2,6 y 3,8?, a pesar de que el proceso de solucin es idntico al anterior, con la teora que se ha desarrollado hasta ahora no se habra podido responder tal pregunta puesto que los puntajes z asociados a 2,6 y 3,8 respectivamente son -1,5 y 1,5 y no conocemos qu porcentaje del rea total corresponde al rea bajo la curva normal estndar, entre los valores -1,5 y 1,5. De lo anterior, debe ser evidente la necesidad de conocer la distribucin completa del rea bajo la curva normal. Existe una tabla que da esa distribucin; ahora el problema se centra en aprender a manejarla. La tabla que emplearemos se presenta al nal de este captulo. Veamos una porcin de ella:

0z
z 0,0 0,1 0,2 0,3 ... 1,4 1,5 ,4192 ,4332 ,4207 ,4345 ,4222 ,4357 ,4236 ,4370 ,4251 ,4382 ,4265 ,4394 ,4279 ,4406 ,4292 ,4418 ,4306 ,4429 ,4319 ,4441 0,00 ,0000 ,0398 ,0793 ,1179 0,01 ,0040 ,0438 ,0832 ,1217 0,02 0,008 ,0478 ,0871 ,1255 0,03 ,0120 ,0517 ,0910 ,1293 0,04 ,0160 ,0557 ,0948 ,1331 0,05 ,0239 ,0596 ,0987 ,1368 0,06 ,0239 ,0636 ,1026 ,1406 0,07 ,0279 ,0675 ,1064 ,1443 0,08 ,0319 ,0714 ,1103 ,1480 0,09 ,0359 ,0753 ,1141 ,1517

En primer lugar, la tabla mencionada da el rea de la regin que queda bajo la curva y comprendida entre el valor de la media (0) y un determinado puntaje z, a la derecha de la media. Esto que se acaba de decir, aparece representado grcamente en la parte superior de la tabla. La tabla es un rectngulo de 32 las por 11 columnas. La primera columna de la tabla (encabezamiento) contiene valores que puede asumir el puntaje z.

Tabla de la distribucin normal

179

Esos valores, que varan de dcima en dcima, van desde 0.0 hasta 3.0, es decir, algunos de los valores que se dan en esa columna son: 0,0, 0,1, 0,2, 0,3, 0,4, etc. De esa manera se tienen 31 diferentes puntajes z. La segunda columna (encabezada con 0.00) da el rea de la regin que est bajo la curva y est comprendida entre la media de la distribucin (0) y el valor dado del puntaje z. Por ejemplo, mirando esa segunda columna se sabe que el rea de la regin bajo la curva, comprendida entre 0 y z = 1,60 es 0,4452; tambin se sabe que el rea de la regin bajo la curva, comprendida entre 0 y 2,50 es 0,4938; etc. A pesar de que en la primera columna slo hay 31 valores para el puntaje z, es posible considerar ms de 31 valores para el puntaje z, y por tanto, es posible saber el rea para muchos ms casos. Cmo? Para eso consideremos la primera la, la encabezada por z. En esa la aparecen los valores 0,00, 0,01, 0,02, hasta 0,09. Pues bien, teniendo en cuenta la primera columna y la primera la de la tabla es posible armar, por ejemplo, el valor 1,56 para z. Para hacerlo, mire en la primera columna el valor 1,5 y en la primera la, el valor 0.06; en la interseccin de la la encabezada por 1,5 con la columna encabezada por 0,06, encuentra el rea de la regin bajo la curva comprendida entre 0 y el puntaje z = 1,56. Esa rea es 0,4406.

a. Compruebe que el rea de la regin bajo la curva, comprendida entre 0 y el puntaje 2,18 es 0,4854. b. Compruebe que el rea de la regin bajo la curva, comprendida entre 0 y el puntaje 1,07 es 0,3577. c. Volvamos a la situacin planteada al inicio de esta seccin: la calicacin de los alumnos en un examen se distribuye normalmente con media igual a 3,2 y desviacin estndar igual a 0,4. Se quiere saber qu porcentaje del nmero de alumnos obtuvo calicacin entre 2,6 y 3,8. Al reformular la pregunta, en trminos de puntajes z (eso ya se hizo anteriormente) lo que interesa conocer es el rea bajo la curva normal comprendida entre los puntajes -1,5 y 1,5. Verique que la armacin siguiente es correcta y explique. Un 86,64% del nmero total de alumnos que presentaron el examen obtuvo calicacin entre 2,6 y 3,8.

180

Matemticas, Azar, Sociedad

Notacin
Hasta el momento no hemos utilizado ninguna forma de abreviar y de notar el rea de la regin bajo la curva, comprendida entre 0 y un determinado puntaje z, a la derecha de la media (0). Vamos, entonces, a adoptar dicha convencin. Primero, utilizaremos la convencin para un par de casos particulares y luego, la emplearemos para el caso general:
Notacin P(0 < z < 1,60) = 0,4452 P(0 < z < 2,50) = 0,4938 P(0 < z < a) =A P(c< < z < d) =B Signicado el rea de la regin bajo la curva, comprendida entre 0 y 1,6 es 44,52% el rea de la regin bajo la curva, comprendida entre 0 y 2,5 es 49,38% el rea de la regin bajo la curva, comprendida entre 0 y a es A el rea de la regin bajo la curva, comprendida entre c y d es B

Manejo de la tabla
A pesar de que la tabla slo da informacin del rea de una regin bajo la curva, que est comprendida entre 0 y un puntaje z positivo, es posible calcular el rea de cualquier regin bajo la curva. Para ello se utiliza el hecho de que la curva es simtrica con respecto a la vertical que pasa por 0 y adems, la posibilidad de expresar el rea de una regin como suma de las reas de varias regiones, o como la diferencia de las reas de dos regiones. Veamos los siguientes ejemplos. Ejemplo 1. Determinar el rea de la regin bajo la curva, que est comprendida entre 0 y el puntaje z = -2,67. Puesto que la curva normal estndar es simtrica con respecto a la vertical que pasa por 0, la regin bajo la curva comprendida entre -2,67 y 0 tiene la misma rea que la regin bajo la curva comprendida entre 0 y 2,67. Por tanto, como el rea de la ltima regin mencionada es 49,62% del rea total bajo la curva, entonces el rea que estamos buscando es tambin 49,62% del rea total.

Tabla de la distribucin normal

181

49,62%

-2,67

2,67

Lo anterior puede notarse de la siguiente manera: P(-2,67 < z < 0) = P(0 < z < 2,67) P(0 < z < 2,67) = 0,4962 Por tanto, P(-2,67 < z < 0) = 49,62%. Ejemplo 2. Determinar el rea de la regin bajo la curva, a la derecha del puntaje z = 2,67.

z
0 2,67

Para este caso, la tabla no da el rea buscada. Por tanto, debemos encontrarla de manera indirecta. Conviene, entonces, expresar el rea pedida como suma o diferencia de reas que se puedan conocer por medio de la tabla. El rea de la regin que nos interesa se puede expresar como la diferencia de dos reas. Puesto que la curva normal estndar es simtrica con respecto a la vertical que pasa por 0, dicha vertical divide la regin bajo la curva en dos regiones de igual rea y el rea de cada una de ellas es el 50% del rea total. Por otro lado, se sabe que el rea de la regin bajo la curva, comprendida entre 0 y el puntaje 2,67 es 49,62%. Si al rea de la regin bajo la curva, que est a la derecha de la media se le quita el rea de la regin bajo la curva, comprendida entre 0 y 2,67 se obtiene el rea buscada. Es decir, el rea buscada es 0,5 - 0,4962 = 0,0038.

182

Matemticas, Azar, Sociedad

Lo anterior puede notarse de la siguiente manera: P(z > 0) = 0,5 P(0 < z < 2,67) = 0,4962 P(z > 0) - P(0 < z < 2,67) = P(z > 2,67) Por tanto, P(z > 2,67) = 50% - 49,62% = 0,38%
50% 49,62%

2,67

0,38%

z
0 2,67

Ejemplo 3. Determinar el rea de la regin bajo la curva, que est comprendida entre los puntajes -2,67 y 1,98.
?

z
-2,67 0 1,98

Nuevamente en este caso, la tabla no da el rea buscada. Por tanto, debemos encontrarla de manera indirecta. Conviene, entonces, expresar el rea pedida como suma o diferencia de reas que se puedan conocer por medio de la tabla. El rea de la regin que aqu nos interesa se puede expresar como la suma de dos reas.

Tabla de la distribucin normal

183

Podemos descomponer la regin cuya rea se busca en dos regiones: una, la comprendida entre -2,67 y 0, y la otra regin, la comprendida entre 0 y 1,98. De esa manera, el rea buscada ser la suma de las reas de las dos regiones antes mencionadas. Por el ejemplo 1, sabemos que el rea de la regin comprendida entre -2,67 y 0, es 49,62% del rea total. Y buscando directamente en la tabla se encuentra que el rea de la regin comprendida entre 0 y 1,98 es 47,61% del rea total. Por tanto, el rea buscada es la suma de 49,62% y 47,61%. Lo anterior puede notarse de la siguiente manera: P(-2,67 < z < 1,98) = P(-2,67 < z < 0) + P(0 < z < 1,98) P(-2,67 < z < 0) = P(0 < z < 2,67) = 49,62% P(0 < z < 1,98) = 47,61% Por tanto, P(-2,67 < z < 1,98) = 49,62% + 47,61% = 97,23%
49,62% 47,61%

-2,67

z
97,23%

1,98

z
-2,67 0 1,98

Ejemplo 4. Determinar el rea de la regin bajo la curva, que est comprendida entre los puntajes de z iguales a 1,82 y 2,69. Tambin en este caso, es necesario expresar la regin cuya rea se est buscando en trminos de dos regiones cuyas reas sea posible buscar en la tabla.

184

Matemticas, Azar, Sociedad

z
0 1,82 2,69

(Recuerde que dichas regiones siempre estn comprendidas entre 0 y un valor positivo de z). El rea de la regin que aqu nos interesa se puede expresar como la diferencia de dos reas. Primero, buscamos el rea de la regin comprendida entre 0 y 2,69 y a ella le sustraemos el rea de la regin comprendida entre 0 y 1,82. Luego, el rea buscada es el resultado de la diferencia entre 0,4964 y 0,4656. P(1,82 < z < 2,69) = P(0 < z < 2,69) - P(0 < z < 1,82) P(0 < z < 2,69) = 0,4964 P(0 < z < 1,82) = 0,4656 Por tanto, P(1,82 < z < 2,69) = 49,64% - 46,56% = 3,08%
49,64% 46,56%

2,69

1,82

?=3,08%

z
0 1,82 2,69

En la tabla que hemos venido manejando hay involucrados dos tipos de datos: los puntajes z y las reas asociadas con ellos. Ya se explic cmo leer la tabla en caso de que se conozca el puntaje z y lo que se quiera encontrar sea el rea asociada. Falta, entonces, hacer referencia al caso en que se conozca el

Tabla de la distribucin normal

185

rea asociada a un determinado puntaje z y lo que se quiera sea determinar dicho puntaje z. En realidad, el proceso que debe efectuarse es la reversa del anterior. Veamos unos ejemplos. Ejemplo 5. Se sabe que el rea de una regin, bajo la curva, que est comprendida entre 0 y un cierto puntaje z (mayor que 0) es 0,4744. Se quiere determinar dicho puntaje. Si se expresa el enunciado del ejercicio usando la notacin correspondiente se tiene que: P(0 < z < a) = 0,4744 Para encontrar el valor de a se procede de la manera siguiente: primero se busca en el interior de la tabla el valor 0,4744 o el nmero ms cercano a l. Cuando se haya encontrado, la ubicacin de dicho nmero en la tabla se puede considerar como la interseccin de una la y de una columna se procede a mirar los encabezamientos de la la y la columna (en ese orden) que determinan la ubicacin de dicho nmero. Y esos encabezamientos permiten obtener el puntaje z buscado. Para este caso, se tiene que el valor 0,4744 est ubicado en la la encabezada por z = 1,9 y en la columna encabezada por 0,05. Por tanto, el valor correspondiente de z es 1,95. Ejemplo 6. Se sabe que el rea de una regin, bajo la curva, que est comprendida entre un cierto puntaje z (menor que 0) y 0 es 0,4744. Se quiere determinar dicho puntaje. Si se expresa el enunciado del ejercicio usando la notacin correspondiente se tiene que:22 P(-a < z < 0) = 0,4744 Ya se ha mencionado en repetidas ocasiones que la tabla slo tiene valores positivos de z. Por tanto, en este caso el valor de -a se busca de manera indirecta, utilizando para ello el hecho de que la curva es simtrica con respecto de la vertical que pasa por la media. Se sabe que el rea comprendida entre -a y 0 es la misma rea que hay comprendida entre 0 y a. Adems, se sabe que
22 El puntaje que se busca es negativo y lo estamos representando con -a.

186

Matemticas, Azar, Sociedad

dicha rea es 0,4744. Utilizando, entonces, el ejemplo anterior se tiene que el valor de a es 1,95 y por consiguiente el valor de -a es -1,95. Lo anterior puede notarse de la siguiente manera: P(-a < z < 0) = 47,44% P(-a < z < 0) = P(0 < z < a) Por tanto, P(0 < z < a) = 47,44% y de ah se obtiene que a = 1,95.

a. Encuentre los siguientes nmeros: P(0 < z < 2,8) P(-1,6 < z < 0) P(-1,6 < z < 2,8) P(1,2 < z < 2,5) P(z < -2,3) P(z < 1,9) P(z > 2,19)

b. Encuentre el valor de a, si se sabe que: P(0 < z < a) = 0,2580 P(-a < z < a) = 0,4582 P(-x < z < x) = 0,3830 P(-y < z < x) = 0,8830 P(-x < z < 0) = 0,3830

Para terminar: de vuelta a los problemas


Al iniciar este captulo, en la seccin Motivacin se plantearon dos problemas cuya solucin est an pendiente. Ya tenemos las herramientas necesarias para resolverlos y por tanto vamos a solucionarlos a continuacin.

Para terminar: de vuelta a los problemas

187

Problema 1. Se sabe que el promedio ponderado en su universidad se distribuye normalmente, con media igual a 3,62 y desviacin estndar igual a 0,34. Si su promedio ponderado es 3,6, determine el porcentaje de alumnos cuyo promedio ponderado es inferior al suyo. En realidad no se conoce la distribucin de la variable en la poblacin, pero como se sabe que tal distribucin es aproximadamente normal, entonces es vlido tomar como modelo para el caso, la distribucin normal estndar. Primero. Conviene hacer una grca que represente la situacin planteada en el enunciado del problema, lo cual incluye localizar en la grca el valor de la media, el valor particular de la variable y adems sombrear la regin bajo la curva, cuya rea es el dato que se debe averiguar.
?

x
3,6 3,62

Distribucin real del promedio ponderado (suposicin)

3,6 3,62

z0

Distribucin "ideal" del promedio

Distribucin normal estndar

Segundo. Se hace la grca del modelo sobre el cual se va a resolver el problema la distribucin normal estndar; en esa grca se localiza la media, el puntaje z asociado al valor 3,6 y se sombrea la correspondiente regin bajo la curva. Tercero. Se determina el valor del puntaje z:

188

Matemticas, Azar, Sociedad

En la distribucin de la variable, el valor de inters en este caso es 3,6. Cul es el puntaje z asociado a dicho valor? Para responder a esa pregunta, hay que considerar que la distancia entre dicho valor y la media, (0), --medida en unidades de desviaciones estndar-- debe ser igual a la distancia que hay entre la media de la distribucin de la variable, (3,62) y el valor 3,6 de la variable, -distancia, medida tambin en unidades de desviacin estndar--. Por tanto, se tiene que: 3,6 - 3,62 = -0,02 (distancia del valor especco de la variable a la media) -0,02 /0,34 = -0,05882 (distancia del valor especco de la variable a la media, medida en unidades de desviacin estndar) Por tanto, el puntaje z que se buscaba es z = -0,05882 Cuarto. Se emplea la tabla para determinar el rea de la regin sombreada en la distribucin normal estndar. Dicho en otras palabras, lo que se quiere determinar es: P(z < -0,05882) Sin embargo, dicha rea no se encuentra directamente en esa tabla. Para calcular el rea deseada puede hacerse lo siguiente: la situacin que debe resolverse puede replantearse es: P(z < 0) - P(-0,05882 < z < 0)
? = 50% ?

-0,058 0

Debe, entonces, determinarse el valor de P(-0,05882 < z < 0), pero como ese valor no aparece en la tabla, debe buscarse el rea de la regin que est comprendida entre 0 y 0,05882 y ese valor sirve, pues las regiones son simtricas y por tanto tienen la misma rea. P(0 < z < 0,058) = 0,0239 (aproximadamente)

Para terminar: de vuelta a los problemas Por tanto, P(-0,058 < z < 0) = 0,0239 (aproximadamente)
? = 2,39%

189

z
0 0,058

Y, para determinar P(z < -0,058), calculamos: P(z < 0) - P(-0,05882 < z) 0,5 - 0,0239 = 0,4761 = 47,61% De lo anterior se concluye que el rea de la regin sombreada corresponde a un 47,61% del rea total bajo la curva.
? = 47,61%

z
-0,058 0

Quinto. Como el rea se distribuye siempre de la misma manera en las distribuciones normales, entonces se deduce que el rea de la regin sombreada en la grca de la distribucin de la variable, tambin es 47.61% del rea total bajo la curva. Sexto. Como el rea bajo la curva se puede interpretar como la proporcin de observaciones, entonces se tiene que el porcentaje de alumnos de la universidad cuyo promedio ponderado es inferior a 3,6 es 47,61%

190

Matemticas, Azar, Sociedad

? = 47,61%

x
3,6 3,62

Distribucin de la variable

Problema 2. Se sabe que la estatura de los estudiantes varones de su universidad se distribuye normalmente, con media igual a 1,70 metros y desviacin estndar igual a 0,04 metros. Cul es la estatura mnima que debe tener un estudiante varn de la universidad, para poder pertenecer al equipo de baloncesto, si se quiere que quienes conformen el equipo tengan una estatura superior a la del 90% de la poblacin? En realidad no se conoce la distribucin de la variable en la poblacin, pero como se sabe que tal distribucin es aproximadamente normal, entonces es vlido tomar como modelo para el caso, la distribucin normal estndar.
90%

x
1,70 ? Distribucin real de la estatura (suposicin)

90%

90%

? Distribucin "ideal" de la estatura

? Distribucin normal estndar

Para terminar: de vuelta a los problemas

191

Primero. Conviene hacer una grca que represente la situacin planteada en el enunciado del problema, lo cual incluye localizar en la grca el valor de la media, sombrear la regin bajo la curva, cuya rea se conoce y marcar el valor de la variable que se debe averiguar. Segundo. Se hace la grca del modelo sobre el cual se va a resolver el problema; en esa grca se localiza la media, se sombrea la regin bajo la curva, que corresponde a la regin sombreada en la primera grca, y se localiza el puntaje z asociado al valor de la variable que se debe averiguar. Tercero. Puesto que se conoce el rea de una regin, se busca en la tabla el valor del puntaje z:
50% 40%

z
0 ? = 1,28

Porcentaje de rea bajo la curva 90% (50% + 40%, el 50% corresponde al rea de la regin a la izquierda de la media 0, y el 40% restante es el rea bajo la curva, entre 0 y el valor z (desconocido); esta ltima rea es la que se busca en el interior de la tabla, para as poder determinar el valor z). P(0<z<z 0 )=0,40 z 0 =1,28 Cuarto. En el modelo se tiene toda la informacin involucrada en el problema; entonces es necesario, pasar del modelo a la distribucin de la variable estatura. Para ello, en la frmula para estandarizar, se dan los valores conocidos y solucionando la ecuacin que queda planteada, se encuentra el valor desconocido de la variable. (?-1,70)/ 0,04= 1,28 ? =1,7512

192

Matemticas, Azar, Sociedad

90%

x
1,72 ? = 1,7512

Distribucin de la variable

Quinto. La estatura mnima que debe tener un estudiante varn para poder pertenecer al equipo de baloncesto es 1,7512 metros.

A practicar
1.- Para cada una de las distribuciones de frecuencia descritas a continuacin, establezca su forma. a. La estatura de los estudiantes de la universidad. b. La edad de los estudiantes de este curso. c. El primer dgito del nmero telefnico de todos sus amigos residentes en Bogot. d. El nmero de caras observadas al lanzar, simultneamente, 5 monedas un nmero muy grande de veces. e. El ingreso mensual de todos los empleados de una empresa. f. El tiempo que usted gasta para llegar de su casa a la universidad cada maana. g. El nmero obtenido en la cara superior de un dado normal al lanzarlo un nmero muy grande de veces.

A practicar

193

h. El resultado obtenido de sumar los puntos de las caras superiores de dos dados normales al lanzarlos simultneamente un nmero muy grande de veces. i. El nmero de veces que aparece cada vocal (ordnelas alfabticamente) en esta oracin. 2.- Enumere las caractersticas de la distribucin normal. 3.- Suponga que la estatura de todos los estudiantes de su universidad tiene una distribucin aproximadamente normal. a. Determine el porcentaje de la poblacin cuya estatura est comprendida entre el valor de la estatura promedio y el valor de la estatura que est a 1,5 unidades de desviacin estndar por encima de la estatura promedio. b. Determine el porcentaje de la poblacin cuya estatura est comprendida entre el valor de la estatura que est a 2,25 unidades de desviacin estndar por debajo de la media y el valor de la estatura que est a 2,75 unidades de desviacin estndar por encima del valor de la estatura promedio. c. Determine el porcentaje de la poblacin cuya estatura es inferior al valor de la estatura que est a 1,75 unidades de desviacin estndar de la media y por debajo de ella. 4.- Los pesos de 1.500 estudiantes varones estn normalmente distribuidos con media igual a 66 kilos y desviacin estndar igual a 6 kilos. a. Determine el nmero de estudiantes del grupo que tienen peso igual o inferior a 51 kilos. b. Determine el nmero de estudiantes del grupo que tienen peso entre 54 y 81 kilos. c. Si se selecciona al azar, un estudiante de ese grupo, qu probabilidad hay de que l tenga peso igual o superior a 72 kilos? 5.- Las calicaciones obtenidas por 200 alumnos en un examen de historia se distribuyen normalmente con media igual a 3,7 puntos y desviacin estndar igual a 0,5 puntos.

194

Matemticas, Azar, Sociedad a. Determine el porcentaje de alumnos que obtuvo nota inferior a 3,0 puntos. b. Determine cuntos alumnos obtuvieron calicacin entre 2,7 puntos y 4,45 puntos. c. Qu calicacin debi obtener un alumno que estuvo mejor que el 98,78% del grupo?

6.- Mediante algunos estudios se ha establecido que el consumo de gasolina de los carros medianos se distribuye normalmente con un consumo promedio de 26 kilmetros por galn y con una desviacin estndar de 4 kilmetros por galn. a. Determine el porcentaje de carros medianos que hacen 34 o ms kilmetros por galn. b. Determine cuntos kilmetros por galn debe recorrer un nuevo carro mediano, si se quiere que ste tenga mejor rendimiento que el 95% de los autos medianos existentes. 7.- Las calicaciones de un curso estn distribuidas normalmente con media igual a 3,8 y desviacin estndar igual a 0,75. 10% de los estudiantes, los mejores, reciben mencin de honor y 15% los peores, pierden el curso. Determine la calicacin mnima para: a. Recibir mencin de honor. b. Aprobar el curso. 8.- Las ventas diarias de un almacn tienen una distribucin aproximadamente normal con media igual a $60.000 diarios y desviacin estndar igual a $5.000 diarios. a. Cul es la probabilidad de que un da cualquiera, el almacn haga ventas por ms de $72.000? b. El almacn debe tener por lo menos $49.000 en ventas diarias para poder cubrir sus costos. Cul es la probabilidad de que no pueda cubrir sus costos un da determinado?

A practicar

195

9.- A raz de las medidas tomadas por el gobierno para bajar el nivel de inacin en la economa colombiana, a travs del incremento en el nivel de ahorro de las familias y del consiguiente aumento en la inversin y en la produccin, un estudiante de Ciencia Poltica emprendi un estudio en marzo de 1991 con el propsito de conocer qu parte del ingreso de las familias de su barrio (estrato medio alto) se destinaba para el ahorro y con ello determinar alrededor de qu medida de tendencia central se agrupaba el nivel de ingreso de las familias de la zona. Para realizar su estudio, determin el nmero de manzanas de su barrio (60 en total), las enumer y de algunas de ellas escogi al azar una familia a la cual entrevist. En resumen: escogi, al azar, una familia de las manzanas #1, # 3, # 5, # 7, etc., de manera que al nal conform una muestra de 30 familias residentes en su barrio, las visit y encontr que la cantidad promedio destinada mensualmente al ahorro era de $132.800 con una desviacin estndar igual a $3.225. Adems, sabe que la variable se distribuye normalmente. a. Qu variable se est midiendo y de qu tipo es? b. Cul es el objetivo de la investigacin? c. Qu porcentaje de las familias encuestadas destinan al ahorro entre $131.000 y $140.000 mensualmente? d. Suponga que de la muestra obtenida se quiere seleccionar al azar una familia que destine para el ahorro ms de $142.000. Cul es la probabilidad de lograr tal suceso? Explique detalladamente el proceso empleado para solucionar el problema. e. Despus de que el estudiante tom la muestra y la describi, decidi ampliar su investigacin sobre las familias que destinan menos cantidad de sus ingresos para el ahorro. En esta ocasin, slo visit el 5% de las familias de la muestra que menos dinero destinan mensualmente para el ahorro. Determine cunto es el mximo ahorro mensual que hacen dichas familias. f. Comente si la siguiente armacin es verdadera o es falsa y justique su respuesta. El 68% de los residentes en el barrio destina mensualmente al ahorro entre $136.000 y $199.000.

196

Matemticas, Azar, Sociedad

10.- Se realiz un estudio en la Universidad X para estimar la edad promedio de los estudiantes de dicha universidad que sufragaron en las elecciones pasadas para elegir alcalde. Tomaron una muestra de 300 estudiantes de la poblacin y encontraron que la variable se distribuye normalmente, la edad promedio es 24 aos y tiene desviacin estndar de 2,2 aos. Uno de los investigadores hace las siguientes armaciones con respecto a la muestra: Menos del 1% de los estudiantes considerados en la muestra tienen entre 18 y 19 aos. El 20% de los estudiantes ms viejos considerados en la muestra tienen ms de 25 aos. Aproximadamente 279 de los estudiantes considerados en la muestra tienen entre 20 y 28 aos. Si se selecciona, al azar, un estudiante de esa muestra, la probabilidad de que ste tenga menos de 19 aos o ms de 25 es 0,338. a. Determine cul es la poblacin y cul es la muestra de estudio para el grupo de politlogos. b. Cul es el objetivo de la investigacin? c. Cul es la variable de inters y de qu tipo es? d. Con respecto a las armaciones hechas acerca de la muestra diga si son verdaderas o no y en cada caso justique detalladamente su respuesta. 11.- Una psicloga aplic una serie de pruebas proyectivas a los nios de tercero elemental de un colegio, con el n de conocer determinados aspectos psicolgicos de ellos. Para realizar dichas pruebas, los nios deban pintar el cuerpo humano, su familia y contar algo acerca de lo que haban pintado. La psicloga interpret la realizacin de cada nio y lo que dijo, y asign un puntaje entre 0 y 5 de acuerdo a ciertos items ya establecidos. Una vez terminadas las pruebas, promedi los puntajes y encontr que la distribucin de stos es aproximadamente normal con media x = 3,6 >y desviacin estndar s = 0,5. a. Si se considera que los nios con un puntaje menor o igual a 2,5 tienen problemas psicolgicos, calcule el porcentaje de nios bajo prueba que presentan dichos problemas. b. Si se considera que los nios con un puntaje mayor o igual a 4,6 presen-

A practicar

197

tan indicios de que son superdotados, qu porcentaje de los nios bajo prueba presentan estos indicios? c. Determine entre qu par de puntajes debe estar ubicado el promedio obtenido por un alumno que haga parte del montn conformado por el 80% del total de la muestra (es decir, se excluye el 10% de los que tienen el peor puntaje y tambin se excluye el 10% de los que tienen el mejor puntaje). 12.- El enfoque funcionalista del lenguaje se centra en el anlisis de las funciones que cumple el lenguaje dentro del proceso de comunicacin. Los polticos, personas con gran capacidad oratoria y comunicativa, tienen que manejar las diferentes funciones, especialmente la emotiva y potica, para lograr que sus palabras impacten y convenzan a su auditorio. Preocupado por el importante papel del discurso en la contienda electoral, un asesor de campaa de un candidato al Senado de la Repblica adelant una investigacin que pretenda estudiar el poder de convencimiento del candidato. Para esto, encuest a 20 personas despus de las cinco primeras intervenciones del candidato, en plaza pblica, pidiendo a los encuestados que calicaran sobre 5,0 qu tan verdaderas les haban parecido las armaciones del candidato durante el discurso. Se encontr como media de la muestra 3,7 y como desviacin estndar 0,35. a. Cul es la muestra de estudio? b. Atendiendo a los valores de la media y de la desviacin estndar encontrados en la muestra, cree usted que el problema pueda trabajarse usando el modelo de la distribucin normal? Justique su respuesta. Para contestar las siguientes preguntas suponga que la variable se distribuye normalmente. c. Cul es la probabilidad de que una persona no le crea al candidato? (Piense en la calicacin mnima que usted debe obtener para aprobar un quiz calicado sobre 5,0.) d. Qu porcentaje de personas s le creen al candidato? e. Cul es la calicacin que indica que el 80% de las personas creen en el candidato?

198

Matemticas, Azar, Sociedad f. Entre qu par de valores se encuentra el 70% de las calicaciones si se sabe que del 30% restante, 17% no le creen y 13% s?

13.- Uno de los fenmenos de estudio ms comunes dentro de los enfoques normativos de la sociolingstica es el uso de dos lenguas en un mismo contexto, es decir, el bilingismo. Muchas investigaciones han mostrado la relacin entre la conducta verbal y una variedad de factores psicolgicos y sociales,23 e incluso sociolingistas como Joshua Fishman han desarrollado la teora de que, en comunidades bilinges con diglosia,24 los miembros de tal comunidad tienden a utilizar un discurso que expresa intimidad, solidaridad, espontaneidad e informalidad en dominios lingsticos25 informales como la familia o el grupo de amistad; mientras que en dominios ms formales como la educacin, la ocupacin o la religin, las personas tienden a utilizar un discurso que involucra diferencias de status, ritos o formalidad.26 Con el fin de estudiar las particularidades de la comunidad bilinge de puertorriqueos en Nueva York, se adelant una investigacin que, por medio de pruebas aplicadas a 215 miembros de la comunidad, meda la cantidad de ingls que la persona usara en determinado dominio. Las personas deban calificar de 0 a 5 (donde 0 indica que no hay uso del ingls y 5 indica que la comunicacin es toda en ingls) el lenguaje que usaran en una situacin hipottica presentada. Los resultados de las pruebas fueron:
Dominio familia media, x desviacin estndar, s tamao de la muestra, n 23 2,26 1,15 215 amistad 2,70 1,22 215 religin 4,09 1,19 215 educacin 4,83 0,79 215 trabajo 4,50 0,67 215

Greeneld, Lawrence. Situational Measures of Normative Language Views in Relation to Person, Place end Topic among Puerto Rican Bilinguals. Advances in the Sociology of Language, Joshua Fishman ed. Paris, Mouton Publishers, 1972, p. 17. 24 La diglosia es la diferenciacin que las personas bilinges hacen sobre cundo, dnde y con quin se debe hablar uno u otro idioma. 25 Un dominio lingstico es el contexto institucional dentro del cual el uso habitual del lenguaje tiene lugar. En esta investigacin se identicaron cinco dominios: familia, amistad, religin, educacin y trabajo, ordenados segn su grado de formalidad. 26 Ibid., pp. 16-20.

A practicar a. Cul es el problema de estudio? b. En sus palabras, exponga el marco terico de la investigacin.

199

c. Haciendo uso de la informacin presentada, determine si las siguientes armaciones son verdaderas: La probabilidad de que una persona hable todo en ingls aumenta a medida que aumenta la formalidad del dominio. El porcentaje de observaciones por encima de la calicacin que indica igual cantidad hablada de ingls y espaol aumenta con la formalidad del dominio. El porcentaje de observaciones contenidas a dos desviaciones estndar de la media (x + 2s) es igual para todos los dominios. d. Tomando en cuenta las respuestas anteriores, estas distribuciones son aproximadamente normales? Justique su respuesta. e. Proponga una manera de arreglar la informacin presentada de tal forma que el problema s pueda ser resuelto utilizando la distribucin normal. 14.- En el examen de estadstica hecho a un grupo de 150 alumnos, la calicacin promedio fue 78 y la desviacin estndar 8. En el examen nal de ingls realizado al mismo grupo de estudiantes, la calicacin promedio fue 73 y la desviacin estndar fue 7,6. Para responder las siguientes preguntas, suponga que la distribucin de las calicaciones en ambas materias es normal. a. Si Andrs es estudiante de tal curso y obtuvo 75 en estadstica y 71 en ingls, en cul de los dos exmenes tuvo una calicacin relativa superior? Explique. b. Si en el examen de ingls, una persona pasa con una calicacin de 60 o ms, cuntos alumnos del curso pasaron? c. Si en el examen de estadstica, la calicacin de un alumno est por encima de la calicacin del 90% del grupo, cul es dicha calicacin?

Estadstica inferencial

Introduccin
En este captulo se tratarn generalidades referentes a la estadstica inferencial. En primer lugar, se presentarn cuatro problemas cuyas soluciones ataen a esa rama de la estadstica. La intencin que se tiene al proponer dichos enunciados es identicar algunos tipos de preguntas que se pueden responder con la ayuda de la estadstica (no se solucionarn en este captulo). En la siguiente seccin se responder a preguntas tales como: qu es inferir, por qu es necesario hacer inferencia, cules son los procesos de inferencia utilizados, qu tan vlidos son los procesos de inferencia, y nalmente se denir el concepto de distribucin muestral. En la tercera seccin se har referencia a la distribucin muestral de medias. Y en la ltima seccin se trabajar la distribucin muestral de diferencias de medias.

Motivacin
A continuacin se enuncian cuatro problemas. Lalos, tratando de identicar qu se quiere hacer en cada uno de ellos. Adems, imagnese que es usted quien est enfrentado a cada una de esas situaciones problemticas y por tanto es usted quien debe decidir qu informacin se requiere para dar solucin al problema. Problema 1. Con el n de revisar algunas clusulas de las plizas de seguros de vida, un corredor de seguros quiere determinar la edad promedio de muerte de adultos que fallecen de manera natural en la ciudad X. Problema 2. En un centro de esttica, durante los ltimos seis meses, se han estado empleando dos tratamientos diferentes para reducir de peso (T1 y T2). El tratamiento T1 se ha aplicado a un grupo G1, mientras que el tratamiento T2 se

Motivacin

201

ha aplicado a un grupo G2. Ambos grupos estn formados por adultos cuyas edades oscilan entre 25 y 35 aos, que tienen problemas de obesidad. El tratamiento T2 es sustancialmente ms costoso que el T1. El mdico del centro quiere determinar entre qu par de valores se puede esperar que est la diferencia en los pesos medios rebajados despus de los tratamientos para tomar decisiones hacia el futuro con respecto al tratamiento que debe ofrecer el centro. Problema 3. El productor de cigarrillos de la marca A arma que el contenido medio de nicotina por cigarrillo es de 0,30 miligramos. Un grupo de mdicos quiere vericar si es posible aceptar como cierta la armacin hecha. Problema 4. Un profesor de pre-escolar conoce dos mtodos para ensear a leer y sospecha que el mtodo A produce mejores resultados que el mtodo B. El quiere vericar su hiptesis.

a. Qu se pide hacer en cada uno de los problemas? Sea tan explcito como le sea posible. b. Compare los enunciados de los problemas 1 y 3, en trminos de lo que se pide realizar en cada uno de ellos. c. Compare los enunciados de los problemas 1 y 2, en trminos de lo que se pide realizar en cada uno de ellos. d. Si usted quisiera abordar las situaciones problemticas planteadas, que informacin debera tener? Para cada caso, sea tan explcito como le sea posible. e. Se da usted cuenta de la presencia del azar en las situaciones problemticas expuestas? Explique su respuesta. f. Proponga un problema (ojal que tenga que ver con su carrera) cuyo enunciado sea del mismo tipo que el de alguno de los dos primeros problemas planteados. g. Proponga un problema (ojal que tenga que ver con su carrera) cuyo enunciado sea del mismo tipo que el de alguno de los dos ltimos problemas planteados.

202

Matemticas, Azar, Sociedad

Al analizar los enunciados de los problemas se encuentran algunas semejanzas y tambin algunas diferencias; precisamente a travs de las diferencias y las semejanzas que se detecten, intentaremos lograr una descripcin general de los problemas que centrarn nuestro inters en lo que resta del texto. Miremos con algn detalle los diferentes enunciados. En el primer problema se quiere hacer una generalizacin sobre la poblacin de adultos que fallecen, de manera natural, en la ciudad X; el aspecto de inters que se est cuanticando es la edad que tiene la persona a la hora de su muerte; lo que se quiere hacer es determinar la edad promedio de muerte en la correspondiente poblacin. Para responder a esta pregunta es necesario contar con una muestra aleatoria extrada de la poblacin de datos. En el segundo problema se quiere hacer una generalizacin sobre la poblacin de adultos de edades entre 25 y 35 aos, que tienen problemas de obesidad y que llegan al centro de esttica mencionado con la intencin de seguir tratamiento para reducir de peso; el aspecto de inters que se est cuanticando es el peso rebajado por quienes siguen tratamiento para reducir de peso; lo que se quiere hacer es determinar la diferencia en los pesos medios rebajados, de quienes conforman la poblacin. Para responder a esta pregunta es necesario contar con dos muestras aleatorias e independientes entre s: una, (M1), que registre el peso rebajado por las personas del grupo G1 y, otra muestra, (M2), que registre el peso rebajado por las personas del grupo G2. En el tercer problema se quiere hacer una generalizacin sobre la poblacin de cigarrillos de la marca A; el aspecto de inters que se est cuanticando es la cantidad de nicotina presente en cada cigarrillo; en este problema ya no interesa determinar un cierto valor de la poblacin; ahora se tiene una hiptesis acerca del contenido medio de nicotina de un cigarrillo de la marca A y se desea aceptarla o rechazarla. Para responder a esta pregunta es necesario contar con una muestra aleatoria obtenida de la poblacin de datos correspondiente. El problema cuarto est vagamente denido pues, por ejemplo, no se especica la poblacin; sin embargo, se quiere hacer una generalizacin sobre la poblacin (cualquiera que ella sea); el aspecto en el que se tiene inters es la calidad de los mtodos A y B; y al igual que en el problema anterior no se quiere determinar un valor de la poblacin de datos, sino ms bien decidir si se puede aceptar o no una hiptesis con respecto a la diferencia de calidad de los dos mtodos. Para responder a esta pregunta es necesario contar con dos muestras aleatorias obtenidas de la poblacin que se dena y a la cual se podra aplicar la generalizacin que se haga.

Motivacin

203

De las cuatro situaciones problemticas tambin podemos armar que, aunque no se haga explcito en el enunciado, se dan en un contexto especco que incluye una experiencia previa, la observacin de ciertos hechos, unas intuiciones con respecto al problema de inters, y adems la necesidad de tomar decisiones. Por otra parte, en las situaciones descritas se hace evidente la imposibilidad de trabajar exhaustivamente con toda la poblacin de inters; por tanto se hace necesario seleccionar una muestra que represente a la poblacin. En esta seleccin est presente el azar. Las anotaciones hechas con respecto a los enunciados se pueden resumir as: La idea central, en los cuatro casos, es hacer generalizaciones sobre el comportamiento de una poblacin en un determinado aspecto. El aspecto alrededor del cual se quiere hacer la generalizacin es un aspecto observable y medible cuantitativamente; dicho en otras palabras, se trata de una variable cuantitativa. En trminos generales podemos aceptar que los puntos anteriores caracterizan de manera aceptable los problemas en que centraremos nuestra atencin en los prximos captulos. Sin embargo, podemos ser ms especcos con respecto al tipo de generalizacin que se pretende realizar sobre la poblacin. Bsicamente, se van a desarrollar dos tipos de generalizacin: Estimacin del valor de un parmetro.27 Prueba de hiptesis sobre el valor de un parmetro. En los prximos captulos se explicar en qu consiste cada uno de estos dos procedimientos; por ahora, basta con saber que lo que se pide en los dos primeros problemas es la estimacin de un parmetro, y lo que se pide en los otros dos problemas es la realizacin de una prueba de hiptesis sobre un parmetro.
27 Recurdese que cualquier medida que describa el comportamiento de una variable en una poblacin se denomina parmetro. Por ejemplo, la media aritmtica de una poblacin de datos, la desviacin estndar de la misma, etc. son parmetros de tal poblacin. En cambio, cualquier medida que describa el comportamiento de una muestra se denomina estimador de parmetro o estadstico. Por ejemplo, la media aritmtica de una muestra, la desviacin estndar de una muestra, etc. son estadsticos. Tanto los parmetros como los estimadores se reeren a conceptos, en tanto que se habla de estimativos cuando se hace referencia al valor numrico de un estimador.

204

Matemticas, Azar, Sociedad

Algunos conceptos fundamentales


En esta seccin vamos a explicar algunos conceptos que son fundamentales para entender en qu consiste la tarea de la estadstica inferencial y por qu los procedimientos que utiliza la estadstica inferencial son vlidos. Como se dijo anteriormente, los dos primeros problemas el del corredor de seguros y el del centro de esttica exigen la estimacin de parmetros, y los otros dos el del grupo de consumidores y el del profesor de pre-escolar exigen la validacin de una hiptesis. Tenga en cuenta eso para responder las siguientes preguntas.

a. Qu cree usted que signica en estadstica la expresin estimar el valor de un parmetro? Qu diferencia encuentra entre calcular y estimar? Explique su respuesta. b. Qu cree usted que signica en estadstica la expresin validar una hiptesis? Qu diferencia encuentra entre demostrar y validar? Explique su respuesta. c. Qu cree usted que signica en estadstica la expresin inferir? Si nos remitimos al diccionario de la lengua espaola se encuentra que inferir y deducir son palabras sinnimas y su signicado es sacar consecuencias de un principio, proposicin o supuesto. Sin embargo, la connotacin de tales palabras en estadstica es un tanto diferente. Para hacer claridad en este aspecto vamos a citar algunos apartes del artculo titulado Estadstica de Warren Weaver que fue publicado en Matemticas en el mundo moderno.
Existen dos formas principales de pensamiento lgico, la deduccin y la induccin. La primera se debe principalmente a los griegos, que fueron los primeros en ver claramente la gran potencia de proponer axiomas o hiptesis generales y deducir de ellos una ordenacin til de proposiciones implicadas por ellos. El pensamiento inductivo, [...] no comenz a constituir una herramienta sistemtica del hombre hasta la ltima parte del siglo XVIII. La induccin procede en la direccin opuesta a la deduccin. Partiendo de hechos experimentales, nos conduce a inferir conclusiones generales.

Algunos conceptos fundamentales


El razonamiento deductivo es tajante y absoluto. Sus injerencias especcas se siguen inevitablemente de hiptesis generales. El razonamiento inductivo, al contrario, es una inferencia incierta. Los hechos concretos y especiales de la experiencia, a partir de los cuales comienza el razonamiento inductivo, generalmente no conducen inexorablemente a conclusiones generales categricas. Ms bien conducen a juicios que se reeren a la plausibilidad de diversas conclusiones generales. [...] la estadstica es el nombre de la ciencia y del arte que trata de la inferencia incierta, la cual usa los nmeros para obtener algn conocimiento acerca de la naturaleza y de la experiencia. [...] Lo importante del razonamiento inductivo se basa en el hecho de que, dejando a un lado excepciones triviales, los sucesos y los fenmenos de la naturaleza son demasiado multiformes, demasiado numerosos, demasiado extensos o demasiado inaccesibles para permitir una observacin completa. [...] No podemos medir los rayos csmicos en todas partes y en cada instante. No podemos ensayar un nuevo medicamento en todas las personas. [...] As, hemos de contentarnos con muestras. Las medidas obtenidas en cada experimento cientco constituyen una muestra del conjunto ilimitado de mediciones que resultaran si uno realizase el mismo experimento una y otra vez indenidamente. Casi siempre se interesa uno en la muestra solamente en cuanto que es capaz de revelar algo acerca de la poblacin de la cual procede.

205

De manera que lo que en este texto vamos a entender como inferencia es un procedimiento lgico basado en la induccin y no en la deduccin que permite llegar a conclusiones generales pero no categricas; dicho ms exactamente, se obtienen juicios que se reeren a la plausibilidad de diversas conclusiones generales. Ahora bien, la inferencia estadstica se lleva a cabo bajo dos formas: la estimacin y la validacin de hiptesis. Veamos a grandes rasgos en qu consiste y qu alcance tiene cada uno de esos procedimientos. La estimacin de un parmetro permite determinar, con alguna probabilidad de acertar, un intervalo en el cual es posible encontrar tal parmetro. Se ha dicho es posible y no es seguro. La armacin anterior enfatiza lo dicho con respecto a que la estadstica se encarga de la inferencia incierta. Por ejemplo, si se quiere estimar el tiempo medio que emplea una persona que vive en determinada zona de la ciudad para ir de su casa al lugar de trabajo, la forma de proceder consiste en tomar una muestra aleatoria y representativa de la poblacin para obtener la informacin a partir de la cual se va a inferir; despus de realizar la estimacin (esto se estudiar en el prximo captulo) se

206

Matemticas, Azar, Sociedad

tendr una armacin del siguiente estilo: se estima que el tiempo medio empleado, por una persona de la poblacin en cuestin, para llegar del sitio donde reside al sitio donde trabaja est entre los valores a y b, con una certeza del x%. La validacin de una hiptesis acerca del valor de un parmetro permite rechazar o no, con algn margen de error la hiptesis estadstica que se ha formulado con relacin a dicho parmetro. En la realidad no es posible determinar si la hiptesis formulada es cierta o no lo es; y, por tanto, la conclusin a la que se llega a travs de la realizacin de la prueba de hiptesis es incierta; ser valiosa y cercana a la realidad en la medida en que la muestra a partir de la cual se est haciendo la inferencia sea aleatoria y represente bien a la poblacin a la que pertenece. Por ejemplo, para validar la hiptesis de que el tiempo medio que emplea una persona que vive en una cierta zona de la ciudad para ir de su casa al sitio donde trabaja es menor que 1,5 horas, la forma de proceder consiste en tomar una muestra aleatoria y representativa de la poblacin de datos para obtener la informacin a partir de la cual se va a inferir; despus de realizar la prueba de hiptesis (esto se estudiar ms adelante) se tendr una armacin, por ejemplo, del siguiente estilo: se puede rechazar la hiptesis con una probabilidad del x% de cometer error. Retomemos el tema de la extraccin de muestras de una poblacin (cuya nalidad es allegar informacin para hacer inferencias sobre dicha poblacin). A este respecto no parece necesario hacer una justicacin elaborada para convencer al lector de la necesidad de este proceso; como bien lo seala Weaver en el artculo anteriormente mencionado, El muestreo no es meramente conveniente. Es a menudo la nica forma posible de tratar un problema. Sin embargo, es importante hacer algunos comentarios con relacin a la validez del muestreo para hacer inferencia y con relacin a la conabilidad de las inferencias hechas as. Probablemente, habr quienes crean que no es vlido inferir sobre la poblacin con base en una sola muestra, o piensen que la muestra debe ser muy grande, adems de representativa y aleatoria. En resumen, debemos responder de manera satisfactoria las dos preguntas: Por qu es vlido hacer inferencia sobre un parmetro con base en la informacin que arroja una sola muestra tomada de la poblacin? Qu tan segura es la inferencia que se puede hacer con base en la informacin que arroja una sola muestra tomada de la poblacin?

Algunos conceptos fundamentales

207

Imagnese que puede extraer, de la poblacin acerca de la cual quiere inferir, todas las muestras posibles de un determinado tamao y que adems hace la seleccin de las muestras con sustitucin y con orden.28 Suponga tambin que para cada una de las muestras calcula el valor que interesa para el caso, es decir, el estimativo del correspondiente estimador (por ejemplo, si se quiere inferir acerca de la media de la poblacin, entonces se debera calcular la media de cada una de las muestras). El conjunto de valores resultantes es una distribucin de datos con un valor promedio, una desviacin estndar, su grca tiene una forma, etc. Pues bien, es en esa distribucin terica (en la realidad no es posible construirla, solamente la imaginamos) en la que se apoya la lgica de la inferencia estadstica ya que el estimativo que aporta la muestra con base en la cual se hace la inferencia es un valor de la distribucin y ella se puede modelar con alguno de los modelos estadsticos que se conocen. Es decir, aplicamos las caractersticas de un determinado modelo para concluir acerca de una distribucin muestral, la cual se puede relacionar de manera precisa con la distribucin de la poblacin, siendo as posible la inferencia acerca de la poblacin. En las propias palabras de Weaver:
Es evidente que [...] nunca puede armar con certeza cmo es la poblacin original, mediante un mero muestreo, porque las dems muestras variarn. Sin embargo, para una cierta clase de poblacin y con mtodos adecuados de muestreo es posible elaborar tericamente el esquema de variacin de las muestras. Este conocimiento del esquema de variabilidad de muestras da un rme apoyo. Permite considerar las muestras y obtener conclusiones acerca de la poblacin original.

En resumen, el estimativo de la muestra con base en el cual se pretende inferir es un valor de una distribucin terica, cuyos datos tienen variabilidad y esa variabilidad sigue alguna tendencia; por decirlo de una manera muy elemental, los posibles valores que puede tomar el estadstico no varan caticamente. As pues, el valor del estadstico de una muestra s permite obtener conclusiones generales que informan sobre la poblacin. Por otra parte, el tamao de la muestra y la tcnica de muestreo empleada para obtenerla son factores decisivos en la calidad de las inferencias.
28 Estos dos supuestos se hacen con el n de poder referirnos a poblaciones que aunque no sean innitas, permitan repetir indenidamente el muestreo; si no se hiciera el supuesto de sustitucin, en el proceso de sacar muestras podra eventualmente agotarse la poblacin.

208

Matemticas, Azar, Sociedad

La conabilidad de la inferencia tiene que ver con la posibilidad de cometer error. Ninguna inferencia estadstica est libre de error puesto que no se trabaja con toda la poblacin sino con slo una porcin de ella, y de muestra a muestra hay variabilidad. Entonces, es posible llegar a tener una actitud escptica con respecto al alcance de estos procedimientos, al pensar que si la muestra con base en la cual se est trabajando es rara, entonces la inferencia ser muy poco conable. Aunque lo anterior puede llegar a ser cierto, es muy poco probable; precisamente, si la muestra es atpica, tendr muy poca probabilidad de ser escogida, y en cambio, las muestras ms tpicas tienen ms probabilidad de ser extradas. Una distribucin terica como la que fue imaginada anteriormente se llama distribucin muestral. Poblacin

Todas las muestras de tamao n

Conjunto de las medias de todas las muestras de tamao n

x2 x1

xj

xk xi

Distribucin muestral de medias


El diagrama anterior resume el proceso que habra que desarrollar para construir una distribucin muestral. Particularmente, vamos a referirnos a la construccin de la distribucin muestral de medias.

Distribucin muestral de medias Una distribucin muestral de un estimador est constituida por todos los valores de un estadstico dado, calculado para todas las muestras, de un mismo tamao, que es posible extraer de una poblacin.

209

Dada la importancia de las distribuciones muestrales para hacer inferencia estadstica, es naturalmente obvia la necesidad de estudiarlas con algn detalle. En este texto, slo nos interesa hacer inferencia sobre la media de una poblacin y sobre la diferencia de medias de dos poblaciones. Por tanto, estudiaremos en detalle la distribucin muestral de medias y la distribucin muestral de diferencias de medias.

a. Para un caso particular en el que usted tenga que hacer inferencia sobre la media poblacional, cree que el proceso de inferencia requiera la construccin de la distribucin muestral de medias? Explique su respuesta. b. Explique en sus palabras el signicado de la siguiente armacin: El proceso para inferir sobre la media de una poblacin se apoya en la distribucin muestral de medias.

Distribucin muestral de medias


Aunque se ha dado ya una denicin del concepto de distribucin muestral, del cual se debera deducir el concepto de distribucin muestral de medias, parece necesario aclarar este ltimo concepto mediante un ejemplo, que servir adems para poner en evidencia el llamado teorema del lmite central. Vamos a proponer entonces una poblacin hipottica para construir y estudiar, tres distribuciones muestrales del estimador x . En el ejemplo que vamos a trabajar conocemos la poblacin. En la realidad, un hecho como ste no ocurre, pues en tal caso no habra necesidad de inferir. El

210

Matemticas, Azar, Sociedad

ejemplo se escogi as porque facilita relacionar las caractersticas de la poblacin con las de la distribucin muestral, y de esa manera ser posible vericar resultados de la teora que se van a emplear frecuentemente y cuya demostracin est fuera del alcance de este texto. Suponga que la poblacin es P = {1, 2, 3, 5} y que representa el tiempo (en horas diarias) que cada uno de un grupo de cuatro estudiantes de la universidad dedica a preparar sus tareas acadmicas.

a. Calcule el promedio y la desviacin estndar de la poblacin. Adems, haga un dibujo que represente la distribucin de la poblacin. Ahora vamos a observar cmo se comportan las medias de las muestras de la poblacin. En primer lugar, vamos a trabajar con las muestras de tamao 2. b. Si se hace la seleccin de las muestras con orden y con sustitucin y ellas son de tamao 2, cuntas hay? El conjunto de muestras de tamao 2 de la poblacin P tiene 16 elementos, todos diferentes. Si para cada muestra se calcula su correspondiente media entonces se tiene una distribucin de 16 elementos, no todos diferentes. El mnimo de esa distribucin es (1), que es el promedio de {1, 1}. c. Cul es el mximo de la distribucin de medias. d. Cules son todos los valores posibles de las medias en este caso? En el interior de la siguiente tabla de dos entradas se escriben las medias de las correspondientes muestras de tamao 2.
Medias de las muestras de tamao 2 1 1 2 3 5 1 1,5 2 3 2 1,5 2 2,5 3,5 3 2 2,5 3 4 5 3 3,5 4 5

media de la muestra { 1, 5 }

Distribucin muestral de medias

211

La informacin que da la tabla anterior se puede organizar en una tabla de distribucin de frecuencias as:
Distribucin medias muestrales (n=2) Valores de la media 1 1,5 2 2,5 3 3,5 4 5 Frecuencia 1 2 3 2 3 2 2 1

Hemos construido la distribucin muestral de medias de tamao 2. Esa distribucin, igual que toda distribucin, tiene una grca de una determinada forma, una media, una desviacin estndar. No haga ningn clculo: slo piense. Cree usted que la media de la distribucin de la que estamos hablando coincide con la media de la poblacin? Y, cree que la desviacin estndar de la poblacin coincide con la de la distribucin que hemos construido? Trate de explicar su intuicin. e. Compruebe que la media de la distribucin muestral de medias (muestras de tamao 2) es igual a 2,75 y que la desviacin estndar es igual a 1,045825. Adems, haga la grca de la distribucin. Ahora, tomemos de la poblacin P todas las muestras de tamao 3, con sustitucin y con orden. f. Cuntas de tales muestras hay? El conjunto de muestras de tamao 3 de la poblacin P tiene 64 elementos, todos diferentes. Si para cada muestra se calcula su correspondiente media entonces se tiene una distribucin de 64 elementos, no todos diferentes. El mnimo de esa distribucin es (1) que es el promedio de {1, 1, 1}.

212

Matemticas, Azar, Sociedad g. Cul es el mximo de la distribucin de medias? h. D ejemplo de cinco muestras de tamao 3, extradas de la poblacin P; adems, para cada una de ellas obtenga la correspondiente media. i. Cules son todos los valores posibles de las medias en este caso?

La siguiente tabla presenta las 64 muestras posibles, junto con la correspondiente media:
# 1 2 3 4 5 6 7 8 ... 25 26 27 28 29 30 31 32 2 2 2 2 2 2 2 2 3 3 3 3 5 5 5 5 1 1 1 1 1 1 1 1 Muestra 1 1 1 1 2 2 2 2 1 2 3 5 1 2 3 5 ... 1 2 3 5 1 2 3 5 2 7/3 8/3 10/3 8/3 3 10/3 4 Promedio 1 4/3 5/3 7/3 4/3 5/3 2 8/3 # 33 34 35 36 37 38 39 40 ... 57 58 59 60 61 62 63 64 5 5 5 5 5 5 5 5 3 3 3 3 5 5 5 5 3 3 3 3 3 3 3 3 Muestra 1 1 1 1 2 2 2 2 1 2 3 5 1 2 3 5 ... 1 2 3 5 1 2 3 5 3 10/3 11/3 13/3 11/3 4 13/3 5 Promedio 5/3 2 7/3 3 2 7/3 8/3 10/3

Al emplear la informacin anterior para hacer la distribucin de frecuencias de las medias muestrales (de tamao 3), se tiene:

Distribucin muestral de medias

213

Distribucin de medias muestrales (n = 3) Promedio 1 4/3 5/3 2 7/3 8/3 3 10/3 11/3 4 13/3 5 Frecuencia 1 3 6 7 9 9 10 6 6 3 3 1

As hemos construido la distribucin muestral de medias de tamao 3. El rango de esta distribucin es igual al rango de la primera distribucin muestral que hicimos, e igual al rango de la poblacin, pero la distribucin de las medias de las muestras de tamao 3 es ms densa y tiene menos dispersin. j. Compruebe que la distribucin de medias de muestras de tamao 3, tiene promedio igual a 2,75 y la desviacin estndar es aproximadamente igual a 0,853912. k. Haga la grca de la distribucin. Se quiere construir ahora la distribucin muestral de medias (de tamao 4). En este caso hay 4 * 4 * 4 * 4 = 256 muestras diferentes. Si para cada una de esas muestras se obtiene la correspondiente media, entonces se genera un conjunto de 256 elementos no todos diferentes. El mnimo valor de ese conjunto es 1 y el mximo es 5.

214

Matemticas, Azar, Sociedad l. D ejemplo de cinco de tales muestras, con la correspondiente media. Adems, haga la lista de los valores que pueden ser media de alguna muestra de tamao 4.

La siguiente es la distribucin de frecuencias de las medias muestrales (de tamao 4):


Distribucin de medias muestrales (n = 4) Promedio 1 5/4 6/4 7/4 2 9/4 10/4 11/4 Frecuencia 1 4 10 16 23 28 34 32 Promedio 3 13/4 14/4 15/4 4 17/4 18/4 5 Frecuencia 31 24 22 12 10 4 4 1

La media de esta distribucin es 2,75 y la desviacin estndar es igual a 0,739509. En resumen, se han construido las tres distribuciones muestrales de medias, asociadas con la poblacin P. Las caractersticas de la poblacin P y de las tres distribuciones muestrales se exponen a continuacin:
tamao Poblacin Distribucin muestral de medias (n = 2) Distribucin muestral de medias (n = 3) Distribucin muestral de medias (n = 4) 4 16 64 256 media 2,75 2,75 2,75 2,75 desviacin estndar 1,479019 1,045825 0,853912 0,739509

Distribucin muestral de medias

215

Distribucin de la poblacin

Distribucin de las medias de las muestras de tamao 2

Distribucin de las medias de las muestras de tamao 3

Distribucin de las medias de las muestras de tamao 4

216

Matemticas, Azar, Sociedad m. La grca de la poblacin y de las tres distribuciones muestrales se presentaron en la pgina anterior. Obsrvelas y tenga en cuenta la informacin de la ltima tabla para comparar el comportamiento de la poblacin con el de cada una de las distribuciones muestrales. Adems, compare el comportamiento de las tres distribuciones muestrales.

Al comparar los cuatro diagramas se observa una evolucin: el de la poblacin es uniforme y los diagramas de las distribuciones muestrales van aproximndose a la curva normal a medida que el tamao de las muestras se aumenta. Tambin vemos que las medias de las cuatro distribuciones coinciden y en cambio, las desviaciones estndar disminuyen a medida que aumenta el tamao de las muestras. Veamos cmo se relacionan la desviacin estndar de la poblacin con la desviacin estndar de la distribucin muestral y con el tamao de las muestras. Observe las siguientes expresiones: 1, 045825033 x 2 = 1,479019945

0,853912565 x 3 = 1,479019948 0,739509972 x 4 = 1,479019944 Los tres productos dan, prcticamente, el mismo resultado que es el valor de la desviacin estndar de la poblacin. En realidad, el producto entre la desviacin estndar de la distribucin muestral de medias y la raz cuadrada del tamao de las muestras es igual a la desviacin estndar de la poblacin. La inexactitud de los resultados anteriores se debe a las aproximaciones tomadas. El proceso de construccin de las tres distribuciones muestrales de medias, asociadas con la poblacin P, y las observaciones hechas al respecto no constituyen, en manera alguna, una demostracin del resultado que se enunciar a continuacin; con lo realizado slo se intenta hacer evidente, vericar el resultado. Debe tenerse presente que la situacin aqu trabajada para una poblacin de cuatro elementos se puede generalizar para cualquier poblacin mucho ms grande. Ahora s tenemos todos los elementos necesarios para enunciar uno de los resultados mas tiles en estadstica y que se conoce como teorema del lmite central. Dice as:

Distribucin muestral de medias Considere una poblacin cuya media es y cuya desviacin estndar es . Si de esa poblacin se extraen, al azar, todas las muestras de tamao n, obtenidas con sustitucin y con orden, se puede construir una distribucin de medias muestrales, la cual tiene forma aproximadamente normal cuando n es sucientemente grande. Adems, la media x y la desviacin estndar EE ( x ) de esa distribucin muestral estn relacionadas con la media y la desviacin estndar de la poblacin as: = = n EE ( x ) EE ( x ) = ------x n

217

Nota: La media de la distribucin muestral de medias se simbolizar de ahora en adelante con: x y la desviacin estndar se llamar error estndar y se denotar con: EE ( x ). En la prctica, dado que es muy difcil, si no imposible, conocer el valor real de con el cual se calcula el valor de EE ( x ), suele aproximarse su valor usando la desviacin estndar de la muestra con la que se est trabajando.

a. En general, a pesar de que no es posible construir la distribucin muestral de medias, s es posible describirla aproximadamente. Suponga que se tom una muestra de tamao 64 de una poblacin y se encontr que la media de la muestra es 538. La desviacin estndar de la poblacin es 38. A partir de esa informacin describa de la manera ms completa posible la correspondiente distribucin muestral de medias. Ilustre su respuesta. Qu tan probable es que la media de la muestra est muy alejada de la media de la poblacin? Explique su respuesta. b. Suponga que se tom una muestra de tamao 64 de una poblacin y se encontr que la media de la muestra es 538, y la desviacin estndar de la muestra es 43. A partir de esa informacin describa de la manera ms completa posible la correspondiente distribucin muestral de medias. Ilustre su respuesta. Qu tan probable es que la media de la muestra est muy alejada de la media de la poblacin? Explique su respuesta.

218

Matemticas, Azar, Sociedad c. En resumen, qu es lo que se requiere saber de la distribucin muestral de medias para inferir sobre ?

Distribucin muestral de diferencias de medias


Este captulo concluye con la presentacin de otro tipo de distribucin muestral: la de diferencias de medias. Tambin estas distribuciones son tericas; en situaciones reales en las que sea necesario comparar dos poblaciones no es posible construir las correspondientes distribuciones muestrales de diferencias de medias, tan slo es posible imaginarlas. Sin embargo, puesto que el valor a partir del cual se va a inferir sobre las poblaciones pertenece a una de tales distribuciones, se requiere conocer el comportamiento de ellas y adems establecer su relacin con la distribucin de la poblacin. Ms concretamente, el manejo de las caractersticas de la distribucin muestral de diferencias de medias se necesita para determinar si dos muestras provienen o no de la misma poblacin. Para construir conceptualmente la distribucin de diferencias de medias de muestras de tamao n, se procede as: se extraen, con orden y con sustitucin, todas las muestras de tamao n de la poblacin; se calculan las medias de cada una; se hacen todos los posibles pares de medias (con orden y con sustitucin) y se restan. Los valores de diferencia hallados determinan la distribucin. El esquema de la pgina siguiente resume el proceso que se ha expuesto. A partir de un ejemplo hipottico en el que se conoce la poblacin se construirn dos distribuciones muestrales de diferencias de medias y se destacarn sobre ellas las principales caractersticas de ese tipo de distribuciones. El proceso no constituye de ninguna manera una prueba formal. Lo que se busca es vericar, sobre el ejemplo, el enunciado del teorema del lmite central. Veamos: la poblacin est constituida por los nmeros 0, 1 y 2, que en este caso se reeren a la temperatura a la que muere un cierto tipo de bacteria. Esta poblacin tiene media 1, desviacin estndar 0,8164965 y se distribuye uniformemente en el intervalo [0,2].

Distribucin muestral de diferencias de medias

219

Poblacin

Todas las muestras de tamao n

Conjunto de las medias de todas las muestras de tamao n

x2 x1

xj

xk xi

Todas las posibles parejas de medias

x1 x1

x1 x2

x2 x1

xj xk

Conjunto de las diferencias de medias

x1 x2

xk x j

x j x3 x2 x1

Distribucin muestral de diferencias de medias

220

Matemticas, Azar, Sociedad

A continuacin vamos a descubrir cmo se comportan las diferencias de medias de dos muestras del mismo tamao. En primer lugar, trabajaremos con las muestras de tamao 2. Al extraer todas las posibles muestras de tamao 2 con sustitucin y con orden se obtienen nueve muestras diferentes. La distribucin muestral de medias en este caso se presenta en la siguiente tabla:
Distribucin de medias (muestras, n = 2) Media 0 0,5 1 1,5 2 Frecuencia 1 2 3 2 1

Esta distribucin tiene media 1 y desviacin estndar 0,5773502. Para construir la distribucin muestral de diferencias de medias se van a tomar todos los pares posibles de medias (con orden y con sustitucin) y luego se van a restar. Como hay nueve valores de medias, no todos diferentes, se tendrn 81 pares de medias. En el interior de la siguiente tabla de doble entrada se presentan los valores de diferencia obtenidos:
Diferencias entre las medias de las muestras de tamao 2 0 0 0,5 0,5 1 1 1 1,5 1,5 2 0 0,5 0,5 1 1 1 1,5 1,5 2 0,5 -0,5 0 0 0,5 0,5 0,5 1 1 1,5 0,5 -0,5 0 0 0,5 0,5 0,5 1 1 1,5 1 -1 -0,5 -0,5 0 0 0 0,5 0,5 1 1 -1 -0,5 -05 0 0 0 0,5 0,5 1 1 -1 -0,5 -0,5 0 0 0 0,5 0,5 1 1,5 -1,5 -1 -1 -0,5 -0,5 -0,5 0 0 0,5 1,5 -1,5 -1 -1 -0,5 -0,5 -0,5 0 0 0,5 2 -2 -1,5 -1,5 -1 -1 -1 -0,5 -0,5 0

Distribucin muestral de diferencias de medias

221

A partir de la tabla anterior se dene la distribucin de diferencias de medias de muestras de tamao 2:


Distribucin de diferencias de medias de muestras (n = 2) Valor de la diferencia de medias -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 Frecuencia 1 4 10 16 19 16 10 4 1

a. Sin hacer clculos, cul cree que debe ser la media de esta distribucin? Cmo cree que se relaciona la desviacin de esta distribucin con la de la poblacin? Y, con la de la distribucin muestral de medias? Explique el por qu de su intuicin. b. Verique que la media de la distribucin de diferencias de medias para muestras de tamao 2 es 0 y que la desviacin estndar es 0,816496. Represente grcamente la distribucin. c. Para esa distribucin, verique que en el intervalo de tamao 1 desviacin estndar alrededor de 0 hay 62,96% del total de observaciones y que a 1,96 desviaciones estndar alrededor de la media hay 97,53% del total de observaciones. Ahora vamos a construir la distribucin de diferencias de medias para las muestras de tamao 3. En este caso hay 27 muestras diferentes, tomadas con

222

Matemticas, Azar, Sociedad

sustitucin y con orden. Al calcular la media para cada una de las muestras se obtienen 27 valores, no todos diferentes, a saber: 0, 1/3, 2/3, 1, 4/3, 5/3, 2. La media de esta distribucin es 1 y su desviacin estndar es 0,4714045. Para obtener la distribucin de diferencias de medias se requiere hacer todos los posibles pares de medias y efectuar la resta entre las dos medias. Se tienen para el caso 27* 27 = 729 parejas de medias, a partir de las cuales se obtendrn 729 valores de diferencias de medias, no todos diferentes. A continuacin se presenta la distribucin de diferencias de medias.
Distribucin de diferencias de medias (muestras, n = 3) Valor de la diferencia de medias -2 -5/3 -4/3 -1 -2/3 -1/3 0 1/3 2/3 1 4/3 5/3 2 Frecuencia 1 6 21 50 90 126 141 126 90 50 21 6 1

d. Verique que la media de la distribucin es 0 y que la desviacin estndar es 0,6666. Adems, represente grcamente la distribucin. e. Para esta distribucin, verique que en el intervalo de tamao 1 desviacin estndar alrededor de la media hay 78,60% del total de los valores de diferencia, y que a 1,96 desviaciones estndar alrededor de la media hay 92,31% del total de observaciones.

Distribucin muestral de diferencias de medias

223

En resumen, se han obtenido las dos distribuciones de diferencias de medias para muestras de tamao 2 y 3, asociadas con la poblacin P. Las caractersticas de la poblacin, de las distribuciones muestrales de medias y de las distribuciones muestrales de diferencias de medias se exponen a continuacin:
Distribucin Poblacin Muestral de medias muestras, n=2 Muestral de diferencias de medias Muestral de medias muestras, n=3 Muestral de diferencias de medias tamao 3 9 81 27 729 media 1 1 0 1 0 desv. est. 0,8164965 0,5773502 0,8164965 0,4714045 0,666666 forma grca uniforme aprox. normal aprox. normal aprox. normal aprox. normal

Falta entonces establecer la relacin existente entre la desviacin estndar de la distribucin muestral de diferencias de medias y la desviacin estndar de las distribuciones muestrales de medias. Tal relacin se puede expresar as: EE ( x y ) = donde: EE ( x y ) representa la desviacin estndar de la distribucin muestral de diferencias de medias y se le llama el error estndar de la diferencia o el error estndar diferencial. EE ( x ) y EE ( y ) representan el error estndar de las correspondientes distribuciones muestrales de medias, siendo que las muestras tienen tamaos similares. Aunque no constituye ninguna prueba formal, queremos emplear el ejemplo hipottico que hemos venido trabajando para vericar la relacin enunciada. Bajo el supuesto de que dos muestras provienen de la misma poblacin P y tienen ambas tamao 3, se sabe entonces que la diferencia entre las correspondientes medias es un valor que pertenece a la distribucin muestral de diferencias de medias, cuya desviacin estndar (error estndar de la media) es 0,4714045. Por tanto, ( EE ( x ) ) + ( EE ( y ) )
2 2

224

Matemticas, Azar, Sociedad

EE ( x y ) = =

( EE ( x ) ) + ( EE ( y ) )
2 2

( 0, 4714045 ) + ( 0, 4714045 )

= 0 , 666666

Y, se efectivamente es el valor del error estndar diferencial. En la prctica, dado que es muy difcil, si no imposible, conocer el valor real de con el cual se calcula el valor de EE ( x y ) , suele aproximarse su valor partiendo de la desviacin estndar de las muestras usadas. Aunque los dos ejemplos anteriores no son concluyentes, sirven para cerrar los puntos importantes relacionados con esta distribucin: Dada una poblacin cuya media es de la cual se extraen, al azar, todas las muestras de tamao n29, se puede construir una distribucin con los valores de diferencia entre las medias de todos los pares de muestras que se pueden tomar. Esta distribucin tiene media 0 y es aproximadamente normal en caso de que el tamao de las muestras sea sucientemente grande. Su desviacin estndar se puede estimar a partir del error estndar de dos de las muestras como:
2 2 ( EE ( x ) ) + ( EE ( y ) ) y se conoce como error estndar dife-

rencial. Es necesario hacer un comentario nal con respecto a los errores estndar. Cuando se toman muestras de pocos elementos de una poblacin, sucede que las desviaciones estndar presentan un comportamiento, digamos, errtico, en el sentido de que dan valores extremos. Piense qu sucede si en vez de tomar muestras de pocos elementos se toman muestras de ms de 30 elementos, por ejemplo. En este caso la desviacin que presentan los datos con respecto a la media de la poblacin tiende a ser menor que cuando se toman pocos datos en la muestra. Esto tiene incidencia en el clculo de los errores estndar de las distribuciones muestrales presentadas en las dos ltimas secciones. A mayor nmero de elementos en las muestras, mejor es la estimacin de la desviacin estndar de la poblacin.
29 Obtenidas con sustitucin y con orden.

Intervalos de conanza

Introduccin
En este captulo se entra en detalles con respecto a una de las tareas que tiene la estadstica inferencial: la estimacin de parmetros. Inicialmente se presenta y se resuelve un problema en el que se pide la estimacin de la media de una poblacin; a partir de su solucin se habla de manera informal acerca de los conceptos importantes relacionados con la estimacin. Despus se formalizan tales conceptos. En la siguiente seccin se plantean y se solucionan dos problemas, uno para estimar la media de una poblacin y otro para estimar la diferencia de dos medias. Finalmente, se incluye una seccin de ejercicios.

Motivacin
Problema. Se extrae,30 aleatoriamente, de la poblacin P = {1, 2, 3, 5} una muestra de tamao 4. Suponga que la muestra es M1 = {2, 1, 2, 1}. Con base en la informacin que da la muestra estime la media de la poblacin.31 a. Imagnese que usted tiene que resolver el problema planteado anteriormente, qu procedimiento seguira para darle solucin? Explique su respuesta. Para responder esta pregunta piense, por ejemplo, en el significado de las frases el precio de tal artculo est alrededor de los $1.000; esprame entre las siete y las siete y media de la noche.

b. Servira el procedimiento que usted mencion en el item anterior para estimar la media de la poblacin con base en la muestra M2 = {2, 5, 5, 1}?
30 31 Con orden y con sustitucin. Para que el problema tenga sentido vamos a suponer que no conocemos ni la media ni la desviacin estndar de la poblacin.

226

Matemticas, Azar, Sociedad c. Suponga que alguien responde a la pregunta a. as: Calculo la media de los valores de la muestra y esa es la estimacin que hago de la media de la poblacin. D un argumento que muestre que esa no es la mejor solucin al problema.

La media de la muestra M1 es x 1 = 1, 5 . Es con base en ese valor que se va a realizar la estimacin de la media de la poblacin; sin embargo, la estimacin que se haga no puede ser, de ninguna manera, una armacin tajante, categrica; ms bien, debe ser una armacin que d la idea de entre qu valores es probable encontrar la media de la poblacin. Puesto que la estimacin se hace con base en una muestra aleatoria y de muestra a muestra hay variaciones es obvio pensar que la media de la muestra que se haya tomado no necesariamente es igual a la media de la poblacin. De manera que estimar la media de la poblacin consistir en construir un intervalo cuyo centro sea la media de la muestra que se tiene y cuyo radio sea un determinado valor, r. Para nuestro caso, el intervalo ha de ser: [ x- r; x+ r ] = [ 1, 5- r; 1, 5+ r ]

Grcamente se ver as: ( 1,5 - r ) 1,5 + r

1,5

Y la interpretacin ser: se estima que la media de la poblacin se encuentra entre los valores 1,5 - r, y, 1,5 + r. Con frecuencia se hacen armaciones del estilo: la media de la poblacin vara entre los valores a y b. El valor de no vara; la media de la poblacin es un cierto valor jo, que usualmente se desconoce. En la realidad, lo que vara es la estimacin que hacemos de . Al establecer un intervalo con centro en la media de la muestra, para estimar la media de la poblacin, se estn dando muchsimos valores cercanos a 1,5, en este caso, y se est armando que cualquiera de ellos podra ser la media de la poblacin; pero, cul de ellos es, no se sabe y no se podr determinar.

Motivacin ? ( x 1,5 - r ? ? x x 1,5 ? x) 1,5 + r

227

El problema que surge entonces, es cul debe ser el valor del radio, r, del intervalo? Antes de responder esta pregunta hagamos unas consideraciones: d. Con respecto a la estimacin de la media de una poblacin, comente la siguiente frase, teniendo en cuenta aspectos de precisin y de certidumbre. Para responder esta pregunta piense en frases como me demorar entre 15 y 25 minutos,
me demorar entre 5 y 35 minutos.

No hay un nico intervalo para realizar dicha estimacin. e. Es clara para usted la diferencia entre precisin de un resultado y la certidumbre del mismo? Qu relacin hay entre los dos conceptos? Tal como seguramente usted lo expres en su respuesta, no existe un nico intervalo para estimar la media de la poblacin. Se pueden construir muchsimos intervalos, todos ellos centrados en la media de la muestra y de diferentes tamaos, es decir, de radios diferentes. Algunos de los intervalos incluirn ms probablemente que otros, la media de la poblacin. Otros intervalos darn una estimacin ms precisa de . En total, la certidumbre y la precisin de la estimacin son dos conceptos diferentes, pero relacionados entre s. Entre ms precisa sea una estimacin, existe menos certidumbre de que sea buena, y recprocamente, entre menos precisa sea una estimacin, existe ms certidumbre de que sea buena. En el siguiente esquema se presentan dos estimaciones de , hechas a partir del valor x 1 de una cierta muestra. La primera es menos precisa que la segunda, pero tiene mayor grado de certidumbre.
[ x 1 - r; x 1 + r ] ?

(
tamao del intervalo

x1

) )

tamao del intervalo

(
x1

228

Matemticas, Azar, Sociedad

De todas maneras, para efectos prcticos, es importante tener en cuenta la relacin entre esos dos conceptos, y la necesidad de establecer un justo medio que permita perder un poco de certidumbre en aras de ganar en precisin. Es posible que un investigador que quiera tener 100% de conanza en su estimacin obtenga un intervalo tan amplio que no le da ninguna informacin que l no supiera de antemano; en tal caso, si quiere mejorar la precisin de su estimacin tendr que conformarse con un grado de certidumbre menor que el del 100%. Usualmente, los investigadores hacen estimaciones con 90%, 95% y 99% de certidumbre, y eligen un tamao de muestra que les permita satisfacer un grado de precisin requerido. Para la explicacin que se presenta a continuacin se emplean conceptos y resultados del captulo anterior, a saber: el valor de la media de la muestra pertenece a una distribucin muestral que sigue el modelo normal para casos en que el tamao de la muestra sea sucientemente grande; adems, la media de esa distribucin y la de la poblacin son iguales. En la grca siguiente se expone el modelo para la distribucin muestral de tamao 4 y se han sealado cuatro medias mustrales ( x 1 ,x 2 ,x 3 y x ). Ninguna de las cuatro medias se aleja de ms de 1 error estndar (porque as se tom el ejemplo; sin embargo, podran haberse tomado diferentes medias mustrales que estuvieran todas a menos de 1,5 errores estndar de , o que todas distaran menos de 2,3 errores estndar de la media, etc.) Adems, observe que x 2 y x 3 toman posiciones extremas dentro del intervalo y x representa cualquier media muestral del intervalo [ -1EE ( x ) , +1EE ( x ) ] .

68%

x
x1 x x2 x3

- 1 EE(x)

+ 1 EE(x)

Modelo para la distribucin de medias muestrales

Motivacin

229

Centremos nuestra atencin en x 1 . Vamos a construir un intervalo con centro en x 1 y tal que incluya a la media de la distribucin. Para que eso ocurra, qu radio puede tener el intervalo? Ya sabemos que la respuesta no es nica: el radio podra ser igual a la distancia que hay de x 1 a la media de la distribucin. O, podra ser cualquier nmero mayor que la distancia mencionada. El esquema siguiente muestra cuatro intervalos, cada uno de los cuales tiene centro en x 1 y su radio es tal que la media de la poblacin, m, pertenece al intervalo. El primer intervalo del esquema es el ms pequeo intervalo con centro en x 1 , que contiene a .

x1

+ 1 EE ( x )
radio del intervalo

1 EE ( x )

x1 1 EE ( x )

)
+ 1 EE ( x )
radio del intervalo

x1 1 EE ( x ) x1 1 EE ( x )

)
+ 1 EE ( x )
radio del intervalo

)
+ 1 EE ( x )
radio del intervalo

230

Matemticas, Azar, Sociedad

Para la media x 2 , se tiene una situacin especial: por coincidir con la media de la distribucin, cualquier intervalo con centro en x 2 incluir la media de la distribucin, por tanto, el radio es cualquier nmero positivo. El esquema siguiente muestra tres intervalos, cada uno de los cuales tiene centro en x 2 y a cada uno de los cuales pertenece , sin importar el valor del correspondiente radio.

(
1 EE ( x )

x2 1

)
+ 1 EE ( x )
radio del intervalo

(
1 EE ( x )

x2

)
+ 1 EE ( x )
radio del intervalo

(
1 EE ( x )

x2

)
+ 1 EE ( x )
radio del intervalo

Tambin para la media x 3 se tiene una situacin especial: si se quiere construir un intervalo centrado en x 3 que incluya a la media de la distribucin, el radio debe tener como valor mnimo la distancia que hay entre tal media y la media de la distribucin muestral que para el caso es 1 error estndar. El siguiente esquema muestra tres intervalos, cada uno de los cuales tiene centro en x 3 y su radio es tal que la media de la poblacin, , pertenece al intervalo. El primer intervalo del esquema es el ms pequeo intervalo que cumple las condiciones. El radio de los otros intervalos es mayor que 1 EE( x ).

Motivacin

231

1 EE EE((x x ))

x3 2 1

)
radio del intervalo

+ 1 EE ( x ) x3 + 1 EE ( x ) x3 + 1 EE ( x )
radio del intervalo

)
radio del intervalo

(
1 EE ( x )

Hemos presentado los valores de tres medias muestrales que estn a no ms de 1 error estndar y se ha determinado el valor mnimo que debe tener el radio, en cada caso de manera que el intervalo centrado en la correspondiente media incluya la media de la distribucin. La respuesta en cada caso ha sido la misma: la distancia que hay entre las dos medias, la de la muestra y la de la distribucin muestral. Sin embargo, aunque la respuesta es la misma, el valor no es el mismo. Si quisiramos dar el mismo valor para el radio de los intervalos centrados en cualquiera de tales medias, el valor mnimo que sirve es 1 error estndar. Por qu? Entonces, podemos generalizar la situacin as: si x es una media muestral que dista de la media de la distribucin no ms de 1 error estndar, entonces se pueden construir innidad de intervalos con centro en x . Pero, slo nos interesan aquellos que contengan la media de la poblacin. Para asegurar que el intervalo que se construye tiene a la media de la poblacin debemos escoger adecuadamente el radio de dicho intervalo. El valor mnimo que debe tener el radio es entonces 1 error estndar.

232

Matemticas, Azar, Sociedad

Se tiene pues que si la media muestral conocida pertenece al intervalo [ -1EE ( x ) , +1EE ( x ) ] se puede estimar la media de la poblacin, construyendo un intervalo que tenga como centro el valor de dicha media ( x ) y su tamao sea 1 error estndar. Como el modelo que se est empleando es el normal, entonces se sabe que 68% de todas las posibles medias muestrales estn en el intervalo [ -1EE ( x ) , +1EE ( x ) ] . Por tanto, se arma que: el intervalo construido [ x-1EE ( x ) , x+1EE ( x ) ] estima la media de la poblacin con una probabilidad de acertar del 68%.

68%

x - 1 EE(x) + 1 EE(x)

Distribucin de medias muestrales

La situacin presentada con las medias x 1 , x 2 , x 3 y x se puede transferir a medias muestrales que disten ms de 1 error estndar de la media de la distribucin muestral, logrando as intervalos ms amplios, a la vez ms conables, pero menos precisos. Por ejemplo, si la distancia de la media muestral que se tiene, x , a la media de la distribucin es menos 1,96 errores estndar, entonces un intervalo con centro en tal media muestral y radio igual a 1,96 errores estndar contendr a la media de la distribucin muestral que es la misma media poblacional con una probabilidad de acertar del 95%. Y, entonces se dir: se estima que est en el intervalo [ x-1,96EE ( x ) , x+1,96EE ( x ) ] con una probabilidad de acertar del 95%. Una vez tratado lo concerniente al tamao del radio de los intervalos, podemos dar respuesta al problema propuesto al inicio de esta seccin. Reto-

Motivacin

233

mmoslo: Estime la media de la poblacin de la cual proviene la muestra M1 = {2, 1, 2, 1}. En primer lugar vamos a calcular la media y la desviacin estndar de la muestra: x =1,5 y s = 0,5 Para estimar el valor de vamos a construir un intervalo que tenga centro en 1,5. Vamos a suponer que se quiere tener 95% de certidumbre de que el intervalo as construido contiene a la media de la poblacin. Dado ese hecho, entonces el radio del intervalo debe tener un tamao igual a 1,96 errores estndar. De manera que el intervalo es: [1,5 - 1,96 EE ( x ); 1,5 + 1,96 EE ( x )] Falta buscar el valor del error estndar. El teorema del lmite central dice que = nEE ( x ) EE ( x ) = -----n Segn esa igualdad, para calcular el error estndar de la distribucin muestral de medias se requiere conocer la desviacin estndar de la poblacin . En este punto se tiene una dicultad pues en la realidad no se conoce la poblacin y por tanto se desconoce el valor de . Vamos entonces a obtener un valor aproximado del error estndar, empleando para ello el valor de la desviacin estndar de la muestra en vez del valor de la desviacin estndar de la poblacin. El tener que estimar el valor de con el valor de s, no cambia esencialmente las cosas con respecto a las caractersticas de la distribucin muestral de medias en caso de que el tamao de las muestras sea sucientemente grande. Sin embargo, si las muestras son pequeas y no se conoce el valor de la desviacin estndar de la poblacin, entonces la distribucin muestral de medias no sigue el modelo normal; se distribuye segn otro modelo. En este texto nos limitaremos a inferir con base en muestras sucientemente grandes. Se tiene entonces que: s 0, 5 EE ( x ) = ------ ------ = -------- = 0.25 2 n n

234 De manera que el intervalo queda:

Matemticas, Azar, Sociedad

[1,5 - 1,96 * 0,25; 1,5 + 1,96 * 0,25] = [1,01; 1,99] Y se dice que se estima que la media de la poblacin est en el intervalo [1,01; 1,99] con una probabilidad de acertar del 95%. Es importante observar que siempre es posible que el intervalo construido no incluya a . Lo dicho se puede observar en el ejemplo que se est trabajando: recuerde que la media de la poblacin es 2,75, valor que no pertenece al intervalo [1,01; 1,99]. f. Compruebe que el intervalo con 99% de probabilidad de acertar, en este caso, tampoco incluye la media poblacional. Qu conclusin cree que se puede obtener del hecho observado? Ahora considere que la muestra que se tiene es M2 = {2, 5, 5, 1}. Vamos a estimar la media de la poblacin con base en ella. En primer lugar, calculamos la media y la desviacin estndar de la muestra: x =3,25 y s = 1,785 Tambin estimamos el error estndar de la distribucin muestral a partir del valor de la desviacin estndar de la muestra. 1, 785 EE ( x ) = ------ -------------- = 0, 8925 n 4

Construyamos el intervalo del 95% de certidumbre: [3,25 - 1,96 * 0,8925; 3,25 + 1,96 * 0,8925] = [1,5007; 4,9993] Por tanto, se estima, con 95% de conanza de acertar, que la media de la poblacin est en el intervalo [1,5007; 4,9993]. Y observe que en este caso, el intervalo construido s incluye a la media de la poblacin.

Formalizacin de algunos conceptos

235

Formalizacin de algunos conceptos


En la seccin anterior se hizo mencin siempre a la estimacin de la media de una poblacin y debi quedar claro el proceso de construccin de intervalos a travs de los cuales se hace la estimacin. Pues bien, la esencia de ese proceso es la misma siempre que se quiera estimar un parmetro. Slo cambian el modelo que se emplea (normal, u otros que aqu ni siquiera nombraremos) de acuerdo al comportamiento de la distribucin muestral correspondiente, y el error estndar. En resumen, ese proceso se puede expresar as: estimador r, donde r depende de dos aspectos de la distribucin muestral implicada en el caso (modelo y frmula para calcular el error estndar) y tambin depende del grado de certidumbre que se quiera tener. Por tanto, aunque no se haya dicho nada explcito sobre la estimacin de la diferencia de dos medias, el proceso no tiene nada nuevo con respecto al que mostramos para la estimacin de la media poblacional. Para el nuevo caso, se trabajar con la distribucin muestral de diferencias de medias, la cual sigue el modelo normal en caso de que las muestras sean sucientemente grandes y tiene error estndar dado por la frmula muestras deben tener tamaos similares.
2 2 ( EE ( x ) ) + ( EE ( y ) ) . Adems, las

En la prxima seccin se dar un ejemplo de estimacin de la diferencia de dos medias. En esta seccin, que ser muy breve, trataremos de denir de manera general tres conceptos relativos a la estimacin de parmetros. Un intervalo de conanza para estimar un parmetro, a partir del correspondiente valor del estadstico de una muestra (estimador), es un intervalo con centro en dicho estimador y un cierto radio. El intervalo, probablemente incluye el parmetro de inters. El error o precisin del intervalo es el tamao de su radio. El nivel de conanza del intervalo es la probabilidad que se tiene de acertar en la estimacin. Un nivel de conanza del x% signica que en x% de las ocasiones en las que se construye el intervalo de conanza, el parmetro estar incluido ah.

236

Matemticas, Azar, Sociedad

Dos ejemplos
Problema 1. Para determinar la rentabilidad de un nuevo restaurante, un investigador observ durante 30 das, las ganancias del mismo. Encontr que la ganancia media era de $20.000 diarios con una desviacin estndar de $3.000 diarios. Cul es la ganancia diaria promedio, con un nivel de conanza del 90%?
Tamao de la muestra media de la muestra desviacin estndar de la muestra n = 30

x = 20.000
s = 3.000

3.000 - = 547, 44 error estndar de la distribucin muestral EE ( x ) -----------30

Puesto que se quiere un nivel de conanza del 90% y el modelo de la distribucin de medias muestrales es normal, se sabe que el valor del puntaje z es de 1,64. Por tanto, el intervalo de conanza es: [20.000 - 1,64 * 547,44; 20.000 + 1,64 * 547,44] = [19.102,20; 20.897,80] De manera que se estima, con un nivel de conanza del 90%, que la ganancia diaria promedio del restaurante est entre $19.102,20 y $20.897,80. Problema 2. En un centro de esttica, durante los ltimos seis meses, se han estado empleando dos tratamientos diferentes para reducir de peso (T1 y T2). El tratamiento T1 se ha aplicado a un grupo G1, mientras que el tratamiento T2 se ha aplicado a un grupo G2. Ambos grupos estn formados por adultos cuyas edades oscilan entre 25 y 35 aos, que tienen problemas de obesidad. El tratamiento T1 es sustancialmente ms costoso que el T2. El mdico del centro quiere determinar entre qu par de valores se puede esperar que est la diferencia en los pesos medios rebajados despus de los tratamientos para tomar decisiones hacia el futuro con respecto al tratamiento que debe ofrecer el centro. Al terminar la aplicacin de los tratamientos, los resultados obtenidos son los siguientes:

Dos ejemplos
Muestra 1 Tamao Media Varianza n = 49 Muestra 2 n = 49

237

x = 16,8 kilos
s = 3,5 kilos

y = 15,24 kilos
s = 3,3 kilos

El proceso para resolver este problema es similar al anterior. Sin embargo, como lo que ahora se quiere estimar es la diferencia de medias entonces la estimacin se basar en el comportamiento de la distribucin muestral de diferencias de medias. Puesto que esta distribucin es aproximadamente normal, entonces tambin emplearemos el modelo de la normal. Adems, vamos a usar un nivel de conanza del 96%. Veamos la solucin: Diferencia de medias, x - y =1,56 kilos Error estndar de la distribucin muestral de diferencias de medias, EE ( x - y )=
10, 89 12, 25 -------------- + -------------- = 0, 6872 49 49

Puesto que se quiere un nivel de conanza del 96% y el modelo de la distribucin muestral de diferencias de medias es normal, se sabe que el valor del puntaje z es de 2,05. Por tanto, el intervalo de conanza es: [1,56 - 2,05 * 0,6872; 1,56 + 2,05 * 0,6872] = [0,1512; 2,9687] De manera que se estima, con un nivel de conanza del 96%, que la diferencia en los pesos medios rebajados despus de los tratamientos vara entre 0,15 kilos y 2,96 kilos. Puesto que este intervalo no incluye a 0, caso en el que se registrara que no hay diferencia signicativa en la efectividad de los tratamientos entonces, parece ser que uno de los tratamientos el T1 produce mejores resultados que el otro.

238

Matemticas, Azar, Sociedad

Ejercicios
1.- Se examin una muestra de 36 cigarrillos de cierta marca para determinar el contenido de nicotina. La muestra tuvo una media de 22 miligramos y una desviacin estndar de 4 miligramos. Estime, con 90% de conanza, la media del contenido de nicotina de los cigarrillos de esa marca. Tambin estime con 95% y con 99% la media del contenido de nicotina. Haga comentarios pertinentes sobre los resultados que encuentra con respecto al hecho de aumentar el nivel de conanza. 2.- Se examin una muestra de 64 cigarrillos de cierta marca para determinar el contenido de nicotina. La muestra tuvo una media de 22 miligramos y una desviacin estndar de 4 miligramos. Estime, con 90% de conanza, la media del contenido de nicotina de los cigarrillos de esa marca. 3.- Compare los resultados de los dos problemas anteriores y haga comentarios pertinentes con respecto al hecho de aumentar tamao de la muestra. 4.- Determinar el intervalo de conanza del 99% para el peso medio de los venusinos, si se sabe que una muestras aleatoria de 36 venusinos arroj la siguiente informacin (con respecto al peso de ellos, medido en kilogramos). El peso se distribuye normalmente.
16 25 27 22 24 18 31 20 20 28 18 31 15 19 24 20 31 23 20 17 20 21 18 20 22 20 19 35 15 31 28 25 30 27 24 20

5.- En cierto municipio colombiano un grupo de investigadores sociales busca determinar la cantidad promedio del impuesto al valor agregado en los establecimientos de comida y con ello estimar el ingreso que recibe el municipio por razn del IVA. Para dicho estudio se tom una muestra de 36 establecimientos (restaurantes) de la poblacin de estudio y se encontr que el ingreso promedio semanal, por razn del IVA, en esa muestra, fue de $65.736 con una desviacin estndar igual a $5.402. a. Cul es la poblacin y la muestra de estudio? b. Qu variable se est midiendo y de qu tipo es?

Ejercicios c. Cul es el objetivo de la investigacin?

239

d. Estime entre qu valores se encuentra el impuesto promedio que recaud el municipio por concepto del IVA. Haga una estimacin con 99% de probabilidad de acertar. 6.- Mundialmente se ha reconocido que aquellos nios que tienen un coeciente intelectual igual o superior a 125 son superdotados. En el colegio X hay cinco secciones del curso tercero elemental. De ese grupo de alumnos se tom al azar una muestra de 30 nios y se encontr que el coeciente intelectual promedio es de 116,5 con una desviacin estndar de 14,1. a. Si se sabe que en la muestra, el coeciente intelectual se distribuye normalmente, cuntos nios se pueden considerar superdotados? b. Utilice la muestra tomada para estimar el coeciente intelectual promedio de los alumnos de tercero elemental de dicho colegio. c. Sugiera rangos que permitan clasicar a los nios como subnormales, normales y superdotados. 7.- En el siglo XVI se form el Palenque de San Basilio, comunidad afroamericana de negros cimarrones que an a nales del siglo XX sigue conservando el vernculo palenquero, lengua criolla32 de base lxica puramente espaola. Para analizar el proceso de cambio de esta lengua por inuencia del espaol moderno, unos etnolingistas estudiaron el criollo palenquero de San Basilio durante 1990, recolectando un corpus compuesto por 500 conversaciones cotidianas de los habitantes de la poblacin. Se mir el porcentaje de palabras propias de la lengua empleadas y se encontr que tales porcentajes se distribuan normalmente con una media igual a 63,1% y una desviacin estndar de 10,2%. a. En un estudio realizado diez aos atrs se encontr que el porcentaje promedio de uso del palenquero era del 88%. En el lapso de diez aos, ha cambiado mucho el lenguaje?
32 Una lengua criolla es aquella que surge por el contacto entre una lengua dominante y una ms dbil. El palenquero viene de la mezcla entre el espaol impuesto por los colonizadores y un dialecto africano hablado por una minora de esclavos negros.

240

Matemticas, Azar, Sociedad b. Los etnolingistas esperaban que la media de la poblacin se encontrara entre el 70% y el 75% con una probabilidad del 95%, para armar que no ha habido un cambio signicativo en el lenguaje. Los datos presentados conrman lo esperado por los etnolingistas?

8.- En un estudio psicolgico sobre la susceptibilidad a las ilusiones perceptivas, 50 hombres juzgan la longitud de una gura ilusoria. La evaluacin de cada uno de ellos se compara con la longitud verdadera y se registra la diferencia. El experimento produjo los siguientes resultados para las diferencias: y = 81 milmetros; s = 12 milmetros. Encuentre un intervalo de conanza del 95% para la magnitud media de las diferencias. 9.- Coca-Cola y Postobn compaas en eterna competencia, lanzaron ofensivas propagandsticas para promocionar agua manantial y agua cristal en la ciudad de Bogot. Un estudiante que haca su tesis sobre Propaganda y Cia. Multinacionales quiso determinar cul de las dos campaas haba sido ms efectiva. Para eso, tom dos muestras de habitantes de barrios de clase media del norte de la ciudad. Entrevist a 500 consumidores de agua manantial y hall que el consumo promedio era de 5,3 litros por semana, con una desviacin estndar de 1,41 litros. Tambin entrevist a 400 consumidores de agua cristal y hall que el consumo promedio era de 5,6 litros por semana, con una desviacin estndar de 1,73 litros. a. Cul es la poblacin y cules son las muestras de estudio? b. Con base en la informacin que dan las dos muestras estime la diferencia media de consumo en las poblaciones de consumidores mencionadas. Utilice un nivel de conanza del 95%. c. Utilice el intervalo de conanza construido en el item anterior para determinar si se puede concluir que alguna de las dos campaas fue mejor que la otra. 10.- Para comparar dos hospitales en cuanto a la eciencia en la atencin a pacientes, en cada uno de ellos se toman 100 mediciones del nmero de pacientes atendidos mensualmente. Los resultados obtenidos se consignan a continuacin:

Ejercicios

241

Hospital A promedio de pacientes atendidos mensualmente desviacin estndar Hospital B promedio de pacientes atendidos mensualmente desviacin estndar 1.050 80 1.000 100

a. Estime la media del nmero de pacientes atendidos en el hospital A, en un intervalo de conanza del 99,5%. b. Utilice la informacin del intervalo de conanza construido en el item anterior para determinar si hay diferencia signicativa en cuanto a la eciencia de los hospitales. 11.- Desde nes del siglo XIX numerosos pedagogos se han interesado por los mtodos de enseanza de lenguas extranjeras. Hoy, que se hace imperante aprender un idioma distinto al nativo, se le da mucha ms importancia a la efectividad de tales mtodos. Con el n de comparar los mtodos de dos centros especializados en idiomas, un profesor de lenguas modernas adelant un estudio que examinaba la calidad del idioma que 39 estudiantes de cada centro haban aprendido. Los exmenes, cuyas calicaciones sobre 70 resultaron distribuirse de forma aproximadamente normal, arrojaron los siguientes resultados:
Centro 1 media, Centro 2 59,8 3,5 39

53,2 5,1 39

desviacin estndar, s tamao de la muestra, n

a. Hay muchas personas que arman que el Centro 1 es mejor que el Centro 2. Es esto cierto? Justique su respuesta. b. Se esperaba que la diferencia en cuanto a la efectividad de los dos mtodos estuviese entre -1,8 y -0,3. Lo encontrado en el estudio conrma esta expectativa? c. Entre qu par de valores est la diferencia de los mtodos?

Pruebas de hiptesis

Introduccin
Los dos captulos anteriores se dedicaron al tema de la estimacin de intervalos de conanza. Vimos, por ejemplo, el caso de estimacin de un intervalo de conanza para una media poblacional, . En este captulo se hace una introduccin al tema de pruebas de hiptesis. Slo trataremos el caso particular de pruebas de hiptesis para una media poblacional, . La metodologa de pruebas de hiptesis est ntimamente relacionada con la de intervalos de conanza; de hecho, como veremos, se puede vericar una hiptesis estadstica usando intervalos de conanza. Sin embargo, en problemas donde surge la necesidad de toma de decisiones es ms natural utilizar en primera instancia la metodologa de pruebas de hiptesis. A continuacin se presenta el caso del juicio contra Tahuro. En este juicio Tahuro es acusado de jugar con una moneda que est cargada. Se parte entonces del supuesto de que Tahuro es inocente y la scal (Ana Liza) debe allegar informacin para demostrar la culpabilidad de nuestro amigo; y la defensa (Stadi Shka) tratar de defender a Tahuro; el profesor jugar un papel neutral en el caso: ser el juez. El juicio contra Tahuro se presenta en tres partes: en la primera se describe la acusacin contra el joven; en la segunda, se busca un criterio para juzgarlo; y por ltimo, en la tercera se emite el veredicto. Ahora bien, la idea es emplear la situacin planteada para aproximarnos a los conceptos elementales relacionados con las pruebas de hiptesis, es as como despus del juicio las tres partes antes descritas se formalizan los conceptos involucrados, posteriormente se describe el proceso mismo de la metodologa de pruebas de hiptesis, luego se presenta un ejemplo y nalmente se formulan algunos problemas.

Motivacin: Juicio contra Tahuro

243

Motivacin: Juicio contra Tahuro


Vamos a comenzar el estudio de una de las herramientas ms conocidas de la inferencia estadstica: la prueba de hiptesis.33 La forma en que sta se utiliza tiene gran similitud con lo que se plantea en un juicio contra un acusado. En los juicios se parte de un principio: la inocencia del acusado y se procede de tal manera que un personaje, conocido como el scal, intenta recoger informacin para demostrar la culpabilidad del acusado. Similarmente, en las investigaciones donde se utilizan pruebas de hiptesis, se parte de un supuesto bsico: la hiptesis nula y el investigador trata entonces de recoger informacin, con base en una muestra aleatoria, para poder decidir si rechaza o no la mencionada hiptesis. En caso de rechazarla, se acoge a otra hiptesis conocida como la hiptesis alternativa.

El principio de inocencia
(El scal dirigi su mirada hacia el Jurado.) El scal: Las pruebas que recaen en contra del acusado permiten concluir que ste es culpable. El defensor: Protesto, seores del Jurado. Quiero recordarles que la ley dice que hasta que no se demuestre lo contrario, el acusado debe considerarse como inocente y las pruebas que presenta el scal aunque permiten sospechar del acusado, no me parecen sucientes para declararlo culpable. El scal: La defensa alega que faltan pruebas para declarar al acusado como culpable y que por tanto debe considerrsele como inocente. Entonces, reunir ms pruebas hasta lograr demostrar que el acusado s es culpable. Estas pruebas sern tan contundentes que la misma defensa no tendr ms remedio que aceptar la culpabilidad. El defensor: Entonces, seores del Jurado, esperemos a que el scal pueda conseguir esas pruebas, pues de lo contrario, y aunque el acusado fuera realmente culpable, no se le puede declarar culpable.
33 Algunos autores preeren utilizar la palabra vericacin o docimasia en vez de la palabra prueba, pues el sentido en que se emplea esta palabra en estadstica es bien diferente de lo que se entiende en matemticas como prueba o demostracin formal.

244 El juez: Por hoy, se cierra la sesin.

Matemticas, Azar, Sociedad

Tahuro es acusado: primera parte del juicio


Profesor: Se inicia la sesin. Seor Tahuro, por favor, pngase de pie. (Tahuro se levanta del puesto de los acusados.) Se le acusa a usted de estar jugando por los corredores de la universidad, con una moneda que est cargada. Cmo se declara usted ante esa acusacin? Tahuro: Inocente, seor juez. Profesor: Tiene usted la palabra seorita scal. Ana Liza: El seor Tahuro nunca va a clase de Probabilidad y Estadstica. En vez de ello se pasa la vida jugando con una monedita por los corredores de la universidad y varios testigos pueden conrmar lo que digo. En todo caso, no se le acusa de que falte a clase o de que juegue con su monedita, sino de que deja a sus compaeros sin dinero para almorzar. Stadi Shka: Protesto su seora. S, es cierto que Tahuro falta con frecuencia a clase, pero no es cierto que ande robando el dinero a sus compaeros. El obtiene por medio de un juego limpio y legal sus ganancias, con las cuales paga parte de su matrcula. Profesor: Ha lugar, seorita scal, explique ms detalladamente por qu usted acusa al seor Tahuro de robarle dinero a sus compaeros. Ana Liza: Su seora, el seor Tahuro roba a sus compaeros utilizando una moneda que est cargada; mejor dicho, usa una moneda para la cual la probabilidad de obtener cara no es igual a la de obtener sello. Stadi Shka: Protesto, su seora. La scal acusa a Tahuro de usar una moneda cargada, sin tener pruebas; y hasta que no se demuestre lo contrario, debemos suponer que la moneda no est cargada y que por consiguiente la probabilidad de obtener cara o sello es igual a 1/2. Aqu la defensa est usando el principio
de inocencia.

Profesor: Seorita scal, tiene usted pruebas de que la moneda est cargada? Ana Liza: No. Pero, puedo demostrarles que la moneda est cargada, utilizando probabilidades y estadstica. Slo necesito que su Seora me permita

Motivacin: Juicio contra Tahuro

245

repetir varias veces un experimento aleatorio consistente en lanzar la moneda y observar el resultado que se obtiene en cada ocasin. Aqu la fiscal asegura que va
a conseguir las pruebas para demostrar la culpabilidad de Tahuro.

Profesor: Seorita scal, aqu tiene la moneda. (El profesor entrega la moneda a Ana Liza.) Ana Liza: Seor juez, lanzar esta moneda cien veces y alguno de ustedes contar el nmero de veces que se obtiene cara. Stadi Shka: Protesto su seora. El azar puede jugarnos una mala pasada. Por ejemplo, podra ocurrir que por puro azar, todas las veces se obtuviera cara. Ana Liza: Lo que alega la defensa es cierto; pero yo les advert que mi argumento har uso de la estadstica y de la probabilidad. Si la moneda no est cargada y se lanza, por ejemplo, cien veces, la probabilidad de que siempre caiga en cara es de: ( 1 2)
100

= 0,000...0007886 !Huy! Van 30 ceros despus de la coma.

Tal cifra indica que es muy, muy remoto que eso ocurra. Entonces, si se supone la inocencia de Tahuro, es decir, si creemos la hiptesis de que en su moneda, las probabilidades de cara y sello son iguales a 1/2 y realizamos el experimento de lanzar cien veces la moneda, la ocurrencia de una proporcin exagerada de sellos contra caras o viceversa da lugar a pensar que la moneda s est cargada. Stadi Shka: El argumento del scal es muy interesante, pero de ninguna manera nos permite demostrar rotundamente la culpabilidad de Tahuro en caso de que ocurra una proporcin exagerada de sellos contra caras o viceversa, por las siguientes razones: Primero, no se ha dicho a partir de qu punto la mayor ocurrencia de caras o de sellos se considera como exagerada. Segundo, si asumimos la hiptesis de que la moneda no est cargada, y que al lanzar la moneda cien veces, siempre se obtiene cara, tendremos que, aunque es un resultado muy, muy improbable, s puede ocurrir por un alocado azar.

246

Matemticas, Azar, Sociedad

Profesor: Yo como juez, debo ser imparcial. Realmente pienso que ambos argumentos, tanto el de la defensa como el de la scala son vlidos. En todo caso, propongo que la scal lleve a cabo su experimento, pero jando de antemano el criterio que usaremos para considerar como muy exagerado el desequilibrio entre la proporcin de caras y sellos. Stadi Shka: Pero insisto seor juez en que si existe un desequilibrio muy exagerado en la proporcin de caras y sellos, podemos en todo caso incurrir en un error que aunque muy poco probable, nos llevara a la garrafal equivocacin de declarar como culpable a una persona que realmente es inocente. Ana Liza: Seor juez, tambin existe la posibilidad de que Tahuro sea realmente culpable y que por puro azar no se le declare culpable. Stadi Shka: Protesto su seora! La scal est tratando de... (Ana Liza no deja terminar a Stadi Shka.) Ana Liza: De ninguna manera. La defensa es la que est tratando de...(Mientras tanto Stadi Shka contina hablando, entonces el juez toma su borrador y da varios golpes contra la mesa.) Profesor: !Orden en la sala! En este juicio, usando probabilidad y estadstica, nunca podremos estar completamente seguros de nuestra decisin: nos podemos equivocar de dos maneras diferentes, a saber: Declarar culpable a Tahuro, siendo realmente inocente. No declarar culpable a Tahuro, siendo culpable. En todo caso, vamos a continuar con este juicio y trataremos de determinar a partir de qu punto se va a considerar como exagerado el desequilibrio en las proporciones de caras y sellos. Stadi Shka: Est bien, estoy de acuerdo su seora, pero recordemos que tenemos que admitir la posibilidad de obtener cien caras en cien lanzamientos de una moneda legal slo por pura casualidad. Ana Liza: Pero entonces, pueden ocurrir, por ejemplo, 65 caras o ms sin que se considere necesariamente que Tahuro es tramposo? En todo caso, debemos reconocer que la probabilidad de que salgan cien caras es tan pequea e insignicante que cualquier persona estara dispuesta a armar con mucha seguridad que este resultado nos indica que la moneda est cargada.

Motivacin: Juicio contra Tahuro

247

Profesor: Creo que estamos llegando a un acuerdo. Pero, por hoy vamos a cerrar la sesin. Para la prxima sesin queda abierto el problema de: Determinar un criterio para establecer a partir de qu punto la moneda de Tahuro puede considerarse como ilegal. Es decir, determinar el nmero mnimo y el mximo de caras que pueden ocurrir, a partir de los cuales se considerar que la moneda est cargada.

Bsqueda del criterio y nal del juicio

Las siguientes preguntas se proponen con la intencin de guiar de manera general la reexin acerca de lo que es el criterio para tomar la decisin en el juicio y las caractersticas que debe tener. a. Cree usted que si en los cien lanzamientos de la moneda se obtienen 53 caras, eso representa evidencia de que la moneda est cargada? Y, si se obtienen 56 caras? Y, si se obtienen 58 caras? Y, si se obtienen 75 caras? Y, si se obtienen 43 caras? Y, si se obtienen 41 caras? Y, si se obtienen 25 caras? b. Proponga un criterio para decidir sobre la legalidad de la moneda de Tahuro. Explique detalladamente su respuesta (qu razones tiene para proponer ese criterio, por qu lo enuncia as, comentarios adicionales). c. Considere los siguientes dos criterios para juzgar la legalidad de la moneda de Tahuro: Criterio 1: Si salen menos de 40 caras, o, si salen ms de 60 caras, entonces la moneda de Tahuro est cargada. Criterio 2: Si salen menos de 35 caras, o, si salen ms de 65 caras, entonces la moneda de Tahuro est cargada. Cul es la diferencia entre los dos criterios? Con cul de los dos criterios preferir Tahuro que se le juzque? Por qu? d. Considere los siguientes dos criterios para juzgar la legalidad de la moneda de Tahuro:

248

Matemticas, Azar, Sociedad Criterio 2: Si salen menos de 35 caras, o, si salen ms de 65 caras, entonces la moneda de Tahuro est cargada. Criterio 3: Si salen ms de 64 caras, entonces la moneda de Tahuro est cargada. Cul es la diferencia entre los dos criterios? Si la acusacin que se ha hecho sobre la moneda de Tahuro es: la moneda est cargada, cul de los dos criterios es ms adecuado para decidir en el juicio? Explique su respuesta. De qu estilo debera ser la acusacin contra la moneda de Tahuro para que el criterio 3 resultara adecuado? e. Suponga que ya se ha adoptado un criterio para juzgar la legalidad de la moneda de Tahuro. Se lleva a cabo la experiencia que Ana Liza propuso, es decir, se lanza la moneda cien veces y se cuenta el nmero de caras obtenidas. Adems, se aplica el criterio establecido previamente. Qu opinin le merece a usted el hecho de repetir la experiencia, para volver a aplicar el criterio? Explique su posicin. f. A partir de las respuestas dadas a las preguntas anteriores haga una lista de caractersticas que debe tener el criterio que se adopte para tomar la decisin en el juicio contra la moneda de Tahuro.

Desde el punto de vista terico, si una moneda corriente se lanza cien veces, se espera obtener 50 caras y 50 sellos. Sin embargo, si en la prctica se obtuvieran, por ejemplo, 53 caras y 47 sellos, seguramente este hecho no dara pie para sospechar que la moneda est cargada. En este caso, podramos aceptar la diferencia entre lo terico y lo experimental como una consecuencia de la presencia del azar en el experimento que se est realizando. De manera similar, no se pensara que la moneda est cargada si se obtuvieran 47 caras y 53 sellos. Y, podramos seguir dando casos particulares en los que al lanzar cien veces la moneda no se obtienen 50 caras y 50 sellos y no por eso se sospecha de la legalidad de la moneda. Surge entonces la pregunta: en qu casos, tiene sentido sospechar de la legalidad de la moneda? La respuesta expresada de manera muy vaga sera: en casos en los que el nmero de caras (y, por tanto, tambin el nmero de sellos) sea muy diferente de 50. Antes de llegar a determinar con precisin el criterio que estamos buscando vamos a ponernos de acuerdo en el tipo de criterio adecuado para la situacin en la cual se va a emplear. Puesto que la sospecha que se tiene slo se reere a que la moneda puede estar cargada y no a que la moneda puede estar cargada a favor de un determinado resultado, entonces ese hecho debe reejarse en la

Motivacin: Juicio contra Tahuro

249

norma que vamos a usar. As, pues, el criterio deber expresar que en cualquiera de los siguientes casos se rechazar el supuesto de que la moneda es legal: si se obtienen menos de a caras si se obtienen ms de b caras siendo que 0 < a < 50 y 50 < b < 100 zona de rechazo del supuesto de inocencia x a x 50 zona de rechazo del supuesto de inocencia x b

Ahora bien. Los valores a y b no son nicos. Ellos dependen de qu tan rgido se quiere que sea el criterio. Entre ms prximos estn a y b a 50, ms estricto es el criterio con el que se juzga el resultado y hay ms probabilidad de rechazar el supuesto de que la moneda no est cargada; por tanto, hay ms probabilidad de acoger la hiptesis de que la moneda s est cargada, cuando en realidad podra ser una moneda corriente. Recprocamente, entre ms razonablemente alejados estn a y b de 50, el criterio con el que se juzga el resultado de los cien lanzamientos es ms amplio, puesto que incluye resultados diferentes a 50, que pueden suceder por azar y no necesariamente porque la moneda est cargada. La idea es que a y b estn separados de 50 lo necesario para incluir entre ellos una buena proporcin del total de los resultados posibles y no incluir una baja proporcin de resultados, que son los que se pueden considerar como atpicos. El esquema siguiente puede aclarar lo dicho anteriormente.

5% del total de observaciones x a 2,5% del total de observaciones x a

90% del total de observaciones x 50 95% del total de observaciones x 50 x b

5% del total de observaciones

2,5% del total de observaciones x b

250

Matemticas, Azar, Sociedad

A continuacin procederemos a precisar el criterio. Para ello vamos a imaginar que el experimento consiste en lanzar una moneda corriente cien veces consecutivas y registrar el nmeros de caras obtenidas. Ese experimento se repite una gran cantidad de veces. La repeticin del experimento produce una distribucin con las siguientes caractersticas:34 la variable, el nmero de caras, toma valores desde 0 hasta 100 la media de la distribucin es 50 caras la desviacin estndar de la distribucin es 5 caras la distribucin sigue el modelo normal

Y, entonces sabemos por ejemplo que a 2 desviaciones estndar alrededor de la media se encuentra el 95,44% del total de las observaciones. Es decir, en el intervalo [50 - 2 * 5, 50 + 2 * 5] = [40, 60] se incluyen 95,44% de los resultados posibles. El criterio, podra ser el siguiente: Si se obtienen menos de 40 caras ms de 60 caras en cien lanzamientos consecutivos de la moneda, se considera que la moneda es ilegal y por tanto deber declararse culpable a Tahuro. La representacin grca del criterio con el cual se va a juzgar la legalidad de la moneda de Tahuro se presenta a continuacin:

34

En el texto no vamos a deducir tales caractersticas. La razn es que, aunque no resultara difcil hacerlo, nos apartara del tema que se est desarrollando.

Motivacin: Juicio contra Tahuro


Zona de resultados "cercanos" resultados de las proporciones ms probables de ocurrir al lanzar una moneda legal

251

Resultados muy poco probables de una moneda legal


el valor de que se supone bajo Ho

Resultados muy poco probables de una moneda legal

40

45

= 50

55

60

1 EE = 5

2EE

2EE

"zona de resultados lejanos"

Decisin: veredicto
Profesor: Se inicia la sesin. Seor Tahuro, por favor, pngase de pie. (Tahuro se levanta del puesto de los acusados.) Se le acusa a usted de estar jugando por los corredores de la universidad, con una moneda que est cargada. Cmo se declara usted ante esa acusacin? Tahuro: Inocente, seor juez. Profesor: Tiene usted la palabra seorita scal. Ana Liza: Tal como el seor juez lo propuso he determinado un criterio para decidir hasta qu punto una moneda puede considerarse como ilegal. El criterio dice: Si salen ms de 60 caras o menos de 40 caras en cien lanzamientos consecutivos debemos considerar que la moneda es ilegal. Profesor: El criterio propuesto por la scal, coincide con mi criterio. Por tanto, creo que lleg la hora de realizar el experimento.

252

Matemticas, Azar, Sociedad

Stadi Shka: Su seora, propongo que el experimento sea realizado por un testigo neutral; sugiero que sea Chiripa quien haga los lanzamientos. El nunca ha
sido perjudicado con el asunto de los almuerzos.

Profesor: Se acepta la mocin. Seor Chiripa, pase al banquillo de los testigos. (Chiripa pasa al banquillo, toma la moneda de Tahuro y realiza los cien lanzamientos, obteniendo 62 caras.) Ana Liza: Seor juez, se han obtenido 62 caras. Este resultado o uno en el que se obtengan ms de 60 caras, slo ocurre con probabilidad menor de 0,025, por tanto creo que debe declararse a Tahuro como culpable, pues el resultado obtenido no apoya la hiptesis de que la moneda sea normal. Stadi Shka: Protesto, su seora! Deberamos repetir el experimento pues 62 caras se pueden obtener por puro azar an si la moneda es legal. Entonces me parece que si se vuelve a repetir el experimento, un resultado muy similar al anterior indicara que... Ana Liza: No es necesario que siga justicando la defensa. Que se repita el experimento. (Chiripa vuelve a lanzar la moneda cien veces, y ahora se obtienen 66 caras.) Profesor: Han ocurrido 66 caras. Tiene la palabra la defensa. Stadi Shka: Sin comentarios, su seora. Se le aguaron los ojos. Profesor: La seorita scal desea decir algo ms? Ana Liza: No, seora. Sonriente como nunca. Profesor: No habiendo lugar a ms discusin, se levanta la sesin temporalmente y mientras tanto, el jurado entra a deliberar para emitir el fallo. (Despus de cinco minutos de deliberar, aparece el seor juez con la decisin del jurado.) Profesor: Por favor, pngase de pie el acusado. (Tahuro se levanta.) El jurado ha decidido declarar como culpable al acusado. Se le condena a pagar una multa de 32 almuerzos y entra en prueba disciplinaria. No puedo creerlo; deben estar cometiendo un error.

Motivacin: Juicio contra Tahuro

253

a. Son las pruebas contra Tahuro contundentes? Explique su respuesta. b. Qu tipo de errores podra cometer el jurado al tomar una decisin sobre la acusacin que recae sobre Tahuro? Considere ambos casos: cuando es declarado culpable, y, cuando se declara que no se encontr evidencia de que sea culpable. c. Si usted obtuviera 60 caras en un experimento como el que se realiz en el juicio contra Tahuro, qu dira: la moneda est cargada o la moneda es legal? Explique su respuesta en trminos probabilsticos. d. Explique por qu la probabilidad de obtener 40 menos caras, , 60 ms caras, suponiendo que la moneda es legal, al lanzar una moneda cien veces es de 0,05. e. La scal Ana Liza dice: La probabilidad de obtener 60 ms caras en 100 lanzamientos de la moneda, si sta es legal, es de 0,025. Es correcta esa armacin? Explique. f. Suponga que la moneda de Tahuro realmente est cargada y que se obtienen 55 caras en el experimento de Ana Liza. Qu decisin tomara usted como jurado? Sera justa su decisin? g. En la subseccin titulada Bsqueda del criterio y nal del juicio usted propuso un criterio para juzgar la legalidad de la moneda de Tahuro. Determine cul habra sido el veredicto, aplicando la norma que usted dio. Explique su respuesta. Determine qu tan amplia es su norma, en trminos de probabilidad. h. Si la norma acogida hubiera sido: Si salen menos de 35 caras, o, si salen ms de 65 caras, entonces la moneda de Tahuro est cargada, cul habra sido el veredicto? Qu probabilidad hay en ese caso de declarar culpable a Tahuro, no sindolo? i. Sabiendo que se obtuvieron 62 caras al lanzar la moneda cien veces consecutivas, construya un intervalo de conanza del 95% que le permita decidir acerca de la culpabilidad de Tahuro.

254

Matemticas, Azar, Sociedad j. Suponga que la sospecha hubiera sido: La moneda de Tahuro est cargada a favor de cara. En ese caso, no tendra sentido que la norma contemplara la posibilidad de condenar a Tahuro si salieran menos de a caras. Suponga entonces que el criterio fuera: si salen ms de b caras, donde 50 < b < 100, entonces, la moneda es ilegal. Se quiere que este criterio excluya slo un 5% del total de los resultados posibles, cul debe ser el valor de b? Explique su respuesta.

Formalizacin de los conceptos


Hasta el momento se ha hablado de manera intuitiva acerca de conceptos tales como hiptesis nula, hiptesis alternativa y criterio de decisin. En lo que sigue trataremos de formalizar tales conceptos. Adicionalmente, se mencionarn los errores que se pueden cometer al tomar una decisin.

Las hiptesis
El juicio anterior present varios de los elementos de una prueba de hiptesis estadstica. Veamos: Una sospecha acerca de la cual se desea realizar una investigacin, la cual en estadstica, se conoce como la hiptesis de investigacin. Un principio para juzgar al acusado, en el que se supone que ste es inocente hasta que se demuestre lo contrario. En estadstica, este supuesto es lo que se conoce como hiptesis nula, donde la palabra nula viene de nulidad, que en el caso del juicio indica simplemente que la moneda no est cargada. Como siempre existe la posibilidad de tener que rechazar la hiptesis nula, sta siempre se enfrenta con otra hiptesis, conocida como hiptesis alternativa.

Criterio y decisin acerca de la hiptesis nula


As como en un juicio se debe tomar una decisin acerca del acusado: declararlo culpable o inocente, tambin en estadstica inferencial debe tomarse una decisin acerca de una hiptesis nula: rechazarla o no rechazarla. En un juicio, si se declara culpable a un acusado es porque se encontraron pruebas sucientes para no creer en su inocencia; en estadstica, si se rechaza una hiptesis nula es porque se encuentran resultados signicativamente diferentes a lo que

Formalizacin de los conceptos

255

debera ocurrir si la hiptesis nula fuera cierta. Por otro lado, si en juicio se declara inocente al acusado es porque no hubo pruebas sucientes para alegar su culpabilidad; en estadstica, el no rechazo de una hiptesis nula quiere decir que los resultados no fueron signicativamente diferentes de lo que se esperaba, bajo la suposicin de que la hiptesis nula era cierta. En todo caso, siempre se debe establecer previamente un criterio para decidir acerca de la hiptesis nula, por lo cual se requiere: Un proceso con el que se trata de determinar la inocencia o culpabilidad del acusado, comparando el comportamiento de inters con lo establecido por las leyes en los cdigos. En estadstica este proceso se conoce como la determinacin de la regin de rechazo de la hiptesis nula.

Consecuencias de una decisin


Existen cuatro situaciones posibles originadas por la decisin de un jurado con respecto a la situacin real y verdadera del acusado en cuanto a su culpabilidad, a saber: Declarar culpable al acusado, siendo ste inocente. En este caso, el jurado comete un error. Declarar culpable al acusado, siendo ste culpable. En este caso, el jurado toma una decisin correcta. Declarar inocente al acusado, siendo ste inocente. En este caso, el jurado toma una decisin correcta. Declarar inocente al acusado, siendo ste culpable. En este caso, el jurado comete un error. Tambin en estadstica, al rechazar o no una hiptesis nula hay cuatro situaciones posibles con respecto a la correcta o incorrecta toma de decisin.

a. Complete el cuadro que se presenta a continuacin, indicando en cada caso si la decisin es correcta o si se comete error.

256

Matemticas, Azar, Sociedad


Situacin real La hiptesis nula es cierta Rechazamos la hiptesis nula La hiptesis nula no es cierta

Decisin

No rechazamos la hiptesis nula

b. Explique el paralelo que se hace entre la decisin de un jurado y la decisin acerca de una hiptesis nula. Al tomar una decisin acerca de una hiptesis nula es posible cometer el error de rechazarla siendo cierta de aceptarla, siendo falsa. En el primer caso, el investigador puede controlar la probabilidad de cometer error, puesto que es l quien ja un lmite a partir del cual rechaza la hiptesis nula. En el segundo caso la situacin es ms complicada pues el investigador no tiene bajo control este error; por eso, cuando las pruebas no presentan evidencia que permita rechazar la hiptesis nula, la conclusin no es que se debe aceptarla; la conclusin es mucho ms dbil: es simplemente no rechazarla.

Proceso de las pruebas de hiptesis


Una vez que se tienen las ideas que apoyan la metodologa de pruebas de hiptesis, vamos a presentar, de manera general, el procedimiento paso por paso que se sigue al realizar una prueba de hiptesis. Son siete los pasos que mencionaremos y despus describiremos: Identicacin del tipo de problema Planteamiento de las hiptesis Seleccin de la herramienta de anlisis Seleccin de un modelo terico Anlisis del nivel de signicacin del resultado Toma de la decisin Presentacin de conclusiones

Proceso de las pruebas de hiptesis

257

Identicacin del tipo de problema


En general, los problemas de inferencia estadstica plantean el estudio de uno o ms parmetros.35 Entre los parmetros que se estudian con mayor frecuencia se pueden mencionar los siguientes: El valor de la media de una variable en la poblacin. Parmetro que denotamos con la letra griega . El valor de la diferencia de medias de una misma poblacin o de poblaciones diferentes. Denotamos esta diferencia de medias como: 1 2 x y con otros subndices diferentes a los nmeros 1 y 2 o a las letras x e y. El valor de la varianza de una variable de la poblacin. La notacin 2 ms usual es . El valor de la proporcin de una variable en la poblacin. La notacin ms utilizada para este parmetro es la letra P mayscula. Asociados a estos parmetros existen estimadores de parmetros. En el cuadro que se presenta a continuacin se hace un resumen de parmetros y estimadores de parmetros con su respectiva notacin.
Parmetro media poblacional diferencia de medias poblacionales varianza poblacional proporcin poblacional Notacin Herramienta de anlisis media muestral diferencia de medias muestrales varianza muestral proporcin muestral Notacin x x1 x2

1 2 2
P

En este captulo estudiaremos problemas relacionados con pruebas de hiptesis para la media y en el captulo siguiente estudiaremos problemas relacionados con la diferencia de medias 1 2.
35 Tambin hay casos de pruebas de hiptesis donde lo que se estudia es la distribucin de la poblacin en s misma y, por ejemplo, hay pruebas para determinar si la distribucin de una poblacin es o no normal.

258

Matemticas, Azar, Sociedad

Planteamiento de las hiptesis


La hiptesis nula. La palabra nula transmite la idea de ninguna diferencia. Como regla general, debemos comenzar con la armacin de que no hay razn para creer que la sospecha que se tiene sea verdadera. La hiptesis nula se expresa de alguna de las siguientes formas: Ho: parmetro = k zona de rechazo de la hiptesis nula x a zona de no rechazo de la hiptesis nula x k Ho: parmetro k zona de rechazo de la hiptesis nula x a zona de no rechazo de la hiptesis nula x k Ho: parmetro k zona de no rechazo de la hiptesis nula x k donde k es un valor real conocido. La hiptesis alternativa. Al plantear esta hiptesis, usualmente, debe recordarse el propsito de la investigacin: buscar evidencia que permita rechazar la hiptesis nula. Por lo general, la hiptesis alternativa coincide con la sospecha que se tiene y es la negacin de la hiptesis nula. Para los tres casos mencionados anteriormente, las correspondientes hiptesis alternativas son: Ha: parmetro k Ha: parmetro < k Ha: parmetro > k zona de rechazo de la hiptesis nula x b zona de rechazo de la hiptesis nula x b

Proceso de las pruebas de hiptesis

259

En el caso de que la alternativa no indique ninguna direccin especca, es decir, sea de la forma: parmetro k, se dice que la prueba de hiptesis es de dos colas.

Seleccin de la herramienta de anlisis


Por lo general, en estadstica inferencial encontramos ms de una herramienta para enfrentar un mismo tipo de problema. En nuestro caso, emplearemos herramientas del campo de la estadstica conocido como estadstica paramtrica. Algunas de las herramientas ms usadas en este campo son: la media muestral x para inferir acerca de una media poblacional , la diferencia de medias muestrales x y para inferir acerca de una diferencia de medias poblacionales x y y la varianza muestral s para inferir acerca de una varianza poblacional.
2

Seleccin de un modelo terico


Para cada herramienta de anlisis tal como x , x y , , s existe una distribucin muestral asociada. Ya se trataron anteriormente casos de distribuciones muestrales asociadas a x y a x y . En todos los casos de distribuciones muestrales que se explicaron se observaron caractersticas tales como: forma acampanada de la distribucin a mayor tamao de la muestra, la distribucin tiende ms fuertemente a la forma acampanada Las dos razones anteriores explican en parte la seleccin de la distribucin normal como modelo que simula el comportamiento de las distribuciones muestrales que vamos a trabajar en este texto. A pesar de que la distribucin normal es un buen modelo no siempre es el ms adecuado. Existen otros modelos que, en ocasiones, pueden simular mejor el comportamiento de una distribucin muestral de x ; sin embargo, esa discusin no se har en este texto. Por ahora haremos uso extensivo del modelo normal, pero el lector debe ser consciente de que existen ciertas limitaciones que se han dejado de lado. En resumen, usaremos el modelo de distribucin normal tanto para distribuciones muestrales de x como para distribuciones muestrales de x y .
2

260

Matemticas, Azar, Sociedad

Anlisis del nivel de signicacin del resultado


Una vez que se ha escogido un modelo para representar el comportamiento de la herramienta elegida para el anlisis, determinar el nivel de signicacin es un problema de recetas de clculo y de interpretacin de la tabla de distribucin del correspondiente modelo. El nivel de signicacin de una prueba de hiptesis, denotada por , es la probabilidad que existe de rechazar la hiptesis nula. Hablando en trminos de la grca, el nivel de signicacin es el rea de la regin de rechazo de la hiptesis nula. Generalmente, se utilizan los valores 5%, 2,5%, 1%, 0,5% para . En el caso de que la prueba de hiptesis sea de dos colas, es la suma de las reas de las dos regiones de rechazo. Es decir, si = x% en una prueba de dos colas, entonces el rea de cada una de las regiones de rechazo debe ser (x/2)%. Veamos un ejemplo del manejo del nivel de signicacin de una prueba de hiptesis: En el modelo de la distribucin muestral de medias se presenta el caso de una prueba de hiptesis de una cola, con un nivel de signicacin del 5%. En este caso, la hiptesis alternativa es: Ha: > k. Buscando en la tabla, encontramos un valor aproximado para z de 1,645. Grcamente sera as:

regin de no rechazo de Ho

= 5%

z 0 1 1,64 valor tabla

A continuacin, en el modelo de la distribucin de medias muestrales se presenta el caso de una prueba de hiptesis de dos colas con un nivel de signicacin del 5%. En este caso, la hiptesis alternativa es: Ha: k. El valor que se debera buscar en la tabla es el correspondiente a --- = 2, 5 %. Buscando en la tabla encontramos z = 1,96. Grcamente sera as:
2

Proceso de las pruebas de hiptesis

261

/ 2 = 2,5% = 0,025

/ 2 = 2,5% = 0,025

z
-z z = 1,96

Toma de la decisin
Una vez realizados los tres pasos que se explicaron anteriormente, la decisin acerca de la hiptesis nula, Ho, es simplemente cuestin de mirar en dnde cae el resultado de x con respecto al valor que buscamos en la tabla. La observacin de la que se habla en la frase anterior se hace sobre el modelo de la distribucin muestral correspondiente, para la cual su desviacin estndar (error estndar) se deni en el captulo titulado Estadstica inferencial. La grca donde ubicamos el valor de la tabla determina dos regiones: una, donde no rechazamos la hiptesis nula y la otra, donde la hiptesis nula debe rechazarse. Segn dnde quede ubicado el valor del estimador muestral habr que no rechazar o s rechazar la hiptesis nula.

Presentacin de conclusiones
En general, la toma de una decisin genera consecuencias y dudas que deben comentarse. Es importante no olvidar que la prueba de hiptesis no constituye una prueba contundente. Es posible cometer uno de dos errores. Rechazar la hiptesis nula siendo que es verdadera (error de tipo I, con probabilidad de cometerse igual a ) o no rechazar la hiptesis nula siendo que es falsa (error de tipo II; la probabilidad de cometer este tipo de error no es tan fcil de calcularse). A continuacin presentamos un ejemplo totalmente resuelto para ilustrar el desarrollo de una prueba de hiptesis.

262

Matemticas, Azar, Sociedad

Ejemplo: Contaminacin peligrosa en el centro de Bogot?


Los habitantes de Bogot viven preocupados por el aumento ao a ao de la concentracin de bixido de carbono (CO2) en el centro de la ciudad. Se considera que un porcentaje de contaminacin normal no supera el nivel del 24% de CO2. En 1990 se contrataron especialistas que midieron el ndice de contaminacin. Los resultados que obtuvieron fueron los siguientes: en 36 das elegidos aleatoriamente durante el ao se midi la concentracin de CO2 al medio da y se encontr una concentracin media de 25% con una desviacin estndar de 6%. De acuerdo con estos resultados puede considerarse como peligroso el nivel de contaminacin de CO2 en el centro de Bogot? Identicacin del tipo de problema. Se trata de un problema de inferencia acerca de una media poblacional. Podemos denir de manera formal este parmetro as: media de los niveles de contaminacin al medio da durante el ao de 1990" Planteamiento de las hiptesis. La hiptesis nula establece que no pasa nada; en este caso, el no pasa nada se debe interpretar como: la concentracin media no alcanza un nivel peligroso, es decir, 24. Por tanto, la hiptesis nula es: Ho: 24% La hiptesis alternativa debe plantear la posibilidad sobre la cual se tienen sospechas. En este caso, la sospecha es que el nivel medio de contaminacin es peligroso, es decir, > 24%>. Por tanto, la hiptesis alternativa es: Ha: > 24% Como la hiptesis alternativa es de la forma > y no de la forma , la prueba de hiptesis que se est planteando es unilateral o de una cola hacia el lado derecho. Seleccin de una herramienta de anlisis. La herramienta de anlisis que se utiliz es la media muestral. Se encontr que x = 25% con desviacin estndar de 6%.

Ejemplo: Contaminacin peligrosa en el centro de Bogot?

263

Seleccin de un modelo terico. Ya hemos visto que el comportamiento de x se puede modelar de una manera aproximada con la distribucin normal. Usaremos, entonces, ese modelo. Anlisis del nivel de signicacin. El resultado muestral estandarizado se establece con base en el cociente: media muestral - media poblacional de la hiptesis nula error estndar de la media muestral En smbolos se obtiene: x 25 % 24 % 1% ----------- = ---------------------------- = -------- = 1 s 6% 6% -------------------6 n 36 Valor de la tabla. Si elegimos como nivel de signicacin = 5%, encontramos en la tabla un valor de 1,64. Comparacin de valores. La grca en donde se realiza la comparacin se presenta a continuacin:
= 5% regin de no rechazo de Ho

z
0 1 1,64 valor tabla

valor muestral estandarizado

Toma de la decisin. Se puede ver en la grca del punto anterior que el resultado muestral se ubica en la regin de no rechazo de la hiptesis nula. Entonces, la decisin es no rechazar la hiptesis nula. Presentacin de conclusiones. Ya que no se rechaz la hiptesis nula se piensa que el nivel de contaminacin de CO2 no fue peligroso en 1990. Es posible que nos equivoquemos con esta decisin pues al no rechazar la hiptesis nula podemos estar aceptando una hiptesis que es falsa. Por eso, es mejor decir no rechazamos en cambio de decir aceptamos.

264

Matemticas, Azar, Sociedad

Ejercicios
1.- Una planta qumica arma que la produccin diaria promedio de un cierto producto all elaborado es =800 toneladas. Se tom una muestra de la produccin diaria de tal producto en 50 das y se obtuvo una media de 810 toneladas y una desviacin estndar igual a 21 toneladas. Presentan los datos suciente evidencia para refutar la armacin de la planta? (Use un nivel de signicacin igual a 0,05.) 2.- Muchos aos de experiencia han demostrado que un examen de admisin de matemticas produce una media de 55 con una desviacin estndar de 9,3. Este ao, los 100 estudiantes que presentaron el examen obtuvieron un promedio de 58. Se puede armar que estos estudiantes estn signicativamente por encima del promedio? 3.- Para lanzar una campaa publicitaria sobre el ahorro de gasolina de un carro, se realiza un estudio para determinar el consumo de gasolina de carros del mismo tipo. Se tom una muestra de 450 automviles corrientes y se encontr que el consumo medio era de 26 km por galn y la desviacin estndar de 4 km por galn. Se podra armar que el consumo medio de gasolina es mayor que 24 km por galn? 4.- De un grupo de 2000 bebs, con edades entre dos y cuatro aos, se tom una muestra aleatoria de 100. Se encontr que el peso medio de la muestra es 8 kilos y la desviacin estndar es 0,8 kilos. Con base en los resultados anteriores, se puede rechazar la hiptesis Ho: =7,8 5.- A pesar de la riqueza lexical del espaol, la mayora de los hispanoparlantes tienden a usar un nmero muy reducido de palabras diferentes con respecto al vocabulario existente. Con el n de implementar los cursos de redaccin en espaol ofrecidos por una universidad bogotana, el departamento de idiomas desarroll una investigacin que meda el nmero de palabras diferentes sobre un total de 500 en 200 textos escritos por estudiantes de diferentes carreras de la universidad. Se encontr que la variable se distribua casi normalmente con una media de 117 palabras y una desviacin estndar de 14,3. a. Qu variable se toma en cuenta?

Ejercicios

265

b. Un estudio anterior armaba que el nmero promedio de palabras diferentes usadas por los hispanoparlantes es menor que el 15% del total de palabras empleadas. Lo encontrado en la investigacin de la universidad corrobora la armacin? c. El departamento de idiomas crea que un nmero promedio aceptable de palabras diferentes era 150, para que los cursos no tuvieran que ser modicados. La informacin presentada sugiere que debe haber cambios en los cursos de redaccin del departamento?

Prueba de hiptesis sobre diferencia de medias para muestras independientes

Introduccin
En el captulo anterior se hizo una presentacin general de la metodologa estadstica conocida como prueba de hiptesis y adems se habl del caso particular en el que el parmetro sobre el cual se realiza la prueba es la media poblacional. En este captulo vamos a hacer referencia al caso en el que la prueba de hiptesis se hace sobre la diferencia de medias, con el propsito principal de comparar las poblaciones de las cuales provienen las muestras con base en las cuales se va a inferir. El proceso para la prueba de hiptesis sobre la diferencia de medias, es igual al empleado cuando se quiere validar estadsticamente una hiptesis sobre la media de una poblacin. Slo hay diferencias en los detalles: el estimador muestral no es la media, sino la diferencia de medias, por tanto la distribucin muestral que sirve como fundamento terico es la de diferencias de medias con la correspondiente frmula para el error estndar. Por tal razn, este captulo se desarrollar muy rpidamente. En primer lugar se proponen tres enunciados; se hace la caracterizacin y la solucin de dichos problemas. Luego se hace un resumen de los aspectos relevantes para las pruebas de hiptesis sobre la diferencia de medias. Finalmente se plantean una serie de ejercicios.

Motivacin
El libro de texto. Un profesor sostiene que el libro de texto empleado en un curso de matemticas es uno de los factores que inuyen y determinan la metodologa de clase y por tanto, el libro adoptado incide en el desempeo de los

Motivacin

267

estudiantes en el curso. Para vericar su hiptesis decide realizar un experimento: durante un semestre desarrolla el mismo curso para dos grupos de estudiantes de la misma carrera en la misma universidad, empleando dos libros, el X y el Y, de caractersticas bien diferenciadas, uno en cada curso. Al nal aplica el mismo examen y obtiene los resultados que se muestran a continuacin:
Grupo 1 (libro X) tamao media desv. est. x = 3, 8 Grupo 2 (libro Y) n y = 36 y = 3, 5

s x = 0, 46

s y = 0, 51

Los resultados encontrados por el profesor apoyan su hiptesis de investigacin? Cul va es la ms rpida? Stadi Shka tiene clase todos los das en la universidad a las 7 a.m., y para llegar generalmente toma la ruta A. En das pasados, Chiripa le sugiri que tomara la ruta B puesto que es ms rpida para llegar a la universidad a esa hora. Stadi Shka quiso hacer un experimento antes de seguir el consejo de Chiripa. Durante dos semanas consecutivas tom la ruta B, anotando cada da el tiempo empleado desde su casa hasta la universidad y las siguientes dos semanas registr el tiempo empleado en ir de su casa a la universidad por la ruta A. Los resultados fueron los siguientes:
Ruta A media desv. est. Ruta B

x A = 37 min . s A = 3, 346 min .

x B = 38, 3 min . s B = 3, 346 min .

La informacin que consigui Stadi Shka con su experimento apoya el consejo que dio Chiripa? Tratamiento para adelgazar. En un aviso publicitario dirigido a mujeres entre 25 y 35 aos, que sufran problemas de obesidad, un instituto para adelgazar ofrece un cierto tratamiento que seguido, sin interrupcin, durante tres meses, hace posible reducir 16 kilos o ms. Algn interesado en el asunto sospecha que el anuncio exagera la bondad del tratamiento y se propone hacer averiguaciones al respecto. Para ello, consigue tener acceso al archivo de historias clnicas del instituto y obtiene al azar una muestra de 30 mujeres que han seguido el tratamiento y la informacin es la siguiente:

268

Matemticas, Azar, Sociedad

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Peso inicial (k) 68 82 80 70 68 76 76 65 80 72 75 75 65 78 72

Peso nal (k) 57 63 63 58 52 58 60 53 60 59 60 64 50 61 58

Paciente 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Peso inicial (k) 78 67 73 68 75 72 69 78 80 79 84 77 80 69 74

Peso nal (k) 63 53 60 53 62 58 52 65 60 60 70 61 63 55 60

Presentan los datos, evidencia de que el anuncio sea exagerado?

Para cada uno de los problemas presentados, responda las siguientes preguntas. a. Determine las variables que se estn considerando. Adems, diga de qu tipo son. b. Cree usted que se puede suponer que la variable de inters, la que se est midiendo, se distribuye normalmente en la poblacin?

Caracterizacin y solucin de los problemas

269

c. Cuntas muestras se estn considerando? Son grandes o pequeas? Son independientes o relacionadas? Explique sus respuestas. d. Cul es la pregunta que se pretende responder?

Caracterizacin y solucin de los problemas


A continuacin vamos a solucionar los tres problemas planteados. En cuanto sea posible seguiremos las etapas de solucin que se propusieron en el captulo anterior, a saber: Identicacin del tipo de problema Planteamiento de las hiptesis Seleccin de la herramienta de anlisis Seleccin de un modelo terico Anlisis del nivel de signicacin del resultado Toma de la decisin

El libro de texto
Identicacin del tipo de problema. En el problema El libro de texto, la variable de inters es el desempeo de los estudiantes en el curso de estadstica, medida a travs de la calicacin obtenida en un examen nal; esa variable es cuantitativa continua. Otra variable considerada explcitamente en el enunciado del problema es el libro empleado en el curso. La funcin de esta variable es separar en dos grupos bien diferenciados a los estudiantes, situacin que da lugar a dos muestras independientes entre s: la medicin que se hace sobre cualquiera de los estudiantes no depende de la medicin hecha a otro estudiante, ni tampoco inuye en la medicin hecha a otro estudiante. Se puede considerar que las dos muestras son grandes. El problema pregunta si existe diferencia en los resultados obtenidos por los estudiantes, de acuerdo con el libro empleado como texto durante el curso. Es decir, la pregunta formulada sugiere comparar la calicacin media de los estudiantes de los dos cursos en el examen nal, con la intencin de determinar si el libro empleado genera dos poblaciones de estudiantes que se comportan de maneras diferentes en lo que interesa para el caso. Por tanto, la solucin del problema se har realizando una prueba de hiptesis sobre el parmetro, diferencia de medias.

270

Matemticas, Azar, Sociedad

Planteamiento de las hiptesis. La sospecha que tiene el profesor es que existe diferencia en el desempeo de los estudiantes segn el libro de texto que se siga en el curso. Con la intencin de validar esa hiptesis estadstica, l parte del supuesto de que no existe razn para que su sospecha sea verdadera (hiptesis nula), y se propone buscar evidencia que lo lleve a rechazar ese supuesto, de manera que tenga entonces que acoger como verdadera la negacin del supuesto hecho inicialmente (hiptesis alternativa). Por tanto, Ho: x y = 0 Es decir, las poblaciones de las cuales se extrajeron las dos muestras, no se diferencian en cuanto a su media. Como la sospecha del profesor slo indica que hay diferencia en el desempeo de los estudiantes, pero no se reere a cul de los dos grupos puede tener mejor desempeo, entonces la prueba de hiptesis ser de dos colas y la hiptesis alternativa ser: Ha: x y 0 donde x representa la calicacin media de la poblacin de alumnos que utilizan el libro X, y y representa la calicacin media de la poblacin de alumnos que utilizan el libro Y. Seleccin de la herramienta de anlisis. Puesto que el parmetro sobre el cual se va a inferir es la diferencia de medias x y entonces la herramienta que utilizaremos ser la diferencia de medias muestrales x y . Para este caso, el valor del estimador muestral es x y = 3,8 - 3,5 = 0,3 Seleccin de un modelo terico. El valor del estimador muestral, (0,3), pertenece a una distribucin muestral de diferencias de medias cuyo comportamiento fue descrito en el captulo titulado Inferencia estadstica. Para inferir en este problema vamos a utilizar lo que se sabe de esa distribucin: si las muestras son sucientemente grandes, la distribucin de diferencias de medias es aproximadamente normal, con media igual a cero y desviacin estndar igual a
EE ( x y ) = 2 2 ( EE ( x ) ) + ( EE ( y ) )

Caracterizacin y solucin de los problemas

271

Como las muestras tienen igual tamao y pueden considerarse grandes (n = 36), entonces el modelo que sigue esta distribucin es el normal. Adems, el error estndar de la distribucin est dado por:
EE ( x y ) = 2 2 ( EE ( x ) ) + ( EE ( y ) ) = 0,1145

porque:
s y sy x 0,46 x 0,51 - = --------- ---------- --------- y EE ( y ) = --------EE ( x ) = ---------- = ---------6 6 n n ny ny x x

Anlisis del nivel de signicacin del resultado. Como ya se dijo anteriormente se realizar una prueba de hiptesis de dos colas. El nivel de signicacin que se utilizar ser = 5%. Ese nivel de signicacin determina entonces en el modelo dos puntos crticos que son los que delimitan las regiones de rechazo y de no rechazo de la hiptesis nula. Tales puntos crticos son: z1 = -1,96 y z2 = 1,96. Y el criterio que se usar para tomar la decisin se puede expresar as: Si el valor del estimador muestral, debidamente estandarizado, es menor que -1,96 o mayor que 1,96, entonces deber rechazarse la hiptesis nula. Por tanto, procedemos a estandarizar el valor del estimador muestral, para obtener lo que se llama el estadstico de prueba: ( x y) ( x y) 0, 3 0 ------------------------------------------------- = ---------------- = 2, 62 EE ( x y ) 0, 1145 La diferencia de medias muestrales 0,3, corresponde al puntaje z = 2,62 en el modelo de la distribucin muestral asociada al problema. Toma de la decisin. Puesto que z = 2,62 > 1,96, entonces se debe rechazar la hiptesis nula, es decir, debe rechazarse el supuesto de que no hay diferencia en el desempeo de los estudiantes que siguen los libros X y Y. Por tanto, el profesor encontr evidencia que le ayuda a sustentar su hiptesis. Por supuesto, esto no es una demostracin tajante. Existe la posibilidad de que al rechazar la hiptesis nula estemos cometiendo un error. Sera un error del tipo I y la probabilidad de cometerlo es del 5%.

272

Matemticas, Azar, Sociedad

Cul va es la ms rpida?
Identicacin del tipo de problema. En el problema Cul va es la ms rpida?, la variable de inters es el tiempo empleado por Stadi Shka para ir de su casa a la universidad antes de las 7 a.m.; esa variable es cuantitativa continua. Otra variable considerada explcitamente en el enunciado del problema es la va que utiliza para hacer su recorrido. Esta variable da lugar a dos muestras independientes entre s. Las dos muestras son pequeas. El problema pregunta si existe diferencia en el tiempo necesario para hacer el recorrido, de acuerdo con la va utilizada. Es decir, la pregunta formulada sugiere comparar el tiempo medio que se requiere para hacer el recorrido cuando se utiliza la va A, con el tiempo medio requerido al utilizar la va B, con la intencin de determinar si la va empleada genera dos poblaciones de tiempos que se comportan de maneras diferentes en lo que interesa para el caso. Por tanto, la solucin del problema se har realizando una prueba de hiptesis sobre el parmetro, diferencia de medias. Planteamiento de las hiptesis. La sospecha que tiene Stadi Shka es que existe diferencia en el tiempo empleado para ir de su casa a la universidad a una determinada hora del da, segn que vaya por la va A o por la va B. Y, en este caso, la sospecha incluye una determinada direccin porque se cree que el tiempo empleado al ir por la ruta B es menor que el que se emplea al ir por la ruta A. Se tiene que: Ho: A B A B 0 Ha: B < A B A < 0 donde A representa el tiempo medio de la poblacin de tiempos empleados al ir por la ruta A en las condiciones del problema, y B representa el tiempo medio de la poblacin de tiempos empleados al ir por la ruta B. Seleccin de la herramienta de anlisis. Puesto que el parmetro sobre el cual se va a inferir es la diferencia de medias A B entonces la herramienta que utilizaremos ser la diferencia de medias muestrales x A x B . Para este caso, el valor del estimador muestral es: (37 - 38,3) = -1,3

Caracterizacin y solucin de los problemas

273

Seleccin de un modelo terico. El valor del estimador muestral (-1,3) pertenece a una distribucin muestral de diferencias de medias cuyo comportamiento fue descrito en el captulo titulado Inferencia estadstica. Para inferir en este problema vamos a utilizar lo que se sabe de esa distribucin: si las muestras son sucientemente grandes, la distribucin de diferencias de medias es aproximadamente normal, con media igual a cero y desviacin estndar igual a -0,35. Como las muestras son pequeas (n = 10), entonces el modelo que sigue esta distribucin no es el normal. Por tanto, aunque la esencia del procedimiento es la misma que conocemos no podemos terminar la prueba de hiptesis.

Tratamiento para adelgazar


Identicacin del tipo de problema. En el problema Tratamiento para adelgazar, la variable de inters es el peso de las mujeres que siguen el tratamiento; esa variable es cuantitativa continua. En este caso hay dos momentos en los que se mide la variable de inters: antes de iniciar el tratamiento y al nalizarlo. Lo anterior da lugar a dos muestras, pero no es razonable considerarlas independientes entre s, puesto que seguramente la medicin de los pesos del sujeto i antes y despus del tratamiento tienen alguna relacin. Las dos muestras pueden considerarse sucientemente grandes. El problema pregunta si puede considerarse la diferencia entre el peso nal y el peso inicial (de quienes conforman la poblacin del problema) igual o superior a los 16 kilos. Este problema es diferente a los dos anteriores: aunque tambin implica la comparacin de los pesos medios de dos grupos, se puede transformar en un problema de una sola muestra en la que la variable de inters sea la diferencia de los pesos nal e inicial de cada una de las 30 personas cuyos datos se tienen. As, la solucin del problema se har realizando una prueba de hiptesis sobre el parmetro, media poblacional. Al realizar las diferencias de los valores de cada una de las parejas de pesos, se obtiene lo siguiente:

274
Peso rebajado (k) 11 19 17 12 16 18 16 12 20 13 15 11 15 17 14

Matemticas, Azar, Sociedad


Peso rebajado (k) 15 14 13 15 13 14 17 13 20 19 14 16 17 14 14

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Paciente 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

x = 15,13 kilos, sx = 2,46 kilos Planteamiento de las hiptesis. La sospecha que se tiene es que el parmetro de inters (el peso medio rebajado por quienes siguen el tratamiento) es inferior a 16 kilos. Por tanto, la prueba de hiptesis que se realizar es de una cola y las hiptesis son: Ho: 16 Ho: < 16 donde representa el peso medio rebajado, en la poblacin.

Caracterizacin y solucin de los problemas

275

Seleccin de la herramienta de anlisis. Puesto que el parmetro sobre el cual se va a inferir es la media poblacional entonces la herramienta que utilizaremos ser la media muestral x . Para este caso, el valor del estimador muestral es x = 15,13 Seleccin de un modelo terico. Puesto que la muestra es grande (n = 30), el modelo que sigue la distribucin muestral de medias a la cual pertenece el valor del estimador muestral, (15,13), es el normal y el error estndar de tal distribucin est dado por EE ( x ) = ------- ------- = ---------- = 0,4491 Anlisis del nivel de signicacin del resultado. Como ya se dijo anteriormente se realizar una prueba de hiptesis de una cola. El nivel de signicacin que se utilizar ser =1%. Ese nivel de signicacin determina entonces en el modelo un punto crtico que delimita las regiones de rechazo y de no rechazo de la hiptesis nula. Tal punto crtico es z1 = -2,33. Y el criterio que se usar para tomar la decisin se puede expresar as: Si el valor del estimador muestral, debidamente estandarizado, es menor que -2,33 entonces deber rechazarse la hiptesis nula. Por tanto, procedemos a estandarizar el valor del estimador muestral, para obtener el estadstico de prueba:
15,13 16 x - = 1,9372 ----------------- = -----------------------0,4491 EE ( x ) n s n 2,46 6

El peso medio rebajado, dado por la muestra 15,13, corresponde al puntaje z = -1,9372 en el modelo de la distribucin muestral asociada al problema. Toma de la decisin. Puesto que z = -1,9372 > -2,33, entonces no es posible rechazar la hiptesis nula, es decir, no se encontr evidencia de que se est exagerando la bondad del tratamiento. Por supuesto es posible que efectivamente s se est exagerando sobre la bondad del tratamiento, en tal caso, al tomar la decisin de no rechazar la hiptesis nula estaramos incurriendo en un error de tipo II.

276

Matemticas, Azar, Sociedad

Resumen
Las caractersticas de los problemas que resolveremos en este captulo son: La variable de inters es cuantitativa continua y se puede suponer que su distribucin en la poblacin es aproximadamente normal. Se tiene informacin de dos muestras independientes. De cada una de ellas se conoce su tamao, su media y su desviacin estndar. Las muestras son grandes y sus tamaos son iguales o similares. Se supone que las varianzas de las poblaciones de las cuales provienen las muestras son iguales. La pregunta del problema sugiere hacer una prueba de hiptesis sobre el parmetro, diferencia de medias, puesto que se deben comparar las poblaciones de donde provienen las muestras; dicho de otra manera, se pretende averiguar si las muestras tomadas pertenecen o no a la misma poblacin. El investigador tiene la sospecha de que una variable no se comporta de la misma manera en dos grupos de una poblacin, y por tanto, que para esa variable habra que considerar dos poblaciones en cambio de una. Para validar su sospecha extrae de cada uno de los grupos de la poblacin, una muestra aleatoria y lo que se propone es ver qu tan signicativa es la diferencia que las muestras presentan en su comportamiento. Parte del supuesto de que las dos muestras provienen de la misma poblacin (lo cual se expresa esperando que la diferencia de sus medias sea un nmero prximo a 0), determina un criterio con base en el cual juzgar si la diferencia de las medias de las dos muestras es o no signicativa y procede a aplicar el criterio. En caso de que encuentre que la diferencia de las medias muestrales es signicativa, entonces dir que encontr evidencia de que las dos muestras provienen de poblaciones diferentes. La lgica que sigue en su razonamiento es: en caso de que las dos muestras provengan de la misma poblacin, la diferencia en el valor de sus respectivas medias ha de ser un nmero muy cercano de 0; en caso de que sea un nmero muy mayor que 0 muy menor que 0, entonces podra pensarse una de dos cosas:

Ejercicios

277

Se tomaron elementos de la poblacin que constituyen los casos ms extremos en ambas muestras, lo cual es posible pero poco probable si se hace muestreo aleatorio. Los elementos de las dos muestras no pertenecen a la misma poblacin. La solucin de este tipo de problemas se apoya en la distribucin muestral de diferencias de medias, la cual sigue el modelo normal para los casos en que las muestras son grandes.

Ejercicios
1.- Con el n de diferenciar dos tipos de colonias de bacterias que presentan idnticas caractersticas, excepto en lo que concierne al tiempo que tardan en reproducirse, un investigador escoge dos muestras de cada tipo de bacterias y las observa durante tres meses. El mide el tiempo que tarda cada una de las 40 bacterias de cada muestra en empezar a reproducirse. Al nal obtiene que en la muestra uno, el nmero promedio en horas de tal tiempo es 66, con una desviacin estndar de 7 horas. En la segunda muestra se observ un promedio de 64,1 horas y una desviacin estndar de 6,8 horas. Puede concluirse que se trata de tipos de bacterias diferentes? 2.- Se quiere comprobar la eciencia de un medicamento para aumentar la estatura de las personas. Se tom una muestra de 50 sujetos, se hicieron las mediciones correspondientes y se encontr que la estatura media de ese grupo era 1,65 metros y su desviacin estndar era de 0,03 metros. Al nal del tratamiento se midi la estatura de 47 de los sujetos que lo siguieron y se encontr una estatura media de 1,73 metros y una desviacin estndar de 0,05 metros. Suponga que usted quiere determinar si hay evidencia suciente para hablar de la eciencia del medicamento y que para ello va a realizar una prueba de hiptesis. Responda las siguientes preguntas: a. Va a realizar una prueba de hiptesis sobre la media de la poblacin, o sobre la diferencia de medias de dos poblaciones? Justique su respuesta. b. Cul es la hiptesis nula?

278

Matemticas, Azar, Sociedad c. Realice una prueba de hiptesis con un nivel de signicacin del 5%. d. Exprese la conclusin correspondiente.

3.- Un agricultor desea probar un nuevo insecticida que, segn sus fabricantes reducir las prdidas causadas por ciertos insectos. Para probar la armacin, el agricultor utiliza el nuevo insecticida en 200 rboles y el insecticida estndar en otros 200 rboles. Los resultados fueron los siguientes:
Nuevo insecticida Produccin media por rbol (kg) Varianza 240 980 Insecticida estndar 227 820

Proporcionan los datos suciente evidencia para concluir que los dos insecticidas son diferentes en calidad? Explique. 4.- Para explicar un cierto tema en dos secciones de un curso de matemticas, el profesor emple dos mtodos diferentes de enseanza (en la seccin 1, emple el mtodo A y en la seccin 2, emple el mtodo B) y luego aplic el mismo examen en las dos secciones. La informacin obtenida se presenta en la siguiente tabla:
Seccin 1 nmero de estudiantes calicacin promedio obtenida en el examen desv. est. de la dist. de calif. 49 3,64 0,45 Seccin 2 49 3,86 0,38

Adems, se sabe que en ambos casos la distribucin de las calicaciones es aproximadamente normal. a. Con respecto a la seccin 1, cuntos estudiantes perdieron el examen? (Es decir, cuntos estudiantes obtuvieron en el examen 2.9 o menos?) b. Con respecto a la seccin 2, qu calicacin debe tener una persona en ese examen, si su calicacin supera la calicacin del 85% de la gente del curso?

Ejercicios

279

c. Determine si los resultados presentados en la tabla muestran evidencia suciente para armar que hay diferencia signicativa entre los dos mtodos de enseanza, en cuanto a la efectividad para la enseanza. (Haga una prueba de hiptesis al 5% de signicacin.) d. Suponga que el semestre entrante se va a emplear el mtodo 2 para ensear el tema mencionado y se va a aplicar el mismo examen. Emplee los resultados obtenidos en la seccin 2 (que fue donde se us tal mtodo) para estimar con una conanza del 90%, la calicacin promedio de los nuevos estudiantes del curso en dicho examen. 5.- Un siclogo arma que la duracin promedio del tiempo de cortejo es mayor antes de un segundo matrimonio que antes del primero. Basa su armacin en el hecho de que el promedio para efectuar un primer matrimonio (en una muestra de 626 parejas) es de 265 das con una desviacin estndar de 50 das; mientras que el tiempo promedio para efectuar un segundo matrimonio (en otra muestra de 626 parejas) es de 268,5 das con desviacin estndar de 53 das. a. Si usted va a realizar una prueba de hiptesis para probar la validez de la armacin hecha por el siclogo, cul es la hiptesis nula? b. Cul es la hiptesis alterna? c. La prueba que usted va a realizar es de 1 cola? Por qu? d. Si el nivel de signicancia es del 1%, debe usted rechazar o aceptar la hiptesis nula? Por qu? e. Es vlida la suposicin del siclogo? 6.- En casos de pacientes epilpticos, en ocasiones, la agresividad alcanza niveles ms altos de lo normal.36 Un grupo de cientcos est buscando un mtodo para disminuir el grado de agresividad que alcanzan algunas personas que sufren epilepsia psicomotora. Estas personas pueden llegar, incluso, a cometer delitos cuando se hallan en estado epilptico. Dichos cientcos creen que los neurotransmisores noradrenalina y dopamina
36 La agresividad es un componente de la conducta normal que se libera para satisfacer necesidades vitales y para eliminar cualquier amenaza contra la integridad fsica y psicolgica del organismo.

280

Matemticas, Azar, Sociedad pueden ayudar a disminuir este fenmeno. Para encontrar una solucin a su inquietud hicieron un experimento con un grupo de 30 personas epilpticas. A cada una de ellas se le someti a tres sesiones de descargas elctricas de 10 segundos cada una. En la primera sesin se registraba, por medio de un electroencefalograma, el grado de agresividad (medido en una escala entre 0 y 10). En la segunda sesin se les inyectaba noradrenalina despus de la descarga y se registraba igualmente el grado de agresividad que presentaban. En la tercera sesin se les inyectaba dopamina y se proceda de la misma manera. Entre sesin y sesin haba un reposo de 24 horas, para que cualquier efecto posterior que tuviera el neurotransmisor hubiera pasado. A continuacin se presenta el valor medio correspondiente a la agresividad de los 30 sujetos en cada una de las sesiones y la desviacin estndar respectiva.
media Sesin 1 Sesin 2 Sesin 3 8,35 7,45 8,8 desviacin estndar 0,709 0,65 0,64

a. Haga una prueba de hiptesis con un nivel de signicacin del 1% para determinar si existe diferencia signicativa entre el grado de agresividad producida por descargas elctricas y la producida por descargas elctricas, con la intervencin de la noradrenalina. b. Haga una prueba de hiptesis con un nivel de signicacin del 1% para determinar si existe diferencia signicativa entre el grado de agresividad producida por descargas elctricas y la producida por descargas elctricas, con la intervencin de la dopamina. c. Qu puede concluir usted acerca de los resultados? 7.- La directora de un instituto de nios afsicos desea hacer un cambio en las terapias que reciben los nios. Quiere aplicarles un mtodo nuevo que segn revistas mexicanas ha trado muy buenos resultados. Sin embargo, no quiere iniciar ese nuevo proceso con todo el instituto sin estar segura, por lo menos, en un 90% de que traer resultados positivos.

Ejercicios

281

Decidi entonces hacer un experimento. Para ello, escogi al azar 60 nios y con ellos form dos grupos de 30. El primer grupo sigui la rutina normal durante un mes y al segundo grupo, le aplic el nuevo mtodo de terapia durante el mismo tiempo. Al nalizar el mes, a cada nio se le hizo tres evaluaciones: una auditiva, otra de cognicin y otra de lecto escritura. A continuacin se presenta el promedio de los tres resultados obtenidos por cada nio:
Grupo A (control) 30 33 30 46 23 24 33 28 32 32 49 34 28 30 31 24 21 38 30 33 30 21 33 46 32 29 29 31 38 41 33 34 30 32 48 47 28 32 29 29 29 38 29 29 32 36 33 34 30 33 31 37 48 46 32 31 28 48 49 25

Grupo B (experimental)

Existe diferencia signicativa entre los resultados obtenidos en los dos grupos? Supera el mtodo nuevo al mtodo tradicional? Justique su respuesta. 8.- Durante los ltimos aos, Colombia ha sufrido una de las ms grandes escaladas terroristas de su historia. Este fenmeno tiene graves repercusiones no slo en lo poltico sino tambin en el campo econmico ya que debilita el turismo al mismo tiempo que se presenta una fuga de capitales y la inversin extranjera se ve en peligro. En marzo de 1991 se realiz un estudio en dos de las ciudades ms tursticas de Colombia y se observ que el nmero de turistas extranjeros jvenes y los ingresos percibidos por las empresas hoteleras ha aumentado notablemente con relacin al trimestre nal del ao pasado. Para dicho estudio se tom una muestra 200 personas en ambas ciudades; se encontr una edad promedio de 24 aos con una desviacin estndar igual a 2,3 aos. Tambin se observ que, el ingreso diario promedio por persona, a las empresas hoteleras, era de 70 dlares con una desviacin estndar igual a 4,2 dlares. En un estudio realizado en octubre del ao pasado, se encontr que la edad promedio de los turistas era de 32 aos con una desviacin estndar de 2,5 aos y el ingreso diario promedio por persona era de $60 con una desviacin estndar de $4,12.

282

Matemticas, Azar, Sociedad a. Cul es la poblacin de estudio, cul es la poblacin de datos y cul la muestra del estudio? b. Qu variables se estn midiendo? Cul es el parmetro sobre el cual se va a inferir? c. Cul es el objetivo de la investigacin? d. Se podra armar que por el aumento del terrorismo, la auencia de turistas jvenes es mayor porque desean conocer de cerca la realidad colombiana? Qu proceso debe llevar a cabo para validar la armacin anterior? Explique detalladamente. e. Existe suciente evidencia para armar que hoy en da se dispone de mayor cantidad de dinero para gastar por parte de los turistas extranjeros?

9.- El narcotrco es uno de los temas que, sin lugar a dudas, ha originado gran controversia tanto en el mbito nacional como en el internacional. A raz de esto son muchos los intentos que han realizado varios presidentes y organizaciones a nivel estatal (DEA) para tratar de combatirlo, pero hasta el momento los resultados son poco satisfactorios. Existen muchas razones que llevan a pensar que sera mucho ms efectivo legalizar la actividad del narcotrco que seguirla combatiendo, pues lo nico que se ha conseguido con los mtodos usados hasta ahora es la prdida de vidas humanas y el desmesurado crecimiento de organizaciones delictivas en todo el mundo. Entre los argumentos citados estn: la reduccin de criminalidad por parte de los adictos para nanciarse el vicio, la disminucin de asesinatos de jueces y polticos que han optado por lanzar polticas anti drogas en el pas, el ingreso de divisas que incrementaran el presupuesto nacional y permitiran, por ejemplo, fortalecer programas de salud y educacin. Basndose en los planteamientos anteriores, un estudiante de Ciencia Poltica quiso conocer la opinin de sus compaeros de carrera acerca de la legalizacin del narcotrco, teniendo en cuenta la edad de ellos. Para el efecto realiz una encuesta a 27 de tales estudiantes y encontr que estaban a favor de la legalizacin del narcotrco aquellos cuya edad promedio era de 21 aos con una desviacin estndar de 1,3 aos. El politlogo busc contrastar sus datos con los de un estudio similar realizado a 26 personas, un ao antes, en el cual se encontr que el promedio de edad era de 25 aos.

Ejercicios a. Cul es la poblacin de estudio? b. Cul es la variable que se est midiendo? c. Cul es el objetivo del estudio? d. Comente sobre la calidad del muestreo.

283

e. Podr armarse que la opinin de los jvenes de la muestra con respecto al tema ha cambiado? Justique su respuesta. 10.- Estudiantes de quinto semestre de Ciencia Poltica realizaron una investigacin en el departamento de la Guajira para conocer qu tanto varan los gastos econmicos en grupos indgenas dedicados a la explotacin de sal, con respecto al nivel de ingresos mensuales por familia. Tomaron una muestra en 35 caseros, obtuvieron un gasto promedio de $22.780 con una desviacin estndar de $975. Otro grupo de politlogos quiso corroborar dicho comportamiento: en una muestra de 33 caseros encontraron un gasto medio de $21.920 con una desviacin estndar de $930. a. Qu variable se est midiendo? De qu tipo es? b. Mencione los pasos que dara usted como investigador social para determinar si la muestra que se tom en el primer estudio viene de la misma poblacin de donde provino la segunda muestra. Explique detalladamente. c. Determine con un nivel de signicacin del 5% si las muestras obtenidas por los dos grupos de politlogos provienen o no de la misma poblacin. 11.- Un factor que ha inuido notablemente en la evolucin de las lenguas que trajeron a Amrica los conquistadores europeos es la introduccin de rasgos lingsticos africanos a tales lenguas gracias al desarrollo de la institucin esclavista en el Nuevo Continente. En el caso concreto del Brasil, pas con una mayora de poblacin descendiente de los antiguos esclavos africanos, se observa una diferenciacin entre el Portugus Brasilero Popular (PBP), propio de las clases sociales bajas, y el Portugus Brasilero Estndar (PBE), propio de las clases sociales altas.37

284

Matemticas, Azar, Sociedad Una investigacin que pretenda analizar sociolingsticamente las diferencias sintcticas entre los dos tipos de habla portuguesa midi el porcentaje de variaciones sintcticas estigmatizadas38 sobre el total de estas estructuras contenidas en la conversacin de una persona. Para esto se realizaron entrevistas a personas de clase baja y de clase alta. Los porcentajes, distribuidos de manera aproximadamente normal, tenan por media y desviacin estndar las siguientes:
PBP media, x desviacin estndar, s tamao de la muestra, n 41% 11,8% 78 PBE 27% 7% 35

a. Un lingista que haba hecho investigaciones en el Brasil encontr que no haba diferencia signicativa entre la sintaxis usada por los hablantes de PBP y los de PBE. Es esta armacin acertada? b. Otro estudioso de las lenguas criollas americanas arm que s haba diferencia, cualquiera que sta fuera, a favor del PBP, es decir, que se comete mayor nmero de variaciones estigmatizadas en el PBP que en el PBE. Es cierta esta armacin? c. Hace diez aos, un lingista encontr una diferencia igual a 3,7 entre los dos tipos de portugus. Los investigadores que hicieron el presente estudio esperaban que por la evolucin que ha debido tener el PBP en este lapso, la diferencia entre los dos fuera la mitad de la encontrada hace diez aos. Se ha presentado la evolucin que los investigadores suponan? d. Los investigadores mencionados en el item anterior haban predicho el grado de evolucin de la lengua. Es vlido hacer este tipo de predicciones? De acuerdo con su respuesta comente la aplicacin de la estadstica descriptiva e inferencial en estos problemas.
37 Guy, Gregory. On the Nature and Origins of Popular Brazilean Portuguese. Estudios sobre espaol de Amrica y lingstica afroamericana. Bogot: Instituto Caro y Cuervo, 1989, pp. 227-230. Una variacin estigmatizada es una forma que diere de la forma estndar y que por tanto es considerada incorrecta. Estas variaciones se asocian con el nivel socio-econmico del hablante, es decir, que se asocia la forma incorrecta con una posicin social baja.

38

Tabla de la distribucin normal estndar

285

0z

z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0

0.00 .0000 .0398 .0793 .1179 .1554 .1915 .2257 .2580 .2881 .3159 .3413 .3643 .3849 .4032 .4192 .4332 .4452 .4554 .4641 .4713 .4772 .4821 .4861 .4893 .4918 .4938 .4953 .4965 .4974 .4981 .4987

0.01 .0040 .0438 .0832 .1217 .1591 .1950 .2291 .2611 .2910 .3186 .3438 .3665 .3869 .4049 .4207 .4345 .4463 .4564 .4649 .4719 .4778 .4826 .4864 .4896 .4920 .4940 .4955 .4966 .4975 .4982 .4987

0.02 0.008 .0478 .0871 .1255 .1628 .1985 .2324 .2642 .2939 .3212 .3461 .3686 .3888 .4066 .4222 .4357 .4474 .4573 .4656 .4726 .4783 .4830 .4868 .4898 .4922 .4941 .4956 .4967 .4976 .4982 .4987

0.03 .0120 .0517 .0910 .1293 .1664 .2019 .2357 .2673 .2967 .3238 .3485 .3708 .3907 .4082 .4236 .4370 .4484 .4582 .4664 .4732 .4788 .4834 .4871 .4901 .4925 .4943 .4957 .4968 .4977 .4983 .4988

0.04 .0160 .0557 .0948 .1331 .1700 .2054 .2389 .2704 .2995 .3264 .3508 .3729 .3925 .4099 .4251 .4382 .4495 .4591 .4671 .4738 .4793 .4838 .4875 .4904 .4927 .4945 .4959 .4969 .4977 .4984 .4988

0.05 .0239 .0596 .0987 .1368 .1736 .2088 .2422 .2734 .3023 .3289 .3531 .3749 .3944 .4115 .4265 .4394 .4505 .4599 .4678 .4744 .4803 .4842 .4878 .4906 .4929 .4946 .4960 .4970 .4978 .4984 .4989

0.06 .0239 .0636 .1026 .1406 .1772 .2123 .2454 .2764 .3051 .3315 .3554 .3770 .3962 .4131 .4279 .4406 .4515 .4608 .4686 .4750 .4808 .4846 .4881 .4909 .4931 .4948 .4961 .4971 .4979 .4985 .4989

0.07 .0279 .0675 .1064 .1443 .1808 .2157 .2486 .2794 .3078 .3340 .3557 .3790 .3980 .4147 .4292 .4418 .4525 .4616 .4693 .4756 .4812 .4850 .4884 .4911 .4932 .4949 .4962 .4972 .4979 .4985 .4989

0.08 .0319 .0714 .1103 .1480 .1844 .2190 .2517 .2823 .3106 .3365 .3599 .3810 .3997 .4162 .4306 .4429 .4535 .4625 .4699 .4761 .4817 .4854 .4887 .4913 .4934 .4951 .4963 .4973 .4980 .4986 .4990

0.09 .0359 .0753 .1141 .1517 .1879 .2224 .2549 .2852 .3133 .3389 .3621 .3830 .4015 .4177 .4319 .4441 .4545 .4633 .4706 .4767 .4817 .4857 .4890 .4916 .4936 .4952 .4964 .4974 .4981 .4986 .4990

Situaciones problemticas

1.- Se lanza un dado 60 veces y se registra el resultado de la cara superior. Para cada lanzamiento, si el resultado es 1, usted paga $3; si el resultado es 2 3, le pagan a usted $12; si el resultado es 4 5 6, usted paga $6. a. Estaran dispuestos a jugar el siguiente juego? [Supongan que una de las personas del grupo (el casino) propone el juego a la otra (el posible jugador)]. Justiquen su respuesta. b. Jueguen 60 veces y determinen cul de las dos personas del grupo (el casino o el jugador) gana y cunto. [Las cuentas deben ser claras]. La persona X acept jugar y los resultados que obtuvo se presentan a continuacin:
1 6 2 6 2 2 5 6 4 3 5 1 5 2 4 6 3 4 4 6 6 4 4 1 2 1 2 1 5 3 6 4 5 4 3 3 5 3 6 6 6 6 1 5 4 6 1 6 5 4 6 4 4 1 2 1 1 3 2 6 6 3 5 5 4 6 1 1 1 3 5 3 2 5 2 4 1 1 1 1 2 2 2 6 5 3 6 3 3 4 3 1 1 1 1 3 1 6 1 4

c. Gan o perdi? Cunto? [Las cuentas deben ser claras; esa claridad depende en parte de la forma como se organiza la informacin.] Sugieran una manera de procesar y organizar la informacin que se present. d. Inventen alguna manera de analizar tericamente si la denicin de los pagos de este juego favorecen al casino o al jugador. (Para ello hagan los supuestos que crean convenientes). e. Utilicen la misma manera para analizar la situacin si se juegan 100, 500, 1.000, 50.000 100.000 veces. Para cada uno de los casos, determinen, en promedio, cunto gana o pierde el jugador por cada juego que haga.

Situaciones problemticas

287

Se simul el lanzamiento de un dado con un programa de computador. Los resultados obtenidos se presentan a continuacin: Resultados # de lanzam. 100 500 1.000 10.000 50.000 100.000 1 14 74 158 1.610 8.356 16.730 2 13 73 169 1.734 8.451 16.661 3 18 83 160 1.667 8.379 16.775 4 19 100 172 1.644 8.401 16.748 5 20 82 173 1.642 8.230 16.636 6 16 88 168 1.703 8.183 16.450

f. Para cada uno de los seis casos que presenta la tabla, determinen la ganancia o prdida del jugador. En promedio, cunto gan o perdi el jugador en cada lanzamiento? g. Comparen los resultados obtenidos experimental y tericamente (preguntas e. y f.) y establezcan una conclusin. 2.- El juego que se va analizar ahora es el que se conoce como Any Seven. Se lanzan dos dados simultneamente y el jugador apuesta a que la suma de los resultados en las caras superiores es 7. Si as ocurre, el jugador recibe (recibe no es sinnimo de gana) 5 veces la cantidad de dinero que apost; de lo contrario, la pierde. Para poder jugar, el jugador debe poner dar al casino una cierta cantidad de dinero. a. Estaran ustedes dispuestos a jugar 60 veces Any Seven? Y, 1.000.000 de veces? Justiquen sus respuestas. El jugador A jug un cierto nmero de veces y los resultados que obtuvo se presentan en la siguiente tabla de doble entrada:

288

Matemticas, Azar, Sociedad

Resultados dado-2 1 1 2 3 4 7 5 6 25 2 4 2 2 3 2 2 4 3 4 5 1 4 4 2 2 18 20 5 3 7 1 6 5 6 Total 21 22 17 23 17 20 120

Resultados dado-1

4 3

2 3 1 2 2 12 16

2 6 4

2 4 3 29

3 2

Total

b. Supongan que el jugador A apost cada vez $1. Gan o perdi? Cunto? Expliquen claramente cmo realizaron los clculos para dar la respuesta. c. Inventen una manera de establecer cmo se port el azar con el jugador A. Expliquen claramente su respuesta. d. Segn la respuesta anterior, cmo se port el azar con el jugador A? e. Si ustedes jugaran 1.000.000 de veces y cada vez apostaran $1, esperaran ganar o perder? Por qu? f. Los jugadores B y C jugaron Any Seven, 50.000 y 60.000 veces respectivamente, apostando siempre $1. B perdi $9.000 y C perdi $9.560. Con cul de los dos jugadores se port mejor el azar? Justiquen la respuesta. 3.- Una editorial est interesada en promocionar cinco de sus ltimos ttulos y para ello piensa hacer, al azar, paquetes de tres libros diferentes y enviar-

Situaciones problemticas

289

los a determinadas libreras. El costo del envo de esos paquetes por correo depende del peso del paquete. De los cinco ttulos, tres pesan igual (380 gramos) y dos pesan igual pero menos que los primeros (200 gramos). Para dentro de la ciudad, el correo tiene establecidos unos rangos de pesos con sus correspondientes precios; a continuacin se presenta parte de esa informacin: Rangos de pesos en gramos ... [500, 700) [700, 900) [900, 1.100) [1.100, 1.300) ... Precios de envo ($) ... 850 950 1.030 1.100 ...

a. Cul es el peso promedio de un paquete de los que piensa enviar la editorial a las libreras? b. Cunto dinero espera gastar la editorial en el envo de 15 paquetes? 4.- Se lanza un dado y se observa el resultado de la cara superior. Si se obtiene 1, el jugador pierde $3; si se obtiene 2 3, el jugador gana $12; si se obtiene 4, 5 6, el jugador pierde $6. De esa manera, el juego est denido para favorecer al jugador. a. Redena las formas de pago para que el nuevo juego de azar no favorezca ni al casino ni al jugador. Justique su respuesta. b. Invente, con el lanzamiento de un dado, un juego de azar que sea atractivo para el jugador pero que su denicin favorezca al casino. 5.- Represente grcamente el comportamiento ideal (que se da en teora) de los resultados posibles de: a. Lanzar un dado un nmero muy grande de veces. b. Lanzar dos dados simultneamente, un nmero muy grande de veces. 6.- Explique de manera general cmo puede usted juzgar si en un determinado juego de azar, el azar se port bien o mal con usted. (La explicacin que se pide no debe basarse en ningn juego especco).

290

Matemticas, Azar, Sociedad

7.- Para analizar el comportamiento del azar en diversas situaciones se proponen dos enfoques: uno terico y uno experimental. Considera usted que todas las situaciones en las que est involucrado el azar se pueden analizar bajo ambos enfoques? Explique y d ejemplos para justicar su respuesta. 8.- El Plan Nacional para el Desarrollo de la Microempresa PNDM desde su inicio ha venido atendiendo fundamentalmente empresas de los sectores econmicos de manufactura, comercio y servicios. Las empresas objeto de atencin del PNDM son aquellas que tienen hasta 10 trabajadores en el caso de la manufactura, y hasta 5 en los casos de comercio y servicios. En el ao 1993 el Banco Mundial poda desembolsar un prstamo de 50.000 millones de pesos para la nanciacin del PNDM, sin embargo, ese prstamo estaba condicionado a la justicacin que la entidad diera con relacin a las necesidades de capital de trabajo de las microempresas cobijadas. En consecuencia, la Direccin del PNDM se dispona a establecer esas necesidades y para ello dise una encuesta que deba aplicar a una muestra estraticada por sector econmico y ubicacin geogrca de las microempresas. La Direccin posea informacin de segunda mano sobre la distribucin del nmero de microempresas en todo el pas, discriminada por las dos variables de estraticacin. Esta se presenta en el siguiente cuadro. Microempresas en Colombia en 1989 Ubicacin geogrca
Sector Manufactura Comercio Servicios Total No. Capitales %F %C 11,21 75,43 13,36 100 Resto del departamento No. %F %C 24.293 210.109 24.939 259.341 37,37 33,96 41,66 9,37 9,62 No. Total %F %C 10,44 77,76 11,80 100

40.705 62,63 273.926 56,59 48.504 66,04 363.135 58,34

64.998 100 73.443 100

43,41 81,02 484.035 100 100 622.476 100

Fuente: DANE, censo econmico multisectorial - 1990

Convenciones: %F: porcentaje la; %C: porcentaje columna; No: nmero de microempresas %C = ((No. en la ubicacin a buscar)/(No. Total columnas en esa posicin)) x 100 %F = ((No. en la ubicacin a buscar)/(No. Total las en esa posicin)) x 100

A continuacin se presentan ejemplos de la forma como se calcula e interpreta la informacin de las columnas encabezadas como %F, y %C.

Situaciones problemticas

291

Ejemplo de %F: 62,63 se calcula haciendo el cociente de 40.705 sobre 64.998 multiplicado por 100 y signica el porcentaje de microempresas del sector manufacturero ubicadas en las capitales. Ejemplo de %C: 11,21 se calcula haciendo el cociente de 40.705 sobre 363.135 multiplicado por 100 y signica el porcentaje de microempresas ubicadas en las capitales que pertenecen al sector manufacturero. Ejemplo de total (%F): 58,34 signica el porcentaje de microempresas ubicadas en las capitales. Ejemplo de total (%C): 77,76 signica el porcentaje de microempresas del sector comercio. a. Con base en la informacin que da la tabla anterior y los ejemplos propuestos, construya las distribuciones de frecuencia (absolutas y relativas) de: la actividad econmica de las microempresas, la ubicacin geogrca de las microempresas. b. A partir de las deniciones de problema y sistema social describa: el problema, el que considere el objetivo general, la poblacin de estudio, las variables involucradas en la situacin y las poblaciones de datos, que ellas generan.

c. Si por motivos de presupuesto, la Direccin del PNDM decidi que el tamao mximo de muestra fuera 2.000. Cmo conformara tal muestra de manera que la poblacin est proporcionalmente representada en ella? d. De acuerdo con la tabla, cual sera la probabilidad de que al escoger una empresa del sector manufactura, sta sea de alguna capital?

292

Matemticas, Azar, Sociedad e. La encuesta aplicada a las 2.000 microempresas de la muestra con la que se trabaj dio la siguiente informacin: las microempresas del sector manufacturero en las capitales requieren, en promedio, 15 millones de pesos y las ubicadas en el resto del departamento, requieren en promedio 5 millones de pesos. Con base en la informacin anteriormente mencionada, cul es el valor del prstamo que esperaba hacer el PNDM a una microempresa de ese sector?

9.- El grupo econmico del nuevo gobierno desea introducir cambios en las polticas scales del Estado con el n de beneciar a los microempresarios. Para ello, decidi hacer un anlisis en la Administracin de Impuestos de Bogot dado que su recaudo representa el 60% del total nacional. Se escogieron 500 declaraciones de renta y patrimonio de personas naturales por estratos, teniendo en cuenta montos de renta declarados y sexo. Los datos obtenidos se presentan a continuacin: Distribucin de personas que declaran renta Nivel de renta NR1
Sexo Hombres Mujeres 87 86

NR2
85 64

NR3
66 21

NR4
43 16

NR5
22 10

NRi: nivel i de renta por monto declarado

a. Qu variables se consideran en el estudio y de qu tipo son? b. Identique las poblaciones y las muestras de estudio y de datos. c. La muestra representa proporcionalmente a la poblacin del estudio. Cul es la proporcin de contribuyentes hombres de Bogot, de nivel 2 3? d. Se ha establecido que el 10% del total de los impuestos pagados en Bogot por personas naturales proviene del nivel 1 de renta. Qu porcentaje de declarantes, segn la muestra, hacen estos aportes? e. Con base en la informacin de la muestra, represente grcamente el nmero de declaraciones segn nivel de renta.

Situaciones problemticas

293

El gobierno quiere eliminar el nivel de renta 1 (NR1) para favorecer (no gravar) a las personas que tienen menos ingresos. Por otro lado, se espera que para el prximo ao se presente movilidad entre los diferentes niveles, es decir, se espera que en el nivel NR2 haya un aumento del 40% en el nmero de personas declarantes y un aumento del 8% en cada uno de los dems niveles (NR3, NR4, NR5). f. Con base en la informacin de la tabla, represente grcamente la nueva situacin que se generara con la eliminacin del nivel 1 y con la movilizacin descrita anteriormente. g. Si el gobierno decide no gravar los montos del nivel 1 de renta, para el ao siguiente, puede el gobierno esperar que haya ms o menos declarantes teniendo en cuenta la movilidad descrita anteriormente? h. De las siguientes armaciones, cules son verdaderas para este caso? Explique. Es un experimento aleatorio. Se puede considerar una situacin ideal. An con la incidencia del azar, se pueden estimar ciertos resultados. 10.- La compaa de seguros de vida El Golpe est estudiando la posibilidad de poner en el mercado un nuevo seguro de vida. Inicialmente y por razones de costos se vender slo en Bogot. El gerente arma que el seguro va a revolucionar el mercado de seguros de vida para personas que tienen 60 aos. Se encuest a 320 personas adultas de esta edad (38% hombres y 62% mujeres) y se encontr que el 62,55% de los hombres y el 57,7% de las mujeres estaran dispuestos a tomar este seguro si su valor no excede los $3.950.000 de cuota anual durante diez aos y el pago en caso de fallecimiento es 11 veces la cuota anual al familiar ms cercano. Segn el censo de octubre de 1994 Bogot tiene 7.123.446 habitantes, de los cuales 6,76% tiene 60 aos a la fecha del estudio. Se conserva la proporcin de sexos. Para establecer la probabilidad de vida de las personas en cuestin se busc en la resolucin del 11 de abril del 94 de la Superintendencia Bancaria y se encontr la siguiente tabla de mortalidad de rentistas:

294

Matemticas, Azar, Sociedad Tabla de mortalidad de rentistas. Experiencia I.S.S. 1980-1989 Sexo masculino edad 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 probabilidad de permanecer vivo 0,99470 0,99414 0,99352 0,99281 0,99204 0,99116 0,99024 0,98916 0,98806 0,98681 0,98547 0,98403 0,98248 0,98079 0,97900 0,97705 0,97496 0,97273 0,97030 0,96765 edad 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 Sexo femenino probabilidad de permanecer vivo 0,99550 0,99507 0,99462 0,99409 0,99351 0,99287 0,99221 0,99151 0,99073 0,98992 0,98892 0,98772 0,98628 0,98464 0,98274 0,98075 0,97868 0,97648 0,97032 0,96922

a. Cul es el problema de estudio? b. Cules son la poblacin y la muestra de estudio, y, la poblacin y la muestra de datos? Qu aspectos considera relevantes para la representatividad de la muestra? c. La compaa quiere establecer cunto dinero debe desembolsar el primer ao por pago de seguros, atendiendo la variable sexo. d. Cuntos habitantes tenan 60 aos en Bogot a la fecha de estudio? Cmo se discriminaban por sexo?

Situaciones problemticas e. Segn la tabla, cuntas personas de 60 aos mueren cada ao?

295

f. Con base en los resultados de la muestra, cunto dinero debe desembolsar la compaa por pago de seguros el primer ao? g. Este mismo seguro gener utilidades el ao anterior por $350.000.000. Este ao, sobrepasar esta cifra? 11.- Un grupo de politlogos, quera conocer la opinin de los bogotanos acerca del desempeo del entonces presidente de Colombia. Para ello se llevaron a cabo en Bogot, en febrero de 1994, varias encuestas en las que se peda calicar de 1 a 5 el desempeo del presidente, teniendo en cuenta el manejo de tres asuntos: manejo de la poltica exterior, manejo del problema del narcotrco y manejo de la economa colombiana. Para efectuar la encuesta se dividi la poblacin por estratos teniendo en cuenta tanto el nivel socioeconmico como el sexo. En total se encuest a 200 personas; las del estrato bajo fueron seleccionadas en el barrio Meisen, las del estrato medio se seleccionaron en el barrio Miranda y las del estrato alto en el barrio Santa Brbara. a. Identique las poblaciones y muestras de estudio y de datos. b. Para la divisin de la poblacin por estratos y para la calicacin del desempeo del Presidente se consideraron varias variables. Cules fueron esas variables y de qu tipo son? En la tabla siguiente aparecen tabulados los resultados de la encuesta para la calicacin del manejo del problema del narcotrco, discriminados segn nivel socioeconmico y sexo:
Estrato alto Calicacin Hombres Mujeres 1 1 0 2 2 2 3 1 3 4 7 4 5 9 4 1 10 0 Estrato medio 2 3 5 3 15 8 4 10 8 5 2 5 1 20 13 Estrato bajo 2 5 5 3 20 10 4 10 5 5 5 8

296

Matemticas, Azar, Sociedad c. Complete la siguiente tabla (observe que las proporciones que se dan, se han obtenido teniendo en cuenta el nmero de hombres y de mujeres respectivamente).
Distribucin de la calicacin dada al manejo del problema del narcotrco, segn sexo Calicacin 1 2 3 4 5 Hombres 0,1333 Mujeres 0,15 0,2125

d. En la tabla anterior se discriminaron las proporciones segn el sexo. Elabore una tabla similar a la anterior donde se discriminen las proporciones segn el estrato socio-econmico e. En la muestra, cul es la proporcin de personas de estrato alto que calicaron el manejo del narcotrco con una nota de 4 5? Comprela con la proporcin de personas de estrato bajo, que tambin calicaron el mismo aspecto con una nota de 4 5. Qu se puede concluir? f. Determine si las opiniones acerca del manejo del problema del narcotrco, dieren menos por sexo que por estrato. Explique el criterio utilizado. g. Si la encuesta se hiciera extensiva a una muestra de 35.000 bogotanos, cul cree usted que sera el nmero de personas que consideraran el manejo del narcotrco con una importancia calicada de 3 o ms? Justique su respuesta. h. Explique qu consideracin fundamental se debe tener en cuenta para llegar a generalizaciones como la anterior. Suponga que un compaero de clase le sugiere a usted, realizar 60 encuestas ms del mismo tipo (guardando las mismas proporciones con respecto a estrato socio-econmico y sexo) y le propone la siguiente apuesta: por cada persona que calique con 5 el manejo del narcotrco, te pago $1.000; por cada persona que calique con 4 el manejo del narcotrco, te pago $500; por cada persona que calique con 3 o menos el manejo del narcotrco, t me pagas $2.000. i. Estara usted dispuesto a aceptar esta apuesta? Cunto dinero en total cree que ganara o perdera? Justique claramente su respuesta.

Situaciones problemticas

297

12.- Durante los primeros tres meses del presente ao, casi a diario, los habitantes de la ciudad X han visto levantarse columnas de humo en diferentes zonas de la ciudad con el consiguiente olor a madera quemada de rboles de pino, vegetacin nativa, matorrales y pastos que se chamuscan bajo el fuego. La Ocina de Prevencin de Emergencias de la ciudad, el Cuerpo de Bomberos, la Defensa Civil, el Ejrcito Nacional, y la Polica Metropolitana de la ciudad han visto reejada esta situacin en los datos de registro y reconocimiento de su Cuerpo de Bomberos, los cuales muestran la dimensin del problema ecolgico a que se ha visto abocada la ciudad. Puesto que el gobierno nacional debe prever el suministro anual de recursos para atender emergencias, quiere analizar la situacin tal como se ha presentado en el primer trimestre del ao, aceptando que eso representa una muestra de lo que puede ocurrir durante todo el ao. La siguiente tabla presenta los incendios ocurridos a la fecha.
Incendios forestales presentados en el primer trimestre del presente ao Tipo de incendio Menor Cerros orientales Ubicacin geogrca Bosques de la parte alta del Silencio Cerros del Cable, Manjui, Conejera, 50 40 68 De gran magnitud 10 5 7

a. Dena (en sus palabras) el problema. Identique el objetivo del estudio. b. Cules son las variables relevantes del estudio? Determine los valores que pueden asumir dichas variables y de qu tipo son ellas. c. Identique la poblacin de estudio. Identique la muestra de estudio, y las muestras de datos. Con base en la informacin que da la tabla anterior, determine: d. Qu representa la cifra 68? e. Cuntos incendios han ocurrido en la ciudad X en el primer trimestre del presente ao?

298

Matemticas, Azar, Sociedad f. Cuntos incendios han ocurrido durante el primer trimestre del presente ao, en los bosques de la parte alta del Silencio y de gran magnitud? g. Cul es la proporcin de incendios ocurridos durante el primer trimestre del presente ao en los bosques de la parte alta del Silencio, sabiendo que han sido de gran magnitud? h. Haga una tabla de frecuencias relativas de: la ubicacin geogrca de los incendios el tipo de incendios i. Suponga que las proporciones del tipo de incendio se mantienen durante el resto del ao. Cuntos incendios de cada tipo se producirn durante el presente ao? Si para combatir un incendio menor se necesitan dos helicpteros baldebambi y 15 en el caso de un incendio de gran magnitud, cuntos helicpteros se esperara utilizar para combatir una emergencia cualquiera?

13.- EL ICETEX est llevando a cabo una investigacin para la adjudicacin de becas y prstamos para estudios en el exterior. La investigacin presenta dos tablas discriminadas segn rangos de edades, del nmero de solicitudes que llegaron durante el ao 1992, para becas y prstamos respectivamente as:
Solicitudes de becas [20,22) [22,24) [24,26) [26,28) [28,30) [30,32) [32,34) [34,36) Total solicitudes Edad promedio 750 1.320 3.000 4.500 3.000 1.800 ? 300 15.000 27,12 aos 0,050 0,100 0,200 0,300 0,200 0,120 0,020 0,010 Solicitudes de prstamos 10.000 12.500 16.500 5.000 2.500 2.500 500 500 50.000 ? 0,20 0,25 0,33 0,10 0,05 0,05 0,01 0,01

Rangos de edades Frec. absoluta Frec. relativa Frec. absoluta Frec. relativa

Situaciones problemticas

299

El director del ICETEX analiz este informe y lo devolvi alegando que: a. Falta informacin en la columna de frecuencia absoluta de solicitudes de becas. b. Hay errores en la columna de frecuencia relativa de solicitudes de becas. c. Falta el promedio de edades para solicitudes de prstamos junto con la explicacin de cmo se calcula. d. Falta la explicacin de cmo se calcula el valor de la desviacin estndar de edades para solicitudes de prstamos. e. Quiere que las distribuciones se ilustren con grcas. f. Necesita saber cul es la probabilidad de que en 1993, una persona de 30 o ms aos solicite prstamos, suponiendo que la distribucin de prstamos para 1993 permanezca similar a la de 1992. g. Quiere saber si para ambas distribuciones de edades (la de becas y la de prstamos) se puede asumir un modelo de distribucin normal y por qu. h. Espera que la distribucin de edades para solicitudes de prstamos en 1993 se distribuya normalmente con la misma media y desviacin estndar que en 1992. Bajo este supuesto necesita conocer: Qu porcentaje de personas entre 27 y 35 aos solicitar prstamos en 1993? Cul es la edad mxima del 20% de personas ms jvenes que solicitarn prstamos en 1993? Usted debe responder las preguntas anteriores completando la informacin que haga falta corrigiendo los errores detectados y respondiendo a los interrogantes planteados por el director del ICETEX. 14.- El gobierno del presidente Samper tiene como una de sus prioridades el control de la inacin. Para ello, pretende lograr el compromiso de todos los colombianos empresas, gremios, y en general, todo ciudadano que ofrezca servicios o productos a travs de su participacin en lo que se ha

300

Matemticas, Azar, Sociedad llamado Pacto Social. La implementacin prctica del mismo puede resumirse en el hecho de que los incrementos en los precios no sea superior al 18%. Varias instituciones gubernamentales generaron diferentes medidas con el propsito de lograr la meta inacionaria del gobierno. Algunas de ellas han sido consideradas muy fuertes o exageradas por los sectores directamente afectados. Por ejemplo, Fenalco consider que se estn dando los primeros pasos para la implementacin de un control inadecuado de precios; el Consejo Gremial Nacional manifest que para evitar que el comportamiento promedio de los precios exceda del 18% en 1995, no es necesario ni adecuado que la Comisin de Seguimiento monte esquemas de supervigilancia o que adopte sanciones a aqullas empresas que en determinado producto presenten alzas de ms del 18%. Ambos coinciden en que existen factores, como el incremento en los precios de los productos importados, el encarecimiento de insumos, que en determinados casos justican que en algunos sectores el alza sea superior al 18%. El Gobierno consciente de la necesidad de mantener la meta inacionaria y los objetivos del Pacto Social, pero tambin consciente de que las crticas hechas por el sector econmico a las medidas iniciales son razonables ha decidido replantear la presentacin de la meta de inacin propuesta en dicho Pacto. En consecuencia, seleccion una muestra de cuarenta productos y para ellos determin el incremento que ha tenido su precio, con el n de encontrar algn tipo de informacin que pueda utilizar en el nuevo planteamiento. Esta informacin se presenta a continuacin: Producto o servicio Incremento (%) Producto o servicio Incremento (%)
Automviles Seguros Gaseosas Jabn de tocador Cerveza Medias veladas Caf Transporte Azcar Pan Carne de res Aceite 18,3 17,1 15,6 17,2 15,8 14,1 18,9 19,0 18,0 15,9 20,0 17,3 Gasolina Papel peridico Pensin escolar Papel Libros Leche Drogas Pescado Shampoo Arroz Crema dental Frutas 19,3 21,0 20,0 23,0 20,6 19,3 18,6 18,6 17,3 15,9 17,3 18,2

Situaciones problemticas

301

Producto o servicio Incremento (%) Producto o servicio Incremento (%)


Verduras Queso Pasta Servicio de luz Servicio de telfono Servicio de acueducto Artculos de aseo Vestidos 17,5 18,9 16,2 21,2 20,5 20,5 19,7 18,7 Mantequilla Peluquera Discos Cine Arriendo o cuota Servicios mdicos Utiles escolares Zapatos 19,5 17,5 17,3 18,1 16,7 20,3 20,9 16,5

a. Cul es el problema de estudio? b. Determine la poblacin y la muestra de estudio. c. Cul es el atributo relevante de los elementos de la poblacin por el que se interesa el problema? Es decir, cul es la variable relevante del problema? De qu tipo es? Qu poblacin de datos genera esa variable? d. Elabore una tabla de distribucin de frecuencias de la variable que tenga seis intervalos; se quiere que el primer intervalo incluya el valor 14,1 y tenga una longitud de 1,5. e. Presente grcamente la informacin de la tabla anterior. f. Utilice la informacin de la muestra para establecer alrededor de qu dato se podra armar que se han incrementado los precios. g. Con base en la informacin de la muestra, un asesor del Gobierno manifest que todos los datos estn a dos o menos desviaciones estndar de la media. Es acertada esta armacin? Explique. Sera razonable pensar que la distribucin de esa muestra sigue el modelo normal? Justique su respuesta. h. Con base en las caractersticas que tiene una distribucin normal, escriba un plan de accin que sirva para determinar si una distribucin especca sigue ese modelo. Adems, en caso de que no lo haya seguido para responder la pregunta anterior, sgalo.

302

Matemticas, Azar, Sociedad Con base en la revisin hecha, el Gobierno estableci el tipo de aumentos que se pueden considerar como apropiados dentro de los lineamientos del Pacto Social, lo cual se puede resumir de la siguiente manera: El incremento promedio de los precios ser del 18,4%, aceptando una desviacin estndar del 1.87%. Adicionalmente se supondr que el incremento en los productos y servicios podr variar de tal forma que siga una distribucin normal. i. Determine la proporcin de bienes y servicios cuyo incremento oscila entre el 14,8% y el 17%, estando bajo el Pacto Social. j. El Gobierno dar estmulos tributarios a aqullas empresas cuyos productos o servicios presenten los incrementos ms bajos. Con qu incremento mximo se considerar entonces que el producto pueda generar deducciones, si se quiere dar estmulo al 20% de los productos que hayan tenido incrementos ms bajos?

15.- Uno de los problemas de gran importancia en Colombia tiene que ver con el funcionamiento de la justicia. Por un lado, hay una gran cantidad de procesos pendientes de fallo: cada juez de la nacin maneja ms de 1.000 expedientes anualmente; en la actualidad, ms de cuatro millones de procesos que involucran a ocho millones de ciudadanos estn pendientes de fallo; adems, un proceso penal demora en ser fallado de uno a diez aos y, uno civil, puede durar entre cinco y siete aos. Por otro lado, el costo de realizar los juicios es muy alto: Colombia es uno de los pases que aporta ms dinero a su sistema judicial; en Amrica es el segundo pas de ms aportes, despus de Costa Rica. Con el n de prever el presupuesto requerido para fallar los procesos, el Ministerio de Justicia debe determinar cunto le cuesta al Estado realizar un juicio. Debido a la cantidad de expedientes, decide restringir el estudio a los procesos por corrupcin, los cuales consideran faltas contra la moralidad y faltas contra la eciencia pblica. La Procuradura General de la Nacin seleccion al azar un juicio por cada uno de los tipos de procesos por corrupcin presentados en el perodo de enero a junio de 1995, y encontr para ellos, los siguientes costos (sin considerar los sueldos ni los gastos por mantenimiento del sistema judicial).

Situaciones problemticas

303

Costo de juicios por corrupcin


Faltas contra la moralidad y la eciencia pblica Abuso de autoridad Inmoralidad administrativa Irregularidades en la contratacin administrativa Irregularidades en la prestacin de servicios pblicos Mal manejo y uso indebido de bienes pblicos Irregularidades en el manejo del presupuesto pblico Enriquecimiento ilcito Extralimitacin en el ejercicio de funciones Omisin o negligencia en el ejercicio de funciones Intervencin en poltica Irrespeto a la moral Violacin al rgimen de inhabilidades Faltas contra la administracin de justicia Violacin de los derechos humanos Costo por proceso ($) 1.480.000 1.790.000 1.200.000 1.590.000 1.410.000 1.320.000 1.550.000 1.550.000 1.610.000 1.470.000 1.350.000 1.450.000 1.530.000 1.650.000

a. Dena en sus palabras el problema y el objetivo del estudio. b. Determine la poblacin y la muestra de estudio. c. Cul es la variable de inters, de qu tipo es y qu valores puede tomar? d. Elabore una tabla de frecuencias con 5 intervalos, cada uno de longitud 120.000. e. Presente grcamente la informacin de la tabla anterior. f. Se puede armar que la distribucin que da la tabla sigue aproximadamente el modelo normal? Haga todos los clculos que requiera para justicar su respuesta.

304

Matemticas, Azar, Sociedad Con base en la informacin de la muestra, el Ministerio de Justicia en coordinacin con la consejera presidencial para la Administracin Pblica y de acuerdo con el Plan de Transparencia han determinado que el presupuesto para cada proceso por corrupcin deber ser en promedio de $1.500.000. Adems, suponen que el costo sigue una distribucin normal con una desviacin estndar de $150.000. g. Con base en la informacin anterior, qu proporcin de procesos tendrn un costo entre $1.155.000 y $1.320.000? h. El 5% de los procesos se considera muy costosos. Si el proceso 8.000 hace parte de ese grupo de procesos, cunto es lo mnimo que podra costar?

16.- Los gerentes de dos tiendas de comestibles encuentran que tienen exceso de contes importados. Los precios y las cantidades vendidas en ambas tiendas son idnticos. El gerente de la tienda A mantiene los contes en su lugar habitual, en tanto que el gerente de la tienda B los coloca durante un mes cerca de los mostradores donde los compradores pagan. Los gerentes registraron la cantidad de contes vendidos (en libras) diariamente durante un mes (30 das) y obtuvieron la informacin siguiente: en la tienda A se vendi en promedio 20,2 libras de contes con una desviacin estndar de 1,8 libras. En la tienda B se vendi en promedio 21,9 libras con una desviacin estndar de 2 libras. El experimento que hicieron los gerentes de las dos tiendas da evidencia de una diferencia signicativa en el nmero de libras de contes vendidas? Puede concluirse algo con respecto al sitio de exhibicin de los contes y las ventas que se logran? Qu? 17.- A continuacin se presentan algunos datos correspondientes a parte de la solucin de un problema de inferencia estadstica.
Ho: ? 6 Ha: ? 6 x = 6,45 s = 0,82 n= 49

=7%

a. Redacte el enunciado de una situacin que podra tener correspondencia con los datos que se dan.

Situaciones problemticas

305

b. Qu interpretacin y qu valores deberan tener los dos interrogantes presentados en la grca? Justique sus respuestas. c. Resuelva el problema redactado en la parte a., e interprete el resultado en trminos del enunciado que usted propuso. 18.- A muchos estudiantes de este semestre, les ha gustado la moda del pantaln bota campana. Felipe visit esta semana 36 salones de clase de la Universidad X y encontr que varios estudiantes usaban este tipo de pantaln. Anot algunos datos y con base en ellos hizo clculos y encontr un promedio de 5 estudiantes por clase que usaban pantaln bota campana, con una desviacin estndar de 2. a. Cul es la variable de inters en este problema? b. Sobre qu parmetro se puede hacer inferencia en este problema? c. Qu tiene ms sentido en este problema, realizar una prueba de hiptesis o un intervalo de conanza? Explique su respuesta. d. Con base en los datos que da el enunciado y la respuesta que usted dio a la pregunta anterior, haga lo correspondiente (una prueba de hiptesis o un intervalo de conanza) e interprete el resultado obtenido en trminos de la situacin. 19.- Los directivos de cierta universidad arman que, en razn de los mejores servicios que les ofrecen y de la supervisin ms estricta de los trabajos, sus estudiantes completan el programa de doctorado en tiempo ms breve que el usual. Basan esta armacin en el hecho de que la edad media de los estudiantes al terminar el doctorado en el pas es de 32,11 aos mientras que los 36 estudiantes que culminaron el doctorado recientemente lo hicieron a una edad media de 29,61 aos con una desviacin estndar de 4,8 aos. a. Cul es la poblacin de estudio? Cul es la muestra de estudio? b. Cul es la variable relevante que considera el estudio? c. Considera usted que la variable que tom el estudio es la mejor para trabajar la hiptesis de la universidad? Explique.

306

Matemticas, Azar, Sociedad d. Est usted de acuerdo con la armacin de la universidad con respecto al tiempo que gastan los estudiantes haciendo el doctorado? Justique estadsticamente. e. Teniendo en cuenta la respuesta a la pregunta anterior, considera usted que tiene sentido estimar la edad promedio que tienen los estudiantes de la universidad en cuestin al terminar el doctorado? Explique. f. Estime la edad promedio que tienen los estudiantes de la universidad mencionada al terminar el doctorado.

20.- En los ltimos dos meses del ao en curso, los directivos de la fbrica de gaseosas Quitased han percibido en Bogot una baja en sus ingresos y por ello sospechan que esa situacin anuncia un cambio drstico en los ingresos de la empresa por ventas en la capital. Contratan un investigador para que analice la problemtica y l decide hacer un estudio estadstico para establecer qu tan real es el problema detectado. Entre los aspectos que pretende estudiar guran: preferencia actual por una determinada marca de gaseosa: Quitased, otra, ninguna razn principal para la preferencia: precio, sabor, facilidad para conseguirla consumo promedio semanal de la gaseosa preferida (en litros) cambio de preferencia por una determinada marca de gaseosa en los ltimos cuatro meses: s, no De acuerdo con la Ocina de Planeacin de Bogot, los barrios estn estraticados en tres grupos: alto, medio y bajo, informacin que tuvo en cuenta el investigador a la hora de recoger la informacin. El tom una muestra aleatoria de 100 personas adultas y les aplic una encuesta en la que preguntaba por los aspectos de inters. Encontr que 40 preeren la marca Quitased, 45 preeren gaseosas de otras marcas y 15 no preeren ninguna marca. Para resumir la informacin de las 40 personas que preeren la marca Quitased, elabor las tablas 1 y 2 que se presentan a continuacin:

Situaciones problemticas

307

Tabla 1. Distribucin de frecuencias de las razones para preferir gaseosas Quitased segn el estrato social
Razn principal para la preferencia Precio
Bajo

Sabor 2 8 3

Facilidad para conseguirlo 3 7 3

7 5 2

Estrato social

Medio Alto

Tabla 2. Consumo promedio semanal (litros)


0,5 2,9 2,5 3,4 2,9 2,0 1,5 2,5 1,5 2,8 2,1 3,0 1,2 2,0 0,8 4,0 2,6 1,6 2,1 2,6 1,6 1,5 2,3 1,4 2,1 2,7 2,2 1,8 1,9 0,8 2,2 1,8 3,7 2,0 3,2 3,2 1,5 2,4 1,2 1,4

a. Cul es el problema de estudio? Cul es el objetivo del investigador? Dena la poblacin y la muestra de estudio. Las siguientes preguntas se reeren al grupo de encuestados que dijeron preferir la marca Quitased. b. Qu proporcin de personas son de clase baja? Y, de clase alta? c. Si se elige al azar una persona, determine la probabilidad de que: ella preera la marca Quitased por razn diferente al sabor ella sea de estrato social bajo o medio y preera la marca Quitased por razn del precio ella preera la marca Quitased por razn del precio dado que es de estrato social bajo o medio d. Represente grcamente de la manera ms adecuada los valores de la Tabla 2. Calcule la media y la desviacin estndar del conjunto de datos. Esta distribucin se comporta de acuerdo al modelo normal? Explique.

308

Matemticas, Azar, Sociedad e. Con base en la informacin encontrada en el punto anterior, estime la media del consumo promedio semanal con un nivel de conanza del 93%. Explique (no lo haga) de qu manera incide el hecho de variar el nivel de conanza del 93% al 97% sobre la precisin y la certidumbre de la estimacin. f. Hace un ao, el mismo investigador realiz un estudio en el que involucro a 50 adultos residentes en Bogot, de los tres estratos sociales y que consuman la marca Quitased, encontrando que la media del consumo promedio semanal era de 2,4 litros con una desviacin estndar de 0,5 litros. El investigador sostiene que hace un ao los consumidores de la marca en cuestin reportaban un consumo mayor. Tiene razn? Explique. (Emplee un nivel de signicacin del 1%). g. Del grupo de las 45 personas en la muestra que en la actualidad preeren marcas diferentes a Quitased, slo 5 dicen haber cambiado su preferencia en los ltimos cuatro meses. El investigador sospecha que la correspondiente proporcin en la poblacin es mayor de 30%. Qu respuesta da usted a la sospecha del investigador? Explique. h. Utilice la informacin que usted obtuvo para hacer una anlisis con respecto a los ingresos de la empresa.

21.- Un grupo de investigadores de comunicacin social decide realizar un estudio para analizar diversos aspectos involucrados en el tiempo que los estudiantes universitarios de Bogot en 1993, dedican diariamente a ver T.V. Adems del tipo de programacin que ellos preeren, algunos de los aspectos que han considerado son los siguientes: Relacionar el tiempo que pasan viendo T.V. con el tipo de programacin que ven. Comparar las creencias que tienen los programadores de T.V. con los resultados generados en una muestra de estudio. Determinar relaciones entre las preferencias por un tipo de programacin y el canal en el cual se presenta. a. Identique el problema y la poblacin de estudio. b. Seale al menos dos objetivos que usted considere importantes en la investigacin.

Situaciones problemticas

309

c. Clasique los elementos considerados segn el tipo de variable que le corresponda. d. Sugiera una muestra de estudio que sea aleatoria, proporcional y representativa. Explique. De un estudio realizado por otros investigadores en enero de 1989 se obtuvieron tres informes los cuales usted debe analizar cuidadosamente en las partes I, II y III. Parte I Para el Informe-I se tom una muestra de 480 estudiantes universitarios de Bogot con el n de determinar la preferencia que ellos mostraban por la programacin y los canales de T.V. Los resultados encontrados fueron los siguientes:
Canal A Noticieros Telenovelas Otros Total 40 92 105 237 Canal B 97 51 95 243 Total 137 143 200 480

a. Qu proporcin de personas en la muestra ven noticieros? b. Qu porcentaje de personas en la muestra preeren los noticieros y el canal B? c. Si de la muestra se extrae aleatoriamente una persona, cul es la probabilidad de que sta preera los noticieros dado que preere el canal B? d. Si los eventos son: ver noticieros y preferir el canal B. Son independientes? Explique.

310 Parte II

Matemticas, Azar, Sociedad

Para el Informe-II se consider el tiempo semanal que los estudiantes universitarios dedicaban a ver T.V. Se tom una muestra de 100 estudiantes de la poblacin y se les pregunt cul es el tiempo (en horas) que dedican durante la semana a ver televisin. a. Qu tipo de representacin grca empleara para mostrar el comportamiento de la variable en la muestra? Explique su respuesta. La siguiente tabla presenta la informacin de la muestra, agrupada en clases junto con su correspondiente frecuencia: Distribucin de frecuencias agrupadas del tiempo semanal dedicado a ver T.V.
Clases (horas) [0,0 - 3,5) [3,5 - 7,0) [7,0 - 10,5) [10,5 - 14,0] Frecuencia 22 35 25 18

b. Con base en la tabla anterior calcule el tiempo medio semanal que las personas de la muestra dedicaban a ver T.V. c. Determine en qu clase se ubica la mediana y la moda de la distribucin de tiempos. d. Considere la siguiente armacin: La variable tiempo semanal dedicado a ver T.V. en la muestra se comporta normalmente. Explique qu hara para determinar si esa armacin es falsa o verdadera. (Slo se le pide que explique. Usted no tiene que hacer clculos). Parte III Con respecto al Informe-III, ste contena dos tipos de informacin: resultados de algunos datos tomados de una muestra de estudio, y algunas creencias que tenan los directivos de la Universidad Nacional sobre la poblacin de estudio. La siguiente tabla presenta la informacin:

Situaciones problemticas
Poblacin de estudio: estudiantes de la Universidad Nacional

311

Muestra de estudio: 300 estudiantes de la Universidad Nacional escogidos al azar Algunos datos de la muestra fueron: A. El 90% de los estudiantes ve T.V. todos los das. B. Los 270 estudiantes que ven T.V. todos los das, la miran un promedio de 2.5 hora/ da con una desviacin estndar de 0.5 hora/da. C. 30% preeren noticieros 40% preeren novelas 30% preeren otros tipos de programas. D. 90 estudiantes que tienen preferencia por los noticieros ven T.V. un promedio de 2,7 h/da, con una desviacin estndar de 1,5 h/da. 120 estudiantes que tienen preferencia por las novelas ven T.V. un promedio de 2,4 h/da, con una desviacin estndar de 1,2 h/da. Creencias directivos de la U. Nacional: A. El 80% de los estudiantes ve TV todos los das B. Las directivas no tenan ningn conocimiento previo acerca de este asunto. C. 30% preeren novelas 40% preeren noticieros y 30% preeren otros tipos de programas. D. La gente que preere los noticieros ve menos televisin que la gente que preere novelas.

a. Acerca de qu variables se est dando informacin en el cuadro anterior? De qu tipo son? b. Sobre dos de las variables anteriores, usted conoce mtodos para hacer inferencia. Sobre cules variables podra hacer inferencia? c. Qu tipo de inferencia estadstica (prueba de hiptesis o intervalo de conanza) debera hacer si considera la parte B del cuadro anterior? d. Qu tipo de inferencia estadstica (prueba de hiptesis o intervalo de conanza) debera hacer si considera la parte D del cuadro anterior? e. Acerca de qu parmetros hara usted la inferencia en los dos puntos anteriores (c) y (d)? 22.- En el ao 1991 las exportaciones de banano colombiano llegaban a 25 millones de cajas; en el ao siguiente decrecieron dramticamente hasta llegar a 10 millones de cajas por razn de que las ventas a los Estados Unidos

312

Matemticas, Azar, Sociedad bajaron sustancialmente. Con el n de mejorar las ventas en el exterior se llevaron a cabo varias estrategias entre las cuales se pueden mencionar: La rma de un contrato de riesgo compartido con un cliente holands muy importante Velleman & Tass, lo cual permiti gozar de los benecios del mercado europeo. La modicacin de la estructura nanciera del sector, cambiando la deuda en pesos por deuda en dlares. La suscripcin del acuerdo marco del banano con la Unin Europea que le otorga a Colombia, entre varios pases, una cuota mnima de participacin conocida como la cuota pas. Consciente de esta situacin, la Unin de Bananeros (Uniban) decide hacer presencia en los mercados mundiales, especcamente en el mercado de la Unin Europea y en el mercado norteamericano el cual sigue siendo bastante atractivo y donde hay una fuerte competencia (Empresas como Chiquita con un 26% de participacin y Dole con un 30%). Sin embargo, debido a restricciones de inversin se ve abocada a la decisin de denir en cul de estos mercados debe enfocar ms sus esfuerzos. Es as, como Uniban debe determinar cul de los mercados es ms atractivo en trminos econmicos, para lo cual deber estimar el consumo del banano colombiano en las plazas mencionadas. Para hacer la estimacin de ventas se contrat un estudio con una compaa especializada. El estudio realizado seleccion una muestra aleatoria de 200 clientes de la Unin Europea y encontr que el consumo promedio anual es de 32.500 cajas con una desviacin estndar de 2.650 cajas. As mismo, con base en una muestra de tamao 150, de clientes del mercado norteamericano, se encontr que el consumo promedio anual de los clientes es de 33.205 cajas con una desviacin estndar de 2.890 cajas anuales. a. Dena el problema, la poblacin y la muestra de estudio. b. Qu variables relevantes estn involucradas? De qu tipo son? Qu poblaciones de datos determinan? c. Estime el valor de la demanda promedio en nmero de cajas en la Unin Europea.

Situaciones problemticas

313

d. Un alto ejecutivo de la rma dice que el mercado norteamericano es ms atractivo que el de la Unin Europea y que la probabilidad de equivocarse es del 1,0%. Est usted de acuerdo? Justique su respuesta. 23.- En las grandes ciudades del pas, durante la ltima dcada, el nmero de padres de familia separados se ha incrementado sustancialmente, trayendo esto como consecuencia dicultades en el desarrollo emocional y mental de sus hijos. El Instituto Colombiano de Bienestar Familiar (ICBF) preocupado por el problema social que genera esa circunstancia contrat con la Universidad de los Andes el primer semestre del ao 95 un estudio en Bogot para detectar posibles causas de la separacin de las parejas con hijos. El grupo de investigadores de la Universidad aplic una encuesta a 36 parejas que quieren seguir juntas y a 30 parejas que estn pensando en separarse, todas con hijos. El contenido de la encuesta se presenta a continuacin: 1) Tipo de unin Religiosa ________ Civil ________ Libre ________ 2) Quieren separarse S ________No ________ 3) La situacin econmica de su hogar les ha originado conflictos S ________ No ________ 4) Califique en una escala de 1 a 5 la tolerancia que tienen como pareja ________ 5) Entre semana, cunto tiempo diario promedio comparten en pareja? (No incluya el tiempo de sueo) ________ En el grupo de parejas que piensan separarse se encontr que comparten en promedio 2,45 horas con una desviacin estndar de 0,7 horas. Adems, la calicacin promedio que dieron a la tolerancia fue de 1,8 con una desviacin estndar de 0,6. Las parejas que quieren continuar juntas respondieron la pregunta 5) as:

314

Matemticas, Azar, Sociedad

2,3 2,0 3,0 3,3 2,5 2,3

3,7 3,0 4,2 3,0 2,0 2,5

3,9 3,2 3,3 2,8 1,98 2,6

3,7 2,8 4,1 3,6 1,7 2,3

2,6 1,2 1,8 3,4 1,3 2,4

2,0 1,9 2,2 2,5 1,4 2,7

Por otro lado, la calicacin promedio que dieron a la tolerancia, las parejas que quieren continuar juntas, fue de 2,3 con una desviacin estndar de 0,4. Un estudio previo con parejas que quieren seguir juntas mostr que el nivel de ingreso que ellas tienen depende del tiempo diario promedio que comparten, de la siguiente manera: Tiempo diario promedio compartido (h) 2 o menos ms de 2 pero menos de 4 4 o ms a. Dena en sus palabras el problema de estudio. b. Establezca la poblacin de estudio. Determine el objetivo del estudio. c. Determine cules son las variables que se consideran en el estudio y cules de ellas estratican la poblacin. De qu tipo son las variables? d. Cuntas muestras de estudio hay? Cuntas muestras de datos hay? Mencinelas. e. Describa la muestra de datos que se presenta en la tabla anterior. Determine si la variable se comporta de forma aproximadamente normal. Justique su respuesta. f. Utilice la informacin que relaciona el tiempo compartido con el nivel de ingreso de parejas que quieren permanecer juntas para determinar cul es su nivel de ingreso esperado. Nivel de ingreso ($) 4 millones 3 millones 2 millones

Situaciones problemticas

315

g. Existe la tendencia a pensar que la cantidad de tiempo compartido por la pareja inuye en la calidad de su relacin y por tanto, incide en el problema que se est abordando. Cules son las dos variables del estudio involucradas en lo que arma la tendencia? Exprese en sus palabras la tendencia mencionada y tradzcala en trminos de las correspondientes dos variables del problema. h. Se puede inferir del estudio de la Universidad de los Andes que el tiempo diario promedio de compartir es una causa de separacin entre las parejas? Para responder, utilice la informacin recogida por los investigadores y siga lo propuesto en el punto anterior. i. Entre qu valores se estima que caliquen la tolerancia las parejas que quieren continuar juntas? Existe una diferencia signicativa entre la calicacin promedio a la tolerancia que dan las parejas segn que estn pensando en separarse o quieran seguir juntas? Para responder esta ltima pregunta puede utilizar la estimacin que acab de hacer. j. Con base en el anlisis hecho en las dos preguntas anteriores, concluya algo en relacin con el objetivo del estudio. 24.- Con la fabricacin de los primeros camperos la Willys de Colombia hace realidad un sueo que naci en Pereira en 1992. El Willys ha sido el jeep que durante 50 aos ha recorrido todos los caminos colombianos, a pesar de que desde 1963 esta marca desapareci del mercado automotor. El nuevo Willys es una rplica del modelo 1954 con ms capacidad de carga y motor ms potente. Actualmente la compaa est produciendo 2 camperos mensuales pero sus proyecciones son mucho ms ambiciosas. Sobre la comercializacin de estos jeeps algunos voceros de las ensambladoras tradicionales consideran que quellos entrarn a pelearse el mercado existente, mientras que otros, como Acolfa, sealan que los Willys ya tienen un mercado asegurado, especialmente en el eje cafetero. Pero si el mercado nacional resulta insuciente las alternativas podran estar en otros pases del Tercer Mundo que tengan deciencias viales similares a las de Colombia. Si bien la venta de carros ha cado en los primeros meses de 1996, los fabricantes esperan vender por lo menos un promedio de 40 por cada poblacin. Para indagar cmo estn sus expectativas, la empresa contrat una encuesta entre personas de 25 poblaciones del pas y 24 poblaciones del Ecuador, sobre la aceptacin (personas que contestaron que s compraran un campero atendiendo a sus caractersticas y a su precio.

316

Matemticas, Azar, Sociedad Los datos de la tabla muestran los promedios de aceptacin por poblacin para cada marca. Fueron obtenidos de promediar los totales de personas, que compraran esa marca, de las 25 poblaciones. Por ejemplo 39,2 es el promedio de personas que dijo que s comprara un jeep Chevrolet.

Colombia
Marca

Ecuador

Promedio de Promedio de Desv. precio de Desv. Promedio de Desv. aceptacin por Estndar venta (miles) estndar aceptacin estndar poblacin por poblacin 39,2 24,3 38,1 9,4 5,9 35,5 2,7 1,6 1,9 0,89 0,64 2,9 1,900 17,200 18,500 22,600 18,100 18,300 920 530 878 1140 826 770 36,6 18,7 26,2 11,8 17,9 33,1 2,1 1,4 1,0 0,99 1,1 2,0

Chevrolet Sofasa CCA Toyota Ford Willys

Usted va completar el estudio iniciado con la encuesta. a. Determine las variables relevantes del estudio y el tipo de cada una. b. Con base en la informacin suministrada, establezca tres objetivos concretos de manera que, una vez desarrollado el estudio, permitan concluir algo con respecto al futuro de los camperos Willys. c. Establezca un plan para el logro de los objetivos y llvelo a cabo utilizando los mtodos de inferencia vistos en el curso. d. Cules son sus conclusiones sobre el mercado de los camperos Willys?

Referencias bibliogrficas

Artigue, M. (1995). Ingeniera didctica. En M. Artigue, R. Douady, L. Moreno, y P. Gmez (Eds.). Ingeniera didctica en educacin matemtica. Bogot: una empresa docente. Batanero, C., Godino, J.D., Vallecillos, A., Green, D.R., Holmes, P. (1994). Errors and difculties in understanding elementary statistical concepts. Int. J. Math. Educ. Sci. Technol, Vol. 25, 4, pp. 527-547. Burril, G. (1990). Quantitative Literacy: leadership training for masters teachers. En A. Hawkins (Ed.). Training Teachers To Teach Statistics, pp. 219-227. London: International Statistical Institute. Chateld, C. (1988). Problem Solving. A Statisticians Guide. London, Chapman and Hall. Ekeland, I. (1992). Al Azar. Barcelona: Editorial Gedisa. Ellerton, N. & Clements, M. (1994). The Reshaping of Mathematics Education Research. En ICMI Study 94 What Is Research In Mathematics Education and What Are Its Results?. University of Maryland. Fernndez, F., Mesa, V., Gmez, P., Perry, P. (1993). Estadstica y Sociedad. Bogot: una empresa docente. Gareld, J. (1995). How Students Learn Statistics. International Statistical Review, 63, 1, pp. 25-34. Gmez, P., Mesa, V., Perry, P., Fernndez, F., Gmez, C., Marulanda, I. (1993). Matemticas y Sociedad. Bogot: una empresa docente (Documento de trabajo) Hawkins, A. (Ed.). (1990). Training Teachers To Teach Statistics. London: International Statistical Institute.

318

Matemticas, Azar, Sociedad

Kieren, T. & Pirie, S. (1994). Growth in Understanding: how can we characterize it and how can we represent it? Educational Studies in Mathematics, Vol. 26, pp. 171-181. Kilpatrick, J. (1993). What constructivism might be in mathematics education. En J. C. Bergeron, N. Herscovics, y C. Kieran (Eds.). Proceedings of the 11th International Conference for the Psychology of Mathematics Education, Vol. 1, pp. 3-27. Montreal: Universit de Montreal. Lester, F. (1983). Trends and Issues in Mathematical Problem-Solving Research. En Acquisition of Mathematics. New York: Academic Press. NCTM, (1981). Teaching Statistics and Probability. Reston, VA: NCTM. NCTM, (1989). Curriculum and Evaluation Standards for School Mathematics Reston, VA: NCTM. Perry, P., Fernndez, F., Mesa, V., Gmez, P. (1990). Matemticas, Azar, Sociedad. Una introduccin emprica a los conceptos de probabilidad. Bogot: una empresa docente. Phillips, J. (1992). How to Think about Statistics. New York: Freeman and Company. Romberg, T. (1993). How one comes to Know: Models and theories of the learning of mathematics. En M. Niss (Ed.). Investigations into assessment in mathematics education. Dordrecht: Kluwer. Rubin, A. & Rosebery, A. (1990). Teachers Misunderstanding in Statistical Reasoning; Evidence from a Field Test of Innovative Materials. En A. Hawkins, Training Teachers To Teach Statistics, pp. 72-101. London: International Statistical Institute. Schoenfeld, A. (1992). Learning to Think Problem Solving, Metacognition, and Sense Making in Mathematics. En D. Grouws (Ed.). Handbook of Research on Mathematics Teaching and Learning. New York: McMillan, pp. 334-366. Scholz, R. (1991). Psychological Research in Probabilistic Understanding. En R. Kapadia & M. Borovcnik (Ed.). Chance Encounters: Probability in Education. Amsterdam: Reidel, pp. 213-249.

319 Shaughnessy, J. M. (1992). Research in probability and statistics: reections and directions. En D. Grouws (Ed.). Handbook of Research on Mathematics Education. New York: McMillan, pp. 465-494. Shulte, A. & Smart, J. (Eds.). (1981). Teaching Statistics and Probability. 1981 Yearbook. Reston: NCTM. Sobrino, M. (1994). Inferencia estadstica en los bachilleratos. Revista Suma, 17, pp. 27-32. Sorman, G (1991). Los verdaderos pensadores de nuestro tiempo. Bogot: Seix Barral. Steinbring, H. (1990). The Nature of Stochastical Knowledge and the traditional Mathematics Curriculum some experience with in-service training and developing materials. En A. Hawkins (Ed.). Training Teachers To Teach Statistics. London: International Statistical Institute. Tanur, J., Masteller, F., Kruskal, W., Lehmann, E., Link, R., Pieters, R., Rising, G. (Eds.). (1989). Statistics: A Guide to the Unknown. California: Wadsworth & Brooks. Vere-Jones, D. (1995). The Coming of Age of Statistical Education. International Statistical Review, 63, 1, pp. 9-23.

You might also like