1

Introducción a la estadística

La palabra estadística tiene fundamentalmente dos significados. El primero de ellos se refiere a datos clasificados, especialmente numéricos, acerca de una clase de objetos. Así, se habla de estadísticas de accidentes automovilísticos, estadísticas de salud, de natalidad, de deportes, etc. En un segundo significado, se llama estadística a la ciencia que trata de la recolección, análisis, interpretación y representación de datos numéricos. La estadística tiene su origen en dos áreas de interés que en apariencia tienen muy poco en común: la ciencia política y los juegos de azar. Quizá aquellos que hayan seguido la carrera de algunos líderes políticos conciban la vida política como un juego de azar en el que en ciertos periodos o sexenios la fortuna les sonríe, mientras que en otros periodos sólo son víctimas de ataques, o peor aún, del olvido. Sin embargo, veremos en este curso que estas dos disciplinas tienen mucho más en común. Los gobiernos han tenido interés desde la antigüedad en contar las personas, sus propiedades y en especial los impuestos que recaudaban o podían recaudar. Ya en el Antiguo Testamento se mencionan censos de carácter militar, mientras que en Babilonia, China, Egipto y Roma se elaboraron censos con propósitos fiscales. El primer censo del que se tiene noticia en México data del año 1116, cuando el rey chichimeca Xólotl ordenó que fueran censados todos sus súbditos. Para contarlos, cada uno tiró una piedra en un montón llamado nepohualco (contadero). Se formaron así doce montones de piedras y, de acuerdo con los códices, el resultado arrojó la cifra de 3 200 000 personas. Durante la Colonia se levantaron varios censos de población y recuentos demográficos de los que no se tienen los datos. Pero en 1790 el virrey Revillagigedo ordenó el trabajo estadístico más completo de la Colonia, del que se conservan 40 tomos en el Archivo General de la Nación. Desde fines del siglo XIX, salvo en la época de la Revolución Mexicana, se han conducido Censos Generales de Población y Vivienda cada 10

2 años. Es a través de su lectura que vemos cómo ha evolucionado la sociedad mexicana a lo largo del tiempo. Los problemas asociados a la descripción, resumen y análisis de los datos de los censos ha dado lugar al desarrollo de métodos que constituyen una de las partes de la estadística que más ha sido estudiada, la estadística descriptiva. Aun cuando la estadística descriptiva es muy importante y se emplea ampliamente, la mayoría de la información estadística proviene de observaciones efectuadas a una pequeña proporción del conjunto total. Como resultado de esto, la estadística inferencial ha desarrollado técnicas que permiten hacer predicciones a partir de datos conocidos, o bien, obtener información acerca de una población conociendo únicamente a algunos representantes de ella. Con los métodos de la estadística inferencial es posible, por ejemplo, predecir los resultados de una elección (con base en la opinión previa de algunos ciudadanos), estimar la vida de un circuito electrónico (con base en el desempeño que han tenido algunos circuitos semejantes), comparar la efectividad de dos dietas para reducir de peso (con base en la pérdida de peso que han tenido algunas personas que se han sometido a estas dietas), determinar cuál es la dosis adecuada de cierto medicamento (con base en estudios realizados con enfermos voluntarios), o bien, predecir el flujo de vehículos en una autopista que se va a construir (con base en el tráfico que tienen carreteras alternativas en uso). En cada una de las situaciones arriba mencionadas hay incertidumbre en las respuestas que es posible darle a cada una. Esto se debe a que la información con que se cuenta es indirecta, parcial o incompleta, y es con el uso de los métodos de la estadística inferencial que podemos juzgar la confiabilidad del circuito electrónico, la eficiencia de cada una de las dietas, el beneficio y contraindicaciones de un medicamento, así como la necesidad de construir la autopista, o bien, de emplear estos recursos en alguna otra obra de mayor interés para la comunidad.

3 Las técnicas de la estadística inferencial tienen su origen en la teoría de juegos de azar. Sólo que en el contexto de la estadística en general no hablamos de águila o sol, o de dos pares o tercia, sino de situaciones diversas como de niño o niña, sanar o morir, funcionar o fallar, fumar causa cáncer o si cierto candidato será el próximo presidente municipal. Para analizar este tipo de situaciones necesitaremos de la teoría de probabilidad, que es el fundamento de la estadística inferencial. El empleo de la estadística tanto en la vida profesional como en multitud de aspectos de la vida personal ha aumentado considerablemente en las últimas décadas. Esto se debe, por un lado, a la necesidad de aplicar métodos cuantitativos en muchas áreas del quehacer humano, tales como la administración de empresas, las finanzas, la medicina, la psicología, la producción, la contaminación ambiental, la política, etc. Por otro lado, la tecnología computacional ha avanzado considerablemente y hoy en día es posible manipular datos de manera sencilla y eficiente con el uso de paquetes estadísticos o de una hoja de cálculo en una computadora personal. Debemos enfrentamos todos los días situaciones donde la estadística y la probabilidad juegan un papel importante. Es indispensable contar con conocimientos de estadística y probabilidad para entender la variabilidad y la incertidumbre en una encuesta de intención de voto antes de unas elecciones, en un reporte médico donde se correlaciona cierta enfermedad con ciertos hábitos, o bien, en la calidad de un lote de artículos donde se analizó una pequeña muestra. Tenemos la certeza de que una vez que hayas trabajado el material de este curso introductorio contarás con una herramienta poderosa y sencilla que te permitirá tomar decisiones racionales a lo largo de tu vida profesional, y serás capaz de juzgar críticamente la información estadística que a diario es colectada, procesada y difundida al público.

4

Distribuciones de frecuencia
La institución oficial en México que se encarga de recolectar, clasificar y analizar datos es el Instituto Nacional de Estadística, Geografía e Informática (INEGI). Los datos que recolecta el INEGI abarcan multitud de aspectos de la vida social y económica del país. Tomemos por ejemplo los matrimonios que ocurrieron en México durante el año de 1995. En este periodo se efectuaron 658 114 matrimonios. Para cada uno de estos matrimonios, el Registro Civil guarda un expediente que contiene piezas de información tales como los nombres de los contrayentes, sus fechas de nacimiento, edad, lugar de residencia, nacionalidad, ocupación, escolaridad, etc. ¿Cómo podríamos presentar todo este universo de datos e información de manera sencilla? Para difundir los resultados de sus estudios, el l. N. E. G. I los agrupa y ordena de manera que sea posible obtener una visión global clara sin perder mucha información. Es obvio que debido a la variedad de información que contiene cada expediente, es necesario seleccionar algún aspecto de interés para agrupar y ordenar toda esta información. Esta selección depende indudablemente de los aspectos que deseamos estudiar y analizar. Un aspecto de interés general es la edad de los contrayentes, mientras que saber cuántos Manueles se casaron con Luceros, o cuántos hombres de signo acuario se casaron con mujeres de signo escorpión sólo podrá ser de interés para los miembros del Club de Admiradores de Lucerito o aquellos que no pueden realizar ninguna actividad sin antes conocer su horóscopo del día. Con frecuencia agrupamos los datos en cierto número de clases (llamados también intervalos o categorías) como 10 muestra la siguiente tabla de matrimonios en México durante 1995.

5

Una tabla como esta es llamada una distribución de frecuencias. La mayoría de los intervalos en esta distribución son de cinco años. Observemos que al escoger estas clases la información se simplifica considerablemente; de no ser así, la tabla tendría más de 75 renglones, correspondientes a las edades de los contrayentes. Por supuesto que al hacer esta simplificación se pierde cierta información. Por ejemplo, a partir de la distribución de frecuencia podemos observar que durante 1995 se casaron casi el doble de mujeres entre los 15 y 19 años que entre los 25 y 29 años, pero no podemos determinar si hubo más matrimonios de mujeres de 18 años que de mujeres de 26 años. Con excepción de la primera y la última, las clases están determinadas por una pareja de números, llamados límites de la clase. Por ejemplo, los límites de la tercer clase son 20 y 24. De hecho, los valores 15, 20,25,...,45 son llamados límites inferiores, mientras que los valores 19, 24,29,...,49 son los límites superiores. Ala diferencia entre el límite superior de una clase y el límite superior de la clase anterior se conoce como el intervalo de la clase. Por ejemplo el límite superior de la tercera clase es 24 y el límite superior de la segunda es 19 de modo que el intervalo de la clase es 24 -19 = 5.

6 Si las clases en que agrupamos los datos son determinadas por intervalos numéricos, como en el caso anterior, decimos que la distribución es numérica o cuantitativa. Cuando los datos no son agrupados en clases numéricas la distribución es categórica o cualitativa, como la siguiente tabla que nos muestra los divorcios ocurridos en el país durante 1995 de acuerdo a sus causas.

El diseño de una distribución de frecuencias depende esencialmente de cómo seleccionamos las clases. Para las distribuciones numéricas esta elección es arbitraria, pero hay algunas reglas generales que es conveniente observar: 1. El número de clases en general debe ser entre 5 y 15, dependiendo del número de observaciones o datos que debemos agrupar. Por ejemplo, si se tienen únicamente 8 datos, resultaría absurdo agruparlas en una distribución de 12 clases, donde varias de ellas resultarían vacías. Asimismo, perderíamos mucha información si decidiéramos agrupar los 658 114 matrimonios durante 1995 en sólo tres o cuatro clases. 2. Cada dato debe pertenecer a exactamente una clase.

7 Esto significa que debemos elegir las clases de tal manera que dos clases no tengan datos en común y que además cualquier dato pertenezca a una clase. 3. Siempre que sea posible, elegir clases con intervalos numéricos iguales. La tabla de distribución de matrimonios por edades de la contrayente cumple casi todas estas reglas, a excepción de la última, ya que la primera y la última clase no están determinadas por un intervalo de cinco años. La primera corresponde a matrimonios donde la contrayente es menor de 15 años, mientras que la última corresponde a matrimonios donde la contrayente tiene 50 o más años. A este tipo de clases se les llama abiertas y están definidas por expresiones como "ó mayores", "mayores que", "ó menores" o "menores que". Una regla .que siempre hay que considerar es la siguiente: cuando empleamos clases abiertas es deseable que, con el fin de no perder demasiada información, éstas contengan pocos datos en relación con el resto de las clases. Consideremos ahora los resultados de un examen de física practicado a un grupo de 30 alumnos. La siguiente tabla muestra las calificaciones de este examen.

8 Como se trata de calificaciones escolares, los maestros usualmente aplican la regla que de medio punto para arriba la calificación sube, mientras que abajo de medio punto no sube, por lo que en este caso es razonable agrupar los datos de acuerdo con la calificación que recibirán. Esto nos sugiere que en general la elección de los intervalos de las clases depende del fenómeno que estamos analizando.

La cuarta clase, por ejemplo, corresponde a los exámenes que recibirán 7 de calificación en la boleta, esto es, a los exámenes con calificación mayor o igual a 6.5 y menor o igual a 7.4. Así, 6.5 es el límite inferior de esta clase y 7.4 es el límite superior de esta clase. Para la tercer clase, estos límites son 5.5 y 6.4, respectivamente. El intervalo de la cuarta clase es entonces 7.4 -6.4 = 1. Sin embargo, si los valores numéricos de las calificaciones son más detallados y contienen dos o más decimales, sería necesario cambiar los límites de las clases a 6.5 y 7.49, o quizás, a 6.5 y 7.499. Para evitar este tipo de ambigüedad es conveniente considerar otro concepto análogo a los límites de la clase, el de los valores divisorios o frontera de una clase. Un dato pertenece a la primer clase si su valor es mayor o igual a 3.5 y menor que 4.5, un dato pertenece a la segunda

9 clase si su valor es mayor o igual que 4.5 y menor que 5.5, etc. En este caso los valores divisorios de las clases serían entonces 3.5, 4.5, 5.5,...,9.5, 10, Al promedio entre los valores divisorios de una clase le llamamos la marca de la clase o el punto medio de la clase. Por ejemplo, para la cuarta clase sus valores Divisorios son 6.5 y 7.5 por o que su marca o punto medio es (6.5+7.5)/2 que es precisamente la calificación asignada en la boleta para los exámenes que caen en esta clase.