You are on page 1of 47
El estudiante realizara caleulos de medidas de tendencia central y variabilidad, que deberit hacer teniendo en cuenta si los datos a calcular han sido agrupados 0 no. dems, deberd aplicar las de calculo una vez a reflexionado sobre ado de las medidas criptivas y de variabilidad en los contextes del problema. Lo anterior lo har mostrando una actitud critica y de colaboracion. Unidad 3 ; tus COMOCLMLEN EOS + {Qué enttiendes por promedio de un conjunto de datos? + (Cuales son los principales promedios que conoces? * {Qué enttendes por variabilidad en los datos? + (Cudles son las principales mediclas de wariabilidad que conoces? + {Que diferencia encuentras entre la media y la mediana de un conjunto de datos? iQue diferencia existe entre la desviacion estandar y la vari un conjunto de datos? {Qué es la moda de-un conjunta de datos? *+ @Por qué consideras que son importantes las medidas de tendencia central y de variabilidad en el estudio de la estadistica? + ¢Que diferencia existe entre una media muestral y una media poblacional? MEDIDAS DE TENDENCIA CENTRAL Y DE VARIABILIDAD ‘Tebla 3.1 Precipitaoi6n media anual por entidad federativa, Periodo 1941-2005. Aguascalientes 456.4 ‘Michoacan 806.7 Baja Califomia | 203.7 Morelos 8840 Norte ‘Baja California Sur 176.2 Nayarit 1068.7 ‘Campeche 1169.2 Nuevo Leon 602.2 Coahuila 326.8 Oaxaca 1518.8 =| Colima 885.2 | | Puebla | 1271.0 Chiapas # 1968.9 | Querétaro, 558.2 Chihuahua | 423.4 | Quintana Roo 1263.3 Distro Federal | 78.6 | | San Luis Potosi 945,9 Durango | 499.0 || Sinaloa ‘| 770.4 Guanajuato 605.3 | | sonora 4216 Guerrero 1105.4 | ‘Tabasco 2405.8 Fridaigo 24 | ‘Tamaulipas 167.3 Jalisco 820.6 Tlaxcala 705.3 ‘Mexico 876.7 | Veracruz | 1492.0 wes 1091.5 | Zacatecas 5176 Fuente: Almanaque Mexicano 2008. Gada uno delos datos de la tabla 3.1 representa la media aritmética de las precipitacio- ‘ses anuales para cada entidad, desde el afio 1941 hasta 2005. Es decir, se ha resumido a «an solo valor representativo las precipitaciones de 65 aos. Incluso, es posible resumir auin -miis los datos anteriores calculando la media aritmética de las precipitaciones de tocios los -stados, lo que vendria siendo la precipitacion media anual del pais. Media aritmética La media aritmética se define como la suma de todas los datos dividida entre el total de ellos. El simbolo para representar a la media aritmética cuando los datos se obtienen de una —_ = #——____ muestra de tamatio n es X; por tanto, si denotamos los datos mediante x, x5... Ja siguiente expresion para la media aritmética: La expresion anterior se ptiede expresar de manera més compacta utilizando el simbols de sumatoria en el numerador: = Para mostrar un ejemplo. considérense los siguientes datos obtenidos de un estu: de calidad sobre productos lacteos realizado por la Procuraduria Federal del Consum (Profeco) en 2007. Los datos corresponden al aporte calorico (kilocalorias) por cada 100 de diferentes marcas de yogur que se venden en el mercado mexicano. Yogurclasico: 94 07 101 114 79 76 83 Yogurligh: 48 48 64 S51 51 62 34 39 33 31 Calcular las medias de los datos anteriores, sumando los datos y dividiendo por el tot de datos en cada caso. = cision = AFT TOL LN 79 47648 =a ae _ 48+ 48-4 64+ 51+ 51462 + 34439433431 10 S light 46.1 kilocalorias Dos importantes observaciones respecto a los resultados obtenidos: 1, La media aritmética no coincide con ninguno de los datos, incluso en el segunde caso, el resultado ni siquiera es entero, como lo eran los datos de los cuales se ob uve la media, Sin embargo, en algunas ocasiones la media puede eoincidir con dato del conjunto. 2. Otra observacién importante acerca del primer conjunto de datos es que tres marcas. de yogur tienen un aporte cal6rico por debajo de la media, mientras que cuatro estén por encima de ella. En el segundo caso, cuatro marcas estan por debajo y seis por encima de la media. Es decir, no necesariamente debe quedar la misma cantidad de datos por arriba y por debajo de la media, pese a que a la media aritmeética se le llama el centro de los datos. Contos valores quedan de uno y otro lado depende de la forma que tenga la distribueién de los datos El comportamiento descrito se puede visualizar en el siguiente diagrama de puntos, donde se ha representado la media aritmétiea de los datos con una recta vertical, — Lg HR 7 8 9) 95 100 105110 11 9 3 40 4% 9 % 80 BO Kilocaloris clésico Kilovaloras light En los casos anteriores, los datos se obtuvieron de uma muestra de marcas de yogur, por Jo quie las medias reciben el nombre de medias muestrales. Cuando los datos se recopilan deuuna poblacion, la media se denomina media poblacional, y su notacion cambia ligera- ‘mente para distinguir el ambito del cual fueron seleccionados os datos. Cuando se trata de _ poblaciones, la media se simboliza de la siguiente manera: xy toy tet y Donde: Hes la media poblacional Nes el total de datos en la poblacién Propiedades de la media aritmeética 1. La media aritmética es el punto de equilibrio de los datos. Esto es, si cada dato tepresenta pesos identicos en una linea, el lugar donde se equilibran los datos es Justamente la media aritmetica, Media aritmetica 2. Tamedia es muy sensible a datos extremos o atipicos, ya que esta definida como la surtta de Lodus lus datus enitie el total de ellos. Es decir, datos muy alejados del resto, mueven a la media aritmética hacia su lado. Por ejemplo, si a los datos anteriores se agrega una nueva marca de yogur light con 100 Keal, la media se incrementa de 46.1 a 51.9 kilocalorias, Los datos en el diagrama de puntos quedarian de la siguiente forma: cu 40 60 60 70 m9 0 10 Obsérvese ahora que sélo tres datos quedaron por encima de Ia media, mientras que ‘ocho quedaron por debajo de ella. Una distribucion como la anterior se le conoce como distribucion asimetrica 0 sesgada fe] cx“ Ejemplo Considerar los datos de las precipitaciones medias anuales de las entidades federati para explicar con mayor detalle Ia importancia del ealenlo de medidas de tendencia cent y su imterpretacion. En el siguiente diagrama de puntos se pueden observar las precipitaciones pluviales de los 32 estadas. Un calculo de la media arroja un valor de 878,94 mm, el cual se puei tomar como un valor representativo de todo el pats. Existen entidades con una precipitacic ‘media anual que se encuentra por encima de la media, como es el caso de Tabasco, Chiat Quintana Roo, Puebla, Oaxaca, entre otros. Por su parte, existen otras entidades que se cuentran por debajo de la media, como Baja California Sur, Baja California Norte, Sonora, Chihuahua, Coahuila, entre otros. Si le damos contesto a los datos anteriores, nos damos cuenta de que los estados del norte del pais son menos Ihiviosos que los estados de sur, con diferencias muy significaivas en algu hos casos, como Tabasco, donde Ihieve mas de 13 veces que en Baja California Sur (Figura 3.1), Bala Caltfomia Sur Sate Chiapas Tabasco / 7 Eseries 0 500 7000 1500 2000 2500 Precipitacién media anual Figura 3.1 Un histograma con los datos de las precipitaciones nos puede ayudar a visualizar la distribucion de los datos. Obsérvese que la distribucién tiene cierto sesgo hacia la derecha, producto de que dos estados tienen precipitaciones anuales muy elevadas respecto al resto de los estados (figura 3.2). 0 500 1000. 1509 2000° 2500" 3000 Precipitaciin media anual MEDIDAS DE TENDENCIA CENTRAL Y DE VARIABILIDAD 1. Para calovlar la media aritmética no se requiere ordenar las datos. 2:1 media aritmética involucra todos los datos. Se obtiene dla suma de todos ellos entre el total de datos. 3, La media aritmética es muy sonsbiaa dats atipiens, por que-en ocasiones es peferibe utlizar otro tipo de promecios. } _ Mediana Lamediana esta definida como el valor que esta justamente en medio de un conjunto ordenado de datos. Es decir, divide el conjunto de datos en dos partes iguales, por lo cual, la mitad de los datos seran menores a la mediana y la otra mitad mayores. Entonces, para calcular la ‘medhana se requiere primero ordenar los datos de acuerdo con su valor. Para mostrar lo anterior, considerar los datos del estudio de calidad de las marcas de ‘yogur realizado por la Profeco, Ordenando los datos tenemos lo siguiente: Yoour casio Ce) 76 79 Cee 7 101 114 Mediana Yogur light peta 3 338d aX 48 48 7 Bi BT t Mediana En el primer easo ae tiene un niimero impar de datos (n=7) y la mediana coincide sestamente con el dato que esid en el centro del conjunto ordenado. En el segundo caso se ‘ene un niimero par de datos (n= 10) y la mediana queda en medio de los datos centrales, ‘bor lo que es necesario encontrar el punto medio entre ambos. En este caso seria igual a B+4 _ ig z % CObsérvese que siempre exist la misma cantidad de datos fir debajo o-por arriba de la me- ana, lo cual concuerda precisamente con su definicion, En general, a posicion de la mediania en un conjunto de datos se obtiene mediante la Sguiente expresion: Evaluaci6n formati Realicen la siguiente investigacién. Dividan e! grupo en dos subgrupos (Nota: los dos subgrupos seguramente ‘no seran del mismo tamatio: Grupo 1. Los que su primer apellido comienza con una da fas letras de A-J. Grupo 2. Los que su primer apellido. ‘comienza con una de las letras de K-Z, ‘Supongan que se quiere dar un premio al grupo con mejor rendimiento, EL problema es gcual de los dos grupos ‘ya mejor rencimiento on sus Gitimas calificaciones? (Adapten el problema de manera que puedan contar con datos teales confiables, Piensen y discutan €l papel de las medidas de tendencia central y de variabilidad para decidir UE grupo tuvo mejor logro. ed En el proceso de calcula dela mediana ‘se pueden presentar dos casos diferentes: ) Cuando e} nimero de datos es impala mediana esol dato que ‘queda justamente en medio de ordenamiento, +) Cuando ef nimera de datos es par, la mediana se encuentra en el punto medio de os dos datos que estan en centro del ordenamiento, Es importante no confundir la posicién ‘de la mediana con el valor real de la ‘mediana, Son dos cosas diferentes. PROBABILIDAD Y ESTADISTICA T donde: Pm: posicion de la mediana en el conjunto ordenado de datos n: total de datos En resumen, el proceso de calculo de la mediana involucra tres pasc= 1. Ordenar el conjunto de datos en orden ascendente 2. Caleular la posicion que ocupa la mediana en el ordenamiento = través de la expresion n4l 2 Pm. 3. Identificar el valor de la mediana en el ordenamiento de los datos, Comparando ta media y la mediana Tanto la media como la mediana son medidas de tendencia central de- finidas para variables cuantitativas. Sin embargo, es necesario senalar la diferencia entre ambas, desde la definicién de las mismas La media aritmetica toma en cuenta todos los datos —se suman y se dividen entre el total de ellos—. Un cambio en un dato o agregar otros nuevos puede cambiar significativamente el valor de la media aritmética. Por su parte, la mediana requiere el ordenamiento de los datos como primer paso para localizar el que esti mas al centro, Un cambio en tno de los datos puede cambiar en forma poco significativa el valor de la me- diana, incluso en algunos casos puede no alterarla. Para mostrar lo anterior, considérense de nuevo los datos de conteni- do calorico de las marcas de yogur, donde se agrega una nueva marca de yogur light con 100 Kcal. Obsérvese que la mediana sigue siendo igual a. 48, no obstante que se ha agregado un dato mucho mayor que el resto de los datos 3 33 3439 «Ge 51 51 6264100 Mediana ‘Un diagrama de puntos con los datos antes y despues de agregar el nuevo dato permite comparar el efecto en ambas medidas. =} Diagrama de puntos antes de agregar el nuevo dato o 5 0 © 0 & © oF Kilocalorias light ‘Media = 46.1 Mediana = 48 Diagrama de puntos después de agregar el nuevo dato o © fo @ M7 8 - 0 100 i Kilocaloras light Media = 51 Mediana = 48 Dada la situacion anterior, se puede decir que la mediana es una medida mas robusta gue la media aritmética, y puede ser de gran utilidad para determinar el centro de conjun- “tes de datos muy asimetnicos 0 sesgados. Un ejemplo de ello podria ser los sulativs de lus ‘empleados de una gran empresa, donde la mayoria de los trabajadores tienen un salario ‘ajo, pocos tienen un salario medio y solo algunos tienen salarios altos. En estos casos de istribuciones sesgadas, la mediana puede proporcionar una mejor descripcion del centro los datos que la media aritmetica En general, la forma de la distribuci¢n influye en si la media es mayor, menor o igual ‘que la mediana, Se pueden presentar tres situaciones diferentes (figura 3.3) 1. Una distribucion perfectamente simeétrica: la media y la mediana son iguales 2. Una distribucion sesgada a la derecha: la media es mayor a la mediana, 3. Una distribucion sesgada a la izquierda: la media es menor a la mediana Distribucién sesqada a la derecha Distribuciin sesgada a la izquierda Piss Mediana filedta \ Media 8 8 6 8 0 24 6 1B Media = Mediana Media > Mediana Media < Mediana Figura 3.3 Una ventana al conocimiento La revista Time, en su edicion del 24 de febrero de 1986, describe una disputa entre la Asociacién Médica Americana (AMA) y la Asociacion Americana de Abogados (AABA) sobre el incremento de los costos de los seguros de negligencias o errores para los mé- dicos. La AMA wtiliz6 medias para mostrar que la cantidad promedio pagada se eleve por encima de 50% de 1980 a 1984. Los abogados, por su parte, utilizaron medianas, obteniendo como resultado que no existe tal incremento en los costos de los Seguros para os médicos. En este caso, las medias describen mejor al centro de los datos porque son proporciona- les al costo total de los seguros reclamados, y este costo total es en el que se basan para establecer las primas de Tos seguros, Aunque las medianas no cambiaron el promedio, en realidad hubo un ineremento en grandes liquidaciones (por ejemplo, una liquidacion ‘por 14 millones de délares a David Berg, un estuciante universitario que sulrié dano || cerebral durante un operacion pequena y de Ja cual a su abogado le correspondieron 5.3. millones). ‘Fuente: Chance encounters, a first course in data analysts and inference. Christopher J. Wild & George A.F. Seber, Filorial, John Wile nc. 2000) Lamoda La principal aplicacién de la moda es en el ambito de datos cualitativos, y aunque también se utiliza en datos cuantitativos, es de menor precision que la media aritmética y la mediane Lamoda es el dato que se presenta con mayor frecuencia en un conjunto de datos, Continuando con el ejemplo del contenido calérico de las diferentes marcas de yogur clasico que se yenden en el mercado mexicano, se observa que no existen datos que se re pitan con mayor frecuencia, por tanto, no hay moda. En el caso del yogur light existen dos valores que se repiten igual numero de veces, 48 y 51, por lo cual existen dos modas, como puede verse a continuacion: Yogurclisico: 94 97 101 114 79 76 83 Yogurlight; 48 48 «64 «51 51 6234303331 fie} —_—————~ ‘MEDIDAS DE TENDENCIA CENTRAL Y DE VARIABILIDAD pai] Como puedes observar, la moda en datos cuantitativos tiene algunas inconsistencias que no tienen la media aritmetica ni la mediana; en ocasiones no existe, otras veces existe ‘mis de una, y algunas veces serd tini¢a. Enseguida se muestra un ejemplo con datos cualitatives. Considérese la encuesta sobre los habitos de los usuarios de internet en México que sé realiz6 en 2005 analizada en la unidad anterior (tabla 3.2), Tabla 32 Lugar de acceso més frecuente de las usuarios de iteret en México. Casa 40% Cibercaté [ 30% Trabajo | 20% Escuela | 10% Toual { 100% Fuente: Asociacion Mexicana de Internet. En este caso, la moda es casa, ya que es la categoria con mayor frecuencia. Es decir, el Jugar mas frecuente de conexion a internet para los cibernautas mexicanos v= su casa. Ob- sirvese que la variable es lugar de acceso, y los datos son casa, cibercalé; trabajo y escuela. En este tipo de datos la tinica medida descriptiva que puede calcularse es la moda. A continuaci6n sé muestra un ejemplo mas sobre el uso de 1a moda; en este caso no se dispone de la tabla de datos, sino de una grifica de barras. En un hospital se registra el tipo de enfermedad o padecimiento por el que estén intemnados los pacientes. En la figura 3.4 se presenta la distribucion grafica de las frecuencias de las enfermedades: Accidentes {I ‘Aparato circulatorio ‘cencer 2 Girasis Diabetes Infeccionos intotinales, Neumonia Frecuencia de enfermedades de pacientes de un hospital. En este ejemplo lx moda es enfermedades del aparato circulatorio, con una frecuencia de 10 casos segiin se observa en la tabla Es importante na confumdir la moda con la frecuencia. La moda es la categoria de la variable que tiene la mayor frecuencia, no la frecuencia en si. Seria un error en este caso decir que la moda es 10. ‘Aun grupo de 30 alumnos se le pregunté en qué mes cumplian afios; los datos obteni- dos fueron graficados como se muestra en la figura 35. gp} ay, -PROBABILIDAD Y ESTADISTICA T : i x | | Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic Figura 3.5 i En este caso la moda es el mes de enero, con una frecuencia de 5 cumpleatios, UN EJEMPLO DE MODA EN DATOS CUANTITATIVOS La mada se utiliza aun cuando el conjunto de datos de Ia variable no sea cualitativa, En Ie tabla 3.3 se presentan datos de las frecuencias de duracién de focos, la variable “duracioa de un foco” es numérica, La tabla 3.3 de frecuencias es el resultado de registros sobre la duracién de los focos de 60 watts de una cierta marca de focos. ‘Tabla 3.3 Distribucién de frecuencias de la duracién de fooos de 60 watts de una marca reconocia. fac bas 500-599 3 600-699 7 700-799 14 800-899 28 900-999 64 1000-1099 57 1100-1199 | 23 1200-1299 | : 3 1300-1399 7 1400-1499 4 En este caso, el intervalo moda es 900-999, ya que contiene la mayor frecuencia, Si se utiliza la marca de clase como el dato representativo del intervalo se tiene una moda igual 4949.50 h. MEDIDAS DE TENDENCIA CENTRAL Y DE VARIABILIDAD DISTRIBUCIONES BIMODALES Se dice que un conjumto de datos o su distribucidn de frecuencias es bimodal si tienen dos valores que sobresalen con mayor frecuencia. Por ejemplo, la figura 3.6 representa la distri- bucidn de estaturas de la poblacisn de estudiantes de una escuela, Se puede observar que hay dos valores que destacan: 155 y 170. or ore 010 0.08 | 0.08 | 006 | 002 | 120 140, 150 160 170 180 190 | Hombres y Mujeres Figura 36 ‘Cuando se presenta una distribucién con dos valores que se destacan como en el diagra- ‘ma anterior, se sugiere preguntarse si la poblacién original puede dividirse en dos subpo- blaciones que tienen diferentes caracteristicas, Es claro que la estatura de una poblacion de mujeres es diferente a la de una poblacion de hombres, y que el otigen de los dos picos proviene de esa diferencia. Obsérvese lz distribucion de la misma poblacign, pero ahora separada por sexo (figura 3.7). Poblecin Hombres An, yeres RESSERSER REBES Ces | 130140150160 170 180 190 _Estawra Figira 3.7 See IPON A PRUEBA LO QUE HAS APRENDIDO! 1. Almedir la altura (en centimetros) que puede saltar un grupo de escolares mujeres, antes y después de haber efectuacio un cierto entrenamiento deportivo, se obtuvieron los valo- res mostrados en la tabla 3.4 PROBABILIDAD Y ESTADISTICA I Tabla 3.4 Inés n4 16 ana * Lie eS | | Beatriz | u2 | uw | | Carolina 107 106, Diana 119 128 Flena 115 122 Fanny 138 145 Gaby 126 132 Hilda 105 109 Teresa 104 102 Juana 15 uz Con los datos de la tabla 3.4 a) Calcula el valor central de la altura saliada por las mujeres antes del entrenamiento, }b) Caleula el valor central de la altura saltada por las niias después del entrenamiento. ©) @Piensas que el entrenamiento es efective? Explica por qué 2, Como parte de un proyecto, los estudiantes de una clase miden cada uno su mimero de calzado, obteniéndose los siguientes datos: 2% 2 2 Fk FB 28 2B 2 2 2 2 2 2 3 30 30 30 30 30 Sl RB a) Determina el promedio que consideres mas adecuado para el tip de datos. b)_Discute la eleccion de wu promedio y justificala, Medidas de tendencia central en datos agrupados En la seccion anterior se estudio el significado de las meclidas de tendencia central, utilizan- | do situaciones con pocos datos, los cuales no requerian ser agrupados en una distribucion para su andlisis. Sin embargo, en las aplicaciones mas frecuentes de la estadistica se tienen grandes cantidades de datos que requieren ser organizados primero en tablas o distribucio- nes de frecuencia. \ onetime te gg] eect nenennntnr MEDIDAS DE TENDENCIA CENTRAL Y1 El significado de las medidas de tendencia central no cambia, sélo se deben hacer algu- znos ajustes a los métodos que permitan calcular estas medidas para datos aislados. Veamos a continuacién cémo se calculan las medidas de tendencia central en esta nueva modalidad Calculo de la media aritmética Como se indicé en la seccion anterior, la expresion para calcular la media aritmética de un eonjunto de datos es: Sin embargo, cuando se tienen datos agrupados, la frecuencia representa la cantidad de veces que se repite un mismo dato. Para comprender mejor el papel de las frecuencias en la-expresion anterior se considera la siguiente situacién: en un grupo escolar de una es- cuela preparatoria se pidi6 la edad a cada uno de los estudiantes, Los resultados fueron los siguientes: 6% 15 15 15 15 15 15 16 16 16 16 we owiowiw ww Ww wm 8 1B Aunque son pocos datos, se puede construir una distribucién de frecuencias: Calcular la media considerando las frecuencias: 705) +5016) +517) +308) 20 De los resultados anteriores se puede inferir que la formula de la media aritmética para datos en frecuencias queda como sigue: PROBABILIDAD Y ESTADISTICA I Jf,2esla frecuencia con la cual aparece el dato x, n:esel total de datos En este caso, el numerador 2a proporciona la suma total de los datos, lo que es equivalente al numerador YS dele expresion de datos aislados. Ejemplo: Considérese una distribuci6n de frecuencias con intervalos de clase, que fue construida en Ja unidad anterior, Determinar la edad media de las madres cuando tuvieron su primer hijo (tabla 3.5). {abla 3.5 tdades de un grupo de madres al tener su primer hyo. tent Marca de clase | Frecuencia | Frecuencia de edades ces relativa Recuerdese que en datos agrupadas mediante intervalos, las marcas de clase se conside- ran representantes de los datos del intervalo, por lo que los resultados serian los siguientes: Sim a 51 IZA) +15(24) +1631) + 368) 94 63 anos ¥ De acuerdo con la media aritmética, la edad promedio de las madres al tener su primer hijo es de 24.68 afios. Existen mamas con mayor y menor edad. Un estudio completo de como se distribuyen las edades por encima o debajo del promedio se puede ver en una grafica, y a través del calculo de algunas medidas de variabilidad que se estudiardn en la siguiente seccion. Mediana (ejemplos) Para ejemplificar el caso de la mediana en datos agrupados en frecuencias se considerarén los datos de la tabla anterior (edad de las madres al tener su primer hijo). Cuando los datos se agrupan pierden su identidad y la marca de clase asume la representatividad de los datos del intervalo. En este caso, 17 mamis tuvieron su primer hijo a los 17 afios, 15.a los 24 afios, y asi sucesivamente. Como se tienen 51 datos ordenados, la mediana se encuentra en la posicion 26 debido a que: ne fit] Es decir, la mediana se encuentra en el segundo intervalo dado que el acumulado al primer intervalo son 17 datos, mientras que el acumulado en el segundo intervalo son 32 datos. Lo anterior conduce a que la mediana se encuentra entre el valor 21 y 27, que son los limites del intervalo que contiene a la mediana. Una expresion que permite calcular la mediana.es la siguiente: Donde: ; limite inferior del intervalo que contiene a la mediana, n: total de datos. ¢ amplitud del intervalo que contiene a la mediana. Jy: frecuencia del intervalo que contiene a la mediana, & fi: suma de frecuencias anteriores al intervalo que contiene a la mediana, Como se puede ver, para utilizar la formula es muy importante que primero identifique el intervalo que contiene a la mediana, ya que todos los elementos hacen referencia a él. Para el caso que se estas analizando se tiene lo siguiente Intervalo que contiene a la mediana: 21-27 L,= 21 51 7 i= Dia Sustituyendo Mediana = 24.96 anos —_— fo Obsérvese la similitud que hay en este caso entre media aritmética y media, dado que Jos datos siguen una distribucién aproximadamente simétrica, lo cual se puede ver en la figura 3.8. Recuerda | | El significado de las medidas de 6 tendencia central no cambia de datos aislados a datos agrupados en * ‘frecuencias, sélo las expresiones para. 2 calcularlas. Las frecuencias ayudan a reducir los 6 0 6 % % 40 ‘caloulos con datos repetidos. Edad Figura 3.8 3.2 MEDIDAS DE VARIABILIDAD O DISPERSION Las medidas de tendencia central no son suficientes para una adecuada descripcién de los datos, ya que sdlo indican el valor central alrededor del cual se encuentran éstos. Es necesario conocer otras medidas que indiquen el grado de dispersion o variabilidad de los datos para po- der tener una idea mas precisa de su comportamiento. Para comprender mejor lo anterior, con- sidérese el caso de dos alumnos que obtuvieron las siguientes calificaciones en un semestre: Alumno 1: it i 8 9 9 Alumno 2: 6 7 8 9 10 En ambos casos, la media aritmética y la mediana son iguales a 8. Sin embargo, las ca- lificaciones del segundo alumno son mas variables que las del primero. Asi que a pesar de que ambos tuvieron el mismo promedio, en términos estadisticos ambos conjuntos de datos 1no tienen el mismo comportamiento (Figura 3.9) aa Bae 6 7 8 8 6 7 68 8 w alumnno 4 alumno 2 30 os conjuntos de datos con iqual centro pera diferente varabiidad. En el analisis de datos es importante conocer el centro de un conjunto de datos, pero también se requiere conocer qué tan lejos del centro se encuentran. En los siguientes parralos se estucliardn diferentes medidas que permiten evaluar la variabilidad en los datos. _ MEDIDAS DE TENDENCIA CENTRAL Y DE VARIABILIDAD Rango La medida de variabilidad més sencilla que existe es el rango. Representa la distancia entre el dato mas pequefio y el dato mas grande del conjunto (figura 3.10). Esto es: Rango = dato mayor ~ dato menor Los datos que sé muestran a Continuacion representan los niveles Figura 3.10 maximos de mondxido de carbono en la zona noroeste del area metro- El rango es una media de varlabiidad que politana de la ciudad de México en la primera semana del mes de febrero indica evant cambia aio, porelempl, ios de 2003 (Fuente: Centro de Control de la Red Automatica de Monitoreo indies de contaminaion. Atmosférico). HEE coogi ou Fort eget Sigg ti reece Raango see Rango 42 16 26 Obsérvese que el rango depende sdlo de los datos extremos, por lo que resulta muy sensible a datos atipicos. Adem, no considera el centro de los datos, que debe ser la re- ferencia respecto a la cual se mide la variabilidad. Debido a ello tiene poca utilidad. Algu- nos ejemplos de sus aplicaciones pueden ser cuando se reportan temperaturas maximas y minimas, indices maximos y minimos de contaminacion, o en cartas de control de calidad de un producto, donde se reportan los extremos de la variable que se esta midiendo en un tiempo determinado. En todos los casos anteriores el rango proporciona una vision global de la variabilidaa, Desviacion estdndar y varianza ‘La desviacidn estandar es la medida de variabilidad mas conocida y utilizada. Proporciona un valor tipico que describe que tan lejos se encuentran los datos de la media aritmética, Un elemento clave para entender la desviacion estandar es el de desviacian. Se entiende por desviacion la distancia de un dato tespecto a la media, En un conjunto existen muchos datos, por tanto, habra para cada uno de ellos una desviacién La desviacton de un dato respecto a la media se representa de la siguiente manera: desviacion: Donde: r xe es un dato del conjunto : es la media aritmetica del conjunto de datos. De la-expresion anterior se deriva que la desviacién puede ser negativa o positiva, de- pendiendo si el dato es menor o mayor a la media aritmética, Para mostrar lo anterior con- sidérese una grafica de puntos con los datos de la contaminacién por ozono utilizados en el céleulo del rango (figura 3.11), SEE eee PROBABILIDAD Y ESTADISTICA 1 a1 1385 = oS 49 << ee Se oho 16 2 2% #0 % Ozon0 ura 3.41 DDiagrama de puntos con la media de ls datos y algunas desviaciones. En la seccion anterior se senal6 que la media aritmética constituia el punto de balance © equilibrio de un conjunto de datos. Ahora que se introduce el término de desviacién, se puede ver que ello implica que la suma de las desviaciones de los datos respecto a la media es igual a cero, Esta és sin duda una importante propiedad de la media, Simbolica- mente se expresa de la siguiente manera ¥ &-x=0 a Si se caleulan las desviaciones para los puntajes de ozono, se vera que se cumple lo anterior (tabla 3.6). Tabla 3.6 16 29.85 16 = 2985 = 13.85. 4 29.85 24 — 29.85 = -5.85 24 29.85 24 — 29.85 = -5.85 42, 29.85 42 = 29835. = 12.15 25, 29.85, 25 — 29.85 = —4.85 42 29.85 42 — 29.85 = 12.15 a 36, 29.85 36 — 29.85 = 6.15 D desviaciones = 0 En la biisqueda de una expresion para calcular la desviacién estandar de un conjunto de datos se introducira el concepto de desviacion cuadratica, el cual consiste en elevar al cuadrado las desviaciones. Ahora todas las desviaciones seran positivas; esto es: fof ‘MEDIDAS DE TENDENCIA CENTRAL ¥ DE VARIABILIDAD Gy, =) = (- 13.85)" +(— 5.85) + (— 5.85)" +(12.15)' + (— 4.85) + 02.15) + (6.15 oI (x, — 3) = 616.85 El resultado anterior representa la suma de las desviaciones cuadraticas de todos los datos. Sise divide dicho resultado entre el total de datos, se estar calculando el promedio de las des- viaciones cuadraticas. A este resultado se le denomina vatianza, y es otra medida de variabilidad de los datos, 2 em _ 616.85 —— = 102.80 “a 7-1 Entonces, la varianza es el promedio (media aritmética) de las desviaciones cuadra- ticas de un conjunto de datos. Sise extrae la raiz cuadrada al resultado anterior, se tendra el promedio (media aritmé- tica) de las desviaciones. A dicho resultado se le conoce como desviacion estandar. 102.80 = 10.13 = A partir de un conjunto de datos se ha explicado el proceso que se sigue para caleular Ja varianza y la desviacion estandar. Ahora es necesario definir su simbologia, para lo cual se haran dos distinciones importantes: @ Cuando tos datos provienen de una poblacion La desviacién estandar se representa mediante la letra @ y se expresa de la siguiente manera: Yow N Por su parte, la varianza, que es el cuadrado de la desviacion esténdar, se expresa 5 Gy -uy }) Cuando los datos provienen de una muestra La desviacion esténdar se representa mediante la letra $ y la varianza mediante 5°, respectivamente $i PROBABILIDAD Y ESTADISTICA I Observaciones: +H esla media de la poblacién, ¥ es la media de la muestra + -nesel total de datos en la muestra Nes el total de datos en la poblacion + Enel caso de la muestra, el denominador es n—1 en lugar de n. La razon de dividir entre n—1 y no entre nen el caso de la muestra, es porque se ha determi- nado que de esta manera se puede estimar con mayor precision la media de una poblacion en situaciones de inferencia estadistica, Interpretaci6n de la desviaci6n estandar El significado de la desviacién estindar en los datos de los indices de ozono es que los datos se encuentran en promedio a una distancia de 9.39 del centro (media aritmética) del conjunto de datos, Se sabe que algunos datos tienen mayor desviacion que otros, pero en promedio, la desviacion de los datos la proporciona la desviacion estandar. Ejemplo: Considérese las calificaciones de los dos alumnos mencionados al inicio del tema: Alumnol: 7 7 8 9 9 ¥ Alumno2: 6 7 8 9 10 3=8 {Cua de los dos conyuntos de datos tiene mayor variabilidad (tabla 3.7)? Tabla 3.7 Calificacion | Desviaciom | Desvincion Calificacion Desviaeion : G&-D cuadratica (3, y cuadratiea (x, — 7 6 QP=4 7 7 Cie 1 ss a =o | 9 9 | (F=1 9 10 =a | (Bima | Sama | 10 [=] ; MEDIDAS DE TENDENCIA CENTRAL Y DE VARIABILIDAD Alumno 1: a) Desviacion estandar b) Varianza SG» n= 51 Alumno 2: a) Desviacidn estindar b) Varianza yy &, — Las calificaciones del alumno 2 tienen mayor variabilidad que las cali- ficaciones del alumno 1, ya que tanto la varianza como la desvincion estin- dar son mayores que las del alumno 1, UNA OBSERVACION RESPECTO A LA VARIANZA Y LA DESVIACION ESTANDAR ‘Como se puede observar, la relacion entre la varianza y la desviacién estén dar es muy estrecha; de hecho, la desviacion estandar es la ralz cusdrada de la varlanza, Obsérvese que la varianza, al estar elevada al cuadrado, pro- porciona tnidades cuadradas, mientras que la desviacion estandar propor- ciona las unidades en las que se encuentran los datos originales. Ello es una ventaja de la desviacién estandar respect a la varianza, y por ello es mas facil de interpretar UN CASO DONDE LA DESVIACION ESTANDAR Y LA VARIANZA SON IGUALES A CERO Silos datos de un conjunto son todos iguales, la desviacion de los datos respecto a la media son iguales a cero y por tanto, también lo sera la va- rianza y la desviacién estandar. Veamos el caso de un alumno que durante un semestre obtuvo sdlo 8 de calificacién en cada materia. Esto es, 8, 8, 8, 8, 8 (figura 3.12) calficaciones Figura 3.12 PTE TEC LRT Lely Tiempo de espera en el cine. Una costume recente en los cines es mostrar anuncios comerciales y cortos ‘en a pantalla antes de comenzar la pelicula. El tempo de espera para ‘una pelicula es la ciferencia entre el tiempo de comienzo anunciado y el ‘tempo real en que comianza la pelicula, Disefien una investigacin en la que intervenga todo el grupo para obtener datos de los tempos de espera de cines de dos compatias de cine diferentes.

You might also like