You are on page 1of 35
Capitulo MEDIDAS DE POSICION Y DE VARIABILIDAD Hemos decidido unir el estudio de estas dos medidas en un solo capitulo para resaltar el hecho de que estas medidas en el andlisis estadistico se consideran siempre conjuntamente, ya que como veremos adelante la simple determinacion de una medida de posicién no es suficiente para tener una idea precisa de lo que dicha medida esta expresando. Antes de abordar el tema es conveniente que se hagan algunas precisiones sobre la necesidad de considerar este tipo de medidas. Los métodos graficos tienen como funcion principal hacer que el lector aprecie de manera répida como estan situados los datos. Sin embargo, estas técnicas graficas presentan limitaciones en cuanto se refiere a descripcién y andlisis de un conjunto de datos. Al respecto, gcémo puede usted discutir con un grupo de personas sobre determinados datos de manera verbal? Por otra parte, las técnicas graficas (histogra- mas} no son apropiadas para hacer inferencias (que generalmente es el fin perseguido al analizar unos datos-muestra) aunque si pueden ser el punto de partida para algunos procesos inferenciales, particularmente en lo que tiene que ver con la forma de la distribucién de la poblacién. El MEDIDAS DE POSICION La que aqui vamos a denominar medida de posicion, algunos autores la denominan medida de tendencia central; pero este nombre estd entrando en desuso y por ello usamos el primer nombre citado. Las medidas de posici6n forman parte de las denominadas medidas descriptivas méricas (las otras son las de variabilidad, Sesgo y curtosis) las cuales se clasifican en pardmetros cuando se calculan a partir de la poblacién total- y en_estadisticas =cuando se calculan a partir de los datos de una muestra Una medida de posicién es un numero que se toma como orientacién para) referirnos a un conjunto de datos. Este ntimero, para que sea itil y nos indique lo | - 33 34 Estadistica para las ciencias administrativas que nos interesa conocer sobre la caracteristica estudiada, debe ser escogido de manera tal que se cumpla dicho propésito; por ello, suele decirse quefes una medida representativa de un conjunto de datos y asi mismo a que existan varias alternativas ra una medida de posicion. jidas de posicién también se les conoce con el nombre general de ero debido al empleo con otras connotaciones que se le da al término en el lenguaje popular (es frecuente escuchar expresiones como: "este programa de television esta dirigido al televidente promedio"), algunos estadisticos 3.1.1 La media aritmética La media aritmética o simplemente media es la medida de posicién_mas.utilizada. A menudo el estudiante calcula el promedio de sus notas al final del semestre. La media aritmética representa el centro fisico del conjunto de datos y se(define comola suma de [os valores observados, dividide por el total de observaciones! De una manera formal decimos que si Xj, X. ..., % SON n observaciones numéricas, entonces la media aritmética de estas n observaciones se denota y define de la siguiente manera: B-1) Nota. Para quienes estén familiarizados con el lenguaje “sumatoria” (} reconoceran que la media aritmética ¥ puede expresarse simbélicamente como Asi, por ejemplo, los diez datos 44, 59, 36, 55, 47, 61, 53, 32, 65, 51, tienen media aritmética 44 + 59 + 36 + 55 + A7 + OL + 53 + 32 + OF + 51 _ 503 _ gy 10 10 . Importante. Para una mayor efectividad en el calculo de la media y de otras medidas, se recomienda contar con una calculadora que en su funcionamiento incluya el modo “SD". Este tipo de calculadoras es de facil obtencién en el mercado. ”Xq SON Ni numeros Con Media X, entonces cada una de las diferencias d, = x, — se llama desviacién respecto de la Asi, por ejemplo, para los diez datos anteriores se tiene d, = 44 — 503 = —63, dy = 59 — 503 = 87, d, = 36 - 503 = —143,...dyo = 51 - 503 = 07. 7 La formula para la media dada en la ecuaci6n (3-1) corresponde al tipo de datos que llamamos discretos (no se han llevado a una tabla de frecuencias). Cuando se trata de datos agrupados (tabla de frecuencias) la media esté dada por fix + hy + (2 Medidas de posicion y de variabilidad 35 en donde f,, fy, ... f son las frecuencias de las clases y x1, X %, ... . X Son las marcas de clase; y n es el ntimero de datos. De la tabla 23 se tiene que la estatura media de las 50 obreras est dada por y —2 154) + 5 (57) + 9 (60) + 15 (63) + 12 (66) + 5 (69) + 2 (72) _ 3,159 50 50 = 638 $i se calculara la media directamente a partir de los datos que dan origen a la mencionada tabla, se encontraria que dicho valor es 63.2. Esta pequefia diferencia no es rara. En la mayoria de los casos es de esperar esta ligera diferencia entre la media aritmética calculada a partir de los datos no agrupados y la calculada de los datos agrupados (distribucién de frecuencias) ya que las partidas de cada clase no suelen estar distribuidas de manera simétrica a lo largo del intervalo. 3.1.2/Propiedades media aritméti Antes de analizar las propiedades de la media, y con el propésito de utilizar una escritura que nos permita referimos de una manera sucinta a tales propiedades, introducimos el simbolo sigma (2). Si x,, X,...,%, Son nntimeros, la suma de estos nimeros x, + x + %) + + Xq se expresa simbolicamente mediante la escritura >, , esto es, EX tyti.t x Asi, por ejemplo, si x, = 7? entonces, Baye LPa Pt Pere area r4 ae ot 164 25 a De la definicién de 3x, se derivan las propiedades siguientes 1. Six; = ¢lconstante) entonces, Bx, = Le=Le+etete+..t cane Asi, por ejemplo, &2 = 2+2+2+2+42 = 512) =10 2. Si ces una constante que multiplica a cada una de las observaciones x, X3, Xy... X,, entonces la suma de los n productos es igual a c multiplicado por la suma de las observaciones, esto es, 2% =e 23 B-4) Enefecto, Loy = oy tom t+ aH tt omady ty tyuttxb=edy 36 Estadistica para las ciencias administrativas 3. Si 1 Xa, Xr ss Xn Yin Yar Yau «+01 Yn SON dos sucesiones de nimeros entonces, Bln + y= Day + Dy, (35) La demostracién es como sigue, 2ey +o = tx + yi) + Oy + ya) + Og + 5) too Uy + In) = Ft tH tT tt tt Wd = By + Day En el caso de que se trate de diferencia, se tiene un resultado andlogo, como indicamos. en seguida. 4, SEX Xa. X50 Ny Y Viv Vou Yau «+++ Yq SON dos sucesiones de numeros entonces, 2 - yd = Bax - 2 (3-6) Conocidas estas reglas de la sumatoria, podemos examinar las propiedades de la media. Una de las mas importantes es que la suma de las desviaciones respecto de la media es igual a cero, esto es, Xa, + Diy - 9 = 0 (3-7) me lo que se demuestra asi: , . . Dixy — 2 = Dx, - Sx por (3-5) = Xx, - n¥ por (3-3) nx —n¥ = 0 Por (3-1) Otra propiedad importante de la media esla que establece lo siguiente: Si y, = a + bx, siendo a y b constantes entonces, yoat bx (3-8) En efecto, 2 = 2a + bx) = da + dbx =nat+b 2x por (3-3), (3-4), (3-5) Entonces, Dy, na + Dx, 2x, a 7 Suponga, por ejemplo, que existe la relacion y = 3 + 2x y que x toma los valores 1, 3, 5, 7, 6 9. Se tiene entonces: Medidas de posicién y de variabilidad 37 x y=3+2x 1 5 3 9 5 13 a 17 9 21 EI valor y, sin embargo, podemos calcularlo directamente a partir de la relacién y = 3 + 2xComoy = 3 + 2xentonces, por (3-3)7 = 3 + 2x = 3 + 2 (5) = 3 + 10 = 13. Se suele interpretar esta relacién al decir que la media no se altera por una transformacion lineal de escala. De esto se deduce, Si y; = bx, entonces 7 = bF Siy = a + x entoncesy =a + ¥ Por dltimo tenemos que Siw, = x, + y; entonces# = ¥+ 7 (3-9) Para demostrar esta relacién partimos de! hecho de que Zw = Buy t y= 2+ By por (3-5) Sw Sa +S, Ss Ey + yasi, W =~ =——~—— = La propiedad (3-9) se expresa al decir que la media de la suma es igual a la suma de las medias. En algunos casos cada uno de los ntimeros de la sucesi6n x), X.X3,. . . » Xp tiene una importancia relativa (peso) respecto de los demas elementos de la sucesién. Cuando esto sucede, la media esta dada por Wks + Wakr + WiXy t+ WaMe %, B-101 wtwt wt + | en donde x), %, 45, ..-. % Son los datos; yw), W2, W,,.... 1% Son los pesos respecti- vos La media calculada por la formula (3-10) se llama media ponderada y es utiliza- da, por ejemplo, cuando las calificaciones obtenidas por el estudiante son del tipo 38 Estadistica para las ciencias administrativas promedio ponderado que a su vez esta relacionada con la modalidad de asignacion de créditos a cada una de las asignaturas cursadas. Asi por ejemplo, si la asignatura A tiene 2 créditos y la asignatura B, 3 créditos > Entonces, para un estudiante que haya obtenido una calificacién de 4 en la asignatura Ay de 5 en la asignatura-B, la nota promedio (ponderada) esta dada por 214) +35) 8 +15 2+3 85 Observe que si las notas se hubiesen obtenido en el orden 5 para A y 4 para B, la nota promedio seria 205) + 34) lo+12 _ 22 243 5 5 5 +4 2 Ya que una medida de posicién se refiere al “centro” de una sucesién de obser- vaciones, deberia ser la medida que mejor representara los datos. Sin embargo, el sentido al que la media aritmética se refiera se pierde por la marcada sensibilidad que ésta tiene ante los valores extremos, como se vera. Suponga que se hace una encuesta de ingresos familiares en una idad de 1,000 familias. Entre estas 1,000 familias hay tres que tienen ingresos de $100,000,000; y hay 997 con ingresos de solo $500,000. El ingreso medio por familia es de $798,000, pero el 99.7% de estas familias tienen un ingreso por debajo de esta cuantia. Si bien en algunos casos la sensibilidad de la media puede ser deseable, en otros no. Por ello la estadistica nos proporciona otras medidas alternas a la media como son la mediana y la moda, que pueden ser mas adecuadas para describir la circunstancia que la mencionada media En cambio la media aritmética simple en ambos casos es = 45. Ejercicios [3.1] 1. Defina la media aritmética menos la frecuencia acumulada de la clase que antecede a la clase mediana (Fp) dividida por la frecuencia de la clase mediana (f,), multiplicada por la longitud del intervalo de la clase mediana (c). En f6rmula, el método da G- F, G12) i + Limite (real) inferior de la clase mediana NGmero de datos | = Frecuencia acumulada de la clase que antecede a la clace mediana Frecuencia de la clase mediana ongitud del intervalo de la clase mediana caper La mediana de los datos de las estaturas de las trabajadoras (tabla 2.7) puede calcularse al utilizar la formula anterior de la manera siguiente: (Para mayor compren- sién reproducimos parte de la citada tabla). Clase | _Intervalo f m, F, I 53 - 55 2 54 2 2 56 ~ 58 5 57 7 3 59 — 61 9 60 16 4 62 — 64 5 63 31 5 65 ~ 67 12 66 B 6 68 — 70 5 69 48 7 1-3 2 2 50 = Determinamos la clase mediana: Asi que la clase mediana corresponde a la clase cuarta. A partir de esta clase se tiene: Ln = 615, = 25, Fm = 16, fh = 15, ¢=3 aul 2 Al reemplazar en (3-12) se tiene 7 25 - 16 _ 9 - we 615 + SES x3 = 615 + [x3 = 633 42 Estadistica para las ciencias administrativas Este valor se interpreta de la manera siguiente: “E150% de las obreras tiene una estatura por debajo de 62 pulgadas aproximadamente”. 3.1.4 La moda ‘A veces tenemos que clasificar datos en grupos que no son numeros. Por ejemplo, los empleados de una compafiia se pueden clasificar por el sexo, estado civil, ocupa- ciones, etc. En estos casos no tiene sentido hablar de media o de mediana del sexo de los empleados, de su estado civil o de sus ocupaciones, por cuanto la asignacin numérica que hagamos seré mas bien con propésito diferencial, pero carente de cualquier sentido cuantitativo. Sin embargo, si tiene sentido preguntar por ejemplo, cudl es la ocupaci6n de la mayoria de los empleados. Esta ocupacién se llama entonces la ocupacién modal. Por consiguiente pues, ademas de la media y mediana, es nece- sario introducir otra medida de posicién, que es la moda. La moda de una sucesién de datos se define como el valor que se da con mayor frecuencia. La moda se denota x. Los datos 2, 2, 5, 7, 4, 2 tienen moda x = 2 (datos unimodales). Los datos 2, 2, 5, 5, 5, 2, 3, 3 tienen moda & = 2 y X = 5 (datos bimodales). Los datos 2, 3, 4, 5, 6 no tienen moda. De lo anterior se deduce que una sucesién de datos puede tener sélo una moda, més de una moda 0 no tener moda. Cuando se trata de datos agrupados para hallar la moda debemos determinar antes que todo la clase modal en la cual se halla ésta. Dicha clase corresponde a aquella que presente mayor frecuencia (absoluta). Una vez localizada la clase modal, procedemos por interpolacién para determinarla. Esta interpolacién nos conduce a la siguiente formula para la moda: d, _] : k= ln t ge (3-13) Lm — = Limite real inferior de Ia clase modal (la clase de mayor frecuencia) d, — = Diferencia entre la frecuencia de la clase modal y la de la clase que la antecede d, = Diferencia entre la frecuencia de la clase modal y la de la clase que le sigue Longitud del intervalo de la clase modal Al aplicar la formula (3-13) a los datos de la tabla 2.7, tenemos que la clase modal corresponde a la clase cuarta. Por tanto, Im = 615, dh = 15-9 = 6 d= 15-12=3, c=3 Al reemplazar en (3-13) se tiene 6 643 La moda tiene la siguiente interpretaci6n: "La mayoria de las obreras tienen una estatura de 63.5 pulgadas aproximadamente’. R= 615 + x3 = 615 +2 x 3 = 635 Medidas de posicién y de variabilidad 43 3.1.5 Uso de la media, mediana y moda. Relacién entre estas medidas La media, mediana y moda se consideran las medidas de posicin més importantes por su sencillez y utilidad. No obstante, como ya sefialamos antes, no son aplicables en todos los casos. A continuacién daremos algunas ideas acerca del uso de cada una de estas medidas. La figura 3.1 muestra las posiciones de la media, la mediana y la moda en curvas simétricas y sesgadas (asimétricas). En caso de que la curva sea simétrica (figura 3.1.a) las tres medidas coinciden. En las curvas sesgadas (figuras 3.1.by 3.1.c) los tres valores difieren y tenemos asi que: En la figura 3.1.0 se ve que la distribucion es sesgada a la derecha — la cola mas larga de la distribucién queda a la derecha. La mediana tiene una posici6n tal que la mitad de la distribucién esta por encima de la mediana y la otra mitad por debajo. Como la cola larga esté situada a la derecha, la moda que sigue situada en el pico de la curva ha de llevarse a la izquierda de la mediana; es decir, hacia los valores inferiores de Ja distribucién. Como la media aritmética es la mas sensible a los valores extremos, seve llevada a la derecha de la mediana 0 sea hacia los valores altos de la distribucion. Ocurre todo Jo contrario cuando la curva es sesgada a la izquierda (véase figura 3.L.o). En cuanto a cual medida es la mas indicada para referirse a un conjunto de datos, esto sdlo puede ser resuelto una vez que hayamos observado la forma de la distribucion y del objetivo que se persiga con dicha medida. Si la distribucién es simétrica, o aproximadamente simétrica, no importa qué medida utilicemos. Si la distribucion es sesgada (asimétrica), puede ser mas adecuado utilizar la moda o la mediana, ya que la media no ofrece un buen comportamiento en estas circunstancias. Si la medida se utiliza para obtener un valor total, debemos emplear la media. Por ejemplo, si un avién de pasajeros esta disefiado para transportar 20,000 libras, es de esperar que Ileve 100 personas, si suponemos que el peso promedio, incluido el equipaje por persona, sea de 200 libras. Si lo que se desea es averiguar el gasto tipico de un hogar en alimentacion, debe utilizarse la moda. L. Moda [ Mediana F Media Figura 3.1.2 Figura 3.1.6 Figura 3.1 La posicién de la media, mediana y moda en distribuciones simétricas y sesgadas. Desde el punto de vista aritmético la media, la mediana y moda estén relaciona- das como se indica en la siguiente formula de aproximacién (valida para las curvas, moderadamente sesgadas). ®- R= 3-2 44 Estadistica para las ciencias administrativas EEI__oTRAS MEDIDAS DE POSICION Ademés de las medidas antes estudiadas (media, mediana, moda) existen otras que pueden ser mas practicas para precisar ciertas situaciones. Estas medidas son los cuartiles, los deciles y los percentiles. 3.2.1 Cuartiles Los cuartiles como los deciles y los percentiles son en cierta forma una extension de la mediana. Los cuartiles de una sucesi6n de datos ordenados son aquellos nameros que dividen la sucesién en cuatro partes porcentualmente iguales. Hay tres cuartiles, denotados usualmente Q,, Q;, Q;. El segundo cuartil Q,, es precisamente la mediana. EI primer cuartil Q,, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesion (ordenada); el tercer cuartil Q,, es el valor en el cual 0 por debajo del cual quedan las tres cuartas partes (75%) de los datos. Como los cuartiles adquieren su mayor importancia cuando contamos un numero grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia, nos limitaremos a presentar la formula para el cAlculo de los cuartiles cuando se trata de datos agrupados. Esta formula es como sigue: c k= 123 tee) 1, = Limite (real) inferior de la clase del cuartil k (Se determina de manera similar que en el caso de la mediana) n = Ntmerode datos Fi Frecuencia acumulada de la clase que antecede a la clase del cuartil k fe Frecuencia de la clase del cuartil k c = Longitud del intervalo de la clase del cuartil k Calculemos Q, y Q, para los datos de la tabla 2.7. Calculo de Q, Determinamos en primer lugar la clase del cuartil: Para determinar esta clase efectuamos la operacion k Go. tomando k = n= 50.El resultadoes ! (2) = 12.5. Ahora ubicamos la clase en donde la —— acumulada és igual 0: os este namero. Esto ocurre en la clase tercera. Por tanto, L, = 585, k= 1, n= 50 = 7% f=% C=3 Al reemplazar en la formula (3-14) tenemos: Este valor se interpreta de la manera siguiente: “Aproximadamente el 25% de las obreras tienen estatura por debajo de 60 pulgadas”, también puede decirse “apro- ximadamente el 75% de las obreras tienen estatura por encima de 60 pulgadas” Medidas de posicién y de variabilidad 45 C4lculo del tercer cuartil Para determinar la clase del tercer cuartil realizamos la operacion k p tomando. = 3yn = 50. Esto nos da 3755 y asi la clase del cuartil tres corresponde a la clase quinta L, = 645, n= 50, Fy = 31, R= 12, c=3 Al reemplazar en la formula (3-14) se tiene: 0, = 645 + 3 3 = 045 + 83x 3 = 66.13 EI valor del cuartil tercero se interpreta asi; “Aproximadamente el 75% de las obreras tienen estatura por debajo de 66 pulgadas”, también se puede interpretar como “aproximadamente el 25% de las obreras tienen estatura por encima de 66 pulgadas". 3.2.2 Deciles Los deciles son citrtos nimeros que dividen la sucesién de datos (ordenados) en diez partes porcentualmente iguales. Los deciles se denotan D,, D,,..., Dy, que se leen primer decil, segundo decil, etc. Para datos agrupados los deciles se calculan mediante la formula = + MOA 6 Ke 23,9 (3-15) i Ly = Limite (real) inferior del intervalo de la clase del decil k n = Numero de datos F, = Frecuencia acumulada de la clase que antecede a la del decil k fe = Frecuenciade laclase del decil k C= Longitud del intervalo de la clase del decil k Calculemos el decil D; para los datos de la tabla 2.7. Determinamos la clase del séptimo decil. Esto ocurre en la clase quinta (k (76 io) = 35). L, = 645, n= 50, F,= 31, f= 12, c=3 Al reemplazar en (3-15) obtenemos: 35 — 31 4 y= 645 + XS = O45 + AK 3 = 655 Este valor tiene la interpretacién siguiente: "El 70% de las obreras tienen estatura por debajo de 66 pulgadas”. Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el aprovechamiento académico y es asf que se acostumbra sefalar que la puntuacién 46 Estadistica para las ciencias administrativas de un estudiante esta por debajo, por ejemplo, del tercer cuartil o que esta por encima del noveno decil 3.2.3 Percentiles Los percentiles son, tal vez, las medidas mas utilizadas para propésitos de ubicacién © clasificacién de las personas cuando se atienden caracteristicas tales como peso, estatura, etc. Los percentiles son ciertos nimeros que dividen la sucesién de datos ordenados en cien partes porcentualmente iguales. Cuando los datos estdn agrupados en una tabla de frecuencias, se calculan mediante la formula (700) — Fi y= + Me ga 23, .., fe (3-16) Los elementos constitutivos de la formula tienen las interpretaciones andlogas que hemos indicado para los cuartiles y los deciles. Es facil ver que el primer cuartil coincide con el percentil 25; e] segundo cuartil con el percentil 50 y el tercer cuartil con el percentil 75. Calcular el percentil 80 para los datos de la tabla 2.7. Determinamos la clase del percentil 80. Esto ocurre en la clase quinta. Leo = 645, 1 = 50, Fao = 31, ho u 8 ° f ww Al reemplazar en (3-16) se obtiene que: Poo = 64.5 + HOF) x 3 = 045 + “Aproximadamente el 80% de las obreras tienen estatura por debajo de 67 pulgadas”’. 3.2.4 Proporcién La proporcion, designada por #, se refiere a la fraccién de la muestra que posee determinada caracteristica 0 propiedad. Asi, por ejemplo, si de los 80 trabajadores de una empresa 15 tienen mas de cinco afios de vinculacién; 20 mas de diez afios; 40 mas de quince afios y 5 mas de veinte afios. Entonces, Proporcién de trabajadores con mas de cinco afios = = 0.1875 (18.75%) Proporcién de trabajadores con mas de diezahos = = 0.25 (25%) Proporcién de trabajadores con mas de quince afios = = 05 (50%) Proporcién de trabajadores con mas de veinte afios = = 0.0625 (6.25%) Ejercicios 10. Medidas de posici6n y de variabilidad 47 Halle la mediana y la moda para las siguientes sucesiones de datos: a) 2,4, 5, 6, 6, 6,9, 10, 13, 15 bY 1, 3.5. 7, 7 7, 9 9, 10, 10, 11, 12 En qué caso coinciden los valores de media, mediana y moda? 3. Sean las observaciones: 1.2.233333444444,5,5,5,566 Construya una tabla de frecuencias y calcule la mediana y la moda por medio de las férmulas de estas medidas para datos agrupados. Qué se entiende por curva (distribucion) sesgada a la derecha o sesgada a la izquierda? Para un conjunto de observaciones dado, responda las siguientes preguntas: a) {Cudndo es mayor la media que la mediana? 1) Cuando es la media menor que la medtana? gEn qué-condiciones no tendria importancia tomar la media, mediana o moda como medida de posicién? Por qué? Sefale una situacion (no comentada en el texto) en que sea mas apropiado utilizar como medida de posicion: a) Lam a b} La moda Exponga una propiedad de la mediana que la haga mejor medida de posicién que cualquier otra medida. En la tabla que sigue se da la distribucién de frecuencia de,los puntajes de un test practicado a 120 trabajadores de una empresa, tendiente a determinar el grado de conocimiento que tenian sobre la organizacion de la misma. Calcule e interprete cada una de las siguientes medidas: a) Lamediana b) Lamoda ¢) E170° percentil ) Eltercercuartil Clase | Intervalo f 1 7 - 80 4 2 al ~ 85 7 3 8 — 90 10 4 91 - 95 B 5 96 — 100 3 6 101 = 105 29 7 106 - 110 2 8 = 5 un 2 to ~ 120 9 A partir de los datos del problema 10 del ejercicio 2.1, obtenga: a) La mediana by) E175° percentil ¢) Elprimercuarti d) Lamoda Una de las ventajas de la mediana y de la moda sobre la media aritmética, es que la mediana y la moda se pueden determinar aun en distribuciones de extremo abierto, las cuales hacen dificil el calculo de la media. Distribucién de extremo abierto es aquella en la cual no se 48 Estadistica para las ciencias administrativas especifica por lo menos un extremo, como es el caso que se presenta en la tabla 2.5. A partir de esta tabla calcule fa mediana y la moda. Explique por qué la media no puede ser calculada en este caso. 12. La media, la mediana y la moda se consideran como las més importantes medidas de posici6n por su amplia utilidad. Sin embargo, para algunos propésitos pueden ser més apropiadas otras medidas. Una es la llamada media geométrica, que se suele designar por (G), y que se define como la raiz n-ésima del producto de los nimeros que forman los datos. Esto es, GC Vanumrcoa Una de las aplicaciones més utiles de la media géométrica es promediar proporciones de variacion. Suponga, por ejemplo, que las ventas de una compafiia en expansién han aumentado de 200 millones en 1989 a 400 millones en 1990 y a 600 millones en 1991. El aumento fue del 200% de 1989 a 1991, lo que daria un aumento medio aritmético (media aritmética) del 100% por aio. Pero esta apreciacién es errénea, ya que la proporcién promedio de aumento por afio fue menor. Para obtener la proporcién promedio de aumento de las ventas deberé utilizarse la media geométrica. Como las ventas en 1990 fueron el doble que las de 1989, y las de 1991 fueron 1.5 veces las de 1990, la media geométrica G, de los dos valores 2.0 1.5 se calcularsaasi G = VQONIS) = 1.7325 La proporcién promedio de crecimiento de ventas es por tanto el 73.25% por ano en el periodo de los citados afos. Hallar la media geométrica de los siguientes conjuntos de nimeros. aad br 444 1, 4,5, 10,2 13. Otra medida de posicién, que a veces se utiliza, es la media arménica. Se le designa usualmente. con la letra H y se define como el inverso de la media aritmética de los inversos multiplicativos de los valores dados; esto es, . 4 I tatat ty Las aplicaciones de la media arménica las podemos ilustrar como sigue: suponga que una persona ha gastado $10,000 en cada una de tres tiendas diferentes. En la primera, compro articulos a $2,000 la unidad; en la segunda, compré a $2,500 la unidad y en la tercera, a $5,000 la unidad. ZCudl es el precio promedio que ha pagado por articulo? Los datos se expresan como “tantos articulos por peso” y lo que se quiere saber es “la cuantia pagada por articulo”. Seria erréneo calcular el precio promedio al calcular primero el precio promedio de cada compra y luego el promedio de los promedios. La respuesta correcta se obtiene al aplicar la media arménica asi: 30,000 3 — - ; : i 7 272727 En general, la media arménica se utiliza si las observaciones se expresan inversamente a como se expresa el promedio buscado. Mas concretamente, si el costo promedio por unidad del producto es lo que se busca, pero los datos estén expresados como tantas unidades de producto por determinada cuantia de costo, ha de utilizarse la media arménica. Halle la media arménica de cada uno de los conjuntos de valores del problema anterior. 14. suponga que la productividad de tres trabaladores A, 8, C, es como sigue: Trabajador | Produccion porhora A 30 unidades B 20unidades c 40 unidades Medidas de posicién y de variabilidad 49 Sitrabajan un dia de 8 horas, :cual es el tiempo promedio requerido por unidad de produccién? 15. En la siguiente tabla se da la distribucién de frecuencia de los pesos de 65 trabajadores de tuna fabrica a) Construya el histograma de frecuencia. Trace el poligono. 'b) Compruebe la relacién de aproximacién aritmetica entre la media, mediana y moda. MEDIDAS DE VARIABILIDAD Una vez localtzado el centro de la distribucton (datos) mediante la medida de posicion que hayamos seleccionado, el siguiente paso es determinar la variabilidad o disper- si6n. La variabilidad es esencial. Si no existiera ésta, la mayoria de las medidas estadisticas serian innecesarias. Varias distribuciones pueden presentar iguales promedios (media, mediana, moda) pero diferente variabilidad. Por ejemplo, dos departamentos de 10 trabajadores cada uno pueden tener idéntica produccién promedio, nueve unidades por hora, pero sus distribuciones pueden diferir como sigue: Departamento! Departamento Produccion Namerode Produccién Namerode porhora trabajadores porhora trabajadores 7 1 7 1 8 2 4 1 7 4 = 1 10 2 6 1 uw 1 9 2 12 1 3 L 4 I 5 1 Estas dos distribuciones no son ciertamente idénticas. Su diferencia esté en la dispersion de sus datos. Los trabaiadores del departamento { muestran relativamente Poca variacién en sus producciones horarias, mientras que los del departamento II tienen mayor variaci6n. Una medida de variabilidad es un numero que nos indica el grado de dispersion en un conjunto de datos. Si este valor es pequefio (respecto de la unidad de medida) entonces hay una gran uniformidad entre los datos. Por el contrario, un gran valor nos indica poca uniformidad. Cuando es cero quiere decir que todos los datos son iguales. La variabilidad, al igual que el centro de la distribucién, puede estudiarse 0 determinarse de distintas formas, al atender el fin perseguido en el estudio. Las 50 Estadistica para las ciencias administrativas medidas mas comunes son [a amplitud o rango y la varianza (desviacién estandar). Ademas de estas medidas se emplean, aunque con menos asiduidad, la desviacin media absoluta, el rango semi-intercuartilico y el rango entre percentiles. 3.3.1 La amplitud La medida de variabilidad mas elemental es la amplitud, que es la diferencia entre el valor maximo y el minimo de Jos datos (distribucién). E] hecho de que tome en cuenta slo estos valores hace de la amplitud una medida de variabilidad poco precisa. Formalmente, la amplitud se define asi: Si xy representa el dato mayor y x», el dato menor entonces la amplitud A, esta dada por A= Xm (3-17) Asi, por ejemplo, para la sucesién de datos 2, 3, 3, 5, 5, 8, 10, 12 setiene xy = 12 Y %m = 2; y asi la amplitud A = 12 — 2 = 10. Cuando se trata de datos agrupados, la amplitud se toma como la diferencia entre el limite superior del ultimo intervalo y el inferior del primero. Tenemos asi, que para las estaturas de las trabajadoras y al tomar en cuenta la tabla 2.7, la amplitud esta dada por A = 73 — 53 = La amplitud es facil de calcular y es una forma usual de describir la dispersion, especialmente cuando el objetivo de la investigacién es solamente determinar el alcance de las variaciones extremas. Por ejemplo, la marcha de las acciones en la bolsa de valores se suele conocer por las amplitudes, al citar los precios superior e inferior de cada sesién por cierto periodo de tiempo. Los meteordlogos suelen dar unicamente las temperaturas superior e inferior, en vez de informar sobre lecturas del dia cada hora. La amplitud, debido a la forma matematica que la define, es bastante sensible a los valores extremos que se puedan presentar en una sucesi6n de datos. Ademés, al no tomar en cuenta ninguna medida de posici6n, no informa nada acerca de cémo se comportan los datos respecto del centro. 3.3.2 Desviacién media absoluta La desviacién media absoluta es la media aritmética de los valores absolutos de las desviaciones respecto de la media o de la mediana. La mediana es preferida a veces para calcular la desviacién media porque se puede demostrar que la suma de los valores absolutos de las desviaciones respecto de la mediana es menor que la suma de las desviaciones respecto de cualquier otro valor. Sin embargo, en la practica las desviaciones se toman respecto de la media. Si la distribucién es simétrica, la media es igual a la mediana y as{ se obtiene la misma desviacién media, Six, Xp Xy)...4%, Sonn némeros (datos), la desviacién media absoluta respecto a la media, denotada DM, esta dada por (3-18) en donde d, son las desviaciones respecto de la media y| | es el signo del valor absoluto. Medidas de posicién y de variabilidad 51 ‘Suponga que se tiene la siguiente sucesion de nuimeros (datos): 3, 3, 5, 5, 5, 7. 7, 8, 8, 9. Para calcular la desviacién media absoluta (respecto de la media) procedemos como sigue: Calculamos la media aritmética. Esta nos da ¥ = 6. Calculamos el valor absoluto de las desviciones | = [3 — 6] = 3,|a] = |3 — 6| = 3, {ds| = [5 — 6] = bd, ie it 1 |ds| = 15 — 6) = 1, ole ee Ole 17] le “ar = I [dg] = 18 — 6] = 2,/do] = 8 — 6| = 2, Idol = 19 — 6] = Ahora tomamos la media acttétcn de los valores absolutos de las desviaciones cuyo resultado seré la desviacién media absoluta, B+3+ 1+) + 1+ 1+ 1+24243_ 18 10 io ~ 18 DM = Se ha establecido que si la distribuci6n tiene forma de campana y es simétrica, es decir, si es normal, como suele decirse (este concepto se tratara mas adelante), entonces el 57.5% de las observaciones quedan comprendidas entre # — DM y % + DM. Este resultado es valido aun en curvas moderadamente sesgadas y nos indica que més de la mitad de las observaciones quedan comprendidas a una desviacion media absoluta de‘la media en este tipo de distribuciones. Observe que esta medida de variabilidad ademas de incluir todos los datos también tiene en cuenta una medida de posicién que puede ser la media o lamediana. 3.3.3 Varianza y desviacion estandar La raz6n fundamental por la que no tomamos el promedio de las desviaciones (que seria lo mas natural) como medida de variabilidad es la de que, como se vio en 3.1.2, la suma de las desviaciones siempre arroja cero. Una de las alternativas para eliminar el problema es la de tomar el valor absoluto de las desviaciones y asi aparece la desviacién media absoluta; otra posibilidad es la de tomar el promedio de los cuadrados de las desviaciones y de esta manera aparece el concepto de varianza de la distribucion, la cual se denota y define de la manera siguiente: ty -F ” Al tomar el cuadrado de las desviaciones para el cdlculo de la varianza, las unidades en que estén dados los datos también se expresaran en unidades al cuadra- do. Esto puede no tener sentido. Por otra parte, al tomar el cuadrado, la diferencia teal entre el dato particular y la media se magnifica. Estas circunstancias condujeron a que se le hicicra una mouificacion a la anterior medida y se Hegd de esta manera al concepto de desviacién estdndar, que se denota y define como sigue: 2x 7 (3-20) 7 En la practica la desviacion estandar es la medida de variabilidad de mayor uso y lo mismo que se dijo de la media para su calculo, es conveniente tener a la mano (3-19) 2 52 Estadistica para las ciencias administrativas una calculadora que tenga modo “SD”. De otra manera habria que realizar operaciones dispendiosas. La desviacién esténdar también es conocida con el nombre de desvia- cién tipica. Halle la varianza y la desviaci6n estandar para los ndmeros (datos) que siguen: 3, 3, 5, 5, 5, 7, 7, 8 8, 9. - Calculamos la media. Esta media es ¥ = 6. = Calculamos los cuadrados de las desviaciones. (x, - # = 3B - OF = 9,0n - 2 = GB - 67 = 9, bs - x = 6 - OF = iy - P= - OP HL (x5 — #? = (5 — 6 = 1% — = (7 - 6 (xy — XP = (7 — 6 = Bly — 8? = (8 - OP = 4, (x — x = (8 — 6) = 4,(% — XP = (9 - OP = 9. Ahora, obtenemos la media aritm de los anteriores cuadrados que sera el valor de la varianza O+OFTHI+I+ IF 1+ 44449_ 40 7 10 10 =4, la desviacién estandar por su parte es s = V4 = 2. Al comparar este valor con el obtenido para la desviacién media absoluta para estos mismos datos, se nota que las dos respuestas son sustancialmente iguales. Con el propésito de ajustar algunas formulas y por razones de tipo teérico a la anterior expresién que hemos dado para la varianza se le hace una pequefia modifi- cacion que consiste en dividir la suma de cuadrados por(n — 1) en lugar de n. Hecho esto, la ecuaci6n (3-19) toma la forma: Dx — 9? im 7 La expresién (3-21) se conoce con el nombre de varianza corregida o cuasivarianza. ‘0 ga (21) a aaa, wt 9 = 444 la desviacién estandar (el cual no cambia de nombre) esté dada por S = V'4.44=2.1. En la calculadora las expresiones para la desviacién estdndar se diferencian en que para el primer caso aparece la letra sigma con subindice n y para el segundo caso aparece la letra sigma con subindice (n — 1). Para datos agrupados la varianza se calcula al utilizar la formula La varianza corregida para los datos anteriores es S? = ? (3-22) Sex — xP n fy, fy... . fe Son las frecuencias de clases y x;, x, ... , % son las marcas de clase. Al aplicar la anterior formula para los datos de la tabla 2.7 se tiene: 2154 — 63.8)? + 5(57 — 63.8)? + 9(60 — 63.8)? + 15(63 — 63.8)? g= + 12(66 — 63.8)? + 5169 — 63.8)? + 2(72 — 63.8)? = ss MS --———— Medidas de posici6n y de variabilidad 53 — 192.08 + 231.2 + 129.96 + 9.6 + 58.08 + 135.2 + 134.48 _ 8906 30 om = 17.812 ‘A su vez la desviaci6n estandar esté dada por s = V17812 = 4.22. Algunas propiedades de la varianza y de la desviacién esténdar son: 1. Six, Xp Xs) ..., X_ SON N nGmeros (datos) con media X entonces, ga eg (3-23) n La demostracién es como sigue: Sx — 9 = Dy, — 2% + 2) (Al desarrollar el cuadrado} it mt = Zax — 28 Dx, + nF (al distribuir la sumatoria) — nk + n® (nx = Dx) im a Por consiguiente, Sew ¥ Se, — a de, —% n a a Laanterior formula para la varianza puede resultar util para su cdlculo en algunos casos. 2. Sean Xy, Xp, Xs... Xn ¥ Yu Yo Yy, «.. 4 Yq dos sucesiones de ndmeros rela- cionados entre si por: =at bX, Entonces, Sy = bs (3-24) Al ser Sy, 5; las desviaciones estandares de X y Y respectivamente. La demostracién es sencilla. Como Y = a + bX, se tiene segin (3-8) que = a+ bx 54 Estadistica para las ciencias administrativas Por consiguiente Y¥, — Y= a + bX, — (a + BR) = bX, — bX = b (x, - ®) Al elevar al cuadrado ambos miembros de la igualdad se tiene (¥, — YP = bP (x, — XP La suma de cuadrados de las desviaciones de Y respecto de su media es Su - We byard — x i Por tanto, Su,-m or Six, - xP Esto es, Fy = BP y sy = by (3-25) Observe que la constante a no afecta la desviacion estandar de Y. Esto es debido a que cuando se adiciona una misma constante a cada observacién de una sucesién, la media aritmética de la sucesién resulta aumentada en el mismo namero. Por tanto, toda desviacién respecto de la media permanece invariable, y la desviacién estandar no se afecta. El siguiente ejemplo bastara para aclarar este punto. ‘Suponga que hay la relacion Y = 3 + Xy que X tome los valores |, 3, 5, 7, 9. Seguin esto, ¥ toma los valores 4, 6, 8, 10, 12. Como el valor de Xes U+3+5+7+9 5 a? Entonces la varianza de X es a ERE RE RES % 2X _ fp PHF t Pe PsP 2 18 p25 5-8 (4+ 6+ 8+ 10 + 12) 5 Como el valor de ¥ es = 8,lavarianzade Y es s —64= 72-64 = 8 z¥ 2+ e+ s+ 02+ 1P 2, _ 360 -F = g = 20 7 5 5 que es la misma varianza de X a pesar de haberse agregado la constante 3 a cada valor de X. Pero si existe la relacion Y = 3 + 2X, entonces la varianza de Y es igual a la varianza de X multiplicada por el cuadrado del coeficiente de X, 0 sea 2? = 4. El cAlculo que sigue permite ver lo siguiente: Medidas de posicién y de variabilidad 55 Calculo de la varianza de Y Es decir, que la varianza de Yes igual a la varianza de X que es 8 seginn lo calculado, multiplicado por cuatro, que es el cuadrado de 2, el coeficiente de X. De lo anterior es facil deducir las propiedades siguientes: Si Y = a — bX,entonces sy = |b] s, (3-26) Si Y = bX, entonces sy = |b] s (3-27) SiY = a + X,entonces s, = s (3-28) — La formula (3-9) muestra que si W + Y, la media de W, o sea W, es igual a X + Y. Es natural preguntarse si es cierto que si W = X + Yentonces sy =Sx + S. Veremos primero que la respuesta a esta pregunta es negativa. Mm t o Sw = 2A, — WP $ Moy+ yy - e+ OP por (3-9) IL n 21, - + 0, — HP + Duy - FP? + 20K,- uy -— H+ 1% - WI is! I 7 Su, 9 ++ Siy- 72 +2 Sexy-Ry- 7 a na me 56 Estadistica para las ciencias administrativas 2% = et 8+ 2K Ry -H (3-29) im f_ 7 Sy = VS + hy HT BK RUG A int E| ultimo término de (3-29) consta de dos factores, 2 y 3 (Xx, — FWY, — ¥) a EI Ultimo tiene gran importancia en el andlisis estadistico y recibe el nombre de covarianza muestral de X y Y; se la designa cov (X, ¥). Esto es, 24x, — Xn, -¥) (3-30) cov) = De manera que la varianza de la suma X + Yes igual ala suma de las varianzas de Xy de Ymas dos unidades de la covarianza. En capitulos posteriores retomaremos el tema de la covarianza cuando tratemos otros conceptos, particularmente el de variable aleatoria. : Es bueno aclarar que aunque la varianza puede calcularse respecto de cualquier numero (particularmente una medida de posicién), se prefiere la media aritmética porque con ésta se puede demostrar que la varianza toma su valor minimo y por tanto asi la desviacién estandar, cuando se calcula respecto de la media aritmética Es decir, que si se utiliza la desviacion estandar para medir el grado de error cometido al conjeturar el valor de alguna medida de la distribucién, entonces la magnitud de ese error sera minima si se conjetura partiendo de la media aritmética. 3.3.4 Rango seml-intercuartilico y entre percentiles Ademas de las medidas de variabilidad ya estudiadas (amplitud, desviacisn media absoluta, varianza y desviacién estandar), existen otras medidas que pueden ser de mayor utilidad y de mejor interpretacién en algunos estudios que las ya citadas. Estas medidas son ei rango semi-intercuartilico y el rango entre percentiles. El rango semi-intercuartilico, se denota y define de la manera siguiente: Q, Q= 25 (3-31) en donde Q, y Q, corresponden al primer y tercer cuartil respectivamente. Asi, por ejemplo, al partir de los valores de estos cuartiles hallados en la seccién 3.2.1 quese refieren a las estaturas de 50 obreras, los cuales fueron Q, = 60.33 y Q = 66.33, entonces de acuerdo con (3-31) se tiene Q = a . = 3 comoelrango semi-intercuartilico de las estaturas de estas obreras. El rango entre percentiles 10 — 90se toma como igual a la diferencia entre el percentil 90° y el percentil 10°. Se denota Pio — 90, esto es, Pro - 90 = Poo - Pi (3-32) Medidas de posicién y de variabilidad 57 De la tabla 2.7 se tiene, Py = 69.7 y Pro = 573 y asi, Pro — 99 = 69.7 ~ 573 = 124 Existen algunas relaciones entre distintas medidas de variabilidad. Una muy utilizada es la que se da entre la amplitud y la desviacin estandar, la cual establece que "la amplitud es aproximadamente igual a cuatro veces la desviacion estandar’. Para verificar la citada relacién totnaremos los datos que se dan a continuacién, los cuales corresponden a los puntajes obtenidos por 30 aspirantes a ocupar un cargo de direccién y que para tal propésito presentaron un examen de conocimiento. Los resultados fueron los siguientes: 120, 121, 112, 113, 123, 132, 157, 132, 157, 118, 119, 115, 150, 121, 138, 107, 104, 140, 109, 113, 106, 129, 134, 121, 109, 102, 123, 116, 110, 121 La amplitud esta dada por A = 157 — 102 = 55 y la desviacién esténdar por s = 13.8.Asique,4s = 4 (13.8) = 55.2 que es aproximadamente igual a 55 que es el valor de la amplitud. Otra relacién de importancia es la que existe entre el rango semi-intercuartilico y la desviacién estandar; esta relacién dice que “el rango semi-intercuartilico es apro- ximadamente igual'a 2 de la desviacion esténdar’. La comprobacién de esta relacién la encontramos en los datos de las estaturas de las obreras que venimos analizando y para los cuales hemos obtenido que la desviacién estandar s = 4.22 y el rango semi-intercuartilico Q = 3. De este modo, tenemos quei2) s= 2) (4.22) = 2.8 que es aproximadamente igual 3 que es el valor del rango semi-intercuartilico. Como sucede con cualquier tipo de aproximacion, ésta puede ser buena o mala, seguin las caracteristicas particulares que posean los datos. En el caso que nos ocupa, tanto para la amplitud como para el rango semi-intercuartilico, cuando los datos son bastante simétricos, ambas aproximaciones son bastante buenas. Ejerciclos [33 1. Entre las medidas de variabilidad esta la amplitud. a) Cudles son las desventajas de la amplitud como medida de variabilidad? by) gPor qué se la utiliza a veces a pesar de sus desventajas? 2. Entre las medidas aproximadas de variabilidad se encuentra la desviacién media absoluta. a} ¢Cudlesson las desventajas de la desviacién media absoluta como medida de variabilidad? b) I'. En un examen de estadistica 30 estudiantes obtuvieron las siguientes notas: 4.2, 4,2, 48, 4.7, 4.4, 3.9, 4.5, 3.1, 3.4, 4.6, 4.4, 4.6, 3.6, 1.9, 4.4, 4.1, 4.6, 4.2, 4.1, 45, 25, 4.0, 4.1, 4.0, 3.6, 4.9, 3.6, 3.9, 45, 3.5. a) Tome k = 2 ycalcule x — ks y X + ks. b) Utilice la regla de Shebyshev para predecir el porcentaje de datos que quedarén incluidos entre ¥ — ke y ¥ + ks ¢) Calcule este porcentaje directamente. En primer lugar, calculamos la media y la desviacién estandar. El célculo de estas medidas nos da ¥ = 4.03 y s = 0.66. Ver suplemento IV para la demostracién de la regla (teorema) de Shebyshev. 62 Estadistica para las ciencias administrativas a. X — ks = 4.03 — 2 (0.66) = 403 - 132 = 271 y ¥ + ks = 4.03 + 2(0.66) = 4.03 + 132 = 535. b. De acuerdo con la regla de Shebyshev, por lo menos el (1 — 4 ) 100% = 75% de los datos quedan comprendidos entre 2.71 y 5.0 (que es la nota maxima). c) Al hacer el conteo directo encontramos que hay 28 datos del total de 30 compren- didos entre 2.71 y 5.0, lo que representa el +t Xx 100% = 93%. En la practica el porcentaje real de datos que quedan comprendidos en el intervalo supera la cota minima que establece Shebyshev. A veces el propésito es determinar qué intervalo se debe escoger para que en €ste quede comprendido determinado porcentaje de datos. Por ejemplo, cqué valor k debe escogerse para que en el intervalo quede el 50% de los datos como minimo? Eneste caso, hacemos (1 — ' ) = 05,entonces $ = OS5yasik = 2y k= 14. Cuando los datos corresponden a distribuciones simétricas en forma de campana (monticular) la regla de Shebyshev nos da resultados mas precisos, y tenemos asf: ~ El 68% de los datos (4rea) quedan comprendidos entre p — o y » + a. Véase figura 3.2." Boo Hh wte Figura 3.2 Porcentaje de drea comprendida entre uz - 0 y + 9. — El 95% de los datos (area) quedan comprendidos entre » — 20 y » + 20. Véase figura 3.3. na rn m +o Figura 3.3 Porcentaje de érea comprendida entre » — 20 y wu + 20. ~ E199,75% de los datos (rea) quedan comprendidos entre u — 30 y + 30. Véase figura 3.4 \ Utilizamos las letras uy o en lugar de Zy sporque nos referimosa los valores poblacionales (pardmetros) y de variabilidad 63 B30 “ +30 Figura 3.4 Porcentaje de drea comprendida entre p — 30 y w + 30. Una fabrica de productos comestibles ha fijado el peso promedio de cierto alimento empaquetado en 450 gramos, con una desviacion estandar de 12 gramos. La curva que representa estos pesos tiene forma monticular; qué proporcién de paquetes presenta: a) mas de 462 gramos b) mas de 474 gramos c) entre 414 y 486 gramos Aplicamos la regla de Shebyshev para estos casos y tenemos que para al «+ ko = 462 quealreemplazar nos queda 450 + (12) k = 462. Aldespejark tenemos k= Lyasi: ~ El 16%de los paquetes presentaran un peso superior a 462 gramos. Véase figura. 450 462 Igualmente se tiene k = 2, al despejarlo de la ecuacién 450 + (12) k = 474y asi: : — El 2.5% de los paquetes tienen peso por encima de 474 gramos. Véase figura. 450 474 Finalmente, para la parte c) hay que resolver las dos ecuaciones 450 — (12) k = 414y 450 + (12) k = 486, dandonos el valor k = 3; de acuerdo con la regla de Shebyshev podemos decir que: 64 Estadistica para las ciencias administrativas — £199,75%de los paquetes presentaran un peso entre 414 y 486 gramos. Véase figura. 414 EE OTRAS MEDIDAS DESCRIPTIVAS ‘Ademas de las medidas de posicién y de variabilidad, en el andlisis descriptivo se hace un estudio de la forma como se distribuyen los datos. Las medidas que se emplean para este propésito son el coeficiente de sesgo y el coeficiente de curtosis. 50 3.5.1 Coeficiente de sesgo El coeficiente de sesgo es un nimero que mediante su signo podemos determinar si los datos (la curva) tienen distribuci6n simétrica o sesgada. El coeficiente de sesgo se denota y define para datos agrupados, como sigue: Me f(x, — RP in i cs = (3-35) i en donde f, son las frecuencias de clases, x; las marcas de clase, ¥es la media aritmética y sla desviaci6n estandar. El coeficiente de sesgo se interpreta del siguiente modo: SiCS = 0 ==> Los datos (la curva) se distribuyen de manera simétrica, como se ilustra en la figura 3.5. Figura 3.5 Curva de frecuencia con CS = 0. SiCS > 0 => Los datos (la curva) son sesgados a la derecha, como se ilustra en la figura 3.6. Figura 3.6 Curva de frecuencia con CS > 0. Medidas de posici6n y de variabilidad 65 Si CS < 0 => Los datos (la curva) son sesgados a la izquierda, como se ilustra en la figura 3.7. Figura 3.7 Curva de frecuencia con CS < 0. ‘Si tomamos los datos de la tabla 2.7, tenemos que de acuerdo con la formula (3-35), el coeficiente de sesgo es: 2 (54 — 63.8)? + 5 (57 — 63.8)? + 9 (60 — 63.8) + I5 _ (63 — 63.8) + 12 (66 — 63.8)? +5 (69 — 63.8)? + 2 (72 — 63.8)°/50 _ 7 42 7 Este valor del coeficiente de sesgo nos indica que la distribucién de las estaturas de las obreras es un poco sesgada a la izquierda. cs -0.54 3.5.2 Coeficiente de curtosis El coeficiente de curtosis es un numero cuya magnitud nos indica si los datos se distribuyen simétricamente de forma normal (curva mesocurtica),mas empinados que la curva normal (curva leptoctrtica) o mas aplanados que la curva normal (curva platicartica). EI coeficiente de curtosis se denota y define de la manera siguiente, para datos agrupados: A Shy - 2in k= (3-36) en donde f son las frecuencias de clase, x;son las marcas de clase y Zla media aritmética. El coeficiente de curtosis se interpreta de la manera siguiente: Sik = 3 => Los datos (la curva) presentan forma de una normal estandari- zada, como se muestra en la figura 3.8. El numero 3 se deduce de manera te6rica en estudios de estadistica matematica Figura 3.8 Curva de frecuencia con k Sik > 3 => Los datos (la curva) se presentan mas empinados que los de la normal estandarizada. Véase figura 3.9. 66 Estadistica para las ciencias administrativas Figura 3.9 Curva de frecuencia con k > 3. Sik <3 => Los datos (la curva) se presentan més aplanados que los de la normal. Véase figura 3.10. Figura 3.10 Curva de frecuencia con k < 3. El coeficiente de curtosis para los datos de la tabla 2.7 es 254 — 63.8)* + 5(57 — 63.8) + 960 — 63.8) + 15(63 — 63.8)* + 12166 — 63.8)" + 5(69 — 63.8) + 2(72 — 63.8)4/50 422" Este valor de k nos indica que los datos se distribuyen de manera un poco aplanada. Ejercicios [3.4 1, Halle el coeficiente de variaci6n para los siguientes datos: k= = 277 2, 4, 5, 6, 6,9, 10, 13. N Halle el coeficiente de variaci6n para los datos agrupados dados en el problema 15, ejercicio 3.2. 3. Una persona tiene una estatura de 175 cm; la estatura promedio de la poblacién es 170 cm ‘con una desviacién esténdar de 5 cm. Esta misma persona pesa 70 kg; el peso promedio de la poblacién es de 68 kg con una desviacion estandar de 5 kg. cEn qué caso esta persona ocupa tun puesto relativamente mayor? 4. Parael problema 3 determine cual de las dos caracteristicas presenta mayor variabilidad relativa 5. La demanda diaria en unidades de un producto durante 30 dias fue: 38. 35. 76. 5R. 4, 59. 67. 63. 33. 69. 53. 51. 2R. 25. 36. 32. 61. 57. 49. 7R. AR. 42. 72. 52. 47, 66, 58, 44, 44, 56. a) Tome k = 15 y calcule ¥ - ks, 7 + ks b) Utilice la regla de Shebyshev para predecir el porcentaje de datos que quedarén compren- didos entre ¥ - ks y ¥ + ks €) Determine el porcentaje exacto por conteo directo 6, Suponga que los salarios de 10,000 empleados oficiales tienen forma monticular con media $50,000 y desviacién estandar $4,000. Halle la proporcién de empleados que tienen salario: 10. Medidas de posicién y de variabilidad 67 {al Por debajo de $46,000 b) Por encima de $58,000 ¢)_ Entre $38,000 y $62,000 Para el problema 5, determine el valor k para que en el intervalo de extremos ¥ — ks y ¥ + ks quede al menos el 80% de los datos. ‘Suponga que X representa ciertos valores con media (muestral) X y desviacién s. Lene los espacios en blanco. a) Porlo menosel 99% de los valores de Xquedan dentrode esténdares a partir de la media 1b) Por lo menos el 80% de los valores de X caeran dentro de esténdares a partir de la media ¢} Alo mas el 15% de los valores de X caeran a més de estandares a partir de X d) A lo mas el 50% de los valores de X quedaré a mas de esténdares a partir de X desviaciones desviaciones desviaciones desviaciones €) Por lo menos % de los valores de X cumplirin la desigualdad |x ~ | < 2s Alo més % de los valores de X cumplirén la desigualdad |x - X| > 3s Celuule el weficiente Ue seagy y el eueficicnte Je curtusis para tus datu> del problema 13, Calcule el coeficiente de sesgo y el coeficiente de curtosis para los datos del problema 9, ejercicio 2.1

You might also like