You are on page 1of 48

Medidas de Tendencia Central

Nos indican un valor representativo del grueso de los datos, de
la referencia de los mismos –un valor central.
Ejemplo: con las calificaciones 4,7,5,6,5,4,5,5,5,6,5,4,4,
es claro que (a ojo) están en torno a cinco, que podría ser
tomado como índice de tendencia central.

Veremos primero los 3 índices de tendencia central más
comunes (moda, media y mediana).
Después veremos otros índices que han sido propuestos.

Media aritmética

Fórmula:
X 
 X i

n
Simplemente se trata de sumar todos los valores y dicha
cantidad se divide por el número de valores que tengamos.

Si tenemos los datos: 4,6,5,3,7
La media será (4+6+5+3+7)/5=4

Nota: se pueden emplear medias aritméticas
ponderadas. Pensemos que hay 2 datos, uno (5) pesa
0,6 y el otro (6) pesa 0,4. Entonces, la media será
(5*0,6+6*0,4)/(0,6+0,4)=5,4

Media aritmética (I)

La media aritmética de un conjunto de datos es el cociente
entre la suma de todos los datos y el número de estos.

Ejemplo: las notas de Juan el año pasado fueron:

5, 6, 4, 7, 8, 4, 6 Hay 7 datos
que suman 40

La nota media de Juan es:
5  6  4  7  8  4  6 40
Nota media =   5,7
7 7

Media aritmética (II)

Cálculo de la media aritmética cuando los datos se repiten.

1º. Se multiplican los datos por sus frecuencias absolutas
respectivas, y se suman.
2º. El resultado se divide por el total de datos.

Ejemplo. Las notas de un grupo de alumnos fueron:
Notas Frecuencia Notas x Datos por frecuencias
absoluta F.
absoluta
3 5 15 129
5 8 40
Media   5,1
25
6 10 60
7 2 14
Total 25 129 Total de datos

la nueva media aritmética resultante será la original más la constante. la nueva media aritmética será la original por la constante. . -Si multiplicamos cada uno de los valores por una constante. -Minimiza la suma de diferencias en términos cuadráticos.Propiedades de la Media aritmética -La suma de diferencias (de todos los valores) respecto a la media es siempre 0 -Si sumamos una constante a cada uno de los valores.

3. observa que n es par.7.6. en el ejemplo de arriba era impar) .6.4.8. Mediana La Mediana (Mdn o Md) se define como el valor que tiene la propiedad de que el número de observaciones menores que él es igual al número de observaciones mayores que él.9 la mediana será 5 (la media aritmética entre los dos valores centrales. Por ejemplo.5.4.9 la mediana será 6 En la secuencia (ordenada) 2.7. en la secuencia (ordenada) 3.

El dato que queda en el centro es 65. 57. 63. La mediana La mediana de un conjunto de datos es un valor del mismo. 65. de 7 jugadores de un equipo de fútbol son: 72. la mediana es la media aritmética de los dos valores centrales. La mediana vale 65. tal que el número de datos menores que él es igual al número de datos mayores que él. 71. la mediana es:  64 2 . 72 2º. 72 1º. 71. 71. 65. 72. Ordenamos los datos: 56. 72. en kilogramos. 59. 59. 65. 63  65 Para el conjunto 56. Ejemplo: Los pesos. 59. 56. 72. Caso: Si el número de datos fuese par. 63. 63.

Propiedades de la mediana -No utiliza todos los elementos -Se puede calcular con datos ordinales -Se ve menos afectada por datos atípicos que la media aritmética. -Minimiza la suma de diferencias en valor absoluto (recuerda que la media aritmética minimizaba la suma de diferencias en términos cuadráticos) .

Ejemplo uso de la mediana Los 9 empleados de una nueva empresa viven al lado de la carretera en diferentes kilómetros: Núm. 3 2 1 2 1 Km 1 4 5 6 26 Dado que todos viajan en automóvil. Emp. ¿en qué lugar pondrías la empresa para minimizar tal costo? . y sabiendo que quieres minimizar el costo en gasolina.

6. La Moda Se define como Moda (Mo) aquel valor de la variable al que corresponde la mayor frecuencia.6.5.6.4.3.5 la Mo=6 Propiedades: -No es necesariamente única (puede haber varias modas) -Se puede calcular con datos en escala nominal -En su cálculo no intervienen todos los elementos . En el conjunto de datos: 4.

es el 41. el dato con mayor Lo compran 35 personas frecuencia absoluta. Una zapatería ha vendido en una semana los zapatos que se reflejan en la tabla: Nº de calzado 38 39 40 41 42 43 44 45 Nº de personas 16 21 30 35 29 18 10 7 El número de zapato más vendido. La moda La moda de un conjunto de datos es el dato que más se repite. . Ejemplo. La moda es 41.

¿Cuál elegir? Moda Media Mediana .

. la media es un estadístico muy poco resistente a cambios en los datos. Resistencia y robustez Estadísticos resistentes: Son aquellos que no se ven influidos (o solo ligeramente) por pequeños cambios en los datos. es un estadístico altamente resistente. en cambio. La mediana. dado que se ve influida por todos y cada uno de ellos. Evidentemente.

aunque pueden no ser el mejor estimador para ningún tipo concreto de distribución. La media no es un estimador robusto.Estadísticos (Estimadores) robustos (ESTADÍSTICA INFERENCIAL): Son aquellos estadísticos (estimadores) que funcionan bien para varios tipos distintos de distribuciones teóricas. si bien hay otros estimadores más robustos. La mediana es un estimador más robusto que la media. . son el “mejor compromiso”. Es decir.

. una media recortada al 40% en una secuencia de 10 datos implica no tener en cuenta ni los 4 valores menores ni los 4 valores mayores. Medidas robustas de tendencia central 1. Medias Recortadas Consiste en calcular la media aritmética sobre un subconjunto central del conjunto de datos. (p se expresa normalmente como porcentaje). no considerándose una determinada proporción p por cada extremo. Observar que la media recortada al 0% es la media aritmética. Por ejemplo.

9. 6. Medias Recortadas (cont) Calcula la media recortada al 5% de los siguientes datos: 3. 4. 8. 11 El valor debe ser 6. 5. 7. 4.11 Calcula la media recortada al 10% de los datos anteriores (da 6) . Medidas robustas de tendencia central 1. 5.

7. 8 y se calcula la media de los mismos En la media winsorizada. 5. 6. 5. 4. Así. 7. 4. 6. los datos 3 y 4 (los dos menores) y el 9 y 11 (los dos mayores) se sustituyen por 4 y 8 respectivamente. 5. 7. 8. 4. 5. 4. 5. Medidas robustas de tendencia central 2. 6. 4. en la media recortada a nivel 2 implicaría eliminar las dos puntuaciones mayores y las 2 menores: 3. 5. Media Winsorizada Es análogo a las medias recortadas excepto en que las puntuaciones eliminadas.9) . 8 y se calcula la media de los mismos. que será la media winsorizada a nivel 2 (debe de dar 5. 8. ya no lo son sino que se sustituyen por los valores menor y mayor que quedan para el cómputo de la media winsorizada. 9. 11 Y quedan los datos: 4. 8. Es decir.

Por ejemplo. si todos los datos están en el rango 200-1500 ms no se elimina ningún dato . Otros tipos de media en la que se recortan datos En muchas ocasiones lo que se hace es emplear un valor mínimo y uno máximo más allá del cual se eliminan los datos que sobrepasen tales valores. más de 1500 ms es demasiado lento. (Menos de 200 ms es demasiado rápido.Medidas robustas de tendencia central 3.) De esta manera. en experimentos de tiempo de reacción para discriminar palabras/pseudopalabras se pueden eliminar datos menores de 200 ms y mayores de 1500 ms.

Trimedia Es un índice de tendencia central que consiste en calcular una media aritmética ponderada de tres medidas. la Mediana (con peso doble) y el primer y tercer cuartil. el primer cuartil es 51. la mediana es 55 y el tercer cuartil es 63.Medidas robustas de tendencia central 4. Pensemos que en un conjunto de datos. La trimedia es: .

el estimador biponderado de Tukey. La constante es 1.Medidas robustas de tendencia central 5. el estimador M-redescendente de Hampel y el estimador en onda de Andrew. Otras medidas robustas El estimador-M de Huber. en el Estimador-M de Huber (Estimador M de posición): Las puntuaciones típicas que sean menores que una constante. Los casos que tienen los mayores valores absolutos tienen pesos tanto más pequeños cuanto mayor es su distancia respecto a cero. Estos estimadores se diferencian entre sí por el tipo de ponderación aplicada sobre los datos. . Por ejemplo. reciben un peso de 1.339. Cálculo: lo da el SPSS.

alguien puede tener una media de 5 con los siguientes datos (5. muestra menos variabilidad. 4. moda). Por ejemplo. Variabilidad En el punto anterior vimos las medidas de tendencia central (media. 6. Evidentemente el primer sujeto es mucho más consistente. Claramente. . 3. para saber cuán representativo es el valor de tal medida de tendencia central es necesario tener una medida de variabilidad. 1). 5. mediana. 9. 5) y otro tener una media de 5 con los datos (10. 5. 0.

¿qué nos queda..... i 1 Una segunda estrategia es emplear valores absolutos n X i 1 i X Esta es la llamada “Desviación Media”.. lo problemático es el uso de valores absolutos.¿Cómo podemos medir la variabilidad? Una primera estrategia sería emplear la fórmula n  X i X n  X X0 i 1 i El problema es que siempre vale cero..Es el primer paso para la varianza . pues? Emplear la suma de diferencias al cuadrado.

por ello se prefiere el uso de la “cuasivarianza” que es igual que la varianza excepto en que se divide por n-1 . Varianza n 2 Fórmula  X i X s 2 i 1 n Como veremos en el próximo semestre (Estadística inferencial). la cuasivarianza es un estimador insesgado de la varianza poblacional¨: n 2  X i X s  2 i 1 n 1 . la varianza es un estimador sesgado de la varianza poblacional.

Por eso. en estadística descriptiva se suele dar la media acompañada de la (cuasi) desviación típica. más que con la (cuasi) varianza. Desviación típica y cuasi desviación típica Fórmulas n 2 2  X X n i  X i X s i 1 s i 1 n n 1 Una ventaja obvia de la desviación típica sobre la varianza es que la desviación típica viene dada en las mismas unidades de medida que los datos originales (en la varianza las unidades están al cuadrado). NOTA: El SPSS cuando indica varianzas o desviaciones típicas. en realidad calcula cuasivarianzas y cuasidesviaciones típicas .

sabemos que Y a X . Ni la varianza ni la desviación típica se alteran cuando a los datos se les añade una constante a. La varianza y la desviación típica son valores esencialmente positivos. (observa que las diferencias sobre la media están al cuadrado) 2.Algunas propiedades de la varianza y desviación típica 1. Yi  a  X i Entonces.

sabemos que Y a X n 2 n 2 n 2  Y  Y    ( a  X )  ( a  X )    X i i i  X ) s y2  i 1  i 1  i 1  sx2 n n n Claro está que lo mismo se aplica a la desviación típica y a la cuasi varianza y la cuasi desviación típica . Yi  a  X i Entonces.

Si los datos se multiplican por una constante a cualquiera. 3. la desviación típica queda multiplicada por el valor absoluto de dicha constante. y la varianza por el cuadrado de dicha constante Yi  aX i Y  aX n 2 n 2 n 2  Yi  Y    aX i  aX  a2   X i  X ) s y2  i 1  i 1  i 1  a 2 sx2 n n n s y  a sx .

Aquí tenemos 9 rectángulos cuya altura es de 8 centímetros (y todos tienen la misma base). ¿Existe alguna variación respecto de su altura entre estos rectángulos? ¿Cuál es el promedio de la altura de estos rectángulos? 8+8+8+8+8+8+8+8+8 72 = =8 9 9 . 8 cms.

mide 6 centímetros? ¿Cuál es el nuevo promedio de estos 9 rectángulos? 8 + 8 + 8 + 8 + 10 + 8 + 8 + 6 + 8 72 = =8 9 9 . 10 cms 6 cms 8 cms. ahora de color azul.. mide 10 centímetros... El quinto rectángulo. ¿ha habido variación? . ¡el mismo promedio! Pero.. de color amarillo. El quinto rectángulo y el octavo rectángulo en un acto de rebeldía cambiaron su altura. y el octavo rectángulo.

tenemos 0+0+0+0+2+0+0–2+0 =0 Este valor nos parece indicar que ¡no ha habido variabilidad! Y sin embargo. Los otros rectángulos tienen cero diferencia respecto del promedio. Si sumamos estas diferencias de la altura respecto del promedio. y el rectángulo amarillo tiene –2 centímetros bajo el promedio. 10 cms 6 cms 8 cms. sabemos que hay variación!!!! . El rectángulo azul tiene +2 centímetros sobre el promedio. ante nuestros ojos.

. esto es de aquellos mediciones que estén bajo el promedio.89 9 9 . es elevar al cuadrado todas las diferencias. y luego sumar. 10 cms 6 cms 8 cms. Una forma de eliminar los signos menos de aquellas diferencias que sean negativas.. 02 + 02 + 02 + 02 + 22 + 02 + 02 + (– 2)2 + 02 = 8 Y este resultado repartirlo entre todos los rectángulos. es decir lo dividimos por el número de rectángulos que es 9 02 + 02 + 02 + 02 + 22 + 02 + 02 + (– 2)2 + 02 = 8 = 0.

De manera que se define 0.89 Observemos que las unidades involucradas en el cálculo de la varianza están al cuadrado.89  0. 10 cms 6 cms 8 cms. Se dice entonces que la varianza fue de 0. En rigor la varianza es de 0.89 centímetros cuadrados.943 La raíz cuadrada de la varianza se llama desviación estándar .

943 significa que en promedio la altura de los rectángulos variaron (ya sea aumentando. Es claro que esta situación es “en promedio”.943 centímetros. La desviación estándar mide la dispersión de los datos respecto del promedio . ya sea disminuyendo) en 0. puesto que sabemos que los causantes de la variación fueron los rectángulos quinto y octavo. Que la desviación estándar haya sido de 0. Esta variación hace repartir la “culpa” a todos los demás rectángulos que se “portaron bien”. 10 cms 6 cms 8 cms.

8 cms. 8 cms. 6 cms 4 cms ¿Cuál es la varianza y la desviación estándar de las alturas de los rectángulos? En primer lugar debemos calcular el promedio 8 + 4 + 8 + 8 + 10 + 8 + 7 + 6 + 8 = 7. 7 cms.44 9 Luego debemos calcular la varianza .8 cms. 8 cms. 10 cms 8 cms.

8 cms.562 + 0.44)2 + 0.562 + 0.44)2 + 0.562 + (-0.562 22.44 0. 8 cms.56 -0.562 + (-3.44 0.469 . 6 cms 4 cms 0.2224 = 9 9 Este es el valor de la varianza = 2. 7 cms.56 7. 8 cms.44)2 + (-1.44 Promedio 0.56 0.56 0.44 -1. 8 cms. 10 cms 8 cms.56 2.56 -3.562 + 2.

los rectángulos se desviaron más o menos (más arriba o más abajo) en 1. 8 cms. . en promedio. 469  1. entonces la desviación estándar es de.57 centímetros..469. 2. 8 cms.. 7 cms. 6 cms 4 cms 7.44 Promedio Si la varianza fue de 2. 8 cms.57 Lo que significa que. 10 cms 8 cms. 8 cms.

Amplitud total (AT) Es la diferencia entre los valores extremos AT  X max  X min Su ventaja es la sencillez de cálculo. 2. . La DM es poco frecuente encontrarla en la práctica. Desviación media (DM) n X i X DM  i 1 n El problema del empleo de la DM es la dificultad que tiene trabajar con valores absolutos. Otras medidas de variabilidad 1. el problema es que es únicamente sensible a los valores extremos (e insensible a los intermedios).

. se suele emplear cuando la mediana sea el índice de tendencia central. Coeficiente de variación (CV) Observa: Escala de razón… Indica el número de veces que la desviación contiene a la media: cuanto mayor es el CV mayor es la variabilidad y menor la representatividad de la media. 4. 3. Amplitud semi-intercuartil (Q) Está basada en el primer y tercer cuartil. Al no tener unidades de medida permite la comparación entre variables diferentes. lo que la hace un estadístico resistente Q3  Q1 Q 2 Se emplea relativamente en algunas áreas de la psicología.

5.7. 1.5. 0.9.4.5 Es la Mediana de 0.5) MEDA=1.5 .Medidas robustas de variabilidad 1. 0.5.5. 5. 1.6.11 (Md=5. La MEDA (Mediana de las diferencias absolutas frente a la mediana) MEDA  mediana X i  Md Ejemplo de cálculo: 3.5. 3.5. 2. 1.5.5.4. 2.8.5.5.5.

. La desviación pseudotípica Es un índice de variabilidad que permite estimar la desviación típica (que como sabemos es muy susceptible a la influencia de puntuaciones atípicas. Medidas robustas de variabilidad 2. como también ocurre con la media aritmética) que cabría esperar de la muestra si ésta perteneciera a una población en el que la distribución subyacente sea la normal.

es también fundamental saber la forma de una distribución para obtener una caracterización adecuada de los datos. . Si bien la obtención de tales medidas es clave para describir una muestra y efectuar inferencias sobre la población de origen. 4. Asimetría En los dos puntos anteriores hemos visto las medidas de tendencia central y las medidas de variabilidad.

. las distribuciones de los Tiempos de Reacción en casi cualquier tarea es asimétrica positivo).g. la media. Asimetría Si bien es fácil tener una idea de si la distribución es simétrica o no tras ver la representación gráfica (p. .. (Y la distribución tiene la misma forma a la izquierda y la derecha del centro) Si bien muchas distribuciones psicológicas se asume que tienden a ser simétricas y unimodales. la mediana y la moda coinciden. Recordemos que cuando la distribución de los datos es simétrica. es importante cuantificar la posible asimetría de una distribución. en muchos casos la distribución que encontramos es asimétrica (v.e. un histograma o un diagrama de caja y bigotes).

Examen difícil Salarios Asimetría positiva Tiempos de Reacción Moda Media Mediana Asimetría negativa Examen fácil Media Moda Mediana .

As será mayor que 0 Si la distribución es asimétrica negativa. Indices de asimetría 1. Está basado en la relación entre la media y la moda en distribuciones simétricas y asimétricas (ver diapositiva anterior): X  Mo As  sx Si la distribución es simétrica As será 0 Si la distribución es asimétrica positiva. As será menor que 0 . Índice de asimetría de Pearson Muy sencillo de calcular.

si bien esta vez se elevan los coeficientes al cubo n (X i  X) 3 n As  i 1 3 s x Si la distribución es simétrica As será 0 Si la distribución es asimétrica positiva. As será menor que 0 Desventaja: Muy influida por puntuaciones atípicas- . como la varianza. Indices de asimetría 2. Indice de asimetría de Fisher Está basado en la diferencia de los datos sobre la media. As será mayor que 0 Si la distribución es asimétrica negativa.

con la mediana también indicada. es interesante el uso de los diagramas de caja y bigotes. Colangelo y Buchanan. se mide el Tiempo de Reacción) con un grupo de controles y un grupo de personas con daño cerebral (afásicos). 3) un índice correspondiente a la calidad de información (“drift rate) . 5. asimetría. Cómo ver la tendencia. Perea. Lo que se medía era: 1) un índice de cuán conservador eran las personas en la tarea (“boundary separation”) 2) un índice correspondiente a procesos “no-decisionales” (“non-decision component”). La caja viene definida por el primer cuartil y el tercer cuartil. en el que se examinan ciertas características en una tarea de decisión léxica (decidir si un estímulo era palabra o no. etc). variabilidad y asimetría en un gráfico Si bien es posible emplear diferentes gráficos para evaluar la variabilidad (y tendencia central. Pero mejor veamos un ejemplo (Ratcliff. Brain & Cognition). 2004.

Cómo ver la variabilidad en un gráfico La Mediana es el trazo grueso dentro de las cajas (entre los cuartiles primero y tercero). Observar que los controles son claramente diferentes a los pacientes en “boundary separation” y en el “non-decision component”. mientras que hay bastante más solapamiento en la “calidad de información”. Las puntuaciones “atípicas” están presentadas individualmente (ver que hay dos tipos de datos atípicos). .

P25 P50 P75 En el caso del “non-decision component” (pacientes).Cómo ver la asimetría en un gráfico En el caso del “drift rate” (pacientes). la distancia entre el P75 y P50 es mucho menor que entre el P50 y el P25. la distancia entre el P75 y P50 es mucho mayor que entre el P50 y el P25. . lo que sugiere que hay asimetría negativa. lo que sugiere que hay asimetría positiva.