You are on page 1of 18

DEPARTAMENTO DE MATEMÁTICAS

MEDIDAS DE DISPERSIÓN PARA DATOS


AGRUPADOS Y SIN AGRUPAR
Una vez localizado el centro de la distribución de un conjunto de datos, el siguiente paso es
buscar una medida de la variabilidad o dispersión de los datos; como se mencionó
anteriormente, las medidas de tendencia central tienen como objetivo sintetizar los datos en un
valor representativo; como complemento, las medidas de dispersión nos dicen que tan
representativas son estas medidas de tendencia central como síntesis de la información; de
esta manera, las medidas de dispersión cuantifican la separación, dispersión, la variabilidad de
los valores de la distribución respecto al valor central como la media aritmética. Cuanto menor
es la dispersión, tanto mayor será la precisión del sistema de medición. Si los estadígrafos de
posición se relacionan con el concepto de exactitud, los de dispersión se relacionan con la
precisión de las técnicas.

La dispersión es importante porque:

• Proporciona información adicional que permite juzgar la confiabilidad de la medida de


tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es
menos representativa de los datos.

• Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser
capaces de identificarlos antes de abordar esos problemas.

• Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una
amplia dispersión de valores con respecto al centro de distribución o esto presenta riesgos
inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones
que tengan las dispersiones más grandes.

Ya que la dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo


medimos la variabilidad de una distribución empírica? Vamos a considerar sólo algunas
medidas de dispersión: el rango, el rango inter-cuartílico, la varianza, la desviación estándar y el
coeficiente de variación.
Medidas de Dispersión

EL RANGO O RECORRIDO ( R ):
Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin agrupar, el rango se
define como la diferencia entre el máximo valor (Xn ó XMax) y el mínimo (X1 ó XMin) en un
conjunto de datos, de manera más formal:

R = XMáx – XMín = Xn - X1
Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de 1er año, a saber: 18,23, 27,34 y 25.,
para calcular el rango o recorrido de la variable, se tiene que:

R = Xn – X1 = 34 – 18 = 16 años

Rango para datos agrupados


Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos de
clases abiertos podemos aproximar el rango mediante el uso de los límites de clases. Se
aproxima el rango tomando el límite superior de la última clase menos el límite inferior de la
primera clase, de manera más formal:

R= (lim. Sup. de la clase n – lim. Inf. de la clase 1)


Ejemplo:
Dada la siguiente distribución de frecuencia determinar el rango o recorrido:

P.M.
Clases ni fi Ni Fi
mi

7,420 – 21,835 14,628 10 0,33 10 0,33

21,835 – 36,250 29,043 4 0,13 14 0,46

36,250 – 50,665 43,458 5 0,17 19 0,63

50,665 – 65,080 57,873 3 0,10 22 0,73

65,080 – 79,495 72,288 3 0,10 25 0,83

79,495 – 93,910 86,703 5 0,17 30 1,00

Total 30 1,00

Página 2 de 18
Medidas de Dispersión

El rango de la distribución de frecuencias se calcula así:

R = (lim. Sup. de la clase n – lim. Inf. De la clase 1)

= (93.910 – 7.420) = 86.49

Propiedades del Rango o Recorrido:

• El recorrido es la medida de dispersión más sencilla de calcular e interpretar puesto que


simplemente es la distancia entre los valores extremos (máximo y mínimo) en una
distribución.
• Puesto que el recorrido se basa en los valores extremos, éste tiende a ser errático. No es
extraño que en una distribución de datos económicos o comerciales incluya a unos pocos
valores en extremo pequeños o grandes. Cuando tal cosa sucede, entonces el recorrido
solamente mide la dispersión con respecto a esos valores anormales, ignorando a los
demás valores de la variable.
• La principal desventaja del recorrido es que sólo esta influenciado por los valores extremos,
puesto que no cuenta con los demás valores de la variable. Por tal razón, siempre existe el
peligro de que el recorrido ofrezca una descripción distorsionada de la dispersión.
• En el control de la calidad se hace un uso extenso del recorrido cuando la distribución a
utilizarse no la distorsionan y cuando el ahorro del tiempo al hacer los cálculos es un factor
de importancia.

RANGO INTERCUARTÍLICO:
Teniendo en cuenta la principal desventaja del rango (toma en cuenta solo los valores
extremos), surge el rango intercuartílico, denotado por RI, su cálculo se limita a la diferencia
entre el tercer y el primer cuartil, es decir

Página 3 de 18
Medidas de Dispersión

Esto nos dice en cuántas unidades de los valores que toma la variable se concentra el
cincuenta por ciento central de los casos.

VARIANZA

Antes de presentar la definición de la varianza, consideremos el siguiente ejemplo numérico.


Considere los siguientes datos: 5, 17, 6, y 4 graficados tal como se observa a continuación.

Para estos datos tenemos que la media muestral es x =8, tal como se muestra en el gráfico.
Con base en el gráfico podemos observar la variabilidad de los datos con respecto a la media,
la cual podría ser cuantificada en términos de las distancias entre cada punto y la respectiva
media x . De este modo, si las mencionadas distancias son grandes podemos decir que hay
mayor variabilidad, caso contrario si éstas fueran pequeñas. Estas distancias están dadas por
las desviaciones de cada uno de los datos con respecto a la media, esto es xi - x ; definidas de
esta manera, observamos que la observación de la derecha produce una desviación positiva,
caso contraria con las que se encuentran a la izquierda; sin embargo, la suma de las
desviaciones es nula, tal como se puede observar en la siguiente tabla.

xi x xi - x
4 8 -4
5 8 -3
6 8 -2
17 8 9
Totales Σ(xi - x) = 0

Página 4 de 18
Medidas de Dispersión

De esta manera, nos interesa obtener una fórmula con la cual podamos cuantificar el “tamaño”
de la variabilidad de los datos con respecto a la media, con lo cual, sería deseable obtener una
fórmula basada en las desviaciones; una posibilidad para nuestro objetivo es considerar el
promedio de las desviaciones calculada en la tabla anterior, sin embargo, no es posible tomar
esta opción por cuanto la suma de las desviaciones son nulas, lo cual implicaría no existencia
de variabilidad en los datos, lo cual no es correcto. Puede mostrarse que la propiedad vista
numéricamente, esto es, que la suma de las desviaciones es nula, es una característica de la
suma de desviaciones. La demostración es como sigue: consideremos n observaciones x1, x2,
x3,…, xn, cuya media aritmética es x , de esta manera,

n n n n n
xi n n
(x i - x ) = xi - x= x i - nx = xi - n i =1
= xi - xi = 0
i =1 i =1 i =1 i =1 i =1 n i =1 i =1

De esta manera, para establecer la medida de variabilidad que nos interesa, se considerara la
suma de los cuadrados de las desviaciones, esto es,

n
(x i - x )2
i =1

De esta manera, a continuación presentamos la definición de la Varianza:

Definición:

La varianza de una población (denotada por σ2; σ es la letra griega sigma) de N


observaciones x1, x2, x3,…, xN, cuya media aritmética es µ, se define como el promedio de los
cuadrados de las desviaciones con respecto a su media m, es decir,

N
(x i - )2
σ2 = i =1

Recordemos que los valores poblacionales se denotan por letras griegas. De igual forma,
nótese que se ha usado la letra mayúscula N para denotar el número de elementos en la
población, es decir, el tamaño poblacional. Sin embargo, no siempre se tiene acceso al total de

Página 5 de 18
Medidas de Dispersión

elementos de la población, por lo que solo se dispone de una muestra de observaciones


tomadas de la población. En este caso, se debe usar la varianza de una muestra, tal como se
define a continuación:

Definición:

La varianza de una muestra (denotada por s2) de tamaño n: x1, x2, x3,… , xn, cuya media
aritmética es x , se define como el promedio de los cuadrados de las desviaciones con respecto
a su media x , es decir,

n
(x i - x )2
s2 = i =1

n -1

Por ejemplo, suponga que deseamos calcular la varianza y desviación estándar de los
siguientes datos: 5, 17, 6, 4 calculamos en primer lugar las diferencias cuadráticas de cada uno
de los datos con respecto a la media:

Σ(xi - µ)2 = (5 - 8)2 +(17 - 8)2 + (6 - 8)2 + (4 - 8)2 = (-3)2 +(9)2 + (-2)2 + (-4)2 = 9 + 81 + 4 + 16.

Σ(xi - µ)2 = 110.

4
(x i - ) 2
110
2
= i =1
= = 27,5 .
N 4

Si consideramos los datos anteriores como los resultantes de una muestra seleccionada,
tenemos que la media muestral viene dada por:

4
(x i - x )2
110
S2 = i =1
= = 36,6
n -1 3

Sin pérdida de generalidad, en cuanto a la varianza poblacional o muestral, una fórmula


equivalente para el cálculo de la varianza se presenta a continuación:

Página 6 de 18
Medidas de Dispersión

N
(x i - )2
1 N
2
= i =1
= (x i - )2
N N i =1

1
(x )
N
= 2
i - 2x i + 2

N i =1

1 N N N
= x i2 − 2 xi + 2

N i =1 i =1 i =1

1 N N
= x i2 − 2 x i +N 2

N i =1 i =1

1 N
1 N
1
= x i2 − 2 xi + N 2

N i =1 N i =1 N
1 N
= x i2 − 2 + 2

N i =1

1 N
= x i2 − 2 2
+ 2

N i =1
N
(x i - )2
1 N
2
= i =1
= x i2 − 2

N N i =1

Para la varianza muestral, la expresión está dada por:

n
(x i - x )2
1 N
S2 = i =1
= (x i - x )2
n -1 n - 1 i =1
1 N 2
S2 = xi − x2
n - 1 i =1

Como ejemplo de aplicación, consideremos los datos anteriores:

xi x xi - x x i2
4 8 -4 16
5 8 -3 25
6 8 -2 36
17 8 9 289
2
Totales Σ(xi - x) = 0 x i = 366

Página 7 de 18
Medidas de Dispersión

De esta manera:

1 N
1 1
366 − 8 2 = (366) − (8) = 91,5 − 64 = 27,5
2
2
= x i2 − 2
=
N i =1 4 4

Las fórmulas anteriormente presentadas se deben aplicar cuando los datos se encuentran
enlistados; de igual forma, existen expresiones matemáticas similares cuando los datos se
encuentran agrupados, las cuales se presentan a continuación:

Datos agrupados variable discreta:

N n
n i (x i - )2 n i (x i - x )
2

1 N
1 N
n i (x i - )2 n i (x i - x )
2
2
= i =1
= S2 = i =1
=
N N i =1 n -1 n - 1 i =1
1 N
1 N
2
= n i x i2 − 2
S2 = n i x i2 − x 2
N i =1 n - 1 i =1

Como ejemplo de aplicación, consideremos la siguiente distribución de frecuencias y


calculemos la varianza empleando las fórmulas anteriores:

Con base en la anterior tabla, tenemos lo siguiente:

N N
1 1 1 1
= xini = (295) = 14,75 ; 2
= n i (x i - )2 = (523,75) = 26,19
N i =1 20 N i =1 20

Empleando la segunda fórmula alterna para el cálculo de la varianza tenemos:

N
n i x i2
2
= i =1
− 2
=
(4.875) − (14,75)2 = 243,75 − 217,56 = 26,19
N 20

Página 8 de 18
Medidas de Dispersión

Propiedades de la varianza:

• Es siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0 solamente

cuando Xi= x ; es decir, σ2 ≥ 0; o S2 ≥ 0.


• La varianza de una constante es igual a 0.
• Si a todos los valores de la variable se le suma una constante la varianza no se modifica.
Veámoslo:

Si a Xi le sumamos una constante Xi’ = Xi + K. tendremos (sabiendo que )

Ejemplo

Para la distribución de frecuencias tomada en el ejemplo anterior, tenemos, tomando k=2, lo


siguiente:

1 N
1
2
Y = n i (y i - Y )2 = (523,75) = 26,19 = 2
X
N i =1 20

• Si todos los valores de la variable se multiplican por una constante la varianza queda
multiplicada por el cuadrado de dicha constante. Veámoslo:

Si a xi’ = xi · k tendremos (sabiendo que )

Página 9 de 18
Medidas de Dispersión

Ejemplo

Para la distribución de frecuencias tomada en el ejemplo anterior, tenemos, tomando k=2, lo


siguiente:

N
1 1
2
Y = n i (y i - Y )2 = (2.095) = 105,75 = 4(26,19) = 4. 2
X = ( 2) 2 2
X
N i =1 20

• Si en una distribución obtenemos una serie de subconjuntos disjuntos, la varianza de la


distribución inicial se relaciona con la varianza de cada uno de los subconjuntos mediante la
expresión

Siendo

Ni el nº de elementos del subconjunto (i)

S i2 la varianza del subconjunto (i)

Cabe mencionar que para la varianza, las unidades son el cuadrado de las unidades de los
datos originales. Estas unidades no son intuitivamente claras o fáciles de interpretar. Por esta
razón, tenemos que hacer un cambio significativo en la varianza para calcular una medida útil
de la desviación, que sea menos confusa. Esta medida se conoce como la desviación estándar,
y es la raíz cuadrada de la varianza. La desviación estándar, entonces, está en las mismas
unidades que los datos originales.

Página 10 de 18
Medidas de Dispersión

LA DESVIACIÓN ESTÁNDAR

También recibe el nombre de desviación tipo, desviación típica o desvío típico. Como se
mencionó anteriormente, la desviación estándar de la población (o de la muestra) es
simplemente la raíz cuadrada de la varianza. Como la varianza es el promedio de las distancias
al cuadrado que van desde las observaciones a la media, la desviación estándar es la raíz
cuadrada del promedio de las distancias al cuadrado que van desde las observaciones a la
media. La desviación estándar está en las mismas unidades que las que se usaron para medir
los datos.

La desviación estándar sólo puede utilizarse en el caso de que las observaciones se hayan
medido con escalas de intervalos o razones.

A mayor valor de la desviación estándar, mayor dispersión de los datos con respecto a su
media. Es un valor que representa los promedios de todas las diferencias individuales de las
observaciones respecto a un punto de referencia común, que es la media aritmética. Se
entiende entonces que cuando este valor es más pequeño, las diferencias de los valores
respecto a la media, es decir, los desvíos, son menores y, por lo tanto, el grupo de
observaciones es más “homogéneo” que si el valor de la desviación estándar fuera más grande.
O sea que a menor dispersión mayor homogeneidad y a mayor dispersión, menor
homogeneidad.

A continuación, se presentan las distintas fórmulas a emplear dependiendo del modo de


presentación y naturalidad de los datos.

• Desviación estándar para datos sin agrupar

• Desviación estándar para datos agrupados

1. Cálculo usando las frecuencias absolutas

Página 11 de 18
Medidas de Dispersión

2. Cálculo usando las frecuencias relativas

Donde ci representa la marca de clase del intervalo i-ésimo.

Propiedades de la Desviación Estándar

• La desviación estándar es siempre un valor no negativo.


• Es la medida de dispersión óptima por ser la más pequeña.
• La desviación estándar toma en cuenta las desviaciones de todos los valores de la
variable.
• Si a todos los valores de la variable se le suma una misma constante la desviación
estándar no varía.
• Si a todos los valores de la variable se multiplican por una misma constante, la desviación
estándar queda multiplicada por el valor absoluto de dicha constante.

EL COEFICIENTE DE VARIACIÓN:

Para comparar la dispersión de variables que aparecen en unidades diferentes (metros, kilos,
etc.) o que corresponden a poblaciones extremadamente desiguales, es necesario disponer de
una medida de variabilidad que no dependa de las unidades o del tamaño de los datos. Este
coeficiente únicamente sirve para comparar las dispersiones de variables correspondientes a
escalas de razón.

Una manera de construir una medida de variabilidad que cumpla los requisitos anteriores es el
llamado coeficiente de variación:

Página 12 de 18
Medidas de Dispersión

(Las barras del denominador representan el valor absoluto, es decir, indican que debe
prescindirse de la unidad de medida de la media). A menor coeficiente de variación
consideraremos que la distribución de la variable medida es más homogénea.

Ejemplo:
Consideremos la distribución de frecuencias consideradas para el cálculo de la varianza; esto
es,

Con base en la anterior tabla, tenemos lo siguiente:

N N
1 1 1 1
= xini = (295) = 14,75 ; 2
= n i (x i - )2 = (523,75) = 26,19
N i =1 20 N i =1 20

Para el cálculo de la desviación estándar, tenemos:

= 2
= 26,19 = 5,11

De esta manera, tenemos que el coeficiente de variación viene dado por:

5,11 5,11
C.V. = *100 = *100 = *100 = 0,3469 *100 = 34,69%
x 14,75 14,75

Página 13 de 18
Medidas de Dispersión

EMPLEANDO EXCEL

El proceso a seguir, cuando los datos estén SIN AGRUPAR, es decir, tal como se recolectaron,
si trabajamos con la variable número de hermanos, para la aplicación de las diferentes
medidas, serán las siguientes:

Consideremos los datos del CUADRO No. 1, que contiene información de 10 variables
correspondiente a 50 estudiantes seleccionados como muestra, de una población de 1.080
estudiantes, que a continuación se reedita:

Cuadro No. 1
Promedio
No. No. No. libros Actualmente Calificaciones Edad Estatura Peso
Facultad Sexo calificación
orden hermanos leídos trabaja ICFES (años) (Cm) (Kg)
matemáticas
2 2 2 2 2 4.1 1 360 20 158 48
9 3 2 0 6 3.4 2 320 20 170 70
12 3 1 6 3 3.6 2 330 18 174 78
35 2 2 0 7 3.6 1 280 22 155 60
41 3 1 3 5 4.1 2 320 16 170 72
63 3 2 4 2 3.1 2 320 24 172 69
74 2 2 2 4 3.6 2 325 20 169 66
113 1 1 1 3 3.4 2 280 23 178 82
147 3 1 1 8 5.0 1 310 17 174 83
175 1 2 3 2 2.6 1 270 15 165 60
199 2 2 0 2 3.9 2 290 26 171 66
214 1 1 1 7 3.5 2 310 22 172 80
234 1 1 1 2 3.6 2 320 20 168 70
268 3 1 3 12 3.9 1 310 21 166 64
327 3 1 1 8 5 1 310 17 174 83
331 1 2 0 6 3.4 2 380 20 165 58
364 1 2 3 2 3.3 2 280 16 166 58
400 3 2 0 6 3.6 2 280 17 148 46
405 1 2 2 11 4.6 2 400 24 165 60
470 1 2 3 2 3 1 300 20 164 70
507 3 1 1 8 5 1 310 17 174 83
512 1 2 0 3 2.8 1 310 20 171 59
545 2 1 6 10 3.9 2 310 17 171 64
557 2 1 6 2 3.1 1 270 21 168 60
587 3 1 1 4 3.3 2 300 32 160 65
589 3 2 2 3 2.6 1 270 17 165 59
590 1 1 0 2 2.7 1 280 19 168 71
616 3 2 0 3 3.8 2 265 19 156 54
621 3 1 0 3 3 2 290 17 171 82
653 1 1 1 3 3.4 2 280 23 178 82
665 2 1 1 2 3.2 2 360 21 158 72
669 3 2 1 1 4 1 315 16 165 61
721 2 1 3 4 2.6 1 410 18 140 46
747 2 2 2 2 4 1 330 18 158 60
748 1 2 3 2 3.3 2 310 17 159 58
761 3 1 3 5 4.1 2 320 16 170 72
771 3 1 1 1 2.8 1 290 24 171 79
825 2 2 8 2 3.7 1 320 22 167 54
873 1 2 3 5 4.2 2 350 22 169 64
876 3 2 6 2 4 2 380 20 165 58
923 1 1 1 3 4.2 1 390 22 174 80

Página 14 de 18
Medidas de Dispersión

933 1 2 3 10 2.8 2 260 20 165 58


936 2 2 3 10 2.8 2 260 28 158 55
943 3 2 2 6 3.8 2 280 20 168 64
976 3 2 0 3 3.8 2 265 19 156 54
982 3 1 0 6 3 2 410 18 174 86
1001 3 1 3 5 3.1 2 280 17 169 76
1017 2 1 5 2 3.8 2 290 15 162 70
1025 2 1 1 2 3.2 2 360 21 158 72
1037 3 2 0 2 3.3 2 325 19 164 60

Ubiquémonos en la barra de MENU, con el MOUSE haciendo CLIC en HERRAMIENTAS


debiendo aparecer la siguiente figura:

Figura No. 1. Microsoft Excel

Al hacer CLIC en el submenú ANÁLISIS DE DATOS , debe aparecer la siguiente figura (Fig. 2):

Figura No. 2. Funciones para análisis

Página 15 de 18
Medidas de Dispersión

Con la figura No. 2, correspondiente a ANÁLISIS DE DATOS, procederemos a seleccionar una


de las funciones, en nuestro caso la opción identificada como ESTADÍSTICA DESCRIPTIVA,
luego al hacer CLIC en ésta y ACEPTAR debe aparecer la figura siguiente (Fig. 3):

Figura No. 3. Estadística Descriptiva

Teniendo en cuenta la Figura No. 3 ESTADÍSTICA DESCRIPTIVA, se comienza el


procesamiento de los datos. Recordemos que el RANGO DE ENTRADA es el correspondiente
a la variable número de hermanos registrados en el Cuadro No. 1.

En la misma figura anterior, aparecen unas opciones de salida, con alternativa de ser una HOJA
NUEVA o en un LIBRO NUEVO.

Además, aparecen: RESUMEN DE ESTADÍSTICAS; NIVEL DE CONFIANZA PARA LA MEDIA:


95% o cualquier otro valor establecido; K-ESIMO MAYOR y, finalmente, K-ESIMO MENOR,
activando o haciendo CLIC en cada uno de ellos, En caso de considerar la obtención de un
mayor número de resultados para el análisis.

Al hacer CLIC en ACEPTAR, se obtiene la información, tal como puede observarse en la figura
No. 4.

Página 16 de 18
Medidas de Dispersión

Medidas Resultados

Media 2.04
Error típico 0.27547362
Mediana 1.5
Moda 1
Desviación estándar 1.94789263
Varianza de la 3.79428571
muestra
Curtosis 0.92539916
Coeficiente de 1.11511128
asimetría
Rango 8
Mínimo 0
Máximo 8
Suma 102
Cuenta 50
Mayor (1) 8
Menor(1) 0
Nivel de confianza 0.55358463
(95.0%)

Figura No. 4. Resultados

Para lograr los anteriores resultados en todas y cada una de las opciones (Resumen de
estadísticas; nivel de confianza para la media, K-ésimo mayor y K-ésimo menor), deben
señalarse.

Los resultados de la figura No. 4, nos muestra un cuadro resumen con los valores de la : Media,
Error Típico; Mediana; Asimetría; Mínimo; Máximo; Suma; Conteo para la variable NUMERO DE
HERMANOS.

Página 17 de 18
Medidas de Dispersión

BIBLIOGRAFÍA

Estadística para Administración y Economía


Levin
Prentice Hall

Estadística para los Negocios y la Economía


Paul Newbold
Prentice Hall

Estadística y Muestreo
Ciro Martínez Bencardino
Ecoe Ediciones

Estadística para Administración y Economía


William Mendenhall & James Reinmuth
Grupo Editorial Iberoamérica

Probabilidad y Estadística
George Canavos
Mc Graw Hill

CIBERGRAFIA

http://www.liccom.edu.uy/bedelia/cursos/metodos/material/estadistica/med_disp.html

http://www.tuveras.com/estadistica/estadistica02.htm

http://www.universidadabierta.edu.mx/SerEst/MAP/METODOS%20CUANTITATIVOS/Pye/tema_12.htm

Página 18 de 18

You might also like