You are on page 1of 27

UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA

FACULTAD DE CIENCIAS ECONMICAS Y ADMINISTRATIVAS

DEPARTAMENTO ACADMICO DE CIENCIAS ECONMICAS

TEXTO UNIVERSITARIO
ESTADSTICA DESCRIPTIVA
Estadstica Descriptiva Anlisis Estadstico

ESTADSTICA DESCRIPTIVA

La estadstica descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una poblacin,
altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer con-
clusiones sobre el comportamiento de estas variables.

Las variables pueden ser de dos tipos:

Variables cualitativas o atributos: no se pueden medir numricamente (por ejemplo: nacionalidad, color
de la piel, sexo).

Variables cuantitativas: tienen valor numrico (edad, precio de un producto, ingresos anuales).

Las variables tambin se pueden clasificar en:

Variables unidimensionales: slo recogen informacin sobre una caracterstica (por ejemplo: edad de los
alumnos de una clase).

Variables bidimensionales: recogen informacin sobre dos caractersticas de la poblacin (por ejemplo:
edad y altura de los alumnos de una clase).

Variables pluridimensionales: recogen informacin sobre tres o ms caractersticas (por ejemplo: edad, al-
tura y peso de los alumnos de una clase).

Segn la influencia que asignemos a unas variables sobre otras, podrn ser:

Variables independientes: Son las que el investigador escoge para establecer agrupaciones en el estudio,
clasificando intrnsecamente a los casos del mismo. Un tipo especial son las variables de , que modifican al
resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los re-
sultados por medio de un sesgo.

Variables dependientes: Son las variables de respuesta que se observan en el estudio y que podran estar
influenciadas por los valores de las variables independientes.

Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:

Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: nmero de hermanos (puede
ser 1, 2, 3....,etc., pero, por ejemplo, nunca podr ser 3.45).

Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un
vehculo puede ser 80,3 km/h, 94,57 km/h...etc.

Las variables cualitativas se pueden clasificar en nominales y ordinales:

Nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los
colores o el lugar de residencia.

Ordinal: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no
es necesario que el intervalo entre mediciones sea uniforme, por ejemplo, leve, moderado, grave.

Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos:

1 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Individuo: cualquier elemento que porte informacin sobre el fenmeno que se estudia. As, si estudiamos
la altura de los nios de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada
vivienda es un individuo.

Poblacin: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten informacin so-
bre el fenmeno que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la po-
blacin ser el total de las viviendas de dicha ciudad.

Muestra: subconjunto que seleccionamos de la poblacin. As, si se estudia el precio de la vivienda de una
ciudad, lo normal ser no recoger informacin sobre todas las viviendas de la ciudad (sera una labor muy
compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente
representativo.

Aleatoriedad: La aleatoriedad es un campo de definicin que, en matemticas, se asocia a todo proceso


cuyo resultado no es previsible ms que en razn de la intervencin del azar. El resultado de todo suceso
aleatorio no puede determinarse en ningn caso antes de que este se produzca. Por consiguiente, los pro-
cesos aleatorios quedan englobados dentro del rea del clculo de probabilidad y, en un marco ms amplio
en el de la estadstica.

Parmetro: En Estadstica, funcin definida sobre valores numricos de una poblacin. Se llama parmetro
a un valor representativo de una poblacin, como la media aritmtica, una proporcin o su desviacin tpi-
ca.

Estadgrafo o Estadstico: Es una medida cuantitativa, derivada de un conjunto de datos de una muestra
con el objetivo de estimar un parmetro o contrastar caractersticas de una poblacin o modelo estadstico.

DISTRIBUCIN DE FRECUENCIA PARA DATOS CUANTITATIVOS


La distribucin de frecuencia es la representacin estructurada, en forma de tabla, de toda la informacin
que se ha recogido sobre la variable que se estudia.

Frecuencias Absolutas Frecuencias Relativas


Variable
Simple Acumulada Simple Acumulada
(Xi)
(fi) (Fi) (hi) (Hi)
X1 f1 F1 =f1 h1 =f1 /n H1 =F1 /n
X2 f2 F2 =F1 +f2 h2 =f2 /n H2 =F2 /n
X3 f3 F3 =F2 +f3 h3 =f3 /n H3 =F3 /n

Xn-1 fn-1 Fn-1 =Fn-2 +fn-1 hn-1 =fn-1 /n Hn-1 =Fn-1 /n
Xn fn Fn=Fn-1 +fn=n hn=fn/n Hn=Fn/n=1
Total n 1
Siendo X los distintos valores que puede tomar la variable.
Siendo n el tamao muestral.
Siendo f el numero de veces que se repite cada valor.
Siendo F el numero de veces acumulado que se repite cada valor.
Siendo h el porcentaje que la repeticin de cada valor supone sobre el total.
Siendo H el porcentaje acumulado que la repeticin de cada calor supone sobre el total.

Veamos un ejemplo:

Medimos la altura de los nios de una clase y obtenemos los siguientes resultados (cm):

2 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Alumno Estatura Alumno Estatura Alumno Estatura


Alumno 1 1.25 Alumno 11 1.21 Alumno 21 1.26
Alumno 2 1.23 Alumno 12 1.22 Alumno 22 1.24
Alumno 3 1.21 Alumno 13 1.22 Alumno 23 1.25
Alumno 4 1.28 Alumno 14 1.28 Alumno 24 1.23
Alumno 5 1.26 Alumno 15 1.28 Alumno 25 1.27
Alumno 6 1.29 Alumno 16 1.29 Alumno 26 1.20
Alumno 7 1.27 Alumno 17 1.30 Alumno 27 1.22
Alumno 8 1.30 Alumno 18 1.27 Alumno 28 1.29
Alumno 9 1.26 Alumno 19 1.30 Alumno 29 1.28
Alumno 10 1.21 Alumno 20 1.22 Alumno 30 1.21

Si presentamos esta informacin estructurada obtendramos la siguiente tabla de frecuencia:

Frecuencias Absolutas Frecuencias Relativas


Variable
Simple Acumulada Simple Acumulada
(Xi)
(fi) (Fi) (hi) (Hi)
1.20 1 1 0.0333 0.0333
1.21 4 5 0.1333 0.1667
1.22 4 9 0.1333 0.3000
1.23 2 11 0.0667 0.3667
1.24 1 12 0.0333 0.4000
1.25 2 14 0.0667 0.4667
1.26 3 17 0.1000 0.5667
1.27 3 20 0.1000 0.6667
1.28 4 24 0.1333 0.8000
1.29 3 27 0.1000 0.9000
1.30 3 30 0.1000 1.0000
Total 30 1.0000

Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, enton-
ces conviene agruparlos por intervalos, ya que de otra manera obtendramos una tabla de frecuencia muy
extensa que aportara muy poco valor a efectos de sntesis.

Distribuciones de frecuencia agrupada


Supongamos que medimos la estatura de los habitantes de una vivienda y obtenemos los siguientes resul-
tados (cm):

Habitante Estatura Habitante Estatura Habitante Estatura


Habitante 1 1,15 Habitante 11 1,81 Habitante 21 1,16
Habitante 2 1,53 Habitante 12 1,52 Habitante 22 1,64
Habitante 3 1,21 Habitante 13 1,92 Habitante 23 1,45
Habitante 4 1,48 Habitante 14 1,98 Habitante 24 1,73
Habitante 5 1,16 Habitante 15 1,48 Habitante 25 1,77
Habitante 6 1,59 Habitante 16 1,39 Habitante 26 1,20
Habitante 7 1,57 Habitante 17 1,20 Habitante 27 1,62
Habitante 8 1,60 Habitante 18 1,37 Habitante 28 1,49
Habitante 9 1,86 Habitante 19 1,40 Habitante 29 1,98
Habitante 10 1,71 Habitante 20 1,42 Habitante 30 1,01

3 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Si presentramos esta informacin en una tabla de frecuencia obtendramos una tabla de 30 lneas (una pa-
ra cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3%.
Esta tabla nos aportara escasa informacin
En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la informacin queda ms resumida
(se pierde, por tanto, algo de informacin), pero es ms manejable e informativa:

El nmero de tramos en los que se agrupa la informacin es una decisin que debe tomar el analista: la re-
gla es que mientras ms tramos se utilicen menos informacin se pierde, pero puede que menos represen-
tativa e informativa sea la tabla.

Nmero de Intervalos: El nmero de intervalos (k) debe ser como mnimo 5 y como mximo 15.

Mtodo de Sturges: k 1 3.322log n . El mtodo de Sturges se recomienda especialmente cuando


los datos tienen forma acampanada.

k 1 3.322log 30 5.91 6

Mtodo raz de n: k n

k 30 5.48 5

Rango (R): se considera como el dato mayor menos el dato menor de todo el conjunto de datos considera-
dos en toda la muestra, si consideramos al dato menor de la muestra y al dato mayor entonces el Rango es-
tar determinada como:

R Dmax Dmin

R 1.98 1.01 0.97


Amplitud de clase (Ai): Se considera la amplitud que deben tener las clases consideradas para realizar un
estudio estadstico. Para n datos con k clases se determina que la amplitud de clase es igual a:

R
wi
k

0.97
wi 0.194
5

Frecuencias Absolutas Frecuencias Relativas


Estatura
Simple Acumulada Simple Acumulada
(Cm.)
(fi) (Fi) (hi) (Hi)
[1.010 - 1.204) 6 6 0.2000 0.2000
[1.204 - 1.398) 3 9 0.1000 0.3000
[1.398 - 1.592) 10 19 0.3333 0.6333
[1.592 - 1.786) 6 25 0.2000 0.8333
[1.786 - 1.980] 5 30 0.1667 1.0000
Total 30 1.0000

4 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

DISTRIBUCIN DE FRECUENCIA PARA DATOS CUALITATIVOS


Variable Frecuencias Absolutas Frecuencias Relativas
Categorica Simple Acumulada Simple Acumulada
(Ci) (fi) (Fi) (hi) (Hi)
C1 f1 F1 =f1 h1 =f1 /n H1 =F1 /n
C2 f2 F2 =F1 +f2 h2 =f2 /n H2 =F2 /n
C3 f3 F3 =F2 +f3 h3 =f3 /n H3 =F3 /n

Cn-1 fn-1 Fn-1 =Fn-2 +fn-1 hn-1 =fn-1 /n Hn-1 =Fn-1 /n
Cn fn Fn=Fn-1 +fn=n hn=fn/n Hn=Fn/n=1
Total n 1
Siendo C las distintas categorias de la variable categorica.
Siendo n el tamao muestral.
Siendo f el numero de veces que se repite cada valor.
Siendo F el numero de veces acumulado que se repite cada valor.
Siendo h el porcentaje que la repeticin de cada valor supone sobre el total.
Siendo H el porcentaje acumulado que la repeticin de cada calor supone sobre el total.

perro hamster pjaro pjaro


gato gato gato perro
perro perro perro perro
hamster hmster perro pjaro
pjaro gato hmster gato

Frecuencias Absolutas Frecuencias Relativas


Mascota Simple Acumulada Simple Acumulada
(fi) (Fi) (hi) (Hi)
perro 7 7 0.4375 0.4375
gato 5 12 0.3125 0.7500
hmster 2 14 0.1250 0.8750
pjaro 2 16 0.1250 1.0000
Total 16 1.0000

Histograma

En estadstica, un histograma es una representacin grfica de una variable en forma de barras, donde la
superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se
representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente sealando las
marcas de clase, es decir, la mitad del intervalo en el que estn agrupados los datos.

Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por
comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos
son cualitativos (no-numricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagra-
ma de sectores.

5 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Los histogramas son ms frecuentes en ciencias sociales, humanas y econmicas que en ciencias naturales
y exactas. Y permite la comparacin de los resultados de un proceso.

Para graficar el Histograma se coloca el intervalo de clase en el eje de las X (abscisa) y la frecuencia absoluta
o frecuencia relativa en el eje de las Y (ordenada)

Histograma
12

11

10
10

8
Frecuencia Absoluta

6 6
6

5
5

3
3

0
1.010 - 1.204 1.204 - 1.398 1.398 - 1.592 1.592 - 1.786 1.786 - 1.980

Estatura (Cm.)

Histograma para datos cualitativos


50.00%

45.00% 43.75%

40.00%

35.00%
31.25%

30.00%
Frecuencia relativa

25.00%

20.00%

15.00%
12.50% 12.50%

10.00%

5.00%

0.00%
perro gato hmster pjaro

Mascota

Polgono de frecuencias

Es un grfico de lneas que se usa para presentar las frecuencias absolutas de los valores de una distribu-
cin en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de di-
cho valor.

6 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Polgono de frecuencias
12

11

10
10

8
Frecuencia Absoluta

7
6 6
6
5
5

4
3

0
1.107 1.301 1.495 1.689 1.883

Estatura (Cm.)

Ojiva porcentual
Es un grfico acumulativo, el cual es muy til cuando se quiere representar el rango porcentual de cada va-
lor en una distribucin de frecuencias.

Para graficar la ojiva se coloca el lmite superior del intervalo de clase en el eje de las X (abscisa) y la fre-
cuencia absoluta o frecuencia relativa en el eje de las Y (ordenada)

Ojiva 100.00%
100.00%

90.00%
83.33%

80.00%

70.00%
63.33%
Frecuencia Relativa Acumulada

60.00%

50.00%

40.00%

30.00%
30.00%

20.00%
20.00%

10.00%

0.00%
0 1.204 1.398 1.592 1.786 1.980

Estatura (Cm.)

MEDIDAS DE POSICIN

Las medidas de posicin nos facilitan informacin sobre la serie de datos que estamos analizando. Estas
medidas permiten conocer diversas caractersticas de esta serie de datos.

Las medidas de posicin son de dos tipos:

7 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Medidas de posicin central: informan sobre los valores medios de la serie de datos.

Medidas de posicin no centrales: informan de como se distribuye el resto de los valores de la serie.

MEDIDAS DE POSICIN CENTRAL

Las principales medidas de posicin central son las siguientes:

1. Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media,
siendo las ms utilizadas:

Media aritmtica: se calcula multiplicando cada valor por el nmero de veces que se repite. La suma
de todos estos productos se divide por el total de datos de la muestra:

X i
X i 1

X1 X 2 X 3 X n1 X n
X
n

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01

entonces:

1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01


X 1.513
30

Media aritmtica para datos agrupados:

Se determina la marca de clase para cada una de las categoras:

Linf i Lsup i
Xi
2
n

X f
i i
X i 1

X1 f1 X 2 f 2 X 3 f3 X n1 f n1 X n f n
X
n

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

Se determina el promedio de los Lmites inferior y superior de cada categora:

8 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Marca de
Estatura
Clase fi Xifi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 6.642
(1.204 - 1.398] 1.301 3 3.903
(1.398 - 1.592] 1.495 10 14.950
(1.592 - 1.786] 1.689 6 10.134
(1.786 - 1.980] 1.883 5 9.415
Total 30 45.044

entonces:

45.044
X 1.502
30

Media geomtrica: se eleva cada valor al nmero de veces que se ha repetido. Se multiplican todo
estos resultados y al producto final se le calcula la raz "n" (siendo "n" el total de datos de la mues-
tra).

n
XG n Xi
i 1

X G n X1 * X 2 * X 3 * * X n1 * X n

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01

entonces:

X G 30 1.15*1.53*1.21* *1.48*1.39* *1.49*1.98*1.01 1.491

Media geomtrica para datos agrupados:

Se determina la marca de clase para cada una de las categoras:

Linf i Lsup i
Xi
2

n
X G n X i fi
i 1

X G n X1f1 * X 2f2 * X 3f3 * * X nfn11 * X nfn

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

Se determina el promedio de los Lmites inferior y superior de cada categora:

9 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Marca de
Estatura
Clase fi Xifi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 1.840
(1.204 - 1.398] 1.301 3 2.202
(1.398 - 1.592] 1.495 10 55.771
(1.592 - 1.786] 1.689 6 23.215
(1.786 - 1.980] 1.883 5 23.673
Total 30 124,210.71

entonces:

X G 30 124, 210.71 1.478

La media armnica: es igual al recproco, o inverso, de la media aritmtica de los recprocos de dchos
nmeros

n
XH n
1
X
i 1 i

n
XH
1 1 1 1 1

X1 X 2 X 3 X n 1 X n

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01

entonces:

30
XG 1.468
1 1 1 1 1 1 1 1

1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01

Media armnica para datos agrupados:

Se determina la marca de clase para cada una de las categoras:

Linf i Lsup i
Xi
2

n
XH n
fi
X
i 1 i

10 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

n
XH
f1 f f f n 1 f
2 3 n
X1 X 2 X 3 X n 1 X n

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

Se determina el promedio de los Lmites inferior y superior de cada categora:

Marca de
Estatura
Clase fi fi/Xi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 5.420
(1.204 - 1.398] 1.301 3 2.306
(1.398 - 1.592] 1.495 10 6.689
(1.592 - 1.786] 1.689 6 3.552
Cla
(1.786 - 1.980] 1.883 5 2.655
Total 30 20.62

entonces:

30
XH 1.455
20.62

2. Mediana: es el valor de la serie de datos que se sita justamente en el centro de la muestra (un 50%
de valores son inferiores y otro 50% son superiores).

No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su
clculo toda la informacin de la serie de datos (no pondera cada valor por el nmero de veces que
se ha repetido).

X1 X 2 X n1 X n

Si n es impar la mediana es el valor X Me X n 1 .


2

X1 X 2 X n1 X n1 X n
2

X ( n 1) X ( n 1)
1 1
Si n es par la mediana es el valor X Me 2 2 2 2
.
2

X1 X 2 X ( n1) X ( n1) X ( n1) X n1 X n


1 1
2 2 2 2 2

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

Primero tenemos que ordenar de menor a mayor o de mayor a menor:

1.01 1.15 1.16 1.49 X ( n1) 1.52 1.92 1.98 1.98


2

11 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Notamos que
n 1 15.5 , entonces X15 1.49 y X16 1.52 , entonces:
2

1.49 1.52
X Me 1.505
2

Mediana para datos agrupados:

Se determina la marca de clase para cada una de las categoras:

Linf k Lsup k
Xk
2

Al tratar con datos agrupados, si n coincide con el valor de una frecuencia acumulada( n Fk ,
2 2
para el primera frecuencia absoluta acumulada), el valor de la mediana coincidir con la abscisa co-
rrespondiente. Si no coincide con el valor de ninguna abscisa, se calcula a travs de semejanza de
tringulos en el histograma o polgono de frecuencias acumuladas, utilizando la siguiente equivalen-
cia:

n
Fk 1
X Me Linf k 2 wk
fk

n
Fk 1
X Me Linf k 2
fk
Lsup k Linf k
Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

Se determina el promedio de los Lmites inferior y superior de cada categora:

Marca de
Estatura
Clase fi Fi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 6
(1.204 - 1.398] 1.301 3 9
(1.398 - 1.592] 1.495 10 19 Clase mediana
(1.592 - 1.786] 1.689 6 25
(1.786 - 1.980] 1.883 5 30
Total 30

como n 15 la clase mediana cae en la tercera categora, entonces:


2

15 9
X Me 1.398 1.592 1.398 1.514
10

3. Moda: es el valor que ms se repite en la muestra.

12 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

X Mo X i ; Si fi max fi , i 1, 2, 3, , k

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01

Entonces, como los valores 1.16, 1.20, 1.48 y 1.98 se repiten dos veces (el mayor nmero de repeti-
ciones) tenemos cuatro modas (tetra modal):

X Mo1 1.16 , X Mo 2 1.20 , X Mo3 1.48 , X Mo 4 1.98

Moda para datos agrupados:

Se determina la marca de clase para cada una de las categoras:

Linf i Lsup i
Xi
2

Para obtener la moda en datos agrupados se usa la siguiente frmula:

d1
X Mo Linf k wk
d1 d 2

X Mo Linf k
d1
d1 d 2
Lsup k Linf k
Donde:

d1 Exceso de la frecuencia modal sobre la clase contigua inferior ( f k f k 1 ).

d 2 Exceso de la frecuencia modal sobre la clase contigua superior ( f k f k 1 ).

f k Frecuencia modal ( fi max fi , i 1, 2, 3, , k )

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

Se determina el promedio de los Lmites inferior y superior de cada categora:

Marca de
Estatura
Clase fi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6
(1.204 - 1.398] 1.301 3
(1.398 - 1.592] 1.495 10 Clase modal
(1.592 - 1.786] 1.689 6
(1.786 - 1.980] 1.883 5
Total 30

13 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico


como f3 max fi , i 1, 2, 3, 4, 5 10 la clase modal cae en la tercera categora, entonces:

10 3
X Mo 1.398 1.592 1.398 1.521
10 6 10 3

MEDIDAS DE POSICIN NO CENTRAL

Las medidas de posicin no centrales permiten conocer otros puntos caractersticos de la distribucin que
no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la
muestra en tramos iguales llamados cuantiles.

Los cuantiles son medidas de posicin que se determinan mediante un mtodo que determina la ubicacin
de los valores que dividen un conjunto de observaciones en partes iguales.

Los cuantiles son los valores de la distribucin que la dividen en partes iguales, es decir, en intervalos que
comprenden el mismo nmero de valores. Cuando la distribucin contiene un nmero alto de intervalos o
de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribucin en cua-
tro, en diez o en cien partes.

Los ms usados son los cuartiles, cuando dividen la distribucin en cuatro partes; los deciles, cuando divi-
den la distribucin en diez partes y los percentiles o percentiles, cuando dividen la distribucin en cien par-
tes. Los cuartiles, como los deciles y los percentiles, son en cierta forma una extensin de la mediana.

Cuartiles: son los tres valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente,
en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.

Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la
mediana.

X1 X 2 X n1 X n

Para un nmero de n observaciones en el que los datos no son representados en clases, una vez ordenados
los datos la posicin de los cuartiles se pueden localizar de la siguiente forma:

k n 1
4

Entonces:

k
Qk Linf Lsup Linf
4

3 n 1
Notamos que 23.25 , entonces X 23 1.71 y X 24 1.73 , entonces:
4

3
Q3 1.71 1.73 1.71 1.725
4

Es decir, el 75% de los habitantes tiene estatura inferior o igual a 1.725 Mts.

14 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Clculo de los cuartiles para datos agrupados:

n
Buscamos la categora que ocupa cada cuartil mediante la expresin Clculo de los cuartiles k , enton-
4
ces: Clase cuartil k primer k n 4 F (para el primera frecuencia absoluta acumulada), donde
i

k 1, 2, 3 , entonces:

n
k Fk 1

4
Qk Linf k wk
fk

n
k Fk 1
Lsup k Linf k
4
Qk Linf k
fk

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

Se determina el promedio de los Lmites inferior y superior de cada categora:

Marca de
Estatura
Clase fi Fi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 6
(1.204 - 1.398] 1.301 3 9
(1.398 - 1.592] 1.495 10 19
(1.592 - 1.786] 1.689 6 25 Clase cuartil 3
(1.786 - 1.980] 1.883 5 30
Total 30

como 3n 22.5 la clase cuartil 3 cae en la cuarta categora, entonces:


4

22.5 19
Q3 1.592 1.786 1.592 1.71
6

Es decir, el 75% de los habitantes tiene estatura inferior o igual a 1.71 Mts.

Deciles: son nueve valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en
diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.

D1, D2, D3,, D7, D8, y D9 determinan los valores correspondientes al 10%, al 20%, al 30%,,al 70%, al 80% y
al 90% de los datos. D5 coincide con la mediana.

Para un nmero de n observaciones en el que los datos no son representados en clases, una vez ordenados
los datos la posicin de los deciles se pueden localizar de la siguiente forma:

15 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

k n 1
10

Entonces:

k
Dk Linf Lsup Linf
10

7 n 1
Notamos que 21.7 , entonces X 21 1.62 y X 22 1.64 , entonces:
10

7
D7 1.62 1.64 1.62 1.634
10

Es decir, el 70% de los habitantes tiene estatura inferior o igual a 1.634 Mts.

Clculo de los deciles para datos agrupados:

n
Buscamos la categora que ocupa cada decil mediante la expresin Clculo de los deciles k , entonces:
4
Clase decil k primer k n 10 F i (para el primera frecuencia absoluta acumulada), donde

k 1, 2, 3, , 7,8, 9 , entonces:

n
k Fk 1

10
Dk Linf k wk
fk

n
k Fk 1
Lsup k Linf k
10
Dk Linf k
fk

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

Se determina el promedio de los Lmites inferior y superior de cada categora:

Marca de
Estatura
Clase fi Fi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 6
(1.204 - 1.398] 1.301 3 9
(1.398 - 1.592] 1.495 10 19
(1.592 - 1.786] 1.689 6 25 Clase decil 7
(1.786 - 1.980] 1.883 5 30
Total 30

16 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

como 7n 21 la clase decil 7 cae en la cuarta categora, entonces:


10

21 19
D7 1.592 1.786 1.592 1.66
6

Es decir, el 70% de los habitantes tiene estatura inferior o igual a 1.66 Mts.

Percentiles: son noventinueve valores que distribuyen la serie de datos, ordenada de forma creciente o de-
creciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados.

P1, P2, P3,, P97, P98, y P99 determinan los valores correspondientes al 1%, al 2%, al 3%,,al 97%, al 98% y al
99% de los datos. P50 coincide con la mediana.

Para un nmero de n observaciones en el que los datos no son representados en clases, una vez ordenados
los datos la posicin de los percentiles se pueden localizar de la siguiente forma:

k n 1
100

Entonces:

k
Pk Linf Lsup Linf
100

73 n 1
Notamos que 22.63 , entonces X 22 1.64 y X 23 1.71 , entonces:
100

73
P73 1.64 1.71 1.64 1.691
100

Es decir, el 73% de los habitantes tiene estatura inferior o igual a 1.691 Mts.

Clculo de los percentiles para datos agrupados:

n
Buscamos la categora que ocupa cada percentil mediante la expresin Clculo de los percentil k , en-
4
tonces: Clase percentil k primer k n 100
Fi , para el primera frecuencia absoluta acumulada),
donde k 1, 2, 3, , 49, 50, 51, , 97, 98, 99 , entonces:

n
k Fk 1
Pk Linf k 100
wk
fk

n
k Fk 1
100
Pk Linf k
fk
Lsup k Linf k

17 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

Se determina el promedio de los Lmites inferior y superior de cada categora:

Marca de
Estatura
Clase fi Fi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 6
(1.204 - 1.398] 1.301 3 9
(1.398 - 1.592] 1.495 10 19
(1.592 - 1.786] 1.689 6 25 Clase percentil 73
(1.786 - 1.980] 1.883 5 30
Total 30

como 73 n 100 21.9 la clase percentil 73 cae en la cuarta categora, entonces:


21.9 19
P73 1.592 1.786 1.592 1.69
6

Es decir, el 73% de los habitantes tiene estatura inferior o igual a 1.69 Mts.

MEDIDAS DE DISPERSIN

Estudia la distribucin de los valores de la serie, analizando si estos se encuentran ms o menos concentra-
dos, o ms o menos dispersos.

Existen diversas medidas de dispersin, entre las ms utilizadas podemos destacar las siguientes:

Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor ms elevado
y el valor ms bajo.

R Dmax Dmin

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

R 1.98 1.01 0.97

Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de
las diferencias al cuadrado entre cada valor y la media, multiplicadas por el nmero de veces que se ha re-
petido cada valor. El sumatorio obtenido se divide por el tamao de la muestra menos 1 (por correccin
muestral).

2
n
Xi
X i2 i 1
n n

X X
2
i
n
2 i
i 1
n 1 n 1

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

18 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

45.4
2

70.6978
2 30 0.0687
30 1

Para datos agrupados:

2
K
K X k fk
X X X k2 f k k 1
K


2
k f
n
2 k 1 i
k 1
n 1 n 1

La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los va-
lores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos es-
tn.

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

Estatura
Xi fi Xifi X2ifi
(Cm.)
[1.010 - 1.204] 1.107 6 6.642 7.3527
(1.204 - 1.398] 1.301 3 3.903 5.0778
(1.398 - 1.592] 1.495 10 14.950 22.3503
(1.592 - 1.786] 1.689 6 10.134 17.1163
(1.786 - 1.980] 1.883 5 9.415 17.7284
Total 30 45.044 69.6255

45.044
2

69.6255
2 30 0.0687
30 1

Desviacin tpica o desviacin estndar: Se calcula como raz cuadrada de la varianza.

2
n
Xi
X i2 i 1
n n

X X
2
i
n
i
i 1
n 1 n 1

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

45.4
2

70.6978
30 0.2621
30 1

Para datos agrupados:

19 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

2
K
K X k fk
X X X k2 f k k 1
K


2
k f
n
k 1 i
k 1
n 1 n 1

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

Estatura
Xi fi Xifi X2ifi
(Cm.)
[1.010 - 1.204] 1.107 6 6.642 7.3527
(1.204 - 1.398] 1.301 3 3.903 5.0778
(1.398 - 1.592] 1.495 10 14.950 22.3503
(1.592 - 1.786] 1.689 6 10.134 17.1163
(1.786 - 1.980] 1.883 5 9.415 17.7284
Total 30 45.044 69.6255

45.044
2

69.6255
30 0.2622
30 1

Coeficiente de variabilidad o coeficiente de variacin de Pearson: se calcula como cociente entre la des-
viacin tpica y la media.


CV
X

El coeficiente de variabilidad debe estar en el rango de:

0 CV 1

La variabilidad es adecuada cuando el CV est por debajo de 0.2 o 20%.

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

0.2621
CV 0.1732
1.513

CV 17.32%

El coeficiente de variabilidad est por debajo del 20%, por lo tanto, los valores de la serie estn concentra-
dos alrededor de la media.

MEDIDAS DE FORMA

Las medidas de forma permiten conocer qu forma tiene la curva que representa la serie de datos de la
muestra. En concreto, podemos estudiar las siguientes caractersticas de la curva:

a) Concentracin: mide si los valores de la variable estn ms o menos uniformemente repartidos a lo lar-
go de la muestra.

20 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

b) Asimetra: mide si la curva tiene una forma simtrica, es decir, si respecto al centro de la misma (centro
de simetra) los segmentos de curva que quedan a derecha e izquierda son similares.

c) Curtosis: mide si los valores de la distribucin estn ms o menos concentrados alrededor de los valo-
res medios de la muestra.

Concentracin:

Para medir el nivel de concentracin de una distribucin de frecuencia se pueden utilizar distintos indicado-
res, entre ellos el ndice de Gini.

Este ndice se calcula aplicando la siguiente frmula:

n 1

p q i i
IG i 1
n 1

p
i 1
i

En donde pi mide el porcentaje de individuos de la muestra que presentan un valor igual o inferior al de
X i . pi se calcula aplicando la siguiente frmula:

f1 f 2 f3 fi
pi
n

Mientras que qi se calcula aplicando la siguiente frmula:

X1 f1 X 2 f 2 X 3 f3 X i fi
qi
X1 f1 X 2 f 2 X 3 f3 X n1 f n1 X n f n

El ndice Gini (IG) puede tomar valores entre 0 y 1 (0% y 100%):

IG 0 : Concentracin mnima. La muestra est uniformemente repartida a lo largo de todo su rango.

IG 1 : Concentracin mxima. Un slo valor de la muestra acumula el 100% de los resultados.

Un ndice de Gini adecuado sera cuando es inferior al 20%.

Ejemplo: si tomamos los 30 datos agrupados (sin intervalo de clase) de las estaturas de los habitantes:

1.3087
IG 0.1020 10.20%
12.8333

Un ndice Gini de 10.20% indica que la muestra est bastante uniformemente repartida, es decir, su nivel
de concentracin no es excesivamente alto.

21 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Xi fi Acum(fi) pi Xifi Acum(Xifi) qi pi-qi


1.01 1 1 0.0333 1.01 1.01 0.0222 0.0111
1.15 1 2 0.0667 1.15 2.16 0.0476 0.0191
1.16 2 4 0.1333 2.32 4.48 0.0987 0.0347
1.20 2 6 0.2000 2.40 6.88 0.1515 0.0485
1.21 1 7 0.2333 1.21 8.09 0.1782 0.0551
1.37 1 8 0.2667 1.37 9.46 0.2084 0.0583
1.39 1 9 0.3000 1.39 10.85 0.2390 0.0610
1.40 1 10 0.3333 1.40 12.25 0.2698 0.0635
1.42 1 11 0.3667 1.42 13.67 0.3011 0.0656
1.45 1 12 0.4000 1.45 15.12 0.3330 0.0670
1.48 2 14 0.4667 2.96 18.08 0.3982 0.0684
1.49 1 15 0.5000 1.49 19.57 0.4311 0.0689
1.52 1 16 0.5333 1.52 21.09 0.4645 0.0688
1.53 1 17 0.5667 1.53 22.62 0.4982 0.0684
1.57 1 18 0.6000 1.57 24.19 0.5328 0.0672
1.59 1 19 0.6333 1.59 25.78 0.5678 0.0655
1.60 1 20 0.6667 1.60 27.38 0.6031 0.0636
1.62 1 21 0.7000 1.62 29.00 0.6388 0.0612
1.64 1 22 0.7333 1.64 30.64 0.6749 0.0584
1.71 1 23 0.7667 1.71 32.35 0.7126 0.0541
1.73 1 24 0.8000 1.73 34.08 0.7507 0.0493
1.77 1 25 0.8333 1.77 35.85 0.7896 0.0437
1.81 1 26 0.8667 1.81 37.66 0.8295 0.0372
1.86 1 27 0.9000 1.86 39.52 0.8705 0.0295
1.92 1 28 0.9333 1.92 41.44 0.9128 0.0206
1.98 2 30 3.96 45.40
TOTAL 12.8333 1.3087

Para datos agrupados, este ndice se calcula aplicando la siguiente frmula:

K 1

p q i i
IG k 1
K 1

p
k 1
i

f1 f 2 f3 fi
pi
n

X1 f1 X 2 f 2 X 3 f3 X i f i
qi
X1 f1 X 2 f 2 X 3 f3 X k 1 f k 1 X k f k

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

0.2281
IG 0.1160 11.60%
1.9667

22 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Un ndice Gini de 11.60% indica que la muestra est bastante uniformemente repartida, es decir, su nivel
de concentracin no es excesivamente alto.

Estatura
Xi fi Acum(fi) pi Xifi Acum(Xifi) qi pi-qi
(Cm.)
[1.010 - 1.204] 1.107 6 6 0.2000 6.642 6.642 0.1475 0.0525
(1.204 - 1.398] 1.301 3 9 0.3000 3.903 10.545 0.2341 0.0659
(1.398 - 1.592] 1.495 10 19 0.6333 14.950 25.495 0.5660 0.0673
(1.592 - 1.786] 1.689 6 25 0.8333 10.134 35.629 0.7910 0.0424
(1.786 - 1.980] 1.883 5 30 9.415 45.044
Total 30 1.9667 0.2281

Asimetra:

Hemos comentado que el concepto de asimetra se refiere a si la curva que forman los valores de la serie
presenta la misma forma a izquierda y derecha de un valor central (media aritmtica)

1 0 1 0 1 0

Curva simtrica Curva asimtrica positiva Curva asimtrica negativa

Para medir el nivel de asimetra se utiliza el llamado Coeficiente de Asimetra de Fisher, que viene definido:

3
n n
Xi X
1
n 1 n 2 i 1

Los resultados pueden ser los siguientes:

1 0 : Distribucin simtrica; existe la misma concentracin de valores a la derecha y a la izquierda de la


media.

1 0 : Distribucin asimtrica negativa o a izquierdas (desplazada hacia la izquierda).

1 0 : Distribucin asimtrica positiva o a derechas (desplazada hacia la derecha).

Si existe simetra, entonces 1 0 , y X X Me ; si adems la distribucin es unimodal, tambin podemos


afirmar que: X X Mo X Me

Si 1 0 , entonces : X X Me X Mo

Si 1 0 , entonces : X X Me X Mo

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

23 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

30
1 0.9404 0.0347
30 1 30 2
Como 1 0.0347 es casi simtrico, con una ligera acumulacin a la derecha.

Para datos agrupados:

3
n K
Xk X
1
n 1 n 2 k 1 k
f

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:


3
Estatura Xi X
Xi fi Xifi X2ifi fi
(Cm.)
[1.010 - 1.204] 1.107 6 6.642 7.3527 -20.4348
(1.204 - 1.398] 1.301 3 3.903 5.0778 -1.3410
(1.398 - 1.592] 1.495 10 14.950 22.3503 -0.0002
(1.592 - 1.786] 1.689 6 10.134 17.1163 2.1957
(1.786 - 1.980] 1.883 5 9.415 17.7284 15.4083
Total 30 45.044 69.6255 -4.1719

45.044
X 1.5015
30

45.044
2

69.6255
30 0.2622
30 1

30
1 4.1719 0.1541
30 1 30 2
Los datos tienen una distribucin asimtrica negativa o a izquierdas (desplazada hacia la izquierda).

45.044
X 1.502
30

15 9
X Me 1.398 1.592 1.398 1.514
10

10 3
X Mo 1.398 1.592 1.398 1.521
10 6 10 3

Entonces: X X Me X Mo

24 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

Curtosis:

El Coeficiente de Curtosis analiza el grado de concentracin que presentan los valores alrededor de la zona
central de la distribucin.

Se definen 3 tipos de distribuciones segn su grado de curtosis:

Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de
la variable (el mismo que presenta una distribucin normal).

Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales
de la variable.

Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales
de la variable.

2 0

2 0

2 0

Mesocrtica Platicrtica Leptocrtica

El Coeficiente de Curtosis viene definido por la siguiente frmula:

n n 1 Xi X 3 n 1
4 2
n

2 n 2 n 3
n 1 n 2 n 3 i 1

Los resultados pueden ser los siguientes:

Si 2 0 : Distribucin mesocrtica.

Si 2 0 : Distribucin platicrtica.

Si 2 0 : Distribucin leptocrtica.

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

25 Daniel Guzmn Rojas


Estadstica Descriptiva Anlisis Estadstico

30 30 1 3 30 1
2

2 62.3581 0.6921

30 1 30 2 30 3
30 2 30 3
Como 2 0.6921 es ligeramente platicrtica (achatada).

Para datos agrupados:

n n 1 Xk X 3 n 1
4 2
K

2
n 1 n 2 n 3
k 1
f
k n 2 n 3

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:


4
Estatura Xi X
Xi fi Xifi X2ifi fi
(Cm.)
[1.010 - 1.204] 1.107 6 6.642 7.3527 30.7451
(1.204 - 1.398] 1.301 3 3.903 5.0778 1.0254
(1.398 - 1.592] 1.495 10 14.950 22.3503 0.0000
(1.592 - 1.786] 1.689 6 10.134 17.1163 1.5705
(1.786 - 1.980] 1.883 5 9.415 17.7284 22.4225
Total 30 45.044 69.6255 55.7635

45.044
X 1.5015
30

45.044
2

69.6255
30 0.2622
30 1

30 30 1 3 30 1
2

2 55.7635 0.9719

30 1 30 2 30 3
30 2 30 3
Como 2 0.9719 es ligeramente platicrtica (achatada).

26 Daniel Guzmn Rojas

You might also like