1 - Estadistica Descriptiva

UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA
FACULTAD DE CIENCIAS ECONMICAS Y ADMINISTRATIVAS
DEPARTAMENTO ACADMICO DE CIENCIAS ECONMICAS
TEXTO UNIVERSITARIO
ESTADSTICA DESCRIPTIVA
Estadstica Descriptiva Anlisis Estadstico
ESTADSTICA DESCRIPTIVA
La estadstica descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una poblacin,
altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer con-
clusiones sobre el comportamiento de estas variables.
Las variables pueden ser de dos tipos:
Variables cualitativas o atributos: no se pueden medir numricamente (por ejemplo: nacionalidad, color
de la piel, sexo).
Variables cuantitativas: tienen valor numrico (edad, precio de un producto, ingresos anuales).
Las variables tambin se pueden clasificar en:
Variables unidimensionales: slo recogen informacin sobre una caracterstica (por ejemplo: edad de los
alumnos de una clase).
Variables bidimensionales: recogen informacin sobre dos caractersticas de la poblacin (por ejemplo:
edad y altura de los alumnos de una clase).
Variables pluridimensionales: recogen informacin sobre tres o ms caractersticas (por ejemplo: edad, al-
tura y peso de los alumnos de una clase).
Segn la influencia que asignemos a unas variables sobre otras, podrn ser:
Variables independientes: Son las que el investigador escoge para establecer agrupaciones en el estudio,
clasificando intrnsecamente a los casos del mismo. Un tipo especial son las variables de , que modifican al
resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los re-
sultados por medio de un sesgo.
Variables dependientes: Son las variables de respuesta que se observan en el estudio y que podran estar
influenciadas por los valores de las variables independientes.
Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:
Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: nmero de hermanos (puede
ser 1, 2, 3....,etc., pero, por ejemplo, nunca podr ser 3.45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un
vehculo puede ser 80,3 km/h, 94,57 km/h...etc.
Las variables cualitativas se pueden clasificar en nominales y ordinales:
Nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los
colores o el lugar de residencia.
Ordinal: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no
es necesario que el intervalo entre mediciones sea uniforme, por ejemplo, leve, moderado, grave.
Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos:
1 Daniel Guzmn Rojas

Individuo: cualquier elemento que porte informacin sobre el fenmeno que se estudia. As, si estudiamos
la altura de los nios de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada
vivienda es un individuo.
Poblacin: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten informacin so-
bre el fenmeno que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la po-
blacin ser el total de las viviendas de dicha ciudad.
Muestra: subconjunto que seleccionamos de la poblacin. As, si se estudia el precio de la vivienda de una
ciudad, lo normal ser no recoger informacin sobre todas las viviendas de la ciudad (sera una labor muy
compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente
representativo.
Aleatoriedad: La aleatoriedad es un campo de definicin que, en matemticas, se asocia a todo proceso

cuyo resultado no es previsible ms que en razn de la intervencin del azar. El resultado de todo suceso
aleatorio no puede determinarse en ningn caso antes de que este se produzca. Por consiguiente, los pro-
cesos aleatorios quedan englobados dentro del rea del clculo de probabilidad y, en un marco ms amplio
en el de la estadstica.
Parmetro: En Estadstica, funcin definida sobre valores numricos de una poblacin. Se llama parmetro
a un valor representativo de una poblacin, como la media aritmtica, una proporcin o su desviacin tpi-
ca.
Estadgrafo o Estadstico: Es una medida cuantitativa, derivada de un conjunto de datos de una muestra
con el objetivo de estimar un parmetro o contrastar caractersticas de una poblacin o modelo estadstico.
DISTRIBUCIN DE FRECUENCIA PARA DATOS CUANTITATIVOS

La distribucin de frecuencia es la representacin estructurada, en forma de tabla, de toda la informacin
que se ha recogido sobre la variable que se estudia.
Frecuencias Absolutas Frecuencias Relativas

Variable
Simple Acumulada Simple Acumulada
(Xi)
(fi) (Fi) (hi) (Hi)
X1 f1 F1 =f1 h1 =f1 /n H1 =F1 /n
X2 f2 F2 =F1 +f2 h2 =f2 /n H2 =F2 /n
X3 f3 F3 =F2 +f3 h3 =f3 /n H3 =F3 /n

Xn-1 fn-1 Fn-1 =Fn-2 +fn-1 hn-1 =fn-1 /n Hn-1 =Fn-1 /n
Xn fn Fn=Fn-1 +fn=n hn=fn/n Hn=Fn/n=1
Total n 1
Siendo X los distintos valores que puede tomar la variable.
Siendo n el tamao muestral.
Siendo f el numero de veces que se repite cada valor.
Siendo F el numero de veces acumulado que se repite cada valor.
Siendo h el porcentaje que la repeticin de cada valor supone sobre el total.
Siendo H el porcentaje acumulado que la repeticin de cada calor supone sobre el total.
Veamos un ejemplo:
Medimos la altura de los nios de una clase y obtenemos los siguientes resultados (cm):

Alumno Estatura Alumno Estatura Alumno Estatura

Alumno 1 1.25 Alumno 11 1.21 Alumno 21 1.26
Si presentamos esta informacin estructurada obtendramos la siguiente tabla de frecuencia:

Variable
(Xi)
(fi) (Fi) (hi) (Hi)
1.20 1 1 0.0333 0.0333
1.21 4 5 0.1333 0.1667
1.22 4 9 0.1333 0.3000
1.23 2 11 0.0667 0.3667
1.24 1 12 0.0333 0.4000
1.25 2 14 0.0667 0.4667
1.26 3 17 0.1000 0.5667
1.27 3 20 0.1000 0.6667
1.28 4 24 0.1333 0.8000
1.29 3 27 0.1000 0.9000
1.30 3 30 0.1000 1.0000
Total 30 1.0000
Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, enton-
ces conviene agruparlos por intervalos, ya que de otra manera obtendramos una tabla de frecuencia muy
extensa que aportara muy poco valor a efectos de sntesis.
Distribuciones de frecuencia agrupada

Supongamos que medimos la estatura de los habitantes de una vivienda y obtenemos los siguientes resul-
tados (cm):
Habitante Estatura Habitante Estatura Habitante Estatura

Habitante 1 1,15 Habitante 11 1,81 Habitante 21 1,16

Si presentramos esta informacin en una tabla de frecuencia obtendramos una tabla de 30 lneas (una pa-
ra cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3%.
Esta tabla nos aportara escasa informacin
En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la informacin queda ms resumida
(se pierde, por tanto, algo de informacin), pero es ms manejable e informativa:
El nmero de tramos en los que se agrupa la informacin es una decisin que debe tomar el analista: la re-
gla es que mientras ms tramos se utilicen menos informacin se pierde, pero puede que menos represen-
tativa e informativa sea la tabla.
Nmero de Intervalos: El nmero de intervalos (k) debe ser como mnimo 5 y como mximo 15.
Mtodo de Sturges: k 1 3.322log n . El mtodo de Sturges se recomienda especialmente cuando

los datos tienen forma acampanada.
k 1 3.322log 30 5.91 6
Mtodo raz de n: k n
k 30 5.48 5
Rango (R): se considera como el dato mayor menos el dato menor de todo el conjunto de datos considera-
dos en toda la muestra, si consideramos al dato menor de la muestra y al dato mayor entonces el Rango es-
tar determinada como:
R Dmax Dmin
R 1.98 1.01 0.97

Amplitud de clase (Ai): Se considera la amplitud que deben tener las clases consideradas para realizar un
estudio estadstico. Para n datos con k clases se determina que la amplitud de clase es igual a:
R
wi
k
0.97
wi 0.194
5

Estatura
(Cm.)
(fi) (Fi) (hi) (Hi)
[1.010 - 1.204) 6 6 0.2000 0.2000
[1.204 - 1.398) 3 9 0.1000 0.3000
[1.398 - 1.592) 10 19 0.3333 0.6333
[1.592 - 1.786) 6 25 0.2000 0.8333
[1.786 - 1.980] 5 30 0.1667 1.0000
Total 30 1.0000

DISTRIBUCIN DE FRECUENCIA PARA DATOS CUALITATIVOS

Variable Frecuencias Absolutas Frecuencias Relativas
Categorica Simple Acumulada Simple Acumulada
(Ci) (fi) (Fi) (hi) (Hi)
C1 f1 F1 =f1 h1 =f1 /n H1 =F1 /n
C2 f2 F2 =F1 +f2 h2 =f2 /n H2 =F2 /n
C3 f3 F3 =F2 +f3 h3 =f3 /n H3 =F3 /n

Cn-1 fn-1 Fn-1 =Fn-2 +fn-1 hn-1 =fn-1 /n Hn-1 =Fn-1 /n
Cn fn Fn=Fn-1 +fn=n hn=fn/n Hn=Fn/n=1
Total n 1
Siendo C las distintas categorias de la variable categorica.
Siendo n el tamao muestral.
Siendo f el numero de veces que se repite cada valor.
Siendo F el numero de veces acumulado que se repite cada valor.
Siendo h el porcentaje que la repeticin de cada valor supone sobre el total.
Siendo H el porcentaje acumulado que la repeticin de cada calor supone sobre el total.
perro hamster pjaro pjaro

gato gato gato perro
perro perro perro perro
hamster hmster perro pjaro
pjaro gato hmster gato

Mascota Simple Acumulada Simple Acumulada
(fi) (Fi) (hi) (Hi)
perro 7 7 0.4375 0.4375
gato 5 12 0.3125 0.7500
hmster 2 14 0.1250 0.8750
pjaro 2 16 0.1250 1.0000
Total 16 1.0000
Histograma
En estadstica, un histograma es una representacin grfica de una variable en forma de barras, donde la
superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se
representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente sealando las
marcas de clase, es decir, la mitad del intervalo en el que estn agrupados los datos.
Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por
comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos
son cualitativos (no-numricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagra-
ma de sectores.

Los histogramas son ms frecuentes en ciencias sociales, humanas y econmicas que en ciencias naturales
y exactas. Y permite la comparacin de los resultados de un proceso.
Para graficar el Histograma se coloca el intervalo de clase en el eje de las X (abscisa) y la frecuencia absoluta
o frecuencia relativa en el eje de las Y (ordenada)
Histograma
12
11
10
10
8
Frecuencia Absoluta
6 6
6
5
5
3
3
0
1.010 - 1.204 1.204 - 1.398 1.398 - 1.592 1.592 - 1.786 1.786 - 1.980
Estatura (Cm.)
Histograma para datos cualitativos

50.00%
45.00% 43.75%
40.00%
35.00%
31.25%
30.00%
Frecuencia relativa
25.00%
20.00%
15.00%
12.50% 12.50%
10.00%
5.00%
0.00%
perro gato hmster pjaro
Mascota
Polgono de frecuencias
Es un grfico de lneas que se usa para presentar las frecuencias absolutas de los valores de una distribu-
cin en el cual la altura del punto asociado a un valor de las variables es proporcional a la frecuencia de di-
cho valor.

Polgono de frecuencias
12
11
10
10
8
Frecuencia Absoluta
7
6 6
6
5
5
4
3
0
1.107 1.301 1.495 1.689 1.883
Estatura (Cm.)
Ojiva porcentual
Es un grfico acumulativo, el cual es muy til cuando se quiere representar el rango porcentual de cada va-
lor en una distribucin de frecuencias.
Para graficar la ojiva se coloca el lmite superior del intervalo de clase en el eje de las X (abscisa) y la fre-
cuencia absoluta o frecuencia relativa en el eje de las Y (ordenada)
Ojiva 100.00%
100.00%
90.00%
83.33%
80.00%
70.00%
63.33%
Frecuencia Relativa Acumulada
60.00%
50.00%
40.00%
30.00%
30.00%
20.00%
20.00%
10.00%
0.00%
0 1.204 1.398 1.592 1.786 1.980
Estatura (Cm.)
MEDIDAS DE POSICIN
Las medidas de posicin nos facilitan informacin sobre la serie de datos que estamos analizando. Estas
medidas permiten conocer diversas caractersticas de esta serie de datos.
Las medidas de posicin son de dos tipos:

Medidas de posicin central: informan sobre los valores medios de la serie de datos.
Medidas de posicin no centrales: informan de como se distribuye el resto de los valores de la serie.
MEDIDAS DE POSICIN CENTRAL
Las principales medidas de posicin central son las siguientes:
1. Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media,
siendo las ms utilizadas:
Media aritmtica: se calcula multiplicando cada valor por el nmero de veces que se repite. La suma
de todos estos productos se divide por el total de datos de la muestra:
X i
X i 1
X1 X 2 X 3 X n1 X n
X
n
Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:
1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01
entonces:
1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01

X 1.513
30
Media aritmtica para datos agrupados:
Se determina la marca de clase para cada una de las categoras:
Linf i Lsup i
Xi
2
n
X f
i i
X i 1
X1 f1 X 2 f 2 X 3 f3 X n1 f n1 X n f n
X
n
Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:
Se determina el promedio de los Lmites inferior y superior de cada categora:

Marca de
Estatura
Clase fi Xifi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 6.642
(1.204 - 1.398] 1.301 3 3.903
(1.398 - 1.592] 1.495 10 14.950
(1.592 - 1.786] 1.689 6 10.134
(1.786 - 1.980] 1.883 5 9.415
Total 30 45.044
entonces:
45.044
X 1.502
30
Media geomtrica: se eleva cada valor al nmero de veces que se ha repetido. Se multiplican todo
estos resultados y al producto final se le calcula la raz "n" (siendo "n" el total de datos de la mues-
tra).
n
XG n Xi
i 1
X G n X1 * X 2 * X 3 * * X n1 * X n
1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01
entonces:
X G 30 1.15*1.53*1.21* *1.48*1.39* *1.49*1.98*1.01 1.491
Media geomtrica para datos agrupados:
Linf i Lsup i
Xi
2
n
X G n X i fi
i 1
X G n X1f1 * X 2f2 * X 3f3 * * X nfn11 * X nfn

Marca de
Estatura
Clase fi Xifi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 1.840
(1.204 - 1.398] 1.301 3 2.202
(1.398 - 1.592] 1.495 10 55.771
(1.592 - 1.786] 1.689 6 23.215
(1.786 - 1.980] 1.883 5 23.673
Total 30 124,210.71
entonces:
X G 30 124, 210.71 1.478
La media armnica: es igual al recproco, o inverso, de la media aritmtica de los recprocos de dchos
nmeros
n
XH n
1
X
i 1 i
n
XH
1 1 1 1 1

X1 X 2 X 3 X n 1 X n
1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01
entonces:
30
XG 1.468
1 1 1 1 1 1 1 1

1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01
Media armnica para datos agrupados:
Linf i Lsup i
Xi
2
n
XH n
fi
X
i 1 i

n
XH
f1 f f f n 1 f
2 3 n
X1 X 2 X 3 X n 1 X n
Marca de
Estatura
Clase fi fi/Xi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 5.420
(1.204 - 1.398] 1.301 3 2.306
(1.398 - 1.592] 1.495 10 6.689
(1.592 - 1.786] 1.689 6 3.552
Cla
(1.786 - 1.980] 1.883 5 2.655
Total 30 20.62
entonces:
30
XH 1.455
20.62
2. Mediana: es el valor de la serie de datos que se sita justamente en el centro de la muestra (un 50%
de valores son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su
clculo toda la informacin de la serie de datos (no pondera cada valor por el nmero de veces que
se ha repetido).
X1 X 2 X n1 X n
Si n es impar la mediana es el valor X Me X n 1 .

2
X1 X 2 X n1 X n1 X n
2
X ( n 1) X ( n 1)
1 1
Si n es par la mediana es el valor X Me 2 2 2 2
.
2
X1 X 2 X ( n1) X ( n1) X ( n1) X n1 X n

1 1
2 2 2 2 2
Primero tenemos que ordenar de menor a mayor o de mayor a menor:
1.01 1.15 1.16 1.49 X ( n1) 1.52 1.92 1.98 1.98

2

Notamos que
n 1 15.5 , entonces X15 1.49 y X16 1.52 , entonces:
2
1.49 1.52
X Me 1.505
2
Mediana para datos agrupados:
Linf k Lsup k
Xk
2
Al tratar con datos agrupados, si n coincide con el valor de una frecuencia acumulada( n Fk ,
2 2
para el primera frecuencia absoluta acumulada), el valor de la mediana coincidir con la abscisa co-
rrespondiente. Si no coincide con el valor de ninguna abscisa, se calcula a travs de semejanza de
tringulos en el histograma o polgono de frecuencias acumuladas, utilizando la siguiente equivalen-
cia:
n
Fk 1
X Me Linf k 2 wk
fk
n
Fk 1
X Me Linf k 2
fk
Lsup k Linf k
Marca de
Estatura
Clase fi Fi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 6
(1.204 - 1.398] 1.301 3 9
(1.398 - 1.592] 1.495 10 19 Clase mediana
(1.592 - 1.786] 1.689 6 25
(1.786 - 1.980] 1.883 5 30
Total 30
como n 15 la clase mediana cae en la tercera categora, entonces:

2
15 9
X Me 1.398 1.592 1.398 1.514
10
3. Moda: es el valor que ms se repite en la muestra.

X Mo X i ; Si fi max fi , i 1, 2, 3, , k
1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01
Entonces, como los valores 1.16, 1.20, 1.48 y 1.98 se repiten dos veces (el mayor nmero de repeti-
ciones) tenemos cuatro modas (tetra modal):
X Mo1 1.16 , X Mo 2 1.20 , X Mo3 1.48 , X Mo 4 1.98
Moda para datos agrupados:
Linf i Lsup i
Xi
2
Para obtener la moda en datos agrupados se usa la siguiente frmula:
d1
X Mo Linf k wk
d1 d 2
X Mo Linf k
d1
d1 d 2
Lsup k Linf k
Donde:
d1 Exceso de la frecuencia modal sobre la clase contigua inferior ( f k f k 1 ).
d 2 Exceso de la frecuencia modal sobre la clase contigua superior ( f k f k 1 ).
f k Frecuencia modal ( fi max fi , i 1, 2, 3, , k )
Marca de
Estatura
Clase fi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6
(1.204 - 1.398] 1.301 3
(1.398 - 1.592] 1.495 10 Clase modal
(1.592 - 1.786] 1.689 6
(1.786 - 1.980] 1.883 5
Total 30


como f3 max fi , i 1, 2, 3, 4, 5 10 la clase modal cae en la tercera categora, entonces:
10 3
X Mo 1.398 1.592 1.398 1.521
10 6 10 3
MEDIDAS DE POSICIN NO CENTRAL
Las medidas de posicin no centrales permiten conocer otros puntos caractersticos de la distribucin que
no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que dividen la
muestra en tramos iguales llamados cuantiles.
Los cuantiles son medidas de posicin que se determinan mediante un mtodo que determina la ubicacin
de los valores que dividen un conjunto de observaciones en partes iguales.
Los cuantiles son los valores de la distribucin que la dividen en partes iguales, es decir, en intervalos que
comprenden el mismo nmero de valores. Cuando la distribucin contiene un nmero alto de intervalos o
de marcas y se requiere obtener un promedio de una parte de ella, se puede dividir la distribucin en cua-
tro, en diez o en cien partes.
Los ms usados son los cuartiles, cuando dividen la distribucin en cuatro partes; los deciles, cuando divi-
den la distribucin en diez partes y los percentiles o percentiles, cuando dividen la distribucin en cien par-
tes. Los cuartiles, como los deciles y los percentiles, son en cierta forma una extensin de la mediana.
Cuartiles: son los tres valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente,
en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la
mediana.
X1 X 2 X n1 X n
Para un nmero de n observaciones en el que los datos no son representados en clases, una vez ordenados
los datos la posicin de los cuartiles se pueden localizar de la siguiente forma:
k n 1
4
Entonces:
k
Qk Linf Lsup Linf
4
3 n 1
Notamos que 23.25 , entonces X 23 1.71 y X 24 1.73 , entonces:
4
3
Q3 1.71 1.73 1.71 1.725
4
Es decir, el 75% de los habitantes tiene estatura inferior o igual a 1.725 Mts.

Clculo de los cuartiles para datos agrupados:
n
Buscamos la categora que ocupa cada cuartil mediante la expresin Clculo de los cuartiles k , enton-
4
ces: Clase cuartil k primer k n 4 F (para el primera frecuencia absoluta acumulada), donde
i
k 1, 2, 3 , entonces:
n
k Fk 1

4
Qk Linf k wk
fk
n
k Fk 1
Lsup k Linf k
4
Qk Linf k
fk
Marca de
Estatura
Clase fi Fi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 6
(1.204 - 1.398] 1.301 3 9
(1.398 - 1.592] 1.495 10 19
(1.592 - 1.786] 1.689 6 25 Clase cuartil 3
(1.786 - 1.980] 1.883 5 30
Total 30
como 3n 22.5 la clase cuartil 3 cae en la cuarta categora, entonces:

4
22.5 19
Q3 1.592 1.786 1.592 1.71
6
Deciles: son nueve valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en
diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.
D1, D2, D3,, D7, D8, y D9 determinan los valores correspondientes al 10%, al 20%, al 30%,,al 70%, al 80% y
al 90% de los datos. D5 coincide con la mediana.
los datos la posicin de los deciles se pueden localizar de la siguiente forma:

k n 1
10
Entonces:
k
Dk Linf Lsup Linf
10
7 n 1
10
7
D7 1.62 1.64 1.62 1.634
10
Clculo de los deciles para datos agrupados:
n
Buscamos la categora que ocupa cada decil mediante la expresin Clculo de los deciles k , entonces:
4
Clase decil k primer k n 10 F i (para el primera frecuencia absoluta acumulada), donde
k 1, 2, 3, , 7,8, 9 , entonces:
n
k Fk 1

10
Dk Linf k wk
fk
n
k Fk 1
Lsup k Linf k
10
Dk Linf k
fk
Marca de
Estatura
Clase fi Fi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 6
(1.204 - 1.398] 1.301 3 9
(1.398 - 1.592] 1.495 10 19
(1.592 - 1.786] 1.689 6 25 Clase decil 7
(1.786 - 1.980] 1.883 5 30
Total 30

como 7n 21 la clase decil 7 cae en la cuarta categora, entonces:

10
21 19
D7 1.592 1.786 1.592 1.66
6
Percentiles: son noventinueve valores que distribuyen la serie de datos, ordenada de forma creciente o de-
creciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados.
P1, P2, P3,, P97, P98, y P99 determinan los valores correspondientes al 1%, al 2%, al 3%,,al 97%, al 98% y al
99% de los datos. P50 coincide con la mediana.
los datos la posicin de los percentiles se pueden localizar de la siguiente forma:
k n 1
100
Entonces:
k
Pk Linf Lsup Linf
100
73 n 1
100
73
P73 1.64 1.71 1.64 1.691
100
Clculo de los percentiles para datos agrupados:
n
Buscamos la categora que ocupa cada percentil mediante la expresin Clculo de los percentil k , en-
4
tonces: Clase percentil k primer k n 100
Fi , para el primera frecuencia absoluta acumulada),
donde k 1, 2, 3, , 49, 50, 51, , 97, 98, 99 , entonces:
n
k Fk 1
Pk Linf k 100
wk
fk
n
k Fk 1
100
Pk Linf k
fk
Lsup k Linf k

Marca de
Estatura
Clase fi Fi
(Cm.)
(Xi)
[1.010 - 1.204] 1.107 6 6
(1.204 - 1.398] 1.301 3 9
(1.398 - 1.592] 1.495 10 19
(1.592 - 1.786] 1.689 6 25 Clase percentil 73
(1.786 - 1.980] 1.883 5 30
Total 30
como 73 n 100 21.9 la clase percentil 73 cae en la cuarta categora, entonces:

21.9 19
P73 1.592 1.786 1.592 1.69
6
MEDIDAS DE DISPERSIN
Estudia la distribucin de los valores de la serie, analizando si estos se encuentran ms o menos concentra-
dos, o ms o menos dispersos.
Existen diversas medidas de dispersin, entre las ms utilizadas podemos destacar las siguientes:
Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor ms elevado
y el valor ms bajo.
R Dmax Dmin
R 1.98 1.01 0.97
Varianza: Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de
las diferencias al cuadrado entre cada valor y la media, multiplicadas por el nmero de veces que se ha re-
petido cada valor. El sumatorio obtenido se divide por el tamao de la muestra menos 1 (por correccin
muestral).
2
n
Xi
X i2 i 1
n n
X X
2
i
n
2 i
i 1
n 1 n 1

45.4
2
70.6978
2 30 0.0687
30 1
Para datos agrupados:
2
K
K X k fk
X X X k2 f k k 1
K

2
k f
n
2 k 1 i
k 1
n 1 n 1
La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los va-
lores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos es-
tn.
Estatura
Xi fi Xifi X2ifi
(Cm.)
[1.010 - 1.204] 1.107 6 6.642 7.3527
(1.204 - 1.398] 1.301 3 3.903 5.0778
(1.398 - 1.592] 1.495 10 14.950 22.3503
(1.592 - 1.786] 1.689 6 10.134 17.1163
(1.786 - 1.980] 1.883 5 9.415 17.7284
Total 30 45.044 69.6255
45.044
2
69.6255
2 30 0.0687
30 1
Desviacin tpica o desviacin estndar: Se calcula como raz cuadrada de la varianza.
2
n
Xi
X i2 i 1
n n
X X
2
i
n
i
i 1
n 1 n 1
45.4
2
70.6978
30 0.2621
30 1

2
K
K X k fk
X X X k2 f k k 1
K

2
k f
n
k 1 i
k 1
n 1 n 1
Estatura
Xi fi Xifi X2ifi
(Cm.)
[1.010 - 1.204] 1.107 6 6.642 7.3527
(1.204 - 1.398] 1.301 3 3.903 5.0778
(1.398 - 1.592] 1.495 10 14.950 22.3503
(1.592 - 1.786] 1.689 6 10.134 17.1163
(1.786 - 1.980] 1.883 5 9.415 17.7284
Total 30 45.044 69.6255
45.044
2
69.6255
30 0.2622
30 1
Coeficiente de variabilidad o coeficiente de variacin de Pearson: se calcula como cociente entre la des-
viacin tpica y la media.

CV
X
El coeficiente de variabilidad debe estar en el rango de:
0 CV 1
La variabilidad es adecuada cuando el CV est por debajo de 0.2 o 20%.
0.2621
CV 0.1732
1.513
CV 17.32%
El coeficiente de variabilidad est por debajo del 20%, por lo tanto, los valores de la serie estn concentra-
dos alrededor de la media.
MEDIDAS DE FORMA
Las medidas de forma permiten conocer qu forma tiene la curva que representa la serie de datos de la
muestra. En concreto, podemos estudiar las siguientes caractersticas de la curva:
a) Concentracin: mide si los valores de la variable estn ms o menos uniformemente repartidos a lo lar-
go de la muestra.

b) Asimetra: mide si la curva tiene una forma simtrica, es decir, si respecto al centro de la misma (centro
de simetra) los segmentos de curva que quedan a derecha e izquierda son similares.
c) Curtosis: mide si los valores de la distribucin estn ms o menos concentrados alrededor de los valo-
res medios de la muestra.
Concentracin:
Para medir el nivel de concentracin de una distribucin de frecuencia se pueden utilizar distintos indicado-
res, entre ellos el ndice de Gini.
Este ndice se calcula aplicando la siguiente frmula:
n 1
p q i i
IG i 1
n 1
p
i 1
i
En donde pi mide el porcentaje de individuos de la muestra que presentan un valor igual o inferior al de
X i . pi se calcula aplicando la siguiente frmula:
f1 f 2 f3 fi
pi
n
Mientras que qi se calcula aplicando la siguiente frmula:
X1 f1 X 2 f 2 X 3 f3 X i fi
qi
X1 f1 X 2 f 2 X 3 f3 X n1 f n1 X n f n
El ndice Gini (IG) puede tomar valores entre 0 y 1 (0% y 100%):
IG 0 : Concentracin mnima. La muestra est uniformemente repartida a lo largo de todo su rango.
IG 1 : Concentracin mxima. Un slo valor de la muestra acumula el 100% de los resultados.
Un ndice de Gini adecuado sera cuando es inferior al 20%.
Ejemplo: si tomamos los 30 datos agrupados (sin intervalo de clase) de las estaturas de los habitantes:
1.3087
IG 0.1020 10.20%
12.8333
Un ndice Gini de 10.20% indica que la muestra est bastante uniformemente repartida, es decir, su nivel
de concentracin no es excesivamente alto.

Xi fi Acum(fi) pi Xifi Acum(Xifi) qi pi-qi

1.01 1 1 0.0333 1.01 1.01 0.0222 0.0111
1.15 1 2 0.0667 1.15 2.16 0.0476 0.0191
1.16 2 4 0.1333 2.32 4.48 0.0987 0.0347
1.20 2 6 0.2000 2.40 6.88 0.1515 0.0485
1.21 1 7 0.2333 1.21 8.09 0.1782 0.0551
1.37 1 8 0.2667 1.37 9.46 0.2084 0.0583
1.39 1 9 0.3000 1.39 10.85 0.2390 0.0610
1.40 1 10 0.3333 1.40 12.25 0.2698 0.0635
1.42 1 11 0.3667 1.42 13.67 0.3011 0.0656
1.45 1 12 0.4000 1.45 15.12 0.3330 0.0670
1.48 2 14 0.4667 2.96 18.08 0.3982 0.0684
1.49 1 15 0.5000 1.49 19.57 0.4311 0.0689
1.52 1 16 0.5333 1.52 21.09 0.4645 0.0688
1.53 1 17 0.5667 1.53 22.62 0.4982 0.0684
1.57 1 18 0.6000 1.57 24.19 0.5328 0.0672
1.59 1 19 0.6333 1.59 25.78 0.5678 0.0655
1.60 1 20 0.6667 1.60 27.38 0.6031 0.0636
1.62 1 21 0.7000 1.62 29.00 0.6388 0.0612
1.64 1 22 0.7333 1.64 30.64 0.6749 0.0584
1.71 1 23 0.7667 1.71 32.35 0.7126 0.0541
1.73 1 24 0.8000 1.73 34.08 0.7507 0.0493
1.77 1 25 0.8333 1.77 35.85 0.7896 0.0437
1.81 1 26 0.8667 1.81 37.66 0.8295 0.0372
1.86 1 27 0.9000 1.86 39.52 0.8705 0.0295
1.92 1 28 0.9333 1.92 41.44 0.9128 0.0206
1.98 2 30 3.96 45.40
TOTAL 12.8333 1.3087
Para datos agrupados, este ndice se calcula aplicando la siguiente frmula:
K 1
p q i i
IG k 1
K 1
p
k 1
i
f1 f 2 f3 fi
pi
n
X1 f1 X 2 f 2 X 3 f3 X i f i
qi
X1 f1 X 2 f 2 X 3 f3 X k 1 f k 1 X k f k
0.2281
IG 0.1160 11.60%
1.9667

Un ndice Gini de 11.60% indica que la muestra est bastante uniformemente repartida, es decir, su nivel
de concentracin no es excesivamente alto.
Estatura
Xi fi Acum(fi) pi Xifi Acum(Xifi) qi pi-qi
(Cm.)
[1.010 - 1.204] 1.107 6 6 0.2000 6.642 6.642 0.1475 0.0525
(1.204 - 1.398] 1.301 3 9 0.3000 3.903 10.545 0.2341 0.0659
(1.398 - 1.592] 1.495 10 19 0.6333 14.950 25.495 0.5660 0.0673
(1.592 - 1.786] 1.689 6 25 0.8333 10.134 35.629 0.7910 0.0424
(1.786 - 1.980] 1.883 5 30 9.415 45.044
Total 30 1.9667 0.2281
Asimetra:
Hemos comentado que el concepto de asimetra se refiere a si la curva que forman los valores de la serie
presenta la misma forma a izquierda y derecha de un valor central (media aritmtica)
1 0 1 0 1 0
Curva simtrica Curva asimtrica positiva Curva asimtrica negativa
Para medir el nivel de asimetra se utiliza el llamado Coeficiente de Asimetra de Fisher, que viene definido:
3
n n
Xi X
1
n 1 n 2 i 1
Los resultados pueden ser los siguientes:
1 0 : Distribucin simtrica; existe la misma concentracin de valores a la derecha y a la izquierda de la

media.
1 0 : Distribucin asimtrica negativa o a izquierdas (desplazada hacia la izquierda).
1 0 : Distribucin asimtrica positiva o a derechas (desplazada hacia la derecha).
Si existe simetra, entonces 1 0 , y X X Me ; si adems la distribucin es unimodal, tambin podemos

afirmar que: X X Mo X Me
Si 1 0 , entonces : X X Me X Mo
Si 1 0 , entonces : X X Me X Mo

30
1 0.9404 0.0347
30 1 30 2
Como 1 0.0347 es casi simtrico, con una ligera acumulacin a la derecha.
3
n K
Xk X
1
n 1 n 2 k 1 k
f

3
Estatura Xi X
Xi fi Xifi X2ifi fi
(Cm.)
[1.010 - 1.204] 1.107 6 6.642 7.3527 -20.4348
(1.204 - 1.398] 1.301 3 3.903 5.0778 -1.3410
(1.398 - 1.592] 1.495 10 14.950 22.3503 -0.0002
(1.592 - 1.786] 1.689 6 10.134 17.1163 2.1957
(1.786 - 1.980] 1.883 5 9.415 17.7284 15.4083
Total 30 45.044 69.6255 -4.1719
45.044
X 1.5015
30
45.044
2
69.6255
30 0.2622
30 1
30
1 4.1719 0.1541
30 1 30 2
Los datos tienen una distribucin asimtrica negativa o a izquierdas (desplazada hacia la izquierda).
45.044
X 1.502
30
15 9
X Me 1.398 1.592 1.398 1.514
10
10 3
X Mo 1.398 1.592 1.398 1.521
10 6 10 3
Entonces: X X Me X Mo

Curtosis:
El Coeficiente de Curtosis analiza el grado de concentracin que presentan los valores alrededor de la zona
central de la distribucin.
Se definen 3 tipos de distribuciones segn su grado de curtosis:
Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de
la variable (el mismo que presenta una distribucin normal).
Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales
de la variable.
Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales
de la variable.
2 0
2 0
2 0
Mesocrtica Platicrtica Leptocrtica
El Coeficiente de Curtosis viene definido por la siguiente frmula:
n n 1 Xi X 3 n 1
4 2
n

2 n 2 n 3
n 1 n 2 n 3 i 1

Los resultados pueden ser los siguientes:
Si 2 0 : Distribucin mesocrtica.
Si 2 0 : Distribucin platicrtica.
Si 2 0 : Distribucin leptocrtica.

30 30 1 3 30 1
2

2 62.3581 0.6921

30 1 30 2 30 3
30 2 30 3
Como 2 0.6921 es ligeramente platicrtica (achatada).
n n 1 Xk X 3 n 1
4 2
K

2
n 1 n 2 n 3
k 1
f
k n 2 n 3


4
Estatura Xi X
Xi fi Xifi X2ifi fi
(Cm.)
[1.010 - 1.204] 1.107 6 6.642 7.3527 30.7451
(1.204 - 1.398] 1.301 3 3.903 5.0778 1.0254
(1.398 - 1.592] 1.495 10 14.950 22.3503 0.0000
(1.592 - 1.786] 1.689 6 10.134 17.1163 1.5705
(1.786 - 1.980] 1.883 5 9.415 17.7284 22.4225
Total 30 45.044 69.6255 55.7635
45.044
X 1.5015
30
45.044
2
69.6255
30 0.2622
30 1
30 30 1 3 30 1
2

2 55.7635 0.9719

30 1 30 2 30 3
30 2 30 3
Como 2 0.9719 es ligeramente platicrtica (achatada).

1 - Estadistica Descriptiva

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1 - Estadistica Descriptiva

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD NACIONAL AGRARIA DE LA SELVA

FACULTAD DE CIENCIAS ECONMICAS Y ADMINISTRATIVAS

DEPARTAMENTO ACADMICO DE CIENCIAS ECONMICAS

Las variables pueden ser de dos tipos:

Las variables tambin se pueden clasificar en:

Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:

Las variables cualitativas se pueden clasificar en nominales y ordinales:

1 Daniel Guzmn Rojas

Aleatoriedad: La aleatoriedad es un campo de definicin que, en matemticas, se asocia a todo proceso

DISTRIBUCIN DE FRECUENCIA PARA DATOS CUANTITATIVOS

Frecuencias Absolutas Frecuencias Relativas

2 Daniel Guzmn Rojas

Alumno Estatura Alumno Estatura Alumno Estatura

Si presentamos esta informacin estructurada obtendramos la siguiente tabla de frecuencia:

Frecuencias Absolutas Frecuencias Relativas

Distribuciones de frecuencia agrupada

Habitante Estatura Habitante Estatura Habitante Estatura

3 Daniel Guzmn Rojas

Mtodo de Sturges: k 1 3.322log n . El mtodo de Sturges se recomienda especialmente cuando

R 1.98 1.01 0.97

Frecuencias Absolutas Frecuencias Relativas

4 Daniel Guzmn Rojas

DISTRIBUCIN DE FRECUENCIA PARA DATOS CUALITATIVOS

perro hamster pjaro pjaro

Frecuencias Absolutas Frecuencias Relativas

5 Daniel Guzmn Rojas

Histograma para datos cualitativos

6 Daniel Guzmn Rojas

Las medidas de posicin son de dos tipos:

7 Daniel Guzmn Rojas

MEDIDAS DE POSICIN CENTRAL

Las principales medidas de posicin central son las siguientes:

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01

1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01

Media aritmtica para datos agrupados:

Se determina la marca de clase para cada una de las categoras:

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

Se determina el promedio de los Lmites inferior y superior de cada categora:

8 Daniel Guzmn Rojas

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01

X G 30 1.15*1.53*1.21* *1.48*1.39* *1.49*1.98*1.01 1.491

Media geomtrica para datos agrupados:

Se determina la marca de clase para cada una de las categoras:

X G n X1f1 * X 2f2 * X 3f3 * * X nfn11 * X nfn

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

Se determina el promedio de los Lmites inferior y superior de cada categora:

9 Daniel Guzmn Rojas

X G 30 124, 210.71 1.478

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

1.15 1.53 1.21 1.48 1.39 1.49 1.98 1.01

Media armnica para datos agrupados:

Se determina la marca de clase para cada una de las categoras:

10 Daniel Guzmn Rojas

Ejemplo: si tomamos los 30 datos agrupados de las estaturas de los habitantes:

Se determina el promedio de los Lmites inferior y superior de cada categora:

Si n es impar la mediana es el valor X Me X n 1 .

X1 X 2 X ( n1) X ( n1) X ( n1) X n1 X n

Ejemplo: si tomamos los 30 datos no agrupados de las estaturas de los habitantes:

Primero tenemos que ordenar de menor a mayor o de mayor a menor:

1.01 1.15 1.16 1.49 X ( n1) 1.52 1.92 1.98 1.98

11 Daniel Guzmn Rojas

X G 30 1.151.531.21* 1.481.39* 1.491.98*1.01 1.491