Professional Documents
Culture Documents
ESTADSTICA DESCRIPTIVA
Estadstica es la ciencia que utilizando las matemticas y de modo
particular el clculo estudia las leyes de comportamiento de aquellos
fenmenos que no estando sometidos a leyes rgidas dependen del azar y
basndose en ella, se predicen resultados.
La estadstica tiene dos grandes ramas: Descriptiva e Inferencial.
-
ANLISIS
ESTADSTICO
UNIDIMENSIONALES
DE
DISTRIBUCIONES
l i 1 l i
xi
2
Diagrama de Barras
12
Frecuencias
10
8
6
4
2
0
x1
x2
x3
x4
x5
Datos X
Diagrama rectngulos
Frecuencias
10
8
6
4
2
0
x1
x2
x3
x4
x5
Frecuencias absolutas
x1
x2
x3
xn
Datos
Frecuencias acumuladas
Intervalos clase
Densidades
f5
f3
f1
a1
f4
f2
a2
a3
a4
a5
Amplitudes
MEDIDAS DE POSICIN
Se trata de resumir la informacin en un nico nmero.
Las medidas de posicin pueden ser:
De tendencia central
1. Media
2. Mediana
3. Moda
De Posicin
1. Cuantiles.
Las medidas de posicin tienen que cumplir que intervengan todos los
valores de la variable, que se puedan calcular y que su valor sea nico para
cada distribucin de frecuencias.
1.- MEDIA
xn
i 1
i i
N
La media aritmtica es siempre el centro de gravedad de la
distribucin y es siempre un valor que entra dentro del campo de variacin
de la variable.
Si los datos estn agrupados en intervalos se toma la marca de clase de
cada intervalo para su clculo.
Propiedades
1.- Cuando a los valores de la variable se les suma una constante, la
nueva media es la antigua ms la constante.
x x K x x K
Demostracin
_
x n
i
(x
N
de las fi es N.
K ) ni
N
xn
i i
x, xi K x K x
Demostracin
x n
i
Kx n
i i
xn
i i
kx
Y KX B entonces Y K X B
10
2.- MEDIANA
Es el valor de la variable que ocupa el lugar central de la distribucin, es
decir el valor de la variable que deja el 50% de observaciones hacia la
izquierda y el 50% a la derecha.
Para poder hallar la mediana, lo primero que hay que hacer es ordenar los
valores de la variable de forma creciente, y escribir los valores de las
frecuencias acumuladas Fi.
Distinguiremos dos casos, datos no agrupados y datos agrupados.
11
3.- MODA
Es el valor de la variable que ms veces se repite. En algunos casos existen
varias modas, pero normalmente es una, si son dos se llama bimodal.
Mo Li
d i d i 1
.a i
(d i d i 1 ) (d i d i 1 )
CUARTILES
Son medidas de posicin que no tiene porqu ser central. Hay varios tipos
de cuantiles:
12
C1 = P25
C2 = D5 = P50 = ME .
MEDIDAS DE DISPERSIN
Las medidas de dispersin nos indican el mayor o menor alejamiento
de los valores de una variable respecto a un promedio. Casi siempre
acompaando a un promedio debe ir una medida de dispersin que nos
indica la mayor o menor representatividad del promedio.
Las medidas de dispersin absoluta ms utilizadas son:
Recorrido
Recorrido Intercuartlico
13
Desviacin Media
Varianza
Desviacin Tpica
RECORRIDO
Es la diferencia entre el mayor y el menor valor de la variable
R = xn x1
RECORRIDO INTERCUARTLICO
Es la diferencia entre el tercer cuartil y el primer cuartil
RI = Q3 Q1
DESVIACIN MEDIA
Es la suma de los valores en valor absoluto de la diferencia entre cada valor
de la variable y la media aritmtica por su frecuencia y dividido por el
nmero de datos.
in
D
x
i 1
xi x ni
VARIANZA
(x
x) 2 ni
N
14
Propiedades:
1.-La varianza siempre es mayor o igual que cero. Tan solo hay un caso en
que es cero y es cuando todos los valores de la variable son iguales.
2.- Si a los valores de la variable le sumo una constante, la varianza de la
nueva variable es la misma que la que tena antes.
Es decir si xi= xi+K entonces S2x= S2x
Demostracin:
S x2
( xi x)ni
N
( xi k ( x k ))2 ni
N
S x2
Demostracin
S x2
( x x)
ni
(kx
k x) 2 ni
N
k2
(x
x) 2 ni
N
k 2 S x2
5.- Si los datos estn divididos en estratos, entonces la varianza total ser
igual a la suma de la varianza entre estratos y la varianza dentro de los
estratos.
15
CVx
Sx
Tipificacin de variables
Tipificar una variable es cambiarla por otra que tenga de media cero
y desviacin tpica 1. Se utiliza para comparar distribuciones .
Cada valor se tipifica restando la media y dividiendo por la desviacin
tpica, la nueva variable z, tiene de media cero y desviacin tpica 1.
xx
z
Sx
MEDIDAS DE FORMA
Hacen referencia a la forma de la distribucin, simtrica, asimetra a
la derecha o a la izquierda. En general la mejor manera de verlo es por la
representacin grfica, pero si no la tenemos existen coeficientes que nos
indican la forma de la distribucin. Los ms utilizados son:
Coeficiente de asimetra de Pearson, slo se puede utilizar en
distribuciones campaniformes (forma de campana) y unimodales
16
Ap
x M o
Sx
g1
( x x) n
N .S
3
x
g2
( x x) n
N .S
4
x
17
18
mi
ni
Ni
ui
10-20
20-40
40-50
50-70
70-80
80-100
15
30
45
60
75
90
6
4
3
5
2
3
N=23
6
10
13
18
20
23
n .m
i
90
210
345
645
795
1065
pi
u
Ni
.100 qi i i .100
un
N
26,09
43,48
56,52
78,26
86,96
8,45
19,72
32,39
60,56
74,65
291,31
( p q ) 95,54 0,3280
291,31
p
i
19
a) Mediana b) Moda
xi
47
48
49
50
51
52
53
c) Media
fi
1
3
2
8
3
2
1
N de trabajadores
23
28
76
54
60
42
67
20
3.- Un hotel tiene cinco tipos de habitaciones cuyos precios as como los
ingresos son:
Precio por Habitacin
200
500
750
1.000
1.300
Ingresos
16.000
20.000
37.500
30.000
26.000
N Empleados
3
8
12
15
7
5
21
3
2,8
2,6
2,4
2,2
2
1,8
1,6
1,4
1,2
1
0,8
0,6
0,4
0,2
0
25
50
75
100
125
150
Calcular:
Tabla estadstica
Establecer n de empresas con beneficios superiores a 75
millones
Calcular media mediana y moda
Coeficiente de variacin y de asimetra de Pearson
( significado)
22
N empleados
8
10
16
14
10
5
2
8.- Una variable estadstica tiene una media igual a 7, y una desviacin tpica
igual a 5.
Calcular la media y la varianza de las variables:
Y = (X-2)/4
Z= 5X+2
23
ni
2
8
6
4
3
NI
12
34
-
ni%
-
NI%
-
Calcular:
Media aritmtica
Varianza
Coeficiente de variacin
Mediana
Recorrido intercuartlico
N personas
3
6
11
15
8
7
24
Propietarios
8
20
8
5
1
25
13.- Durante la ltima semana dos libreras han vendido los libros que
ocupan los tres primeros puestos en las listas de ventas a los siguientes
precios
Librera 1
Precio
N Ejemplares
18
10
21
13
23
15
Librera2
Precio
N Ejemplares
15
25
19
18
20
25
26
16.- Con los datos de la siguiente tabla obtngase las medias, varianzas y
covarianza de las variables X e Y
xi
ni
5
10
15
1
2
0
0
1
1
2
0
3
3
3
4
nij
10
27
yj
yj
1
4
2
5
4
nij
6
7
4
2
1
Y
X
600-1000
1000-1500
1500-2000
2000-3000
3000-5000
0-100
100-200
200-400
400-800
4
9
9
5
1
1
8
12
8
1
1
3
20
12
-
3
3
-
28
Produccin (miles)
400
420
440
480
500
Exportacin (miles)
80
80
90
92
98
x 14 y 7 S x2 3 S y2 1 r 0,95
21.- Dada la recta de regresin Y = - 0,25 + 3,2X Puede ser Sy< 6,4 si Sx
= 2?
22.- En una regin de Espaa se observ el precio del vino y la cantidad de
produccin durante algunos aos , obtenindose los siguientes datos :
X
Y
35
100
31
140
42
120
60
110
52
200
49
200
61
110
50
160
55
160
58
200
Distribuciones marginales
Media, mediana, desviacin tpica y coeficiente de variacin de
Pearson de X
Covarianza entre las variables
29
23.- La recta de regresin entre dos variables viene dada por Y = 5 + b.X.
Sabiendo que las medias de las variables son respectivamente 5 y 20 .
Calcular el coeficiente de regresin .
24.- Contestar razonadamente si las afirmaciones siguientes son ciertas:
El ajuste es bueno
El coeficiente de correlacin es 0,9
El 10% de los valores no se explican por la regresin
30
N de individuos
20
15
25
40
N empleados(X)
10-30
30-50
50-100
Ingresos
Anuales(Y)
5-15
6
1
0
Ingresos
anuales(Y)
15-25
2
1
0
Ingresos
anuales(Y)
25-45
0
0
10
31
Gastos publicidad
(Millones de Euros)
2,5
2,8
2,9
3,1
3,5
Ventas
(Millones de Euros)
200
221
230
239
248
32
fi
8
10
12
6
3
Li-1-Li
5-10
10-15
15-20
20-30
fi
6
7
10
9
33
Uno+Dos
44000
Kw/h,
55 58 59 57 56 59 61 56 58 55 56 57 62 63 59 60 62 59 60 58 59 61
60 58 54 64 58 61 63 56 60 58 56 60 59 61 59 57 59 59 61 55 61 55
60 57 63 60 57 61 62 60 58 55 58 59 54 62 57 65
a) Presente los datos en una tabla de frecuencias y represntelos en un grfico
b) Determine moda, mediana y media.
c) Determine varianza, desviacin standard y desviacin media.
d) Qu porcentaje de las familias consume menos de 58 Kw/h ?.
34
36.- Se da la siguiente tabla con respecto a la distribucin de los sueldos en la fbrica, que
posee dos plantas, A y B:
PLANTA A
PLANTA B
Sueldo mensual
% obreros
Sueldo mensual
obreros
(miles de um $)
(miles de um$)
---------------------------------------------------------------------------------------------------
10-12
12-14
14-16
16-18
18-20
20-25
15%
50%
20%
10%
4%
1%
8-11
11-14
14-17
17-20
20-23
23-28
100
200
480
100
80
40
1,9
1,8
0,2
2,8
1,2
1,9
2,1
0,3
1,3
2,5
0,8
5,2
0,3
1,1
3,1
1,1
1,0
0,5
0,8
0,5
0,4
0,4
0,9
1,8
0,2
1,2
2,3
1,2
0,7
0,3
1,0
0,6
1,8
0,4
3,1
1,1
1,4
1,1
4,5
1,3
1,7
0,6
1,8
0,8
0,9
0,8
1,1
0,7
1,6
1,7
0,7
1,3
2,2
0,6
35
trmites
20
20
15
15
10
10
10
0
0
0
2
10
12
14
minutos
36
39.- Un banco determin el tiempo (en minutos) que permanecen 70 de sus clientes
frente a dos de sus cajeros automticos ms frecuentados, transcribiendo la
informacin en las siguientes ojivas:
Ojivas
80
70
60
personas
50
40
30
20
10
0
1
cajero A
cajero B
a)
b)
c)
d)
Cantidad de
obreros
10
40
50
30
20
Fa
10
50
100
130
150
37
A
0,05
0,12
0,60
0,55
0,25
Financiera
B
0,35
0,24
0,12
0,65
0,39
C
0,05
0,08
0,09
0,15
0,01
Utilizando excel
a) Realizar un anlisis descriptivo para la variable Gastos de publicidad.
Escribir un pequeo informe que contenga: indicadores de posicin y
dispersin y una breve conclusin sobre la distribucin de los datos.
b) dem para la variable Embarques.
Marca
Budweiser
Bud Light
Miller Lite
Coors Light
Busch
Natural Light
Miller Genuine Draft
Miller High Life
Busch Light
Milwaukees Best
Gastos de publicidad
120
68,7
100,1
76,6
8,7
0,1
21,5
1,4
5,3
1,7
Embarques
36,3
20,7
15,9
13,2
8,1
7,1
5,6
4,4
4,3
4,3
A
B
C
Media
Mediana
Cuartil 1
Cuartil 3
$ 550
$ 1200
$ 1300
$ 510
$ 1000
$ 600
$ 505
$ 800
$ 550
$ 515
$ 1500
$ 2400
Valor
mn.
$ 500
$ 500
$ 500
Valor
mx.
$ 2500
$ 2500
$ 2500
Desv.
estndar
$ 280
$ 500
$ 900
N
50
50
50
38
b) Realizar un boxplot (Investigar sobre este tema) para los ingresos en cada
una de las plantas de automviles. Compararlos y sacar conclusiones.
c) Si recibiera una propuesta para trabajar en alguna de estas 3 plantas y te
aseguraran que vas a estar entre el 50% de los que menos cobran, en qu
planta elegiras trabajar y por qu?
d) Si recibiera una propuesta para trabajar en alguna de estas 3 plantas y te
aseguraran que vas a estar entre el 25% de los que ms cobran, en qu
planta elegiras trabajar y por qu?
e) En cul de las 3 plantas se observa una menor variabilidad de salarios (con
respecto a la media)?. Justificar.
f) En cul o cules de las 3 plantas de fabricacin de automviles el salario
promedio no es representativo de los salarios de los 50 empleados? En ese
caso, con qu indicadores resumiras la informacin? Justificar.
44.- Se muestran los gastos de publicidad (en millones de dlares) y los embarques
(en millones de barriles) para 10 marcas principales de cerveza:
Marca
Budweiser
Bud Light
Miller Lite
Coors Light
Busch
Natural Light
Miller Genuine Draft
Miller High Life
Busch Light
Milwaukees Best
Gastos de publicidad
120
68,7
100,1
76,6
8,7
0,1
21,5
1,4
5,3
1,7
Embarques
36,3
20,7
15,9
13,2
8,1
7,1
5,6
4,4
4,3
4,3
a) Cules son las variables medidas sobre cada marca de cerveza? Cul es el
tipo de tales variables?
b) Trazar un diagrama de dispersin para estos datos, con gastos de
publicidad como variable independiente.
c) Calcular e interpretar la covarianza.
d) Calcular e interpretar los coeficientes de correlacin y determinacin.
e) Determinar la recta de regresin e interpretar sus parmetros. Cul es el
poder explicativo del modelo (bondad de ajuste)?
39