You are on page 1of 37

Estadstica Descriptiva

Datos
Nmero
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
...
391

Consumo
l/100Km
15
16
24
9
11
17
12
17
18
12
16
12
9
8
7
7
12
13
9
9
...
7

Cilindrada
cc
4982
6391
5031
1491
2294
5752
2294
6555
6555
1147
5735
1868
2294
1295
1163
1360
3802
3687
1475
1983
...
1753

Potencia
CV
150
190
200
70
72
153
90
175
190
97
145
91
75
67
65
61
90
95
71
115
...
75

Peso
kg
1144
1283
1458
651
802
1384
802
1461
1474
776
1360
860
847
666
612
667
1070
1261
741
890
...
735

Aceleracin
segundos
12
9
15
21
19
14
20
12
13
14
13
14
17
16
21
19
17
19
17
14
...
15

Ao

Pas

N Cilindros

70
70
70
71
71
71
72
72
72
72
73
73
74
74
74
74
75
75
75
75
...
82

EEUU
EEUU
EEUU
EEUU
EEUU
EEUU
EEUU
EEUU
EEUU
Japn
EEUU
Europa
EEUU
Europa
Japn
Japn
EEUU
EEUU
Europa
Europa
...
Japn

8
8
8
4
4
8
4
8
8
3
8
4
4
4
4
4
6
6
4
4
...
4

Estadstica Descriptiva 2

Tipos de datos
Cuantitativos
Continuos: consumo, potencia,aceleracin,
peso
Discretos: n de cilindros

Cualitativos
Ordinales: categora
No ordinales: pas, gasolina/gasoil

Estadstica Descriptiva 3

Distribucin de frecuencias:
consumo l/100 km

------------------------------------------------------------Limite
Limite
Punto
Frecuencia
Frecuencia
Clase
Inferior Superior Medio
Absoluta
Relativa
------------------------------------------------------------1
0,0
2,5
1,25
0
0,0000
2
2,5
5,0
3,75
6
0,0153
3
5,0
7,5
6,25
65
0,1662
4
7,5
10,0
8,75
126
0,3223
5
10,0
12,5
11,25
64
0,1637
6
12,5
15,0
13,75
62
0,1586
7
15,0
17,5
16,25
36
0,0921
8
17,5
20,0
18,75
26
0,0665
9
20,0
22,5
21,25
4
0,0102
10
22,5
25,0
23,75
2
0,0051
------------------------------------------------------------Total
391
1,0000

Estadstica Descriptiva 4

Histograma
150
120
90
60
30
0
0

10

15

20

25

consumo
Estadstica Descriptiva 5

Histogramas para coches


120

150

100

120

80

90

60
60

40

30

20

0
0

8
(X 1000)

cilindrada

80

120

160

200

240

potencia

80

80

60

60

40

40

20

20

40

0
0

0,4

0,8

1,2

peso

1,6

2
(X 1000)

11

15

19

23

27

aceleracion

Estadstica Descriptiva 6

Medidas de centro
x1 , x2 ,..., xn
Media aritmtica
x1 + x2 + L + xn
x=
n
Media geomtrica

Media armnica

(si xi > 0 para todo i ) (si xi > 0 para todo i )


n
n
xG = x1 x2 L xn
xH =
1 1
1
+ +L+
x1 x2
xn
xH xG x
Estadstica Descriptiva 7

Medidas de dispersin
x1 , x2 ,..., xn

s=2

Desviacin Tpica
90

95

100

105

110

s=

s = 5.4

90

95

100

105

110

n
(
x
i =1 i

x )2

n
Varianza : s

Media 100
Estadstica Descriptiva 8

Densidad de la tierra (Cavendish, 1798)


5,5
5,57
5,42
5,61
5,53

5,47
4,88
5,62
5,63
4,07

4,4

5,55
5,34
5,3
5,36
5,79

4,8

5,75
5,29
5,1
5,86
5,58

5,2

5,29
5,34
5,26
5,44
5,46

5,6

5,27
5,85
5,65
5,39

densidad
Media = 5.42

Desv. Tp. = 0.338

Estadstica Descriptiva 9

Desigualdad de Chebychev
fr (| xi x | ks) > 1

235

240

245

x ks

s2

s2

250

n
2
x
x
(
)

xi x > ks

fr (| xi x |> ks) <

k2

255

x +ks

x
x
(
)
i
i =1

2
x
x
(
)

xi x ks

>

xi x > ks

1
k2

n
2 2
k
s
n

2
x
x
(
)

xi x > ks

= fr (| xi x |> ks)k 2 s 2

fr (| xi x | ks) > 1

1
k2

Estadstica Descriptiva 10

Mediana y Cuartiles
x1 , x2 ,..., xn
Datos ordenados
x(1) x( 2) L x( n )

x( p )

Mediana
x( p ) + x( p +1)

2
Cuartiles
Q1 = x( r )
Q3 = x( s )
p + 1
r=
s = nr

n +1
: n impar
p=
2
n
p = : n par
2

Estadstica Descriptiva 11

Mediana y Cuartiles
x1 , x2 ,..., xn
Mediana : ( Med )
fr(xi Med) = 0.50

50%

235

Cuartiles
Q1
fr(xi Q1 ) = 0.25

25%

25%

240

245

250

255

Q1 Med Q3

Q3
fr(xi Q3 ) = 0.75

Estadstica Descriptiva 12

Medidas caractersticas
Media
Desv. Tpica
Primer Cuartil
Mediana
Tercer Cuartil
Rango Intercuartlico

Consumo
11.2
3.9
8
10
13.5
5.5

Cilindrada Potencia
3181.2
104.2
1714.6
38.3
1721
75
2474
93
4334
125
2613
50

Peso
990.7
281.9
741.5
933
1203.5
462

Aceleracin
15.7
2.8
14
16
17
3

Estadstica Descriptiva 13

Diagrama de caja
Q1 Q2

Q3

Max {xi : xi LS}

Min {xi : xi LI}

atpicos
0

12

16

20

24

consumo
LI = Q1 -1.5 RI

LS = Q3+1.5 RI
RI = Q3 - Q1

Estadstica Descriptiva 14

Densidad de la tierra (Cavendish, 1798)


5,5
5,57
5,42
5,61
5,53

5,47
4,88
5,62
5,63
4,07

4,4

Media = 5.42

5,55
5,34
5,3
5,36
5,79

4,8

5,75
5,29
5,1
5,86
5,58

5,2

5,29
5,34
5,26
5,44
5,46

5,6

5,27
5,85
5,65
5,39

densidad
Desv. Tp. = 0.338
Estadstica Descriptiva 15

Diagrama de caja mltiple


EEUU
Europa

Japn
0

12

16

20

24

consumo
Estadstica Descriptiva 16

Diagrama de caja mltiple


EEUU
Europa
Japn
500

800

1100

1400

1700

2000

peso

Estadstica Descriptiva 17

Consumo segn ao de fabricacin


70
71
72
73
74
75
76
77
78
79
80
81
82
0

12

16

20

24

consumo
Estadstica Descriptiva 18

Diagrama de Caja Mltiple


EEUU

Grecia

OCDE
Europa Oriental

Japn

Asia/Pacfico
frica

Gabn

Oriente Medio
America Latina

Barbados

12

16

20

Producto interior bruto per capita

24

X1000

Estadstica Descriptiva 19

Diagrama de tallos y hojas


LO|4,07
1
1
1
1
2
3
12
(9)
8
2

4|
4|
4|
4|
4|8
5|1
5|222233333
5|444455555
5|666677
5|88

Media 5,419
Des. Tpica 0,339
Mnimo 4,07
Mximo 5,86
Cuartil 1 5.3
Mediana 5.46
Cuartil 3 5.61

Estadstica Descriptiva 20

Medidas caractersticas de forma


(asimetra y curtosis)
Coeficiente
de asimetra
m3
C AS = 3
s
=

Coeficiente de curtosis o
apuntamiento
m4
C AP = 4
s

3
x
x
(
)

ns

Momento
respecto al origen
ak

n
xk
i =1 i

4
x
x
(
)

ns 4

Momentos
respecto a la media
mk

n
(x
i =1 i

x )k

n
Estadstica Descriptiva 21

Modelo ideal
1000

CAP = 3

CAS = 0

frecuencia

800

600

400

200

0
230

235

240

245

250

30

30

25

25

20

20

15

15

10

10

255

260

0
0

100

200

300

400

CAS > 0

500

600

700

220

230

240

250

260

270

280

CAP < 3
Estadstica Descriptiva 22

Transformaciones de datos
Transformaciones Lineales
yi = a + bxi
y = a + bx
s y = b sx
La " forma" de la distribucin no cambia
(Asimetra y curtosis no cambia)

Transformaciones no-lineales
yi = h( xi )
y h( x )
Cambia la " forma" de la distribucin
(coeficientes de asimetra y curtosis cambian)
Estadstica Descriptiva 23

Efecto de la transformacin de datos


150

240

120

200
160

90

120

60

80

30

40

0
-10

10

30

50

70

yi = log xi
Estadstica Descriptiva 24

Transformaciones Box-Cox
1,5
1
0,5
0
-0,5
-1
-1,5

yi =

p
xi

1
p

p = 0 yi = log xi
Estadstica Descriptiva 25

Datos

Observaciones

Variables

Y1

Y2

x11

x1

2 x12
M M

x21 L xk1
x22 L xk 2
M O M

x2 k

xn

x1n

Yk

L xkn

x2

Estadstica Descriptiva 26

Vector de Medias
x1i

x2 i
x i = ;
M

x
ki

x1

n
x x2

i =1 i
=
x=
M
n

x
n

Estadstica Descriptiva 27

Covarianza
consumo

24
20

Coche

16

1
2

12
8
4

Peso
x1
x2

Consumo
y1
y2

xn

yn

0
500

800

1100

1400

1700

2000

peso

s xy

n
(x
i =1 i

x )( yi y )
n
Estadstica Descriptiva 28

Matriz de Varianzas
x1i

n x
1

S 2 = 2i
n i =1

x
ki

x1

x2
( x1i x1
M

x k

x 2i x 2

( x1i x1 ) 2

1 n ( x1i x1 )( x 2i x 2 )
=
n i =1
M
( x x )( x x )
1
ki
k
1i

M
( x 2i x 2 )( x ki x k )

s12

s
= 12
M
s
1k

s1k
s 2k

M
s k2

s12
s 22

L
L

s 2k

( x1i x1 )( x 2i x 2 )
( x 2i x 2 ) 2

x ki x k )

L
L
O
L

( x1i x1 )( x ki x k )
( x 2i x 2 )( x ki x k )

( x ki x k )

Estadstica Descriptiva 29

Grficos de dispersin: ejemplo coches


consumo
cilindrada
potencia
peso
aceleracion

Estadstica Descriptiva 30

Matriz de varianzas: ejemplo coches


consumo
15,2

5.824,4
S 2 = 127,3

971,5
5,0

c.c.

pot.

5.824,4

127,3

971,5

2,94 E 6
58.965,4
451.461,0
2.597,4

58.965,4
1.465,2
9.312,8
73,5

451.461,0
9.312,8
7.949,5
328,0

peso

acel.
5,0

2.597,4
73,5

328,0
7,6

Estadstica Descriptiva 31

Propiedades de
x11 x1

x12 x1
~
X=
M

x x
1
1n
S2 =

x 21 x 2
x 22 x 2
M
x2n x2

2
S

L x k1 x k

L xk 2 xk

O
M

L x kn x k

Cuadrada k x k

1 ~T~
X X
n

Simtrica

S 2 es semidefinida positiva :

Semidef. positiva

w k , w T S 2 w 0
1 ~T~
1 ~ T ~
w TS 2 w = w T ( X
X)w = (X
w) (Xw)
n
n
1 T
~
T 2
v = Xw, w S w = v v =
n

n
2
v
i =1 i

Estadstica Descriptiva 32

Correlacin
24

Obs.
1
2

consumo

20
16
12

Var 1

Var 2

x1
x2

y1
y2

xn

yn

0
500

800

1100

1400

1700

2000

peso

rxy =

s xy
sx s y

n
(x
i =1 i

n
(x
i =1 i

x)

x )( yi y )
2

n
(y
i =1 i

y )2

Adimensional
-1 rxy +1
|rxy| = 1 yi = a + b xi
Estadstica Descriptiva 33

Matriz de correlaciones
ejemplo coches
consumo

c.c.

pot.

Acel.

peso

0,873
0,854
0,885
1

1
0,898
0,934
0,873
R = 0,854
0,898
1
0,863

0,934
0,863
1
0,885
0,466 0,549 0,696 0,422

0,466

0,549
0,696

0,422
1

Las variables estn muy correlacionadas

Estadstica Descriptiva 34

Transformaciones Lineales
yi = a1 x1i + a2 x2i + L + ak xki = (a1

y=

n
y
i =1 i

2
s =
y

n
(y
i =1 i

n
T
a
xi
i =1

y)2

a2

a T ( i =1 x i )

x1i

x2 i
ak ) = a T x i
M

x
ki

n
(y
i =1 i

= aT x

y )( yi y )
n

n
T
(a
xi
i =1

a T x)(xTia x Ta)
n

n (x x)(x x)T
i
i

T 2
a
a
S a
= a T i =1
=

Estadstica Descriptiva 35

Transformaciones lineales II
y1i = a11 x1i + a12 x2i + L + a1k xki

y1i a11 a12


y
2i a21 a22
M = M
M

y a
mi m1 am 2

y2i = a21 x1i + a22 x2i + L + amk xki


ymi

M
= am1 x1i + am 2 x2i + L + amk xki

x1i

x2i
M

L amk xki
a1k
L a2 k
O M
L

y i = Ax i
y=

S 2Y =

n
y
i =1 i

n
(y
i =1 i

n
Ax i
i =1

A(i =1 x i )
n

= Ax

y )(y i y )T
n

n
( Ax i
i =1

= AS 2X A T

Ax)(x Ti A T x T A T )
n

n (x x)(x x)T
i
i

= A i =1
n

T
A

SX2
Estadstica Descriptiva 36

Efecto de las transformaciones


Mortalidad infantil (muertes por 1000 nacimientos v

(no lineales)
200

200

100

100

Regin econmica
R Amrica Latina

Oriente Medio
frica

Asia / Pacfico
Europa Oriental
OCDE
-100
-10000

10000

20000

Producto interior bruto per-capita

-100
2.0
30000

2.5

3.0

3.5

4.0

4.5

Log(10) de PIB_CAP

Estadstica Descriptiva 37