Professional Documents
Culture Documents
Semana 2 Introd Estadística Descriptiva
Semana 2 Introd Estadística Descriptiva
diagrama de barras
Si las variables son cuantitativas discretas las tablas
de frecuencias se realizan con la creación de
diferentes clases en base a los datos que toma la
variable.
Frecuencia
43 2 0.07 4
44 4 0.13 3
45 3 0.10 2
46 4 0.13 1
47 0 0.00 0
48 0 0.00 38 39 40 41 42 43 44 45 46 47 48 49
49 1 0.03
Total 30 1.00
Edad
Si las variables son cuantitativas continuas las
tablas de frecuencias se realizan con la creación de
intervalos numéricos que formarán las diferentes
clases.
ti e m p o fr e c u e p o rce n
n c ia ta j e Histograma
9331- 9931 1 0 .0 3
0.30
9 9 3 1 -1 0 5 3 1 1 0 .0 3
1 0 5 3 1 -1 1 1 3 1 3 0 .1 0 0.20
Frecuenci
1 1 1 3 1 -1 1 7 3 1 6 0 .2 0 0.10
1 1 7 3 1 -1 2 3 3 1 5 0 .1 7
a
1 2 3 3 1 -1 2 9 3 1 5 0 .1 7 0.00
9631 10231 10831 11431 12031 12631 13231 13831
1 2 9 3 1 -1 3 5 3 1 6 0 .2 0 Tiempo
1 3 5 3 1 -1 4 1 3 1 3 0 .1 0
T o ta l 30 1 .0 0
Podemos completar esta tabla de frecuencias con una
columna que nos de las Frecuencias Acumuladas ¿qué uso
tienen?
Tiempo (seg) Frec.:ni Prorcentaje Frec. Acum: Ni
9631 1 0,033 0,033 a) 0.167
10231 1 0,033 0,067
10831 3 0,100 0,167
0,167 c) 46.7%
11431 6 0,200 0,367
12031
12031 5 0,167 0,533 e) 12,031 seg
12631 5 0,167
0,167 0,700
13231 6 0,200
0,200 0,900
13831 3 0,100
0,100 1,000
Total 30 1,00
a) ¿qué frecuencia de individuos tuvieron un tiempo menor a 11 431 seg?
3 38 0 0 0
-se usa con pocos valores
6 39 0 0 0
12 40 0 0 0 0 0 0
13 41 0 -los datos están ordenados
(3) 42 0 0 0
-encontramos fácilmente
14 43 0 0
12 44 0 0 0 0 mínimo y máximo
8 45 0 0 0
5 46 0 0 0 0 -encontramos fácilmente
1 47 los percentiles.
1 48
1 49 0 -da un visión gráfica de la
distribución de los datos
4 1 6678
18 2 22555778888899
(41) 3 00000011112222223444555555555555555566699
41 4 000111222244444445556666666777999
8 5 00333666
DISTRIBUCIÓN DE FRECUENCIAS EN INTERVALOS
16 27 30 32 35 35 40 44 46 49 [Li Ls) Yj nj Nj hi Hj
16 28 30 32 35 35 40 44 46 49
15 21 18 4 4 0,04 0,04
17 28 30 32 35 35 41 44 46 50
18 28 30 32 35 35 41 44 46 50 21 27 24 5 9 0,05 0,09
22 28 31 33 35 36 41 44 46 53 27 33 30 25 34 0,25 0,34
22 28 31 34 35 36 42 44 46 53 33 39 36 23 57 0,23 0,57
25 29 31 34 35 36 42 45 47 53 39 45 42 19 76 0,19 0,76
25 29 31 34 35 39 42 45 47 56 45 51 48 18 94 0,18 0,94
25 30 32 35 35 39 42 45 47 56
51 57 54 6 100 0,06 1
27 30 32 35 35 40 44 46 49 56
TOT 100
Frecuencias
Frecuencia
80,00% 19
20
20 60,00%
Frecuencia 15
40,00%
10
20,00% % acumulado 10 8 8
5 6
0 0,00% 4
5
18,5
23,5
28,5
33,5
38,5
43,5
48,5
53,5
0
18,5 23,5 28,5 33,5 38,5 43,5 48,5 53,5
Título del eje
Título del gráfico
53,5 18,5
4% 23,5
6%
48,5 5%
8%
28,5
19%
43,5
21%
38,5
8%
33,5
29%
8 1.00
6 0.75
Frecuencia
4 0.50
Acumulado
Porcentaje
2 0.25
0 0.00
9000 10000 11000 12000 13000 14000 9000 10000 11000 12000 13000 14000
Tiempo Tiempo
Métodos Numéricos
(válidos solo para datos cuantitativos)
8
4 7 8 4 37 8
4 8 89 9 8 0
8
8
distribución 8
48 9
68 9
68 97 8 3 20
3 3 2 02
8
6 6 6
6 3 2
6
6
Medidas de Tendencia Central
Son números que se localizan cerca del centro o cerca
de donde se encuentran los datos con mayor frecuencia:
media, mediana, moda
Polígono de Frecuencia
8
Frecuencia
4
0
9000 10000 11000 12000 13000 14000
Tiempo
Medidas de Dispersión
Son números que indican qué tan separados están los
datos entre si: rango, desviación estándar, rango
intercuartil
Medidas de tendencia central
1 n
media X = xi , Para datos sin agrupar
n i =1
1 n y n j j
Y = y j n j , Para datos agrupados
m
Y= j =1
= y j * hj
n i =1 n j =1
ti e m p o ( se g ) fr e c . hi F r e c . A c u muladas .
9631 1 0 .0 3 0 .0 3
10231 1 0 .0 3 0 .0 7
10831 3 0 .1 0 0 .1 7
11431 6 0 .2 0 0 .3 7
12031 5 0 .1 7 0 .5 3
12631 5 0 .1 7 0 .7 0
13231 6 0 .2 0 0 .9 0
13831 3 0 .1 0 1 .0 0
T o ta l 30 1
Ubicación de la
3 38 0 0 0
30 + 1
6 39 0 0 0 Me = = 15,5 − th
12 40 0 0 0 0 0 0 2
13 41 0
(3) 42 0 0 0
14 43 0 0
12 44 0 0 0 0
8 45 0 0 0 el valor que toma la
5 46 0 0 0 0 variable es 42.0 años
1 47
1 48
1 49 0
medidas de tendencia central ...
23 − 23 23 − 7
M o = 33 + 6 = 33 M o = 27 + 6 = 33
0 + 23 − 19 16 + 23 − 23
Medidas de Dispersión
rango se define como la diferencia entre el valor
máximo y el mínimo:
Rango = max - min
Es una medida sensible a valores extremos y no es muy
informativa ya que es insensible a datos intermedios
m
(Y j − Y ) 2 * n j
S 2
= i =1
;
n −1
y
para nuestro ejemplo ¿qué valor toma Sy ?
m
(Y j − Y ) 2 * n j
Sy = i =1
;
n −1
medidas de dispersión...
Estadísticos
A B C D E F
m
=
m
Y *nj d1 n / 2 − N j −1
2
2
j =1 J
(Y j − Y ) * n j
2 S S
Y= Mo = Li + C * M e = Li + C *
y
n d1 + d 2 n S = J =1
n −1
j y
XX
Creación de Intervalos: medidas de dispersión...
Intervalos alrededor
de la media
n = 372
X = 11, 66
S = 4, 089
El percetil 25 o primer
cuartil Q1 = - 0.675 deja a
su izquierda el 25% de
las observaciones
1*100 2*100
4 − 11 4 − 34
Q1 = 27 + 6 = 30, 65 Q2 = 33 + 6 = 37,17
23 23
3*100
4 − 57
Q3 = 39 + 6 = 44, 68 RI = Q3 − Q3 = 44, 68 − 30, 65
19
R =Vmax −Vmin
Q1 Q2 Q3
RI =Q3 −Q1
Gráfica de caja de X
10 20 30 40 50 60
10 20 30 40 50 60
X
Análisis Exploratorio de Datos
Hábitos de tabaquismo
las frecuencias pueden ser realtivas o absolutas y nos dan una idea de qué
tan frecuente se presentan simultáneamente ambos atributos en una
población
comparación...
80.0
¿el hábito de
60.0
tabaquismo
Frecuencia
40.0
difiere si se es
20.0
hombre o
0.0
Nunca ha fumado Dejó de fumar Fuma actualmente mujer?
Masculino Femenino
comparación...
¿quién tiene
10 000
mayor
0 dispersión?
F M
Género
Muchas veces es importante saber si una variable
influye sobre el comportaminto de otra variable.
Con ello estudiamos el problema de asociación.
60.00
¿A mayor nivel
45.00
socioeconómico,
30.00
mayor aceptación?
15.00
0.00
Bajo Medio Alto
asociación ...
asociación ...
Habilidad de Lenguaje
300
200
100
¿Qué nos dice
este diagrama 0
Maternal Kinder I Kinder II
esquemático?
asociación...
n
i =1
( X i − X )(Yi − Y )
n −1 S xy
r ( x, y ) = =
Sx S y Sx S y
asociación ...
100
80
90 70
80 60
50
70
40
60
30
50 20
40 10
0
30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
r = 0.99 r = - 0.7
100 330
90 280
80
230
70
180
60
50 130
40
80
30
140 150 160 170 180 190 200 30
140 150 160 170 180 190 200
r = 0.8 r = 0.1
75
60
45
Edad
30
15
0
0 10000 20000 30000 40000
Tiempo