Semana 2 Introd Estadística Descriptiva

UNIVERSIDAD NACIONAL DEL CALLAO
FACULTAD DE INGENIERÍA AMBIENTAL

Y DE RECURSOS NATURALES
Medidas de Tendencia Central y

Dispersión
¿Cómo presentar los datos?
La frecuencia absoluta n i para una clase particular es
el número de observaciones que se ubican en cada
clase.
La frecuencia relativa o porcentaje para una

clase particular es su frecuencia absoluta entre el
número total de observaciones
ni
hi =
n
Esta frecuencia ayuda a sumarizar en forma
ordenada la información contenida en la muestra
tanto en tablas como en gráficas.
género frecuencia porcentaje Histograma

0.75
0 19 0.63
0.50
1 11 0.37
0.25
Total 30 1
0.00
tabla de distribución de frecuencias M F
Género
diagrama de barras
Si las variables son cuantitativas discretas las tablas
de frecuencias se realizan con la creación de
diferentes clases en base a los datos que toma la
variable.
edad frecuencia por centaj e

38 3 0.10 Histogramade FrecuenciasparaEdad
39 3 0.10
40 6 0.20 7
41 1 0.03 6
42 3 0.10 5
Frecuencia
43 2 0.07 4
44 4 0.13 3
45 3 0.10 2
46 4 0.13 1
47 0 0.00 0
48 0 0.00 38 39 40 41 42 43 44 45 46 47 48 49
49 1 0.03
Total 30 1.00
Edad
Si las variables son cuantitativas continuas las
tablas de frecuencias se realizan con la creación de
intervalos numéricos que formarán las diferentes
clases.
ti e m p o fr e c u e p o rce n
n c ia ta j e Histograma
9331- 9931 1 0 .0 3
0.30
9 9 3 1 -1 0 5 3 1 1 0 .0 3
1 0 5 3 1 -1 1 1 3 1 3 0 .1 0 0.20
Frecuenci
1 1 1 3 1 -1 1 7 3 1 6 0 .2 0 0.10
1 1 7 3 1 -1 2 3 3 1 5 0 .1 7
a
1 2 3 3 1 -1 2 9 3 1 5 0 .1 7 0.00
9631 10231 10831 11431 12031 12631 13231 13831
1 2 9 3 1 -1 3 5 3 1 6 0 .2 0 Tiempo
1 3 5 3 1 -1 4 1 3 1 3 0 .1 0
T o ta l 30 1 .0 0
Podemos completar esta tabla de frecuencias con una
columna que nos de las Frecuencias Acumuladas ¿qué uso
tienen?
Tiempo (seg) Frec.:ni Prorcentaje Frec. Acum: Ni
9631 1 0,033 0,033 a) 0.167
10231 1 0,033 0,067
10831 3 0,100 0,167
0,167 c) 46.7%
11431 6 0,200 0,367
12031
12031 5 0,167 0,533 e) 12,031 seg
12631 5 0,167
0,167 0,700
13231 6 0,200
0,200 0,900
13831 3 0,100
0,100 1,000
Total 30 1,00
a) ¿qué frecuencia de individuos tuvieron un tiempo menor a 11 431 seg?
b) ¿qué porcentaje de individuos tuvieron un tiempo mayor o igual a 12,631 seg?
c) ¿qué tiempo máximo es el que al menos el 50% de las personas tuvieron?

Otros diagramas de utilidad:
3 38 0 0 0
-se usa con pocos valores
6 39 0 0 0
12 40 0 0 0 0 0 0
13 41 0 -los datos están ordenados
(3) 42 0 0 0
-encontramos fácilmente
14 43 0 0
12 44 0 0 0 0 mínimo y máximo
8 45 0 0 0
5 46 0 0 0 0 -encontramos fácilmente
1 47 los percentiles.
1 48
1 49 0 -da un visión gráfica de la
distribución de los datos
Diagrama de tallo y hojas para la variable edad 38|0 = 38,0

Ejemplo: agrupar en frecuencias y graficar en un diagrama de tallo y hojas
X ni
16 27 30 32 35 35 40 44 46 49
16 2
16 28 30 32 35 35 40 44 46 49 17 1
18 1
17 28 30 32 35 35 41 44 46 50 22 2
18 28 30 32 35 35 41 44 46 50 25 3
27 2
22 28 31 33 35 36 41 44 46 53 28 5
22 28 31 34 35 36 42 44 46 53 29 2
30 6
25 29 31 34 35 36 42 45 47 53 31 4
25 29 31 34 35 39 42 45 47 54 32 6
33 1
25 30 32 35 35 39 42 45 47 54 34 3
35 16
27 30 32 35 35 40 44 46 49 54 36 3
39 2
40 3
La reducción de datos mediante el agrupamiento en frecuencias no 41 3
facilita su interpretación: La tabla es demasiado grande. Para 42 4
44 7
reducir el tamaño de la tabla agrupamos los valores en intervalos, y 45 2
las frecuencias son las de los conjuntos de valores incluidos en los 46 6
47 3
intervalos: 49 2
50 3
53 2
54 3
3
100
DIAGRAMA DE TALLO Y HOJAS
Diseño de tallo y hoja: X

Tallo y hoja de X N = 100
Unidad de hoja = 1,0
4 1 6678
18 2 22555778888899
(41) 3 00000011112222223444555555555555555566699
41 4 000111222244444445556666666777999
8 5 00333666
DISTRIBUCIÓN DE FRECUENCIAS EN INTERVALOS
16 27 30 32 35 35 40 44 46 49 [Li Ls) Yj nj Nj hi Hj
16 28 30 32 35 35 40 44 46 49
15 21 18 4 4 0,04 0,04
17 28 30 32 35 35 41 44 46 50
18 28 30 32 35 35 41 44 46 50 21 27 24 5 9 0,05 0,09
22 28 31 33 35 36 41 44 46 53 27 33 30 25 34 0,25 0,34
22 28 31 34 35 36 42 44 46 53 33 39 36 23 57 0,23 0,57
25 29 31 34 35 36 42 45 47 53 39 45 42 19 76 0,19 0,76
25 29 31 34 35 39 42 45 47 56 45 51 48 18 94 0,18 0,94
25 30 32 35 35 39 42 45 47 56
51 57 54 6 100 0,06 1
27 30 32 35 35 40 44 46 49 56
TOT 100
Diseño de tallo y hoja: X

4 1 6678)
18 2 22555)778888899
(41) 3 0000001111222222)34445555555555555555666)99
41 4 00011122224444444)5556666666777999
8 5 00)333666)
DISTRIBUCIÓN DE FRECUENCIAS EN INTERVALOS
X ni
16 2
17 1
nº datos 100 [Li Ls) Yj nj Nj hi Hj
18 1
15 21 18 4 4 0,04 0,04
22 2 Limite Inferior 16
25 3 21 27 24 5 9 0,05 0,09
27 2
28 5 Limite superior 56 27 33 30 25 34 0,25 0,34
29 2
30 6 Rango 40 33 39 36 23 57 0,23 0,57
31 4
32 6
39 45 42 19 76 0,19 0,76
33 1 nº de clase 8 45 51 48 18 94 0,18 0,94
34 3
35 16
Tamaño de clase o 51 57 54 6 100 0,06 1
36 3 amplitud 5 TOT
39 2 100
40 3 Intervalos de clase
41 3
42 4 Clases Li Ls
44 7
45 3 1 16 21
46 7
47 3 2 21 26
49 2 3 26 31
50 3 4 31 36
53 3
56 3 5 36 41
6 41 46
100 7 46 51
8 51 56
Frecuencia %
Clases
Yj nj Nj hj acumulado
16 21 18,5 4 4 4,00% 4,00%
21 26 23,5 5 9 9,00% 9,00%
26 31 28,5 19 28 28,00% 28,00%
31 36 33,5 29 57 57,00% 57,00%
36 41 38,5 8 65 65,00% 65,00%
41 46 43,5 21 86 86,00% 86,00%
46 51 48,5 8 94 94,00% 94,00%
51 56 53,5 6 100 100,00% 100,00%
Gráfico de frecuencias
Histograma 35
29
30
40 120,00%
100,00% 25
30 21
Frecuencias
Frecuencia
80,00% 19
20
20 60,00%
Frecuencia 15
40,00%
10
20,00% % acumulado 10 8 8
5 6
0 0,00% 4
5
18,5
23,5
28,5
33,5
38,5
43,5
48,5
53,5
0
18,5 23,5 28,5 33,5 38,5 43,5 48,5 53,5
Título del eje
Título del gráfico
53,5 18,5
4% 23,5
6%
48,5 5%
8%
28,5
19%
43,5
21%
38,5
8%
33,5
29%
18,5 23,5 28,5 33,5 38,5 43,5 48,5 53,5

Medidas de Tendencia Central
:
. . : . : . :
: : : . : : : : : .
+ + + + + + Edad
38.0 40.0 42.0 44.0 46.0 48.0
Diagrama de puntos. Útil para cuando tenemos

pocos datos discretos
Polígono de Frecuencias Ojiva
Polígono de Frecuencia Ojiva
8 1.00
6 0.75
Frecuencia
4 0.50
Acumulado
Porcentaje
2 0.25
0 0.00
9000 10000 11000 12000 13000 14000 9000 10000 11000 12000 13000 14000
Tiempo Tiempo
Métodos Numéricos
(válidos solo para datos cuantitativos)
Si pudiéramos escoger entre dos números que nos

ayuden a construir una imagen mental burda de la
distribución de un grupo de datos ¿Cuáles
escogeríamos?
-un número que esté

localizado cerca del centro
de la distribución 9
3 3 1
9
9
9 19 3 32 1 5
9 3 1
0 1 319 5 2 5
0
30 59 0 3 1 53251 5
-un número que mida la 3 0 0 5 3 30 0 5 3
3 0 304 5 37358 0 3 3 5
2 5
3 8 975 3 304 3758
dispersión de la 4
8 9
8 4 3 8
3 8 975 73 0 3
8
4 7 8 4 37 8
4 8 89 9 8 0
8
8
distribución 8
48 9
68 9
68 97 8 3 20
3 3 2 02
8
6 6 6
6 3 2
6
6
Medidas de Tendencia Central
Son números que se localizan cerca del centro o cerca
de donde se encuentran los datos con mayor frecuencia:
media, mediana, moda
Polígono de Frecuencia
8
Frecuencia
4
0
9000 10000 11000 12000 13000 14000
Tiempo
Medidas de Dispersión
Son números que indican qué tan separados están los
datos entre si: rango, desviación estándar, rango
intercuartil
Medidas de tendencia central
1 n
media X =  xi , Para datos sin agrupar
n i =1
En el caso en que los datos estén agrupados:

m
1 n y n j j
Y =  y j n j , Para datos agrupados
m
Y= j =1
=  y j * hj
n i =1 n j =1
ti e m p o ( se g ) fr e c . hi F r e c . A c u muladas .
9631 1 0 .0 3 0 .0 3
10231 1 0 .0 3 0 .0 7
10831 3 0 .1 0 0 .1 7
11431 6 0 .2 0 0 .3 7
12031 5 0 .1 7 0 .5 3
12631 5 0 .1 7 0 .7 0
13231 6 0 .2 0 0 .9 0
13831 3 0 .1 0 1 .0 0
T o ta l 30 1
9631(0, 03) + 10231(0, 03) + ... + (13831(0,10)

X= = 12187 seg
30
medidas de tendencia central ...
mediana Se localiza el valor (n+1)/2 y

se observa el valor central que toma
Ubicación de la
3 38 0 0 0
30 + 1
6 39 0 0 0 Me = = 15,5 − th
12 40 0 0 0 0 0 0 2
13 41 0
(3) 42 0 0 0
14 43 0 0
12 44 0 0 0 0
8 45 0 0 0 el valor que toma la
5 46 0 0 0 0 variable es 42.0 años
1 47
1 48
1 49 0
para datos agrupados se estima como

n 
 2 − N j −1 
M e = X = Li + C  
 n j 
 
donde C =(Li-Ls) son los límites inferior y superior de la clase que
contiene a la mediana, Nj-1 es la frecuencia acumulada hasta la clase
anterior a la que contien la mediana y nj es la frecuencia absoluta
simple del intervalo que contiene a la mediana
[Li Ls) Yj nj Nj hi Hj  100 

 − 34 
15 21 18 4 4 0,04 0,04 M e = 33 + 6  2  = 37,17
21 27 24 7 11 0,07 0,11  23 
27 33 30 23 34 0,23 0,34  
33 39 36 23 57 0,23 0,57  23 − 23 
M o = 33 + 6   = 33
39 45 42 19 76 0,19 0,76  0 + 23 − 19 
45 51 48 18 94 0,18 0,94
51 57 54 6 100 0,06 1
TOT 100
moda
Es el valor que mas se repite en la serie:
frecuencia mas alta.
La distribución puede ser unimodar, multimodal
cuando los datos están agrupados

podemos hablar de una clase modal o
estimar la moda:
 d1 
M o = Li + C  
 d1 + d 2 
donde C = (Li-Ls) son los límites inferior y superior
de la clase modal, d1= nj – nj-1 y d2= nj – nj+1
 23 − 23   23 − 7 
M o = 33 + 6   = 33 M o = 27 + 6   = 33
 0 + 23 − 19   16 + 23 − 23 
Medidas de Dispersión
rango se define como la diferencia entre el valor
máximo y el mínimo:
Rango = max - min
Es una medida sensible a valores extremos y no es muy
informativa ya que es insensible a datos intermedios
Rango intercuartílico es la distancia entre el

cuartil 3 y cuartil 1 porcentil 75 y el porcentil 25:
RI = Q3 − Q1 = P75 − P25
Nos da una idea de la distancia entre los valores que
determinan el 50% de los datos centrales
medidas de dispersión...
Varianza es una variación promedio alrededor de

la media, definida como
 i=1 i
n
( X − X ) 2
S x2 = , para datos no agrupados

n −1
un problema de la varianza es que tiene las unidades al
cuadrado y su interpretación no es fácil, por lo que usamos
su raiz: desviación estándar
 i=1 i
n
( X − X ) 2
es sensible a valores extremos.
Sx =
n −1
Si los datos están agrupados en m intervalos, la varianza

se estima como:

m
(Y j − Y ) 2 * n j
S 2
= i =1
;
n −1
y
para nuestro ejemplo ¿qué valor toma Sy ?

m
(Y j − Y ) 2 * n j
Sy = i =1
;
n −1
Hay algunas formas de poner juntos a la desviación

estándar y a la media muestrales
Coeficiente de Variación: es una medida de

variación relativa y expresa la desviación estándar
como un porcentaje de la media aritmética. Se
obtiene como
Sx Sy
CVx = *100 CVy = *100
X Y
Por su falta de dimensiones es muy útil para
comparar variación entre diferentes poblaciones, que
a simple vista serían difíciles de comparar.
EJEMPLOS A APLICATIVOC
1. La siguiente información corresponde a resultados del
“Método de ensayo para determinar el material que pasa el
tamiz Nº 200 (75 µm) – NTP 339.132 (1999)”, calcular las
estadísticas descriptivas.
A B C D E F
50,93 50,80 41,23 48,42 48,81 50,20
51,25 51,30 41,30 47,84 50,46 50,32
50,54 50,10 42,38 48,09 48,77 50,53
50,59 51,00 42,14 48,03 49,28 49,87
51,06 51,80 41,10 48,29 46,70 50,00
51,29 51,60 42,28 47,25 48,46 50,55
51,24 50,70 41,05 47,79 48,38 49,59
51,05 50,70 41,13 48,00 48,42 49,90
50,81 50,30 41,05 48,12 48,82 49,87
51,09 50,00 41,02 48,13 48,02 50,00
TOTALES 509,85 508,30 414,68 479,96 486,12 500,83
MEIDIAS 50,99 50,83 41,47 48,00 48,61 50,08
VAR(Xi) 0,0708 0,369 0,314 0,104 0,8988 0,09653
CUARTIL_1 50,84 50,4 41,06 47,88 48,39 49,8775
Estadísticos descriptivos
N Media Desv. Tip Varianza
A 10 50,9850 ,26601 ,071
B 10 50,8300 ,60745 ,369
C 10 41,4680 ,56049 ,314
D 10 47,9960 ,32195 ,104
E 10 48,6120 ,94802 ,899
F 10 50,0830 ,31070 ,097
Estadísticos
A B C D E F
Media 50,9850 50,8300 41,4680 47,9960 48,6120 50,0830

Mediana 51,0550 50,7500 41,1800 48,0600 48,6150 50,0000
Moda 50,54a 50,70 41,05 47,25a 46,70a 49,87a
Desv. típ. ,26601 ,60745 ,56049 ,32195 ,94802 ,31070
Varianza ,071 ,369 ,314 ,104 ,899 ,097
Percentiles 10 50,5450 50,0100 41,0230 47,3040 46,8320 49,6180
25 50,7550 50,2500 41,0500 47,8275 48,2900 49,8700
50 51,0550 50,7500 41,1800 48,0600 48,6150 50,0000
75 51,2425 51,3750 42,1750 48,1700 48,9350 50,3725
a. Existen varias modas. Se mostrará el menor de los valores.
[Li Ls) Yj nj Nj hi Hj Yjnj (Yj-Media)^2*nj
15 21 18 4 4 0,04 0,04 72 1511,65
21 27 24 7 11 0,07 0,11 168 1264,44
27 33 30 23 34 0,23 0,34 690 1273,13
33 39 36 23 57 0,23 0,57 828 47,69
39 45 42 19 76 0,19 0,76 798 395,08
45 51 48 18 94 0,18 0,94 864 2007,24
51 57 54 6 100 0,06 1 324 1645,40
TOT 100 3744 8144,64
Media Moda Mediana Var Dsv_Tipica

37,44 33 37,17 82,27 9,07

m
=
m
Y *nj  d1   n / 2 − N j −1 
 2 
2
j =1 J
(Y j − Y ) * n j
2 S S
Y= Mo = Li + C *   M e = Li + C * 
y
n  d1 + d 2   n  S = J =1
n −1
j y
XX
Creación de Intervalos: medidas de dispersión...
Con S (desviación típica) y la media aritmética se pueden

formar intervalos de la forma que se muestra en la
fórmula y obtener el número de observaciones que caen
dentro de ese intervalo. Y  kS
Si nuestra distribución muestral tiene una forma mas o menos

simétrica y acampanada podemos usar la regla empírica:
alrededor del 69% de las observaciones cae dentro de una
desviación estándar de la media
alrededor del 95% de las observaciones cae dentro de dos
desviaciones estándar de la media
alrededor del 97.7% de las observaciones cae dentro de tres
desviaciones estándar de la media
Monóxido de Carbono en
el humo de los cigarros
Intervalos alrededor
de la media
n = 372
X = 11, 66
S = 4, 089
X  kS (7,57; 15,75) 264 obs 70,96%

X  2S (3,48; 19,85 ) 353 obs 94,89%
X  3S (-0,61; 23,93) 372 obs 100%
Medidas de Posición Relativa
Son medidas descriptivas que localizan la posición

de una medición en relación a otras mediciones.
Una medida que expresa esta posición en
términos de un porcentaje es llamado percentil
El percentil de orden  (P ) es el valor de la

variable por debajo del cual se encuentra una
frecuencia acumulada .
medidas de posición relativa...
El percetil 25 o primer
cuartil Q1 = - 0.675 deja a
su izquierda el 25% de
las observaciones
El percetil 70, es decir,

P70 = 0.525 deja a su
izquierda el 70% de las
observaciones
El diagrama de tallo y hojas, nos ayuda a

localizarlos rápidamente
- Los datos se ordenan de menor a mayor

- Se encuentra la localización de los percentiles:
  
l(P ) =   ( n)
 100 
- Se lee el valor de dicha observación
- Si la localización es fraccionaria s
toma el promedio del valor en la
localización anterior y el posterior
Los percentiles no necesariamente son números observados

l(Q1) = (25/100)31 = 7.75

1 9 6
3 10 2 3  Q1 = P25 = 11.05
6 10 6 7 9
11 11 0 1 3 3 3 l(Q3) = (75/100)31 = 23.25
(5) 11 7 7 8 8 8
14 12 0 0 1 2 3  Q3 = P75 = 12.65
9 12 6 6 9 9
5 13 0 2 3 3 4 l(Q2) = (50/100)31 = 15.5
 Q2 = P 50 = 11.8
Los cuartiles Q1 y Q3 son muy útiles para

construir lo que llamamos diagrama de
caja y brazos.
Los cuartiles Q1 , Q2 y Q3 son muy útiles para construir lo que
llamamos diagrama de caja y brazos. Los Qi son 3
número que dividen al conjunto de datos en 4 partes iguales
25%
[Li Ls) Yj nj Nj hi Hj Ubicación de los Qi
15 21 18 4 4 0,04 0,04 i*n
Qi  − th lugar
21 27 24 7 11 0,07 0,11 4
1*100
27 33 30 23 34 0,23 0,34 Q1  − th = 25 − th
33 39 36 23 57 0,23 0,57
4
2*100
39 45 42 19 76 0,19 0,76 Q2  − th = 50 − th
4
45 51 48 18 94 0,18 0,94
3*100
51 57 54 6 100 0,06 1 Q3  − th = 75 − th
TOT
4
100
[Li Ls) Yj nj Nj hi Hj Ubicación de los Qi
15 21 18 4 4 0,04 0,04 i*n
Qi  − th lugar
21 27 24 7 11 0,07 0,11 4
27 33 30 23 34 0,23 0,34
33 39 36 23 57 0,23 0,57 Cálculo de los Qi
39 45 42 19 76 0,19 0,76  i*n 
 4 − N j −1 
45 51 48 18 94 0,18 0,94
Qi = Li + C  
51 57 54 6 100 0,06 1  n j 
TOT 100  
 1*100   2*100 
 4 − 11   4 − 34 
Q1 = 27 + 6   = 30, 65 Q2 = 33 + 6   = 37,17
23  23 
 
   
 3*100 
 4 − 57 
Q3 = 39 + 6   = 44, 68 RI = Q3 − Q3 = 44, 68 − 30, 65
 19 
 
R =Vmax −Vmin
Vmin ______________ 25% _____________ 50% ________________ 75% ________________ V max
Q1 Q2 Q3
30, 65 37,17 44, 68
RI =Q3 −Q1
25% _______________ 50% ________________ 75%

Diagrama de Caja y Brazos
Nos permite ver la distribución de los datos, el
máximo, el mínimo, la localización de los Cuartiles,
y la dispersión por cuartiles. Nos permitirá ver si
existe un sesgo así como puntos extremos.
DIAGRAMA DE CAJAS Y BIGOTES
Diagrama de cajas y bigotes, para nuestro ejemplo:
x edad de n = 100 personas
Gráfica de caja de X
10 20 30 40 50 60
10 20 30 40 50 60
X
Análisis Exploratorio de Datos
Para hacer estadística diferente a la descriptiva,

podemos usar todas las técnicas hasta ahora
aprendidas y hacer algún análisis comparativo o
asociativo.
El problema de comparación consiste en

contrastar las distribuciones de frecuencia de
una variable de interés para dos o mas
subpoblaciones basándose en los datos de la
muestra.
En el problema de comparación surgen algunas
preguntas:
¿Hay alguna diferencia en las distribuciones

poblacionales?
¿Cuál es la naturaleza de esas diferencias?
¿Qué tan grandes son esas diferencias?
El análisis exploratorio nos ayudará a darnos una

idea de las respuestas a estas preguntas
comparación...
La comparación de las distribuciones de frecuencia

entre subpoblaciones cuando la variable de interés
es cualitativa se hace con una tabla de contingencia o
tabulación cruzada
Hábitos de tabaquismo
Nunca ha Dejó de Fuma

Género Total
fumado fumar actualmente
Masculino 154 25 185 364
Femenino 127 11 38 176
Total 281 36 223 540
las frecuencias pueden ser realtivas o absolutas y nos dan una idea de qué
tan frecuente se presentan simultáneamente ambos atributos en una
población
comparación...
El objetivo de la comparación es ver si una

característica determinada varía relativo a
alguna subclase, por lo que se calculan las
frecuencias relativas condicionales nij / ni
ó pij / pi (de ésta manera compensamos por
diferencias de tamaños) ...
Hábitos de tabaquismo (%)

Género Total
Masculino 28.5 4.6 34.3 67.4
Femenino 23.5 2.1 7.0 32.6
Total 52.0 6.7 41.3 100

comparación...
... y calculamos las frecuencias relativas

condicionadas a género
Hábitos de tabaquismo condicionadas a género (%)

Género Total
Masculino 42.3 6.8 50.9 100
Femenino 72.1 6.5 21.5 100
Total 52.0 6.7 41.3 100
Hábito de Tabaquismo por Género
80.0
¿el hábito de
60.0
tabaquismo
Frecuencia
40.0
difiere si se es
20.0
hombre o
0.0
Nunca ha fumado Dejó de fumar Fuma actualmente mujer?
Masculino Femenino
comparación...
Si la variable a analizar es discreta se puede tratar

como si fuera cualitativa.
Edad en años condicionada a género (%)

Género 39 40 41 42 Total
Masculino 10.53 21.05 42.11 26.32 100
Femenino 36.36 18.18 18.18 27.27 100
Total 20.00 20.00 33.33 26.67 100
Distribución de Edad por Género

4 5 .0 0 ¿hay alguna
diferencia
3 0 .0 0
entre géneros
Masculino
1 5 .0 0 Femenino con respecto
0 .0 0
a la edad?
39
40
41 42
comparación...
En el caso de que la variable a analizar sea

contínua podemos estar interesados en comparar
tanto la localización como la dispersión entre las
distribuciones de frecuencia de las subpoblaciones.
Una manera de hacerlo es por medio de un
diagrama esquemático
Tiempos por Género ¿Quién tiene

30 000
tiempos más
20 000
altos?
Orden llegada
¿quién tiene
10 000
mayor
0 dispersión?
F M
Género
Muchas veces es importante saber si una variable
influye sobre el comportaminto de otra variable.
Con ello estudiamos el problema de asociación.
Ambas Variables Ordinales

El uso de la tabla de contingencia y su
correspondiente diagrama de barras es de gran
utilidad para asociar variables cualitativas en escala
ordinal.
Ésta tabla se presenta con las frecuencias relativas
condicionadas a las clases de una de las variables
Posiciónrespectoalhorariodeverano
Desacuerdo Indiferente Acuerdo Total
Bajo 23.90 49.02 27.07 100.00
Nivel
Medio 47.02 31.93 21.05 100.00
Socioeconóm
Alto 20.69 36.21 43.10 100.00
ico
Posición respecto al horario de verano
60.00
¿A mayor nivel
45.00
socioeconómico,
30.00
mayor aceptación?
15.00
0.00
Bajo Medio Alto
Desacuerdo Indiferente Acuerdo
asociación ...
asociación ...
Una Variable Ordinal y otra Cuantitativa

Una manera de evidenciar la posible asociación entre las
variables es a través del diagrama esquemático.
Éste diagrama nos da una idea de cómo dependen la

variable cuantitativa, no solo en localización sino
también en dispersión con respecto al aumento o
disminución en escala de la variable cualitativa ordinal.
asociación ...
Grado Escolar
Maternal Kinder I Kinder II
68 255 425
35 202 370
145 317 380
173 327 476
190 247 410
225 100 358
340 448 338
123 412 373
228 228 377 500
192 467
297 388 400
Habilidad de Lenguaje
300
200
100
¿Qué nos dice
este diagrama 0
Maternal Kinder I Kinder II
esquemático?
asociación...
Ambas Variables Cuantitativas

Para este caso el diagrama de dispersión es muy usado
para asociar variables cuantitativas.
Consiste en graficar parejas de valores ( xi , yi )
correapondientes a un solo individuo, sobre un plano
cartesiano.
Una medida de asociación que complementa este
diagrama es el coeficiente de correlación (medida de
relación lineal entre las variables) obtenido como:

n
i =1
( X i − X )(Yi − Y )
n −1 S xy
r ( x, y ) = =
Sx S y Sx S y
asociación ...
100
80
90 70
80 60
50
70
40
60
30
50 20
40 10
0
30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
r = 0.99 r = - 0.7
100 330
90 280
80
230
70
180
60
50 130
40
80
30
140 150 160 170 180 190 200 30
140 150 160 170 180 190 200
r = 0.8 r = 0.1
¿Se puede decir que si r es cero, las variables son independientes?

asociación ...
Edad versus Tiempo
75
60
45
Edad
30
15
0
0 10000 20000 30000 40000
Tiempo
¿Existe alguna relación lineal

r = 0.130 entre el tiempo que tomó
correr la maratón y la edad de
los participantes? ¿Confirma
el valor de r esta relación?
Ejemplo 7.- Tengamos las siguientes puntuaciones en las X Y
variables: X (inteligencia) e Y (rendimiento académico) 105 4
116 8
103 2
Calcular el coeficiente de correlación de Pearson: a) en 124 7
137 9
puntuaciones directas, b) puntuaciones diferenciales y c) 126 9
puntuaciones estandarizadas. 112 3
X Y (Xi-M(Xi)) (Yi-M(Yi)) (Xi-M(Xi))(Yi-M(Yi)) (Xi-M(Xi))^2 (Yi-M(Yi))^2 129 10
105 4 -12,5 -2,5 31,25 156,25 6,25
118 7
116 8 -1,5 1,5 -2,25 2,25 2,25
103 2 -14,5 -4,5 65,25 210,25 20,25 105 6
124 7 6,5 0,5 3,25 42,25 0,25
137 9 19,5 2,5 48,75 380,25 6,25
126 9 8,5 2,5 21,25 72,25 6,25
112 3 -5,5 -3,5 19,25 30,25 12,25
129 10 11,5 3,5 40,25 132,25 12,25
118 7 0,5 0,5 0,25 0,25 0,25
105 6 -12,5 -0,5 6,25 156,25 0,25
PROMEDI
O 117,5 6,5 233,5 1182,5 66,5
n 10
VAR(..)131,389 7,389 131,389 7,389
DSV(..) 11,462 2,718 11,462 2,718

n
i =1
( X i − X )(Yi − Y )
n −1 S xy
r=0,833 r ( x, y ) = =
Sx S y Sx S y

Semana 2 Introd Estadística Descriptiva

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Semana 2 Introd Estadística Descriptiva

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD NACIONAL DEL CALLAO

FACULTAD DE INGENIERÍA AMBIENTAL

Medidas de Tendencia Central y

La frecuencia relativa o porcentaje para una

género frecuencia porcentaje Histograma

edad frecuencia por centaj e

b) ¿qué porcentaje de individuos tuvieron un tiempo mayor o igual a 12,631 seg?

c) ¿qué tiempo máximo es el que al menos el 50% de las personas tuvieron?

Diagrama de tallo y hojas para la variable edad 38|0 = 38,0

Diseño de tallo y hoja: X

Diseño de tallo y hoja: X

18,5 23,5 28,5 33,5 38,5 43,5 48,5 53,5

Diagrama de puntos. Útil para cuando tenemos

Polígono de Frecuencias Ojiva

Polígono de Frecuencia Ojiva

Si pudiéramos escoger entre dos números que nos

-un número que esté

En el caso en que los datos estén agrupados:

9631(0, 03) + 10231(0, 03) + ... + (13831(0,10)

mediana Se localiza el valor (n+1)/2 y

para datos agrupados se estima como

[Li Ls) Yj nj Nj hi Hj  100 

cuando los datos están agrupados

Rango intercuartílico es la distancia entre el

Varianza es una variación promedio alrededor de

S x2 = , para datos no agrupados

Si los datos están agrupados en m intervalos, la varianza

Hay algunas formas de poner juntos a la desviación

Coeficiente de Variación: es una medida de

Media 50,9850 50,8300 41,4680 47,9960 48,6120 50,0830

Media Moda Mediana Var Dsv_Tipica

Con S (desviación típica) y la media aritmética se pueden

Si nuestra distribución muestral tiene una forma mas o menos

X  kS (7,57; 15,75) 264 obs 70,96%

Son medidas descriptivas que localizan la posición

El percentil de orden  (P ) es el valor de la

El percetil 70, es decir,

El diagrama de tallo y hojas, nos ayuda a

- Los datos se ordenan de menor a mayor

Los percentiles no necesariamente son números observados

l(Q1) = (25/100)31 = 7.75

Los cuartiles Q1 y Q3 son muy útiles para

Vmin ______________ 25% _____________ 50% ________________ 75% ________________ V max

30, 65 37,17 44, 68

25% _______________ 50% ________________ 75%

Para hacer estadística diferente a la descriptiva,

El problema de comparación consiste en

¿Hay alguna diferencia en las distribuciones

El análisis exploratorio nos ayudará a darnos una

La comparación de las distribuciones de frecuencia

Nunca ha Dejó de Fuma

Femenino 127 11 38 176

Total 281 36 223 540

El objetivo de la comparación es ver si una

Nunca ha Dejó de Fuma

Femenino 23.5 2.1 7.0 32.6

Total 52.0 6.7 41.3 100

... y calculamos las frecuencias relativas

Nunca ha Dejó de Fuma

Femenino 72.1 6.5 21.5 100

Total 52.0 6.7 41.3 100

Hábito de Tabaquismo por Género

Si la variable a analizar es discreta se puede tratar

Vmin ________ 25% _ 50% 75% ______ V max

25% _ 50% __ 75%