You are on page 1of 52

UNIVERSIDAD NACIONAL DEL CALLAO

FACULTAD DE INGENIERÍA AMBIENTAL


Y DE RECURSOS NATURALES

Medidas de Tendencia Central y


Dispersión
¿Cómo presentar los datos?
La frecuencia absoluta n i para una clase particular es
el número de observaciones que se ubican en cada
clase.

La frecuencia relativa o porcentaje para una


clase particular es su frecuencia absoluta entre el
número total de observaciones
ni
hi =
n
Esta frecuencia ayuda a sumarizar en forma
ordenada la información contenida en la muestra
tanto en tablas como en gráficas.

género frecuencia porcentaje Histograma


0.75
0 19 0.63
0.50
1 11 0.37
0.25
Total 30 1
0.00
tabla de distribución de frecuencias M F
Género

diagrama de barras
Si las variables son cuantitativas discretas las tablas
de frecuencias se realizan con la creación de
diferentes clases en base a los datos que toma la
variable.

edad frecuencia por centaj e


38 3 0.10 Histogramade FrecuenciasparaEdad
39 3 0.10
40 6 0.20 7
41 1 0.03 6
42 3 0.10 5

Frecuencia
43 2 0.07 4
44 4 0.13 3
45 3 0.10 2
46 4 0.13 1
47 0 0.00 0
48 0 0.00 38 39 40 41 42 43 44 45 46 47 48 49
49 1 0.03
Total 30 1.00
Edad
Si las variables son cuantitativas continuas las
tablas de frecuencias se realizan con la creación de
intervalos numéricos que formarán las diferentes
clases.
ti e m p o fr e c u e p o rce n
n c ia ta j e Histograma
9331- 9931 1 0 .0 3
0.30
9 9 3 1 -1 0 5 3 1 1 0 .0 3
1 0 5 3 1 -1 1 1 3 1 3 0 .1 0 0.20

Frecuenci
1 1 1 3 1 -1 1 7 3 1 6 0 .2 0 0.10
1 1 7 3 1 -1 2 3 3 1 5 0 .1 7

a
1 2 3 3 1 -1 2 9 3 1 5 0 .1 7 0.00
9631 10231 10831 11431 12031 12631 13231 13831
1 2 9 3 1 -1 3 5 3 1 6 0 .2 0 Tiempo
1 3 5 3 1 -1 4 1 3 1 3 0 .1 0
T o ta l 30 1 .0 0
Podemos completar esta tabla de frecuencias con una
columna que nos de las Frecuencias Acumuladas ¿qué uso
tienen?
Tiempo (seg) Frec.:ni Prorcentaje Frec. Acum: Ni
9631 1 0,033 0,033 a) 0.167
10231 1 0,033 0,067
10831 3 0,100 0,167
0,167 c) 46.7%
11431 6 0,200 0,367
12031
12031 5 0,167 0,533 e) 12,031 seg
12631 5 0,167
0,167 0,700
13231 6 0,200
0,200 0,900
13831 3 0,100
0,100 1,000
Total 30 1,00
a) ¿qué frecuencia de individuos tuvieron un tiempo menor a 11 431 seg?

b) ¿qué porcentaje de individuos tuvieron un tiempo mayor o igual a 12,631 seg?

c) ¿qué tiempo máximo es el que al menos el 50% de las personas tuvieron?


Otros diagramas de utilidad:

3 38 0 0 0
-se usa con pocos valores
6 39 0 0 0
12 40 0 0 0 0 0 0
13 41 0 -los datos están ordenados
(3) 42 0 0 0
-encontramos fácilmente
14 43 0 0
12 44 0 0 0 0 mínimo y máximo
8 45 0 0 0
5 46 0 0 0 0 -encontramos fácilmente
1 47 los percentiles.
1 48
1 49 0 -da un visión gráfica de la
distribución de los datos

Diagrama de tallo y hojas para la variable edad 38|0 = 38,0


Ejemplo: agrupar en frecuencias y graficar en un diagrama de tallo y hojas
X ni
16 27 30 32 35 35 40 44 46 49
16 2
16 28 30 32 35 35 40 44 46 49 17 1
18 1
17 28 30 32 35 35 41 44 46 50 22 2
18 28 30 32 35 35 41 44 46 50 25 3
27 2
22 28 31 33 35 36 41 44 46 53 28 5
22 28 31 34 35 36 42 44 46 53 29 2
30 6
25 29 31 34 35 36 42 45 47 53 31 4
25 29 31 34 35 39 42 45 47 54 32 6
33 1
25 30 32 35 35 39 42 45 47 54 34 3
35 16
27 30 32 35 35 40 44 46 49 54 36 3
39 2
40 3
La reducción de datos mediante el agrupamiento en frecuencias no 41 3
facilita su interpretación: La tabla es demasiado grande. Para 42 4
44 7
reducir el tamaño de la tabla agrupamos los valores en intervalos, y 45 2
las frecuencias son las de los conjuntos de valores incluidos en los 46 6
47 3
intervalos: 49 2
50 3
53 2
54 3
3
100
DIAGRAMA DE TALLO Y HOJAS

Diseño de tallo y hoja: X


Tallo y hoja de X N = 100
Unidad de hoja = 1,0

4 1 6678
18 2 22555778888899
(41) 3 00000011112222223444555555555555555566699
41 4 000111222244444445556666666777999
8 5 00333666
DISTRIBUCIÓN DE FRECUENCIAS EN INTERVALOS

16 27 30 32 35 35 40 44 46 49 [Li Ls) Yj nj Nj hi Hj
16 28 30 32 35 35 40 44 46 49
15 21 18 4 4 0,04 0,04
17 28 30 32 35 35 41 44 46 50
18 28 30 32 35 35 41 44 46 50 21 27 24 5 9 0,05 0,09
22 28 31 33 35 36 41 44 46 53 27 33 30 25 34 0,25 0,34
22 28 31 34 35 36 42 44 46 53 33 39 36 23 57 0,23 0,57
25 29 31 34 35 36 42 45 47 53 39 45 42 19 76 0,19 0,76
25 29 31 34 35 39 42 45 47 56 45 51 48 18 94 0,18 0,94
25 30 32 35 35 39 42 45 47 56
51 57 54 6 100 0,06 1
27 30 32 35 35 40 44 46 49 56
TOT 100

Diseño de tallo y hoja: X


4 1 6678)
18 2 22555)778888899
(41) 3 0000001111222222)34445555555555555555666)99
41 4 00011122224444444)5556666666777999
8 5 00)333666)
DISTRIBUCIÓN DE FRECUENCIAS EN INTERVALOS
X ni
16 2
17 1
nº datos 100 [Li Ls) Yj nj Nj hi Hj
18 1
15 21 18 4 4 0,04 0,04
22 2 Limite Inferior 16
25 3 21 27 24 5 9 0,05 0,09
27 2
28 5 Limite superior 56 27 33 30 25 34 0,25 0,34
29 2
30 6 Rango 40 33 39 36 23 57 0,23 0,57
31 4
32 6
39 45 42 19 76 0,19 0,76
33 1 nº de clase 8 45 51 48 18 94 0,18 0,94
34 3
35 16
Tamaño de clase o 51 57 54 6 100 0,06 1
36 3 amplitud 5 TOT
39 2 100
40 3 Intervalos de clase
41 3
42 4 Clases Li Ls
44 7
45 3 1 16 21
46 7
47 3 2 21 26
49 2 3 26 31
50 3 4 31 36
53 3
56 3 5 36 41
6 41 46
100 7 46 51
8 51 56
Frecuencia %
Clases
Yj nj Nj hj acumulado
16 21 18,5 4 4 4,00% 4,00%
21 26 23,5 5 9 9,00% 9,00%
26 31 28,5 19 28 28,00% 28,00%
31 36 33,5 29 57 57,00% 57,00%
36 41 38,5 8 65 65,00% 65,00%
41 46 43,5 21 86 86,00% 86,00%
46 51 48,5 8 94 94,00% 94,00%
51 56 53,5 6 100 100,00% 100,00%
Gráfico de frecuencias
Histograma 35
29
30
40 120,00%
100,00% 25
30 21

Frecuencias
Frecuencia

80,00% 19
20
20 60,00%
Frecuencia 15
40,00%
10
20,00% % acumulado 10 8 8
5 6
0 0,00% 4
5
18,5
23,5
28,5
33,5
38,5
43,5
48,5
53,5

0
18,5 23,5 28,5 33,5 38,5 43,5 48,5 53,5
Título del eje
Título del gráfico

53,5 18,5
4% 23,5
6%
48,5 5%
8%

28,5
19%

43,5
21%

38,5
8%
33,5
29%

18,5 23,5 28,5 33,5 38,5 43,5 48,5 53,5


Medidas de Tendencia Central
:
. . : . : . :
: : : . : : : : : .
+ + + + + + Edad
38.0 40.0 42.0 44.0 46.0 48.0

Diagrama de puntos. Útil para cuando tenemos


pocos datos discretos

Polígono de Frecuencias Ojiva

Polígono de Frecuencia Ojiva

8 1.00

6 0.75
Frecuencia

4 0.50
Acumulado
Porcentaje

2 0.25

0 0.00
9000 10000 11000 12000 13000 14000 9000 10000 11000 12000 13000 14000

Tiempo Tiempo
Métodos Numéricos
(válidos solo para datos cuantitativos)

Si pudiéramos escoger entre dos números que nos


ayuden a construir una imagen mental burda de la
distribución de un grupo de datos ¿Cuáles
escogeríamos?

-un número que esté


localizado cerca del centro
de la distribución 9
3 3 1
9
9
9 19 3 32 1 5
9 3 1
0 1 319 5 2 5
0
30 59 0 3 1 53251 5
-un número que mida la 3 0 0 5 3 30 0 5 3
3 0 304 5 37358 0 3 3 5
2 5
3 8 975 3 304 3758
dispersión de la 4
8 9
8 4 3 8
3 8 975 73 0 3

8
4 7 8 4 37 8
4 8 89 9 8 0

8
8

distribución 8
48 9
68 9
68 97 8 3 20
3 3 2 02

8
6 6 6
6 3 2
6
6
Medidas de Tendencia Central
Son números que se localizan cerca del centro o cerca
de donde se encuentran los datos con mayor frecuencia:
media, mediana, moda
Polígono de Frecuencia
8

Frecuencia
4

0
9000 10000 11000 12000 13000 14000

Tiempo

Medidas de Dispersión
Son números que indican qué tan separados están los
datos entre si: rango, desviación estándar, rango
intercuartil
Medidas de tendencia central
1 n
media X =  xi , Para datos sin agrupar
n i =1

En el caso en que los datos estén agrupados:


m

1 n y n j j
Y =  y j n j , Para datos agrupados
m
Y= j =1
=  y j * hj
n i =1 n j =1
ti e m p o ( se g ) fr e c . hi F r e c . A c u muladas .
9631 1 0 .0 3 0 .0 3
10231 1 0 .0 3 0 .0 7
10831 3 0 .1 0 0 .1 7
11431 6 0 .2 0 0 .3 7
12031 5 0 .1 7 0 .5 3
12631 5 0 .1 7 0 .7 0
13231 6 0 .2 0 0 .9 0
13831 3 0 .1 0 1 .0 0
T o ta l 30 1

9631(0, 03) + 10231(0, 03) + ... + (13831(0,10)


X= = 12187 seg
30
medidas de tendencia central ...

mediana Se localiza el valor (n+1)/2 y


se observa el valor central que toma

Ubicación de la
3 38 0 0 0
30 + 1
6 39 0 0 0 Me = = 15,5 − th
12 40 0 0 0 0 0 0 2
13 41 0
(3) 42 0 0 0
14 43 0 0
12 44 0 0 0 0
8 45 0 0 0 el valor que toma la
5 46 0 0 0 0 variable es 42.0 años
1 47
1 48
1 49 0
medidas de tendencia central ...

para datos agrupados se estima como


n 
 2 − N j −1 
M e = X = Li + C  
 n j 
 
donde C =(Li-Ls) son los límites inferior y superior de la clase que
contiene a la mediana, Nj-1 es la frecuencia acumulada hasta la clase
anterior a la que contien la mediana y nj es la frecuencia absoluta
simple del intervalo que contiene a la mediana

[Li Ls) Yj nj Nj hi Hj  100 


 − 34 
15 21 18 4 4 0,04 0,04 M e = 33 + 6  2  = 37,17
21 27 24 7 11 0,07 0,11  23 
27 33 30 23 34 0,23 0,34  
33 39 36 23 57 0,23 0,57  23 − 23 
M o = 33 + 6   = 33
39 45 42 19 76 0,19 0,76  0 + 23 − 19 
45 51 48 18 94 0,18 0,94
51 57 54 6 100 0,06 1
TOT 100
medidas de tendencia central ...
moda
Es el valor que mas se repite en la serie:
frecuencia mas alta.
La distribución puede ser unimodar, multimodal

cuando los datos están agrupados


podemos hablar de una clase modal o
estimar la moda:
 d1 
M o = Li + C  
 d1 + d 2 
donde C = (Li-Ls) son los límites inferior y superior
de la clase modal, d1= nj – nj-1 y d2= nj – nj+1

 23 − 23   23 − 7 
M o = 33 + 6   = 33 M o = 27 + 6   = 33
 0 + 23 − 19   16 + 23 − 23 
Medidas de Dispersión
rango se define como la diferencia entre el valor
máximo y el mínimo:
Rango = max - min
Es una medida sensible a valores extremos y no es muy
informativa ya que es insensible a datos intermedios

Rango intercuartílico es la distancia entre el


cuartil 3 y cuartil 1 porcentil 75 y el porcentil 25:
RI = Q3 − Q1 = P75 − P25
Nos da una idea de la distancia entre los valores que
determinan el 50% de los datos centrales
medidas de dispersión...

Varianza es una variación promedio alrededor de


la media, definida como
 i=1 i
n
( X − X ) 2

S x2 = , para datos no agrupados


n −1
un problema de la varianza es que tiene las unidades al
cuadrado y su interpretación no es fácil, por lo que usamos
su raiz: desviación estándar
 i=1 i
n
( X − X ) 2
es sensible a valores extremos.
Sx =
n −1

Si los datos están agrupados en m intervalos, la varianza


se estima como:


m
(Y j − Y ) 2 * n j
S 2
= i =1
;
n −1
y
para nuestro ejemplo ¿qué valor toma Sy ?

m
(Y j − Y ) 2 * n j
Sy = i =1
;
n −1
medidas de dispersión...

Hay algunas formas de poner juntos a la desviación


estándar y a la media muestrales

Coeficiente de Variación: es una medida de


variación relativa y expresa la desviación estándar
como un porcentaje de la media aritmética. Se
obtiene como
Sx Sy
CVx = *100 CVy = *100
X Y
Por su falta de dimensiones es muy útil para
comparar variación entre diferentes poblaciones, que
a simple vista serían difíciles de comparar.
EJEMPLOS A APLICATIVOC
1. La siguiente información corresponde a resultados del
“Método de ensayo para determinar el material que pasa el
tamiz Nº 200 (75 µm) – NTP 339.132 (1999)”, calcular las
estadísticas descriptivas.
A B C D E F
50,93 50,80 41,23 48,42 48,81 50,20
51,25 51,30 41,30 47,84 50,46 50,32
50,54 50,10 42,38 48,09 48,77 50,53
50,59 51,00 42,14 48,03 49,28 49,87
51,06 51,80 41,10 48,29 46,70 50,00
51,29 51,60 42,28 47,25 48,46 50,55
51,24 50,70 41,05 47,79 48,38 49,59
51,05 50,70 41,13 48,00 48,42 49,90
50,81 50,30 41,05 48,12 48,82 49,87
51,09 50,00 41,02 48,13 48,02 50,00
TOTALES 509,85 508,30 414,68 479,96 486,12 500,83
MEIDIAS 50,99 50,83 41,47 48,00 48,61 50,08
VAR(Xi) 0,0708 0,369 0,314 0,104 0,8988 0,09653
CUARTIL_1 50,84 50,4 41,06 47,88 48,39 49,8775
Estadísticos descriptivos
N Media Desv. Tip Varianza
A 10 50,9850 ,26601 ,071
B 10 50,8300 ,60745 ,369
C 10 41,4680 ,56049 ,314
D 10 47,9960 ,32195 ,104
E 10 48,6120 ,94802 ,899
F 10 50,0830 ,31070 ,097

Estadísticos
A B C D E F

Media 50,9850 50,8300 41,4680 47,9960 48,6120 50,0830


Mediana 51,0550 50,7500 41,1800 48,0600 48,6150 50,0000
Moda 50,54a 50,70 41,05 47,25a 46,70a 49,87a
Desv. típ. ,26601 ,60745 ,56049 ,32195 ,94802 ,31070
Varianza ,071 ,369 ,314 ,104 ,899 ,097
Percentiles 10 50,5450 50,0100 41,0230 47,3040 46,8320 49,6180
25 50,7550 50,2500 41,0500 47,8275 48,2900 49,8700
50 51,0550 50,7500 41,1800 48,0600 48,6150 50,0000
75 51,2425 51,3750 42,1750 48,1700 48,9350 50,3725
a. Existen varias modas. Se mostrará el menor de los valores.
[Li Ls) Yj nj Nj hi Hj Yjnj (Yj-Media)^2*nj
15 21 18 4 4 0,04 0,04 72 1511,65
21 27 24 7 11 0,07 0,11 168 1264,44
27 33 30 23 34 0,23 0,34 690 1273,13
33 39 36 23 57 0,23 0,57 828 47,69
39 45 42 19 76 0,19 0,76 798 395,08
45 51 48 18 94 0,18 0,94 864 2007,24
51 57 54 6 100 0,06 1 324 1645,40
TOT 100 3744 8144,64

Media Moda Mediana Var Dsv_Tipica


37,44 33 37,17 82,27 9,07


m
=
m
Y *nj  d1   n / 2 − N j −1 
 2 
2
j =1 J
(Y j − Y ) * n j
2 S S
Y= Mo = Li + C *   M e = Li + C * 
y
n  d1 + d 2   n  S = J =1

n −1
j y

XX
Creación de Intervalos: medidas de dispersión...

Con S (desviación típica) y la media aritmética se pueden


formar intervalos de la forma que se muestra en la
fórmula y obtener el número de observaciones que caen
dentro de ese intervalo. Y  kS

Si nuestra distribución muestral tiene una forma mas o menos


simétrica y acampanada podemos usar la regla empírica:
alrededor del 69% de las observaciones cae dentro de una
desviación estándar de la media
alrededor del 95% de las observaciones cae dentro de dos
desviaciones estándar de la media
alrededor del 97.7% de las observaciones cae dentro de tres
desviaciones estándar de la media
Monóxido de Carbono en
el humo de los cigarros

Intervalos alrededor
de la media
n = 372
X = 11, 66
S = 4, 089

X  kS (7,57; 15,75) 264 obs 70,96%


X  2S (3,48; 19,85 ) 353 obs 94,89%
X  3S (-0,61; 23,93) 372 obs 100%
medidas de dispersión...
Medidas de Posición Relativa

Son medidas descriptivas que localizan la posición


de una medición en relación a otras mediciones.
Una medida que expresa esta posición en
términos de un porcentaje es llamado percentil

El percentil de orden  (P ) es el valor de la


variable por debajo del cual se encuentra una
frecuencia acumulada .
medidas de posición relativa...

El percetil 25 o primer
cuartil Q1 = - 0.675 deja a
su izquierda el 25% de
las observaciones

El percetil 70, es decir,


P70 = 0.525 deja a su
izquierda el 70% de las
observaciones
medidas de posición relativa...

El diagrama de tallo y hojas, nos ayuda a


localizarlos rápidamente

- Los datos se ordenan de menor a mayor


- Se encuentra la localización de los percentiles:
  
l(P ) =   ( n)
 100 
- Se lee el valor de dicha observación
- Si la localización es fraccionaria s
toma el promedio del valor en la
localización anterior y el posterior

Los percentiles no necesariamente son números observados


medidas de posición relativa...

l(Q1) = (25/100)31 = 7.75


1 9 6
3 10 2 3  Q1 = P25 = 11.05
6 10 6 7 9
11 11 0 1 3 3 3 l(Q3) = (75/100)31 = 23.25
(5) 11 7 7 8 8 8
14 12 0 0 1 2 3  Q3 = P75 = 12.65
9 12 6 6 9 9
5 13 0 2 3 3 4 l(Q2) = (50/100)31 = 15.5
 Q2 = P 50 = 11.8

Los cuartiles Q1 y Q3 son muy útiles para


construir lo que llamamos diagrama de
caja y brazos.
Los cuartiles Q1 , Q2 y Q3 son muy útiles para construir lo que
llamamos diagrama de caja y brazos. Los Qi son 3
número que dividen al conjunto de datos en 4 partes iguales
25%
[Li Ls) Yj nj Nj hi Hj Ubicación de los Qi
15 21 18 4 4 0,04 0,04 i*n
Qi  − th lugar
21 27 24 7 11 0,07 0,11 4
1*100
27 33 30 23 34 0,23 0,34 Q1  − th = 25 − th
33 39 36 23 57 0,23 0,57
4
2*100
39 45 42 19 76 0,19 0,76 Q2  − th = 50 − th
4
45 51 48 18 94 0,18 0,94
3*100
51 57 54 6 100 0,06 1 Q3  − th = 75 − th
TOT
4
100
[Li Ls) Yj nj Nj hi Hj Ubicación de los Qi
15 21 18 4 4 0,04 0,04 i*n
Qi  − th lugar
21 27 24 7 11 0,07 0,11 4
27 33 30 23 34 0,23 0,34
33 39 36 23 57 0,23 0,57 Cálculo de los Qi
39 45 42 19 76 0,19 0,76  i*n 
 4 − N j −1 
45 51 48 18 94 0,18 0,94
Qi = Li + C  
51 57 54 6 100 0,06 1  n j 
TOT 100  

 1*100   2*100 
 4 − 11   4 − 34 
Q1 = 27 + 6   = 30, 65 Q2 = 33 + 6   = 37,17
23  23 
 
   
 3*100 
 4 − 57 
Q3 = 39 + 6   = 44, 68 RI = Q3 − Q3 = 44, 68 − 30, 65
 19 
 
R =Vmax −Vmin

Vmin ______________ 25% _____________ 50% ________________ 75% ________________ V max

Q1 Q2 Q3

30, 65 37,17 44, 68

RI =Q3 −Q1

25% _______________ 50% ________________ 75%


Diagrama de Caja y Brazos
Nos permite ver la distribución de los datos, el
máximo, el mínimo, la localización de los Cuartiles,
y la dispersión por cuartiles. Nos permitirá ver si
existe un sesgo así como puntos extremos.
DIAGRAMA DE CAJAS Y BIGOTES
Diagrama de cajas y bigotes, para nuestro ejemplo:
x edad de n = 100 personas

Gráfica de caja de X
10 20 30 40 50 60

10 20 30 40 50 60
X
Análisis Exploratorio de Datos

Para hacer estadística diferente a la descriptiva,


podemos usar todas las técnicas hasta ahora
aprendidas y hacer algún análisis comparativo o
asociativo.

El problema de comparación consiste en


contrastar las distribuciones de frecuencia de
una variable de interés para dos o mas
subpoblaciones basándose en los datos de la
muestra.
En el problema de comparación surgen algunas
preguntas:

¿Hay alguna diferencia en las distribuciones


poblacionales?
¿Cuál es la naturaleza de esas diferencias?
¿Qué tan grandes son esas diferencias?

El análisis exploratorio nos ayudará a darnos una


idea de las respuestas a estas preguntas
comparación...

La comparación de las distribuciones de frecuencia


entre subpoblaciones cuando la variable de interés
es cualitativa se hace con una tabla de contingencia o
tabulación cruzada

Hábitos de tabaquismo

Nunca ha Dejó de Fuma


Género Total
fumado fumar actualmente
Masculino 154 25 185 364

Femenino 127 11 38 176

Total 281 36 223 540

las frecuencias pueden ser realtivas o absolutas y nos dan una idea de qué
tan frecuente se presentan simultáneamente ambos atributos en una
población
comparación...

El objetivo de la comparación es ver si una


característica determinada varía relativo a
alguna subclase, por lo que se calculan las
frecuencias relativas condicionales nij / ni
ó pij / pi (de ésta manera compensamos por
diferencias de tamaños) ...
Hábitos de tabaquismo (%)

Nunca ha Dejó de Fuma


Género Total
fumado fumar actualmente
Masculino 28.5 4.6 34.3 67.4

Femenino 23.5 2.1 7.0 32.6

Total 52.0 6.7 41.3 100


comparación...

... y calculamos las frecuencias relativas


condicionadas a género
Hábitos de tabaquismo condicionadas a género (%)

Nunca ha Dejó de Fuma


Género Total
fumado fumar actualmente
Masculino 42.3 6.8 50.9 100

Femenino 72.1 6.5 21.5 100

Total 52.0 6.7 41.3 100

Hábito de Tabaquismo por Género

80.0
¿el hábito de
60.0
tabaquismo
Frecuencia

40.0
difiere si se es
20.0
hombre o
0.0
Nunca ha fumado Dejó de fumar Fuma actualmente mujer?
Masculino Femenino
comparación...

Si la variable a analizar es discreta se puede tratar


como si fuera cualitativa.

Edad en años condicionada a género (%)


Género 39 40 41 42 Total
Masculino 10.53 21.05 42.11 26.32 100
Femenino 36.36 18.18 18.18 27.27 100
Total 20.00 20.00 33.33 26.67 100

Distribución de Edad por Género


4 5 .0 0 ¿hay alguna
diferencia
3 0 .0 0
entre géneros
Masculino
1 5 .0 0 Femenino con respecto
0 .0 0
a la edad?
39
40
41 42
comparación...

En el caso de que la variable a analizar sea


contínua podemos estar interesados en comparar
tanto la localización como la dispersión entre las
distribuciones de frecuencia de las subpoblaciones.
Una manera de hacerlo es por medio de un
diagrama esquemático

Tiempos por Género ¿Quién tiene


30 000
tiempos más
20 000
altos?
Orden llegada

¿quién tiene
10 000
mayor
0 dispersión?
F M
Género
Muchas veces es importante saber si una variable
influye sobre el comportaminto de otra variable.
Con ello estudiamos el problema de asociación.

Ambas Variables Ordinales


El uso de la tabla de contingencia y su
correspondiente diagrama de barras es de gran
utilidad para asociar variables cualitativas en escala
ordinal.
Ésta tabla se presenta con las frecuencias relativas
condicionadas a las clases de una de las variables
Posiciónrespectoalhorariodeverano
Desacuerdo Indiferente Acuerdo Total
Bajo 23.90 49.02 27.07 100.00
Nivel
Medio 47.02 31.93 21.05 100.00
Socioeconóm
Alto 20.69 36.21 43.10 100.00
ico

Posición respecto al horario de verano

60.00
¿A mayor nivel
45.00
socioeconómico,
30.00
mayor aceptación?
15.00

0.00
Bajo Medio Alto

Desacuerdo Indiferente Acuerdo

asociación ...
asociación ...

Una Variable Ordinal y otra Cuantitativa


Una manera de evidenciar la posible asociación entre las
variables es a través del diagrama esquemático.

Éste diagrama nos da una idea de cómo dependen la


variable cuantitativa, no solo en localización sino
también en dispersión con respecto al aumento o
disminución en escala de la variable cualitativa ordinal.
asociación ...
Grado Escolar
Maternal Kinder I Kinder II
68 255 425
35 202 370
145 317 380
173 327 476
190 247 410
225 100 358
340 448 338
123 412 373
228 228 377 500
192 467
297 388 400

Habilidad de Lenguaje
300

200

100
¿Qué nos dice
este diagrama 0
Maternal Kinder I Kinder II
esquemático?
asociación...

Ambas Variables Cuantitativas


Para este caso el diagrama de dispersión es muy usado
para asociar variables cuantitativas.
Consiste en graficar parejas de valores ( xi , yi )
correapondientes a un solo individuo, sobre un plano
cartesiano.
Una medida de asociación que complementa este
diagrama es el coeficiente de correlación (medida de
relación lineal entre las variables) obtenido como:


n
i =1
( X i − X )(Yi − Y )
n −1 S xy
r ( x, y ) = =
Sx S y Sx S y
asociación ...

100
80
90 70

80 60

50
70
40
60
30
50 20

40 10

0
30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

r = 0.99 r = - 0.7

100 330

90 280
80
230
70
180
60
50 130

40
80
30
140 150 160 170 180 190 200 30
140 150 160 170 180 190 200

r = 0.8 r = 0.1

¿Se puede decir que si r es cero, las variables son independientes?


asociación ...
Edad versus Tiempo

75

60

45
Edad

30

15

0
0 10000 20000 30000 40000
Tiempo

¿Existe alguna relación lineal


r = 0.130 entre el tiempo que tomó
correr la maratón y la edad de
los participantes? ¿Confirma
el valor de r esta relación?
Ejemplo 7.- Tengamos las siguientes puntuaciones en las X Y
variables: X (inteligencia) e Y (rendimiento académico) 105 4
116 8
103 2
Calcular el coeficiente de correlación de Pearson: a) en 124 7
137 9
puntuaciones directas, b) puntuaciones diferenciales y c) 126 9
puntuaciones estandarizadas. 112 3
X Y (Xi-M(Xi)) (Yi-M(Yi)) (Xi-M(Xi))(Yi-M(Yi)) (Xi-M(Xi))^2 (Yi-M(Yi))^2 129 10
105 4 -12,5 -2,5 31,25 156,25 6,25
118 7
116 8 -1,5 1,5 -2,25 2,25 2,25
103 2 -14,5 -4,5 65,25 210,25 20,25 105 6
124 7 6,5 0,5 3,25 42,25 0,25
137 9 19,5 2,5 48,75 380,25 6,25
126 9 8,5 2,5 21,25 72,25 6,25
112 3 -5,5 -3,5 19,25 30,25 12,25
129 10 11,5 3,5 40,25 132,25 12,25
118 7 0,5 0,5 0,25 0,25 0,25
105 6 -12,5 -0,5 6,25 156,25 0,25
PROMEDI
O 117,5 6,5 233,5 1182,5 66,5
n 10
VAR(..)131,389 7,389 131,389 7,389
DSV(..) 11,462 2,718 11,462 2,718

n
i =1
( X i − X )(Yi − Y )
n −1 S xy
r=0,833 r ( x, y ) = =
Sx S y Sx S y

You might also like