You are on page 1of 42

Estadı́stica descriptiva

Carmen Le Foulon

ICP 0502

Jueves 16 de agosto

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 1 / 39


Hoy veremos

1. Estadı́stica descriptiva univariada

2. Estadı́stica descriptiva bivariada

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 2 / 39


Describir la muestra

Describir la muestra: qué caracterı́stica tiene la muestra sobre la cual estamos


trabajando.

Por ahora, no vamos a decir nada de la población de la cual provino la


muestra, pero es un primer paso imprescindible.

Muchas veces, el objetivo es describir la muestra.

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 3 / 39


Estadı́stica descriptiva univariada

Estadı́sticos: resumen los datos

Tendencia central (media, mediana, moda)

Dispersión (desviación estándar, rango, rango intercuartil)

Posición (percentiles)

Forma (unimodal o bimodal, coeficiente de asimetrı́a)

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 4 / 39


Estadı́stica descriptiva univariada

Variables cualitativas: descripción

Tanto para variables nominales como ordinales:


Tablas de frecuencia:
Frecuencia
Frecuencia relativa
Frecuencia acumulada
Frecuencia relativa acumulada
Gráficos de barras
Medidas resumen especı́ficas al nivel de medición.

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 5 / 39


Estadı́stica descriptiva univariada

Variables nominales: medidas resumen

Medida de tendencia central:


Moda: corresponde al valor que más se repite
Medidas de dispersión:
Razón de variación: indica el porcentaje de casos que no corresponden a la
moda
Frecmoda
RV = 1 −
N
Indice de variación cualitativa: indica el grado en que están dispersos en las
diferentes categorı́as.
Pk
1 − i=1 pi2
IVC =
(k − 1)/k
Con una distribución completamente uniforme:
RV = depende del número de categorı́as
IVC = 1

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 6 / 39


Estadı́stica descriptiva univariada

Ejemplo: Describiendo una variable nominal

Encuesta CEP: Los mapuche rurales y urbanos hoy


Marzo - Mayo 2016
Entre quienes se autoidentifican como mapuche
¿Se siente Ud. mapuche, chileno, o una mezcla de los dos?
Chileno
Mapuche
Chileno y mapuche al mismo tiempo
Mapuche primero y chileno después
Chileno primero y mapuche después

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 7 / 39


Estadı́stica descriptiva univariada

Tabla de frecuencia

¿Se siente Ud. mapuche, chileno, o una mezcla de los dos?

¿Se siente Ud. . . ? Frecuencia Frecuencia Frecuencia


relativa relativa
acumulada
Chileno 105 7% 7%
Mapuche 508 34 % 41 %
Chileno y mapuche al 627 42 % 83 %
mismo tiempo
Mapuche primero y chi- 194 13 % 96 %
leno dp
Chileno primero y ma- 60 4% 100 %
puche dp

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 8 / 39


Estadı́stica descriptiva univariada

Gráfico de barras

¿Ud. se siente...?

40%

30%
Porcentaje

20%

10%

0%

Chileno Mapuche Ambos igual Mapuche primero Chileno primero

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 9 / 39


Estadı́stica descriptiva univariada

Calculando medidas resumen

Distribución entre quienes se Medidas


autoidentifican como mapuche
Moda:
¿Se siente Ud. . . . ? Frec Frec
relati- Frecmoda
va RV = 1 −
N
Chileno 105 7%
Mapuche 508 34 %
Chileno y mapuche 627 42 %
al mismo tiempo
Mapuche primero y 194 13 %
chileno dp
1 − ki=1 pi2
P
Chileno primero y 60 4% IVC =
mapuche dp (k − 1)/k

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 10 / 39


Estadı́stica descriptiva univariada

Calculando medidas resumen

Distribución entre quienes se Medidas


autoidentifican como mapuche
Moda: 42 %
¿Se siente Ud. . . . ? Frec Frec
relati- Frecmoda
va RV = 1 −
N
Chileno 105 7%
Mapuche 508 34 %
Chileno y mapuche 627 42 %
al mismo tiempo
Mapuche primero y 194 13 %
chileno dp
1 − ki=1 pi2
P
Chileno primero y 60 4% IVC =
mapuche dp (k − 1)/k

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 10 / 39


Estadı́stica descriptiva univariada

Calculando medidas resumen

Distribución entre quienes se Medidas


autoidentifican como mapuche
Moda: 42 %
¿Se siente Ud. . . . ? Frec Frec
relati- Frecmoda
va RV = 1 −
N
Chileno 105 7%
Mapuche 508 34 % 627
RV = 1 − = 0, 58
Chileno y mapuche 627 42 % 1493
al mismo tiempo
Mapuche primero y 194 13 %
chileno dp
1 − ki=1 pi2
P
Chileno primero y 60 4% IVC =
mapuche dp (k − 1)/k

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 10 / 39


Estadı́stica descriptiva univariada

Calculando medidas resumen

Distribución entre quienes se Medidas


autoidentifican como mapuche
Moda: 42 %
¿Se siente Ud. . . . ? Frec Frec
relati- Frecmoda
va RV = 1 −
N
Chileno 105 7%
Mapuche 508 34 % 627
RV = 1 − = 0, 58
Chileno y mapuche 627 42 % 1493
al mismo tiempo
Mapuche primero y 194 13 %
chileno dp
1 − ki=1 pi2
P
Chileno primero y 60 4% IVC =
mapuche dp (k − 1)/k

1 − (0, 072 + 0, 342 + 0, 422 + 0, 132 + 0, 042 )


=
(5 − 1)/5

IVC = 0, 86
Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 10 / 39
Estadı́stica descriptiva univariada

Repasando percentiles

Antes de revisar las medidas resumen de variables ordinales, repasemos los


percentiles.
Solo tienen sentido para datos ordenados.
Entregan información sobre el valor bajo el cual se encuentra el k % de la
muestra.
Ası́, el percentil 10 identifica el valor la variable de interés bajo el cual se
ubica el 10 % de la muestra.
La mediana corresponde al percentil 50.

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 11 / 39


Estadı́stica descriptiva univariada

Repasando percentiles

¿Cómo se construyen?
Primero, los datos se ordenan de menor a mayor.
k
Percentilk = n ∗ 100
Ası́, por ejemplo, si tenemos 15 datos, y queremos definir el percentil 25:
2, 3, 3, 5, 7, 8, 8, 9, 10, 10, 11, 12, 14, 15, 17.
¿Cuál es el dato ordenado que corresponde al Percentil 25?
25
De la fórmula: Percentil25 = 15 ∗ 100 = 3,5, como no es entero, el percentil
25 corresponde a la observación ubicada en la posición 4.
En este caso: 2, 3, 3, 5, 7, 8, 8, 9, 10, 10, 11, 12, 14, 15, 17.
Cómo lo leemos? El 25 % de la muestra tiene 5 o menos.

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 12 / 39


Estadı́stica descriptiva univariada

Repasando percentiles

Percentiles ”famosos”:
Cuartiles: dividimos la muestra en 4 grupos iguales: cada una agrupa al 25 %,
en base al percentil 25, percentil 50 y percentil 75.
Quintiles: dividimos la muestra en 5 grupos iguales: cada una agrupa al 20 %,
en base al percentil 20, percentil 40, percentil 60 y percentil 80.
Deciles: dividimos la muestra en 10 grupos iguales: cada uno agrupo al 10 %
de la muestra. Por ejemplo: decil de ingresos.

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 13 / 39


Estadı́stica descriptiva univariada

Repasando percentiles: Aplicación a decil ingresos

Fuente: INE (2017) ”Distribución de los Ingresos en Chile”

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 14 / 39


Estadı́stica descriptiva univariada

Variables ordinales: medidas resumen

Medida de tendencia central:


Mediana: el valor de la categorı́a del caso (observación) central en la
distribución. Si el número de casos es par: son dos valores
Por ejemplo, N=100, mediana corresponde a los casos (ordenados de menor a
mayor) 50 y 51.
Si ambos casos corresponden a una misma categorı́a, esa categorı́a esa la
categorı́a mediana.
Si los casos caen en categorı́as diferentes: se entrega el punto medio, y dado
que una fracción no tiene sentido en variables ordinales: sólo indica que se
encuentra entre ambas.
Medida de dispersión:
Rango intercuartil: diferencia de categorı́as entre cuartil 1 y cuartil 3,
formalmente:
Rango intercuartil = Categorı́a(Percentil75 ) - Categorı́a(Percentil25 )

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 15 / 39


Estadı́stica descriptiva univariada

Ejemplo: Describiendo una variable ordinal

Encuesta CEP - Abril Mayo 2017


Todos los encuestados
De acuerdo a esta escala, ¿Cómo calificarı́a Ud. SU actual situación
económica?
Muy mala
Mala
Ni buena ni mala
Buena
Muy buena

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 16 / 39


Estadı́stica descriptiva univariada

Tabla de frecuencia

Frec Frec re- Frec relativa


lativa acumulada
Muy mala 19 2% 2%
Mala 33 3% 4%
Ni buena ni mala 847 72 % 77 %
Buena 237 20 % 97 %
Muy buena 33 3% 100 %

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 17 / 39


Estadı́stica descriptiva univariada

Gráfico de barras

¿Cómo calificaría Ud. la actual situación del país?


50%

40%

30%
Porcentaje

20%

10%

0%
Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 18 / 39
Estadı́stica descriptiva univariada

Medidas resumen

Situación actual paı́s Medidas


Mediana: Ni buena ni mala
Frec Frec re-
lativa Rango entre cuartiles:
Categorı́a Cuartil 1
Muy mala 19 2% Categorı́a Cuartil 3
Mala 33 3%
Ni buena ni mala 847 72 %
Buena 237 20 %
Muy buena 33 3%

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 19 / 39


Estadı́stica descriptiva univariada

Variables cuantitativas: medidas de tendencia central

Medidas de tendencia central


Media:
Si todas las observaciones se multiplican por una constante, la media también
se multiplica por esa constante.
Utiliza en su cálculo toda la información disponible
Se ve afectada por valores extremos
Mediana:
No utiliza toda la información disponible
No se ve afectada por valores extremos
Relación entre media y mediana y simetrı́a distribución

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 20 / 39


Estadı́stica descriptiva univariada

Forma de la distribución

Unimodal o bimodal
Simetrı́a o asimetrı́a en distribuciones unimodales:
Asimétrica sesgada a la derecha o asimetrı́a positiva: cola más dispersa está en
los valores más altos.
Asimétrica sesgada a la izquierda o asimetrı́a negativa: cola más dispera está
en los valores más bajos.
Simétrica
Diferentes medidas según cualitativos ordinales o cuantitativos
Curtosis o apuntamiento: en relación a la distribución normal, si acumula más
o menos casos en las colas que una distribución normal con una dispersión
similar.

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 21 / 39


Estadı́stica descriptiva univariada

Relación entre media y mediana

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 22 / 39


Estadı́stica descriptiva univariada

Medida de dispersión:
Varianza población
PN
i=1 (xi − x̄)2
V (x) =
N
OJO: sólo se divide por N cuando estamos calculando la varianza de la
población - tenemos toda la población. En el caso de estadı́stica descriptiva,
la muestra es la población. Pero, cuando pasamos a la estimación debemos
dividir por (N − 1)
Desviación estándar
p
DV (x) = 2 V (x)
s
PN 2
2
i=1 (xi − x̄)
DV (x) =
N
Otra medida es el rango intercuartiles, el cual, al igual que la mediana, es
más resistente que la varianza y desviación estándar.

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 23 / 39


Estadı́stica descriptiva univariada

Variables cuantitativas

Representaciones gráficas:
Permiten ver la distribución de la variable, su forma.
Histograma

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 24 / 39


Estadı́stica descriptiva univariada

Cómo construir un histograma

Identificar el rango
Definir extensión de los intervalos
Generar tabla de frecuencia en base a los intervalos creados
Graficar

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 25 / 39


Estadı́stica descriptiva univariada

Cómo construir un histograma

Encuesta CEP - Abril Mayo 2017


Desribir la distribución de la variable edad
Para toda la muestra

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 26 / 39


Estadı́stica descriptiva univariada

Cómo construir un histograma

Rango edad: 18-93


Amplitud intervalos/banda: 4 años
Construir tabla de frecuencia:
Intervalo 1: 18 6 edad < 22
Intervalo 2: 22 6 edad < 26
...
Intervalo 19: 90 6 edad < 94

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 27 / 39


Estadı́stica descriptiva univariada

Cómo construir un histograma

Histograma Edad

75
Frecuencia

50

25

18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94
Edad

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 28 / 39


Estadı́stica descriptiva bivariada

Datos bivariados

Hay dos variables de interés y queremos entender cómo se relacionan entre


ellas.
Podemos utilizar medidas resumen y representaciones gráficas.

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 29 / 39


Estadı́stica descriptiva bivariada

Datos bivariados cuantitativos: medidas resúmen

Medidas de relación lineal entre dos variables cuantitativas:


Covarianza: medido en las unidades de las variables
PN PN
i=1 (xi − x̄) ∗ (yi − ȳ i=1 (xi yi − N x̄ ȳ )
COV (x, y ) = =
N N
Coeficiente de correlación: medida normalizada de la covarianza: se mueve
entre -1 y 1.
COV (x, y )
r (x, y ) = p
V (x)V (y )

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 30 / 39


Estadı́stica descriptiva bivariada

El cuarteto de Anscombe

Francis Anscombe estadı́stico creo cuatro bases de datos


Objetivo demostrar la importancia de visualizar los datos.
Las cuatros bases tienen los mismos estadı́sticos descriptivos: media, varianza
y coeficiente de correlación.
Según esas medidas resumen, la distribución de ambas variables y su relación
es muy similar.
Pero...

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 31 / 39


Estadı́stica descriptiva bivariada

El cuarteto de Anscombe

Fuente: ”Genetics Done”, Stephen Turner

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 32 / 39


Estadı́stica descriptiva bivariada

Datos bivariados cuantitativos: representaciones gráficas

Gráfico de dispersión o scatter plot


Gráfico de barras de conjunto múltiples
Gráfico de barras de apiladas, pueden ser simples o al 100 %
Diagrama de caja o boxplot: una variable cuantitativa y otra categórica (o
categorizada), sirve para representar la distribución de una variable según su
valor en una variable categórica.
¡Y muchas más opciones!

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 33 / 39


Estadı́stica descriptiva bivariada

Datos bivariados cuantitativos: gráfico de dispersión

Se asigna a cada variable un eje, por ejemplo: educación en el eje X e


ingresos en el eje Y.
Se identifica el rango de cada variable
Se grafica cada observación como un punt.
Su ubicación en el eje X (horizontal) está dado por su valor en esa variable
(ej educación).
Su ubicación en el eje Y (vertical) por su valor en esa variable (ej ingreso)
Grafiquemos:
Ind 1: años educación=10, ingresos=250.000
Ind 2: años educación=8, ingresos=200.000
Ind 3: años educación=6, ingresos=100.000

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 34 / 39


Estadı́stica descriptiva bivariada

Datos bivariados cuantitativos: boxplot

Dividimos la muestra en las categorı́as de interés


Identificamos los valores que corresponden a los percentiles 25, 50 y 75.
Para los lı́mites superiores e inferiores, hay algunas variaciones:
Por ejemplo, Agresti y Franklin recomiendan graficar los valores mı́nimos y
máximos, siempre y cuando no exceden 1.5 RIC. Aquellos valores que lo
exceden son considerados como outlieres potenciales y se identifican como
observaciones.
Otra opción es representar percentiles más extremos, como percentil 10 y 90
(ejemplo INE), o incluso 5 y 95.
Graficamos: cada grupo es un ”valor.en el eje X, y en el eje Y los valores a los
cuales corresponden los percentiles identificados.

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 35 / 39


Estadı́stica descriptiva bivariada

Ejemplo boxplot:
Distribución ingreso por deciles de ingreso

Fuente: INE (2017) ”Distribución de los Ingresos en Chile”


Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 36 / 39
Estadı́stica descriptiva bivariada

Representaciones gráficas: algunos ejemplos

Fuente: INE (2017) ”Distribución de los Ingresos en Chile”

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 37 / 39


Estadı́stica descriptiva bivariada

Representaciones gráficas: algunos ejemplos

Fuente: Alenda, Le Foulon y Suárez-Cao

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 38 / 39


Estadı́stica descriptiva bivariada

Representaciones gráficas: algunos ejemplos

Fuente: INE (2017) ”Distribución de los Ingresos en Chile”

Carmen Le Foulon (ICP 0502) Estadı́stica descriptiva Jueves 16 de agosto 39 / 39

You might also like