You are on page 1of 2

Notas - Statistical Thinking for Data Science

Simple visualization and summaries

Data = numbers with context


Tipos de variables y niveles de medicin.
Visualizacin, depende del tipo de datos.
Medidas de tendencia central (center of variation)
Distribuciones.
Desviacin estndar (no permite entender la forma de la distribucin).
Percentiles, deciles, cuartiles, quintiles, etc. (+ caja de bigotes)
o Siempre es importante visualizar los datos porque permite identificar
patrones difciles de observar de otra manera.
Asociaciones entre variables

Variables categricas: ocurrencia conjunta, tablas de contingencia.


o diferencia de proporciones; P1 - P2
o relative risks; P1/P2
o odds ratio1; P1(1-P1)/P2(1-P2)
Variables categricas y numricas
o descripcin (distribucin, tendencia central, dispersin) de la variable
numrica, condicionada por (cada valor de) la variable categrica.
Variables numricas
o Diagramas de dispersin, nube de puntos o scatter plot
o Correlacin de Pearson (para asociaciones lineales); pasar de la covarianza a la correlacin.
Asociacin no es igual a causal.
o Las asociaciones son simtricas entre X & Y; la causalidad no es as.
o Las relaciones de causalidad pueden tener direcciones distintas;
adems puede haber una tercera variable no observada responsable
por la asociacin.
o Ver Paradoja de Simpson
o Ver mecanismos de seleccin y el fenmeno de la auto-seleccin
La causalidad se puede establecer a travs de la teora.
La causalidad se puede establecer a travs de diseos experimentales.
http://www.google.com/trends/correlate/tutorial

1 Probabilidad, Odds & Odds ratio (ver 2L)

Muestreo
Poblacin > Muestra (Estadstica Inferencial)

Evitar sesgos en el muestreo


Es verdaderamente aleatorio? (sesgo de seleccin; ocurre cuando la
probabilidad de que un individuo sea seleccionado est asociada al valor de la
variable de inters.
Como hablamos de muestras, necesariamente tenemos que hablar sobre
probabilidad.
Probabilidad

Reglas de probabilidad
o Tambin hablar sobre distribuciones muestrales
Reglas de probabilidad condicional
o P(A|B) = P(A&B)/P(B) y rboles
Intervalos de confianza
o El margen de error depende de:
el intervalo de confianza (usualmente es la mitad)
la variabilidad de la poblacin
el tamao de la muestra
o Este parmetro no garantiza ausencia de sesgos en el proceso de
muestreo
o Asume que no hay sesgos de seleccin
o Tampoco garantiza la ausencia de terceras variables [confounders]
confiabilidad validez
Tests de significancia
Anlisis exploratorio y visualizacin de datos
Sirve para encontrar patrones inesperados.
o Todos los grficos son comparaciones de algn tipo. Saber esto sirve
para (1) entender los grficos y (2) tener en cuenta cules
comparaciones son ms interesantes para graficar en primer lugar 2 .

2 Un dibujo & mil palabras > Dos dibujos o dos mil palabras