Professional Documents
Culture Documents
I - 2018
Objetivo
Caracterizar o explicar el valor medio de una variable [dependiente] bajo condiciones
especícas de otra(s) variable(s) [independientes].
Observaciones
Establecer asociación, mas no causalidad.
Aunque predecir [el valor promedio] no es el centro de atención, pero es posible
hacerlo.
Formulación
y1 = β1 x1,1 + β2 x1,2 + . . . + βp x1,p + 1
y2 = β1 x2,1 + β2 x2,2 + . . . + βp x2,p + 2
.
.
.
···
y1 x1,1 x1,2 x1,p β1 1
y2 x2,1 x2,2 ··· x2,p β2 2
. = . . . + .
. .
.. .. .
.
.
.
. .
. . ..
yn xn,1 xn,2 ··· xn,p βp n
y = Xβ +
Terminología
x : variables independientes/explicativas.
y : variable dependiente/explicada/respuesta.
β : coecientes de regresión.
: errores/perturbaciones aleatorias.
Supuestos
∼ N(0, σ 2 In ) donde In es la matriz identidad de tamaño n.
Observaciones
Los parámetros del modelo son β1 , β2 , . . . , βp y σ2 .
Las variables explicativas no tienen carácter aleatorio y pueden ser continuas o
categóricas.
El carácter aleatorio del modelo recae en la variable dependiente a través del error.
Interpretación de βi
Cambio en y correspondiente a una unidad de cambio en xi cuando el resto de las
variables explicativas se mantienen constantes.
Consecuencias
El modelo caracteriza el valor medio de y para valores dados de x.
La linealidad se encuentra en los coecientes de regresión.
n 2
Y 1 1
√ exp − 2 yi − β T xi
i=1
2πσ 2σ
n
X 2
yi − β T xi
i=1
Estimador de β
β̂ = (XT X)−1 XT y
β̂ ∼ N β, σ 2 (XT X)−1
Valores ajustados/predichos
ŷ = Xβ̂ = X(XT X)−1 XT y = Hy
Estimador del valor medio de y.
Residuales
r = y − ŷ = In y − Hy = (In − H)y
Permiten evaluar la bondad de ajuste y los supuestos del modelo.
Sumas de cuadrados
La variabilidad total de la variable respuesta se descompone en la variabilidad debida a
los valores ajustados y la variabilidad debida a los residuales:
n
X n
X n
X
(yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2
i=1 i=1 i=1
Coeciente de determinación
SCR SCE
R2 = =1−
SCT SCT
Proporción de la variabilidad total que explica el modelo ajustado.
Estimador insesgado de σ 2
SCE
σ̂ 2 = = CM E
n−p
CM E : cuadrado medio del error.
Observación
Para apreciar el valor agradado de una regresión se recomienda comparar sy con σ̂ .
Signicancia global
Existe una relación signicativa entre la variable respuesta y las variables explicativas en
general?
Signicancia particular
Existe una relación signicativa entre la variable respuesta y una variable explicativa en
particular?
H0 : βi = 0 frente a H1 : βi 6= 0
β̂i
Estadístico de prueba: t= sβ̂
∼ tn−p
i
Intervalo de conanza: β̂ ± tn−p sβ̂i
Observación
La incertidumbre es mayor cuando se predice una observación particular que al predecir la
respuesta media.
Observaciones
Sobre carga de información.
Supuestos
E [i ] = 0.
Var [i ] = σ 2 .
La distribución de los errores es normal.
Residuales estandarizados
ri ri
ri∗ = = √
sri σ̂ 1 − hii
Recomendaciones
Histograma y gráco cuantil-cuantil ( qqplot ) de los residuales (normalidad).
Gracar residuales (estandarizados) frente a valores predichos (varianza constante).
Denición
Observación que diverge la tendencia general de la data. Hacen crecer el CME y por lo
tanto los margenes de error de los intervalos de conanza.
Residuales estudentizados
yi − ŷi
r̃i = √
σ̂(i) 1 − hii
Detección
Una observación se considerada (potencialmente) como outlier si:
Denición
Observación que cambia sustancialmente el análisis cuando hace parte de la data.
Distancia de Cook
(yi − ŷi )2 hii
Di =
p σ̂ 2 (1 − hii )2
Detección
Una observación se considerada (potencialmente) como inuyente si:
q
p
DF F IT Si > 2 n−p
o Di > 1
Selección de variables
Forward regression.
Backward regression.
Stepwise regression.
Comparación de modelos
Criterio de información de Akaike (AIC).
Variables polinómicas.
Regresión rígida.
Regresión Lasso.
Regresión ElasticNet.
Regresión no lineal.
Regresión no paramétrica.
Regresión cuantílica.
Regresión robusta.