You are on page 1of 16

Análisis de Regresión Lineal Múltiple

Juan Sosa, PhD

I - 2018

Juan Sosa (Universidad Externado) I - 2018 1 / 16


Análisis de Regresión Lineal Múltiple

Objetivo
Caracterizar o explicar el valor medio de una variable [dependiente] bajo condiciones
especícas de otra(s) variable(s) [independientes].

Observaciones
Establecer asociación, mas no causalidad.
Aunque predecir [el valor promedio] no es el centro de atención, pero es posible
hacerlo.

Modelo [de carácter probabilístico] con muchas posibilidades!

Juan Sosa (Universidad Externado) I - 2018 2 / 16


Modelo

Estructura del conjunto de datos


Matriz de datos X de tamaño n×p : variables independientes/explicativas.

Vector de datos y de tamaño n×1 : variable dependiente/explicada/respuesta.

Formulación
y1 = β1 x1,1 + β2 x1,2 + . . . + βp x1,p + 1
y2 = β1 x2,1 + β2 x2,2 + . . . + βp x2,p + 2
.
.
.

yn = β1 xn,1 + β2 xn,2 + . . . + βp xn,p + n

···
      
y1 x1,1 x1,2 x1,p β1 1
 y2   x2,1 x2,2 ··· x2,p  β2   2 
 . = . .  .  +  . 
      
. .
 ..   .. .
.
.
.
.  . 
. .  .. 
yn xn,1 xn,2 ··· xn,p βp n

y = Xβ + 

Juan Sosa (Universidad Externado) I - 2018 3 / 16


Modelo (cont.)

Terminología
x : variables independientes/explicativas.

y : variable dependiente/explicada/respuesta.

β : coecientes de regresión.

 : errores/perturbaciones aleatorias.

Supuestos
 ∼ N(0, σ 2 In ) donde In es la matriz identidad de tamaño n.

Observaciones
Los parámetros del modelo son β1 , β2 , . . . , βp y σ2 .
Las variables explicativas no tienen carácter aleatorio y pueden ser continuas o
categóricas.

El supuesto de normalidad y varianza constante no es una camisa de fuerza.

El carácter aleatorio del modelo recae en la variable dependiente a través del error.

Los errores se asumen como independientes.

Juan Sosa (Universidad Externado) I - 2018 4 / 16


Implicaciones del modelo

Como y = Xβ +  se obtiene que y | X ∼ N(Xβ, σ 2 In ) y además

E [yi | xi ] = β1 xi,1 + β2 xi,2 + . . . + βp xi,p = β T xi


Var [yi | xi ] = σ 2

Interpretación de βi
Cambio en y correspondiente a una unidad de cambio en xi cuando el resto de las
variables explicativas se mantienen constantes.

Consecuencias
El modelo caracteriza el valor medio de y para valores dados de x.
La linealidad se encuentra en los coecientes de regresión.

La interpretación de los coecientes no está dada en términos de cargas/pesos.

Juan Sosa (Universidad Externado) I - 2018 5 / 16


Estimación
Encontrar los valores de β y σ2 para reproducir y tan precisamente como sea posible.

Método de máxima verosimilitud


Encontrar los valores de β y σ2 que maximicen (optimicen) la función de verosimilitud:

n  2 
Y 1 1 
√ exp − 2 yi − β T xi
i=1
2πσ 2σ

Método de mínimos cuadrados ordinarios


Encontrar los valores de β que minimicen (optimicen) la función cuadrática:

n 
X 2
yi − β T xi
i=1

Estimador de β
β̂ = (XT X)−1 XT y
 
β̂ ∼ N β, σ 2 (XT X)−1

Juan Sosa (Universidad Externado) I - 2018 6 / 16


Estimación (cont.)

Valores ajustados/predichos
ŷ = Xβ̂ = X(XT X)−1 XT y = Hy
Estimador del valor medio de y.

Residuales
r = y − ŷ = In y − Hy = (In − H)y
Permiten evaluar la bondad de ajuste y los supuestos del modelo.

Sumas de cuadrados
La variabilidad total de la variable respuesta se descompone en la variabilidad debida a
los valores ajustados y la variabilidad debida a los residuales:

n
X n
X n
X
(yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2
i=1 i=1 i=1

SCT = SCR + SCE

Observación: SCE es la cantidad que se debe minimizar para ajustar el modelo.

Juan Sosa (Universidad Externado) I - 2018 7 / 16


Estimación (cont.)

Coeciente de determinación
SCR SCE
R2 = =1−
SCT SCT
Proporción de la variabilidad total que explica el modelo ajustado.

Coeciente de determinación ajustado


Ra2 = 1 − n−1
n−p
(1 − R2 )

Estimador insesgado de σ 2
SCE
σ̂ 2 = = CM E
n−p
CM E : cuadrado medio del error.

Observación
Para apreciar el valor agradado de una regresión se recomienda comparar sy con σ̂ .

Juan Sosa (Universidad Externado) I - 2018 8 / 16


Inferencia

Signicancia global
Existe una relación signicativa entre la variable respuesta y las variables explicativas en
general?

H0 : β1 = β2 = . . . = βp = 0 frente a H1 : βj 6= 0 para algún j


SCR/(p−1) CM R
Estadístico de prueba: F = SCE/(n−p)
= CM E
∼ Fp−1,n−p

Signicancia particular
Existe una relación signicativa entre la variable respuesta y una variable explicativa en
particular?
H0 : βi = 0 frente a H1 : βi 6= 0
β̂i
Estadístico de prueba: t= sβ̂
∼ tn−p
i
Intervalo de conanza: β̂ ± tn−p sβ̂i

Juan Sosa (Universidad Externado) I - 2018 9 / 16


Inferencia (cont.)

Observación promedio para x0


q
T
β̂ x0 ± tn−p σ̂ xT0 (XT X)−1 x0

Observación particular para x0


q
T
β̂ x0 ± tn−p σ̂ 1 + xT0 (XT X)−1 x0

Observación
La incertidumbre es mayor cuando se predice una observación particular que al predecir la
respuesta media.

Juan Sosa (Universidad Externado) I - 2018 10 / 16


Multicolinealidad

Correlación entre las variables explicativas, i.e, información redundante en el modelo.

Observaciones
Sobre carga de información.

Una correlación absoluta mayor a 0.7 sugiere problemas de este estilo.

Hay un aumento del error estándar de los coecientes de regresión.

Se hace difícil determinar la signicancia de las variables explicativas en particular.

Juan Sosa (Universidad Externado) I - 2018 11 / 16


Validación del modelo

Supuestos
E [i ] = 0.
Var [i ] = σ 2 .
La distribución de los errores es normal.

Los errores son mutuamente independientes.

Residuales estandarizados
ri ri
ri∗ = = √
sri σ̂ 1 − hii

Recomendaciones
Histograma y gráco cuantil-cuantil ( qqplot ) de los residuales (normalidad).
Gracar residuales (estandarizados) frente a valores predichos (varianza constante).

Gracar residuales (estandarizados) frente a cada variable explicada (tendencias).

Juan Sosa (Universidad Externado) I - 2018 12 / 16


Outliers

Denición
Observación que diverge la tendencia general de la data. Hacen crecer el CME y por lo
tanto los margenes de error de los intervalos de conanza.

Residuales estudentizados
yi − ŷi
r̃i = √
σ̂(i) 1 − hii

Detección
Una observación se considerada (potencialmente) como outlier si:

|ri∗ | > 2 o |r̃i | > 3

Juan Sosa (Universidad Externado) I - 2018 13 / 16


Observación inuyentes

Denición
Observación que cambia sustancialmente el análisis cuando hace parte de la data.

DFFITS (dierence in ts )


ŷi − ŷ(i)
DF F IT Si = √
σ̂(i) hii

Distancia de Cook
(yi − ŷi )2 hii
Di =
p σ̂ 2 (1 − hii )2

Detección
Una observación se considerada (potencialmente) como inuyente si:
q
p
DF F IT Si > 2 n−p
o Di > 1

Juan Sosa (Universidad Externado) I - 2018 14 / 16


Observaciones

Selección de variables
Forward regression.
Backward regression.
Stepwise regression.

Comparación de modelos
Criterio de información de Akaike (AIC).

Criterio de información Bayesiano (BIC)

Pruebas de hipótesis para modelos anidados.

Todo tipo de variables explicativas


Variables dummy.

Variables polinómicas.

Juan Sosa (Universidad Externado) I - 2018 15 / 16


Alternativas

Transformar la variable respuesta (logaritmo, raíz cuadrada, Box-Cox).

Regresión lineal general.

Regresión rígida.

Regresión Lasso.

Regresión ElasticNet.

Regresión no lineal.

Regresión no paramétrica.

Regresión cuantílica.

Regresión robusta.

Modelos lineales generalizados.

Juan Sosa (Universidad Externado) I - 2018 16 / 16

You might also like