Analisis de Regresion PDF

Análisis de Regresión Lineal Múltiple
Juan Sosa, PhD
I - 2018
Juan Sosa (Universidad Externado) I - 2018 1 / 16

Análisis de Regresión Lineal Múltiple
Objetivo
Caracterizar o explicar el valor medio de una variable [dependiente] bajo condiciones
especícas de otra(s) variable(s) [independientes].
Observaciones
Establecer asociación, mas no causalidad.
Aunque predecir [el valor promedio] no es el centro de atención, pero es posible
hacerlo.
Modelo [de carácter probabilístico] con muchas posibilidades!

Modelo
Estructura del conjunto de datos

Matriz de datos X de tamaño n×p : variables independientes/explicativas.
Vector de datos y de tamaño n×1 : variable dependiente/explicada/respuesta.
Formulación
y1 = β1 x1,1 + β2 x1,2 + . . . + βp x1,p + 1
y2 = β1 x2,1 + β2 x2,2 + . . . + βp x2,p + 2
.
.
.
yn = β1 xn,1 + β2 xn,2 + . . . + βp xn,p + n
···
      
y1 x1,1 x1,2 x1,p β1 1
 y2   x2,1 x2,2 ··· x2,p  β2   2 
 . = . .  .  +  . 
      
. .
 ..   .. .
.
.
.
.  . 
. .  .. 
yn xn,1 xn,2 ··· xn,p βp n
y = Xβ +

Modelo (cont.)
Terminología
x : variables independientes/explicativas.
y : variable dependiente/explicada/respuesta.
β : coecientes de regresión.
: errores/perturbaciones aleatorias.
Supuestos
∼ N(0, σ 2 In ) donde In es la matriz identidad de tamaño n.
Observaciones
Los parámetros del modelo son β1 , β2 , . . . , βp y σ2 .
Las variables explicativas no tienen carácter aleatorio y pueden ser continuas o
categóricas.
El supuesto de normalidad y varianza constante no es una camisa de fuerza.
El carácter aleatorio del modelo recae en la variable dependiente a través del error.
Los errores se asumen como independientes.

Implicaciones del modelo
Como y = Xβ + se obtiene que y | X ∼ N(Xβ, σ 2 In ) y además
E [yi | xi ] = β1 xi,1 + β2 xi,2 + . . . + βp xi,p = β T xi

Var [yi | xi ] = σ 2
Interpretación de βi
Cambio en y correspondiente a una unidad de cambio en xi cuando el resto de las
variables explicativas se mantienen constantes.
Consecuencias
El modelo caracteriza el valor medio de y para valores dados de x.
La linealidad se encuentra en los coecientes de regresión.
La interpretación de los coecientes no está dada en términos de cargas/pesos.

Estimación
Encontrar los valores de β y σ2 para reproducir y tan precisamente como sea posible.
Método de máxima verosimilitud

Encontrar los valores de β y σ2 que maximicen (optimicen) la función de verosimilitud:
n 2
Y 1 1
√ exp − 2 yi − β T xi
i=1
2πσ 2σ
Método de mínimos cuadrados ordinarios

Encontrar los valores de β que minimicen (optimicen) la función cuadrática:
n
X 2
yi − β T xi
i=1
Estimador de β
β̂ = (XT X)−1 XT y

β̂ ∼ N β, σ 2 (XT X)−1

Estimación (cont.)
Valores ajustados/predichos
ŷ = Xβ̂ = X(XT X)−1 XT y = Hy
Estimador del valor medio de y.
Residuales
r = y − ŷ = In y − Hy = (In − H)y
Permiten evaluar la bondad de ajuste y los supuestos del modelo.
Sumas de cuadrados
La variabilidad total de la variable respuesta se descompone en la variabilidad debida a
los valores ajustados y la variabilidad debida a los residuales:
n
X n
X n
X
(yi − ȳ)2 = (ŷi − ȳ)2 + (yi − ŷi )2
i=1 i=1 i=1
SCT = SCR + SCE
Observación: SCE es la cantidad que se debe minimizar para ajustar el modelo.

Estimación (cont.)
Coeciente de determinación
SCR SCE
R2 = =1−
SCT SCT
Proporción de la variabilidad total que explica el modelo ajustado.
Coeciente de determinación ajustado

Ra2 = 1 − n−1
n−p
(1 − R2 )
Estimador insesgado de σ 2
SCE
σ̂ 2 = = CM E
n−p
CM E : cuadrado medio del error.
Observación
Para apreciar el valor agradado de una regresión se recomienda comparar sy con σ̂ .

Inferencia
Signicancia global
Existe una relación signicativa entre la variable respuesta y las variables explicativas en
general?
H0 : β1 = β2 = . . . = βp = 0 frente a H1 : βj 6= 0 para algún j

SCR/(p−1) CM R
Estadístico de prueba: F = SCE/(n−p)
= CM E
∼ Fp−1,n−p
Signicancia particular
Existe una relación signicativa entre la variable respuesta y una variable explicativa en
particular?
H0 : βi = 0 frente a H1 : βi 6= 0
β̂i
Estadístico de prueba: t= sβ̂
∼ tn−p
i
Intervalo de conanza: β̂ ± tn−p sβ̂i

Inferencia (cont.)
Observación promedio para x0

q
T
β̂ x0 ± tn−p σ̂ xT0 (XT X)−1 x0
Observación particular para x0

q
T
β̂ x0 ± tn−p σ̂ 1 + xT0 (XT X)−1 x0
Observación
La incertidumbre es mayor cuando se predice una observación particular que al predecir la
respuesta media.

Multicolinealidad
Correlación entre las variables explicativas, i.e, información redundante en el modelo.
Observaciones
Sobre carga de información.
Una correlación absoluta mayor a 0.7 sugiere problemas de este estilo.
Hay un aumento del error estándar de los coecientes de regresión.
Se hace difícil determinar la signicancia de las variables explicativas en particular.

Validación del modelo
Supuestos
E [i ] = 0.
Var [i ] = σ 2 .
La distribución de los errores es normal.
Los errores son mutuamente independientes.
Residuales estandarizados
ri ri
ri∗ = = √
sri σ̂ 1 − hii
Recomendaciones
Histograma y gráco cuantil-cuantil ( qqplot ) de los residuales (normalidad).
Gracar residuales (estandarizados) frente a valores predichos (varianza constante).
Gracar residuales (estandarizados) frente a cada variable explicada (tendencias).

Outliers
Denición
Observación que diverge la tendencia general de la data. Hacen crecer el CME y por lo
tanto los margenes de error de los intervalos de conanza.
Residuales estudentizados
yi − ŷi
r̃i = √
σ̂(i) 1 − hii
Detección
Una observación se considerada (potencialmente) como outlier si:
|ri∗ | > 2 o |r̃i | > 3

Observación inuyentes
Denición
Observación que cambia sustancialmente el análisis cuando hace parte de la data.
DFFITS (dierence in ts )

ŷi − ŷ(i)
DF F IT Si = √
σ̂(i) hii
Distancia de Cook
(yi − ŷi )2 hii
Di =
p σ̂ 2 (1 − hii )2
Detección
Una observación se considerada (potencialmente) como inuyente si:
q
p
DF F IT Si > 2 n−p
o Di > 1

Observaciones
Selección de variables
Forward regression.
Backward regression.
Stepwise regression.
Comparación de modelos
Criterio de información de Akaike (AIC).
Criterio de información Bayesiano (BIC)
Pruebas de hipótesis para modelos anidados.
Todo tipo de variables explicativas

Variables dummy.
Variables polinómicas.

Alternativas
Transformar la variable respuesta (logaritmo, raíz cuadrada, Box-Cox).
Regresión lineal general.
Regresión rígida.
Regresión Lasso.
Regresión ElasticNet.
Regresión no lineal.
Regresión no paramétrica.
Regresión cuantílica.
Regresión robusta.
Modelos lineales generalizados.

Analisis de Regresion PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis de Regresion PDF

Uploaded by

Copyright:

Available Formats

Análisis de Regresión Lineal Múltiple

Juan Sosa, PhD

Juan Sosa (Universidad Externado) I - 2018 1 / 16

Modelo [de carácter probabilístico] con muchas posibilidades!

Juan Sosa (Universidad Externado) I - 2018 2 / 16

Estructura del conjunto de datos

Vector de datos y de tamaño n×1 : variable dependiente/explicada/respuesta.

yn = β1 xn,1 + β2 xn,2 + . . . + βp xn,p + n

Juan Sosa (Universidad Externado) I - 2018 3 / 16

El supuesto de normalidad y varianza constante no es una camisa de fuerza.

Los errores se asumen como independientes.

Juan Sosa (Universidad Externado) I - 2018 4 / 16

Como y = Xβ +  se obtiene que y | X ∼ N(Xβ, σ 2 In ) y además

E [yi | xi ] = β1 xi,1 + β2 xi,2 + . . . + βp xi,p = β T xi

La interpretación de los coecientes no está dada en términos de cargas/pesos.

Juan Sosa (Universidad Externado) I - 2018 5 / 16

Método de máxima verosimilitud

Método de mínimos cuadrados ordinarios

Juan Sosa (Universidad Externado) I - 2018 6 / 16

SCT = SCR + SCE

Observación: SCE es la cantidad que se debe minimizar para ajustar el modelo.

Juan Sosa (Universidad Externado) I - 2018 7 / 16

Coeciente de determinación ajustado

Juan Sosa (Universidad Externado) I - 2018 8 / 16

H0 : β1 = β2 = . . . = βp = 0 frente a H1 : βj 6= 0 para algún j

Juan Sosa (Universidad Externado) I - 2018 9 / 16

Observación promedio para x0

Observación particular para x0

Juan Sosa (Universidad Externado) I - 2018 10 / 16

Correlación entre las variables explicativas, i.e, información redundante en el modelo.

Una correlación absoluta mayor a 0.7 sugiere problemas de este estilo.

Hay un aumento del error estándar de los coecientes de regresión.

Se hace difícil determinar la signicancia de las variables explicativas en particular.

Juan Sosa (Universidad Externado) I - 2018 11 / 16

Los errores son mutuamente independientes.

Gracar residuales (estandarizados) frente a cada variable explicada (tendencias).

Juan Sosa (Universidad Externado) I - 2018 12 / 16

|ri∗ | > 2 o |r̃i | > 3

Juan Sosa (Universidad Externado) I - 2018 13 / 16

DFFITS (dierence in ts )

Juan Sosa (Universidad Externado) I - 2018 14 / 16

Criterio de información Bayesiano (BIC)

Pruebas de hipótesis para modelos anidados.

Todo tipo de variables explicativas

Juan Sosa (Universidad Externado) I - 2018 15 / 16

Transformar la variable respuesta (logaritmo, raíz cuadrada, Box-Cox).

Regresión lineal general.

Modelos lineales generalizados.

Juan Sosa (Universidad Externado) I - 2018 16 / 16

You might also like

yn = β1 xn,1 + β2 xn,2 + . . . + βp xn,p + n

El supuesto de normalidad y varianza constante no es una camisa de fuerza.

Como y = Xβ + se obtiene que y | X ∼ N(Xβ, σ 2 In ) y además

La interpretación de los coecientes no está dada en términos de cargas/pesos.

Coeciente de determinación ajustado

Hay un aumento del error estándar de los coecientes de regresión.

Se hace difícil determinar la signicancia de las variables explicativas en particular.

Gracar residuales (estandarizados) frente a cada variable explicada (tendencias).

DFFITS (dierence in ts )