Professional Documents
Culture Documents
Estimación y Selección de Variables en Grandes Dimensiones
Estimación y Selección de Variables en Grandes Dimensiones
Sebastián Castro
Índice general
1 Introducción
Breve repaso de regresión lineal.
Estimación por Mı́nimos Cuadrados Ordinarios (MCO).
Problemas con MCO.
2 Más allá de MCO
Selección de variables.
Estabilización mediante Ridge y Garrote No Negativo.
3 Técnicas de regularización
Introducción: regresión Lasso
Especificación, propiedades e implementación.
Descripción: ajuste(datos) + λ* complejidad(modelo).
Extensiones a Modelos Lineales Generalizados.
Una perspectiva bayesiana.
4 Software
5 Aplicación
6 Referencias
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
Sección actual
1 Introducción
Breve repaso de regresión lineal.
Estimación por Mı́nimos Cuadrados Ordinarios (MCO).
Problemas con MCO.
2 Más allá de MCO
Selección de variables.
Estabilización mediante Ridge y Garrote No Negativo.
3 Técnicas de regularización
Introducción: regresión Lasso
Especificación, propiedades e implementación.
Descripción: ajuste(datos) + λ* complejidad(modelo).
Extensiones a Modelos Lineales Generalizados.
Una perspectiva bayesiana.
4 Software
5 Aplicación
6 Referencias
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
Y = f (X1 , . . . , Xp ) + (1)
Sección actual
1 Introducción
Breve repaso de regresión lineal.
Estimación por Mı́nimos Cuadrados Ordinarios (MCO).
Problemas con MCO.
2 Más allá de MCO
Selección de variables.
Estabilización mediante Ridge y Garrote No Negativo.
3 Técnicas de regularización
Introducción: regresión Lasso
Especificación, propiedades e implementación.
Descripción: ajuste(datos) + λ* complejidad(modelo).
Extensiones a Modelos Lineales Generalizados.
Una perspectiva bayesiana.
4 Software
5 Aplicación
6 Referencias
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
Selección de variables
Selección de variables
2SCR(β(k))/(n − k − 1)
Rajust =1−
SCT /(n − 1)
SCR(β(k))
AIC = n log + 2k
n
SCR(β(k))
BIC = n log + (log n)k
n
donde SCT = ni=1 (yi − ȳn )2 y k es el número de variables
P
del modelo ajustado.
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
Selección de variables
Selección de variables
Regresión Ridge
Regresión Ridge
Regresión Ridge
Regresión Ridge
2
Xn p
X p
X
minβ yi − βj xij , sujeto a βj2 ≤ s (6)
i=1 j=1 j=1
2
Xn p
X p
X
β̂ ridge = argminβ yi − βj xij + λ βj2 (7)
i=1 j=1 j=1
Regresión Ridge
Regresión Ridge
5
4
3
β2
●
2
^
βMCO
1
^
●β Ridge
0
●
−1
−2 0 2 4
β1
Regresión Ridge
2
n
X p
X p
X
yi − cj β̂j xij sujeto a cj ≥ 0 y cj ≤ s (8)
i=1 j=1 j=1
β̂jgnn = cj β̂j , j = 1, . . . , p
Sección actual
1 Introducción
Breve repaso de regresión lineal.
Estimación por Mı́nimos Cuadrados Ordinarios (MCO).
Problemas con MCO.
2 Más allá de MCO
Selección de variables.
Estabilización mediante Ridge y Garrote No Negativo.
3 Técnicas de regularización
Introducción: regresión Lasso
Especificación, propiedades e implementación.
Descripción: ajuste(datos) + λ* complejidad(modelo).
Extensiones a Modelos Lineales Generalizados.
Una perspectiva bayesiana.
4 Software
5 Aplicación
6 Referencias
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
2
Xn p
X p
X
minβ yi − βj xij , sujeto a |βj | ≤ s (9)
i=1 j=1 j=1
6
4
β2
●
2
^
βMCO
●
0
^
βLasso
−2 0 2 4
β1
Técnicas de regularización
2
Xn p
X
β̂ = argminβ yi − βj xij + φλ (β) (11)
i=1 j=1
Técnicas de regularización
Técnicas de regularización
Técnicas de regularización
q = 0.25
q = 0.5
1.0
q=1
0.5
0.0 q=2
β2
−0.5
−1.0
β1
Lasso
Elastic Net
1.0
Ridge
0.5
0.0
β2
−0.5
−1.0
β1
2
Xn X
argminβ yi − βj xij + φλ||βS(λ) ||1 (14)
i=1 j∈S(λ)
λ|βj |
si 0 ≤ |βj | ≤ λ
φλ (βj ) = −(βj2 − 2aλ|βj | + λ2 )/(2(a − 1)) si λ ≤ |βj | ≤ aλ
(a + 1)λ2 /2 si |βj | ≥ aλ
5
L2
L1
SCAD (a = 3.7, λ = 0.85)
4
3
φ(βj)
2
1
0
−4 −2 0 2 4
βj
σ 2 |y , X ∼ Inv − χ2 (n − p, s 2 )
con s 2 = (y − X β̂ mco )tr (y − X β̂ mco )/(n − p)
El estimador β̂ mco es entonces la media, modo y mediana
(condicional) a posteriori de β, bajo a prioris no informativas.
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
λ
exp {−λ|βj |} , j = 1, . . . , p
p(βj |λ) =
2
(distribución de Laplace o Doble Exponencial), se obtiene:
p
X
tr
−2 log p(β|y , λ, X ) = (y − X β) (y − X β) + λ |βj | + cte
j=1
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
0.5
DExp(0,1)
N(0,1)
0.4
0.3
p(β)
0.2
0.1
0.0
−4 −2 0 2 4
Sección actual
1 Introducción
Breve repaso de regresión lineal.
Estimación por Mı́nimos Cuadrados Ordinarios (MCO).
Problemas con MCO.
2 Más allá de MCO
Selección de variables.
Estabilización mediante Ridge y Garrote No Negativo.
3 Técnicas de regularización
Introducción: regresión Lasso
Especificación, propiedades e implementación.
Descripción: ajuste(datos) + λ* complejidad(modelo).
Extensiones a Modelos Lineales Generalizados.
Una perspectiva bayesiana.
4 Software
5 Aplicación
6 Referencias
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
Software
Técnica Biblioteca
Ridge MASS, glmnet
GNN lqa, oem
Lasso lars, glmnet
Elastic Net elasticnet, glmnet
Alasso parcor
Relaxo relaxo
SCAD ncvreg
Bayesian Lasso BLR
Bayesian Ridge BLR
Bayesian ENet BLR
Cuadro : Bibliotecas disponibles en entorno R para el ajuste de algunas
técnicas de regularización.
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
Sección actual
1 Introducción
Breve repaso de regresión lineal.
Estimación por Mı́nimos Cuadrados Ordinarios (MCO).
Problemas con MCO.
2 Más allá de MCO
Selección de variables.
Estabilización mediante Ridge y Garrote No Negativo.
3 Técnicas de regularización
Introducción: regresión Lasso
Especificación, propiedades e implementación.
Descripción: ajuste(datos) + λ* complejidad(modelo).
Extensiones a Modelos Lineales Generalizados.
Una perspectiva bayesiana.
4 Software
5 Aplicación
6 Referencias
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
Simulación
V1 1
V2 0.97
V3 0.95
V4 0.92
V5 0.9
V6 0.87
V7 0.84
V8 0.82
V9 0.79
V 10 0.77
V 11 0.74
V 12 0.71
V 13 0.69
V 14 0.66
V 15 0.64
V 16 0.61
V 17 0.58
V 18 0.56
V 19 0.53
V 20 0.51
V 21 0.48
V 22 0.45
V 23 0.43
V 24 0.4
V 25 0.38
V 26 0.35
V 27 0.32
V 28 0.3
V 29 0.27
V 30 0.25
V 31 0.22
V 32 0.19
V 33 0.17
V 34 0.14
V 35 0.12
V 36 0.09
V 37 0.06
V 38 0.04
V 39 0.01
V 40 −0.01
V 41 −0.04
V 42 −0.06
V 43 −0.09
V 44 −0.12
V 45 −0.14
V 46 −0.17
V 47 −0.19
V 48 −0.22
V 49 −0.25
V 50 −0.27
V1
V2
V3
V4
V5
V6
V7
V8
V9
V 10
V 11
V 12
V 13
V 14
V 15
V 16
V 17
V 18
V 19
V 20
V 21
V 22
V 23
V 24
V 25
V 26
V 27
V 28
V 29
V 30
V 31
V 32
V 33
V 34
V 35
V 36
V 37
V 38
V 39
V 40
V 41
V 42
V 43
V 44
V 45
V 46
V 47
V 48
V 49
V 50
key
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
6
Var3009
●
Var1638
●
4
Var1924
●
Var4037
●
2
Var841
●
βj
●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
●●
●
●
0
●
Var3019
−2
●
Var623
●
Var1471
−4
●
Var2884
●
Var3150
−6
índices: j = 1,...,p
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
0.05
estimación por núcleo
estimación normal
0.04
0.03
0.02
0.01
0.00
y
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
0.10
0.05
0.00
βj
^
−0.05
−0.10
log λvc
4 5 6 7 8
log λ
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
69 44 22 11
2
0
βj
^
−2
−4
−2 −1 0 1
log λ
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
4
2
0
β
^
−2
−4
− log λ
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
Sección actual
1 Introducción
Breve repaso de regresión lineal.
Estimación por Mı́nimos Cuadrados Ordinarios (MCO).
Problemas con MCO.
2 Más allá de MCO
Selección de variables.
Estabilización mediante Ridge y Garrote No Negativo.
3 Técnicas de regularización
Introducción: regresión Lasso
Especificación, propiedades e implementación.
Descripción: ajuste(datos) + λ* complejidad(modelo).
Extensiones a Modelos Lineales Generalizados.
Una perspectiva bayesiana.
4 Software
5 Aplicación
6 Referencias
Introducción Más allá de MCO Técnicas de regularización Software Aplicación Referencias
Referencias
Referencias
Referencias
Referencias
Referencias