You are on page 1of 7

基于 lasso 的回归系数收缩以及选择:回顾篇

Tibshirani 教授
美国,斯坦福大学
[2010 年 9 月 15 日,星期三,研究部门组织的一次会议上,在皇家统计学会的
年会上,D. M. Titterington 教授担任主席]
总结:在这篇论文里,我对基本的想法和历史做了一个简短的回顾,然后讨论了
自从原始论文《基于 lasso 的回归系数收缩以及选择》发表后取得的一些进展。

1. lasso

给定一个带有标准化后的预测因子 xij 和中心化后的响应值 yi 的线性回归,

其中 i = 1, 2,..., N ,j = 1, 2,..., p ,lasso 解决了找到解决关于 的 L1 惩罚回归问题,

以最小化
2
N   p

  i  ij j 
i =1 
y − x  +   j
j  j =1

这相当于最小化平方的和,其具有如   j  s 的约束。它类似于岭回归,其具有

约束   j2  t 因为 L1 惩罚项的形式,lasso 可以进行变量选择以及收缩,而相对

( )
1

 j =1  jq
p q
的,岭回归仅能进行收缩。如果我们考虑更一般形式的惩罚项 ,lasso

使用 q = 1 的情况,岭回归使用 q = 2 的情况。子集选择试图使 q → 0 ,lasso 使用

了使问题变为一个凸问题的最小的 q 值(最接近于子集选择)。凸的性质对于计
算来说非常重要。
2. 这一理念的历史

lasso 只是采用 L1 范数惩罚项的回归,L1 范数已经存在了很长时间!对我


产生最直接影响的是 Leo Breiman’s 的《non-negative garrotte》
(Breiman,1995)。
他的想法是最小化
2
N   p

  yi −  c j xij ˆ j 
i =1 
subject to c j  0,  c j  t
j  j =1

其中 ˆ 是普通最小二乘估计通常最小二乘估计。这未定义于 p  N (在 1995

年还不是一个热点)。所以我仅仅结合结合了两个阶段于一体。在其它同时期的

相关工作中,Frank 和 Friedman(1993)讨论了使用惩罚项    j 的桥回归,

其中  ,  都是由数据估计出来的。Chen 于 1998 年提出了偏差追求,其中使用了

L1 惩罚项作为标志在上下文中,确实其中有许多方向我未曾意识到。在发表之
初,论文并没有收获许多关注直到数年之后,为什么呢?我认为有以下几个方面:
(a)1996 年的计算与今天相比缓慢,
(b)套索的算法是黑盒,没有统计上的动机(直到 2002 年 发表的 Lars 算法),
(c)稀疏性的统计和数值优势不是立即受关注的(由我或社区),
(d)大数据问题( 在 N,P 或两者皆有)是罕见的,并且(e)社区并没有把 R
语言作为快的、易分享的新软件。

3. 计算的改进

原始 lasso 使用了一个现成的二次程序求解器。这不展示很好,并不透明。
Lars 算法提供了一种求解 lasso 的有效方法,并连接 lasso 以前转发级联回归。
Osborne 等人的同型方法中包含相同的算法。
(2000)。协调血统算法极其简单且
快速,并利用模型的假定稀疏性与极大的优势。参考文献包括 Fu
(1998),Friedman
(2007 年,2010 年),Wu 和 Lange(2008)和 Genkin 等人(2007)。我们
等人。
意识到它在与 Jacqueline Meulman 合作的 Anita Van der Kooij(Leiden)的博士论
文中的真正潜力。GLMNET,R 语言包(Friedman 等,2010)实现了许多流行型
号的协调血统方法。
4. 一些关于 lasso 的推广和变形

近年来,在各种各样的问题上都应用到了 lasso 和 L1 惩罚项,表一中就给出


了一个这样的清单。在 lasso 的数学方面也有很多深入且有趣的工作,如检查具
有最小预测误差的能力,恢复真正的底层模型(稀疏)。在这方面重要的贡献包
括 Bickel , Bühlmann, Candes, Donoho, Johnstone, Meinshausen , van de Geer,
Wainwright 和 Yu。我没有资格或者说空间去恰当的总结这个问题,但是我希望
Bühlmann 教授可以在他的讨论中概括这一方面。
lasso 方法还可以阐明更为传统的方法。LARS 算法中提及到了这一点,还给
逐步选择方法带来了新的理解。另一个例子是图像化的 lasso 关于拟合系数高斯

图形,基于高斯最大似然估计加   −1
1
,这是 L1 惩罚项在逆矩阵方面的应用。

由于图中的缺失边对应于的零元素  −1 ,这给定了一个对于图像选择很有用的

方法——判断哪个边是包括在内的。另外,图形 lasso 的特殊情况提供了一种新


的简单方法来拟合具有预定边的图形。固体的细节在 Hastie 等人(2008)中的第
17 章被给出。
最近的另一个例子是等渗回归(图 1)(Tibshirani 等人(2010))。给定了一

个数据序列 y1 , y2 ,..., y N 等渗回归解决了寻找 yˆ1 , yˆ 2 ,..., yˆ N 以最小化

 ( y − yˆ )
2
i i s.t. yˆ1  yˆ 2 ...

这假设了一个单调的非递减近似,并对单调递增的情形。解决方案可以通过著名
的邻接运算来实现违反者算法(例如 Barlow 等人(1972))。在近似等渗回归中,
我们最小化了关于
2
n −1
1 N
( i i ) 
2 i =1
y −  + 
i =1
( i − i +1 )
+

x+ 表示正部分,x+ = x 1( x  0 ) 。这是一个凸问题 ˆ j = yi 在  = 0 在通常的等渗回

归中达到顶点  →  。 一路上几乎单调近似。( i − i +1 )+ ‘一半’——对差异的惩

罚,惩罚下跌但不是依次增加。这个过程允许我们评估单调性假设——通过比较
近似单调近似和最佳单调近似,证明了该方法的有效性。Tibshirani 等人(2011)
提供了一个简单的算法,可以计算整个路径这是一种修改版的合并相邻违规者程
序。他们同时也说明了自由度的个数是自由度的唯一值 是解决方案,使用
Tibshirani 和 Taylor(2011)的结果。

表一:lasso 的概括样本

图1

5. 讨论

lasso(L1 惩罚项)适用于各种各样的模型。新开发的计算机静态算法允许
将这些模型应用于大型数据集,利用稀疏性用于统计和计算增益。有关套索的有
趣工作正在伦敦进行许多领域,包括统计学、工程学、数学和计算机科学。我的
结论是对统计学家来说是个挑战。这是一个令人愉快的领域,但我们不应该发明
新的模型和算法就是为了它。我们应该把重点放在开发工具和工具上了解它们的
性质,帮助我们和我们的合作者解决重要的科学问题问题。

致谢

这 里讨论的工作代表了与 许多人的合作,尤其是 Bradley Efron,Jerome


Friedman, Trevor Hastie, Holger Hoefling, Iain Johnstone, Ryan Tibshirani 和 Daniela
Witten。
我感谢皇家统计学会的研究部门邀请我介绍这个问题的回顾性论文。
作者关于一些问题的回应
我感谢 Bühlmann 和 Holmes 教授亲口发表的友好言论这是一篇回顾性的论
文,发表于 10 多年前,不足为奇的是,这篇论文所贡献的讨论对于皇家统计学
会的一篇讨论论文来说,它们是异常“驯服”的。因此我的反驳将是简短。在我最
初的论文中,我提到 lasso 解可以看作是贝叶斯极大值估计这些参数是独立的,
每个参数都是拉普拉斯(双精度)-(指数)先验分布。然而,lasso 解不是该设
置下的后验平均值或中位数:后一种解决方案不会是稀疏的。Holmes 教授提出
了另一种方式来看待套索作为贝叶斯极大值是后验估计。他的模型具有方差不等
的高斯先验代表每个预测器和一个约束。有趣的是,这个问题的解决办法给了
lasso 估计。但我不知道该如何理解它:这是统计学家认为的具有约束的先验知
识吗?你认为这是合理的吗?Holmes 教授接着批评了一般的最大后验估计,并
继续推荐使用更标准、更完整的贝叶斯分析来评估系统的不稳定性和不确定性套
索解决方案由于特征之间的相关性。在这方面,他指的是 Park 的“贝叶斯套索”
以及 Casella(2008),该研究通过高斯回归计算后验均值和中值估计具有拉普拉
斯先验的模型。但是,正如我上面提到的,这些估计并不稀少。在我看来如果你
想从一个标准的贝叶斯模型中获得稀疏解,你需要指定一个先验值这使得一些质
量为零。其中一个例子是 George 和 McCulloch 的尖峰和平板模型(1993). 这类方
法很有趣,但会导致非凸问题的计算而令人望而生畏。霍姆斯教授提到的相关特
征问题是一个非常重要的问题通过 lasso 回归收缩和选择重要的一点,但我认为
一个更好的方法,以改善 lasso 估计可以通过推广处罚,如 lasso 组(Ming 和 Lin,
2006 年)(这是 Holmes 教授提到的),以及弹性网(Zou 和 Hastie,2005)或协
方差正则化通过‘侦查’程序(Witten 和 Tibshirani,2009 年)。
教授 Bühlmann 很好地总结了许多人在预测和选择方面的最新工类的一致性
性质说明了这样一个事实,即类在发现(渐近)时是有效的除了正确的预测因子
之外,甚至产生稀疏模型的方法也是有用的自适应套索是解决这一问题的一种很
有前途的方法。Bühlmann 教授还提到只调整非零套索系数,因此通常不删减模
型。另一种获得稀疏模型的方法是通过非凸惩罚,例如平滑剪裁绝对偏(Fan 和
Li,2005)或稀疏网(Mazumder 等人,2010)。最后,我认为我们需要更好的工
具来用 lasso 和相关的方法进行推理。Bühlmann 教授提到了一些关于 lasso 模型
多重测试的有希望的工作。更重要的是,我们需要评估套索估计抽样变异性的可
靠方法。标准误差是一个开始,但是,由于采样分布是混合的,因此需要更精确
的汇总。为此,我们可能需要使用引导方法:理解这一点很重要如何最好地应用
这些方法并了解它们的特性。

参考文献:

[1] Allen, G. and Tibshirani, R. (2010) Transposable regularized covariance models


with an application to missing data imputation. Ann. Appl. Statist., 4, 764–790.
[2] Benjamini, Y. and Hochberg, Y. (l995) Controlling the false discovery rate: a
practical and powerful approach to multiple testing. J. R. Statist. Soc. B, 57, 289–
300.
[3] Bernardo, J. and Smith, A. F. M. (1994) Bayesian Theory. Chichester: Wiley.
[4] Bickel, P., Ritov, Y. and Tsybakov, A. (2009) Simultaneous analysis of Lasso and
Dantzig selector. Ann. Statist., 37, 1705–1732.
[5] Bondell, H., Krishna, A. and Ghosh, S. (2010) Joint variable selection of fixed and
random effects in linear mixed-effects models. Biometrics, 66, in the press.
[6] Bunea, F., Tsybakov, A. and Wegkamp, M. (2007) Sparsity oracle inequalities for
the Lasso. Electron. J. Statist.,1, 169–194.
[7] Candès, E., Wakin, M. and Boyd, S. (2008) Enhancing sparsity by reweighted l1
minimization. J. Four. Anal.Appl., 14, 877–905.

You might also like