Professional Documents
Culture Documents
英文文献翻译
英文文献翻译
Tibshirani 教授
美国,斯坦福大学
[2010 年 9 月 15 日,星期三,研究部门组织的一次会议上,在皇家统计学会的
年会上,D. M. Titterington 教授担任主席]
总结:在这篇论文里,我对基本的想法和历史做了一个简短的回顾,然后讨论了
自从原始论文《基于 lasso 的回归系数收缩以及选择》发表后取得的一些进展。
1. lasso
以最小化
2
N p
i ij j
i =1
y − x + j
j j =1
这相当于最小化平方的和,其具有如 j s 的约束。它类似于岭回归,其具有
约束 j2 t 因为 L1 惩罚项的形式,lasso 可以进行变量选择以及收缩,而相对
( )
1
j =1 jq
p q
的,岭回归仅能进行收缩。如果我们考虑更一般形式的惩罚项 ,lasso
了使问题变为一个凸问题的最小的 q 值(最接近于子集选择)。凸的性质对于计
算来说非常重要。
2. 这一理念的历史
yi − c j xij ˆ j
i =1
subject to c j 0, c j t
j j =1
其中 ˆ 是普通最小二乘估计通常最小二乘估计。这未定义于 p N (在 1995
年还不是一个热点)。所以我仅仅结合结合了两个阶段于一体。在其它同时期的
相关工作中,Frank 和 Friedman(1993)讨论了使用惩罚项 j 的桥回归,
L1 惩罚项作为标志在上下文中,确实其中有许多方向我未曾意识到。在发表之
初,论文并没有收获许多关注直到数年之后,为什么呢?我认为有以下几个方面:
(a)1996 年的计算与今天相比缓慢,
(b)套索的算法是黑盒,没有统计上的动机(直到 2002 年 发表的 Lars 算法),
(c)稀疏性的统计和数值优势不是立即受关注的(由我或社区),
(d)大数据问题( 在 N,P 或两者皆有)是罕见的,并且(e)社区并没有把 R
语言作为快的、易分享的新软件。
3. 计算的改进
原始 lasso 使用了一个现成的二次程序求解器。这不展示很好,并不透明。
Lars 算法提供了一种求解 lasso 的有效方法,并连接 lasso 以前转发级联回归。
Osborne 等人的同型方法中包含相同的算法。
(2000)。协调血统算法极其简单且
快速,并利用模型的假定稀疏性与极大的优势。参考文献包括 Fu
(1998),Friedman
(2007 年,2010 年),Wu 和 Lange(2008)和 Genkin 等人(2007)。我们
等人。
意识到它在与 Jacqueline Meulman 合作的 Anita Van der Kooij(Leiden)的博士论
文中的真正潜力。GLMNET,R 语言包(Friedman 等,2010)实现了许多流行型
号的协调血统方法。
4. 一些关于 lasso 的推广和变形
图形,基于高斯最大似然估计加 −1
1
,这是 L1 惩罚项在逆矩阵方面的应用。
由于图中的缺失边对应于的零元素 −1 ,这给定了一个对于图像选择很有用的
( y − yˆ )
2
i i s.t. yˆ1 yˆ 2 ...
这假设了一个单调的非递减近似,并对单调递增的情形。解决方案可以通过著名
的邻接运算来实现违反者算法(例如 Barlow 等人(1972))。在近似等渗回归中,
我们最小化了关于
2
n −1
1 N
( i i )
2 i =1
y − +
i =1
( i − i +1 )
+
罚,惩罚下跌但不是依次增加。这个过程允许我们评估单调性假设——通过比较
近似单调近似和最佳单调近似,证明了该方法的有效性。Tibshirani 等人(2011)
提供了一个简单的算法,可以计算整个路径这是一种修改版的合并相邻违规者程
序。他们同时也说明了自由度的个数是自由度的唯一值 是解决方案,使用
Tibshirani 和 Taylor(2011)的结果。
表一:lasso 的概括样本
图1
5. 讨论
lasso(L1 惩罚项)适用于各种各样的模型。新开发的计算机静态算法允许
将这些模型应用于大型数据集,利用稀疏性用于统计和计算增益。有关套索的有
趣工作正在伦敦进行许多领域,包括统计学、工程学、数学和计算机科学。我的
结论是对统计学家来说是个挑战。这是一个令人愉快的领域,但我们不应该发明
新的模型和算法就是为了它。我们应该把重点放在开发工具和工具上了解它们的
性质,帮助我们和我们的合作者解决重要的科学问题问题。
致谢
参考文献: