Professional Documents
Culture Documents
中科院自动化研究所 机器学习之一流形学习 manifoldl
中科院自动化研究所 机器学习之一流形学习 manifoldl
中
国
科
学
院 流形学习问题
自
动
化
研
杨 剑
究 中国科学院自动化研究所
所
2004年12月29日
Machine Learning and Data Mining 2004
中
国
科 维数约简
学 增加特
增加信 提高准
院 征数 确性
息量
自
动
化
研 类增
器加
究 的训 维数灾难
所 难练
度分
学 LDA是一种监督的维数约简方法.
院
LDA的思想: 寻找最能把两类样本分开的投影直线.
自
动 LDA的目标: 使投影后两类样本的均值之差与投影
样本的总类散布的比值最大 .
化
研 Best projection
究 direction for
classification
所
Machine Learning and Data Mining 2004
中
国
科 线性判别分析(LDA) 2
学
LDA的求解: 经过推导把原问题转化为关于样本集总
院
自 类内散布矩阵和总类间散布矩阵的广义特征值问题.
动
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 多重判别分析 (MDA)
学 MDA把LDA推广到多类的情况.
院
对于c-类问题, MDA把样本投影到 c-1 维子空间.
自
动 目标和解法与LDA相似,只是类内散布矩阵的定义
化 更为复杂, 求解的广义特征值问题也更为复杂.
研
究
所
Machine Learning and Data Mining 2004
中
国
科 线性方法的缺点
学 线性方法对于很多数据不能进行有效的处理.
院
自 20
15
动 10
化
5
0
1
研 0.5
0
-0.5 -0.5
0
0.5
1
究
-1 -1
所 现实中数据的有用特性往往不是特征的线性组合.
R
Machine Learning and Data Mining 2004
中
国
科 流形学习和维数约简
学
流形是线性子空间的一种非线性推广.
院
自 流形是一个局部可坐标化的拓扑空间.
动 流形学习是一种非线性的维数约简方法.
化
研
究
所
Machine Learning and Data Mining 2004
中
国 流形学习的可行性
科
学
1 许多高维采样数据都是由少数几个隐含变量所决定
院 的, 如人脸采样由光线亮度, 人离相机的距离, 人的头
自 部姿势, 人的脸部肌肉等因素决定.
动
2 从认知心理学的角度, 心理学家认为人的认知过程是
化 基于认知流形和拓扑连续性的.
研
究
所
R
Machine Learning and Data Mining 2004
中
国
科
流形学习的一些数学基础
学 参考文献:
院
陈省身, 陈维桓, 微分几何讲义. 北京大学出版社,
自
1983
动
化 M Berger, B Gostiaux. Differential Geometry:
Manifolds, Curves and Surfaces, GTM115. Springer-
研
Verlag, 1974
究
所 陈维桓, 微分流形初步(第二版). 高等教育出版社,
2001
Machine Learning and Data Mining 2004
中
国
科 拓扑
学
院 集合 X上的拓扑 是 X 的满足以下性质的子集族:
自 (i) 对属于它的任意多元素的并集是封闭的;
动 (ii) 对属于它的有限多元素的交集是封闭的;
化
研 (iii) 且 X ,
究 称 ( X , ) 是一个拓扑空间.
所
Machine Learning and Data Mining 2004
中
国
科 Hausdorff 空间
学
如果对空间( X , )中的任意两点 x y, 存在 A (x)
院
和 B ( y) 使得 A B , 称 ( X , )是一个
自
Hausdorff 拓扑空间.
动
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 流形的定义
学 设 M 是一个Hausdorff 拓扑空间, 若对每一点 p M ,都有
院
P 的一个开领域 U 和 R n 的一个开子集同胚, 则称 M 为 n
自
动 维拓扑流形, 简称为 n 维流形.
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 坐标卡
学 假定 : U (U ) R n 是同胚, 其中 (U ) 是 R n中的开集,
院 则称 (U , )为流形 M 的一个坐标卡, 并且把 ( p) 在 R n
自
中的坐标 ( ( p)) 称为点 p U 的坐标,
动
化
M
研 z
究
所 x: coordinate for z
R2 x2
x
x1
流形在本质上是局部可坐标化的拓扑空间.
Machine Learning and Data Mining 2004
中
国
科 C 相关 r
学
设 (U1 ,1 ), (U 2 ,2 ) 是 n 维流形 M 的两个坐标卡. 若当
院
自 U1 U2 时,
动 2 11 : 1 (U1 U 2 ) 2 (U1 U 2 )
化
r 次可微的, 则称(U1 , 1 ), (U 2 ,2 ) 是 C
r
和它的逆映射都是
研
究 相关的.
所
Machine Learning and Data Mining 2004
中
国
科 微分结构
学
设 M 是 n 维流形, 假定 {(U , ) : I } 是 M 上
院
自 坐标卡的一个子集合, 且满足以下条件:
动 (1) {U : I } 构成 M 的一个开覆盖;
化 (2) 属于 的任意两个坐标卡都是 C 相关的;
r
研
究 是极大的,
(3)
所 则称 是 M 上的一个C r 微分结构.
Machine Learning and Data Mining 2004
中
国
科 C 微分流形
r
学
设 M 是 n 维流形, 若在 M 上指定了一个 C r 微分结构 ,
院
自 则称 ( M , ) 为一个 n 维 C r 微分流形. 属于 的坐标卡(U , )
动 称为该微分流形的容许坐标卡.
化
当 r 时, 称 M 为光滑流形.
研
究
所
Machine Learning and Data Mining 2004
中
国
科
光滑函数
学 设 f : M R 是定义在光滑流形 M 上的连续函数. 若在点
院
x M , 存在 M 的一个容许坐标卡 (U , ) 使得 xU ,
自
动 f 1 : (U ) R 是在点 (x ) 处光滑的函数, 则称函数 f
化 在点 x 处是光滑的.
研
究
所
Machine Learning and Data Mining 2004
中
国
科
光滑映射
学 设 M, N 分别是 m 维, n 维光滑流形, f : M N 是连续映
院
自 射. 设 x M, 若存在 M 在点 x 处的容许坐标卡 (U , ) 及
动 N 在点 f (x ) 处的容许坐标卡 (V , ) , 使得
化 f 1 : (U f 1 (V )) (V )
研
是在点 (x )处光滑的映射, 则称映射 f 在点 x 处是光滑
究
所 的.
处处光滑的映射称为光滑映射.
Machine Learning and Data Mining 2004
中
国
科 切向量
学
光滑流形M在点 x 的切向量 v 是一个满足下列条件的映
院
自 射 v : Cx R
动 (1) f , g C x , 有 v( f g ) v( f ) v( g );
化 (2) f C x , R,有 v(f ) v( f );
研
究 (3) f , g C x , 有 v( f g ) f ( x) v( g ) g ( x) v( f ).
所 光滑流形的切向量是曲线的切向量的一种推广.
Machine Learning and Data Mining 2004
中
国
科 切空间
学
设 M 是 m 维光滑流形, x0 M 用Tx0 M 表示 M 在点 x0
院
自 处的全体切向量的集合, 则在 Tx0 M 中有自然的线性结
动 构, 使得 Tx0 M 成为 m 维向量空间, 称其为 M 在点 x0
化 的切空间.
研
究
所
Machine Learning and Data Mining 2004
中
国
科 Riemann 流形
学
院 黎曼流形就是以光滑的方式在每一点的切空间上指
自 定了欧氏内积的微分流形.
动
化
研
究
所
R
Machine Learning and Data Mining 2004
中
国
科
与流形学习有关的参考文献
学
院 与机器学习, 统计学等相关的各种杂志和会议论文
自 http://www.cse.msu.edu/~lawhiu/manifold/
动
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 流形学习问题
学 设 Y R d 是一个低维流形, f : Y R D是一个光滑嵌入,
院
其中 D>d . 数据集 { yi }是随机生成的, 且经过 f 映射为观
自
动 察空间的数据 {xi f ( yi )}. 流形学习就是在给定观察样本
化 集 {xi } 的条件下重构 f 和 { yi } .
研 V. de Silva and J. B. Tenenbaum. Global versus local
究 methods in nonlinear dimensionality reduction . Neural
所 Information Processing Systems 15 (NIPS'2002), pp. 705-
712, 2003.
Machine Learning and Data Mining 2004
中
国
科 几种流形学习算法
学 局部线性嵌入(LLE).
院 S. T. Roweis and L. K. Saul. Nonlinear dimensionality reduction by
自 locally linear embedding. Science, vol. 290, pp. 2323--2326, 2000.
动 等距映射(Isomap).
化 J.B. Tenenbaum, V. de Silva, and J. C. Langford. A global geometric
framework for nonlinear dimensionality reduction. Science, vol. 290, pp.
研 2319--2323, 2000.
究
拉普拉斯特征映射(Laplacian Eigenmap).
所
M. Belkin, P. Niyogi, Laplacian Eigenmaps for Dimensionality
Reduction and Data Representation. Neural Computation, Vol. 15, Issue
6, pp. 1373 –1396, 2003 .
Machine Learning and Data Mining 2004
中
国
科 局部线性嵌入(LLE)
学 前提假设:采样数据所在的低维流形在局部是线性的,
院 即每个采样点可以用它的近邻点线性表示.
自
学习目标:在低维空间中保持每个邻域中的权值不变,
动 即假设嵌入映射在局部是线性的条件下, 最小化重构误差.
化
研 求解方法:特征值分解.
究
所
Machine Learning and Data Mining 2004
中
国
科 LLE算法
学 1 计算每一个点 X i 的近邻点, 一般采用K 近邻或者 邻域.
院
2 计算权值 Wij,
使得把 X i 用它的K个近邻点线性表示
自
动 的误差最小, 即通过最小化 X i Wij X j 来求出Wij .
化 3 保持权值 Wij 不变, 求 X i 在低维空间的象 Yi , 使
研
得低维重构误差最小.
究
所
Machine Learning and Data Mining 2004
中
国
科 LLE算法示意图
学
院
自
动
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 LLE算法的求解
学 1 计算每一个点 X i 的近邻点.
院
2 对于点 X i 和它的近邻点的权值 W ,
自 ij
动 k jk
G i 1
Wij , 其中 jl=(X i )(
j X i l), j ,l Xi的近
i
G .
化 lm
Gi
lm
1
研
究
3 令 W=(W ),M
ij ( I W )T ( I W ) , 低维嵌入
所 是 M 的最小的第 2到第 d+1 个特征向量.
Machine Learning and Data Mining 2004
中
国
科 LLE算法的例子(1)
学
院
自
动
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 LLE算法的例子(2)
学
院
自
动
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 LLE算法的优点
学 LLE算法可以学习任意维的局部线性的低维流形.
院
LLE算法中的待定参数很少, K 和 d.
自
动 LLE算法中每个点的近邻权值在平移, 旋转,伸缩变换下
是保持不变的.
化
研 LLE算法有解析的整体最优解,不需迭代.
究 LLE算法归结为稀疏矩阵特征值计算, 计算复杂度相对
所 较小, 容易执行.
Machine Learning and Data Mining 2004
中
国
科 LLE算法的缺点
学
LLE算法要求所学习的流形只能是不闭合的且在局部
院 是线性的.
自
LLE算法要求样本在流形上是稠密采样的.
动
化 LLE算法中的参数 K, d 有过多的选择.
研 LLE算法对样本中的噪音很敏感.
究
所
R
Machine Learning and Data Mining 2004
中
国
科 多维尺度变换 (MDS)
学 MDS 是一种非监督的维数约简方法.
院
MDS的基本思想: 约简后低维空间中任意两点间的距离
自
动 应该与它们在原高维空间中的距离相同.
化 MDS的求解: 通过适当定义准则函数来体现在低维空间
研
中对高维距离的重建误差, 对准则函数用梯度下降法求解,
究
所 对于某些特殊的距离可以推导出解析解法.
Machine Learning and Data Mining 2004
中
国
科 MDS的准则函数
学
院
J ee
i j ij ij
( d ) 2
,
自 ij 2
i j
动
2
化 d ij ij
研 J ff
i j
究 ij
所
1 (d ij ij ) 2
J ef
i j ij i j ij
Machine Learning and Data Mining 2004
中
国
科 MDS的示意图
学
院
自
动
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 MDS的失效
学
院
自
动
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 等距映射(Isomap)的基本思想
学
建立在多维尺度变换(MDS)的基础上, 力求保持数据
院
自 点的内在几何性质, 即保持两点间的测地距离.
动
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 Isomap的前提假设
学
1 高维数据所在的低维流形与欧氏空间的一个子集是整
院
自 体等距的.
动 2 与数据所在的流形等距的欧氏空间的子集是一个凸集.
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 Isomap算法的核心
学 估计两点间的测地距离:
院
1 离得很近的点间的测地距离用欧氏距离代替.
自
动 2 离得较远的点间的测地距离用最短路径来逼近.
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 测地距离估计
学
院
自
动
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 Isomap算法
学
1 计算每个点的近邻点 (用K近邻或 邻域).
院
自 2 在样本集上定义一个赋权无向图 如果 X i 和 X 互为
j
近邻点, 则边的权值为 d X (i, j ).
动
化 3 计算图中两点间的最短距离, 记所得的距离矩阵为
研 DG {dG (i, j)} .
究
4 用MDS求低维嵌入流形 ,
所
令 S ( Sij ) ( Dij2 ),H ( Hij ) (ij 1 / N ), ( D) HSH / 2,
低维嵌入是 (D ) 的第2小到第 d+1小的特征值所对应
的特征向量.
Machine Learning and Data Mining 2004
中
国
科 图距离逼近测地距离
学
M. Bernstein, V. Silva, J.C. Langford, J.B. Tenenbaum
院 证明了如下的渐进收敛定理.
自
动 假设采样点是随机均匀抽取的, 则
化 渐进收敛定理 给定 1 , 2 , 0, 则只要样本集充分大
研 且适当选择K , 不等式
究 graph distance
所 1 1 1 2
geodesic distance
至少以概率 1 成立.
Machine Learning and Data Mining 2004
中
国
科 Isomap 算法的例子(1)
学
院
自
动
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 Isomap 算法的例子(2)
学
院
自
动
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 Isomap算法的特点
学 Isomap是非线性的, 适用于学习内部平坦的低维流形,
院
不适于学习有较大内在曲率的流形 .
自
动 Isomap算法中有两个待定参数K, d .
化 Isomap算法计算图上两点间的最短距离, 执行起来比
研
较慢 .
究
所
R
Machine Learning and Data Mining 2004
中
国
科
拉普拉斯算子
学
设 M 是光滑的黎曼流形, f 是 M 上的光滑函数, f
院
自 是 f 的梯度, 则称线性映射
动 : C ( M ) C ( M ), f div( f )
化 为 M 上的拉普拉斯算子, 其中div是散度算子.
研
究
所
Machine Learning and Data Mining 2004
中
国
科
图上的拉普拉斯算子
学 设 G 是一个图, v 是它的顶点, d v 是 v 的自由度, w(u,v)
院
是连接顶点u,v 的边的权值,令
自
动 d v w(u, v ) uv
化 l (u, v ) -w(u,v ) u,v是连接的
0 其它
研
究 12
L T lT 12
, 其中 T 是对角矩阵,对角线的元素为
所
w(u, v)
u
, 则称 L 为图 G 上的拉普拉斯算子.
u ~v
Machine Learning and Data Mining 2004
中
国
科 拉普拉斯特征映射(Laplacian Eigenmap)
学
院 基本思想:在高维空间中离得很近的点投影到低维空间
自 中的象也应该离得很近.
动
求解方法:求解图拉普拉斯算子的广义特征值问题.
化
研
究
所
Machine Learning and Data Mining 2004
中
国
科 Laplacian Eigenmap 算法
学
1 从样本点构建一个近邻图, 图的顶点为样本点, 离得
院
自 很近两点用边相连 (K近邻或 邻域).
动 2 给每条边赋予权值 如果第 i个点和第 j 个点不相连,
化 权值为0,否则 Wij 1 ;
研
3 计算图拉普拉斯算子的广义特征向量, 求得低维嵌入.
究
所 令D为对角矩阵 Dii W ji , L D W , L是近邻图上的
j
R
Machine Learning and Data Mining 2004
中
国
LLE, Isomap, Laplacian Eigenmap 有效的原因
科
学
它们都是非参数的方法, 不需要对流形的很多的参数假
院
自 设.
动 它们是非线性的方法, 都基于流形的内在几何结构, 更
化 能体现现实中数据的本质.
研
它们的求解简单, 都转化为求解特征值问题, 而不需要
究
所 用迭代算法.
Machine Learning and Data Mining 2004
中
国 流形学习问题探讨
1
科
学 对嵌入映射或者低维流形作出某种特定的假设, 或者以
院
保持高维数据的某种性质不变为目标.
自
动 将问题转化为求解优化问题.
化 提供有效的解法.
研
究
所
Machine Learning and Data Mining 2004
中
国
流形学习问题探讨
2
科
学 为流形学习提供更为坚实和易于接受的认知基础.
院
如何确定低维目标空间的维数.
自
动 当采样数据很稀疏时, 怎样进行有效的学习.
化 将统计学习理论引入流形学习对其泛化性能进行
研 研究.
究
所
Machine Learning and Data Mining 2004
中
国 流形学习问题探讨
3
科
学 流形学习作为一种非线性降维或数据可视化的方法
院
已经在图像处理如人脸图像,手写数字图像, 语言处理
自
动 方面得了利用.
化 将其作为一种监督的学习方法用于模式识别, 虽然
研 有研究者涉足, 但是目前在这方面的工作还很有限.
究
所
Machine Learning and Data Mining 2004
中
国
科
学
院 Thanks!
自
动
化
研
究
所