Professional Documents
Culture Documents
11 Chapter 7 Feature Selection - Extraction-2
11 Chapter 7 Feature Selection - Extraction-2
授课人:周晓飞
zhouxiaofei@iie.ac.cn
2022-11-11
7.1 概述
7.2 特征选择
7.3 特征提取
yW (x )
x: D维 y: d维 ; D d
优点:
• 数据更紧致的压缩
• 优化预测性能
• 加快学习速度
应用领域广:模式识别、图像处理、信号处理、数据压缩、微波、雷达、…
不同的应用问题会有不同的特征提取研究问题:
例如:
图像:SIFT 特征、纹理特征
微波:频段、多普勒
文本:情感极性特征、依存关系
语音:音色、饱和度、爆破音
…
本讲从数据压缩表示和机器学习数据处理的角度
• 线性变换
方法 1:主成分分析(PCA)
方法 2:线性鉴别分析(LDA)
• 非线性变换
方法 3:核方法的特征提取 KPCA、KFDA
方法 4:流行学习
方法 5:非负矩阵分解
y W T x yT x T W
或者
L XW
W 是 d 个基向量,向量 x 被映射到
基向量线性张成的子空间内。
维度: ( N d )( N D)( Dd )
• 矩阵分解:低秩表示 X LR
思考 1:矩阵分解 X LR 的等号一定存在吗?
至少要 rank(X)=rank(L)=rank(R)
L XW
思考 2:如果 X LR 成立,
两种低维表示 L 什么情况等价?
X LR
此时,两个式子的低维表示 L 等价。
L,R
L,R
RW I , RRT I RW
T
RW I , RRT I RW
T
推导 RW I ,
W R (右伪逆) RT ( RRT ) 1
W RT
投影向量关系: RRT I , 则W W I ,
T T
RW
2 2
X LW T xiT li T
WT
i
求解该优化问题,可以先固定 W,
求出 L 关于 W 和 X 的表示,将该问题转化为只与 W 相关的优化问题。
2 2
X LW T xiT li T
WT
i
2 2
X LW T xiT li T
WT
i
2 2
X LW T xiT liT W T
i
2
xiT liT W T
i
2
xiT li T
WT
i
2
T T
l
当固定 w 时,每个样本 i x w 时,重构误差 xi l
T
ii w 最小,
T T 2
min
(几何比较直观,该结论也可以通过求解 li xi li w )
Chapter 7 Feature Reduction & Selection -22- 中国科学院大学网安学院 2022-2023 学年研究生秋季课程
特征提取
主分量分析(PCA)
目标函数的等价形式:
min xiT li w T min d i2
2
L ,w i w i
min x - li w
w i
2 T 2
max l w
w i
i
T 2
max l 2 w 2
w i
max l 2
w i
max w T xi xiT w
2
max w T xi
w i w i
max w T ( xi xiT ) w
w i
L ,w i w i
最小误差 等价于 最大投影
min x - li w
w i
2 T 2
max l w
w i
i
T 2
max l 2 w 2
w i
max l 2
w i
max w T xi xiT w
2
max w T xi
w i w i
max w T ( xi xiT ) w
w i
max w T Sw
w
1N 1
其中,w w 1, S E[ xx ] xi xiT X T X
T T
n i1 n
• Lagrange 函数:
L wT Sw ( wT w 1)
L
0 ( S I )w 0
w
• 等价于求 S 的特征值和对应的特征向量:
Sw w
特征值对应目标函数值,最大特征值对应特征向量为最优方向:
Sw w wT Sw
目标函数
max wT Sw
w
j , i j
w Sw j T
• W T SW Λ , 0,i j
i
未标准化 标准化
• 矩阵分解: X LR
特征因子 R 就是 投影方向的转置
RW T
• 投影: L XW
特征选择
PCA
SVD
PCA
Chapter 7 Feature Reduction & Selection -40- 中国科学院大学网安学院 2022-2023 学年研究生秋季课程
特征提取
线性鉴别分析(LDA)
线性鉴别分析的意义:
PCA 不能保证类别区分的有效性,LDA 特征的优点:类内最小、类间最大。
线性鉴别准则(回顾第三章):
wT Sb w
J F (w) T
w Sww
注:向量 w, x, m, y 都为列向量
且 1 2 ... D
选前 d 个特征值对应的特征向量 1 , 2 , ..., d
组成矩阵 W [ 1 2 d ]
(对于多类可以提取多个特征,如果只有两类,Sb 的秩为 1,每次只能提取一维特征)
线性变换: L W T ,W ( w1 , w2 ,..., wd )
高维映射 ( x ) ? 线性变换W T ?
高维空间的主成分分析
Sw w ΦΦ TΦα Φα
如何可以引入核函数?
核函数引入到主成分分析
两边左乘 Φ : ΦT ΦΦ T Φα ΦT Φα
K K K
Kα α
k ( x1 , x1 ) k ( x1 , x2 ) ... k ( x1 , xn )
k ( x2 , x1 ) k ( x2 , x2 ) ... k ( x2 , xn )
其中 K
k ( xn , x1 )k ( xn , x2 ) ... k ( xn , xn )
局部线性结构:
每一个样本与近邻 k 个样本的局部线性关系
2
n k k
arg min Ew xi w(i,j)xij , w(i,j)1
w i 1 j 1 j 1
计算降维数据
2
n
arg m i n EY yi w(i, j) y j
Y i 1 j 1
(3) 根据求得的权值,计算更新的实例
2
n
arg min EY yi w(i,j)y j
Y i 1 j 1
非负矩阵分解: X L R