模式识别 9 LDA扩展

Pattern
5.8.2 Classification
All materials in these slides were

taken from
Pattern Classification (2nd ed) by R. O.
Duda, P. E. Hart and D. G. Stork, John
Wiley & Sons, 2000
with the permission of the authors
and the publisher
9 线性可分问题及求解
◼ 9.1 两类线性可分情况
◼ 9.2 最小化均方误差（ Minimum Squared
Error Procedures . MSE）
◼ 9.3 多类别推广
9.1 两类线性可分的情况
◼线性可分：
有n个样本 x 1 ,x 2 ,...x n ，分别属于两个类别  ,  ，
1 2
如果存在一个线性判别函数 g(x) = a能 t
x 够完全正
确的对他们分类，这些样本就是线性可分的。
其中权重向量 a 被称为分离向量或者解向量。
9.2 最小化均方误差
◼假设 at xi = bi
bi 为指定的类别标签（每一类别具有的特定标示符）
最小化均方误差过程
◼从而将求解问题替换为求解一组线性方程组的问题，
更严格但更容易理解。
◼ 最小化均方误差和伪逆（Pseudoinverse）
对于所有样本 x1,x 2 ,...,x n ，我们想找到一个权重向量

a，使得 at xi = bi .
矩阵表示法为:
 x10 x 11 ... x 1d  a0   b1 
 
 
 x 20 x 21 ... x 2d  a1   b2 
 ...    =    xa = b
 ... ... ... ...  ...
x x n 1 ... x nd  ad   bn 
 n0
误差向量: e = Xa − b
6
❑ Sum-of-squared-error 判别函数:
n
 i i
2
J s(a ) = Xa − b = (at
x − b )2
i =1
❑ 梯度：
n
J s =  2(
i =1
at
xi − bi )y i = 2X t
(Xa − b )
❑令梯度等于零，可以得到 Xt Xa = Xtb
如果 Xt X 是非奇异矩阵，则有：
−1 t +
+
X 称为X的伪逆
a = (X X) X b = X b
t
7
8
如何对新样本进行分类（测试样本）?
a .x  0 First class
a .x  0 Second class
x : 新样本
面向多类的最小化均方误差（MSE）
1 0 ... 0
 
1
XA = B
0 ... 0
... ... ... ...
B   
  0 0
1
1 ...
+
A = X B
B
B =   = 0
2
1 ... 0
 ...   
  ... ... ... ...

B   0 
= inv(X'X)X'B
c
 0 ... 1
0 0 ... 1
 

... ... ... ...

10
其他形式？
◼ 最小化均方误差方法的变形
for xi  1 , a xi  0.
t
for xi  2 , a xi  0.
t
将所有属于类别  的样本乘以-1被称为标准化，标准化
2
之后只有一个不等式 a t x  0.
i
12
◼ 找线性判别函数的问题可转变成最小化准则函
数（损失函数）的问题
最小化准则函数的几个方法（优化
方法）：
◼ Gradient Descent （梯度下降法）

◼ Newton’s method & Quasi-Newton Method
（牛顿法和拟牛顿法）
◼ Conjugate Gradient (共轭梯度法)
13
◼ Gradient Descent Procedures
最小化准则函数： J (a )
a为解向量，那么梯度下降过程为：
a(k + 1) = a(k) − η(k)J(a(k))
η 为一个标量，被称为学习率或学习步长，可以为固定
值，也可随训练情况而改变。
◼ J(a(k) 为 J(a(k) 的梯度
14
◼ 适用性：
❑ 特别适用于没有解析解的问题
非线性最小化均方误差过程：
Just for your reference
非线性最小化均方误差算法==
非线性变换+最小化均方误差算法
非线性变换的可能优势：将非线性可分问题转化为线性可分问题！ 16
非线性最小化均方误差
17
非线性最小化均方误差
在原始空间中最小均方误差：
 x10 x 11 ... x 1d  a0  1 

   
 x 20 x 21 ... x 2d  a1  1 
 ...    =    xa = B
... ... ... ...
  ...
x
 n0 x n 1 ... x nd  ad   - 1
新空间中最小化均方误差:
Z = B Z = [ Z1...Z n ] Z i = (Xi )
18
非线性最小化均方误差过程：KMSE
Because of
 = j =1,...,n
 j (Xj ) (Xi )T (Xj ) = k(Xi ,Xj )
we have
 k(X1 ,X 1 ) k(X 1 ,X 2 ) ... k(X1 ,X n )
 
K = B  k(X 2 ,X 1 ) k(X 2 ,X 2 ) ... k(X 2 ,X n )
K = 
 ... ... ... ... 
 k(X ,X ) k(X ,X ) ... k(X n ,X n )
 n 1 n 2
19
◼ 核函数:
◼ (1)
|| Xi − Xj ||2
k(Xi ,Xj ) = exp(− )

T
(2) k(Xi ,Xj ) = (Xi Xj + c )d
20
◼ 训练阶段:
◼ 得到
 =K B −1
◼ 测试阶段
i
n
b = =1
 i k(Xi , X)
如果 b 更接近 1，就将测试样本分类为第一类；否者将其归为第二类.
21
KMSE的缺点与改进
◼ 计算复杂度随着训练样本的增多快速升高!
◼ 如果  = j =1,...,s
'
 j (X j ),s  n
i =1 i k(Xi ,X) 计算复杂度会大大减小

s
b =  '
22
23
24
与线性判别分析的关系
◼ 选择合适的向量 b, MSE 判别函数 atx 和线性判别

将会等同
◼ 我们使用线性判别函数而不是广义线性判别函数
假定
◼ 有n个 d维样本集合 x1,…xn, n1 是标记为 w1的子集 D1 的

个数，n2 是标记为w2的子集D2的个数
◼ 如果通过添加阈值分量 x0=1 来构成一个增广模式向量，

则从xi得到一个样本yi
◼ 如果样本属于w2, 全部的模式向量（特征向量）乘以 -1
◼ 在没有损失的情况下，假设前 n1 个样本标记为w1 ，后
个 n2 个标记为w2
◼ MSE 方法 Xa=b 等价于Fisher’s Linear
Discriminant
◼ 条件: 样本数目趋于无穷.
矩阵 Y 可以划分为:
 11 X1 
Y=  ,
- 12 - X2 
1i 是ni 个元素为1的列向量, Xi 是一个 ni-by-d 矩阵，它的行为
样本的标签 wi.
 n 
0  1
 n 1
a=  b= 1 
 n
12 
w 
 n2 

分块矩阵形式为：
n 
t 
11 
1 t - 1t2   11 X1  0  1 t - 1 2  n1 
 1t      =  t 
1
X 1 - X 2 
t
- 12 - X2   w  X 1 - X 2   n 1 
t
n 2 
 2 
1
样本均值 mi =
ni
x
xDi
i = 1, 2
And the pooled sample scatter matrix

2
Sw =   ( x − m i ) ( x − m i ) t
(51)
i =1 xD i
相乘可以得到
 n (n1m1 + n 2 m 2 ) t  0   0 
 t   = 
( n m +
 1 1 2 2n m ) S w + n m m
1 1 1
t
+ n 2 2 2 
m m w   n ( m1 − m 2 
)
这可以看作是一对方程，第一个方程可以用w0 表示：
0 = − m t w
m 是所有样本的均值.
用第二个方程代替可以得到：
1 n1n 2 t
 n Sw + 2 (m 1 − m 2 )(m 1 − m 2 )  w = m 1 − m 2
 n 
对任意的W， (m1 − m 2 )(m1 − m 2 ) w 和 m1 − m2 同方向，则有：
t
n1n 2
2
( m1 − m 2 )( m1 − m 2 w = (1 - a)(m1 − m 2 ) ,
) t
a 是一个标量
1 n1n 2 t
可由  n Sw + 2 (m 1 − m 2 )(m 1 − m 2 )  w = m 1 − m 2
 n 
−1
得到 w = Sw (m 1 − m 2 )
除了一个不太重要的常量因子, 和 Fisher’s linear
discriminant. 是一样的
此外,可以得到权重阈值 w0 ，和判别准则：
Decide 1 if w ( x − m)  0; otherwise decide 2 .

t

模式识别 9 LDA扩展

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

模式识别 9 LDA扩展

Uploaded by

Copyright:

Available Formats

Pattern

All materials in these slides were

对于所有样本 x1,x 2 ,...,x n ，我们想找到一个权重向量

◼ Gradient Descent （梯度下降法）

a(k + 1) = a(k) − η(k)J(a(k))

◼ J(a(k) 为 J(a(k) 的梯度

 x10 x 11 ... x 1d  a0  1 

i =1 i k(Xi ,X) 计算复杂度会大大减小

◼ 选择合适的向量 b, MSE 判别函数 atx 和线性判别

◼ 有n个 d维样本集合 x1,…xn, n1 是标记为 w1的子集 D1 的

◼ 如果通过添加阈值分量 x0=1 来构成一个增广模式向量，

And the pooled sample scatter matrix

Decide 1 if w ( x − m)  0; otherwise decide 2 .

You might also like