2 Chapter 2 Bayesian Learning-2

机器学习第二章贝叶斯学习
Machine learning Bayesian Learning
授课人：周晓飞
zhouxiaofei@iie.ac.cn
2022-9-9
课件放映 PDF-〉视图-〉全屏模式
Chapter 2 Bayesian Learning -1- 中国科学院大学网络安全学院 2022-2023 学年秋季课程
第二章贝叶斯学习
2.1 概述
2.2 贝叶斯决策论
2.3 贝叶斯分类器
2.4 贝叶斯学习与参数估计问题

贝叶斯分类器
预备知识
贝叶斯分类器：基于 Bayesian 决策的分类器
变量和参数：
类别 C：C = {c1, c2,… cM}，
数据 D 和样本 x：D={ xi }
贝叶斯学习
P(ci | x)  P( x | ci ) P(ci )
核心是估计
P(ci | x)  P( x | ci ) P(ci )

贝叶斯分类器
预备知识
贝叶斯决策
类别相似性函数：决策函数：
p( x | ci ) p(ci )
gi ( x )  p(ci | x )  c g (x )  g1 ( x )  g 2 ( x )
 p ( x | c ) p (c )
j 1
j j g ( x )  p(c1 | x )  p(c2 | x )
gi ( x )  p( x | ci ) p(ci ) g ( x )  ln
p( x | c1 ) p (c )
 ln 1
gi ( x )  ln p( x|ci )  ln p(ci ) p( x | c2 ) p(c2 )

贝叶斯分类器
预备知识
贝叶斯分类器
• 朴素贝叶斯分类器：假设 P( x | c) 中 x 特征向量的各维属性独立；
• 半朴素贝叶斯分类器：假设 P( x | c) 中 x 的各维属性存在依赖；
• 正态分布的贝叶斯分类器：假设 P( x | c( )) 服从正态分布；

贝叶斯分类器
朴素贝叶斯分类器
采用了“属性条件独立性假设”
P c P  x | c d
P c | x    P  c  P  x | c   P  c   P  xi | c 
P x i 1
关键问题：由训练样本学习类别条件概率和类别先验概率
P( xi |c)和P(c)

贝叶斯分类器
采用了“属性条件独立性假设”
P c P  x | c d
P c | x    P  c  P  x | c   P  c   P  xi | c 
P x i 1
关键问题：由训练样本学习类别条件概率和类别先验概率
P( xi |c)和P(c)
需要学习的概率分布？
k 个类别，d 个属性： p(c)和 P( xi |c j ) ,（i=1,…,d 个属性，j=1,…,k）
共 1 + d*k 个概率分布要统计.
贝叶斯分类器
Dc
类别先验概率的估计 P (c ) 
D
类别概率密度估计
• xi 离散情况：
Dc , xi
P( xi | c)  Dc , xi 表示 Dc 中在第 i 个属性上取值为 xi 的样本组成的集合；
Dc
• xi 连续情况：
1   x   2 
P( xi | c)  exp   
i c ,i
2 c ,i  2 2c ,i  （由某一概率分布估计类别概率）
 

贝叶斯分类器
学习过程
Dc
(1) 类别先验估计 P(c)  D
Dc , xi
(2) 类别条件概率估计 P( xi | c)  D
c

贝叶斯分类器
决策过程
Dc
(1) 类别先验估计 P  c   D
(2) 类别条件概率估计 P  x | c    P  xi | c 
i 1
(3) 贝叶斯决策 h  x   argmax P  c   P  xi | c 

cy i 1

贝叶斯分类器
拉普拉斯平滑
避免因训练集样本不充分而导致概率估计值为零.
d
避免 P( c | x )  P( c ) P( xi | c ) 中， P(c ) 或 P( xi | c ) 为 0（即|Dc| = 0 或 |Dc,xi| = 0）
i 1
进行拉普拉斯平滑
Dc  1
Pˆ (c)  , N为类别数
D N
Dc, xi  1
Pˆ ( xi | c)  ， N i 为xi的可能取值个数
Dc  N i

贝叶斯分类器
例子：
《机器学习》教材 p.151
• 数据：pp.84
• 离散属性：色泽、根蒂、敲声、纹理、脐部、触感；
连续属性：密度、含糖绿
类别属性：好瓜？ (是与否)

贝叶斯分类器
• 训练数据
测试数据

贝叶斯分类器
学习过程：
(1) 类别先验估计
 D好瓜是
好瓜  是 
 
Dc P ( )
P (c )   D
D

 P(好瓜  否)  D好瓜否

 D
首先估计类别先验概率 P(c) ，显然有

8
P(好瓜  是)   0.471 ,
17
9
P(好瓜  否)   0.529 .
17

贝叶斯分类器
(2) 类别条件概率估计
 D好瓜是, xi
 P( xi | 好瓜  是) 
Dc , xi  Dc
P( xi | c)   
对于离散值属性： Dc  D好瓜是, xi
 P( xi | 好瓜  否)  Dc

对于连续值属性：
 1   x i   好瓜是,i  2 
 P( x i |好瓜  是)  exp   
  x i   c ,i  
2
2  好瓜是,i  2 好瓜是,i 
2
P( x i | c) 
1
exp      
2  c,i  2 c,i 
2 
  1   x i   好瓜否,i  2 
 P( x i |好瓜  否)  2  exp   
好瓜 否,i
 2 好瓜否,i 
2
 
均值、方差作为参数，可用 ML 估计,

3
P青绿|是  P (色泽  青绿 | 好瓜  是)   0.375
贝叶斯分类器 8
3
P青绿|否  P (色泽  青绿 | 好瓜  否)   0.333
9
为每个属性估计条件概率 P( xi | c)
5
P蜷缩|是  P (根蒂  蜷缩 | 好瓜  是)   0.625
8
3 P密度：0.697|是  p(密度  0.697 | 好瓜  是)
P蜷缩|否  P (根蒂  蜷缩 | 好瓜  否)   0.333
9
6 1  (0.697  0.574) 2 
P浊响|是  P (敲声  浊响 | 好瓜  是)   0.750  exp     1.959
8 2  0.129  2  0.129 2

4
P浊响|否  P (敲声  浊响 | 好瓜  否)   0.444 P密度：0.697|否  p(密度  0.697 | 好瓜  否)
9
7 1  (0.697  0.496) 2 
P清晰|是  P (纹理  清晰 | 好瓜  是)   0.875  exp     1.203
8 2  0.195  2  0.195 2

2
P清晰|否  P (纹理  清晰 | 好瓜  否)   0.222 P含糖：0.460|是  p(含糖率  0.460 | 好瓜  是)
9
6
P凹陷|是  P (脐部  凹陷 | 好瓜  是)   0.750 1  (0.460  0.279) 2 
8  exp     0.788
2  0.101  2  0.1012

2
P凹陷|否  P (脐部  凹陷 | 好瓜  否)   0.222 P含糖：0.460|否  p(含糖率  0.460 | 好瓜  否)
9
6
P硬滑|是  P (触感  硬滑 | 好瓜  是)   0.750 1  (0.460  0.154) 2 
8  exp     0.066
2  0.108  2  0.108 2

6
P硬滑|否  P (触感  硬滑 | 好瓜  否)   0.667
Chapter 2 Bayesian Learning 9 -16- 中国科学院大学网络安全学院 2022-2023 学年秋季课程
贝叶斯分类器
(3) 贝叶斯决策
P(好瓜  是)  P青绿|是  P蜷缩|是  P浊响|是  P清晰|是  P凹陷|是

 P硬滑|是  p密度：0.697|是  p含糖：0.460|是  0.038 ,
P(好瓜  否)  P青绿|否  P蜷缩|否  P浊响|否  P清晰|否  P凹陷|否
 P硬滑|否  p密度：0.697|否  p含糖：0.460|否  6.80 10-5 .
由于 0.038>6.80×10-5，因此，朴素贝叶斯分类器将测试样本“测 1”判别为“好瓜”。

贝叶斯分类器
Have a break !

贝叶斯分类器
正态密度的贝叶斯分类器
类别条件概率为正态分布
h( x )  argmax P(c) P( x | c)
cy
正态分布
• 正态分布的概率密度 N ( ,  2 ) ：
1  ( x   )2 
p( x)  exp   
2   2 2


贝叶斯分类器
• 多维正态分布的概率密度 N ( μ, ) ：
1  1 1 
p( x )  exp 
 2 ( x  μ )T
 ( x  μ ) 
(2 )d /2 
1/2
μ   [ x]   xp( x)dx
   [( x  μ)( x  μ)T ]   ( x  μ)( x  μ)T p( x)dx
每个维度上都是正态分布 i   [ xi ] ；  ij   [( xi  i )( x j   j )]

贝叶斯分类器
贝叶斯分类：
• 贝叶斯学习（结果取对数）:
gi  x   ln  p  x | i  p i    ln p  x | i   ln p i 
1  1 
p  x | i   exp 
 2 ( x  μ )T
 1
( x  μ )
i 
(2 )d /2
i i
i 
1/2
1 d 1
g i ( x)   ( x  i )T i 1 ( x  i )  ln 2  ln i  ln p(i ) （1）
2 2 2

贝叶斯分类器
• 决策函数:
gij ( x)  gi ( x)  g j ( x)
g ij ( x)  0 为决策界
如果 g ij ( x)  0 , 则归为 i 类
如果 g ij ( x)  0 , 则归为 j 类

贝叶斯分类器
不同高斯参数情况讨论
Case 1: i   2 I
1
g i ( x )   ( x  i )T i 1 ( x  i )  ln p(i )  ci
2
x  i
2
gi (x)    ln p (  i )
2 2
g i ( x)  
2
1
2
x T

x  2 i T x  i T i  ln p(i )
与类别无关，可忽略
1 1 T
g i ( x )  wiT x  wi 0 , wi   , wi 0  i i  ln p(i )
 2 i
2 2

贝叶斯分类器
Case 1: i   2 I
决策界： gi ( x )  g j ( x )  0
wT  x  x 0   0
w  i   j
2 p(i )
x0  i   j 
1
ln ( i   j )
2 i   j
2
p( j )

贝叶斯分类器
Case 1: i   2 I
特殊情况，当各个类别先验相等时，退化为最小距离分类器。
w  i   j
1
x0  ( i   j)
2

贝叶斯分类器
Case 2 : i  
1
g i ( x )   ( x  i )T i 1 ( x  i )  ln p(i )
2
1
该式分解后： x T i x 各类都相等，可以忽略
1 T 1
g i ( x )  wiT x  wi 0 , wi   i
1
, wi 0  i  i  ln p(i )
2

贝叶斯分类器
Case 2 : i  
决策界： gi ( x )  g j ( x )  0
wT  x  x 0   0
w   1 i   j 
x0 
1
i   j  ln p(T i ) /1p( j ) ( i   j )
2 ( i   j )  ( i   j )

贝叶斯分类器
Case 2 : i  
当各个类别先验相等时，
w   1 (  i   j )
1
x0  ( i   j )
2

贝叶斯分类器
Case 3: i  arbitrary
g i ( x )  x T Wi x  wiT x  wi 0
1
Wi    i1
2
wi   i1 i
1 T 1 1
wi 0  i  i  ln  i  ln p (i )
2 2
决策界： gi ( x )  g j ( x )  0 , 情况比较复杂，可能非线性。

贝叶斯分类器
例子：
 3 1/ 2 0  3  2 0
1    ; 1    and  2   2 ;  
2  
 
6  0 2     0 2 
1  2 0  1  1/ 2 0 
1    and  2   
 0 1/ 2   0 1/ 2 
p(1 )  p(2 )  0.5
决策界： g1 (x)  g2 ( x)
x2  3.514  1.125 x1  0.1875 x12

贝叶斯分类器
Have a break！

第二章贝叶斯学习
2.1 概述
2.2 贝叶斯决策论
2.3 贝叶斯分类器
2.4 贝叶斯学习与参数估计问题
Chapter 2 Bayesian Learning -32- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

贝叶斯学习与参数估计问题
问题描述
三个基本问题：
贝叶斯学习
通过观测数据 likelihood 修正模型的先验，得到后验概率分布：
其中，a 是超参数，不是估计的参数。
例子 1: Beta 先验分布

贝叶斯学习
• 观察数据

贝叶斯学习
• 贝努力分布(Bernoulli)：

贝叶斯学习
• Likelihood（观察似然）:
• 贝努力分布(Bernoulli)：（N1+N2=N）

贝叶斯学习
•
• Likelihood（观察似然）:
• 贝努力分布(Bernoulli)：（N1+N2=N）
(对比)二项式分布：

贝叶斯学习
• Prior

贝叶斯学习
• Prior

贝叶斯学习
• Posterior:

极大似然估计
问题描述
• 最大化观察数据的概率转化为求 log-likelihood 极大的问题
最大化
似然函数 likelihood：求解过程
Maximum Likelihood

极大似然估计
例子 1：二项式分布的 ML
• likelihood
• Log-likelihood
• 最优的参数

极大似然估计
例子 1：二项式分布的 ML
• 实例：
Likelihood:
最优的参数：

极大似然估计
例子 2：高斯分布的 ML-估计 u
• Log-likelihood:

极大似然估计
例子 2：高斯分布的 ML-估计 u

极大似然估计
例子 3：高斯分布的 ML-估计方差

最大后验估计
问题描述
求使后验概率最大的模型或参数( )。
贝叶斯公式中最大化

最大后验估计
例子 1：Beta 先验分布的 MAP

最大后验估计
例子 1：Beta 先验分布的 MAP
• 实例：
与 ML 比较： ML 15/ 25 0.6 ,  MAP 19/ 33 0.5758

最大后验估计
例子 2：高斯分布的 MAP-估计 u

小结
1. beyas 决策准则
2. 几种贝叶斯分类器
3. 贝叶斯学习与参数估计问题
--Beyas Learning
--ＭＬ参数估计
--ＭＡＰ参数估计

本讲参考文献
1. 周志华，机器学习，清华大学出版社，2016.
2. Duda, R.O. et al. Pattern classification. 2nd, 2003.
2. 边肇祺，张学工等编著，模式识别(第二版)，清华大学，1999。

2 Chapter 2 Bayesian Learning-2

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2 Chapter 2 Bayesian Learning-2

Uploaded by

Copyright:

Available Formats

机器学习 第二章 贝叶斯学习

Machine learning Bayesian Learning

Chapter 2 Bayesian Learning -2- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

贝叶斯分类器：基于 Bayesian 决策的分类器

Chapter 2 Bayesian Learning -3- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -4- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -5- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -6- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

k 个类别，d 个属性： p(c)和 P( xi |c j ) ,（i=1,…,d 个属性，j=1,…,k）

Chapter 2 Bayesian Learning -8- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -9- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

(3) 贝叶斯决策 h  x   argmax P  c   P  xi | c 

Chapter 2 Bayesian Learning -10- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -11- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -12- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -13- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

首先估计类别先验概率 P(c) ，显然有

Chapter 2 Bayesian Learning -14- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -15- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

P(好瓜  是)  P青绿|是  P蜷缩|是  P浊响|是  P清晰|是  P凹陷|是

Chapter 2 Bayesian Learning -17- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -18- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -19- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

   [( x  μ)( x  μ)T ]   ( x  μ)( x  μ)T p( x)dx

Chapter 2 Bayesian Learning -20- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -21- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -22- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -23- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -24- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -25- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -26- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -27- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -28- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -29- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -30- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -31- 中国科学院大学网络安全学院 2022-2023 学年秋季课程

Chapter 2 Bayesian Learning -32- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

通过观测数据 likelihood 修正模型的先验，得到后验概率分布：

Chapter 2 Bayesian Learning -34- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -35- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -36- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -37- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -38- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -39- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -40- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -41- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -42- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -43- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -44- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -45- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -46- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -47- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -48- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -49- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

与 ML 比较： ML 15/ 25 0.6 ,  MAP 19/ 33 0.5758

Chapter 2 Bayesian Learning -51- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -52- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

Chapter 2 Bayesian Learning -53- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

You might also like

机器学习第二章贝叶斯学习