You are on page 1of 53

机器学习 第二章 贝叶斯学习

Machine learning Bayesian Learning

授课人:周晓飞
zhouxiaofei@iie.ac.cn
2022-9-9

课件放映 PDF-〉视图-〉全屏模式
Chapter 2 Bayesian Learning -1- 中国科学院大学网络安全学院 2022-2023 学年秋季课程
第二章 贝叶斯学习
2.1 概述
2.2 贝叶斯决策论
2.3 贝叶斯分类器
2.4 贝叶斯学习与参数估计问题

Chapter 2 Bayesian Learning -2- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
预备知识

贝叶斯分类器:基于 Bayesian 决策的分类器

变量和参数:
类别 C:C = {c1, c2,… cM},
数据 D 和样本 x:D={ xi }

贝叶斯学习
P(ci | x)  P( x | ci ) P(ci )

核心是估计
P(ci | x)  P( x | ci ) P(ci )

Chapter 2 Bayesian Learning -3- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
预备知识

贝叶斯决策

类别相似性函数: 决策函数:
p( x | ci ) p(ci )
gi ( x )  p(ci | x )  c g (x )  g1 ( x )  g 2 ( x )
 p ( x | c ) p (c )
j 1
j j g ( x )  p(c1 | x )  p(c2 | x )
gi ( x )  p( x | ci ) p(ci ) g ( x )  ln
p( x | c1 ) p (c )
 ln 1
gi ( x )  ln p( x|ci )  ln p(ci ) p( x | c2 ) p(c2 )

Chapter 2 Bayesian Learning -4- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
预备知识

贝叶斯分类器
• 朴素贝叶斯分类器:假设 P( x | c) 中 x 特征向量的各维属性独立;
• 半朴素贝叶斯分类器:假设 P( x | c) 中 x 的各维属性存在依赖;
• 正态分布的贝叶斯分类器:假设 P( x | c( )) 服从正态分布;

Chapter 2 Bayesian Learning -5- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
朴素贝叶斯分类器

采用了“属性条件独立性假设”

P c P  x | c d
P c | x    P  c  P  x | c   P  c   P  xi | c 
P x i 1

关键问题:由训练样本学习类别条件概率和类别先验概率
P( xi |c)和P(c)

Chapter 2 Bayesian Learning -6- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
朴素贝叶斯分类器

采用了“属性条件独立性假设”

P c P  x | c d
P c | x    P  c  P  x | c   P  c   P  xi | c 
P x i 1

关键问题:由训练样本学习类别条件概率和类别先验概率
P( xi |c)和P(c)

需要学习的概率分布?

k 个类别,d 个属性: p(c)和 P( xi |c j ) ,(i=1,…,d 个属性,j=1,…,k)

共 1 + d*k 个概率分布要统计.
Chapter 2 Bayesian Learning -7- 中国科学院大学网络安全学院 2022-2023 学年秋季课程
贝叶斯分类器
朴素贝叶斯分类器

Dc
类别先验概率的估计 P (c ) 
D

类别概率密度估计
• xi 离散情况:
Dc , xi
P( xi | c)  Dc , xi 表示 Dc 中在第 i 个属性上取值为 xi 的样本组成的集合;
Dc
• xi 连续情况:

1   x   2 
P( xi | c)  exp   
i c ,i

2 c ,i  2 2c ,i  (由某一概率分布估计类别概率)
 

Chapter 2 Bayesian Learning -8- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
朴素贝叶斯分类器

学习过程
Dc
(1) 类别先验估计 P(c)  D

Dc , xi
(2) 类别条件概率估计 P( xi | c)  D
c

Chapter 2 Bayesian Learning -9- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
朴素贝叶斯分类器

决策过程
Dc
(1) 类别先验估计 P  c   D

(2) 类别条件概率估计 P  x | c    P  xi | c 
i 1

(3) 贝叶斯决策 h  x   argmax P  c   P  xi | c 


cy i 1

Chapter 2 Bayesian Learning -10- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
朴素贝叶斯分类器

拉普拉斯平滑
避免因训练集样本不充分而导致概率估计值为零.
d
避免 P( c | x )  P( c ) P( xi | c ) 中, P(c ) 或 P( xi | c ) 为 0( 即|Dc| = 0 或 |Dc,xi| = 0)
i 1

进行拉普拉斯平滑

Dc  1
Pˆ (c)  , N为类别数
D N
Dc, xi  1
Pˆ ( xi | c)  , N i 为xi的可能取值个数
Dc  N i

Chapter 2 Bayesian Learning -11- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
朴素贝叶斯分类器

例子:
《机器学习》教材 p.151

• 数据:pp.84
• 离散属性:色泽、根蒂、敲声、纹理、脐部、触感;
连续属性:密度、含糖绿
类别属性:好瓜? (是与否)

Chapter 2 Bayesian Learning -12- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
朴素贝叶斯分类器
• 训练数据

测试数据

Chapter 2 Bayesian Learning -13- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
朴素贝叶斯分类器
学习过程:
(1) 类别先验估计
 D好瓜是
好瓜  是 
 
Dc P ( )
P (c )   D
D

 P(好瓜  否)  D好瓜否

 D

首先估计类别先验概率 P(c) ,显然有


8
P(好瓜  是)   0.471 ,
17
9
P(好瓜  否)   0.529 .
17

Chapter 2 Bayesian Learning -14- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
朴素贝叶斯分类器
(2) 类别条件概率估计
 D好瓜是, xi
 P( xi | 好瓜  是) 
Dc , xi  Dc
P( xi | c)   
对于离散值属性: Dc  D好瓜是, xi
 P( xi | 好瓜  否)  Dc

对于连续值属性:
 1   x i   好瓜是,i  2 
 P( x i |好瓜  是)  exp   
  x i   c ,i  
2
2  好瓜是,i  2 好瓜是,i 
2
P( x i | c) 
1
exp      
2  c,i  2 c,i 
2 
  1   x i   好瓜否,i  2 
 P( x i |好瓜  否)  2  exp   
好瓜 否,i
 2 好瓜否,i 
2
 
均值、方差作为参数,可用 ML 估计,

Chapter 2 Bayesian Learning -15- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


3
P青绿|是  P (色泽  青绿 | 好瓜  是)   0.375
贝叶斯分类器 8
3
P青绿|否  P (色泽  青绿 | 好瓜  否)   0.333
9
为每个属性估计条件概率 P( xi | c)
5
P蜷缩|是  P (根蒂  蜷缩 | 好瓜  是)   0.625
8
3 P密度:0.697|是  p(密度  0.697 | 好瓜  是)
P蜷缩|否  P (根蒂  蜷缩 | 好瓜  否)   0.333
9
6 1  (0.697  0.574) 2 
P浊响|是  P (敲声  浊响 | 好瓜  是)   0.750  exp     1.959
8 2  0.129  2  0.129 2

4
P浊响|否  P (敲声  浊响 | 好瓜  否)   0.444 P密度:0.697|否  p(密度  0.697 | 好瓜  否)
9
7 1  (0.697  0.496) 2 
P清晰|是  P (纹理  清晰 | 好瓜  是)   0.875  exp     1.203
8 2  0.195  2  0.195 2

2
P清晰|否  P (纹理  清晰 | 好瓜  否)   0.222 P含糖:0.460|是  p(含糖率  0.460 | 好瓜  是)
9
6
P凹陷|是  P (脐部  凹陷 | 好瓜  是)   0.750 1  (0.460  0.279) 2 
8  exp     0.788
2  0.101  2  0.1012

2
P凹陷|否  P (脐部  凹陷 | 好瓜  否)   0.222 P含糖:0.460|否  p(含糖率  0.460 | 好瓜  否)
9
6
P硬滑|是  P (触感  硬滑 | 好瓜  是)   0.750 1  (0.460  0.154) 2 
8  exp     0.066
2  0.108  2  0.108 2

6
P硬滑|否  P (触感  硬滑 | 好瓜  否)   0.667
Chapter 2 Bayesian Learning 9 -16- 中国科学院大学网络安全学院 2022-2023 学年秋季课程
贝叶斯分类器
朴素贝叶斯分类器

(3) 贝叶斯决策

P(好瓜  是)  P青绿|是  P蜷缩|是  P浊响|是  P清晰|是  P凹陷|是


 P硬滑|是  p密度:0.697|是  p含糖:0.460|是  0.038 ,
P(好瓜  否)  P青绿|否  P蜷缩|否  P浊响|否  P清晰|否  P凹陷|否
 P硬滑|否  p密度:0.697|否  p含糖:0.460|否  6.80 10-5 .

由于 0.038>6.80×10-5,因此,朴素贝叶斯分类器将测试样本“测 1”判别为“好瓜”。

Chapter 2 Bayesian Learning -17- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器

Have a break !

Chapter 2 Bayesian Learning -18- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
正态密度的贝叶斯分类器

类别条件概率为正态分布

h( x )  argmax P(c) P( x | c)
cy
正态分布

• 正态分布的概率密度 N ( ,  2 ) :

1  ( x   )2 
p( x)  exp   
2   2 2

Chapter 2 Bayesian Learning -19- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
正态密度的贝叶斯分类器

• 多维正态分布的概率密度 N ( μ, ) :

1  1 1 
p( x )  exp 
 2 ( x  μ )T
 ( x  μ ) 
(2 )d /2 
1/2

μ   [ x]   xp( x)dx

   [( x  μ)( x  μ)T ]   ( x  μ)( x  μ)T p( x)dx

每个维度上都是正态分布 i   [ xi ] ;  ij   [( xi  i )( x j   j )]

Chapter 2 Bayesian Learning -20- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
正态密度的贝叶斯分类器

贝叶斯分类:
• 贝叶斯学习(结果取对数):

gi  x   ln  p  x | i  p i    ln p  x | i   ln p i 

1  1 
p  x | i   exp 
 2 ( x  μ )T
 1
( x  μ )
i 
(2 )d /2
i i
i 
1/2

1 d 1
g i ( x)   ( x  i )T i 1 ( x  i )  ln 2  ln i  ln p(i ) (1)
2 2 2

Chapter 2 Bayesian Learning -21- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
正态密度的贝叶斯分类器

• 决策函数:
gij ( x)  gi ( x)  g j ( x)

g ij ( x)  0 为决策界
如果 g ij ( x)  0 , 则归为 i 类
如果 g ij ( x)  0 , 则归为 j 类

Chapter 2 Bayesian Learning -22- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
正态密度的贝叶斯分类器
不同高斯参数情况讨论

Case 1: i   2 I
1
g i ( x )   ( x  i )T i 1 ( x  i )  ln p(i )  ci
2
x  i
2

gi (x)    ln p (  i )
2 2

g i ( x)  
2
1
2
x T

x  2 i T x  i T i  ln p(i )
与类别无关,可忽略
1 1 T
g i ( x )  wiT x  wi 0 , wi   , wi 0  i i  ln p(i )
 2 i
2 2

Chapter 2 Bayesian Learning -23- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
正态密度的贝叶斯分类器
不同高斯参数情况讨论

Case 1: i   2 I

决策界: gi ( x )  g j ( x )  0

wT  x  x 0   0

w  i   j

2 p(i )
x0  i   j 
1
ln ( i   j )
2 i   j
2
p( j )

Chapter 2 Bayesian Learning -24- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
正态密度的贝叶斯分类器
不同高斯参数情况讨论

Case 1: i   2 I

特殊情况,当各个类别先验相等时,退化为最小距离分类器。

w  i   j

1
x0  ( i   j)
2

Chapter 2 Bayesian Learning -25- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
正态密度的贝叶斯分类器
不同高斯参数情况讨论

Case 2 : i  
1
g i ( x )   ( x  i )T i 1 ( x  i )  ln p(i )
2
1
该式分解后: x T i x 各类都相等,可以忽略
1 T 1
g i ( x )  wiT x  wi 0 , wi   i
1
, wi 0  i  i  ln p(i )
2

Chapter 2 Bayesian Learning -26- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
正态密度的贝叶斯分类器
不同高斯参数情况讨论

Case 2 : i  

决策界: gi ( x )  g j ( x )  0

wT  x  x 0   0

w   1 i   j 

x0 
1
i   j  ln p(T i ) /1p( j ) ( i   j )
2 ( i   j )  ( i   j )

Chapter 2 Bayesian Learning -27- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
正态密度的贝叶斯分类器
不同高斯参数情况讨论

Case 2 : i  

当各个类别先验相等时,
w   1 (  i   j )
1
x0  ( i   j )
2

Chapter 2 Bayesian Learning -28- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
正态密度的贝叶斯分类器
不同高斯参数情况讨论

Case 3: i  arbitrary
g i ( x )  x T Wi x  wiT x  wi 0
1
Wi    i1
2
wi   i1 i
1 T 1 1
wi 0  i  i  ln  i  ln p (i )
2 2
决策界: gi ( x )  g j ( x )  0 , 情况比较复杂,可能非线性。

Chapter 2 Bayesian Learning -29- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器
正态密度的贝叶斯分类器
例子:

 3 1/ 2 0  3  2 0
1    ; 1    and  2   2 ;  
2  
 
6  0 2     0 2 
1  2 0  1  1/ 2 0 
1    and  2   
 0 1/ 2   0 1/ 2 
p(1 )  p(2 )  0.5

决策界: g1 (x)  g2 ( x)
x2  3.514  1.125 x1  0.1875 x12

Chapter 2 Bayesian Learning -30- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


贝叶斯分类器

Have a break!

Chapter 2 Bayesian Learning -31- 中国科学院大学网络安全学院 2022-2023 学年秋季课程


第二章 贝叶斯学习
2.1 概述
2.2 贝叶斯决策论
2.3 贝叶斯分类器
2.4 贝叶斯学习与参数估计问题

Chapter 2 Bayesian Learning -32- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
问题描述

三个基本问题:
Chapter 2 Bayesian Learning -33- 中国科学院大学网络安全学院 2022-2023 学年研究生课程
贝叶斯学习与参数估计问题
贝叶斯学习

通过观测数据 likelihood 修正模型的先验,得到后验概率分布:

其中,a 是超参数,不是估计的参数。

例子 1: Beta 先验分布

Chapter 2 Bayesian Learning -34- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
贝叶斯学习
例子 1: Beta 先验分布
• 观察数据

Chapter 2 Bayesian Learning -35- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
贝叶斯学习
例子 1: Beta 先验分布

• 贝努力分布(Bernoulli):

Chapter 2 Bayesian Learning -36- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
贝叶斯学习
例子 1: Beta 先验分布

• Likelihood(观察似然):

• 贝努力分布(Bernoulli): (N1+N2=N)

Chapter 2 Bayesian Learning -37- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
贝叶斯学习
例子 1: Beta 先验分布


• Likelihood(观察似然):

• 贝努力分布(Bernoulli): (N1+N2=N)
(对比)二项式分布:

Chapter 2 Bayesian Learning -38- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
贝叶斯学习
例子 1: Beta 先验分布
• Prior

Chapter 2 Bayesian Learning -39- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
贝叶斯学习
例子 1: Beta 先验分布
• Prior

Chapter 2 Bayesian Learning -40- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
贝叶斯学习
例子 1: Beta 先验分布

• Posterior:

Chapter 2 Bayesian Learning -41- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
极大似然估计

问题描述
• 最大化观察数据的概率 转化为求 log-likelihood 极大的问题

最大化
似然函数 likelihood: 求解过程

Maximum Likelihood

Chapter 2 Bayesian Learning -42- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
极大似然估计
例子 1:二项式分布的 ML

• likelihood

• Log-likelihood

• 最优的参数

Chapter 2 Bayesian Learning -43- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
极大似然估计
例子 1:二项式分布的 ML
• 实例:

Likelihood:
最优的参数:

Chapter 2 Bayesian Learning -44- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
极大似然估计
例子 2:高斯分布的 ML-估计 u

• Log-likelihood:

Chapter 2 Bayesian Learning -45- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
极大似然估计
例子 2:高斯分布的 ML-估计 u

Chapter 2 Bayesian Learning -46- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
极大似然估计
例子 3:高斯分布的 ML-估计方差

Chapter 2 Bayesian Learning -47- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
最大后验估计

问题描述
求使后验概率最大的模型或参数( )。

贝叶斯公式中 最大化

Chapter 2 Bayesian Learning -48- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
最大后验估计
例子 1:Beta 先验分布的 MAP

Chapter 2 Bayesian Learning -49- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


贝叶斯学习与参数估计问题
最大后验估计
例子 1:Beta 先验分布的 MAP
• 实例:

与 ML 比较: ML 15/ 25 0.6 ,  MAP 19/ 33 0.5758


Chapter 2 Bayesian Learning -50- 中国科学院大学网络安全学院 2022-2023 学年研究生课程
贝叶斯学习与参数估计问题
最大后验估计
例子 2:高斯分布的 MAP-估计 u

Chapter 2 Bayesian Learning -51- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


小 结

1. beyas 决策准则

2. 几种贝叶斯分类器

3. 贝叶斯学习与参数估计问题

--Beyas Learning
--ML参数估计
--MAP参数估计

Chapter 2 Bayesian Learning -52- 中国科学院大学网络安全学院 2022-2023 学年研究生课程


本讲参考文献

1. 周志华,机器学习,清华大学出版社,2016.
2. Duda, R.O. et al. Pattern classification. 2nd, 2003.
2. 边肇祺,张学工等编著,模式识别(第二版),清华大学,1999。

Chapter 2 Bayesian Learning -53- 中国科学院大学网络安全学院 2022-2023 学年研究生课程

You might also like