Professional Documents
Culture Documents
2 Chapter 2 Bayesian Learning-2
2 Chapter 2 Bayesian Learning-2
授课人:周晓飞
zhouxiaofei@iie.ac.cn
2022-9-9
课件放映 PDF-〉视图-〉全屏模式
Chapter 2 Bayesian Learning -1- 中国科学院大学网络安全学院 2022-2023 学年秋季课程
第二章 贝叶斯学习
2.1 概述
2.2 贝叶斯决策论
2.3 贝叶斯分类器
2.4 贝叶斯学习与参数估计问题
变量和参数:
类别 C:C = {c1, c2,… cM},
数据 D 和样本 x:D={ xi }
贝叶斯学习
P(ci | x) P( x | ci ) P(ci )
核心是估计
P(ci | x) P( x | ci ) P(ci )
贝叶斯决策
类别相似性函数: 决策函数:
p( x | ci ) p(ci )
gi ( x ) p(ci | x ) c g (x ) g1 ( x ) g 2 ( x )
p ( x | c ) p (c )
j 1
j j g ( x ) p(c1 | x ) p(c2 | x )
gi ( x ) p( x | ci ) p(ci ) g ( x ) ln
p( x | c1 ) p (c )
ln 1
gi ( x ) ln p( x|ci ) ln p(ci ) p( x | c2 ) p(c2 )
贝叶斯分类器
• 朴素贝叶斯分类器:假设 P( x | c) 中 x 特征向量的各维属性独立;
• 半朴素贝叶斯分类器:假设 P( x | c) 中 x 的各维属性存在依赖;
• 正态分布的贝叶斯分类器:假设 P( x | c( )) 服从正态分布;
采用了“属性条件独立性假设”
P c P x | c d
P c | x P c P x | c P c P xi | c
P x i 1
关键问题:由训练样本学习类别条件概率和类别先验概率
P( xi |c)和P(c)
采用了“属性条件独立性假设”
P c P x | c d
P c | x P c P x | c P c P xi | c
P x i 1
关键问题:由训练样本学习类别条件概率和类别先验概率
P( xi |c)和P(c)
需要学习的概率分布?
共 1 + d*k 个概率分布要统计.
Chapter 2 Bayesian Learning -7- 中国科学院大学网络安全学院 2022-2023 学年秋季课程
贝叶斯分类器
朴素贝叶斯分类器
Dc
类别先验概率的估计 P (c )
D
类别概率密度估计
• xi 离散情况:
Dc , xi
P( xi | c) Dc , xi 表示 Dc 中在第 i 个属性上取值为 xi 的样本组成的集合;
Dc
• xi 连续情况:
1 x 2
P( xi | c) exp
i c ,i
2 c ,i 2 2c ,i (由某一概率分布估计类别概率)
学习过程
Dc
(1) 类别先验估计 P(c) D
Dc , xi
(2) 类别条件概率估计 P( xi | c) D
c
决策过程
Dc
(1) 类别先验估计 P c D
(2) 类别条件概率估计 P x | c P xi | c
i 1
拉普拉斯平滑
避免因训练集样本不充分而导致概率估计值为零.
d
避免 P( c | x ) P( c ) P( xi | c ) 中, P(c ) 或 P( xi | c ) 为 0( 即|Dc| = 0 或 |Dc,xi| = 0)
i 1
进行拉普拉斯平滑
Dc 1
Pˆ (c) , N为类别数
D N
Dc, xi 1
Pˆ ( xi | c) , N i 为xi的可能取值个数
Dc N i
例子:
《机器学习》教材 p.151
• 数据:pp.84
• 离散属性:色泽、根蒂、敲声、纹理、脐部、触感;
连续属性:密度、含糖绿
类别属性:好瓜? (是与否)
测试数据
对于连续值属性:
1 x i 好瓜是,i 2
P( x i |好瓜 是) exp
x i c ,i
2
2 好瓜是,i 2 好瓜是,i
2
P( x i | c)
1
exp
2 c,i 2 c,i
2
1 x i 好瓜否,i 2
P( x i |好瓜 否) 2 exp
好瓜 否,i
2 好瓜否,i
2
均值、方差作为参数,可用 ML 估计,
(3) 贝叶斯决策
由于 0.038>6.80×10-5,因此,朴素贝叶斯分类器将测试样本“测 1”判别为“好瓜”。
Have a break !
类别条件概率为正态分布
h( x ) argmax P(c) P( x | c)
cy
正态分布
• 正态分布的概率密度 N ( , 2 ) :
1 ( x )2
p( x) exp
2 2 2
• 多维正态分布的概率密度 N ( μ, ) :
1 1 1
p( x ) exp
2 ( x μ )T
( x μ )
(2 )d /2
1/2
μ [ x] xp( x)dx
每个维度上都是正态分布 i [ xi ] ; ij [( xi i )( x j j )]
贝叶斯分类:
• 贝叶斯学习(结果取对数):
gi x ln p x | i p i ln p x | i ln p i
1 1
p x | i exp
2 ( x μ )T
1
( x μ )
i
(2 )d /2
i i
i
1/2
1 d 1
g i ( x) ( x i )T i 1 ( x i ) ln 2 ln i ln p(i ) (1)
2 2 2
• 决策函数:
gij ( x) gi ( x) g j ( x)
g ij ( x) 0 为决策界
如果 g ij ( x) 0 , 则归为 i 类
如果 g ij ( x) 0 , 则归为 j 类
Case 1: i 2 I
1
g i ( x ) ( x i )T i 1 ( x i ) ln p(i ) ci
2
x i
2
gi (x) ln p ( i )
2 2
g i ( x)
2
1
2
x T
x 2 i T x i T i ln p(i )
与类别无关,可忽略
1 1 T
g i ( x ) wiT x wi 0 , wi , wi 0 i i ln p(i )
2 i
2 2
Case 1: i 2 I
决策界: gi ( x ) g j ( x ) 0
wT x x 0 0
w i j
2 p(i )
x0 i j
1
ln ( i j )
2 i j
2
p( j )
Case 1: i 2 I
特殊情况,当各个类别先验相等时,退化为最小距离分类器。
w i j
1
x0 ( i j)
2
Case 2 : i
1
g i ( x ) ( x i )T i 1 ( x i ) ln p(i )
2
1
该式分解后: x T i x 各类都相等,可以忽略
1 T 1
g i ( x ) wiT x wi 0 , wi i
1
, wi 0 i i ln p(i )
2
Case 2 : i
决策界: gi ( x ) g j ( x ) 0
wT x x 0 0
w 1 i j
x0
1
i j ln p(T i ) /1p( j ) ( i j )
2 ( i j ) ( i j )
Case 2 : i
当各个类别先验相等时,
w 1 ( i j )
1
x0 ( i j )
2
Case 3: i arbitrary
g i ( x ) x T Wi x wiT x wi 0
1
Wi i1
2
wi i1 i
1 T 1 1
wi 0 i i ln i ln p (i )
2 2
决策界: gi ( x ) g j ( x ) 0 , 情况比较复杂,可能非线性。
3 1/ 2 0 3 2 0
1 ; 1 and 2 2 ;
2
6 0 2 0 2
1 2 0 1 1/ 2 0
1 and 2
0 1/ 2 0 1/ 2
p(1 ) p(2 ) 0.5
决策界: g1 (x) g2 ( x)
x2 3.514 1.125 x1 0.1875 x12
Have a break!
三个基本问题:
Chapter 2 Bayesian Learning -33- 中国科学院大学网络安全学院 2022-2023 学年研究生课程
贝叶斯学习与参数估计问题
贝叶斯学习
其中,a 是超参数,不是估计的参数。
例子 1: Beta 先验分布
• 贝努力分布(Bernoulli):
• Likelihood(观察似然):
• 贝努力分布(Bernoulli): (N1+N2=N)
•
• Likelihood(观察似然):
• 贝努力分布(Bernoulli): (N1+N2=N)
(对比)二项式分布:
• Posterior:
问题描述
• 最大化观察数据的概率 转化为求 log-likelihood 极大的问题
最大化
似然函数 likelihood: 求解过程
Maximum Likelihood
• likelihood
• Log-likelihood
• 最优的参数
Likelihood:
最优的参数:
• Log-likelihood:
问题描述
求使后验概率最大的模型或参数( )。
贝叶斯公式中 最大化
1. beyas 决策准则
2. 几种贝叶斯分类器
3. 贝叶斯学习与参数估计问题
--Beyas Learning
--ML参数估计
--MAP参数估计
1. 周志华,机器学习,清华大学出版社,2016.
2. Duda, R.O. et al. Pattern classification. 2nd, 2003.
2. 边肇祺,张学工等编著,模式识别(第二版),清华大学,1999。