Professional Documents
Culture Documents
Book5 Ch09 一元高斯分布 统计至简 鸢尾花书 从加减乘除到机器学习
Book5 Ch09 一元高斯分布 统计至简 鸢尾花书 从加减乘除到机器学习
9 一元高斯分布
可能是应用最广泛的概率分布
数学家站在彼此的肩膀上。
Mathematicians stand on each other's shoulders.
—— 卡尔·弗里德里希·高斯 (Carl Friedrich Gauss) | 德国数学家、物理学家、天文学家 | 1777 ~ 1855
◄ matplotlib.pyplot.axhline() 绘制水平线
◄ matplotlib.pyplot.axvline() 绘制竖直线
◄ matplotlib.pyplot.contour() 绘制等高线图
◄ matplotlib.pyplot.contourf() 绘制填充等高线图
◄ numpy.ceil() 计算向上取整
◄ numpy.copy() 深拷贝数组,对新生成的对象修改删除操作不会影响到原对象
◄ numpy.cumsum() 计算累积和
◄ numpy.floor() 向下取整
◄ numpy.meshgrid() 生成网格数据
◄ numpy.random.normal() 生成满足高斯分布的随机数
◄ scipy.stats.norm.cdf() 高斯分布累积分布函数 CDF
◄ scipy.stats.norm.pdf() 高斯分布概率密度函数 PDF
◄ scipy.stats.norm.ppf() 高斯分布百分点函数 PPF
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 2 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
期望 µ
标准差 σ
参数
标准高斯分布 µ = 0, σ = 1
概率密度函数PDF
曲线
累积概率密度函数CDF
百分点函数PPF
一元高斯分布
68-95-99.7法则
应用
参数估计
经验分布函数ECDF
QQ图
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 3 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
9.1 一元高斯分布:期望值决定位置,标准差决定形状
回顾上一章介绍一元高斯分布 (univariate normal distribution),其概率密度函数 PDF 如下:
1 −1 x − 2
fX ( x) = exp
2
(1)
2
期望值
本书前文提过,一元高斯分布的概率密度函数以 x = µ 为轴左右对称,曲线向左右两侧远离 x
= µ 呈逐渐均匀下降趋势,曲线两端与横轴 y = 0 无限接近,但永不相交。
fX(x)
fX(x)
0.30 0.30
0.20
0.20
0.10
0.00 0.10
1
0 4 0.00
µ 2 4 2 0 2 4
1 0
2 x
4 x
标准差
本书前文强调过,期望值、标准差的单位和随机变量的单位相同。因此,直方图、概率密度
图上常常出现 µ ± σ、µ ± 2σ、µ ± 3σ 等等。
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 4 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
fX(x)
fX(x)
0.6
0.6
0.4
0.4
0.2
0.0 0.2
2.5
0.0
4 4 2 0 2 4
1.5 2
σ 0 x
2
4 x
0.5
9.2 累积概率密度:对应概率值
一元高斯分布的累积概率密度函数 CDF:
1 −1 t − 2
FX ( x ) =
x
exp
2
dt (2)
−
2
1 x −
FX ( x ) = 1 + erf
2 (3)
2
《数学要素》第 18 章介绍过误差函数,请大家回顾。
期望值
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 5 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
FX(x) FX(x) = 1
1.0
1.0 FX(x)
0.8 0.8
0.6
0.6
0.4 FX(x) = 0.5
0.2 0.4
0.0
0.2
1
0 4 0.0
µ 2 4 2 0 2 4
1 0 x
2
2 4 x
标准差
FX(x)
FX(x) = 1
1.0 1.0
FX(x)
0.8
0.8
0.6
0.4 0.6
FX(x) = 0.5
0.2
0.4
0.0
2.5 0.2
4
σ 1.5 2 0.0
0 4 2 0 2 4
2 x
0.5 4 x
Bk5_Ch08_02.py 绘制图 3 和图 4。
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 6 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
PDF vs CDF
−
值。下一节还会继续讲解标准正态分布。
1.0
CDF, FX(x)
FX(x) = Height
0.8
0.6
0.4
百分点函数 PPF
FX−1 ( p ) = x
2
x
1.0
p 0
FX(x) = p
0.8 PPF
0.6 2
CDF
0.4
0.2 4
p
0.0
4 2 0 2 4 0.0 0.2 0.4 0.6 0.8 1.0
x
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 7 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
1 −z2
fZ ( z ) = exp (4)
2 2
1
fZ ( 0) = 0.39894 (5)
2
(a) (b)
PDF, fZ(z) CDF, FZ(z)
0.5 1.0
0.4 0.8
0.3 0.6
0.2 0.4
0.1 0.2
0.0 0.0
4 3 2 1 0 1 2 3 4 4 3 2 1 0 1 2 3 4
z z
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 8 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
1.0
0.8
0.6
CDF, FZ(z) 0.4
0.2
0.0
0.4
0.3
PDF, fZ(z) 0.2
0.1
0.0
0.2
First 0.1
derivative 0.0
of fZ(z) 0.1
0.2
0.2
Second 0.0
derivative
of fZ(z) 0.2
0.4
4 3 2 1 0 1 2 3 4
z
Z 分数:一种以标准差为单位的度量尺度
x−
z= (6)
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 9 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
PDF, fZ(z)
0.4
0.3
0.2
0.1
0.0
3 2 1 0 1 2 3
z
CDF, FZ(z)
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
z
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 10 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
CDF, FZ(z)
1.0
0.8
0.6
0.4
0.2
0.0
3 2 1 0 1 2 3
z
Area from z to
Area from to z
z Area from z to z Area from to z
and z to
1.64485 0.9 0.1 0.05
1.66959 0.905 0.095 0.0475
1.69540 0.91 0.09 0.045
1.72238 0.915 0.085 0.0425
1.75069 0.92 0.08 0.04
1.78046 0.925 0.075 0.0375
1.81191 0.93 0.07 0.035
1.84526 0.935 0.065 0.0325
1.88079 0.94 0.06 0.03
1.91888 0.945 0.055 0.0275
1.95996 0.95 0.05 0.025
2.00465 0.955 0.045 0.0225
2.05375 0.96 0.04 0.02
2.10836 0.965 0.035 0.0175
2.17009 0.97 0.03 0.015
2.24140 0.975 0.025 0.0125
2.32635 0.98 0.02 0.01
2.43238 0.985 0.015 0.0075
2.57583 0.99 0.01 0.005
2.80703 0.995 0.005 0.0025
3.29053 0.999 0.001 0.0005
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 11 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
Bk5_Ch08_03.py 绘制本节之前大部分图像。
以鸢尾花数据为例
有了 Z 分数,不同分布、不同单位的样本数据有了可比性。图 13 所示为鸢尾花样本数据四个
特征的 Z 分数。
(a) (b)
1.0 1.0
0.8 0.8
0.6 0.6
PDF
0.4 0.4
0.2 0.2
0.0 0.0
4 2 0 2 4 4 2 0 2 4
Sepal length (σ1), Z1 Sepal width (σ2), Z2
(c) (d)
1.0 1.0
0.8 0.8
0.6 0.6
PDF
PDF
0.4 0.4
0.2 0.2
0.0 0.0
4 2 0 2 4 4 2 0 2 4
Petal length (σ3), Z3 Petal width (σ4), Z4
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 12 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
9.4 68-95-99.7 法则
一元高斯分布有所谓的 68-95-99.7 法则 (68-95-99.7 Rule),具体是指一组近乎满足正态分
布的样本数据,约 68.3%、95.4%和 99.7%样本位于距平均值正负 1 个、2 个和 3 个标准差范围之
内。
标准正态分布 N(0, 1)
写成具体的概率运算:
Pr ( −1 Z 1) 0.68
Pr ( −2 Z 2 ) 0.95 (7)
Pr ( −3 Z 3) 0.997
3 2 1 0 1 2 3 3 2 1 0 1 2 3 3 2 1 0 1 2 3
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 13 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
68%
Pr ( − X + ) 0.68
Pr ( − 2 X + 2 ) 0.95 (8)
Pr ( − 3 X + 3 ) 0.997
x = µ + 3σ
σ
2σ
x = µ + 2σ
3σ
x=µ
x=µ
x=µ
x=µ
x=µ
x=µ
和分位的关系
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 14 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
~0.997 (99.7%)
~0.95 (95%)
~0.68 (68%)
13.59%
34.13%
34.13%
13.59%
2.14%
2.14%
0
3σ 2σ 1σ 0 1σ 2σ 3σ
±2σ
±3σ
25% 25% 25% 25%
Quartiles
0.6745σ 0.6745σ
10-quantiles 10% 10%
1.2816σ 1.2816σ
5% 5%
20-quantiles
随机数
68-95-99.7 法则可以帮助大家直观地理解一元高斯分布的形态和特征,即大部分数据集中在
均值周围,而远离均值的数据较为稀少。如果一组数据中存在明显偏离均值多个标准差的数据
点,就有可能是异常值或者离群值,需要进一步检查和分析。
鸢尾花书《数据有道》将专门介绍如何发现离群值。
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 15 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
7.5 7.5
5.0 5.0
2.5 2.5
x=µ+σ
0.0 0.0
5.0 5.0
±σ x=µ σ
7.5 7.5
10.0 10.0
12.5 12.5
100 200 300 400 500 0.00 0.05 0.10 0.15
PDF
7.5 7.5
5.0 5.0 x = µ + 2σ
2.5 2.5
0.0 0.0
5.0 5.0
7.5 7.5
±2σ x=µ 2σ
10.0 10.0
12.5 12.5
100 200 300 400 500 0.00 0.05 0.10 0.15
PDF
9.5 用一元高斯分布估计概率密度
概率密度估计:参数估计
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 16 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
以鸢尾花数据为例
注意,µ1 和 σ1 的单位均为厘米。
有了这两个参数,我们可以用一元高斯分布估计鸢尾花花萼长度随机变量 X1 概率密度函数:
1 −1 x − 5.843 2
fX1 ( x) = exp
2 0.825
(9)
2 0.825
给定样本数据,采用一元高斯分布估计单一特征概率密度函数很简单;但是,这种估算方法
对应的问题也很明显。
本书第 18 章将利用核密度估计解决这一问题。
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 17 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
(a) (b)
1.00 1.00
0.75 0.75
µ2 = 3.057, σ2 = 0.434
µ1 = 5.843, σ1 = 0.825
PDF
PDF
0.50 0.50
0.25 0.25
0.00 0.00
0 2 4 6 8 0 2 4 6 8
Sepal length (cm), x1 Sepal width (cm), x2
(c) (d)
1.00 1.00
0.75 0.75
µ3 = 3.758, σ3 = 1.759
PDF
0.25 0.25
0.00 0.00
0 2 4 6 8 0 2 4 6 8
Petal length (cm), x3 Petal width (cm), x4
9.6 经验分布函数
经验分布函数 (empirical cumulative distribution function, ECDF) 是用来描述一组样本数据分布
情况的统计工具。ECDF 将样本数据按照大小排序,并计算每个数据点对应的累计比例,形成一
个类似阶梯函数的曲线,横坐标表示数据的取值,它的纵坐标则表示小于等于横坐标的数据比
例。
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 18 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
(a) (b)
1.00 1.00
0.75 0.75
CDF
CDF
0.50 0.50
µ1 = 5.843, σ1 = 0.825
µ2 = 3.057, σ2 = 0.434
0.25 0.25
0.00 0.00
0 2 4 6 8 0 2 4 6 8
Sepal length, x1 Sepal width, x2
(c) (d)
1.00 1.00
µ3 = 3.758, σ3 = 1.759
0.75 0.75
CDF
CDF
0.50 0.50
µ4 = 1.199, σ4 = 0.759
0.25 0.25
0.00 0.00
0 2 4 6 8 0 2 4 6 8
Petal length, x3 Petal width, x4
图 21. 比较 ECDF 和高斯 CDF
(a) (b)
8 8
6 6
Sepal length, X1
Sepal width, X2
4 4
2 2
0 0
0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
(c) CDF (d) CDF
8 8
6 6
Petal length, X3
Petal width, X4
4 4
2 2
0 0
0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
CDF CDF
图 22. 逆经验累积分布函数和高斯 PPF
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 19 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
9.7 QQ 图:分位-分位图
QQ 图 (quantile-quantile plot, QQ plot) 中的 Q 代表分位数,常用于检查数据是否符合某个分
布的统计图形。QQ 图是散点图,横坐标一般为假定分布 (比如标准正态分布) 分位数,纵坐标为
待检验样本的分位数。
在 QQ 图中,将假定分布和待检验样本的分位数相互对应,从而比较它们之间的相似度。如
果样本符合假定分布,则 QQ 图呈现出一条近似于直线的对角线,如果不符合,则呈现出偏离直
线的曲线形状。
QQ 图的横坐标一般是正态分布,当然也可以是其他分布。
6 Empirical
quantiles
A
2
y(i)
q(i) = ecdf(y(i))
Theoretical (standard
0
normal) quantiles
(i)
q(i) 2 1 x 0 1 2
0.00
0.25
0.50
0.75
1.00
1.00
CDF 0.75
0.50
q(i)
x(i) = ppf(q(i), µ = 0, σ = 1)
CDF 0.25
0.00
图 23. QQ 图原理,横轴为正态分布
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 20 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
以鸢尾花数据为例
图 24 所示为鸢尾花数据四个特征样本数据的 QQ 图。通过观察这四幅图像,大家应该能够看
出那个特征的数据分布更类似 (贴合) 正态分布。这和图 20、图 21 得出的结论相同。换个角度来
看,QQ 图实际上就是图 21 的另外一种可视化方案。
4.5
8
µ1 + 2σ1
4.0 µ2 + 2σ2
7
µ 1 + σ1
Empirical quantiles
Empirical quantiles
µ 2 + σ2
3.5
6 µ1
µ2
3.0
µ1 σ1
5 µ2 σ2
2.5
µ1 2σ1 µ2 2σ2
4
2.0
2 1 0 1 2 2 1 0 1 2
Theoretical (standard normal) quantiles Theoretical (standard normal) quantiles
8
µ3 + 2σ3 µ4 + 2σ4
2.5
6 µ 3 + σ3 µ 4 + σ4
Empirical quantiles
Empirical quantiles
1.5
4 µ3 µ4
µ3 σ3 µ4 σ4
2 0.5
µ3 2σ3 µ4 2σ4
0 0.5
2 1 0 1 2 2 1 0 1 2
Theoretical (standard normal) quantiles Theoretical (standard normal) quantiles
图 24. 鸢尾花数据四个特征样本数据的 QQ 图
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 21 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
特殊分布的 QQ 图特征
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 22 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
9.8 从距离到一元高斯分布
现在回过头来再看一元高斯分布的 PDF 解析式:
1 −1 x − 2
fX ( x) = exp
2
(10)
2
1 −z2
fZ ( z ) = exp (11)
2 2
几何变换:平移 + 缩放
Translate
X −
Z= (12)
Scale
Translate
X = Z + (13)
Scale
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 23 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
PDF, fX(x)
0.5
0.4
0.3
0.2
0.1
0.0 x
5 0 5 10 15 20
PDF, fZ(z)
0.5
0.4
0.3
0.2
0.1
0.0 z
5 0 5 10 15 20
如图 28 所示,平移仅改变随机数的均值位置,不影响随机数的分布情况。如图 29 所示,缩放
改变随机数的分布离散程度。
0 Translate 0
图 28. 平移
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 24 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
Scale
0 0
图 29. 缩放
Y = aX + b (14)
Y 的 PDF 为:
1 y −b
fY ( y ) = fX (15)
a a
注意,(14) 相当于线性代数中的仿射变换。
此外,服从正态分布的随机变量,在进行线性变换后,正态性保持不变。比如,X 为服从
N(µ, σ2) 的随机变量;Y = aX + b 仍然服从正态分布。Y 的均值、方差分别为:
E (Y ) = a + b, var (Y ) = a 2 2 (16)
图 30 所示为随机变量线性变换的示意图。
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 25 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
2σX 4
2σY E(Y)
0 y
4
fY(y)
0.50 E(X)
fX(x)
0.25
0.00
4 2 0 2 4
x
图 30. 线性变换对均值和方差的影响
面积归 1
fX ( x) 0
+ (17)
fX ( x)d x = 1
−
x2
−
exp − d x = 2π
2
(18)
也就是说:
1 x2
−
2π
exp − d x = 1
2
(19)
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com
Page 26 | Chapter 9 一元高斯分布 | Book 5《统计至简》 | 鸢尾花书:从加减乘除到机器学习
+ +
1 −1 x − 2
fX ( x)d x = exp
2
dx
− −
2π
2
−1 x − x −
exp
+ 1
= d (20)
2
−
2π
z z
+ 1 −1 2π
= exp z 2 d z = =1
−
2π 2 2π
x2
换个角度来看,为了让把 g ( x ) = exp − 改造成一个连续随机变量的 PDF,我们需要一个
2
1
系数让将曲线和横轴围成的面积为 1。这个系数就是 !
2π
exp ( − x 2 )
1
f1 ( x ) =
π (21)
f 2 ( x ) = exp ( − πx 2
)
它们之所以被大家放弃,都是因为方差不方便。f1(x) 的方差为 1/2。f2(x) 的方差为 1/(2π)。显
而易见,作为标准正态分布的 PDF,(4) 更方便,因为它的方差为 1,标准差也是 1。
距离 → 亲密度
大家可能还有印象,我们在《数学要素》第 12 章讲过讲高斯函数:
( )
f ( x ) = exp − x 2 (22)
(22) 的积分为:
exp ( − x 2 ) d x =
−
(23)
在实际应用中,高斯分布经常用于建模和分析连续型数据,如测量值、物理量和经济指标
等。在机器学习和数据分析中,高斯分布也被广泛应用于分类、聚类、离群点检测等问题中。但
是,仅仅掌握一元高斯分布的知识是不够的。从下一章开始,我们将探讨二元、多元高斯分布、
条件高斯分布,以及高斯分布背后的协方差矩阵。
本 PDF 文件为作者草稿,发布目的为方便读者在移动终端学习,终稿内容以清华大学出版社纸质出版物为准。
版权归清华大学出版社所有,请勿商用,引用请注明出处。
代码及 PDF 文件下载:https://github.com/Visualize-ML
本书配套微课视频均发布在 B 站——生姜 DrGinger:https://space.bilibili.com/513194466
欢迎大家批评指教,本书专属邮箱:jiang.visualize.ml@gmail.com