Professional Documents
Culture Documents
王成
上海交通大学数学科学学院
chengwang@sjtu.edu.cn
2020年3月19日
2 2.1 引言
3 作业
简单随机样本
数理统计中主要研究的是一类独立同分布的样本(independent and
identically distributed, i.i.d.) ,即
X1 , · · · , Xn 相互独立;(independent)
X1 , · · · , Xn 具有共同的分布.(identically)
英文通常表述为:
X1 , · · · , Xn are independent and identically distributed random variables.
X1 , X2 , · · · , Xn i.i.d. ∼ X .
数理统计中通常我们会把总体分布限制到某一类分布,例如
Bernoulli distribution: B(1, p);
Poisson distribution:P(λ);
Exponential distribution: Exp(λ);
Uniform distribution: U[a, b];
Normal distribution(Gaussian distribution): N(µ, σ 2 ).
统计学的目的是针对不同问题,(通过某种统计方法)基于样本构造出相
关统计量T = T (X1 , . . . , Xn ):
统计量的定义
完全基于样本X1 , · · · , Xn 所得的量称为统计量, 统计量是样本的函数.
本章目标
对于简单随机样本X1 , X2 , · · · , Xn i.i.d. ∼ X , 其中X 为某个分布或者某
个分布族, 研究清楚常见统计量T (X1 , . . . , Xn )的随机性质.
互动
概率论中,对于一个随机变量T , 常见的刻画其随机性质的度量有哪
些?
从损失函数的角度
v
u n n
uX 1X
X̄ = arg min t (Xi − x)2 = arg min (Xi − x)2
x x n
i=1 i=1
样本均值可以理解为样本的“中心”. 给定两组来源不同的数
据X1 , . . . , Xn 和Y1 , . . . , Ym , 对于一个新的样本Z , 我们可以通过计算
(Z − X̄ )2 >< (Z − Ȳ )2 ,
来完成分类. 在数据挖掘中称为距离分类.
王成 第2章 抽样分布及若干预备知识 2020年3月19日 11 / 18
给定简单样本:
数理统计中,样本均值X̄ 是用来刻画总体的均值µ = EX =
R
xf (x)dx.
互动
在简单样本条件下,基于所学概率论知识,如何刻画X̄ 与µ之间的差
距?
思考样本方差反映了数据的什么信息?有哪些特点?
类似于样本均值,尝试推导样本方差的相关性质.
如果样本X1 , X2 , · · · , Xn ∈ Rp , 那么可以定义多元的样本均值和样本协方
差矩阵
n n
1X 1X
X̄ = Xi , Sn2 = (Xi − X̄ )(Xi − X̄ )T .
n n
i=1 i=1
它们在多元/高维数据分析中是非常重要的统计量.