You are on page 1of 15

第2章 抽样分布及若干预备知识

王成

上海交通大学数学科学学院

chengwang@sjtu.edu.cn

2020年3月19日

王成 第2章 抽样分布及若干预备知识 2020年3月19日 1 / 18


1 复习

2 2.1 引言

3 作业

王成 第2章 抽样分布及若干预备知识 2020年3月19日 2 / 18


复习

王成 第2章 抽样分布及若干预备知识 2020年3月19日 3 / 18


简单随机样本

简单随机样本
数理统计中主要研究的是一类独立同分布的样本(independent and
identically distributed, i.i.d.) ,即
X1 , · · · , Xn 相互独立;(independent)
X1 , · · · , Xn 具有共同的分布.(identically)
英文通常表述为:
X1 , · · · , Xn are independent and identically distributed random variables.

王成 第2章 抽样分布及若干预备知识 2020年3月19日 4 / 18


对于简单随机样本

X1 , X2 , · · · , Xn i.i.d. ∼ X .

如果X 有分布函数F , 那么(X1 , X2 , · · · , Xn )的联合分布函数为:


n
Y n
Y
G (x1 , · · · , xn ) = P(X1 ≤ x1 , · · · , Xn ≤ xn ) = P(Xi ≤ xi ) = F (xi ).
i=1 i=1

如果X 有密度函数f , 那么(X1 , X2 , · · · , Xn )的联合密度函数为:


n
Y
g (x1 , · · · , xn ) = f (xi ).
i=1

王成 第2章 抽样分布及若干预备知识 2020年3月19日 5 / 18


数理统计常用分布族

数理统计中通常我们会把总体分布限制到某一类分布,例如
Bernoulli distribution: B(1, p);
Poisson distribution:P(λ);
Exponential distribution: Exp(λ);
Uniform distribution: U[a, b];
Normal distribution(Gaussian distribution): N(µ, σ 2 ).

王成 第2章 抽样分布及若干预备知识 2020年3月19日 6 / 18


统计量

统计学的目的是针对不同问题,(通过某种统计方法)基于样本构造出相
关统计量T = T (X1 , . . . , Xn ):

统计量的定义
完全基于样本X1 , · · · , Xn 所得的量称为统计量, 统计量是样本的函数.

王成 第2章 抽样分布及若干预备知识 2020年3月19日 7 / 18


数理统计中常用统计量:
样本的均值、方差;
次序统计量,例如最大值、最小值、中位数等;
n n
样本m阶矩 n1 Xim 以及样本m阶中心矩 n1 (Xi − X̄ )m ;
P P
i=1 i=1
二 元数据 (Xi , Yi )相
相关 的 样 本 协 方 差 、 相 关 系 数 等 ;
···

王成 第2章 抽样分布及若干预备知识 2020年3月19日 8 / 18


2.1 引言

王成 第2章 抽样分布及若干预备知识 2020年3月19日 9 / 18


抽样分布

本章目标
对于简单随机样本X1 , X2 , · · · , Xn i.i.d. ∼ X , 其中X 为某个分布或者某
个分布族, 研究清楚常见统计量T (X1 , . . . , Xn )的随机性质.

互动
概率论中,对于一个随机变量T , 常见的刻画其随机性质的度量有哪
些?

王成 第2章 抽样分布及若干预备知识 2020年3月19日 10 / 18


样本均值
给定样本X1 , . . . , Xn , 样本均值定义为:
n
1X
X̄ = Xi .
n
i=1

从损失函数的角度
v
u n n
uX 1X
X̄ = arg min t (Xi − x)2 = arg min (Xi − x)2
x x n
i=1 i=1

样本均值可以理解为样本的“中心”. 给定两组来源不同的数
据X1 , . . . , Xn 和Y1 , . . . , Ym , 对于一个新的样本Z , 我们可以通过计算

(Z − X̄ )2 >< (Z − Ȳ )2 ,

来完成分类. 在数据挖掘中称为距离分类.
王成 第2章 抽样分布及若干预备知识 2020年3月19日 11 / 18
给定简单样本:

X1 , X2 , · · · , Xn i.i.d. ∼ f (x, θ).

数理统计中,样本均值X̄ 是用来刻画总体的均值µ = EX =
R
xf (x)dx.

互动
在简单样本条件下,基于所学概率论知识,如何刻画X̄ 与µ之间的差
距?

王成 第2章 抽样分布及若干预备知识 2020年3月19日 12 / 18


尝试在下列分布族下,推导X̄ 的精确分布:
Bernoulli distribution: B(1, p);
Poisson distribution:P(λ);
Exponential distribution: Exp(λ);
Uniform distribution: U[a, b];
Normal distribution(Gaussian distribution): N(µ, σ 2 ).

王成 第2章 抽样分布及若干预备知识 2020年3月19日 13 / 18


样本均值X̄ 刻画了数据的“中心”, 统计中伴随样本均值一般还会计算样
本方差
n
1X
Sn2 = (Xi − X̄ )2 .
n
i=1

思考样本方差反映了数据的什么信息?有哪些特点?
类似于样本均值,尝试推导样本方差的相关性质.

王成 第2章 抽样分布及若干预备知识 2020年3月19日 14 / 18


多元样本均值和样本协方差矩阵

如果样本X1 , X2 , · · · , Xn ∈ Rp , 那么可以定义多元的样本均值和样本协方
差矩阵
n n
1X 1X
X̄ = Xi , Sn2 = (Xi − X̄ )(Xi − X̄ )T .
n n
i=1 i=1

它们在多元/高维数据分析中是非常重要的统计量.

王成 第2章 抽样分布及若干预备知识 2020年3月19日 15 / 18

You might also like