数理统计复习（第1版）

数理统计复习整理
田子杰
更新：
December 28, 2020
目录
1 第一章数理统计的基本知识 1
1.1 总体、样本及统计量 . . . . . . . . . . . . . . . . . . . . . . 1
1.2 三大分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2.1 χ2 分布与 Γ 分布族 . . . . . . . . . . . . . . . . . . 1
1.2.2 t 分布 . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.3 F 分布 . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 抽样分布与 Fisher 引理 . . . . . . . . . . . . . . . . . . . . 3
1.4 顺序统计量 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 经验分布函数与格里汶科定理 . . . . . . . . . . . . . . . . 6
2 第二章点估计 6
2.1 正态总体常用点估计 . . . . . . . . . . . . . . . . . . . . . 6
2.2 矩估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 极大似然估计 . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4 点估计的评价标准 . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.1 无偏性 . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.2 一致性 . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4.3 有效性 . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5 充分性原则 . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5.1 充分统计量 . . . . . . . . . . . . . . . . . . . . . . 10
2.5.2 完备统计量 . . . . . . . . . . . . . . . . . . . . . . 11
2.5.3 充分性原则，
Rao-Blackwell 定理 . . . . . . . . . . . 11
3 第三章区间估计与假设检验 11
3.1 区间估计基本内容 . . . . . . . . . . . . . . . . . . . . . . . 11
3.2 假设检验基本内容 . . . . . . . . . . . . . . . . . . . . . . . 12
3.3 似然比检验与最优势检验 . . . . . . . . . . . . . . . . . . . 13
3.3.1 似然比检验 . . . . . . . . . . . . . . . . . . . . . . 13
3.3.2 势函数与奈曼-皮尔逊引理 . . . . . . . . . . . . . . 14
3.4 正态总体的区间估计与假设检验 . . . . . . . . . . . . . . . 14
3.5 非正态总体的区间估计与假设检验 . . . . . . . . . . . . . 14
3.5.1 指数分布族 . . . . . . . . . . . . . . . . . . . . . . 15
3.5.2 比率 p . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.6 非参数假设检验 . . . . . . . . . . . . . . . . . . . . . . . . 16
4 第四章方差分析与回归分析 16
4.1 方差分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2 p 元回归分析 . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1 第一章数理统计的基本知识
1.1 总体、样本及统计量
简单随机样本的两个特点及其原因.
统计量：
（1）样本的函数；
（2）不含未知参数.
注在区间估计中，构造的枢轴变量通常含有未知参数，所以往往不称枢
轴变量为“统计量”，而是“变量”. 而在假设检验中，所引入的检验统计量
不含未知参数，是统计量.
▶ 概率论与数理统计的区别：概率论是推理（由概率分布推断样本性
质），数理统计是归纳（由样本信息反推概率分布）
。可以不严谨的说：数理
统计就是逆向的概率论.
1.2 三大分布
一些要记住的含参变量积分：
ˆ 1
Γ(α)Γ(β)
B(α, β) = x α−1 (1 − x) β−1 dx =
0 Γ(α + β)
ˆ +∞
Γ(s) = x s−1 e−x dx , Γ(s + 1) = sΓ(s) , 特别地Γ(n + 1) = n!
0
1.2.1 χ2 分布与 Γ 分布族
χ2 (n) 是 n 个独立标准正态分布的和.
1 n
χ2 (n) 是 Γ 分布 Γ(r, λ) 在 λ = , r = 时的情形；
2 2
1
χ2 (2) 是指数分布 Exp(λ) 在 λ = 时的情形.
2
注关于 Γ 分布，埃尔朗分布，卡方分布，指数分布的关系，只需要考察 Γ
分布族 Γ(r, λ) 的密度函数：
λr r−1 −λx
f (x) = x e ,x≥0
Γ(r)
1
r 为正整数时，
为埃尔朗分布，密度函数为
λr
f (x) = x r−1 e−λx , x ≥ 0
(r − 1)!
n 1
r = , λ = 时, 为卡方分布 χ2 (n)，密度函数为
2 2
1
2 −1 e− 2 , x ≥ 0
n x
f (x) = n x
2 2 · Γ( 2n )
r = 1 时，
为指数分布 Exp(λ)，密度函数为
f (x) = λe−λx , x ≥ 0
1
由此便可知 χ2 (2) 是指数分布 Exp(λ) 在 λ = 时的情形.
2
服从 χ2 (n) 分布的变量，数学期望为 n，方差为 2n. 卡方分布具有可加
性.
1.2.2 t 分布
X
（定义）若 T ∼ t(n)，则 T = √ ，其中 X，Y 相互独立，X ∼ N(0, 1)，
Y
n
Y ∼ χ (n).
2
注如果要求证明某个统计量服从 T 分布，
证明 X,Y 相互独立是必不可少
的一个环节，
而且往往有些情况独立性并不是显然的.
▶ 正态分布与 t 分布的关系？
注意 t 分布的概率密度曲线，与 N(0, 1) 的相比，峰值要矮，尾部要厚，

随着自由度 n 的增大，峰值逐渐逼近 N(0, 1) 的峰值.
t(n) 当 n → ∞ 时的极限分布就是 N(0, 1)，可以用特征函数方法证明，

还用到概率论中的定理：依分布收敛于常数，等价于依概率收敛于常数.
注意 t 分布的数学期望和方差，思考为什么会有 n > 1 及 n > 2 的条

件？可参考 [1]P293, 求出了 t 分布的各阶矩.
注自由度为 1 的 t 分布为柯西分布. 这也从一个角度反映了为什么 t 分
布的数学期望是从 2 开始有意义.
2
1.2.3 F 分布
X/m
若 X,Y 相互独立，X ∼ χ2 (m)，
Y ∼ χ2 (n)，则 F = ∼ F(m, n).
Y /n
注意 F 分布的数学期望，
只与分母自由度有关. 同 t 分布一样，
期望和
方差对 n 的取值是有要求的.
1
注意 F 分布一个很重要的性质：F ∼ (m, n)，则 ∼ F(n, m). 由此引出
F
了另外两个重要的性质：
F(n, n) 的中位数 Me = 1
下分位数满足
1
F1−α (m, n) =
Fα (n, m)
即分位点与 1 取补，自由度交换，分位数取倒数.
还要注意 F 分布和 T 分布的关系，即 T ∼ t(n)，推出 T 2 ∼ F(1, n).

注数理统计中，有两处地方直接用到了 F 分布和 T 分布的关系：（1）
[ ]2
Fα (1, n) = tα/2 (n) ；(2) 一元线性回归，F 检验与 t 检验等价.
在正态总体情况下，要对 S 的位置足够敏感，将 S 放在分母，考虑 t 分

布，将 S 2 放在分母，考虑 F 分布.
1.3 抽样分布与 Fisher 引理
首先是普通总体情形下：
（1）一维情形：若总体 E X = µ，DX = σ 2 ，则可以得到 E( X̄)，D( X̄)，

) 无偏），E(Sn2（
E(S 2（ ) 有偏）.
（2）多维情形：已知均值向量 µ X
设 X 是随机向量，A 是常数变换矩阵，
和协方差阵 (σi j )，可求 E(X T AX)，E(AX)，以及 D(AX).
以下讨论均假设 X ∼ N(µ, σ 2 )：
⋆ 在正态总体下，有著名的 Fisher 引理：
（1）一维情形：
3
(n − 1)S 2
内容有四个，分别是（1）X 的分布，
（2）X 与 S2 独立，
（3） ∼
σ2
X−µ
χ2 (n − 1)，以及（4） √ ∼ t(n − 1).
S/ n
证明.（1）使用正态分布的性质显然；（3）作正交变换 Y = AX，正交变

（2）
换下独立性不变且方差相同，得到 Yi 的分布，最后用 Yi 表示出 X 与 S 2 即
可；
（4）由（2）
（3）显然.
注（2）说明，同一组随机变量的函数 f (X1, X2, · · · , Xn ) 与 g(X1, X2, · · · , Xn )

也可能独立.
在 Fisher 引理的使用过程中，容易犯的错误是把 X 用在正态分布的

n+1 2
可加性里面，从而得到错误结果 Xi − X ∼ N(0, σ ). 这是学习数理统
n
计中相当严重的错误. 事实上，出错的原因在于 Xi 和 X 是不独立的（可以
从柯赫仑定理的角度去理解：秩为 n − 1 而不是 n）.
n−1 2
注通过拆开计算可以得知，Xi − X ∼ N(0, σ )，这一结果在计算无偏
n
估计时常常用到.
如何避免这一错误？笔者认为，重点是 µ 是否已知. 即以下两式：
1 ∑
n
(Xi − X)2 ∼ χ2 (n − 1)
σ i=1
2
1 ∑
n
(Xi − µ)2 ∼ χ2 (n)
σ i=1
2
注以上两式对应了统计推断中的两种不同类型. 正态总体统计学中，µ 是
否已知是非常重要的问题.
（2）二维情形
在二元情形 σ1 = σ2 时，我们引入了一个非常重要的统计量，即
(m − 1)S12 + (n − 1)S22
Sw2 =
m+n−2
4
(m + n − 2)Sw2
可以证明，若 σ1 = σ2 = σ，则 ∼ χ2 (m + n − 2)，从而
σ 2
(X − Y ) − (µ1 − µ2 )
T= √ ∼ t(m + n − 2)
1 1
Sw +
m n
这为后面两正态总体均值之差的估计和检验打下了基础.
1.4 顺序统计量
最重要的内容是顺序统计量的分布：顺序统计量 X(i) 的密度函数为
n!
fX(i) (x) = [F(x)]i−1 · [1 − F(x)]n−i · f (x) · 1(a≤x≤b)
(i − 1)!(n − i)!
证明主要使用多项分布及中值定理. 这种方法常被称为“概率元方法”.[2]
不使用上面的公式，从概率论角度出发，可也以直接推得最小顺序统
计量和最大顺序统计量的分布：
[ ]n [ ] n−1
X(n) : Fn (x) = F(x) fn (x) = n F(x) f (x)
[ ]n [ ] n−1
X(1) : F1 (x) = 1 − F(x) f1 (x) = n 1 − F(x) f (x)
i < j 时，
两个顺序统计量的联合密度：
n![F(x)]i−1 [F(y) − F(x)] j−i−1 [1 − F(y)]n− j

f(X(i),X(j) ) (x, y) = · f (x) f (y)·1(a≤x<y≤b)
(i − 1)!( j − i − 1)!(n − j)!
注注意后面 x, y 的范围，要求 x < y.
还需注意任意前 k 个顺序统计量的联合概率密度，特别是前 n 个：
∏
n
g(x1, · · · , xn ) = n! f (xi )
i=1
∏
n
注为什么不是 f (xi )? 思考 X(1), · · · , X(n) 之间是否相互独立?
i=1
5
1.5 经验分布函数与格里汶科定理
经验分布函数可以写成如下形式，更便于处理：
1∑
n
Fn (x) = 1(Xi <x)
n
i=1
按此写法，经验分布函数是非降右连续函数.
▶ 经验分布函数的本质是什么？
对每个样本观测值，Fn (x) 是一个分布函数

对每个固定的 x，Fn (x) 是一个随机变量，且通过计算可知
1
E[Fn (x)] = F(x) , D[Fn (x)] = F(x)[1 − F(x)]
n
▶ 经验分布函数在数理统计中的地位？
格里汶科定理，即当 n 相当大时，经验分布函数是总体分布函数 F(x)

的一个良好近似（类似于依测度收敛，
但要比依测度收敛强，
因为关于 x 是
一致的），在非参数假设检验（柯尔莫果洛夫 Dn 检验）中起到了重要作用.
格里汶科定理，
保证了经典统计学中一切统计推断都可以以样本为依据.
2 第二章点估计
2.1 正态总体常用点估计
首先作为一些应该记住的结果，列出正态总体 X ∼ N(0, 1) 的点估计：
1. 矩估计
µ 未知：
µ̂ = X , σ̂ 2 = Sn2
µ 已知：
1∑ 2
n
σ̂ =
2
Xi − µ2
n
i=1
6
2. 极大似然估计
µ 未知：
µ̂ = X , σ̂ 2 = Sn2
µ 已知：
1∑
n
σ̂ = 2
(Xi − µ)2
n
i=1
3. 无偏估计
1∑
n
µ̂ = X , σ̂ = S 或 σ̂ =
2 2
(Xi − µ)2
2
n
i=1
注当 µ 未知时，σ̂ 2 的矩估计和极大似然估计都不是无偏估计.
注 E S 2 = σ 2 对任意总体 X 都成立.
4.（一致）最小方差无偏估计
µ̂ = X , σ̂ 2 = S 2
5. 有效估计
µ 未知：
µ̂ = X , σ̂ 2 的有效估计不存在 , S 2 为渐进有效估计
µ 已知：
1∑
n
σ̂ = 2
(Xi − µ)2
n
i=1
2.2 矩估计
在计算矩估计时，需要注意几点：
1∑ k
n
等式 E X =
k Xi 并不是严格的等式，
是由大数定律或格里汶科定
n
i=1
理得到的结果. 但后面改写成带ˆ的估计量后，就是严格的等式.
若总体 X 的方差和均值都存在，那么 E X 的矩估计是 X，DX 的矩估
计是 Sn2 .
遇到超越方程时，若求解出现困难，可再加一个方程辅助求解.（课本
例 2.1.6）
7
2.3 极大似然估计
在计算极大似然估计时，需要注意几点：
求正态总体的 MLE 时，要注意对 σ 和 σ 2 求导的不同.

离散型总体，若已知样本数据（发生的事件），根据似然函数的定义，直
接将每件事情发生的概率相乘，得到似然函数。是去求这一件事发生
的概率，
而不是求此事件所属集合的概率.
在求某些分布的总体（尤其是均匀分布总体）时，常采用分析法.
例 2.1 X ∼ U(0, θ)，给定样本 X1, · · · , Xn ，θ 的 MLE 为 θ̂ = X(n) .
X(n)
例 2.2 X ∼ U(θ, 2θ)，给定样本 X1, · · · , Xn ，θ 的 MLE 为 θ̂ = .
2
例 2.3 X ∼ U(θ, θ +1)，
给定样本 X1, · · · , Xn ，所有满足 θ̂ ≤ X(1) ≤ X(n) ≤ θ +1
的 θ̂ 均可作为 MLE.
极大似然估计中一个非常有用的性质是极大似然估计的不变性，
在求
解离散问题中常有奇效. 例，课本课后题 2.19.
极大似然估计还有渐进正态性.
另外要注意一些常见的结果. 密度函数里带有 (x − µ)2 项，得到 µ 的

极大似然估计往往是均值，若含有 |x − µ| 项，得到 µ 的极大似然估计往往
是中位数 Me .
2.4 点估计的评价标准
2.4.1 无偏性
注意并不是所有的参数都存在无偏估计.
1
例 2.4 对于两点分布 B(1, p)，可用反证法证明的无偏估计不存在.
p
此外，将有偏估计修正为无偏估计的方法：
θ̂ − b
若 E[θ̂] = a θ̂ + b，则令 θ̂ Mod = ，即得修正后的无偏估计.
a
8
2.4.2 一致性
一致估计，相合估计，
弱相合估计是同一个定义，
均为统计量依概率收
敛于待估参数. 强相合估计是以概率 1 收敛.
样本 k 阶原点矩是总体 k 阶原点矩的一致估计（大数定律）. 一般的，

矩估计是一致估计. 一致估计经连续函数变换后仍是一致估计.
方差趋于 0 的渐进无偏估计为一致估计（注意是充分条件）. 此定理

的证明用到了 Chebyshev 不等式.
2.4.3 有效性
有效性只能在无偏估计中比较. 有效性的比较标准是方差.
一个容易被忽略的估计量是均方误差：E(θ̂ − θ)2 . 均方误差（MSE）等

于估计量的方差 + 估计量的偏差.
注均方误差与方差的本质区别：方差刻画样本点与均值的偏差，均方误
差刻画样本点与真实值的偏差.
⋆（一致）最小方差无偏估计（UMVUE）的充要条件：与 0 的任意无偏
估计不相关.
⋆ 对总体 X, 有 θ 的无偏估计 θ̂，且满足相应的正则条件，关于有效估

计，以下说法等价：
1. θ̂ 是 θ 的有效估计；
2. R-C 不等式
1
D(θ̂) ≥
nI(θ)
达到下界；
3. θ̂ 的估计效率
1
e= /D(θ̂) = 1
nI(θ)
4. 存在一个不依赖于 X1, · · · , Xn 但可能依赖于 θ 的 K(θ) , 0，使得等式
∂lnL(X1, · · · , Xn ; θ)
= K(θ) · [θ̂ − θ]
∂θ
9
a.s. 成立.
R-C 不等式的下界，是满足正则条件的所有无偏估计的方差下界，不
是所有无偏估计的方差下界，即有效估计一定是 UMVUE，反之不然.
注正则条件要简单记忆一下，共有五条：
（1）参数空间是开区间；
（2）支撑
与 θ 无关；
（3）密度函数偏导存在；
（4）求导积分可交换；
（5）Fisher 信息量
存在.
关于 Fisher 信息量 I(θ)，当二阶导数存在时，可以用以下公式计算:

[ ]2 [ ]
∂ln f (X; θ) ∂ 2 ln f (X; θ)
I(θ) = E = −E
∂θ ∂θ 2
以下常用的 Fisher 信息量可以记忆：若总体 X ∼ N(0, 1)，则

1 1 2
I(µ) = , I(σ 2
) = , I(σ) =
σ2 2σ 4 σ2
注算 Fisher 信息量时，用的是密度函数的对数 ln f (X; θ)；而 R-C 不等式
判断等号是否成立，用的是似然函数的对数 lnL(θ)；而在后面判断充分统
计量时，用的是似然函数 L(θ).
2.5 充分性原则
2.5.1 充分统计量
对充分统计量的理解：给定 T 的取值后，x1, · · · , xn 的条件分布与未知

参数 θ 无关.
充分统计量的意义：简化样本，不损失样本中关于参数 θ 的信息.
⋆ 充分统计量的充分必要条件（因子分解定理）：似然函数可拆成两
部分，一部分与 T 和 θ 有关，另一部分与 θ 无关（这是分解的关键）. 即把
统计量 T 和未知参数 θ 放在同一个函数中.
单参数指数分布族的充分统计量可以写成非常统一的形式.
充分统计量的一一对应变换仍是充分统计量.
10
2.5.2 完备统计量
若统计量 T 的分布族是完备的，
则 T 是完备统计量. 所谓完备分布族，
∀θ 及任意函数 g，当 E[g(X)] = 0 时，必有 P[g(X) = 0] = 1.
是指：
2.5.3 充分性原则，
Rao-Blackwell 定理
θ̂ 是未知参数 θ 的无偏估
定理 2.1 (Rao-Blackwell 定理) 若 T 充分统计量，
计，则 E(θ̂|T) 是比 θ̂ 更有效的无偏估计.
即，
若找到一个无偏估计，
则可对它关于充分统计量 T 求条件期望，
可
以得到一个方差更小的无偏估计. 换句话说，θ 的 UMVUE 若存在，则一定
是充分统计量的函数. 此即充分性原则.
因此，考虑 θ 的估计时，只需要在其充分统计量的函数中寻找即可.
▶ 如何使用充分统计量构造 UMVUE？
θ̂ 是未知参数 θ 的
定理 2.2 (雷曼-谢飞定理) 若 T 是充分且完备的统计量，
无偏估计，则 E(θ̂|T) 是概率 1 意义下的 UMVUE.
也就是说，若 Rao-Blackwell 定理中的充分统计量还是完备的，则可以

用充分完备统计量求一致最小方差无偏估计.
3 第三章区间估计与假设检验
将区间估计和假设检验放在一起，是因为二者有紧密的联系：由参数
假设检验问题的水平为 α 的检验，可以得到该参数置信度为 1 − α 的置信
区间.
3.1 区间估计基本内容
▶ 什么是区间估计？
选取一个合适的随机区间，
使得该区间能够包含未知参数的概率尽可
能大.
11
注注意区间是随机的，应该表述成区间包含未知参数，而不是未知参数
位于区间内.
▶ 置信水平 1 − α 如何理解？
在大量使用该置信区间时，至少有 100(1 − α)% 的区间包含未知参数.

（覆盖率）
▶ 如何构造枢轴变量？
枢轴变量的两条要求：
包含样本和待估的未知参数，但不能包含其他未知参数（讨厌参数）
与未知参数 θ 无关
分布必须已知，
▶ 如何构造置信区间？
满足置信水平的置信区间可能不唯一. 如果可能，要选择平均长度
E(θˆU − θˆL ) 达到最短的 c1 和 c2 . 若选择这种对称置信区间比较困难，可以
α
使两个尾部概率均为，常用于偏态分布场合.
2
3.2 假设检验基本内容
▶ 假设检验的结果如何理解？
若接受了 H0 ，则 H0 不一定对，H1 也不一定错，只能说明虽然对假设

H0 有怀疑，但没有理由否定 H0 .
我们考虑下面两种单侧检验：
H0 : θ ≤ θ 0 ↔ H1 : θ > θ 0
H0 : θ ≥ θ 0 ↔ H1 : θ < θ 0
当显著性水平 α 取得过小，或者构造了对称检验统计量时，两种检验的拒
绝域可能交集为空，即 W = {X > d}(c < d) 与 W = {X < c}，此时若统计
量的取值满足 c < X < d，则采用不同的假设一定会得出不同的结果.
但这并不是矛盾的，将假设检验的结果按照如上所述去理解，即可得
到合理的解释.[1]（P416）
12
注但这并不表明假设检验时可以随意假设. 一般要按照题意，或按照经
验进行.
在单侧检验时，复合假设检验都有等价的简单假设检验，二者使用相
同的检验方法，
构造相同的检验统计量，
并且有相同的拒绝域. 判断左右侧
检验，主要是看对立假设 H1 . 一般地，拒绝域的形式与左右侧相同.
▶ 关于两类错误：
α= 显著性水平 = 犯第一类错误的概率 =P(W |H0 )；
β= 犯第二类错误的概率 =P(W |H1 ).
α 和 β 的取值并没有直接的关系，当样本容量 n 固定时，减少犯某一
类错误的概率，
一定会增大犯另一类错误的概率.
例 3.1 正态总体时，对于简单双侧假设检验，计算可得
µ1 − µ0
u1−α + u1−β = − √
σ/ n
不可能存在一个使犯两类错误的概率同时变小的方案. 想要减小两类错误
的概率，一种办法是增大 n.
3.3 似然比检验与最优势检验
3.3.1 似然比检验
广义似然比检验、似然比检验
需要注意的是，正态总体情形下，方差未知检验数学期望的广义似然
比检验为 t 检验，方差已知检验数学期望的似然比检验为 u 检验.
似然比检验方法是构造检验统计量的一种普适性方法，
可适用于任何
分布的总体，且该似然比检验统计量没有统一的分布形式.
注关于对数似然比有如下结论：
L(θ̂ 1 )
2 ln 渐进服从 χ2 (k)
L(θ̂ 0 )
13
L(θ̂ 1 )
其中 k 为中独立参数的个数.
L(θ̂ 0 )
3.3.2 势函数与奈曼-皮尔逊引理
3.4 正态总体的区间估计与假设检验
主要是以下几种问题：
检验 µ，检验 σ 2
单总体：
σ12
检验 µ1 − µ2 ，
两总体：检验
σ22
如何构造需要的枢轴变量或检验统计量？只需要用到第一章的一元
和二元 Fisher 引理即可. 其实还是第一章中提到的下面两个式子，万变不
离其宗，笔者在此将它们标红，希望这两个式子能引起足够的重视：
1 ∑
n
(Xi − X)2 ∼ χ2 (n − 1)
σ i=1
2
1 ∑
n
(Xi − µ)2 ∼ χ2 (n)
σ i=1
2
3.5 非正态总体的区间估计与假设检验
首先是构造统计量时经常用到的定理：
定理 3.1 (密度函数的变换公式) 设 p(x) 是 X 的密度函数，则 Y = aX + b
的密度函数为
1 ( y − b)
q(y) =
|a| a
证明可参考概率论课本.
考虑一般总体时，总的思想是：
小样本构造统计量精确求解，大样本用
中心极限定理近似.
⋆ 小样本情形下，如何寻找合适的枢轴变量：
14
一般的，欲构造 θ 的置信水平为 1 − α 的置信区间，首先考虑的应该
是θ 的 MLE，或θ 的充分统计量.
一般地，设统计量 T(X) 的分布函数为 F(x, θ) = Pθ {T(X) ≤ t}，则

F(T(X), θ) ∼ U(0, 1)，可被取作枢轴变量. 下面考虑几种特殊情况：
3.5.1 指数分布族
1
设总体 X ∼ Exp( )，对 θ 0 进行检验，或对 θ 进行估计：
θ
1
根据参数 λ = 的指数分布是自由度为 2 的 χ2 分布，由前面的密度
2
函数的变换公式，可构造检验统计量：
2nX
χ2 = ∼ (H0 成立) χ2 (2n)
θ0
相应的，区间估计时构造枢轴量
2nX
χ2 = ∼ χ2 (2n)
θ
3.5.2 比率 p
设总体 X ∼ B(1, p)，对 p0 进行检验，或对 p 进行估计：
区间估计时，大样本情形下可构造枢轴量，根据中心极限定理
X−p
U=√ ∼ N(0, 1)
p(1 − p)/n
∑
n
假设检验时，小样本下构造 T = ∼ B(n, p0（
) H0 成立）精确求解，大
i=1
样本下构造统计量
X − p0
U=√ ∼ (H0 成立)N(0, 1)
p0 (1 − p0 )/n
近似求解.
注由此还可以发现，将枢轴变量的未知参数变为待验参数的值，往往就
能得到相应的检验统计量.
15
3.6 非参数假设检验
4 第四章方差分析与回归分析
4.1 方差分析
▶ 方差检验的目的：
检验同方差的若干正态总体均值是否相等.
4.2 p 元回归分析
则可以给定 p 个因素，n 组数据，有基本模型：
y = β0 + β1 x1 + · · · + βp x p + ε , ε ∼ N(0, σ 2 )
由于 ε 是随机变量，x1, · · · , x p 被精确控制或测量，
注未给定结果时，不是
随机变量，所以 y 是随机变量. 给定结果时，y 是通过观测得到的数据.
设计矩阵：X 系数矩阵：X T X 观测值向量：

Y
则多元线性回归模型可以表示成
Y = Xβ + ε
16
正规方程组可以表示为
XT X β = XTY
−1
得到 β 的最小二乘估计 β̂ = (X T X) X T Y ，多元线性回归方程为 Ŷ = X β̂.
Ŷ = ( yˆ1, yˆ2, · · · , yˆn )T

回归值：
Ỹ = ( y˜1, y˜2, · · · , y˜n )T = (I − H)Y

残差：
−1
帽子矩阵：H = X(X T X) X T
注 H 的性质：幂等的半正定矩阵，即 H 2 = H, H T = H 且 H 半正定. 且有
(I − H)2 = I − H.
∑
n
残差平方和：Se = (yi − ŷi )2 = Y T (I − H)Y
i=1
∑
n
偏差平方和：ST = (yi − y)2
i=1
∑
n
回归平方和：SR = ( ŷi − y)2
i=1
SR
注平方和分解公式 ST = SR + Se ，相关系数 R2 = . 回归模型越显著，Se
ST
越小，R 越接近于 1.
Y, Ỹ, β̂, Ŷ, Se, ST , SR . 我们可以根据这些随机

以上各量是随机变量的有：
变量的分布，
很自然地导出回归分析的各项分析方法.
1. Y 的分布
由 Y = X β + ε 知，
Y ∼ N(X β, σ 2 In ).
2. Ỹ 的分布
通过 Ỹ = Y − Ŷ 并计算知，
Ỹ ∼ N(0, (I − H)σ 2 )
⋆ 由此导出 σ 2 的无偏估计：
17
由 trAB = trBA，知 trH = p + 1.
通过
E Ỹ = E[(I − H)Y ] = (I − H)X β = 0
以及
E[Se ] = E[Y T (I − H)Y ] = tr[σ 2 (I − H)] + (X β)T (I − H)X β = (n − p − 1)σ 2

Se
知 σ̂ 2 = 是 σ 2 的无偏估计.
n−p−1
3. β̂ 的分布
−1
由 β̂ = (X T X) X T Y 计算，知 β̂ ∼ N(β , σ 2 (X T X)−1 ).
注一个类似于正态总体 Fisher 引理的结论是：β̂ 与 Se 独立.
4. Se, ST 及 SR 的分布
Se
通过正交变换，得 ∼ χ2 (n − p − 1)
σ 2
SR ST SR Se
而 H0 成立时，有 2 ∼ χ2 (p)， 2 ∼ χ2 (n − 1)，且 2 与 2 相互独立.
σ σ σ σ
⋆ 线性回归模型的显著性检验（F 检验）：
SR /p
取检验统计量 F = ，H0 为真时，F ∼ F(p, n − p − 1)，
对检
Se /(n − p − 1)
验水平 α，拒绝域为 W = {F > Fα (p, n − p − 1)}.
5. β̂ j 与 t j 的分布
由 β̂ 服从 N(β , σ 2 (X T X)−1 )，记 c j j 是 (X T X)−1 的第 j + 1 个对角线元

素，有 β̂ j ∼ N(β j , c j j σ 2 )，由 β̂ j 与 Se 互相独立以及 t 分布的定义，有
β̂ j − β j
tj = √ ∼ t(n − p − 1)
σ̂ c j j
注分母是 σ̂（σ 的无偏估计）而不是 σ，在计算的时候正好消掉了 σ.
18
⋆ 自变量的显著性检验（t 检验）：
β̂ j
取检验统计量 t j = √ ，当 H0 成立时 t j ∼ t(n − p − 1)，对检验水
c j j · σ̂
平 α，拒绝域为 W = {|t j | > t α2 (n − p − 1)}
注如果某自变量影响不显著，应将其从模型中剔除，建立新的方程（从正
规方程组和设计矩阵开始），进行求解后再进行显著性检验，循环往复，直
至拒绝每个 H0 j 为止.
⋆ 回归系数的区间估计：枢轴变量就是
β̂ j − β j
tj = √ ∼ t(n − p − 1)
σ̂ c j j
其中只含有未知参数 β j ，故得到 β0, β1, · · · , βp 置信度为 1 − α 的各自的置

信区间.
⋆ 利用回归方程预测（区间预测）
需要注意的是，回归值是观测值的无偏估计.
参考书目
[1] 概率论与数理统计教程（第二版）习题与解答. 茆诗松等著
[2] 高等数理统计. 茆诗松等著
[3] 数理统计学. 陈建良编著
19

数理统计复习（第1版）

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

数理统计复习（第1版）

Uploaded by

Copyright:

Available Formats

数理统计复习整理

1.2.1 χ2 分布与 Γ 分布族 . . . . . . . . . . . . . . . . . . 1

1.3 抽样分布与 Fisher 引理 . . . . . . . . . . . . . . . . . . . . 3

1.2.1 χ2 分布与 Γ 分布族

注意 t 分布的概率密度曲线，与 N(0, 1) 的相比，峰值要矮，尾部要厚，

t(n) 当 n → ∞ 时的极限分布就是 N(0, 1)，可以用特征函数方法证明，

注意 t 分布的数学期望和方差，思考为什么会有 n > 1 及 n > 2 的条

还要注意 F 分布和 T 分布的关系，即 T ∼ t(n)，推出 T 2 ∼ F(1, n).

在正态总体情况下，要对 S 的位置足够敏感，将 S 放在分母，考虑 t 分

1.3 抽样分布与 Fisher 引理

（1）一维情形：若总体 E X = µ，DX = σ 2 ，则可以得到 E( X̄)，D( X̄)，

⋆ 在正态总体下，有著名的 Fisher 引理：

证明.（1）使用正态分布的性质显然； （3）作正交变换 Y = AX，正交变

注（2）说明，同一组随机变量的函数 f (X1, X2, · · · , Xn ) 与 g(X1, X2, · · · , Xn )

在 Fisher 引理的使用过程中，容易犯的错误是把 X 用在正态分布的

如何避免这一错误？笔者认为，重点是 µ 是否已知. 即以下两式：

最重要的内容是顺序统计量的分布：顺序统计量 X(i) 的密度函数为

n![F(x)]i−1 [F(y) − F(x)] j−i−1 [1 − F(y)]n− j

注 注意后面 x, y 的范围，要求 x < y.

对每个样本观测值，Fn (x) 是一个分布函数

格里汶科定理，即当 n 相当大时，经验分布函数是总体分布函数 F(x)

首先作为一些应该记住的结果，列出正态总体 X ∼ N(0, 1) 的点估计：

求正态总体的 MLE 时，要注意对 σ 和 σ 2 求导的不同.

另外要注意一些常见的结果. 密度函数里带有 (x − µ)2 项，得到 µ 的

样本 k 阶原点矩是总体 k 阶原点矩的一致估计（大数定律）. 一般的，

方差趋于 0 的渐进无偏估计为一致估计（注意是充分条件）. 此定理

一个容易被忽略的估计量是均方误差：E(θ̂ − θ)2 . 均方误差（MSE）等

⋆ 对总体 X, 有 θ 的无偏估计 θ̂，且满足相应的正则条件，关于有效估

关于 Fisher 信息量 I(θ)，当二阶导数存在时，可以用以下公式计算:

以下常用的 Fisher 信息量可以记忆：若总体 X ∼ N(0, 1)，则

对充分统计量的理解：给定 T 的取值后，x1, · · · , xn 的条件分布与未知

也就是说，若 Rao-Blackwell 定理中的充分统计量还是完备的，则可以

在大量使用该置信区间时，至少有 100(1 − α)% 的区间包含未知参数.

若接受了 H0 ，则 H0 不一定对，H1 也不一定错，只能说明虽然对假设

α= 显著性水平 = 犯第一类错误的概率 =P(W |H0 )；

β= 犯第二类错误的概率 =P(W |H1 ).

一般地，设统计量 T(X) 的分布函数为 F(x, θ) = Pθ {T(X) ≤ t}，则

设总体 X ∼ B(1, p)，对 p0 进行检验，或对 p 进行估计：

则可以给定 p 个因素，n 组数据，有基本模型：

设计矩阵：X 系数矩阵：X T X 观测值向量：

Ŷ = ( yˆ1, yˆ2, · · · , yˆn )T

Ỹ = ( y˜1, y˜2, · · · , y˜n )T = (I − H)Y

Y, Ỹ, β̂, Ŷ, Se, ST , SR . 我们可以根据这些随机

E[Se ] = E[Y T (I − H)Y ] = tr[σ 2 (I − H)] + (X β)T (I − H)X β = (n − p − 1)σ 2

由 β̂ 服从 N(β , σ 2 (X T X)−1 )，记 c j j 是 (X T X)−1 的第 j + 1 个对角线元

注 分母是 σ̂（σ 的无偏估计）而不是 σ，在计算的时候正好消掉了 σ.

其中只含有未知参数 β j ，故得到 β0, β1, · · · , βp 置信度为 1 − α 的各自的置

You might also like

证明.（1）使用正态分布的性质显然；（3）作正交变换 Y = AX，正交变

注注意后面 x, y 的范围，要求 x < y.

注分母是 σ̂（σ 的无偏估计）而不是 σ，在计算的时候正好消掉了 σ.