You are on page 1of 21

数理统计复习整理

田子杰
更新:
December 28, 2020

目录

1 第一章 数理统计的基本知识 1

1.1 总体、样本及统计量 . . . . . . . . . . . . . . . . . . . . . . 1

1.2 三大分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2.1 χ2 分布与 Γ 分布族 . . . . . . . . . . . . . . . . . . 1

1.2.2 t 分布 . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2.3 F 分布 . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3 抽样分布与 Fisher 引理 . . . . . . . . . . . . . . . . . . . . 3

1.4 顺序统计量 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.5 经验分布函数与格里汶科定理 . . . . . . . . . . . . . . . . 6

2 第二章 点估计 6

2.1 正态总体常用点估计 . . . . . . . . . . . . . . . . . . . . . 6

2.2 矩估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 极大似然估计 . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4 点估计的评价标准 . . . . . . . . . . . . . . . . . . . . . . . 8

2.4.1 无偏性 . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4.2 一致性 . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4.3 有效性 . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.5 充分性原则 . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.5.1 充分统计量 . . . . . . . . . . . . . . . . . . . . . . 10

2.5.2 完备统计量 . . . . . . . . . . . . . . . . . . . . . . 11

2.5.3 充分性原则,
Rao-Blackwell 定理 . . . . . . . . . . . 11

3 第三章 区间估计与假设检验 11

3.1 区间估计基本内容 . . . . . . . . . . . . . . . . . . . . . . . 11

3.2 假设检验基本内容 . . . . . . . . . . . . . . . . . . . . . . . 12

3.3 似然比检验与最优势检验 . . . . . . . . . . . . . . . . . . . 13

3.3.1 似然比检验 . . . . . . . . . . . . . . . . . . . . . . 13

3.3.2 势函数与奈曼-皮尔逊引理 . . . . . . . . . . . . . . 14

3.4 正态总体的区间估计与假设检验 . . . . . . . . . . . . . . . 14

3.5 非正态总体的区间估计与假设检验 . . . . . . . . . . . . . 14

3.5.1 指数分布族 . . . . . . . . . . . . . . . . . . . . . . 15

3.5.2 比率 p . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.6 非参数假设检验 . . . . . . . . . . . . . . . . . . . . . . . . 16

4 第四章 方差分析与回归分析 16

4.1 方差分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

4.2 p 元回归分析 . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1 第一章 数理统计的基本知识

1.1 总体、样本及统计量

简单随机样本的两个特点及其原因.

统计量:
(1)样本的函数;
(2)不含未知参数.
注 在区间估计中,构造的枢轴变量通常含有未知参数,所以往往不称枢
轴变量为“统计量”,而是“变量”. 而在假设检验中,所引入的检验统计量
不含未知参数,是统计量.

▶ 概率论与数理统计的区别:概率论是推理(由概率分布推断样本性
质),数理统计是归纳(由样本信息反推概率分布)
。可以不严谨的说:数理
统计就是逆向的概率论.

1.2 三大分布

一些要记住的含参变量积分:
ˆ 1
Γ(α)Γ(β)
B(α, β) = x α−1 (1 − x) β−1 dx =
0 Γ(α + β)
ˆ +∞
Γ(s) = x s−1 e−x dx , Γ(s + 1) = sΓ(s) , 特别地Γ(n + 1) = n!
0

1.2.1 χ2 分布与 Γ 分布族

χ2 (n) 是 n 个独立标准正态分布的和.
1 n
χ2 (n) 是 Γ 分布 Γ(r, λ) 在 λ = , r = 时的情形;
2 2
1
χ2 (2) 是指数分布 Exp(λ) 在 λ = 时的情形.
2
注 关于 Γ 分布,埃尔朗分布,卡方分布,指数分布的关系,只需要考察 Γ
分布族 Γ(r, λ) 的密度函数:
λr r−1 −λx
f (x) = x e ,x≥0
Γ(r)
1
r 为正整数时,
为埃尔朗分布,密度函数为
λr
f (x) = x r−1 e−λx , x ≥ 0
(r − 1)!
n 1
r = , λ = 时, 为卡方分布 χ2 (n), 密度函数为
2 2
1
2 −1 e− 2 , x ≥ 0
n x
f (x) = n x
2 2 · Γ( 2n )
r = 1 时,
为指数分布 Exp(λ),密度函数为

f (x) = λe−λx , x ≥ 0
1
由此便可知 χ2 (2) 是指数分布 Exp(λ) 在 λ = 时的情形.
2
服从 χ2 (n) 分布的变量,数学期望为 n,方差为 2n. 卡方分布具有可加
性.

1.2.2 t 分布

X
(定义)若 T ∼ t(n),则 T = √ ,其中 X,Y 相互独立,X ∼ N(0, 1),
Y
n
Y ∼ χ (n).
2

注 如果要求证明某个统计量服从 T 分布,
证明 X,Y 相互独立是必不可少
的一个环节,
而且往往有些情况独立性并不是显然的.

▶ 正态分布与 t 分布的关系?

注意 t 分布的概率密度曲线,与 N(0, 1) 的相比,峰值要矮,尾部要厚,


随着自由度 n 的增大,峰值逐渐逼近 N(0, 1) 的峰值.

t(n) 当 n → ∞ 时的极限分布就是 N(0, 1),可以用特征函数方法证明,


还用到概率论中的定理:依分布收敛于常数,等价于依概率收敛于常数.

注意 t 分布的数学期望和方差,思考为什么会有 n > 1 及 n > 2 的条


件?可参考 [1]P293, 求出了 t 分布的各阶矩.
注 自由度为 1 的 t 分布为柯西分布. 这也从一个角度反映了为什么 t 分
布的数学期望是从 2 开始有意义.

2
1.2.3 F 分布

X/m
若 X,Y 相互独立,X ∼ χ2 (m),
Y ∼ χ2 (n),则 F = ∼ F(m, n).
Y /n
注意 F 分布的数学期望,
只与分母自由度有关. 同 t 分布一样,
期望和
方差对 n 的取值是有要求的.
1
注意 F 分布一个很重要的性质:F ∼ (m, n),则 ∼ F(n, m). 由此引出
F
了另外两个重要的性质:

F(n, n) 的中位数 Me = 1
下分位数满足
1
F1−α (m, n) =
Fα (n, m)
即分位点与 1 取补,自由度交换,分位数取倒数.

还要注意 F 分布和 T 分布的关系,即 T ∼ t(n),推出 T 2 ∼ F(1, n).


注 数理统计中,有两处地方直接用到了 F 分布和 T 分布的关系: (1)
[ ]2
Fα (1, n) = tα/2 (n) ;(2) 一元线性回归,F 检验与 t 检验等价.

在正态总体情况下,要对 S 的位置足够敏感,将 S 放在分母,考虑 t 分


布,将 S 2 放在分母,考虑 F 分布.

1.3 抽样分布与 Fisher 引理

首先是普通总体情形下:

(1)一维情形:若总体 E X = µ,DX = σ 2 ,则可以得到 E( X̄),D( X̄),


) 无偏),E(Sn2(
E(S 2( ) 有偏).

(2)多维情形: 已知均值向量 µ X
设 X 是随机向量,A 是常数变换矩阵,
和协方差阵 (σi j ),可求 E(X T AX),E(AX),以及 D(AX).

以下讨论均假设 X ∼ N(µ, σ 2 ):

⋆ 在正态总体下,有著名的 Fisher 引理:

(1)一维情形:

3
(n − 1)S 2
内容有四个,分别是(1)X 的分布,
(2)X 与 S2 独立,
(3) ∼
σ2
X−µ
χ2 (n − 1),以及(4) √ ∼ t(n − 1).
S/ n

证明.(1)使用正态分布的性质显然; (3)作正交变换 Y = AX,正交变


(2)
换下独立性不变且方差相同,得到 Yi 的分布,最后用 Yi 表示出 X 与 S 2 即
可;
(4)由(2)
(3)显然.

注(2)说明,同一组随机变量的函数 f (X1, X2, · · · , Xn ) 与 g(X1, X2, · · · , Xn )


也可能独立.

在 Fisher 引理的使用过程中,容易犯的错误是把 X 用在正态分布的


n+1 2
可加性里面,从而得到错误结果 Xi − X ∼ N(0, σ ). 这是学习数理统
n
计中相当严重的错误. 事实上,出错的原因在于 Xi 和 X 是不独立的(可以
从柯赫仑定理的角度去理解:秩为 n − 1 而不是 n).
n−1 2
注 通过拆开计算可以得知,Xi − X ∼ N(0, σ ),这一结果在计算无偏
n
估计时常常用到.

如何避免这一错误?笔者认为,重点是 µ 是否已知. 即以下两式:

1 ∑
n
(Xi − X)2 ∼ χ2 (n − 1)
σ i=1
2

1 ∑
n
(Xi − µ)2 ∼ χ2 (n)
σ i=1
2

注 以上两式对应了统计推断中的两种不同类型. 正态总体统计学中,µ 是
否已知是非常重要的问题.

(2)二维情形

在二元情形 σ1 = σ2 时,我们引入了一个非常重要的统计量,即

(m − 1)S12 + (n − 1)S22
Sw2 =
m+n−2

4
(m + n − 2)Sw2
可以证明,若 σ1 = σ2 = σ,则 ∼ χ2 (m + n − 2),从而
σ 2

(X − Y ) − (µ1 − µ2 )
T= √ ∼ t(m + n − 2)
1 1
Sw +
m n
这为后面两正态总体均值之差的估计和检验打下了基础.

1.4 顺序统计量

最重要的内容是顺序统计量的分布:顺序统计量 X(i) 的密度函数为

n!
fX(i) (x) = [F(x)]i−1 · [1 − F(x)]n−i · f (x) · 1(a≤x≤b)
(i − 1)!(n − i)!

证明主要使用多项分布及中值定理. 这种方法常被称为“概率元方法”.[2]

不使用上面的公式,从概率论角度出发,可也以直接推得最小顺序统
计量和最大顺序统计量的分布:
[ ]n [ ] n−1
X(n) : Fn (x) = F(x) fn (x) = n F(x) f (x)
[ ]n [ ] n−1
X(1) : F1 (x) = 1 − F(x) f1 (x) = n 1 − F(x) f (x)

i < j 时,
两个顺序统计量的联合密度:

n![F(x)]i−1 [F(y) − F(x)] j−i−1 [1 − F(y)]n− j


f(X(i),X(j) ) (x, y) = · f (x) f (y)·1(a≤x<y≤b)
(i − 1)!( j − i − 1)!(n − j)!

注 注意后面 x, y 的范围,要求 x < y.

还需注意任意前 k 个顺序统计量的联合概率密度,特别是前 n 个:

n
g(x1, · · · , xn ) = n! f (xi )
i=1


n
注 为什么不是 f (xi )? 思考 X(1), · · · , X(n) 之间是否相互独立?
i=1

5
1.5 经验分布函数与格里汶科定理

经验分布函数可以写成如下形式,更便于处理:

1∑
n
Fn (x) = 1(Xi <x)
n
i=1

按此写法,经验分布函数是非降右连续函数.

▶ 经验分布函数的本质是什么?

对每个样本观测值,Fn (x) 是一个分布函数


对每个固定的 x,Fn (x) 是一个随机变量,且通过计算可知
1
E[Fn (x)] = F(x) , D[Fn (x)] = F(x)[1 − F(x)]
n
▶ 经验分布函数在数理统计中的地位?

格里汶科定理,即当 n 相当大时,经验分布函数是总体分布函数 F(x)


的一个良好近似(类似于依测度收敛,
但要比依测度收敛强,
因为关于 x 是
一致的),在非参数假设检验(柯尔莫果洛夫 Dn 检验)中起到了重要作用.
格里汶科定理,
保证了经典统计学中一切统计推断都可以以样本为依据.

2 第二章 点估计

2.1 正态总体常用点估计

首先作为一些应该记住的结果,列出正态总体 X ∼ N(0, 1) 的点估计:

1. 矩估计
µ 未知:
µ̂ = X , σ̂ 2 = Sn2

µ 已知:
1∑ 2
n
σ̂ =
2
Xi − µ2
n
i=1

6
2. 极大似然估计
µ 未知:
µ̂ = X , σ̂ 2 = Sn2
µ 已知:
1∑
n
σ̂ = 2
(Xi − µ)2
n
i=1
3. 无偏估计
1∑
n
µ̂ = X , σ̂ = S 或 σ̂ =
2 2
(Xi − µ)2
2
n
i=1
注 当 µ 未知时,σ̂ 2 的矩估计和极大似然估计都不是无偏估计.
注 E S 2 = σ 2 对任意总体 X 都成立.
4.(一致)最小方差无偏估计

µ̂ = X , σ̂ 2 = S 2

5. 有效估计
µ 未知:

µ̂ = X , σ̂ 2 的有效估计不存在 , S 2 为渐进有效估计

µ 已知:
1∑
n
σ̂ = 2
(Xi − µ)2
n
i=1

2.2 矩估计

在计算矩估计时,需要注意几点:
1∑ k
n
等式 E X =
k Xi 并不是严格的等式,
是由大数定律或格里汶科定
n
i=1
理得到的结果. 但后面改写成带ˆ的估计量后,就是严格的等式.
若总体 X 的方差和均值都存在,那么 E X 的矩估计是 X,DX 的矩估
计是 Sn2 .
遇到超越方程时,若求解出现困难,可再加一个方程辅助求解.(课本
例 2.1.6)

7
2.3 极大似然估计

在计算极大似然估计时,需要注意几点:

求正态总体的 MLE 时,要注意对 σ 和 σ 2 求导的不同.


离散型总体,若已知样本数据(发生的事件),根据似然函数的定义,直
接将每件事情发生的概率相乘,得到似然函数。是去求这一件事发生
的概率,
而不是求此事件所属集合的概率.
在求某些分布的总体(尤其是均匀分布总体)时,常采用分析法.
例 2.1 X ∼ U(0, θ),给定样本 X1, · · · , Xn ,θ 的 MLE 为 θ̂ = X(n) .
X(n)
例 2.2 X ∼ U(θ, 2θ),给定样本 X1, · · · , Xn ,θ 的 MLE 为 θ̂ = .
2
例 2.3 X ∼ U(θ, θ +1),
给定样本 X1, · · · , Xn ,所有满足 θ̂ ≤ X(1) ≤ X(n) ≤ θ +1
的 θ̂ 均可作为 MLE.

极大似然估计中一个非常有用的性质是极大似然估计的不变性,
在求
解离散问题中常有奇效. 例,课本课后题 2.19.

极大似然估计还有渐进正态性.

另外要注意一些常见的结果. 密度函数里带有 (x − µ)2 项,得到 µ 的


极大似然估计往往是均值,若含有 |x − µ| 项,得到 µ 的极大似然估计往往
是中位数 Me .

2.4 点估计的评价标准

2.4.1 无偏性

注意并不是所有的参数都存在无偏估计.
1
例 2.4 对于两点分布 B(1, p),可用反证法证明 的无偏估计不存在.
p
此外,将有偏估计修正为无偏估计的方法:
θ̂ − b
若 E[θ̂] = a θ̂ + b,则令 θ̂ Mod = ,即得修正后的无偏估计.
a

8
2.4.2 一致性

一致估计,相合估计,
弱相合估计是同一个定义,
均为统计量依概率收
敛于待估参数. 强相合估计是以概率 1 收敛.

样本 k 阶原点矩是总体 k 阶原点矩的一致估计(大数定律). 一般的,


矩估计是一致估计. 一致估计经连续函数变换后仍是一致估计.

方差趋于 0 的渐进无偏估计为一致估计(注意是充分条件). 此定理


的证明用到了 Chebyshev 不等式.

2.4.3 有效性

有效性只能在无偏估计中比较. 有效性的比较标准是方差.

一个容易被忽略的估计量是均方误差:E(θ̂ − θ)2 . 均方误差(MSE)等


于估计量的方差 + 估计量的偏差.
注 均方误差与方差的本质区别:方差刻画样本点与均值的偏差,均方误
差刻画样本点与真实值的偏差.

⋆(一致)最小方差无偏估计(UMVUE)的充要条件:与 0 的任意无偏
估计不相关.

⋆ 对总体 X, 有 θ 的无偏估计 θ̂,且满足相应的正则条件,关于有效估


计,以下说法等价:

1. θ̂ 是 θ 的有效估计;
2. R-C 不等式
1
D(θ̂) ≥
nI(θ)
达到下界;
3. θ̂ 的估计效率
1
e= /D(θ̂) = 1
nI(θ)
4. 存在一个不依赖于 X1, · · · , Xn 但可能依赖于 θ 的 K(θ) , 0,使得等式
∂lnL(X1, · · · , Xn ; θ)
= K(θ) · [θ̂ − θ]
∂θ
9
a.s. 成立.

R-C 不等式的下界,是满足正则条件的所有无偏估计的方差下界,不
是所有无偏估计的方差下界,即有效估计一定是 UMVUE,反之不然.
注 正则条件要简单记忆一下,共有五条:
(1)参数空间是开区间;
(2)支撑
与 θ 无关;
(3)密度函数偏导存在;
(4)求导积分可交换;
(5)Fisher 信息量
存在.

关于 Fisher 信息量 I(θ),当二阶导数存在时,可以用以下公式计算:


[ ]2 [ ]
∂ln f (X; θ) ∂ 2 ln f (X; θ)
I(θ) = E = −E
∂θ ∂θ 2

以下常用的 Fisher 信息量可以记忆:若总体 X ∼ N(0, 1),则


1 1 2
I(µ) = , I(σ 2
) = , I(σ) =
σ2 2σ 4 σ2
注 算 Fisher 信息量时,用的是密度函数的对数 ln f (X; θ);而 R-C 不等式
判断等号是否成立,用的是似然函数的对数 lnL(θ);而在后面判断充分统
计量时,用的是似然函数 L(θ).

2.5 充分性原则

2.5.1 充分统计量

对充分统计量的理解:给定 T 的取值后,x1, · · · , xn 的条件分布与未知


参数 θ 无关.

充分统计量的意义:简化样本,不损失样本中关于参数 θ 的信息.

⋆ 充分统计量的充分必要条件(因子分解定理):似然函数可拆成两
部分,一部分与 T 和 θ 有关,另一部分与 θ 无关(这是分解的关键). 即把
统计量 T 和未知参数 θ 放在同一个函数中.

单参数指数分布族的充分统计量可以写成非常统一的形式.

充分统计量的一一对应变换仍是充分统计量.

10
2.5.2 完备统计量

若统计量 T 的分布族是完备的,
则 T 是完备统计量. 所谓完备分布族,
∀θ 及任意函数 g,当 E[g(X)] = 0 时,必有 P[g(X) = 0] = 1.
是指:

2.5.3 充分性原则,
Rao-Blackwell 定理

θ̂ 是未知参数 θ 的无偏估
定理 2.1 (Rao-Blackwell 定理) 若 T 充分统计量,
计,则 E(θ̂|T) 是比 θ̂ 更有效的无偏估计.

即,
若找到一个无偏估计,
则可对它关于充分统计量 T 求条件期望,

以得到一个方差更小的无偏估计. 换句话说,θ 的 UMVUE 若存在,则一定
是充分统计量的函数. 此即充分性原则.

因此,考虑 θ 的估计时,只需要在其充分统计量的函数中寻找即可.

▶ 如何使用充分统计量构造 UMVUE?
θ̂ 是未知参数 θ 的
定理 2.2 (雷曼-谢飞定理) 若 T 是充分且完备的统计量,
无偏估计,则 E(θ̂|T) 是概率 1 意义下的 UMVUE.

也就是说,若 Rao-Blackwell 定理中的充分统计量还是完备的,则可以


用充分完备统计量求一致最小方差无偏估计.

3 第三章 区间估计与假设检验
将区间估计和假设检验放在一起,是因为二者有紧密的联系:由参数
假设检验问题的水平为 α 的检验,可以得到该参数置信度为 1 − α 的置信
区间.

3.1 区间估计基本内容

▶ 什么是区间估计?

选取一个合适的随机区间,
使得该区间能够包含未知参数的概率尽可
能大.

11
注 注意区间是随机的,应该表述成区间包含未知参数,而不是未知参数
位于区间内.

▶ 置信水平 1 − α 如何理解?

在大量使用该置信区间时,至少有 100(1 − α)% 的区间包含未知参数.


(覆盖率)

▶ 如何构造枢轴变量?

枢轴变量的两条要求:

包含样本和待估的未知参数,但不能包含其他未知参数(讨厌参数)
与未知参数 θ 无关
分布必须已知,

▶ 如何构造置信区间?

满足置信水平的置信区间可能不唯一. 如果可能,要选择平均长度
E(θˆU − θˆL ) 达到最短的 c1 和 c2 . 若选择这种对称置信区间比较困难,可以
α
使两个尾部概率均为 ,常用于偏态分布场合.
2

3.2 假设检验基本内容

▶ 假设检验的结果如何理解?

若接受了 H0 ,则 H0 不一定对,H1 也不一定错,只能说明虽然对假设


H0 有怀疑,但没有理由否定 H0 .

我们考虑下面两种单侧检验:

H0 : θ ≤ θ 0 ↔ H1 : θ > θ 0

H0 : θ ≥ θ 0 ↔ H1 : θ < θ 0
当显著性水平 α 取得过小,或者构造了对称检验统计量时,两种检验的拒
绝域可能交集为空,即 W = {X > d}(c < d) 与 W = {X < c},此时若统计
量的取值满足 c < X < d,则采用不同的假设一定会得出不同的结果.

但这并不是矛盾的,将假设检验的结果按照如上所述去理解,即可得
到合理的解释.[1](P416)

12
注 但这并不表明假设检验时可以随意假设. 一般要按照题意,或按照经
验进行.

在单侧检验时,复合假设检验都有等价的简单假设检验,二者使用相
同的检验方法,
构造相同的检验统计量,
并且有相同的拒绝域. 判断左右侧
检验,主要是看对立假设 H1 . 一般地,拒绝域的形式与左右侧相同.

▶ 关于两类错误:

α= 显著性水平 = 犯第一类错误的概率 =P(W |H0 );

β= 犯第二类错误的概率 =P(W |H1 ).

α 和 β 的取值并没有直接的关系,当样本容量 n 固定时,减少犯某一
类错误的概率,
一定会增大犯另一类错误的概率.
例 3.1 正态总体时,对于简单双侧假设检验,计算可得
µ1 − µ0
u1−α + u1−β = − √
σ/ n

不可能存在一个使犯两类错误的概率同时变小的方案. 想要减小两类错误
的概率,一种办法是增大 n.

3.3 似然比检验与最优势检验

3.3.1 似然比检验

广义似然比检验、似然比检验

需要注意的是,正态总体情形下,方差未知检验数学期望的广义似然
比检验为 t 检验,方差已知检验数学期望的似然比检验为 u 检验.

似然比检验方法是构造检验统计量的一种普适性方法,
可适用于任何
分布的总体,且该似然比检验统计量没有统一的分布形式.
注 关于对数似然比有如下结论:

L(θ̂ 1 )
2 ln 渐进服从 χ2 (k)
L(θ̂ 0 )

13
L(θ̂ 1 )
其中 k 为 中独立参数的个数.
L(θ̂ 0 )

3.3.2 势函数与奈曼-皮尔逊引理

3.4 正态总体的区间估计与假设检验

主要是以下几种问题:

检验 µ,检验 σ 2
单总体:
σ12
检验 µ1 − µ2 ,
两总体: 检验
σ22
如何构造需要的枢轴变量或检验统计量?只需要用到第一章的一元
和二元 Fisher 引理即可. 其实还是第一章中提到的下面两个式子,万变不
离其宗,笔者在此将它们标红,希望这两个式子能引起足够的重视:
1 ∑
n
(Xi − X)2 ∼ χ2 (n − 1)
σ i=1
2

1 ∑
n
(Xi − µ)2 ∼ χ2 (n)
σ i=1
2

3.5 非正态总体的区间估计与假设检验

首先是构造统计量时经常用到的定理:
定理 3.1 (密度函数的变换公式) 设 p(x) 是 X 的密度函数,则 Y = aX + b
的密度函数为
1 ( y − b)
q(y) =
|a| a

证明可参考概率论课本.

考虑一般总体时,总的思想是:
小样本构造统计量精确求解,大样本用
中心极限定理近似.

⋆ 小样本情形下,如何寻找合适的枢轴变量:

14
一般的,欲构造 θ 的置信水平为 1 − α 的置信区间,首先考虑的应该
是θ 的 MLE,或θ 的充分统计量.

一般地,设统计量 T(X) 的分布函数为 F(x, θ) = Pθ {T(X) ≤ t},则


F(T(X), θ) ∼ U(0, 1),可被取作枢轴变量. 下面考虑几种特殊情况:

3.5.1 指数分布族

1
设总体 X ∼ Exp( ),对 θ 0 进行检验,或对 θ 进行估计:
θ
1
根据参数 λ = 的指数分布是自由度为 2 的 χ2 分布,由前面的密度
2
函数的变换公式, 可构造检验统计量:
2nX
χ2 = ∼ (H0 成立) χ2 (2n)
θ0

相应的,区间估计时构造枢轴量
2nX
χ2 = ∼ χ2 (2n)
θ

3.5.2 比率 p

设总体 X ∼ B(1, p),对 p0 进行检验,或对 p 进行估计:

区间估计时,大样本情形下可构造枢轴量,根据中心极限定理
X−p
U=√ ∼ N(0, 1)
p(1 − p)/n


n
假设检验时,小样本下构造 T = ∼ B(n, p0(
) H0 成立)精确求解,大
i=1
样本下构造统计量
X − p0
U=√ ∼ (H0 成立)N(0, 1)
p0 (1 − p0 )/n
近似求解.
注 由此还可以发现,将枢轴变量的未知参数变为待验参数的值,往往就
能得到相应的检验统计量.

15
3.6 非参数假设检验

4 第四章 方差分析与回归分析

4.1 方差分析

▶ 方差检验的目的:

检验同方差的若干正态总体均值是否相等.

4.2 p 元回归分析

则可以给定 p 个因素,n 组数据,有基本模型:

y = β0 + β1 x1 + · · · + βp x p + ε , ε ∼ N(0, σ 2 )

由于 ε 是随机变量,x1, · · · , x p 被精确控制或测量,
注 未给定结果时, 不是
随机变量,所以 y 是随机变量. 给定结果时,y 是通过观测得到的数据.

设计矩阵:X 系数矩阵:X T X 观测值向量:


Y

则多元线性回归模型可以表示成

Y = Xβ + ε

16
正规方程组可以表示为

XT X β = XTY
−1
得到 β 的最小二乘估计 β̂ = (X T X) X T Y ,多元线性回归方程为 Ŷ = X β̂.

Ŷ = ( yˆ1, yˆ2, · · · , yˆn )T


回归值:

Ỹ = ( y˜1, y˜2, · · · , y˜n )T = (I − H)Y


残差:
−1
帽子矩阵:H = X(X T X) X T
注 H 的性质:幂等的半正定矩阵,即 H 2 = H, H T = H 且 H 半正定. 且有
(I − H)2 = I − H.

n
残差平方和:Se = (yi − ŷi )2 = Y T (I − H)Y
i=1


n
偏差平方和:ST = (yi − y)2
i=1


n
回归平方和:SR = ( ŷi − y)2
i=1
SR
注 平方和分解公式 ST = SR + Se ,相关系数 R2 = . 回归模型越显著,Se
ST
越小,R 越接近于 1.

Y, Ỹ, β̂, Ŷ, Se, ST , SR . 我们可以根据这些随机


以上各量是随机变量的有:
变量的分布,
很自然地导出回归分析的各项分析方法.

1. Y 的分布

由 Y = X β + ε 知,
Y ∼ N(X β, σ 2 In ).

2. Ỹ 的分布

通过 Ỹ = Y − Ŷ 并计算知,
Ỹ ∼ N(0, (I − H)σ 2 )

⋆ 由此导出 σ 2 的无偏估计:

17
由 trAB = trBA,知 trH = p + 1.

通过
E Ỹ = E[(I − H)Y ] = (I − H)X β = 0
以及

E[Se ] = E[Y T (I − H)Y ] = tr[σ 2 (I − H)] + (X β)T (I − H)X β = (n − p − 1)σ 2


Se
知 σ̂ 2 = 是 σ 2 的无偏估计.
n−p−1

3. β̂ 的分布

−1
由 β̂ = (X T X) X T Y 计算,知 β̂ ∼ N(β , σ 2 (X T X)−1 ).
注 一个类似于正态总体 Fisher 引理的结论是:β̂ 与 Se 独立.

4. Se, ST 及 SR 的分布

Se
通过正交变换,得 ∼ χ2 (n − p − 1)
σ 2

SR ST SR Se
而 H0 成立时,有 2 ∼ χ2 (p), 2 ∼ χ2 (n − 1),且 2 与 2 相互独立.
σ σ σ σ
⋆ 线性回归模型的显著性检验(F 检验):
SR /p
取检验统计量 F = ,H0 为真时,F ∼ F(p, n − p − 1),
对检
Se /(n − p − 1)
验水平 α,拒绝域为 W = {F > Fα (p, n − p − 1)}.

5. β̂ j 与 t j 的分布

由 β̂ 服从 N(β , σ 2 (X T X)−1 ),记 c j j 是 (X T X)−1 的第 j + 1 个对角线元


素,有 β̂ j ∼ N(β j , c j j σ 2 ),由 β̂ j 与 Se 互相独立以及 t 分布的定义,有

β̂ j − β j
tj = √ ∼ t(n − p − 1)
σ̂ c j j

注 分母是 σ̂(σ 的无偏估计)而不是 σ,在计算的时候正好消掉了 σ.

18
⋆ 自变量的显著性检验(t 检验):
β̂ j
取检验统计量 t j = √ ,当 H0 成立时 t j ∼ t(n − p − 1),对检验水
c j j · σ̂
平 α,拒绝域为 W = {|t j | > t α2 (n − p − 1)}
注 如果某自变量影响不显著,应将其从模型中剔除,建立新的方程(从正
规方程组和设计矩阵开始),进行求解后再进行显著性检验,循环往复,直
至拒绝每个 H0 j 为止.

⋆ 回归系数的区间估计:枢轴变量就是

β̂ j − β j
tj = √ ∼ t(n − p − 1)
σ̂ c j j

其中只含有未知参数 β j ,故得到 β0, β1, · · · , βp 置信度为 1 − α 的各自的置


信区间.

⋆ 利用回归方程预测(区间预测)

需要注意的是,回归值是观测值的无偏估计.

参考书目
[1] 概率论与数理统计教程(第二版)习题与解答. 茆诗松等著
[2] 高等数理统计. 茆诗松等著
[3] 数理统计学. 陈建良编著

19

You might also like