You are on page 1of 31

3.

1 引言

王成
chengwang@sjtu.edu.cn
上海交通大学数学科学学院
3.1.1 参数估计问题

3.1.2 点估计

3.1.3 点估计的优良性准则

估计方法引例
Section 1

3.1.1 参数估计问题
基本问题

统计学的基本任务是通过样本推断总体或者总体的某个特征.
参数估计
假设样本X1 , · · · , Xn 来源于某一个总体F , 通过样本来推断总体的某个
特征θ = θ(F ).
需要估计的参数

社会生活中有很多地方需要估计参数,例如
I 估计均值µ 或者标准差σ- θ = θ(F ) = xdF (x)µ 或者 θ(F ) = σ;
R

I 3-σ准则我们需要估计θ(F ) = µ ± 3σ;
I 中位数θ(F ) = F −1 (1/2);
I 新的观察值大于1的概率:
Z ∞
θ(F ) = P(X > 1) = dF (x).
1
点估计和区间估计

参数估计问题本质上需要构造合适的统计量来描述感兴趣的参
数θ = θ(F ).
I 点估计(point estimation): 构造一个统计量θ̂ = θ̂(X1 , . . . , Xn )来估
计θ.(第三章主要内容)
I 区间估计(interval estimation): 构造一个区间(或域)[θ̂1 , θ̂2 ]来估
计θ. (第四章主要内容)
Section 2

3.1.2 点估计
问题
假设样本X1 , · · · , Xn 来源于某一个总体F , 哪些统计量可以估计总体的
均值θ = θ(F )?
潜在的统计量:
1
Pn
I 样本均值:θ̂1 = X̄ = n i=1 Xi .
I 样本中位数:θ̂2 = X(n/2) 或θ̂2 = 1/2X((n−1)/2) + 1/2X((n+1)/2) .
I 最大最小值平均:θ̂3 = 1/2X(1) + 1/2X(n) .
I 去除最大最小的各5个样本之后的样本均
Pn−5
值:θ̂5 = X̄ = n−10
1
i=6 X(i) .
分布族与点估计

假定样本X1 , · · · , Xn 来自于某一个带有参数的分布族{f (x, θ)},其中参


数θ ∈ Θ.
I 逻辑上,总体的所有特征都可以通过参数θ来表示,即我们感兴趣
要估计的是g (θ), 其中g (·)是已知的.
I 基于统计方法构造的估计是样本的统计量,
即ĝ (X ) = ĝ (X1 , . . . , Xn ), 这里的ĝ 与g 不是一回事.
对于一组样本X1 , . . . , Xn , 假定来自于正态分布族N(µ, σ 2 ),这里的参
数θ = (µ, σ). 感兴趣的问题可能是
I 估计均值µ 或者标准差σ- g (θ) = µ或者g (θ) = σ.
I 3-σ准则我们需要估计g (θ) = µ ± 3σ;
I 中位数g (θ) = µ;
I 新的观察值大于1的概率:
X −µ 1−µ 1−µ
g (θ) = P(X > 1) = P( > ) = 1 − Φ( ).
σ σ σ
注意
对于分布族{f (x, θ)},如果可以构造出θ很好的估计θ̂, 那么对于感兴趣
的参数g (θ)一律可以用g (θ̂)来估计. 所以数理统计中一般都是直接讨论
分布族的参数估计。

例如对于上述正态总体,如果我们可以构造出µ和σ很好的估计µ̂, σ̂, 那
么感兴趣的参数一律可以用ĝ = g (µ̂, σ̂)来估计.
同样的一组样本如果假定来自于指数分布族Exp(λ), 其中参数
为θ = λ ∈ {λ > 0}. 感兴趣的问题为:
I 估计均值g (θ) = 1/λ或标准差g (θ) = 1/λ.
I 3-σ准则我们需要估计g (θ) = 4/λ;
I 中位数g (θ) = log (2)/λ;
I 大于1的概率:

g (θ) = P(X > 1) = exp(−λ).


如何判断分布族?

通过上述正态分布族与指数分布族可以看出,假定不同的分布族可以
得到完全不同的估计问题以及很不一样的估计方法。

如何判断分布族?
在实际问题中,分布族的选取是至关重要的,对于参数估计也是如
此。 应该如何选取合适的分布族?
library(ACSWR)
data(nerve)
set.seed(123)
hist(nerve,breaks =10,freq =FALSE,main = "Histogram of nerve Dataset")
Histogram of nerve Dataset

3
Density

2
1
0
Density

0.0 0.2 0.4 0.6 0.8 1.0 1.2


Histogram of iris Dataset
无偏性

对于目标参数θ = θ(F ), 我们称估计θ̂ = θ̂(X1 , . . . , Xn )是无偏估


计(unbiased estimation), 如果

E θ̂ = θ.
无偏性逻辑

I 无偏估计表明构造出的估计没有系统偏差;
I 无偏性意味着估计方法大量多次使用时,给出的结果接近于真实
参数θ.
I 数学上无偏性是基于随机变量的一阶矩(几乎是最弱的条件);
I 在没有其他合理准则可循时,人们心理上觉得: 一个具有无偏性的
估计,总比没有这种性质的估计要好些.
无偏性例1

假设样本X1 , . . . , Xn , i.i.d. ∼ F , 证明样本方差


n
1 X
Sn2 = (Xi − X̄ )2
n−1
i=1

是总体方差的无偏估计.
无偏性例2

假设样本X1 , . . . , Xn , i.i.d. ∼ U(0, θ), 计算每个次序统计量X(k) 的期望并


基于X(k) 构造出参数θ的无偏估计.
有效性-均方损失

无偏性关注的是估计的一阶矩,进一步的我们可以关注二阶矩–对应的
是均方损失(Mean Squared Error, MSE)

MSE(θ̂) =E (θ̂ − θ)2


= var(θ̂) +(E θ̂ − θ)2 .
| {z } | {z }
方差 偏差
均方损失例1

假设样本X1 , . . . , Xn , i.i.d. ∼ N(µ, σ 2 ), 考察σ 2 的估计


n
X
T = an (Xi − X̄ )2 ,
i=1

其中an 是待定的仅依赖于n的系数. 根据MSE准则找到最优的an .


均方损失例2

假设样本X1 , . . . , Xn , i.i.d. ∼ U(0, θ), 基于每个次序统计量X(k) 可以得


到θ的无偏估计θ̂k = n+1 k X(k) . 计算θ̂k 的MSE。
定义3.1.3
对于参数g (θ)的两个无偏估计方法ĝ1 (X )和ĝ2 (X ),如果

var(ĝ1 (X )) ≤ var(ĝ2 (X )), ∀θ ∈ Θ,

且至少存在一个θ使得不等号严格成立,则称估计方法ĝ1 (X )比ĝ2 (X )有
效.
相合性

无偏性与均方损失考察的是估计的一阶矩和二阶矩,相合性关注的是
统计量的大
大样 本 性 质 .
估计的相合性
主要研究当样本大小n → ∞时候,估计量如何收敛到真实参数:
?
ĝn (X ) = ĝn (X1 , . . . , Xn ) → g (θ).

根据随机变量收敛的不同分为: 弱相合、强相合、r 阶矩相合等.


定义3.1.4

I 弱相合估计(weakly consistent estimation): ĝn (X ) →


p
g (θ).
主要证明工具: 弱大数定律、Markov或Chebyshev不等式.
I 强相合估计(strongly consistent estimation): ĝn (X ) a.s.
→ g (θ).
主要证明工具: 强大数定律、Borel-Cantelli引理.
I r 阶矩相合: E |ĝn (X ) − g (θ)|r → 0.
例3.1.2
设X = (X1 , . . . , Xn )为来自于均匀分布U(0, θ)的简单样本,其中θ为未知
n
参数。证明T (X ) = ( Xi )1/n 是g (θ) = θe −1 的强相合估计.
Q
i=1
Section 4

估计方法引例
引例

思考
抛一枚硬币1000次,513次正面,我们估计该硬币正面向上的概
率p̂ = 0.513. 这背后的逻辑是什么?
逻辑1

我们知道抛硬币是一个Bernoulli分布随机变量,

P(X = 1) = 1 − P(X = 0) = p.

期望E (X ) = p. 抛很多次的均值
n
1X
X̄ = Xi → E (X ), (大数定律)
n
i=1

所以我们可以用平均值0.513来估计p,理论上抛的次数很多时候这个估
计应该是很好的。
逻辑2

我们计算抛出513次的概率
513 513
P(抛1000次出现513次正面) = C1000 p (1 − p)487 .

我们反过来思考什么样的p可以使得上述概率最大:
513 513
p̂ = arg max C1000 p (1 − p)487 = 0.513.
p

You might also like