You are on page 1of 35

本章主要内容

例如, 常用指数分布描述产品的寿命, 但参数却往往未知, 这样我们就无法


计算该产品的平均寿命和寿命超过1000小时的概率.要解决这些问题, 就必须
对参数做出估计.
数理统计中的参数估计涉及四种类型:
(1) 估计分布中所含的未知参数;
(2) 估计含有未知参数的函数, 如总体X~N(m,1), 参数m未知, 要求估计概率
P{X<a} ;
(3) 估计与参数有关的数字特征, 如总体服从指数分布X~Exp(l), 其中参数
l未知, 要求估计E(X) ;
(4) 在一定的可信度下估计参数的范围.
本章主要内容
点估计及其评价标准、矩估计法和最大似然估计法等.

实际问题 参数估计

点估计 区间估计*

最大似然估计法 Excel

应用
矩估计法
本章主要内容
☆ 实际问题中, 总体的参数往往未知, 因此首先需要对参数进行估计.
☆ 数理统计中参数估计的方法有点估计和区间估计两种类型.
☆ 点估计的方法很多, 矩估计法是建立在相合估计基础上的, 最大似然
估计是根据最大似然原理, 在分布形式已知情况下的一种参数估计.
☆ ☆ 常用的矩估量、最大似然估计量可以利用Excel进行计算.
§5.1 点估计及其评价标准
5.1.1 点估计的概念
实践中经常用统计量来估算未知总体的某些特征.例如, 某人群的性别比
率p未知, 从该人群中随机抽取100人, 发现女性占62%, 我们就说该人群的女性
占比为62%, 这就是用样本成数去估计总体成数.由于62%是一个数, 在数轴上
是一个点, 所以相对于区间估计来讲称为点估计.
定义5.1.1 设q是总体X的未知参数, 用统计量 qˆ = qˆ( x1 , x2 ,, x n ) 来估计
q , 称 qˆ 为q 的点估计量, 对应于样本值, 点估计量的值称为q的点估计值. 求参
数的点估计量或点估计值称作点估计.
例如, 设X1,X2,…,Xn是来自总体X~N(m,s2)的样本, m未知, 用样本均值 x 来
估计m, 则 x 为m的点估计量, 对应于样本值, x 的值为m的点估计值.
§5.1 点估计及其评价标准
5.1.2 点估计的评价标准
例如, 总体均值m未知, 既可以用样本均值来估计, 也可用x1来估计. 显然
两种估计的效果是不一样的. 为了对同一参数的不同点估计进行比较, 就必
须对点估计的好坏给出评价标准.
数理统计中常用无偏性、有效性和相合性来评价一个估计量的好坏.
由于样本的随机性, 点估计值 qˆ 与参数的真实值q 一般不相等, qˆ − q 是由抽
样的随机性引起的估计误差, 称为抽样误差. 如果抽样误差qˆ − q 的均值为0,
就有可能用多次重复抽样得到的点估计值的均值精确地估计参数.
§5.1 点估计及其评价标准
5.1.2 点估计的评价标准
定义5.1.2 设 qˆ = qˆ( x1 , x2 ,, xn ) 是总体参数q的点估计量. 若
E (qˆ) =q
则称qˆ 是参数q 的无偏估计, 也称 qˆ 具有无偏性, 否则称为有偏估计. 若参数不
存在无偏估计量, 则称该参数是不可估的.
样本均值是总体均值的无偏估计, 样本方差是总体方差的无偏估计.
(1)E( X ) = E(X) = m (2)E(S ) = D(X) = s
2 2

无偏估量的函数不一定是无偏估计量. 例如, 设 qˆ 是参数q 的无偏估量, 且


ˆ
D(q )  0 , 则 qˆ 2 不是 q 2
的无偏估计量. 事实上,
ˆ ˆ ˆ ˆ
E (q ) = D(q ) + [ E (q )] = D (q ) + q  q
2 2 2 2
§5.1 点估计及其评价标准
5.1.2 点估计的评价标准
定义5.1.3 设 qˆ1 和 qˆ 都是总体参数q 的无偏估计量. 若
2

D(qˆ1 )  D(qˆ2 )

则称 qˆ1 比 qˆ2 更有效, 也称具有有效性.


𝑿~𝑵 𝝁, 𝝈𝟐 , 样本𝑿𝟏 , 𝑿𝟐 , ⋯ , 𝑿𝒏 , 比较 ෝ𝝁 = 𝑿𝟏 , 𝝁
ෝ = 𝒙,lj 哪个更有效?
𝟐
𝝈
𝑫 𝑿𝟏 = 𝝈𝟐 , 𝑫 𝒙lj = ,
𝒏
则𝑫(𝒙)
lj ≤ 𝑫(𝑿𝟏 ), 𝒙比𝑿
lj 𝟏 有效

一般地, 用整个样本的均值比用样本的部分个体的均值估计总体的均值更有效.
§5.1 点估计及其评价标准
5.1.2 点估计的评价标准
例5.1.1 设总体X~N(m,s2), 其中m和s2是未知参数. X1, X2是来自总体的样
本, 试比较m的点估计 mˆ1 = 0.3x1 + 0.7 x2 和 mˆ 2 = 0.5 x1 + 0.5 x2 的有效性.
解 E (mˆ1 ) = E (0.3x1 + 0.7 x2 ) = 0.3E( x1 ) + 0.7 E( x2 ) = 0.3m + 0.7 m = m

E (mˆ 2 ) = E (0.5x1 + 0.5 x2 ) = 0.5E( x1 ) + 0.5E( x2 ) = 0.5m + 0.5m = m


都是无偏估计.

D( mˆ1 ) = D(0.3 x1 + 0.7 x2 ) = 0.09 D( x1 ) + 0.49 D( x2 ) = 0.09s 2 + 0.49s 2 = 0.58s 2


D( mˆ 2 ) = D(0.5 x1 + 0.5 x2 ) = 0.25 D( x1 ) + 0.25 D( x2 ) = 0.25s 2 + 0.25s 2 = 0.5s 2
§5.1 点估计及其评价标准
5.1.2 点估计的评价标准
正如一般地用整个样本的均值比用样本的部分个体的均值估计总体的均
值更有效. 我们完全可以要求点估计量随着样本容量的不断增大而逼近参数的
真实值, 这就是相合估计的含义.
定义5.1.4 设qˆ = qˆ( x1 , x2 ,, x n ) 是总体参数q 的点估计量. 若n→+∞时,
qˆ 依概率收敛于q, 即对任意小的e >0, 有
lim P{qˆ −q e }=1
n→

则称qˆ 是总体参数q 的相合估计或一致估计, 也称 qˆ 具有相合性或一致性.


§5.1 点估计及其评价标准
5.1.2 点估计的评价标准
相合性要求可以适当选取样本容量使得估计达到指定的精度. 例如要求估
计的抽样误差 qˆ - q 落在(-0.001,0.001)内, 只要qˆ 满足相合性, 由极限的含义,
就可以适当选取足够大样本容量n使得抽样误差几乎处处落于(-0.001,0.001)内.
所以相合性被认为是对估计的一个基本要求, 不满足相合性要求的估计通常不
予考虑.

lim P{qˆ −q e }=1


n→
§5.1 点估计及其评价标准

辛钦大数定律
设 X1 , X 2 , 为独立同分布的随机变量序列,
具有有限的数学期望 m,则对任意 e  0 有
 X1 + X 2 + + Xn 
lim P  − m  e  = 0.
n →
 n 
注:数理统计中要求样本满足独立同分布,使得辛钦大数定律的应用更为重

§5.1 点估计及其评价标准 lim P{qˆ −q e }=1
n→

例5.1.2 设X1,X2,…,是来自总体X的样本, 其k阶原点矩E(Xk)存在且未知, 则样本


的k 阶原点矩ak是总体的k阶原点矩E(Xk)的相合估计.
证明 因为X1,X2,…,是来自总体X的样本, 所以{Xi}(i=1,2,…)是独立同分布随
机序列. 由于个体与总体服从相同的分布且E(Xk)存在, 所以E(Xik)=E(Xk). 由辛
钦大数定律知,对任意小的 e >0,
1 n k 1 n 
P   xi −  E ( xi )  e  = 1
k

 n i =1 n i =1 
 
P ak − E ( X )  e = 1
k

所以样本的k 阶原点矩ak是总体的k阶原点矩E(Xk)的相合估计.
§5.1 点估计及其评价标准 lim P{qˆ −q e }=1
n→
5.1.2 点估计的评价标准

,qˆnk分别是q1,q2,…,qk的相合估计, h=g(q1,q2,…,qk)是q1,
定理5.1.1 若qˆn1 ,qˆn 2 ,
q2, …, qk的连续函数, 则hˆn = g (qˆn1 ,qˆn 2 , ,qˆnk ) 是h=g(q1,q2,…,qk)的相合估计.
例如, 样本均值是总体均值的相合估计, 样本方差是总体方差的相合估计.
变异系数是均值和方差的连续函数, 所以样本变异系数是总体变异系数的相合
𝟏 𝒏
估计.  
D( X )
𝒏
σi=1 X𝒊 − ഥ
X 𝟐
E( X ) 𝐱ത
若总体的各阶矩存在, 因高阶矩都可以用低阶矩的函数表示, 由大数定律
及定理5.1.1可知, 样本矩都是总体矩的相合估计.
n n
1 1
E(X ) ≈ a k   xi E{[ X − E ( X )] }, k = k1,2,  i

k k ≈a k
k x
n i =1 n i =1
§5.2 矩估计法
求点估计的常用方法是矩估计法和最大似然估计法.
矩估计法(ME)是英国统计学家皮尔逊(Karl Pearson,1857-1936)1900年提
出的参数估计方法, 其理论依据是样本矩是总体矩的相合估计.
皮尔逊致力于大样本理论的研究, 他发现不少生物方面的数据有显著性的
偏态, 不适合用正态分布去刻画, 为此他提出了后来以他的名字命名的分布族,
为估计这个分布族中的参数, 他提出了“矩估计法”.
§5.2 矩估计法
由定理5.1.1及样本矩都是总体矩的相合估计知, 当总体矩存在且样本容量
充分大时, 样本的k阶原点矩几乎等于总体的k阶原点矩, 样本的k阶中心矩几乎
等于总体的 k阶中心矩矩;样本变异系数(其中样本标准差采用样本二阶中心
矩的算术平方根)几乎等于总体变异系数, 样本分位数几乎等于总体分位数, 样
本中事件A出现的频率几乎等于总体中事件A出现的概率等.
矩估计法是当总体矩存在且样本容量充分大时, 用样本矩作为总体的同阶
同类型矩的估计而列出关于未知参数的方程(组), 然后通过解方程(组)来估计
参数, 得到的估计量称为矩估计量. 1 n k
a k   xi
E(Xk) =k n i =1
n
E{ [X-E(X)] k} =bk 1
bk   ( x i − x ) k
n i =1
§5.2 矩估计法
例5.2.1 设总体X~Exp(l), 其中l是未知参数. X1,X2,…,Xn是来自总体的样本
, 试求 l的矩估计量.
解 由于只有一个未知参数, 所以采用样本的一阶原点矩估计总体的一阶
原点矩. 总体一阶原点矩为 E(X)=1/l , 样本的一阶原点矩为 a1= x .
令 E(X) =a1 得 1 l = x, lˆ = 1 x E(Xk) =k

另外, 由于总体的二阶中心矩为D(X)=1/l , 样本的二阶中心矩为b2, 令


2

1/l =b2 得 lˆ = 1 b2 .
2
E{ [X-E(X)] k} =bk
参数的矩估计量可能不唯一. 实践中通常应尽量使用低阶矩来估计参数.
§5.2 矩估计法
例5.2.2 设总体X~N(m,s2)的均值m和方差s2是未知参数. X1,X2,…,Xn是来自
的样本, 试求m 和s2的矩估计.
解 要估计两个参数, 通常需要构造两个方程, 从中解出参数的估计.
总体的一阶原点矩和二阶中心矩分别为E(X)和D(X). E(Xk) =k
E{ [X-E(X)] k} =b
样本的一阶原点矩和二阶中心矩分别为 k
1 n
a1  x =  xi , 1 n
b2   ( xi − x ) 2 ,
n i =1 n i =1
令样本矩等于总体矩, 即可得
 mˆ = x ,

 2 1 n
sˆ = n  ( xi − x ) .
2

 i =1
§5.2 矩估计法
例5.2.3 设总体X~N(m,s2)的均值m和方差s2是未知参数. X1,X2,…,Xn是来自
的样本, 测得样本值如下:
115 104 99 108 98 99 98 109 115 106

试求:(1)m和s2的矩估计值; (2)估算概率P{100<X<120}. E(Xk) =k


E{ [X-E(X)] k} =bk
mˆ = x ,

解 (1)由例5.2.2知,  2 1 n 将样本值代入 m
ˆ = 105.1,sˆ 2
= 6.32

sˆ =  ( x i − x ) 2
,
 n i =1
1𝟐0−𝟏𝟎5.1 1𝟎0−𝟏𝟎5.1
(2) P(100<X<120)= 𝜙 -𝜙 =0.7821
6.3 6.3
§5.2 矩估计法
例5.2.4 设总体X~N(m,1),其中m是未知参数. 对X观测100次, 发现有61次观
测值大于0, 试求m的矩估计值.
𝐱−𝛍 𝟎−𝛍
解 P{X>0}=1-P{X≤0}= 𝟏 − 𝐏 < =1-F0(-m)
𝟏 𝟏
100次观测中X 大于0的频率为61/100=0.61 , 用频率估计概率, 即令
1-F0(-m)=0.61, F0(m)=0.61,
查表得 ෝ ≈ 𝟎. 𝟐𝟖
𝛍
§5.2 矩估计法
值得强调的是, 矩估计利用的是样本矩对总体矩的相合性, 因此采用矩估
计时通常要求样本容量充分大, 否则矩估计可能不合理.
lim P{qˆ −q e }=1
n→

例如, 设X1, X2, X3, X4 是来自总体X~U(0,q) 的样本, 其样本值为1, 2, 3, 7,


则样本均值为 3.25 , 令总体均值等于样本均值, 得q 的矩估计值为6.5. 显然此
时矩估计就不合理, 因为区间(0,6.5) 不包含样本值7.
E(Xk) =k 0+𝜃
= 𝑥ҧ
2
𝜃෠ = 𝟐ഥ
𝒙
§5.2 矩估计法
9.设总体X ~U(a,b),其中a与b是未知参数. X1,X2,…,Xn是来自总体的样本,
试求a与b的矩估计量.

𝒏
E(Xk) =k 𝑺𝟐
𝟏

= ෍ X𝒊 − X
E{ [X-E(X)] k} =bk 𝒏
i=1

n
1
a k   xi k
n i =1
n
1
bk   ( x i − x ) k
n i =1
作业
习题5.1:1、7
习题5.2:3、4、11

注:
1.考试前请认真练习 3套 概率期末自测题。非出题教师提供,掌握知识点。
2.作业提交截止时间:本周日晚22:00前。
3.按指定时间完成在线课程。
§5.3 最大似然估计法
例 猎人与新手一起外出打猎,一只野兔从前方窜过 ,只听一声枪响,野兔应
声倒下,推测是谁打中的?
选择一个参数使得被抽到的样本具有最大概率
§5.3 最大似然估计法
最大似然估计法(简称MLE)是在总体分布形式已知条件下使用的一种参
数估计方法, 由德国数学家高斯在1821年提出.费歇尔(R.A.Fisher, 1890-
1962)在1912年重新发现了这一方法, 并研究了这种方法的一些性质
例5.3.1 设有一大批产品, 其废品率p 未知, 现从中随机抽取出100件进行
检验, 发现其中有5件废品, 试估计废品率p.
解 由于估计的是废品率, 所以发现废品计作1, 合格品计作0, 总体X服从参
数为p 的0–1分布, 即
x 1-x
p(x)=p (1-p) , x=0,1 .
将这批产品视作一个总体X, 抽出的100件视作样本, 记作x1,x2,…,x100. xi服
从参数为p 的0–1分布且相互独立, 即 p ( xi ) = p i (1 − p ) i , xi = 0,1,
x 1− x
§5.3 最大似然估计法
所以样本的联合分布为
100 100

100) =  P ( xi ) =  p (1 − p ) =p (1 − p )
xi 1− xi xi 100 −xi
pP(X
( x11,,xX2 ,2,…,, X
x100
i =1 i =1

100件产品中发现5件废品, 所以∑xi=5 , 进而P(X1, X2,…, X100)=p5(1-p)95, 此


概率只和参数p有关, 将其表示为
L(p)= p5(1-p)95,
经验告诉我们, “抽到的这个样本的概率似乎是最大的, 否则为什么一抽就
抽到它呢?”为此求L(p)的最大值点.

令 dL(p)/dp=5p4(1-p)95 −95p5(1-p)94=0,
解得 p=0.05.
§5.3 最大似然估计法
由于只有一个极值点, 所以p=0.05就是最大值点. 我们用0.05作为p的估计
值, 这一结果与矩估计的结果是一致的.
“抽到的样本的概率似乎是最大的”这种想法常称作“最大似然原理”. 用
最大似然原理得到的参数估计量就是最大似然估计量, 得到的参数估计值就
是最大似然估计值.
最大似然估计法的步骤是:
步骤1 根据总体的分布求样本的联合概率函数, 称为似然函数. 这里的似
然函数可以是联合密度函数, 也可以是联合概率.
步骤2 求似然函数的最大值, 为了简化计算, 常常先求似然函数的对数,
称为对数似然函数, 然后利用导数求(对数)似然函数的最大值.
步骤3 得到参数的最大似然估计.
§5.3 最大似然估计法
例5.3.2 设总体X~N(m,s2), 其中m和s2是未知参数. X1, X2,…, Xn是来自总体的样本, 试求
m和s2的最大似然估计.
解 总体X~N(m,s2) , 所以样本中个体Xi ~ N(m,s2)(i=1,2,…,n)的密度函数为
1  ( xi − m )2 
 ( xi ) = exp −  , −  xi  +, i = 1, 2, , n.
2ps  2s 2

取样本的联合概率密度函数作为似然函数, 即

 − m 2
  1 n


n ( x ) n
L( m ,s ) = 
2 1
exp− i
 = (2ps ) 2 exp −
2

( xi − m ) ,
2

i =1 2p s  2s 2
  2s 2
i =1 
对似然函数取对数得对数似然函数:
n
1
 (x − m)
n n
ln L( m , s ) = − ln 2p − ln s − 2
2 2 2

2s
i
2 2 i =1
§5.3 最大似然估计法
n
1
2 
n n
ln L( m , s ) = − ln 2p − ln s
2 2
− ( x − m ) 2

2s i =1
i
2 2
将lnL(m,s2) 分别对m和s2 求偏导数并令其为0得方程组

  ln L( m ,s 2 ) 1 n
 = 2  ( xi − m ) = 0,
 m s i =1

  ln L ( m ,s 2
) 1 n n
 = 4  ( xi − m ) − 2 = 0.
2

s 2
2s i =1 2s
 1 n
 mˆ =  xi = x ,
解方程组得m和s 的最大似然估计分别为 
2
n i =1
 n
sˆ 2 = 1
 
n i =1
( x i − x ) 2
.
§5.3 最大似然估计法
需要指出的是, 利用求导数的方法求最大似然估计并不是总有效, 看下面的例子.
例5.3.3 设总体X~U(0,q), 其中q是未知参数. X1, X2,…, Xn是来自总体的样本, 试求 q 的
最大似然估计.
解 总体X~U(0,q) , 所以样本中个体Xi ~ U(0,q). Xi 的密度函数为
1
f ( xi ) = , 0  xi  q , i = 1, 2, , n.
q
取样本的联合概率密度函数作为似然函数, 即
n
1 1
L(q ) =  =
i =1 q qn
此时, 似然函数与样本无关, 显然L(q)关于 q 单调递减, q 越小L(q)越大. 但是0<X1, X2,…,
Xn<q, 要使样本中的每一个Xi都落在区间(0,q) 内, 合理的最大似然估计是

qˆ = x( n ) = max{x1 , x2 , , xn }
§5.3 最大似然估计法
最大似然估计有一个简单而有用的性质:如果 qˆ 是q 的最大似然估计, 则
对任一函数连续g(q), 其最大似然估计为 g (qˆ) . 该性质称为最大似然估计的不
变性, 从而使一些复杂结构的参数的最大似然估计的获得变得容易了.
例5.3.4 设总体X~N(m,s2), 其中m和s是未知参数. 来自总体的一个容量为
10的样本值为
0.7 1.4 0.5 1.4 1.4 1.7 0.9 0.6 1.2 1.5

试求:(1) 标准差s的最大似然估计;
(2)概率P{X<2}的最大似然估计;
(3)总体左尾0.90分位数x0.90的最大似然估计.
§5.3 最大似然估计法
例5.3.4
0.7 1.4 0.5 1.4 1.4 1.7 0.9 0.6 1.2 1.5

解(1)由例5.3.2知, m 和s2 的最大似然估计分别为


 1 n
 mˆ = n  xi = x ,
 i =1
 n
 sˆ 2 = 1
 
n i =1
( xi − x ) 2
,
将样本值代入计算得 𝜇ො = 1.13, 𝜎ො 2 = 0. 42
由最大似然估计的不变性, 标准差s的最大似然估计是 sˆ = 0.4.
(2) 由最大似然估计的不变性,
 2 − m
ˆ  2 − 1.13
Pˆ{ X  2} = Φ0   = Φ0 ≈ Φ0 2.18 ≈ 0.9854
 sˆ  0.4
§5.3 最大似然估计法
例5.3.4 𝜇ො = 1.13, 𝜎ො 2 = 0. 42
解(3) X~N(m,s2) , 由分位数的定义知P{X≤x0.90}=0.90,
𝑥0.90 − 𝜇 𝑥0.90 − 𝜇
𝑃{𝑋 ≤ 𝑥0.90 } = Φ0 = 0.9 = 1.28
𝜎 𝜎
其中z0.90为标准正态分布的左尾0.90分位数. 由最大似然估计的不变性

xˆ0.90 = mˆ + z0.90sˆ  1.13 + 0.4 1.28 = 1.642.

总结常用分布参数的矩估计量和最大似然估计量见表5.3.1.
§5.3 最大似然估计法
表 常用概率分布参数的矩估计量和最大似然估计量
期末安排
1.作业,在线测试 提交。截止时间:本周日晚22:00前。届时将登
记平时成绩,请在该时间前完成提交。
2.考前请掌握所有作业和3套概率自测题的方法。
3.按时完成重庆高等教育智慧教育平台的在线课程。
4.背常用分布的分布列,密度函数(正态变量标准化);
背常用分布的期望,方差;
背期望,方差,协方差,相关系数,独立性的公式;
背常用概率分布参数的矩估计量和最大似然估计量。

You might also like