Professional Documents
Culture Documents
Econometrics
陈国强
经济学院
西北师范大学
第5章 多元回归分析:OLS渐近性
提要
一、一致性
二、渐近正态性与大样本推断
三、OLS的渐近有效性
第5章 多元回归分析:OLS渐近性
• 前面内容回顾
第5章 多元回归分析:OLS渐近性
• 除了有限样本性质外,了解估计量和检验统计量的渐近性质(
asymptotic properties)或大样本性质也是非常重要的。定义这些性质
不是针对特定样本量,而是考虑样本量无限增加的情况 。
• 幸运的是,在我们所做的假设下,OLS具有令人满意的大样本性质。
• 应用中相当重要的发现是,即使没有正态性假设(假设MLR.6), t 与
F 统计量也近似服从t 与 F分布,至少在大样本量的条件下如此。
• 5.1. 一致性
• 估计量的无偏性固然重要,但并非总能实现。
• 既然并非所有有用的估计量都是无偏的,所以几乎所有经
济学家都同意,一致性(consistency)是对估计量最起码
的要求。
• 计量经济学家格兰杰曾说“如果你在 n 趋于无穷时还不能
正确地得到它,那就 不应该干这件事。”他的意思是说,
如果你给出一特定总体参数的估计量不是一致的,那么就
是在浪费时间。
• 5.1. 一致性
• 𝛽መj 是βj 的OLS估计量,在MLR.1-MLR.4假定下𝛽መj 是无偏
的, 𝛽መj 的均值为βj 。如果估计量是一致的,随着样本增
加, 𝛽መj 越来越紧密地分布在βj 周围,n趋近于无穷时𝛽መj 的
分布就紧缩成一个单一的点βj 。但并不是在任何情况下
都能得到无偏估计量。
6
• 5.1. 一致性
• 在样本容量增大的过程中,
– 估计量的偏差会如何变化→ 一致性
– 正态分布的假定是否可以放松 → 渐近正态性
– 渐近有效性
• 在不能得到无偏估计量的情形下,我们希望得到的估计
量具有一致性, 即随着n→∞,估计值收敛于真实值。
( )
lim Pr ˆ − = 1
n→
Pr lim ˆ =
• 一致性指的是随着样本容量逐渐增大过程中的趋势性特
征,并不针对某一特定的样本量
• 即使没有正态性假定,OLS估计量也会渐近地服从正态
分布;针对OLS估计量的t和F统计量在样本容量增大的情
形下,会渐近地服从t和F分布
7
• 5.1. 一致性
• 定理5.1 OLS的一致性
– 在假定MLR.1-MLR.4下,对于所有的𝑗 = 0,1, … ,𝑘,OLS估计量
– OLS估计量的有限样本、小样本或精确性质
• 对任何样本容量都成立
• 最优线性无偏估计量(+扰动项的方差假设)
• OLS估计量的抽样分布(+扰动项的正态分布假设)
– 如果扰动项是正态分布,OLS估计量也是正态分布的,因此可以根据t分布和F分布构造检验统计量
– 扰动项是不可观测的,因此对扰动项分布的检验通常转化为对因变量分布的检验
8
• 5.1. 一致性
– 以一元线性回归为例,斜率参数估计值为:
൫𝑥𝑖 − 𝑥)𝑢ҧ 𝑖
መ
𝛽1 = 𝛽1 +
σ 𝑥𝑖 − 𝑥ҧ 2
n−1 ൫𝑥𝑖 − 𝑥)𝑢 ҧ 𝑖
= 𝛽1 + −1
n σ 𝑥𝑖 − 𝑥ҧ 2
𝐶ov(𝑥1 , 𝑢)
መ
plim𝛽1 = 𝛽1 + = 𝛽1
𝑉𝑎𝑟(𝑥1 )
– 注意:
• 𝑉𝑎𝑟(𝑥1 ) < ∞,𝑉𝑎𝑟(𝑢) < ∞;多元回归中不能完全共线性,实际分析中不容易
碰到。
• 偏误的方向取决于x1和u之间的协方差
• 如果x1和u之间的协方差相对于的x1方差很小,则这种不一致性就可以忽略
9
• 5.1. 一致性
– 同时定理5.1意味着零均值和零相关,即
• 假定MLR.4′ :对于所有的𝑗 = 0,1, … ,𝑘,都有𝐶ov(𝑥i , 𝑢) = 0, E(𝑢) = 0。
• 简而言之
– E(u|x1 ,x2, … , x𝑘 )=0→ 𝐶ov(𝑥i , 𝑢) = 0
11
• 5.1. 一致性
• 推导OLS估计的不一致性
– 如果误差与任何一个自变量相关,那么OLS估计就是有偏而又不一
致的估计,这种偏误不会随样本容量增大而消失。
– 考虑遗漏变量情况
• 假定真实的模型为𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝑢,
• 但被错误地设定为𝑦 = 𝛽෨0 + 𝛽෨1 𝑥1 + 𝑢,则
෩ σ 𝑥𝑖1 − ഥ𝑥1 𝑥𝑖2 σ 𝑥𝑖1 − ഥ
𝑥1 𝑢𝑖
plim𝛽1 = 𝛽1 + 𝛽2 plim 2 + plim 2
σ 𝑥𝑖1 − ഥ𝑥1 σ 𝑥𝑖1 − ഥ
𝑥1
𝐶ov(𝑥1 , 𝑥2 ) 𝐶ov(𝑥1 , 𝑢)
= 𝛽1 + 𝛽2 +
𝑉𝑎𝑟(𝑥1 ) 𝑉𝑎𝑟(𝑥1 )
= 𝛽1 + 𝛽2 𝛿ሚ1
• 5.1. 一致性
– 不一致性可以看成是偏误
– 不一致性与偏误主要的区别在于,一致性使用的是总体方差和总
体协方差,偏误用的是样本方差和样本协方差
– 不一致性的严重程度取决于解释变量与遗漏变量之间的相关程度
– 不一致性是大样本问题,不会因为样本容量的增大而消失
– 遗漏变量不仅会导致与之具有相关性的解释变量对应的估计系数
不具有一致性,也会导致与之不具有相关性的解释变量对应的估
计系数不具有一致性;除非遗漏的变量与所有的解释变量都不相
关,从而使得扰动项满足高斯-马尔科夫经典假定
– 考虑一个模型为:
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝑢
若𝑐𝑜𝑣(𝑢, 𝑥1) ≠ 0(𝑥1 为内生变量),𝑐𝑜𝑣(𝑢, 𝑥2) = 0 (𝑥2为外生变量)
• 若𝑐𝑜𝑣(𝑥1, 𝑥2 ) ≠ 0 ,则b1和b2的OLS估计量均不一致。
• 若𝑐𝑜𝑣(𝑥1 , 𝑥2 ) = 0 ,则只有b1的OLS估计量不一致。
13
• 5.1. 一致性
14
• 5.1. 一致性
15
• 5.2. 渐进正态和大样本推断
• 在CLM(经典线性模型)假定下,样本分布是正态的,因此
可以导出用以检验的t分布和F分布
– 因为假定误差项的分布是正态的
– 误差项服从正态分布,则对于给定的x, y也服从正态分布
– OLS估计量是误差项的线性函数,所以也是正态的
• 正态性的假定是很容易违背的!
– 一些变量具有明显的偏态,如工资、犯罪、储蓄,而正态分布是对
称的
– 某些变量的分布是截断的
• 正态性假定并不是OLS估计量是BLUE这一结论所必须的,仅
仅出自于统计推断的需要
– 即使y不是来自于正态总体的样本,当样本容量不断增加时,OLS估
计量也会渐近地趋向于正态分布,即OLS估计量具有渐近正态性
16
• 5.2. 渐进正态和大样本推断
17
• 5.2. 渐进正态和大样本推断
2,000
1,800
1,600
1,400
1,200
1,000
800
600
400
200
0
0 1 2 3 4 5 6 7 9 10 12
18
• 5.2. 渐进正态和大样本推断
.6
.4
Fraction
.2
0
0 20 40 60 80 100
prate
19
• 5.2. 渐进正态和大样本推断
.5
.4
.3
Fraction
.2
.1
0
0 20 40 60 80 100
prate
20
• 5.2. 渐进正态和大样本推断
• 中心极限定理
– 定理四(大数定律和中心极限定理之四:独立同分布的中心极限
定理)
• 设随机变量𝑋1 , … , 𝑋n 相互独立,服从同一分布(具有相同期望与方差),
𝐸(𝑋k ) = 𝜇, 𝐷(𝑋k ) = 𝜎 2 ,则随机变量之和的标准化变量
的分布函数:
lim 𝐹𝑛 𝑥 = lim 𝑃 𝑌n ≤ 𝑥 = ∅(𝑥)
𝑛→∞ 𝑛→∞
• 5.2. 渐进正态和大样本推断
• 定理5.2 OLS的渐进正态性
– 在假定MLR.1-MLR.5下,
• 𝑛(𝛽j − 𝛽j )~𝑁(0, 𝜎 2 ൗ𝑎𝑗2 ),其中𝜎 2 ൗ𝑎𝑗2 是 𝑛(𝛽1 − 𝛽1 )的渐进方差,斜率系数
• 𝜎ො 2 是𝜎 2 的一个一致估计量
• 对于每个𝑗,都有
并且
𝑎
(𝛽j − 𝛽j )ൗse(𝛽j ))~𝑁(0,1)
• 5.2. 渐进正态和大样本推断
23
• 5.2. 渐进正态和大样本推断
24
• 5.2. 渐进正态和大样本推断
• 理解定理5.2,Gauss-Markov假定:
– 线性结构 Linear structure
– 随机抽样 random sampling
– 无严格共线性 No perfect collinearity
– 零值条件期望 Zero conditional mean
– 对于误差项u的唯一限制就是,假定误差的分布具有有限的方差
:同方差性: Var(u|x)=s2
• 误差项u的正态性假定MLR.6被放弃
– 关于𝑢的总体分布和𝛽መj 的抽样分布
• 𝑢的总体分布是客观的,不变的(与抽样多少无关),不能认为随着抽样
增加𝑢会接近正态分布, 𝑢是什么分布就是什么分布
• 不论𝑢是什么分布,合理的标准化后的OLS估计量𝛽j 都是近似于正态分布的
, 𝛽j 涉及对样本均值的使用,依赖于抽样。
• 对于任何总体分布𝑢而言,潜在的误差均值的分布序列都是趋向正态的,
比如𝑋ത − 𝜇, 𝛽j − 𝛽j 。
25
• 5.2. 渐进正态和大样本推断
– 关于𝛽መ𝑗 − 𝛽𝑗 的推断是除以标准差sd还是标准误se,问题不大,
𝛽መ𝑗 均服从渐进正态分布。当然除以标准误在同方差假定下更精
确,根据t分布的定义以及正态分布的自由度,随着自由度的
增大,t分布也会逐渐趋近于标准正态分布,有:
𝑎
𝛽መ𝑗 − 𝛽𝑗 ൗ𝑠𝑒 𝛽መ𝑗 ~𝑡𝑛−𝑘−1
– 在大样本中, 𝑢不一定需要正态性假定,但必须要求满足同方
差,即所有样本是独立同分布的、来自同一总体;扰动项具
有有限方差。
– 如果样本不够大,𝑢的非正态时不是太好,t分布自然也不好。
– 多大算大样本?𝑛 > 30?还取决于𝑛 − 𝑘 − 1。
– 如果不满足𝑢的同方差性,无论样本多大,上述统计量构造及
推断都是无效的。(小样本无法推断,大样本又不满足中心
极限定理假定)
26
• 5.2. 渐进正态和大样本推断
• 𝛽መ𝑗 的估计方差:
𝜎ො 2 𝜎ො 2 𝜎ො 2
𝑉𝑎𝑟(𝛽𝑗 ) = = =
𝑆𝑆𝑇𝑗 (1 − 𝑅𝑗 2 ) 𝑆𝑆𝑅𝑗 𝑛 ⋅ (1 𝑆𝑆𝑅 ቁ
𝑛 𝑗
2
𝑛→∞ 1 𝜎2 1 𝜎 2 𝑐𝑗
= 2 2 = 2
= = 𝐴var(𝛽𝑗 ) = 𝐴var(𝛽𝑗 − 𝛽𝑗 )
𝑛 𝜎𝑗 𝑟𝑗Ƹ 𝑛 𝑎𝑗 𝑛
𝑐𝑗 2 𝜎2
𝐴var( 𝑛(𝛽𝑗 − 𝛽𝑗 )) = 𝑛 ⋅ 2
= 𝑐𝑗 = 2
𝑛 𝑎𝑗
𝜎ො 2
𝑠𝑒(𝛽𝑗 ) = 𝑠𝑑(
መ 𝛽𝑗 ) =
𝑉𝑎𝑟( 𝛽𝑗 ൯ =
𝑆𝑆𝑇𝑗 (1 − 𝑅𝑗 2 ൯
𝜎ො 2 𝑛→∞ 1 𝜎2 𝑐𝑗 2 𝑐𝑗
= = = =
𝑆𝑆𝑅𝑗 𝑛 𝑎𝑗 2 𝑛 𝑛
– 当u 不是正态分布时,标准误有时指的是渐近标准误。
– 预期标准误的收缩速度为样本容量的平方根的倒数。
– 在大样本容量下,F统计量具有近似的F分布,排除性约束检验与
前文相同。
• 5.2. 渐进正态和大样本推断
• 拉格朗日乘数统计量
– 在大样本情形下或渐近正态性假定,我们可以利用t统计量
和F统计量进行统计推断。拉格朗日乘数检验,可用于检验
对参数所施加的额外约束。由于LM统计量利用了辅助回归,
有时被称为 nR2 统计量
• 假设标准模型为:𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2+. . . +𝛽𝑘 𝑥𝑘 + 𝑢
𝐻0: 𝛽𝑘−𝑞+1 , … , 𝛽𝑘 = 0
• 回归受约束模型为:𝑦 = 𝛽෨0 + 𝛽෨1 𝑥1 +. . . +𝛽෨𝑘−𝑞 𝑥𝑘−𝑞 + 𝑢,得到残差
𝑢,
并进行𝑢与所有变量𝑥
1 , 𝑥2 , . . . , 𝑥𝑘 回归,得到:
𝐿𝑀 = 𝑛𝑅𝑢2
𝑎
• 𝑅𝑢2 为上述辅助回归的可决系数。𝐿𝑀~𝜒𝑞2 ,根据卡方分布临界值或p值
进行统计推断。
• 在大样本情形下,LM检验与F检验的结果通常是非常类似的。
– LM统计量决定于三个因素:
• 辅助回归,是将受约束模型回归所得残差𝑢对所有自变量回归。
• 主回归(受约束模型回归)和辅助回归(𝑢对所有自变量𝑥
1 , 𝑥2 , . . . , 𝑥𝑘 回归)
必须使用相同的样本观测值。
• 在大样本下, LM检验和F检验的结果比较相近。对于单个约束的检验
,F检验和t检验是等价的;但是LM检验和F检验,则并不等价。
28
• 5.3. OLS的渐进有效性
29
• 5.3. OLS的渐进有效性
• 对于一个简单回归模型: y = 𝛽0 + 𝛽1 𝑥1 + u
𝑧1 = 𝑔(𝑥1 )
• 在Gauss-Markov假定下:𝐸(𝑢|𝑥1 ) = 0, 有:
– 𝐸(𝑢) = 0, 𝐶𝑜𝑣(𝑢, 𝑥1 ) = 0;
σ(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖1 ) = 0
σ𝑥𝑖1 (𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖1 ) = 0
𝜎2
𝐴var[ 𝑛(𝛽መ1 − 𝛽1 )] =
𝑉𝑎𝑟(𝑥1 )
30
• 5.3. OLS的渐进有效性
– 𝐸(𝑢) = 0, 𝐶𝑜𝑣[𝑢, 𝑧1] = 𝐶𝑜𝑣[𝑢, 𝑔(𝑥1 )] = 0
σ 𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖1 = 0
𝑔 𝑥𝑖1 𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖1 = 0
• 一般情形
– 对于多元回归模型: 𝑦𝑖 − 𝛽෨0 − 𝛽෨1 𝑥𝑖1 − ⋯ − 𝛽෨𝑘 𝑥𝑖𝑘 +𝑢,取𝑧𝑗 =
𝑔𝑗 (𝑥𝑗 ),𝑗 = 0,1, … , 𝑘。 𝑔𝑗 (𝑥𝑗 )可以取不同的函数形式。
– 在Gauss-Markov假定下, 由𝐸(𝑢|𝑥𝑗 , 𝑗 = 1, 𝑘) = 0 有𝐶𝑜𝑣(𝑢, 𝑥𝑗 ) = 0
,且 𝐶𝑜𝑣[𝑢, 𝑔𝑗 (𝑥𝑗 )] = 0, 𝑗 = 0,1, … , 𝑘。
– 求解下面一阶条件:
𝑛
𝑔𝑗 (𝑥𝑗 )(𝑦𝑖 − 𝛽෨0 − 𝛽෨1 𝑥𝑖1 − ⋯ − 𝛽෨𝑘 𝑥𝑖𝑘 ) = 0
𝑖=1
– 得到一组一致估计量。
– 特殊地: 𝑔0 (𝑥i ) = 1 , 𝑔j (𝑥i ) = 𝑥𝑖j , 𝑗 = 0,1, … , 𝑘 ,所得为OLS估
计量。
• 5.3. OLS的渐进有效性
• 定理5.3 OLS的渐近有效性
– 满足高斯—马尔科夫假定前提下,相比其他估计量,OLS估计量具
有最小的渐近方差。
𝐴var[ 𝑛(𝛽መ1 − 𝛽1 )] ≤ 𝐴var[ 𝑛(𝛽෨1 − 𝛽1 )൧
作业
• 书 p149
• 1、2、4、