Professional Documents
Culture Documents
部分习题参考答案
【注意】
1. 答案仅供参考,因制作答案较匆忙,可能会出现错别字、公式打错、答案错误等问题。
3. 部分编程题目,答案代码可能较为简洁,读者可根据教材代码加以补充。
4. 数据与课件可在教材作者提供的网址http://econometrics-stata.com/col.jsp?id=101上进行下载。
5. 如对本份答案有疑问,可发送邮件至tu01git01@qq.com,我会及时回复的。
目录
第 1 章 导论 3
第 2 章 Stata 入门 4
第 3 章 数学回顾 5
第 4 章 一元线性回归 8
第 5 章 多元线性回归 12
第 6 章 大样本 OLS 15
第 7 章 异方差 19
第 8 章 自相关 22
第 9 章 模型设定与数据问题 25
第 10 章 工具变量法 30
第 11 章 二值选择模型 34
1
第 12 章 面板数据 39
第 13 章 平稳时间序列 42
第 14 章 单位根与协整 48
第 15 章 如何做实证研究 50
2
第1章 导论
本章无习题。
3
第2章 Stata 入门
2.1 安装 Stata 软件,并将本章的 Stata 命令与实例操作一遍。
略.
4
第3章 数学回顾
3.1 对于随机变量 X,证明 Var.X / D E.X 2 / ŒE.X /2 。
证:
记 D E.X /,则
Cov.X; Y / D EfŒX E.X /ŒY E.Y /g D EŒX Y XE.Y / YE.X / C E.X /E.Y /
D E.X Y / E.Y /E.X / E.X /E.Y / C E.X /E.Y / D E.X Y / E.X /E.Y /
D Cov.X; Y / C Cov.X; Z/
0 1
0 1 0 1 a11 a12
X1 1 B C
B C
3.4 二维随机向量 X D @ A 的期望为 E.X / D D @ A。A D Ba21 a22 C 为常数矩阵。证明以下等式。
X2 2 @ A
a31 a32
证:
20 1 3 0 1
a11 a12 0 1 a11 a12 0 1
6B C X 7 B C X1
6B C 1 7 B C
(1) E.AX / D E 6Ba21 a22 C @ A7 D Ba21 a22 C E @ A D A。
4@ A X2 5 @ A X2
a31 a32 a31 a32
5
(2) Var.X/ D EŒ.X E.X //.X E.X //0 D EŒ.X /.X /0 D E.XX 0 X0 X C 0 / D
E.XX 0 / 0 0 C 0 D E.XX 0 / 0 。
(3) Var.AX/ D EŒ.AX E.AX //.AX E.AX //0 D EŒA.X /.X /0 A0 D AEŒ.X /.X /0 A0 D
A0 Var.X/A。
(4) 证明 Cov.X; Y / D 0。
证:
D0 0C0
D0
6
n
! n
!
1X 1 X 1 p.1 p/
(3) Var.p/
O D Var Yi D 2 Var Yi D Var.Yi / D 。
n nD1 n nD1
n n
证:
Yi
(1) 因为 Yi N.0; 2 /,所以 N.0; 1/,则
2 2
Yi Yi Yi
E 2
D Var C E D1C0D1
n
Yi Y2 1 X 2
(2) 因为 N.0; 1/,且 Yi 独立同分布,则 i2 2 .1/,所以 W 2 Y 服从 2 .n/ 分布。
nD1 i
2
Yi
(3) E.W / D nE D n。
2
Xn
Y1 Yi2 Y1 Y1 =
(4) 因为 N.0; 1/; 2
2 .n 1/,则 V s Ds t .n 1/。
nD2
Pn
2
P
n
2 2 Yi Yi =
nD2 nD2
n 1 n 1
7
第4章 一元线性回归
4.1 考虑以下消费函数 (consumption function):
O i
CO i D ˛O C ˇY (4.42)
(1) 斜率 ˇO 的经济含义是什么?
(3) 对于个体 i,计算其平均消费倾向 (average propensity to consume)Ci =Yi 。假如 ˛O > 0,则随着个体 i 可
支配收入的增加,其平均消费倾向将如何变化?
解:
8
证:
P
n P
n
.xi x/.y
N i y/
N .xi yi xy
N i yx
N i C xN y/
N
i D1 i D1
D
P
n P
n
.xi N 2
x/ .xi2 N i C xN 2 /
2xx
iD1 iD1
P
n
xi yi nxN yN nxN yN C nxN yN
i D1
D
P
n
xi2 2nxN 2 C nxN 2
iD1
P
n
xi yi nxN yN
i D1
D
Pn
xi2 nxN 2
i D1
4.4 考虑只有常数项的回归:
yi D ˛ C "i (4.43)
@Q X 1X
D 2 .yi ˛/
O D 0 ) ˛O D yi D yN
@˛O n
所以 P P P
2 ei2 .yi O 2
˛/ .yi N 2
y/
R D1 P D1 P D1 P D1 1D0
.yi N 2
y/ .yi N 2
y/ .yi N 2
y/
4.5 考虑如下线性回归:
yi D ˛ C ˇxi C "i (4.44)
4.6 考虑有常数项的回归:
yi D ˛ C ˇxi C "i .i D 1: ; n/ (4.45)
P n
.yi y/.
N yOi y/
O
2 2 iD1
证明 R D ŒCorr.yi ; yOi / ,其中 Corr.yi ; yOi / s s 。(提示:利用以下性质,即
P
n P
n
NO 2
.yi y/N 2 .yi y/
iD1 iD1
yNO D y;
N yi D yOi C ei ,以及 OLS 的正交性。)
9
证:
Cov.yi ; yOi /
Corr.yi ; yOi / D p p
Var.yi / Var.yOi /
P NO
.yi y/.N yOi y/
D qP P
.yi y/ N 2 .yOi y/ NO 2
P
.yi yOi C yOi y/. N yOi y/ N
D qP P
.yi y/ N 2 .yOi y/ NO 2
P P
.yi yOi /.yOi y/ N C .yOi y/ N 2
D qP P
.yi y/ N 2 .yOi y/ NO 2
P
0 C .yOi y/ N 2
D qP P
.yi y/ N 2 .yOi y/ NO 2
sP
.yOi y/N 2
D P
.yi y/ N 2
p
D R2
(3) 考虑以下回归方程:
chi ldi D ˛ C ˇpare nti C "i (4.46)
解:
(1) 代码如下:
summarize child parent
(2) 代码如下:
twoway scatter child parent || lfit child parent
10
(3) 代码如下:
reg child parent
随机扰动项包含除了父母身高以外影响子女身高的其他所有因素。
(5) 代码如下:
summarize parent
gen parent_dev = parent - r(mean)
gen gengap = child - parent
reg gengap parent_dev
ˇD 0:3537 < 1,说明父辈的优势在子辈有所削弱,说明存在“回归均值现象”。
11
第5章 多元线性回归
5.1 从残差 ei yi .ˇO1 C ˇO2 xi2 C C ˇOK xiK / 出发,证明残差向量 e D y O
X ˇ。
证:
将 ei 从 e1 ; ; en 写出,则
(1) 此数据矩阵是否满列秩?
解:
12
0 1
1 1 1 1 1
(2) X 0 D @ A。
2 2 2 2 2
0 1
1 2
B C
0 1B
B1
C
2C 0 1
1 1 1 1 1 B C 5 10
(3) X 0 X D @ AB
B1
C
2C D @ A,det.X 0 X / D 0,所以逆矩阵 .X 0 X/ 1
不存在。
2 2 2 2 2 BB
C
C 10 20
B1 2C
@ A
1 2
(2) 检验原假设“平均收入对空气质量没有影响”。
(5) 检验所有解释变量的联合显著性。
解:
(1) 代码如下:
reg airq vala rain coast density income
(2) 代码如下:
test income = 0
p 值为 0:5205 > 0:05,说明接受原假设,认为“平均收入对空气质量没有影响”。
(3) 代码如下:
test density income
p 值为 0:6857 > 0:05,说明接受原假设,认为 de nsi ty 和 i ncome 对 ai rq 的共同影响不显著。
(4) 代码如下:
test rain coast
p 值为 0:0141 < 0:05,说明拒绝原假设,认为 rai n 与 coast 对 ai rq 的共同影响显著。
(5) 代码如下:
test vala rain coast density income
p 值为 0:0313 < 0:05,说明拒绝原假设,认为方程整体显著。
13
5.6 穷国能否赶上富国?由于穷国的资本较少,故资本的边际产出较高。因此,一种理论认为,穷国的经济增
长速度应比富国快,并收敛于富国,称为“绝对收敛”(absolute convergence)。另一种观点则认为,只有
在控制其他因素 (比如人力资本) 的情况下,穷国的增长速度才快于富国,称为“条件收敛”(conditional
convergence)。使用 Gallup, Sachs and Mellinger(1999) 的部分跨国数据集 geodata_short.dta,检验是否存在
绝对收敛或条件收敛。该数据集的被解释变量为 gdpg6590 (1965-1990 年人均 GDP 的增长率),而解释变
量包括 lgdp65 (1965 年人均 GDP 的对数),以及 syr1965 (1965 年平均受中学教育年限的对数)。
(1) 以 5% 的显著性水平检验是否存在绝对收敛。
(2) 以 5% 的显著性水平检验是否存在条件收敛。
解:
(1) 代码如下:
reg gdpg6590 lgdp65
lgdp65 系数 t 检验的 p 值为 0:076 > 0:05,说明接受原假设,认为不存在绝对收敛。
(2) 代码如下:
reg gdpg6590 lgdp65 syr1965
lgdp65 系数 t 检验的 p 值为 0:021 < 0:05,说明拒绝原假设,认为存在条件收敛。
(1) 把 y 对其他变量进行多元回归。
(2) 评论拟合优度,以及各变量系数的符号与显著性。
解:
(1) 代码如下:
reg y competitors pop income
(2) R2 D 0:6182;
compet itors 的系数为 9074:674 < 0,对应 p 值约为 0 < 0:05,说明拒绝原假设,认为该系数显著;
pop 的系数为 0:3546684 > 0,对应 p 值约为 0 < 0:05,说明拒绝原假设,认为该系数显著;
i ncome 的系数为 1:287923 > 0,对应 p 值为 0:025 < 0:05,说明拒绝原假设,认为该系数显著。
(3) 应选址在两英里内直接竞争者的数目较少,三英里内的居民人数较多和家庭平均收入较高的地方。
14
第6章 大样本 OLS
n
1X
6.1 假设随机变量 y 的期望为 ,抽样得到其 iid 随机样本 fy1 ; ; yn g,记样本均值为 yN yi 。
n iD1
解:
(1)
2 !2 3
n
X
1
E.yN 2 / D E 4 2 yi 5
n i D1
1
D E.y12 C C yn2 C 2y1 y2 C C 2yn 1 yn /
n2
1 2.n 1/ 2
D E.y12 / C
n n
¤ 2
所以 yN 2 不是 2 的无偏估计。
p p
(2) 不失一般性,我们可直接证明:若 f 是连续函数,且 ˇn ! ˇ,则 f .ˇn / ! f .ˇ/。
因为 f 是连续函数,则 8" > 0,有 9ı > 0,使得当 jx ˇj ı 时,jf .x/ f .ˇ/j ",这也等价于
当 jx ˇj > ı 时,jf .x/ f .ˇ/j > "。
而
P .jf .ˇn / f .ˇ/j > "/ D P f! 2 W jf .ˇn .!// f .ˇ/j > "g
15
6.3 证明线性模型的离差形式,即方程 (6.22)。
证:
首先将 yi D ˛ C ˇxi C "i 从 y1 ; ; yn 写出:
y1 D ˛ C ˇx1 C "1
::
:
yn D ˛ C ˇxn C "n
所有等式左边与右边分别相加并除以 n,可得
1 1 1
.y1 C C yn / D ˛ C ˇ.x1 C C xn / C ."1 C C "n /
n n n
即 yN D ˛ C ˇ xN C "N,将此式与 yi D ˛ C ˇxi C "i 相减,可得
yi yN D ˛ C ˇ.xi x/
N C ."i "Ni /
证毕。
p
6.4 当 n ! 1 时,是否稳健标准误 SE .bk / ! 0?为什么?
解: r r
1 b b p 1b p
是,因为 SE .bk / D AVar.b/,而 AVar.b/ ! ŒE.xi0 xi / 1 S ŒE.xi0 xi / 1 ,则 SE .bk / D AVar.b/ !
r n n
1 p
ŒE.xi0 xi / 1 SŒE.xi0 xi / 1 ,显然当 n ! 1 时,SE .bk / ! 0。
n
6.5 使用数据集 grilic.dta,以稳健标准误估计以下回归方程:
(4) 与全样本相比,子样本估计量的标准误有何变化,为什么?
解:
(1) 代码如下:
reg lnw s expr tenure smsa, r
(2) 代码如下:
16
reg lnw s expr tenure smsa if rns, r
(3) 代码如下:
reg lnw s expr tenure smsa if !rns, r
(4) 两个子样本估计量的标准误均比全样本估计量的标准误要大。因为减少样本容量,会使得样本的代
表性更差,与实际数值相差更多,误差更大。
(1) 使用普通标准误进行回归,并评论解释变量系数的符号、统计显著性及经济意义。
(2) 使用稳健标准误进行回归,稳健标准误与普通标准误差别大吗?
解:
(1) 代码如下:
reg lprice lnox ldist rooms stratio
lnox 的系数为 0:95354 < 0,p 值约为 0,说明系数显著,表明其他条件不变时,空气污染程度每增
加 1%,房价平均下跌 0.9535%;
ld i st 的系数为 0:1343401 < 0,p 值为 0.002,说明系数显著,表明其他条件不变时,社区到就业中
心的距离每增加 1%,房价平均下跌 0.1343%;
rooms 的系数为 0:2545271 > 0,p 值约为 0,说明系数显著,表明其他条件不变时,房屋的平均房间
数每增加 1 个单位,房价平均上涨 0.2345%;
st rati o 的系数为 0:0524512 < 0,p 值约为 0,说明系数显著,表明其他条件不变时,社区学校的
学生-教师比例每增加 1 个单位,房价平均下跌 0.0525%。
(2) 代码如下:
reg lprice lnox ldist rooms stratio, r
整体变动不大。
(3) 代码如下:
test ldist = stratio
17
p 值为 0:1322 > 0:05,说明接受原假设,认为 ˇ3 D ˇ5 。
(4) 代码如下:
test rooms = 0.31
test rooms = 0.30
H0 W ˇ4 D 0:31:p 值为 0:0253 < 0:05,说明拒绝原假设,认为 ˇ4 ¤ 0:31;
H0 W ˇ4 D 0:30:p 值为 0:0664 > 0:05,说明接受原假设,认为 ˇ4 D 0:30。
18
第7章 异方差
7.1 考虑有关啤酒月消费量的线性模型:
其中,E."ji nc; price; educ; f e male/ D 0; Var."ji nc; pri ce; educ; f e male/ D 2 i nc 2 。对此模型进行变
换,使得变换后的扰动项为同方差。
解:
1 1
由题意:Var."ji nc; price; educ; f e male/ D 2 i nc 2 ,则 v D i nc 2 ,取 p D ,方程两边同时乘以
v i nc
1
,即
i nc
beer 1 pri ce edu f e male "
D ˇ1 C ˇ2 C ˇ3 C ˇ4 C ˇ5 C
i nc i nc i nc i nc i nc i nc
" ˇ 1 2
ˇ
此时 Var ˇ i nc; price; educ; f e male D i nc 2 D 2 ,说明变换后的扰动项为同方差。
i nc i nc 2
7.2 房价回归是否存在异方差?数据集 hprice2a.dta 包含美国波士顿 506 个社区的房屋中位数价格的横截面数
据 (参见第 6 章)。考虑以下特征价格回归:
(2) 以 5% 的置信度,使用怀特检验,检验是否存在异方差。
解:
(1) 代码如下:
reg lprice lnox ldist rooms stratio
estat hettest, iid
estat hettest, iid rhs
p 值均为 0,则拒绝原假设,认为存在异方差。
(2) 代码如下:
estat imtest, white
p 值为 0,则拒绝原假设,认为存在异方差。
19
(1) 将 f ood _exp 与 i ncome 的散点图与线性拟合图画在一起。根据此图,是否可能存在异方差?此异方
差与收入的关系是怎样的?
(4) 以 5% 的显著性水平,使用怀特检验,检验是否存在异方差。
(5) 定义食物开支比例 f ood _share 为 f ood _exp 除以 i ncome,将 f ood _share 与 i ncome 的散点图与
线性拟合图画在一起。从图上看,是否还存在异方差?
(8) 以 5% 的显著性水平,使用怀特检验,检验是否存在异方差。
解:
(1) 代码如下:
twoway scatter food_exp income || lfit food_exp income
随着解释变量的增大,散点偏离回归直线的程度增加,可能存在异方差,且扰动项的异方差与解释变
量正相关,即异方差与收入呈正相关。
(2) 代码如下:
reg food_exp income
(3) 代码如下:
estat hettest, iid
p 值为 0:0066 < 0:05,则拒绝原假设,认为存在异方差。
(4) 代码如下:
estat imtest, white
p 值为 0:0229 < 0:05,则拒绝原假设,认为存在异方差。
(5) 代码如下:
gen food_share = food_exp/income
twoway scatter food_share income || lfit food_share income
各点大致均匀分布在拟合直线附近,波动幅度近似相同,可大致判断不存在异方差。
(6) 代码如下:
reg food_share income
(7) 代码如下:
estat hettest, iid
20
p 值为 0:7748 > 0:05,则接受原假设,认为不存在异方差。
(8) 代码如下:
estat imtest, white
p 值为 0:2722 > 0:05,则接受原假设,认为不存在异方差。
21
第8章 自相关
8.1 PW 估计法比 CO 估计法更有效率吗?为什么?
解:
从理论上,CO 法的差分过程使得样本容量由 n 下降为 n 1;而 PW 法在 CO 法的基础上补充了一个方
程,使样本容量回到原来的 n,因此更有效率,是 BLUE。
但是,尽管 PW 估计法在理论上确实比 CO 估计法更有效率,而根据文献 [1] 和文献 [2],PW 估计法的拒
绝率较高,且高于 CO 估计法,因此,在实践中,不能单纯地认为 PW 估计法比 CO 估计法更有效率,也
要具体情况具体分析。
Œ1 Dielman T E . Email: A Note on Hypothesis Tests after Correction for Autocorrelation: Solace for the Cochrane-
Orcutt Method?[J]. Journal of Modern Applied Statal Methods, 2009, 8(1):100-109.
Œ2 Kobayashi M . Comparison of Efficiencies of Several Estimators for Linear Regressions With Autocorrelated
Errors[J]. Journal of the American Statistical Association, 1985, 80(392):951-953.
(3) 画残差的自相关图。
(4) 用 BG 检验,检验扰动项是否存在自相关。
(5) 用 Q 检验,检验扰动项是否存在自相关。
(6) 计算 DW 统计量。
22
(10) 考虑到消费可能存在惯性,将被解释变量 lgasq 的一阶滞后作为解释变量,加入回归方程 (8.33)。此
滞后项是否显著?
解:
(1) 代码如下:
reg lgasq lincome lgasp lpnc lpuc
li ncome 的系数为 1:095874 > 0,p 值约为 0,说明系数显著,表明其他条件不变时,人均收入每增
加 1%,人均汽油消费量增加 1.0959%;
lgasp 的系数为 0:0212072 < 0,p 值为 0:630 > 0:05,说明系数不显著,表明其他条件不变时,汽
油价格指数每增加 1%,人均汽油消费量减少 0.0212%;
lpnc 的系数为 0:3736126 < 0,p 值为 0:021 < 0:05,说明系数显著,表明其他条件不变时,新车价
格指数每增加 1%,人均汽油消费量减少 0.3736%;
lpuc 的系数为 0:0200343 > 0,p 值为 0:847 > 0:05,说明系数不显著,表明其他条件不变时,二手
车价格指数每增加 1%,人均汽油消费量增加 0.0200%。
(2) 代码如下:
predict e1, res
twoway scatter e1 L.e1 || lfit e1 L.e1
散点分布大致在一条斜率为正的直线上,故扰动项可能存在一阶自相关。
(3) 代码如下:
ac e1
(4) 代码如下:
estat bgodfrey
estat bgodfrey, nomiss0
p 值均为 0,拒绝原假设,认为存在自相关。
(5) 代码如下:
wntestq e1
corrgram e1
p 值均为 0,拒绝原假设,认为存在自相关。
(6) 代码如下:
estat dwatson
23
(8) 代码如下:
prais lgasq lincome lgasp lpnc lpuc, corc
(9) 代码如下:
prais lgasq lincome lgasp lpnc lpuc, nolog
(10) 代码如下:
reg lgasq L.lgasq lincome lgasp lpnc lpuc
滞后项的 p 值约为 0,说明拒绝原假设,认为滞后项显著。
(11) 代码如下:
estat bgodfrey
estat bgodfrey, nomiss0
predict e2, res
wntestq e2
corrgram e2
p 值均大于 0.05,说明接受原假设,认为不存在自相关。
24
第9章 模型设定与数据问题
9.1 在使用样本数据估计回归方程 y D ˛ C ˇx C " 时,如果怀疑 x 对 y 的作用还依赖于另一变量 z,应该如
何检验此依赖性?
解:
方法 1(图形分析):在 z 的不同取值下,绘制 x 和 y 的散点图,如果在不同的 z 取值下,x 和 y 之间的关
系呈现出明显的差异,可能存在依赖性。
方法 2(子样本分析):将样本数据按照 z 的取值分成几个子样本,然后对每个子样本分别估计回归方程。
比较在不同子样本中的 x 的系数是否存在显著差异。如果在不同子样本中,x 的系数有显著不同的取值,
那么可能存在依赖性。
方法 3(RESET 检验):构造辅助回归 y D ˛ C ˇx C xz C " 并检验 D 0,若检验结果显著,说明存在依
赖性。
H0 W ˇ C 2 k D 1; H1 W ˇ C 2 k ¤ 1
(2) 计算 VIF。是否存在多重共线性?
25
(4) 在方程 (9.47) 中,加入 ln q 的平方项,重新进行回归。
(7) 从经济理论出发,以上两个回归结果,哪个更可信?
解:
(1) 代码如下:
reg lntc lnq lnpl lnpk lnpf, r
(2) 代码如下:
estat vif
VIF 值均小于 10,认为不存在多重共线性。
(3) 代码如下:
estat ovtest
p 值约为 0,说明拒绝原假设,认为遗漏了非线性项。
(4) 代码如下:
gen lnq2 = (lnq)^2
reg lntc lnq lnq2 lnpl lnpk lnpf, r
(5) 代码如下:
estat ovtest
p 值为 0:3165 > 0:05,说明接受原假设,认为没有遗漏了非线性项。
(6) 代码如下:
estat vif
ln q 和 .ln q/2 的 VIF 值大于 10,认为存在多重共线性。
(7) 两种模型都存在问题,前者遗漏了非线性项,后者存在多重共线性,均不可信。可以尝试添加其他的
非线性项来使得新模型不出现上述问题。
26
(4) 计算每个观测值的影响力 .leverage/,以及此影响力的最大值与平均值之比。
(6) 马耳他在哪?马耳他的贸易开放度为什么这么高?是否应在本研究中去掉马耳他?
解:
(1) 代码如下:
twoway scatter growth tradeshare || lfit growth tradeshare
从散点图上看具有一定的线性关系,但不是非常明显。
(2) 代码如下:
twoway scatter growth tradeshare, mlabel(country) || lfit growth tradeshare
马耳他位于图右上角的散点,符合极端值的特征。
(3) 代码如下:
reg growth tradeshare
斜率和截距项的估计值分别为 2.3064 和 0.6403。
(4) 代码如下:
predict lev, leverage
sum lev
dis r(max)/r(mean)
(5) 代码如下:
reg growth tradeshare if _n<65
斜率和截距项的估计值分别为 1.6809 和 0.9574。
(6) 马耳他位于地中海,是地中海的一个岛国。马耳他天然良港便于货物进出口,基础设施完善,地理位
置优越。马耳他的数据属于极端值,代表性较差,可以删除。
(7) 代码如下:
reg growth tradeshare rgdp yearsschool rev_coups assasinations
t radeshare 的系数为 1:561696 < 0,p 值为 0:044 < 0:05,说明系数显著,表明其他条件不变时,平
均贸易开放度每增加 1 个单位,平均增长率增加 1.5617 个单位;
27
rgdp 的系数为 0:0004693 < 0,p 值为 0:002 < 0:05,说明系数显著,表明其他条件不变时,人均
GDP 每增加 1 个单位,平均增长率减少 0.0005 个单位;
yearsschool 的系数为 0:5748461 > 0,p 值约为 0,说明系数显著,表明其他条件不变时,平均受教
育年限每增加 1 个单位,平均增长率增加 0.5748 个单位;
rev_coups 的系数为 2:157503 < 0,p 值为 0:057 > 0:05,说明系数不显著,表明其他条件不变时,
年平均政变次数每增加 1 个单位,平均增长率减少 2.1575 个单位;
assassi nat ions 的系数为 0:3540784 > 0,p 值为 0:461 > 0:05,说明系数不显著,表明其他条件不变
时,年平均政治暗杀次数每增加 1 个单位,平均增长率增加 0.3541 个单位。
(3) 使用 BP 检验与怀特检验,检验是否存在异方差。
解:
(1) 代码如下:
twoway connect lgasq lgasp year, msymbol(circle) msymbol(triangle)
twoway connect lgasq year
单独考察汽油需求函数 lgasq,可以发现 1975 年左右,前后的斜率出现比较明显的变化,因此石油
需求函数可能存在结构变动。
(2) 代码如下:
reg lgasq L.lgasq lincome lgasp lpnc lpuc
28
(3) 代码如下:
estat hettest, iid
estat imtest, white
BP 检验 p 值为 0:5788 > 0:05,说明接受原假设,认为不存在异方差;
怀特检验 p 值为 0:0321 < 0:05,说明拒绝原假设,认为存在异方差。
(4) 代码如下:
estat bgodfrey
estat bgodfrey, nomiss0
predict e1, res
wntestq e1
corrgram e1
BG 检验的 p 值均大于 0.05,说明接受原假设,认为不存在自相关;
Q 检验的 p 值均大于 0.05,说明接受原假设,认为不存在自相关。
(5) 代码如下:
gen d = (year > 1973)
gen lgaspd = lgasp * d
reg lgasq L.lgasq lincome lgasp lpnc lpuc d lgaspd, r
test d lgaspd
p 值为 0:0006 < 0:05,认为拒绝原假设,认为结构发生了变动。
29
第 10 章 工具变量法
10.1 假设真实模型为 y D ˛ C ˇx C ",其中 ˇ ¤ 0,而 Cov.x; "/ D 0。y 无法精确预测,但能观测到 y,二
者满足 y D y C v,其中 v 为测量误差。
解:
(3) Var.u/ D Var." C v/ D Var."/ C Var.v/ C 2Cov."; v/,若不存在 v,Var.u/ D Var."/ < Var."/ C Var.v/ C
2Cov."; v/,所以 v 的存在增大了 u 的方差。
4
所以 Cov.zt ; pt / ¤ Cov.zt ; pOt /,即 Cov.pt ; zt / ¤ Cov.pt ; zt /,于是
所以 ˇOIV 不是一致估计。
30
(1) 证明 ˇOIV 不是 ˇ 的一致估计,即 plim ˇOIV ¤ ˇ。
n!1
(2) 计算大样本偏差 plim ˇOIV ˇ 。在什么情况下,此偏差的绝对值会变大?
n!1
解:
(1) 因为 Cov.ut ; zt / ¤ 0,
则 Cov.qt ; zt / D Cov.˛Cˇpt Cut ; zt / D ˇCov.pt ; zt /CCov.ut ; zt / ¤ ˇCov.pt ; zt /,
所以
plim ˇOIV D plim
4
Cov.qt ; zt /
D
Cov.qt ; zt /
DˇC
Cov.ut ; zt /
¤ˇ
n!1 4
n!1 Cov.p ; z /
t t
Cov.pt ; zt / Cov.pt ; zt /
(2) 大样本偏差为
Cov.ut ; zt /
plim ˇOIV ˇD
n!1 Cov.pt ; zt /
偏差的绝对值为 ˇ ˇ ˇ ˇ
ˇ ˇ ˇ Cov.ut ; zt / ˇ
ˇ plim ˇOIV ˇ ˇˇ D ˇˇ ˇ
ˇn!1 Cov.p ; z / ˇ
t t
解:
(1) 代码如下:
twoway scatter logpgp95 avexpr, mlabel(shortnam) || lfit logpgp95 avexpr
(2) 代码如下:
reg logpgp95 avexpr lat_abst, r
avexpr 的系数为 0:4678871 > 0,p 值约为 0,说明系数显著,表明其他条件不变时,平均产权保护
程度每增加 1 个单位,人均 GDP 增加 0.4679%;
31
lat_abst 的系数为 1:576884 > 0,p 值为 0:018 < 0:05,说明系数显著,表明其他条件不变时,首都
纬度的绝对值除以 90 每增加 1 个单位,人均 GDP 增加 1.5769%。
(3) 代码如下:
ivregress 2sls logpgp95 lat_abst (avexpr = logem4), r
虽然回归方程仍显著,但 R2 下降为 10.25%,说明模型的解释能力下降了;并且解释变量 lat _abst
不再显著,认为国家首都的地理位置对经济发展的影响不大;avexpr 的回归系数说明,在其他条件
不变的情况下,1985—1995 十年间平均产权保护程度每上升 1 个单位,会使 1995 年按购买力平价的
人均 GDP 平均提高约 1%,仍然是比较合理的范围。
(4) 代码如下:
ivregress 2sls logpgp95 (avexpr = logem4), r
estat firststage
F 统计量为 16:3206 > 10,说明 log em4 不是弱工具变量。
10.6 生育行为如何影响劳动力供给?具体来说,如果妇女多生一位小孩,其劳动力供给将下降多少?本题使用
来自美国 1980 年人口普查的数据集 fertility_small.dta 进行估计。此数据集包含美国 21 35 岁已婚且有
两个或更多子女的妇女信息,主要变量为 weeks (1979 年的工作周数),morekids (是否有两个以上小孩),
以及 samesex (头两个小孩是否性别相同)。
(1) 代码如下:
reg weeks morekids
有两个以上小孩的妇女比有两个小孩的妇女工作更少,少 6.0082 周,此效应 p 值约为 0,说明在统
计上显著。
32
(2) 不能,可能存在双向因果。从经济含义的角度分析,一方面,子女数量增加会导致妇女工作时间的减
少;另一方面,工作时间的减少会导致妇女有时间或者动机去养育更多的子女。因此模型可能存在联
立方程偏差,需考虑使用工具变量法处理。
(3) 代码如下:
reg morekids samesex
头两个小孩性别相同更可能生第三个小孩,但此效应较弱,p 值约为 0,说明在统计上显著。
(4) 工具变量需满足相关性与外生性。
在相关性上,工具变量 samesex 和内生解释变量 morekids 之间的相关性仍是统计上显著的,认为
具有相关性。
在外生性上,由于 samesex 作为工具变量,工具变量个数等于内生解释变量个数,恰好识别,无法
进行过度识别检验,只能定性讨论,由于 samesex 只能通过 morekids 来影响 weeks,所以认为具
有外生性。
综上,samesex 可以作为工具变量。
(5) 代码如下:
ivregress 2sls weeks (morekids = samesex)
estat firststage
F 统计量为 143:15 > 10,说明 samesex 不是弱工具变量。
(6) 代码如下:
ivregress 2sls weeks (morekids = samesex)
生育行为对劳动力供给的效应为 6:033,p 值为 0:108 > 0:05,说明在统计学上不显著。
(7) 代码如下:
ivregress 2sls weeks age black hispan othrace (morekids = samesex)
回归结果有变化,因为增加了解释变量,使得模型更加完整,也会产生更多不同的细节。
33
第 11 章 二值选择模型
11.1 假设离散型随机变量 Y 服从如下概率分布:P .Y D 1/ D p; P .Y D 2/ D q,而 P .Y D 3/ D 1 p q。从
此分布中抽取独立同分布的随机样本 fY1 ; ; Yn g。
(2) 推导 p 与 q 的最大似然估计量。
解:
(3) 更一般地,如果 " N.0; 2 /,其中 ¤ 1,则 y 为 Probit 模型。(提示:在方程 (11.32) 的两边同时
除以 。)
证:
(1)
D1 ƒ. x 0 ˇ/
D ƒ.x 0 ˇ/
所以 y 为 Logit 模型。
34
(2)
D1 ˆ. x 0 ˇ/
D ˆ.x 0 ˇ/
所以 y 为 Probit 模型。
(3)
35
(4) 加入控制变量 hrat (房供占总收入比例),obrat (其他债务支出占总收入比例),loanprc (贷款额占房
价比例),une m (所在行业的失业率),male (是否男性),marri ed (是否已婚),dep (家属人数),sch
(是否受过 12 年及以上教育),cosign (是否有担保人),chi st .1 D 怠账未及 60 天,0 D 怠账 60 天及
以上),pubrec (是否曾申请破产),mort lat1 (有 1 2 次逾期付款),mort lat 2 (有 2 次以上逾期付
款),以及 vr (所在小区的空置率是否高于平均值),再次进行 Probit 回归。是否存在歧视非白人的统
计证据?
解:
(1) 代码如下:
reg approve white, r
whit e 的系数 t 检验的 p 值约为 0,说明拒绝原假设,认为系数显著。此效应为 0.2006。
(2) 代码如下:
probit approve white, r
Probit 模型不是线性的,线性概率模型是线性的;
Probit 模型的 R2 高于线性概率模型。
(3) 代码如下:
margins, dydx(*)
线性概率模型下,在其他条件不变时,白人获得贷款的概率比其他人种高 20.06%;
Probit 模型下,在其他条件不变时,白人获得贷款的概率比其他人种高 15.07%。
综上,可以认为美国的按揭贷款市场对非白人 .nonwhi t e/ 存在歧视。
(4) 代码如下:
probit approve white hrat obrat loanprc unem male married dep sch cosign chist
pubrec mortlat1 mortlat2 vr, r
margins, dydx(*)
新的 Probit 模型下,在其他条件不变时,白人获得贷款的概率比其他人种高 8.64%,可以认为在统计
上美国市场歧视非白人。
(5) 代码如下:
logit approve white hrat obrat loanprc unem male married dep sch cosign chist
pubrec mortlat1 mortlat2 vr, r
36
Probit 模型下,hrat; male; dep; sch; cosign; mort lat1; mort lat 2 系数不显著;
Logit 模型下,hrat; male; dep; sch; cosign; mort lat1; mort lat 2 系数不显著;
综上,两个模型的系数显著性一致。
(6) 代码如下:
logit approve white hrat obrat loanprc unem male married dep sch cosign chist
pubrec mortlat1 mortlat2 vr, or nolog r
在给定其他控制变量的情况下,白人与非白人成功申请贷款的几率比为 2.5543。
(3) 计算所有变量的平均边际效应,并与线性概率模型的边际效应相比较。
(6) 预测中原王朝被征服的概率,
记为 conquered1。将预测征服概率 .conquered1/ 与实际征服 .conqu
ered / 的时间趋势画在一起进行对比。(提示:使用 Stata 命令“tsline conquered1 conquered”。)
解:
(1) 代码如下:
reg conquered diff age wall drought1, r
(2) 代码如下:
logit conquered diff age wall drought1, or nolog r
d iff 的系数为 1:0394 > 0,p 值约为 0,说明系数显著,表明在其他条件不变时,中原王朝早于游牧
政权建立的年数每增加一年,被征服的几率比就平均提高 3.94%;
age 的系数为 0:7684089 > 0,p 值为 0:006 < 0:05,说明系数显著,表明在其他条件不变时,中原王
朝的绝对年龄每增加一年,被征服的几率比就平均降低 23.16%;
37
wal l 的系数为 0:0831943 > 0,p 值为 0:052 > 0:05,说明系数不显著,表明在其他条件不变时,有
长城的中原王朝被征服的几率比平均是没长城的中原王朝的 8.32%;
drought1 的系数为 50:17439 > 0,p 值为 0:004 < 0:05,说明系数显著,表明在其他条件不变时,中
国北方在十年中发生旱灾的年数比例的一阶滞后每增加一个单位,被征服的几率比就增加 4917.44%。
(3) 代码如下:
margins, dydx(*)
Logit 模型与线性概率模型的边际效应类似,无显著变化。
(5) 代码如下:
estat clas
(6) 代码如下:
predict conquered1
tsline conquered1 conquered
(7) 代码如下:
probit conquered diff age wall drought1, nolog r
(8) 代码如下:
margins, dydx(*)
Probit 模型与 Logit 模型的平均边际效应类似,无显著变化。
(9) 代码如下:
estat clas
Probit 模型与 Logit 模型的正确预测百分比类似,无显著变化。
38
第 12 章 面板数据
12.1 考虑横截面数据的一元线性回归:
yi yN D ˇ.xi x/
N C ."i "N/ .i D 1; ; n/ (12.25)
n
1X
其中,y; N "N 分别为 y; x; " 的样本均值,比如 yN D
N x; yi 。(提示:使用无常数项的 OLS 公式。)
n i D1
证:
将离差模型转化为 Yi D ˇXi C Ui ,其中 Y; X; U 分别代表 y y;
N x x;
N " "N,则为计算其 OLS 估计量,需
P P P O i /2 ,所以
min Q D ei2 D .Yi YOi /2 D .Yi ˇX
P
@Q X Xi Yi
D 2 .Yi O O
ˇXi /Xi D 0 ) ˇ D P 2
@ˇO Xi
P P
X i Y i .xi x/.y
N i y/N
而 ˇO D P 2 D P 2
,这与一元线性回归模型的 OLS 估计量一致,证毕。
Xi .xi x/
N
0
yi1 D xi1 ˇ C zi0 ı C ui C "i1
0
yi2 D xi2 ˇ C zi0 ı C ui C "i2
对 FE 估计量:
对 FD 估计量:
yi 2 yi1 D .xi2 xi1 /0 ˇ C ."i 2 "i1 /
39
其中,y 为州产值 (gross state product),k1 为公共资本 (包括高速公路、街道、供水、下水道及其他公共建
筑),k2 为私人资本存量 (private capital stock),labor 为非农劳动力,une mp 为州失业率 (反映影响产出
的经济周期因素)。面板变量为 st at e (州),而时间变量为 year (年份)。
(6) 进行传统的豪斯曼检验。
(7) 进行稳健的豪斯曼检验。
(8) 在组内估计中,加入时间趋势项。时间趋势项是否显著?
(9) 在组内估计中,加入时间虚拟变量,估计双向固定效应模型。时间效应是否显著?
(11) 计算组间估计量。此估计量是否可信?
解:
(1) 代码如下:
xtset state year
reg lny lnk1 lnk2 lnlabor unemp, vce(cluster state)
ln k1 的系数为 0:155007 > 0,p 值为 0:014 < 0:05,说明系数显著,表明其他条件不变时,公共资本
每增加 1%,州产值将平均增加 0.1550%。
(2) 代码如下:
xtreg lny lnk1 lnk2 lnlabor unemp, re r theta
p 值约为 0,说明拒绝原假设,认为存在个体效应。
(3) 代码如下:
xtreg lny lnk1 lnk2 lnlabor unemp, mle nolog
(4) 代码如下:
xtreg lny lnk1 lnk2 lnlabor unemp, fe r
ln k1 的系数由正变负,p 值为 0:671 > 0:05,系数由显著变为不显著。
(5) 代码如下:
xtreg lny lnk1 lnk2 lnlabor unemp i.state, vce(cluster state)
40
大部分个体虚拟变量的 p 值接近于 0,拒绝原假设,认为存在个体效应。
(6) 代码如下:
xtreg lny lnk1 lnk2 lnlabor unemp, fe
estimates store FE
xtreg lny lnk1 lnk2 lnlabor unemp, re
estimates store RE
hausman FE RE, constant sigmamore
(7) 代码如下:
ssc install xtoverid
quietly xtreg lny lnk1 lnk2 lnlabor unemp, re r
xtoverid
(8) 代码如下:
xtreg lny lnk1 lnk2 lnlabor unemp t, fe r
时间趋势项的 p 值约为 0,说明拒绝原假设,认为时间趋势项显著。
(9) 代码如下:
xtreg lny lnk1 lnk2 lnlabor unemp i.year, fe r
结果中 1974、1975、1976、1979、1980、1981、1982 年的 p 值大于 0.05,认为时间效应不显著,其
他年份的时间效应显著。
(10) 代码如下:
xtserial lny lnk1 lnk2 lnlabor unemp, output
ln k1 的系数变回正的,p 值为 0:011 < 0:05,说明系数显著。
(11) 代码如下:
xtreg lny lnk1 lnk2 lnlabor unemp, be
(6) 的豪斯曼检验中 p 值大于 0.05,说明接受原假设,认为不存在个体效应,倾向于选择固定效应模
型;(7) 的豪斯曼检验也认为倾向于选择固定效应模型,而组间估计量属于随机效应模型,所以此估
计量不可信。
41
第 13 章 平稳时间序列
13.1 根据第 6 章大样本理论,扰动项存在自相关本身,并不会导致 OLS 估计不一致。那么,为什么 ADL 模型
要求其扰动项无自相关?
解:
在 ADL 模型中,除了解释变量的滞后外,还存在被解释变量的滞后,要求扰动项无自相关可以保证在存
在被解释变量的滞后时,OLS 估计的一致性。
不妨假设 ADL(1, 0) 模型:yt D ˇ1 yt 1 C "t ,同时 "t D "t 1 C ut . ¤ 0/,对 yt D ˇ1 yt 1 C "t 两边同时
减去 yt 1 ,可得
0 D .ˇ1 C / 1 ˇ1 2 C u2
1 D .ˇ1 C / 0 ˇ1 1
2 D .ˇ1 C / 1 ˇ1 0
1
结合 OLS 法,可知 ˇO1 D .ˇ1 C / ˇ1 ,再求解 0; 1; 2 ,代入 ˇO1 ,于是有
0
ˇ1 C
plimˇO1 D
1 C ˇ1
ln y D ˇ0 C ˇ1 ln y C 1 ln x C 2 ln x
两边同时对 x 求导可得
dy =dx dy =dx 1 1
D ˇ 1 C 1 C 2
y y x x
dy x 1 C 2 1 C 2
于是
D ,即当 xt 增加 1% 时,yt 增加 %。
dx y 1 ˇ1 1 ˇ1
13.3 使用数据集 gdp_china.dta,回答以下问题:
42
解:
(1) 代码如下:
reg dlny L.dlny
estat bgodfrey
reg dlny L(1/2).dlny
estat bgodfrey
predict ar2dlny1
list ar2dlny1 if year == 2013
dis exp(lny[35] + ar2dlny1[36])
AR.1/:p 值为 0:0129 < 0:05,拒绝原假设,认为存在一阶自相关。
AR.2/:p 值为 0:8853 > 0:05,接受原假设,认为不存在一阶自相关。
(2) 代码如下:
reg dlny L(1/3).dlny
predict ar3dlny1
list ar3dlny1 if year == 2013
dis exp(lny[35] + ar3dlny1[36])
dis y[36]
AR.3/ 的预测值为 95908.312,AR.2/ 的预测值为 95733.271,2013 年的实际值为 95089.211,AR.2/
的预测误差小于 AR.3/,所以 AR.3/ 的预测能力并不强于 AR.2/。
(3) 根据 AIC 与 BIC 信息准则,确定有关 r 的 AR.p/ 模型的滞后阶数 p。(提示:将 AR.p/ 视为一维 VAR,
使用 Stata 命令 varsoc。)
(1) 代码如下:
tsline r
股指收益率围绕 0 波动,波动范围较大,有一定周期性。
(2) 代码如下:
reg r L.r
reg r L(1/2).r
43
reg r L(1/3).r
三种模型下的变量的 p 值均大于 0.05,说明变量不显著,可以认为自回归模型并没有有助于预测未
来的股指收益率。
(3) 代码如下:
varsoc r, maxlag(10)
根据结果,发现不应该使用 AR 模型,应尝试其他类型的时间序列模型。
(3) 失业率的滞后是否有助于预测通胀率的变化?滞后失业率的系数的经济含义是什么?
(4) 计算失业率每增加一个百分点,对于通胀率变化的短期效应与长期效应。
解:
(1) 代码如下:
reg dinf L(1/6).dinf, r
reg dinf L(1/5).dinf, r
reg dinf L(1/4).dinf, r
确定滞后阶数 p D 4。
(2) 代码如下:
reg dinf L(1/4).dinf L(1/6).unem, r
reg dinf L(1/4).dinf L(1/5).unem, r
reg dinf L(1/4).dinf L(1/4).unem, r
reg dinf L(1/4).dinf L(1/3).unem, r
reg dinf L(1/3).dinf L(1/3).unem, r
reg dinf L(1/3).dinf L(1/2).unem, r
reg dinf L(1/2).dinf L(1/2).unem, r
reg dinf L(1/2).dinf L.unem, r
确定 .p; q/ D .2; 1/。
44
(3) 由于失业率的一阶滞后的系数对应的 p 值为 0:06 < 0:1,说明系数显著,认为失业率的滞后有助于预
测通胀率的变化。
失业率的一阶滞后的系数为 0:3755,表明在其他条件不变时,失业率每增加 1%,下一期通胀率的
变化将下降 0.3755%。
(4) 代码如下:
dis -0.3754654/(1 + 0.0202007 + 0.4836144)
失业率每增加一个百分点,短期内下一期通胀率的变化将下降 0.3755%,长期内通胀率的变化将下降
0.2497%。
(4) x1 与 x2 对 y1 的作用是否显著?评论其经济含义。
(8) 考察 y1 与 y2 之间的格兰杰因果关系。
解:
(1) 代码如下:
varsoc y1 y2, maxlag(10)
此 VAR 模型的滞后阶数为 2 阶。
(2) 代码如下:
var y1 y2, lags(1/2)
45
(3) 代码如下:
var y1 y2, lags(1/2) exog(x1 x2 w1 w2 w3 w4 w5 w6 w7)
(5) 代码如下:
varwle
p 值均小于 0.05,说明各阶系数均显著。
(6) 代码如下:
varlmar
p 值均大于 0.05,说明接受原假设,认为残差没有自相关。
(7) 代码如下:
varstable, graph
所有特征值的模均小于 1,即均在单位圆内部,故此 VAR 系统是稳定的。
(8) 代码如下:
vargranger
H0 W y2 不是 y1 的格兰杰因果关系:p 值为 0:600 > 0:05,说明接受原假设,认为 y2 不是 y1 的格兰
杰因果关系。
H0 W y1 不是 y2 的格兰杰因果关系:p 值为 0:032 < 0:05,说明拒绝原假设,认为 y1 是 y2 的格兰杰
因果关系。
(9) 代码如下:
irf creat y12, set(bai_kung)
(10) 代码如下:
irf graph oirf, i(y1) r(y2) yline(0)
46
gen mon = month(dofm(month))
tab mon, gen(m)
reg cpi m2-m12
predict cpi_r, r
sum cpi
gen cpi_ar = cpi_r + r(mean)
tsline cpi_ar cpi, lpattern(dash)
47
第 14 章 单位根与协整
5
14.1 对于 AR.2/,yt D 3 C yt 1 yt 2 C "t ,写出其特征方程 '.z/,并确定其稳定性。
2
解:
5 1
特征方程 '.z/ D 1 z C z 2 ,令 '.z/ D 0,解得 z1 D ; z2 D 2,因为 jz1 j < 1,则该 AR.2/ 模型不平稳。
2 2
14.2 使用数据集 nelson_plosser.dta,检验变量 lcpi (消费价格指数的对数) 与 lsp500 (SP500 股指的对数) 是否
为单位根过程。
解:
代码如下:
dis 12*(111/100)^(1/4)
dfuller lcpi, lags(11) reg
dfuller lcpi, lags(2) reg
dfuller lsp500, lags(11) reg
dfuller lsp500, lags(1) reg
48
(5) 检验 VECM 模型的残差是否存在自相关。如果有自相关,则增加滞后阶数,重新估计 VECM 模型,
直至残差无自相关。
(7) 评论协整系数的统计显著性及经济意义。
解:
(1) 代码如下:
tsline lwg lprgnp lcpi
三者时间趋势类似,可能存在协整关系。
(2) 代码如下:
varsoc lwg lprgnp lcpi, maxlag(10)
确定 VAR 模型的滞后阶数为 2 阶。
(3) 代码如下:
vecrank lwg lprgnp lcpi, lags(2) max
存在 1 个协整关系。
(4) 代码如下:
vec lwg lprgnp lcpi, lags(2) rank(1)
(5) 代码如下:
veclmar
2 阶 p 值为 0:01 < 0:05,说明拒绝原假设,认为存在自相关。
增加滞后阶数后的代码如下:
vec lwg lprgnp lcpi, lags(3) rank(1)
veclmar
此时 p 值均小于 0.05,说明接受原假设,认为不存在自相关。
(6) 代码如下:
vecstable, graph
除了 VECM 模型本身所假设的单位根之外,其余特征值的模均小于 1,即落在单位圆之内,认为
VECM 模型稳定。
49
第 15 章 如何做实证研究
15.1 找一篇你感兴趣的经典论文,下载其数据,并复制 (replicate) 其实证结果。
略.
50