You are on page 1of 5

计量经济学 2023 秋

课程号:100719C004-04
中国石油大学(北京) 任课教师:朱潜挺

课后作业 #2
(截止时间 2023/10/6 23:59)
[注:在必要处粘贴 Stata 命令和输出结果。]

1. 假设你是北京新东方学校的项目主管,并负责评估你主管的雅思考试培训班对考生雅思
成绩提升的作用,待研究的总体是所有报名参加了 2023 年雅思培训班的来自北京各个高
校的大学本科生。你准备回归以下简单线性回归模型:
𝐼𝑠𝑐𝑜𝑟𝑒𝑖 = 𝛽0 + 𝛽1 ℎ𝑜𝑢𝑟𝑠𝑖 + 𝑢𝑖
其中 ℎ𝑜𝑢𝑟𝑠𝑖 表示学生 𝑖 参加培训班的总小时数,𝐼𝑠𝑐𝑜𝑟𝑒𝑖 表示其最终的雅思成绩。
(i). 假设你被授权开展一个控制实验,简单陈述你计划如何开展实验并收集相应的数据,以

使得 OLS 估计量 𝛽̂1 具有因果效应的解释(即 SLR.4 成立)。

(ii). 论述该实验在实际中的可操作性,以及你对简单线性回归模型的评价。

2. 接上题,假设一个更实际的情形,即现在无法开展一个控制实验,作为项目主管你只能
观察并收集学生出勤培训课的时间及其最终雅思成绩的数据。
(i). 简单陈述在无法开展实验的情况下,你将如何从总体中构建一个随机样本来估计 ℎ𝑜𝑢𝑟𝑠

对 𝐼𝑠𝑐𝑜𝑟𝑒 的因果效应。

(ii). 写出一个包含 ℎ𝑜𝑢𝑟𝑠 的多元线性回归方程,列出另外 4 个你认为应该加入模型的重要

自变量,以使得 ℎ𝑜𝑢𝑟𝑠 的 OLS 估计系数更接近因果效应的解释(即 MLR.4 成立),简

单解释每个自变量的含义及预期符号方向。

(iii). 解释就识别因果关系而言,为何多元回归模型优于简单线性回归模型。

3. 以下为上机课上关于 Partialling out 两步法的 Stata 估计结果截图。第一列“OLS”为因变


量 log(𝑤𝑎𝑔𝑒) 对 𝑒𝑑𝑢𝑐、𝑒𝑥𝑝𝑒𝑟、𝑡𝑒𝑛𝑢𝑟𝑒 三个自变量的估计结果,第二列“Part1”为 𝑒𝑑𝑢𝑐
的 Partialling out 两步法的估计结果,第三列“Part2”为在“Part1”基础上增加 𝑒𝑥𝑝𝑒𝑟 和
𝑡𝑒𝑛𝑢𝑟𝑒 的估计结果。
(i). 与“Part1”相比,在“Part2”中增加 𝑒𝑥𝑝𝑒𝑟 和 𝑡𝑒𝑛𝑢𝑟𝑒 之后,为何 𝑟ℎ𝑎𝑡 系数保持不

变?

(ii). 与“OLS”相比,为何“Part2”中 𝑒𝑥𝑝𝑒𝑟 和 𝑡𝑒𝑛𝑢𝑟𝑒 的估计系数不一样?

(iii). 与“OLS”相比,为何“Part2”中 𝑒𝑥𝑝𝑒𝑟 和 𝑡𝑒𝑛𝑢𝑟𝑒 的标准误更小?

4. 下面的方程描述了社区的房价中位数和污染量(𝑛𝑜𝑥 表示一氧化二氮的含量)、社区房屋
的平均房间数(用 𝑟𝑜𝑜𝑚𝑠 表示)之间的关系:
log(𝑝𝑟𝑖𝑐𝑒) = 𝛽0 + 𝛽1 log(𝑛𝑜𝑥) + 𝛽2 𝑟𝑜𝑜𝑚𝑠 + 𝑢
(i). 𝛽1 和 𝛽2 的符号可能是什么?解释 𝛽1 。

(ii). 解释 𝑛𝑜𝑥 和 𝑟𝑜𝑜𝑚𝑠 可能存在负相关关系的原因。在这种情况下,log(𝑝𝑟𝑖𝑐𝑒) 对

log(𝑛𝑜𝑥) 的简单回归将导致 𝛽1 正的偏误还是负的偏误?请解释。

(iii). 利用 HPRICE2 数据集,得到以下估计结果:


̂ (𝑝𝑟𝑖𝑐𝑒) = 11.71 − 1.043 log(𝑛𝑜𝑥) , 𝑛 = 506, 𝑅 2 = 0.264
log
̂ (𝑝𝑟𝑖𝑐𝑒) = 9.23 − 0.718 log(𝑛𝑜𝑥) + 0.306𝑟𝑜𝑜𝑚𝑠, 𝑛 = 506, 𝑅 2 = 0.514
log

两个回归中 𝑝𝑟𝑖𝑐𝑒 关于 𝑛𝑜𝑥 的弹性估计结果能否验证你在 (ii) 中的答案?这是否意

味着-0.718 比-1.043 更接近真实的弹性?

5. 假设你对估计其他条件不变情况下 𝑦 和 𝑥1 之间的关系感兴趣,并为此搜集了两个控制

变量 𝑥2 和 𝑥3 的数据。令 𝛽̃1 表示 𝑦 对 𝑥1 进行简单回归的 𝑥1 的斜率估计值,而 𝛽̂1

表示 𝑦 对 𝑥1 、𝑥2 、𝑥3 进行多元回归的 𝑥1 的斜率估计值。


(i). 若样本中 𝑥1 与 𝑥2 和 𝑥3 高度相关,且 𝑥2 和 𝑥3 对 𝑦 具有很大的偏效应。你预计 𝛽̃1

和 𝛽̂1 是十分类似还是十分不同?请解释。

(ii). 若 𝑥1 与 𝑥2 和 𝑥3 几乎无关,但 𝑥2 和 𝑥3 高度相关,你预计 𝛽̃1 和 𝛽̂1 是十分类似


还是十分不同?请解释。

(iii). 若样本中 𝑥1 与 𝑥2 和 𝑥3 高度相关,且 𝑥2 和 𝑥3 对 𝑦 具有很小的偏效应,那么

𝑠𝑒(𝛽̃1 ) 和 𝑠𝑒(𝛽̂1 ) 哪个更小?请解释。

(iv). 若 𝑥1 与 𝑥2 和 𝑥3 几乎无关,𝑥2 和 𝑥3 对 𝑦 具有很大的偏效应,并且 𝑥2 和 𝑥3 高

度相关,那么 𝑠𝑒(𝛽̃1 ) 和 𝑠𝑒(𝛽̂1 ) 哪个更小?请解释。

6. 利用 MLB1 数据集,其中包含了美国职业棒球大联盟的工资数据,得到以下估计结果。
因变量 𝑙𝑠𝑎𝑙𝑎𝑟𝑦 为工资对数值,两个自变量分别为在联盟的工作时间(𝑦𝑒𝑎𝑟𝑠)和每年打
点记录数(𝑟𝑏𝑖𝑠𝑦𝑟):
̂ = 12.373 + 0.177𝑦𝑒𝑎𝑟𝑠
𝑙𝑠𝑎𝑙𝑎𝑟𝑦 (1)
(0.098) (0.0132)

𝑛 = 353, 𝑆𝑆𝑅 = 326.196, 𝑆𝐸𝑅 = 0.964, 𝑅 2 = 0.337


̂ = 11.861 + 0.0904𝑦𝑒𝑎𝑟𝑠 + 0.0302𝑟𝑏𝑖𝑠𝑦𝑟
𝑙𝑠𝑎𝑙𝑎𝑟𝑦 (2)
(0.084) (0.0118) (0.0020)

𝑛 = 353, 𝑆𝑆𝑅 = 198.475, 𝑆𝐸𝑅 = 0.753, 𝑅 2 = 0.597


𝑦𝑒𝑎𝑟𝑠
̂ = 3.424 + 0.0828𝑟𝑏𝑖𝑠𝑦𝑟 (3)
(0.331) (0.0079)

𝑛 = 353, 𝑆𝑆𝑅 = 4042.09, 𝑆𝐸𝑅 = 3.394, 𝑅 2 = 0.237


(i). 回归 (1) 和回归 (2) 的自由度分别是多少?为什么回归 (2) 中的 SER 小于回归 (1)?

(ii). 𝑦𝑒𝑎𝑟𝑠 和 𝑟𝑏𝑖𝑠𝑦𝑟 的样本相关系数为 0.487,这符合实际吗?请解释。

(iii). 回归 (2) 中斜率系数的方差膨胀因子(只有一个)是多少?𝑦𝑒𝑎𝑟𝑠 和 𝑟𝑏𝑖𝑠𝑦𝑟 的共线性

是轻微的、适度的还是较强的?

(iv). 为什么回归 (2) 中 𝑦𝑒𝑎𝑟𝑠 的标准误比 (1) 中的小?

7. 数据集 CEOSAL2 包含了 177 位首席执行官(CEO)的数据,并可用来考察企业业绩对


CEO 薪水的影响。
(i). 估计一个年薪关于企业销售量(𝑠𝑎𝑙𝑒𝑠)和市场价值(𝑚𝑘𝑡𝑣𝑎𝑙)的回归模型,让每个自变

量的系数都表示常弹性。以规范形式报告估计结果。

(ii). 在 (i) 中的模型中增加 𝑝𝑟𝑜𝑓𝑖𝑡𝑠。为什么这个变量不能以对数形式进入模型?你认为这

三个企业业绩变量解释了 CEO 年薪波动中的大部分吗?

(iii). 在 (ii) 中的模型中增加 𝑐𝑒𝑜𝑡𝑒𝑛。保持其他条件不变,延长一年 CEO 任期,估计的百分


比回报是多少?

(iv). 计算变量 log(𝑚𝑘𝑡𝑣𝑎𝑙) 和 𝑝𝑟𝑜𝑓𝑖𝑡𝑠 之间的样本相关系数,二者高度相关吗?这对它们

的 OLS 估计值有何影响?

8. 本题利用数据集 DISCRIM。该数据集包含新泽西州和宾夕法尼亚州的各个邮区的快餐店
各种商品的价格和人口特征方面的数据。其目的是为了解快餐店是否在黑人更集中的地
区收取更高的价格。
(i). 求出样本中 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 和 𝑖𝑛𝑐𝑜𝑚𝑒 的平均值及其标准差。

(ii). 考虑一个模型,用人口中黑人比例和收入中位数来解释苏打饮料的价格 𝑝𝑠𝑜𝑑𝑎:

𝑝𝑠𝑜𝑑𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 + 𝛽2 𝑖𝑛𝑐𝑜𝑚𝑒 + 𝑢

用 OLS 估计这个模型并以规范形式报告结果,包括样本量和 𝑅 2。解释 𝛽1 ,你认为它在

经济上算大吗?

(iii). 将 (ii) 中得到的估计值与 𝑝𝑠𝑜𝑑𝑎 对 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 进行简单回归得到的估计值进行比较。控

制收入变量后,这种歧视效应是更大还是更小了?

(iv). 收入价格弹性为常数的模型可能更加适合。报告如下模型的估计值:

log(𝑝𝑠𝑜𝑑𝑎) = 𝛽0 + 𝛽1 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 + 𝛽2 log(𝑖𝑛𝑐𝑜𝑚𝑒) + 𝑢

若 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 提高 0.20(即 20 个百分点),预计 𝑝𝑠𝑜𝑑𝑎 变化的百分数是多少?

(v). 在 (iv) 中的模型中增加 𝑝𝑟𝑝𝑝𝑜𝑣。𝛽̂𝑝𝑟𝑝𝑏𝑙𝑐𝑘 有何变化?

(vi). 计算 log(𝑖𝑛𝑐𝑜𝑚𝑒) 和 𝑝𝑟𝑝𝑝𝑜𝑣 之间的样本相关系数,大致符合你的预期吗?

(vii). 试评价如下表述:
“由于 log(𝑖𝑛𝑐𝑜𝑚𝑒) 和 𝑝𝑟𝑝𝑝𝑜𝑣 高度相关,所以它们不应该进入

同一个回归。”

9. 利用数据集 MEAPSINGLE 研究单亲家庭对学生数学成绩的影响。该数据是 2000 年密歇


根州东南部的学校的子集,其社会经济变量在邮区水平上获得(邮政编码基于学校的邮
寄地址确定)。
(i). 做 𝑚𝑎𝑡ℎ4 对 𝑝𝑐𝑡𝑠𝑔𝑙𝑒 的简单回归并以规范形式报告估计结果。解释斜率系数的意义,

单亲家庭的影响看上去大吗?

(ii). 在方程中加入变量 𝑙𝑚𝑒𝑑𝑖𝑛𝑐 和 𝑓𝑟𝑒𝑒。𝑝𝑐𝑡𝑠𝑔𝑙𝑒 的系数有什么变化?请解释。

(iii). 计算 𝑙𝑚𝑒𝑑𝑖𝑛𝑐 和 𝑓𝑟𝑒𝑒 的样本相关系数,它的符号和你预测的是否一致?

(iv). 𝑙𝑚𝑒𝑑𝑖𝑛𝑐 和 𝑓𝑟𝑒𝑒 的实际相关性是否意味着为了更好地估计单亲家庭对学生成绩的因

果效应,应该在回归中去掉其中一个变量?请解释。
(v). 求出 (ii) 中模型的每个自变量的方差膨账因子(VIF),哪个变量有最大的 VIF?这一认

知是否会影响你用来研究单亲家庭对数学成绩的因果效应的模型?

You might also like