课后作业 #2

计量经济学 2023 秋
课程号：100719C004-04
中国石油大学（北京）任课教师：朱潜挺
课后作业 #2
（截止时间 2023/10/6 23:59）
[注：在必要处粘贴 Stata 命令和输出结果。]
1. 假设你是北京新东方学校的项目主管，并负责评估你主管的雅思考试培训班对考生雅思
成绩提升的作用，待研究的总体是所有报名参加了 2023 年雅思培训班的来自北京各个高
校的大学本科生。你准备回归以下简单线性回归模型：
𝐼𝑠𝑐𝑜𝑟𝑒𝑖 = 𝛽0 + 𝛽1 ℎ𝑜𝑢𝑟𝑠𝑖 + 𝑢𝑖
其中 ℎ𝑜𝑢𝑟𝑠𝑖 表示学生 𝑖 参加培训班的总小时数，𝐼𝑠𝑐𝑜𝑟𝑒𝑖 表示其最终的雅思成绩。
(i). 假设你被授权开展一个控制实验，简单陈述你计划如何开展实验并收集相应的数据，以
使得 OLS 估计量 𝛽̂1 具有因果效应的解释（即 SLR.4 成立）。
(ii). 论述该实验在实际中的可操作性，以及你对简单线性回归模型的评价。
2. 接上题，假设一个更实际的情形，即现在无法开展一个控制实验，作为项目主管你只能
观察并收集学生出勤培训课的时间及其最终雅思成绩的数据。
(i). 简单陈述在无法开展实验的情况下，你将如何从总体中构建一个随机样本来估计 ℎ𝑜𝑢𝑟𝑠
对 𝐼𝑠𝑐𝑜𝑟𝑒 的因果效应。
(ii). 写出一个包含 ℎ𝑜𝑢𝑟𝑠 的多元线性回归方程，列出另外 4 个你认为应该加入模型的重要
自变量，以使得 ℎ𝑜𝑢𝑟𝑠 的 OLS 估计系数更接近因果效应的解释（即 MLR.4 成立），简
单解释每个自变量的含义及预期符号方向。
(iii). 解释就识别因果关系而言，为何多元回归模型优于简单线性回归模型。
3. 以下为上机课上关于 Partialling out 两步法的 Stata 估计结果截图。第一列“OLS”为因变

量 log(𝑤𝑎𝑔𝑒) 对 𝑒𝑑𝑢𝑐、𝑒𝑥𝑝𝑒𝑟、𝑡𝑒𝑛𝑢𝑟𝑒 三个自变量的估计结果，第二列“Part1”为 𝑒𝑑𝑢𝑐
的 Partialling out 两步法的估计结果，第三列“Part2”为在“Part1”基础上增加 𝑒𝑥𝑝𝑒𝑟 和
𝑡𝑒𝑛𝑢𝑟𝑒 的估计结果。
(i). 与“Part1”相比，在“Part2”中增加 𝑒𝑥𝑝𝑒𝑟 和 𝑡𝑒𝑛𝑢𝑟𝑒 之后，为何 𝑟ℎ𝑎𝑡 系数保持不
变？
(ii). 与“OLS”相比，为何“Part2”中 𝑒𝑥𝑝𝑒𝑟 和 𝑡𝑒𝑛𝑢𝑟𝑒 的估计系数不一样？
(iii). 与“OLS”相比，为何“Part2”中 𝑒𝑥𝑝𝑒𝑟 和 𝑡𝑒𝑛𝑢𝑟𝑒 的标准误更小？
4. 下面的方程描述了社区的房价中位数和污染量（𝑛𝑜𝑥 表示一氧化二氮的含量）、社区房屋
的平均房间数（用 𝑟𝑜𝑜𝑚𝑠 表示）之间的关系：
log(𝑝𝑟𝑖𝑐𝑒) = 𝛽0 + 𝛽1 log(𝑛𝑜𝑥) + 𝛽2 𝑟𝑜𝑜𝑚𝑠 + 𝑢
(i). 𝛽1 和 𝛽2 的符号可能是什么？解释 𝛽1 。
(ii). 解释 𝑛𝑜𝑥 和 𝑟𝑜𝑜𝑚𝑠 可能存在负相关关系的原因。在这种情况下，log(𝑝𝑟𝑖𝑐𝑒) 对
log(𝑛𝑜𝑥) 的简单回归将导致 𝛽1 正的偏误还是负的偏误？请解释。
(iii). 利用 HPRICE2 数据集，得到以下估计结果：

̂ (𝑝𝑟𝑖𝑐𝑒) = 11.71 − 1.043 log(𝑛𝑜𝑥) , 𝑛 = 506, 𝑅 2 = 0.264
log
̂ (𝑝𝑟𝑖𝑐𝑒) = 9.23 − 0.718 log(𝑛𝑜𝑥) + 0.306𝑟𝑜𝑜𝑚𝑠, 𝑛 = 506, 𝑅 2 = 0.514
log
两个回归中 𝑝𝑟𝑖𝑐𝑒 关于 𝑛𝑜𝑥 的弹性估计结果能否验证你在 (ii) 中的答案？这是否意
味着-0.718 比-1.043 更接近真实的弹性？
5. 假设你对估计其他条件不变情况下 𝑦 和 𝑥1 之间的关系感兴趣，并为此搜集了两个控制
变量 𝑥2 和 𝑥3 的数据。令 𝛽̃1 表示 𝑦 对 𝑥1 进行简单回归的 𝑥1 的斜率估计值，而 𝛽̂1
表示 𝑦 对 𝑥1 、𝑥2 、𝑥3 进行多元回归的 𝑥1 的斜率估计值。

(i). 若样本中 𝑥1 与 𝑥2 和 𝑥3 高度相关，且 𝑥2 和 𝑥3 对 𝑦 具有很大的偏效应。你预计 𝛽̃1
和 𝛽̂1 是十分类似还是十分不同？请解释。
(ii). 若 𝑥1 与 𝑥2 和 𝑥3 几乎无关，但 𝑥2 和 𝑥3 高度相关，你预计 𝛽̃1 和 𝛽̂1 是十分类似

还是十分不同？请解释。
(iii). 若样本中 𝑥1 与 𝑥2 和 𝑥3 高度相关，且 𝑥2 和 𝑥3 对 𝑦 具有很小的偏效应，那么
𝑠𝑒(𝛽̃1 ) 和 𝑠𝑒(𝛽̂1 ) 哪个更小？请解释。
(iv). 若 𝑥1 与 𝑥2 和 𝑥3 几乎无关，𝑥2 和 𝑥3 对 𝑦 具有很大的偏效应，并且 𝑥2 和 𝑥3 高
度相关，那么 𝑠𝑒(𝛽̃1 ) 和 𝑠𝑒(𝛽̂1 ) 哪个更小？请解释。
6. 利用 MLB1 数据集，其中包含了美国职业棒球大联盟的工资数据，得到以下估计结果。
因变量 𝑙𝑠𝑎𝑙𝑎𝑟𝑦 为工资对数值，两个自变量分别为在联盟的工作时间（𝑦𝑒𝑎𝑟𝑠）和每年打
点记录数（𝑟𝑏𝑖𝑠𝑦𝑟）：
̂ = 12.373 + 0.177𝑦𝑒𝑎𝑟𝑠
𝑙𝑠𝑎𝑙𝑎𝑟𝑦 (1)
(0.098) (0.0132)
𝑛 = 353, 𝑆𝑆𝑅 = 326.196, 𝑆𝐸𝑅 = 0.964, 𝑅 2 = 0.337

̂ = 11.861 + 0.0904𝑦𝑒𝑎𝑟𝑠 + 0.0302𝑟𝑏𝑖𝑠𝑦𝑟
𝑙𝑠𝑎𝑙𝑎𝑟𝑦 (2)
(0.084) (0.0118) (0.0020)
𝑛 = 353, 𝑆𝑆𝑅 = 198.475, 𝑆𝐸𝑅 = 0.753, 𝑅 2 = 0.597

𝑦𝑒𝑎𝑟𝑠
̂ = 3.424 + 0.0828𝑟𝑏𝑖𝑠𝑦𝑟 (3)
(0.331) (0.0079)
𝑛 = 353, 𝑆𝑆𝑅 = 4042.09, 𝑆𝐸𝑅 = 3.394, 𝑅 2 = 0.237

(i). 回归 (1) 和回归 (2) 的自由度分别是多少？为什么回归 (2) 中的 SER 小于回归 (1)？
(ii). 𝑦𝑒𝑎𝑟𝑠 和 𝑟𝑏𝑖𝑠𝑦𝑟 的样本相关系数为 0.487，这符合实际吗？请解释。
(iii). 回归 (2) 中斜率系数的方差膨胀因子（只有一个）是多少？𝑦𝑒𝑎𝑟𝑠 和 𝑟𝑏𝑖𝑠𝑦𝑟 的共线性
是轻微的、适度的还是较强的？
(iv). 为什么回归 (2) 中 𝑦𝑒𝑎𝑟𝑠 的标准误比 (1) 中的小？
7. 数据集 CEOSAL2 包含了 177 位首席执行官（CEO）的数据，并可用来考察企业业绩对

CEO 薪水的影响。
(i). 估计一个年薪关于企业销售量（𝑠𝑎𝑙𝑒𝑠）和市场价值（𝑚𝑘𝑡𝑣𝑎𝑙）的回归模型，让每个自变
量的系数都表示常弹性。以规范形式报告估计结果。
(ii). 在 (i) 中的模型中增加 𝑝𝑟𝑜𝑓𝑖𝑡𝑠。为什么这个变量不能以对数形式进入模型？你认为这
三个企业业绩变量解释了 CEO 年薪波动中的大部分吗？
(iii). 在 (ii) 中的模型中增加 𝑐𝑒𝑜𝑡𝑒𝑛。保持其他条件不变，延长一年 CEO 任期，估计的百分

比回报是多少？
(iv). 计算变量 log(𝑚𝑘𝑡𝑣𝑎𝑙) 和 𝑝𝑟𝑜𝑓𝑖𝑡𝑠 之间的样本相关系数，二者高度相关吗？这对它们
的 OLS 估计值有何影响？
8. 本题利用数据集 DISCRIM。该数据集包含新泽西州和宾夕法尼亚州的各个邮区的快餐店
各种商品的价格和人口特征方面的数据。其目的是为了解快餐店是否在黑人更集中的地
区收取更高的价格。
(i). 求出样本中 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 和 𝑖𝑛𝑐𝑜𝑚𝑒 的平均值及其标准差。
(ii). 考虑一个模型，用人口中黑人比例和收入中位数来解释苏打饮料的价格 𝑝𝑠𝑜𝑑𝑎：
𝑝𝑠𝑜𝑑𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 + 𝛽2 𝑖𝑛𝑐𝑜𝑚𝑒 + 𝑢
用 OLS 估计这个模型并以规范形式报告结果，包括样本量和 𝑅 2。解释 𝛽1 ，你认为它在
经济上算大吗？
(iii). 将 (ii) 中得到的估计值与 𝑝𝑠𝑜𝑑𝑎 对 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 进行简单回归得到的估计值进行比较。控
制收入变量后，这种歧视效应是更大还是更小了？
(iv). 收入价格弹性为常数的模型可能更加适合。报告如下模型的估计值：
log(𝑝𝑠𝑜𝑑𝑎) = 𝛽0 + 𝛽1 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 + 𝛽2 log(𝑖𝑛𝑐𝑜𝑚𝑒) + 𝑢
若 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 提高 0.20（即 20 个百分点），预计 𝑝𝑠𝑜𝑑𝑎 变化的百分数是多少？
(v). 在 (iv) 中的模型中增加 𝑝𝑟𝑝𝑝𝑜𝑣。𝛽̂𝑝𝑟𝑝𝑏𝑙𝑐𝑘 有何变化？
(vi). 计算 log(𝑖𝑛𝑐𝑜𝑚𝑒) 和 𝑝𝑟𝑝𝑝𝑜𝑣 之间的样本相关系数，大致符合你的预期吗？
(vii). 试评价如下表述：
“由于 log(𝑖𝑛𝑐𝑜𝑚𝑒) 和 𝑝𝑟𝑝𝑝𝑜𝑣 高度相关，所以它们不应该进入
同一个回归。”
9. 利用数据集 MEAPSINGLE 研究单亲家庭对学生数学成绩的影响。该数据是 2000 年密歇

根州东南部的学校的子集，其社会经济变量在邮区水平上获得（邮政编码基于学校的邮
寄地址确定）。
(i). 做 𝑚𝑎𝑡ℎ4 对 𝑝𝑐𝑡𝑠𝑔𝑙𝑒 的简单回归并以规范形式报告估计结果。解释斜率系数的意义，
单亲家庭的影响看上去大吗？
(ii). 在方程中加入变量 𝑙𝑚𝑒𝑑𝑖𝑛𝑐 和 𝑓𝑟𝑒𝑒。𝑝𝑐𝑡𝑠𝑔𝑙𝑒 的系数有什么变化？请解释。
(iii). 计算 𝑙𝑚𝑒𝑑𝑖𝑛𝑐 和 𝑓𝑟𝑒𝑒 的样本相关系数，它的符号和你预测的是否一致？
(iv). 𝑙𝑚𝑒𝑑𝑖𝑛𝑐 和 𝑓𝑟𝑒𝑒 的实际相关性是否意味着为了更好地估计单亲家庭对学生成绩的因
果效应，应该在回归中去掉其中一个变量？请解释。
(v). 求出 (ii) 中模型的每个自变量的方差膨账因子（VIF），哪个变量有最大的 VIF？这一认
知是否会影响你用来研究单亲家庭对数学成绩的因果效应的模型？

课后作业 #2

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

课后作业 #2

Uploaded by

Copyright:

Available Formats

计量经济学 2023 秋

使得 OLS 估计量 𝛽̂1 具有因果效应的解释（即 SLR.4 成立）。

(ii). 写出一个包含 ℎ𝑜𝑢𝑟𝑠 的多元线性回归方程，列出另外 4 个你认为应该加入模型的重要

自变量，以使得 ℎ𝑜𝑢𝑟𝑠 的 OLS 估计系数更接近因果效应的解释（即 MLR.4 成立），简

3. 以下为上机课上关于 Partialling out 两步法的 Stata 估计结果截图。第一列“OLS”为因变

(ii). 与“OLS”相比，为何“Part2”中 𝑒𝑥𝑝𝑒𝑟 和 𝑡𝑒𝑛𝑢𝑟𝑒 的估计系数不一样？

(iii). 与“OLS”相比，为何“Part2”中 𝑒𝑥𝑝𝑒𝑟 和 𝑡𝑒𝑛𝑢𝑟𝑒 的标准误更小？

(ii). 解释 𝑛𝑜𝑥 和 𝑟𝑜𝑜𝑚𝑠 可能存在负相关关系的原因。在这种情况下，log(𝑝𝑟𝑖𝑐𝑒) 对

log(𝑛𝑜𝑥) 的简单回归将导致 𝛽1 正的偏误还是负的偏误？请解释。

(iii). 利用 HPRICE2 数据集，得到以下估计结果：

两个回归中 𝑝𝑟𝑖𝑐𝑒 关于 𝑛𝑜𝑥 的弹性估计结果能否验证你在 (ii) 中的答案？这是否意

味着-0.718 比-1.043 更接近真实的弹性？

变量 𝑥2 和 𝑥3 的数据。令 𝛽̃1 表示 𝑦 对 𝑥1 进行简单回归的 𝑥1 的斜率估计值，而 𝛽̂1

表示 𝑦 对 𝑥1 、𝑥2 、𝑥3 进行多元回归的 𝑥1 的斜率估计值。

(ii). 若 𝑥1 与 𝑥2 和 𝑥3 几乎无关，但 𝑥2 和 𝑥3 高度相关，你预计 𝛽̃1 和 𝛽̂1 是十分类似

(iii). 若样本中 𝑥1 与 𝑥2 和 𝑥3 高度相关，且 𝑥2 和 𝑥3 对 𝑦 具有很小的偏效应，那么

𝑠𝑒(𝛽̃1 ) 和 𝑠𝑒(𝛽̂1 ) 哪个更小？请解释。

(iv). 若 𝑥1 与 𝑥2 和 𝑥3 几乎无关，𝑥2 和 𝑥3 对 𝑦 具有很大的偏效应，并且 𝑥2 和 𝑥3 高

度相关，那么 𝑠𝑒(𝛽̃1 ) 和 𝑠𝑒(𝛽̂1 ) 哪个更小？请解释。

𝑛 = 353, 𝑆𝑆𝑅 = 326.196, 𝑆𝐸𝑅 = 0.964, 𝑅 2 = 0.337

𝑛 = 353, 𝑆𝑆𝑅 = 198.475, 𝑆𝐸𝑅 = 0.753, 𝑅 2 = 0.597

𝑛 = 353, 𝑆𝑆𝑅 = 4042.09, 𝑆𝐸𝑅 = 3.394, 𝑅 2 = 0.237

(ii). 𝑦𝑒𝑎𝑟𝑠 和 𝑟𝑏𝑖𝑠𝑦𝑟 的样本相关系数为 0.487，这符合实际吗？请解释。

(iii). 回归 (2) 中斜率系数的方差膨胀因子（只有一个）是多少？𝑦𝑒𝑎𝑟𝑠 和 𝑟𝑏𝑖𝑠𝑦𝑟 的共线性

(iv). 为什么回归 (2) 中 𝑦𝑒𝑎𝑟𝑠 的标准误比 (1) 中的小？

7. 数据集 CEOSAL2 包含了 177 位首席执行官（CEO）的数据，并可用来考察企业业绩对

(ii). 在 (i) 中的模型中增加 𝑝𝑟𝑜𝑓𝑖𝑡𝑠。为什么这个变量不能以对数形式进入模型？你认为这

三个企业业绩变量解释了 CEO 年薪波动中的大部分吗？

(iii). 在 (ii) 中的模型中增加 𝑐𝑒𝑜𝑡𝑒𝑛。保持其他条件不变，延长一年 CEO 任期，估计的百分

(iv). 计算变量 log(𝑚𝑘𝑡𝑣𝑎𝑙) 和 𝑝𝑟𝑜𝑓𝑖𝑡𝑠 之间的样本相关系数，二者高度相关吗？这对它们

(ii). 考虑一个模型，用人口中黑人比例和收入中位数来解释苏打饮料的价格 𝑝𝑠𝑜𝑑𝑎：

𝑝𝑠𝑜𝑑𝑎 = 𝛽0 + 𝛽1 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 + 𝛽2 𝑖𝑛𝑐𝑜𝑚𝑒 + 𝑢

用 OLS 估计这个模型并以规范形式报告结果，包括样本量和 𝑅 2。解释 𝛽1 ，你认为它在

(iii). 将 (ii) 中得到的估计值与 𝑝𝑠𝑜𝑑𝑎 对 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 进行简单回归得到的估计值进行比较。控

log(𝑝𝑠𝑜𝑑𝑎) = 𝛽0 + 𝛽1 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 + 𝛽2 log(𝑖𝑛𝑐𝑜𝑚𝑒) + 𝑢

若 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 提高 0.20（即 20 个百分点），预计 𝑝𝑠𝑜𝑑𝑎 变化的百分数是多少？

(v). 在 (iv) 中的模型中增加 𝑝𝑟𝑝𝑝𝑜𝑣。𝛽̂𝑝𝑟𝑝𝑏𝑙𝑐𝑘 有何变化？

(vi). 计算 log(𝑖𝑛𝑐𝑜𝑚𝑒) 和 𝑝𝑟𝑝𝑝𝑜𝑣 之间的样本相关系数，大致符合你的预期吗？

9. 利用数据集 MEAPSINGLE 研究单亲家庭对学生数学成绩的影响。该数据是 2000 年密歇

(ii). 在方程中加入变量 𝑙𝑚𝑒𝑑𝑖𝑛𝑐 和 𝑓𝑟𝑒𝑒。𝑝𝑐𝑡𝑠𝑔𝑙𝑒 的系数有什么变化？请解释。

(iii). 计算 𝑙𝑚𝑒𝑑𝑖𝑛𝑐 和 𝑓𝑟𝑒𝑒 的样本相关系数，它的符号和你预测的是否一致？

(iv). 𝑙𝑚𝑒𝑑𝑖𝑛𝑐 和 𝑓𝑟𝑒𝑒 的实际相关性是否意味着为了更好地估计单亲家庭对学生成绩的因

You might also like