Professional Documents
Culture Documents
课程号:100719C004-04
中国石油大学(北京) 任课教师:朱潜挺
课后作业 #2
(截止时间 2023/10/6 23:59)
[注:在必要处粘贴 Stata 命令和输出结果。]
1. 假设你是北京新东方学校的项目主管,并负责评估你主管的雅思考试培训班对考生雅思
成绩提升的作用,待研究的总体是所有报名参加了 2023 年雅思培训班的来自北京各个高
校的大学本科生。你准备回归以下简单线性回归模型:
𝐼𝑠𝑐𝑜𝑟𝑒𝑖 = 𝛽0 + 𝛽1 ℎ𝑜𝑢𝑟𝑠𝑖 + 𝑢𝑖
其中 ℎ𝑜𝑢𝑟𝑠𝑖 表示学生 𝑖 参加培训班的总小时数,𝐼𝑠𝑐𝑜𝑟𝑒𝑖 表示其最终的雅思成绩。
(i). 假设你被授权开展一个控制实验,简单陈述你计划如何开展实验并收集相应的数据,以
(ii). 论述该实验在实际中的可操作性,以及你对简单线性回归模型的评价。
2. 接上题,假设一个更实际的情形,即现在无法开展一个控制实验,作为项目主管你只能
观察并收集学生出勤培训课的时间及其最终雅思成绩的数据。
(i). 简单陈述在无法开展实验的情况下,你将如何从总体中构建一个随机样本来估计 ℎ𝑜𝑢𝑟𝑠
对 𝐼𝑠𝑐𝑜𝑟𝑒 的因果效应。
单解释每个自变量的含义及预期符号方向。
(iii). 解释就识别因果关系而言,为何多元回归模型优于简单线性回归模型。
变?
4. 下面的方程描述了社区的房价中位数和污染量(𝑛𝑜𝑥 表示一氧化二氮的含量)、社区房屋
的平均房间数(用 𝑟𝑜𝑜𝑚𝑠 表示)之间的关系:
log(𝑝𝑟𝑖𝑐𝑒) = 𝛽0 + 𝛽1 log(𝑛𝑜𝑥) + 𝛽2 𝑟𝑜𝑜𝑚𝑠 + 𝑢
(i). 𝛽1 和 𝛽2 的符号可能是什么?解释 𝛽1 。
5. 假设你对估计其他条件不变情况下 𝑦 和 𝑥1 之间的关系感兴趣,并为此搜集了两个控制
和 𝛽̂1 是十分类似还是十分不同?请解释。
6. 利用 MLB1 数据集,其中包含了美国职业棒球大联盟的工资数据,得到以下估计结果。
因变量 𝑙𝑠𝑎𝑙𝑎𝑟𝑦 为工资对数值,两个自变量分别为在联盟的工作时间(𝑦𝑒𝑎𝑟𝑠)和每年打
点记录数(𝑟𝑏𝑖𝑠𝑦𝑟):
̂ = 12.373 + 0.177𝑦𝑒𝑎𝑟𝑠
𝑙𝑠𝑎𝑙𝑎𝑟𝑦 (1)
(0.098) (0.0132)
是轻微的、适度的还是较强的?
量的系数都表示常弹性。以规范形式报告估计结果。
的 OLS 估计值有何影响?
8. 本题利用数据集 DISCRIM。该数据集包含新泽西州和宾夕法尼亚州的各个邮区的快餐店
各种商品的价格和人口特征方面的数据。其目的是为了解快餐店是否在黑人更集中的地
区收取更高的价格。
(i). 求出样本中 𝑝𝑟𝑝𝑏𝑙𝑐𝑘 和 𝑖𝑛𝑐𝑜𝑚𝑒 的平均值及其标准差。
经济上算大吗?
制收入变量后,这种歧视效应是更大还是更小了?
(iv). 收入价格弹性为常数的模型可能更加适合。报告如下模型的估计值:
(vii). 试评价如下表述:
“由于 log(𝑖𝑛𝑐𝑜𝑚𝑒) 和 𝑝𝑟𝑝𝑝𝑜𝑣 高度相关,所以它们不应该进入
同一个回归。”
单亲家庭的影响看上去大吗?
果效应,应该在回归中去掉其中一个变量?请解释。
(v). 求出 (ii) 中模型的每个自变量的方差膨账因子(VIF),哪个变量有最大的 VIF?这一认
知是否会影响你用来研究单亲家庭对数学成绩的因果效应的模型?