Professional Documents
Culture Documents
西南财经大学 统计学院
耿华彦
写
在 这一章我们用两个案例数据:
前 一个是第四版教材的新案例(数据时间新,但只需要对数变换
后多重共线性问题就大大减弱了)
面 一个是第三版的旧案例(数据比较旧,但是对数变换后不能缓
的 解多重共线性,所以我们为大家进行了其他方法,尤其是逐步
回归的演示操作)
话
新案例:中国国内旅游收入
的分析
研究目的: Ø 模型设定:
近年来,中国旅游业一直保持高 �� = �1 + �2 �2� + �3 �3� + �4 �4� + �5 �5� + ��
速发展,旅游业作为国民经济新的增
长点,在整个社会经济发展中的作用 Ø 其中:
日益显现。中国的旅游业分为国内旅
游和入境旅游两大市场,入境旅游外
汇收入年均增长22.6%,与此同时国 Yt ——第 t年全国国内旅游总花费(亿元)
内旅游也迅速增长。改革开放30多年 X 2t——国内旅游人数(万人)
来,特别是进入90年代后,中国的国
内旅游收入年均增长14.4%,远高于 X 3t——城镇居民人均旅游支出 (元)
同期GDP 9.76%的增长率。为了规划
中国未来旅游产业的发展,需要定量
X 4t——农村居民人均旅游支出 (元)
地分析影响中国旅游市场发展的主要 X 5t ——铁路里程(万公里)
因素。
3
数据:表案例4.2选取了1994-2016年
• �: 国内旅游总花费、
案例分析
• �� : 国内游客、
• �� : 城镇居民旅游花费、
• �� : 农村居民人均旅游花费、
• �� : 体旅里程
注意:
• 时间序列数据,年度数据
• 起始时间:1994,结束时间:2016
1. 定义Workfile
Ø 在”Workfile structure stype”选择数据类型
时间序列数据 Dated-regular frequency
(23年时间序列数据)
Ø 在“Frequency”里填入
时间记录的频率:此案例为Annual(年度).
Ø 在Start date填入起始时间:1994
Ø 在End data 填入结束时间:2016
Ø 给工作表命名,方便储存。
Ø 生成工作文件并点击窗口上方的“Save”键储
存。
2. 数据输入(创建组和命名)
• 命令框输入:
• data y x2 x3 x4 x5 => 回车(注意:要按照Excel里的变量排列数据命名,方便
下一步复制数据)
• 即可复制数据
• 复制粘贴数据
• 在Group窗口点击Name,命名并保存为“group01”
3. 直接用OLS回归结果 ?� 2 2
= 0.994,� = 0.992,模
命令栏输入: 型拟合很好。模型对财政收入
Ls y c x2 x3 x4 x5 的解释程度高达99.3%。
回车
可将该结果存为“eq01” ? F统计量为716.48,说明0.05
水平下回归方程整体上显著
? t检验结果表明,国内旅游人
数、城镇、农村居民人均旅游
支出对国内旅游收入影响显著,
铁路里程对旅游收入的影响均
不太显著。
? 城镇居民人均旅游支出的回归
系数为负数,城镇居民人均旅
游支出的增加反而会使旅游收
入减少吗?!
这样的结果显然与理论分析和实
践经验不相符!!!
7
考虑多重共线性的问题!
4. 相关系数法检验 “View/Covariance Analysis”=>
然后点“ok”,
即得相关系数矩阵
8
储存结果:
4. 相关系数法检验
“Freeze”
相关系数矩阵
新对话框“Name”命名
由相关系数矩阵可以看出,各
解释变量相互之间的相关系数较
高
证实确实多重共线性较为严重。
5. 方差膨胀因子法检验
在Eviews中,也可以直接计算解释变量的方差
扩大因子,
Ø 在“eq01”回归结果中 =>
Ø “View/Coefficient Diagnostics/ Variance
Inflation Factors”即可
5. 方差膨胀因子法检验
其中以“Centered VIF”即为方差扩大因子VIF:
注释:
经验表明,如果方差扩大因子
���� ≥ 10
通常说明该解释变量与其余解
释变量之间有严重的多重共线
性
这里X2、X4、X5的方差扩大因
子大于10,表明存在严重多重
共线性问题。
11
6.对多重共线性的处理——对数变换并估计
(该案例的做法)
在Eviews的命令窗分别输入以下命令就可以
实现对数变换:
genr lny=log(y)
genr lnx2=log(x2)
genr lnx3=log(x3)
genr lnx4=log(x4)
genr lnx5=log(x5)
为避免删除重要解释变量引起设定误差,不随意删除解释变量。
考虑将各变量进行对数变换,再对以下模型进行估计
ln�� = �1 + �2 ln�2� + �3 ln�3� + �4 ln�4� + �5 ln�5� + ��
12
6.对多重共线性的处理——对数变换并估计
(该案例的做法)
也可以在Eviews的命令窗直接输入 在此案例中:
“LS log(y) c log(x2) log(x3) log(x4) 经过数据变换后,尽管解释变
log(x5)”, 敲回车即可: 量之间高度相关,但相关的统
计检验指标高度显著,
• 如回归方程检验的F统计量、
• 各回归系数的 t 统计量都高度
显著,
• 且所有系数都具有正确的符
号
这表明所有这些变量一起对国
内旅游收入具有显著的影响。
13
旧案例:中国国内旅游收入
的分析
Ø 模型设定:
�� = �1 + �2 �2� + �3 �3� + �4 �4� + �5 �5� + �6 �6� + ��
研究目的:
中国国内旅游市场发展迅速,需要定
量地研究影响中国国内旅游市场发展 Ø 其中:Yt ——第 t年全国旅游收入
的主要原因。经分析,可以旅游收入
表示旅游市场发展,除了国内旅游人 X 2t——国内旅游人数(万人)
数和旅游支出外,还可能与旅游基础
设施有关。 X 3t——城镇居民人均旅游支出 (元)
X 4t——农村居民人均旅游支出 (元)
X 5t ——公路里程(万公里)
X 6t ——铁路里程(万公里)
14
1994—
2003年
的统计
数据(教
材数据)
注意:
• 时间序列数据,
年度数据
• 起始时间:
1994,结束时
间:2003 15
1. 定义Workfile
Ø 在”Workfile structure stype”选择数据类型
时间序列数据 Dated-regular frequency
(10年时间序列数据)
Ø 在“Frequency”里填入
时间记录的频率:此案例为Annual(年度).
Ø 在Start date填入起始时间:1994
Ø 在End data 填入结束时间:2003
Ø 给工作表命名,方便储存。
Ø 生成工作文件并点击窗口上方的“Save”键储
存。
2. 数据输入(创建组和命名)
• 命令框输入:
• data y x2 x3 x4 x5 x6=> 回车(注意:要按照Excel里的变量排列数据命名,方
便下一步复制数据)
• 即可复制数据
• 复制粘贴数据
• 在Group窗口点击Name,命名并保存为“group01”
3. 直接用OLS回归结果
该模型:
命令栏输入:
2 2
Ls y c x2 x3 x4 x5 x6 Ø�= 0.9954,� = 0.9897,可决
回车 系数很高
可将该结果存为“eq01”
∗
ØF检验:� = 173.3525,明显显
著。
Ø当� = 0.05时,�� � − � =
2
�0.025 10 − 6 = 2.776
Ø这表明很可能存在严重的多重
共线性。
18
4. 相关系数法检验 “View/Covariance Analysis”=>
然后点“ok”,
即得相关系数矩阵
19
储存结果:
4. 相关系数法检验 “Freeze”
相关系数矩阵
新对话框“Name”命名
由相关系数矩阵可以看出,各解释变量相互之间的
相关系数较高
证实确实多重共线性较为严重。
5. 方差膨胀因子法检验
在Eviews中,也可以直接计算解释变量的方差
扩大因子,
Ø 在“eq01”回归结果中 =>
Ø “View/Coefficient Diagnostics/ Variance
Inflation Factors”即可
例如作X3对X2、X4、X5、X6的辅助回归可决
5. 方差膨胀因子法检验 系数得
其中以“Centered VIF”即为方差扩大因子VIF: 2
��3 = 0.948332
方差扩大因子为:
1 1
����3 = 2 =
1 − ��3 1 − 0.948332
= 19.3543 ≥ 10
由于 ����3 ≥ 10,根据经验,说明X3与
其他解释变量间有严重多重共线性。
注释: 其他变量间的多重共线性可用类似方式检
经验表明,如果方差扩大因子
验。
���� ≥ 10
通常说明该解释变量与其余解释变量之间有严重的多
重共线性
这里X2、X3、X5、X6的方差扩大因子大于10,表明 22
存在严重多重共线性问题。
修6 国内旅游收入Y 国内旅游人数 城镇居民人均 农村居民人均 公路里程 X5 铁路里程X6
Ø 然后在“group01”当中粘贴进扩充部分的数
据
6. 扩大样本后的结果
结果:
• 可决系数、F统计量有改善
• X2变得显著了,
• 但X5变得不显著.
• X6参数的符号仍然为负
说明:
多重共线性问题还没有解决!
25
7. 修正多重共线性 —模型变换 结果:
• 可决系数改变不大、F统
在Eviews的命令窗直接输入 计量有改善
“LS log(y) c log(x2) log(x3) log(x4) log(x5)
log(x6)”, 敲回车即可: • X2、X3、X4都显著,
• 但X5、X6不显著
• X6参数的符号变为正,与
经验符合
说明:
多重共线性问题有改善,但
需分析X5、X6的影响和多
重共线性的作用.
26
8. 修正多重共线性—逐步回归
采用逐步回归的办法,去检验和解决多重共线性问题。
分别作Y对X2、X3、X4、X5、X6的一元回归。
一元回归结果:
变量 X2 X3 X4 X5 X6
�
加入X2的方程� 最大,以X2为基础,顺次加入其他变量逐步回归 27
[t0.025 (n k ) 2.201]
8.1 加入新变量回归结果(一) [t0.05 (n k ) 1.796]
2
X2 X3 X4 X5 X6 R�2
0.0410 5.1427
X2、X3 (15.2635) (7.6657) 0.9935
0.0523 5.4830
X2、X4 (5.3186) (5.3186)
0.9885
0.0587 0.0536
X2、X5 (5.6753) (0.0128)
0.9589
0.0434 935.0066
X2、X6 (8.2145) (3.2754)
0.9792
2
新加入X3的方程� = 0.9935,改进最大,且t检验显著保留X3,再加入其他新变
量逐步回归
28
[t0.025 (n k ) 2.228]
8.2 加入新变量的回归结果(二)[t0.05 (n k ) 1.812]
2
X2 X3 X4 X5 X6 �
0.0435 3.6660 2.1786
X2、X3、X4 0.9949
(16.0418) (3.8314) (1.9744)
0.0379 5.1881 1.2342
X2、X3、X5 0.9932
(7.5541) (7.5308) (0.7205)
0.0418 5.7560 -178.7471
X2、X3、X6 0.9931
(13.7021) (4.8365) (-0.6325)
2
在X2、X3基础上加入X4后的方程 � 明显增大,而且各个参数t检验都显著。
2 2
加入X5后不仅� 下降,而且X5参数的t检验不显著;加入X6后不仅� 下降,X6参数的t
检验不显著,甚至X6的符号也变得不合理。
保留X4,再加入其他新变量逐步回归
29
[t0.025 (n k ) 2.262]
8.3 加入新变量的回归结果(三) [t0.05 (n k ) 1.833]
X2 X3 X4 X5 X6 ��
X2、X3、
0.0394 3.5794 2.4034 1.7859
X4、X5 0.9951
(9.1108) (3.8145) (2.1951) (1.2078)
X2、X3、
0.0461 4.6031 2.8112 -398.0537
X4、X6 0.9956
(15.6295) (4.3817) (2.5817) (-1.6499)
2
加入X5后� 有改进,但X5参数的t检验不显著。
2
加入X6后� 有改进,但X6参数的t检验不显著,并且参数为负值不合理。
从相关系数也可看出,X5 、X6 与其他变量高度相关,这说明主要是X5、X6引起严重多
重共线性,应予剔除。
30
修正严重多重共线性影响后的回归结果
ˆ
Y 3136.713 0.0435 X 2 3.6660 X 3 2.1786 X 4
t= (-10.5998)(16.0418) (3.8314) (1.9744)
2
R 0.9961 2
R 0 .9 9 4 9
F=841.4324 DW=1.1763
存在的问题:
1.样本容量过小, 自由度太小(� − � = 14 − 4 = 10, 其可靠性受到一定影响。
2.剔除的X5、X6有可能是重要变量,容易引起设定误差。
31