You are on page 1of 31

第四章案例操作 (必读+掌握)

西南财经大学 统计学院
耿华彦

在  这一章我们用两个案例数据:

前  一个是第四版教材的新案例(数据时间新,但只需要对数变换
后多重共线性问题就大大减弱了)
面  一个是第三版的旧案例(数据比较旧,但是对数变换后不能缓
的 解多重共线性,所以我们为大家进行了其他方法,尤其是逐步
回归的演示操作)

新案例:中国国内旅游收入
的分析
研究目的: Ø 模型设定:
近年来,中国旅游业一直保持高 �� = �1 + �2 �2� + �3 �3� + �4 �4� + �5 �5� + ��
速发展,旅游业作为国民经济新的增
长点,在整个社会经济发展中的作用 Ø 其中:
日益显现。中国的旅游业分为国内旅
游和入境旅游两大市场,入境旅游外
汇收入年均增长22.6%,与此同时国 Yt ——第 t年全国国内旅游总花费(亿元)
内旅游也迅速增长。改革开放30多年 X 2t——国内旅游人数(万人)
来,特别是进入90年代后,中国的国
内旅游收入年均增长14.4%,远高于 X 3t——城镇居民人均旅游支出 (元)
同期GDP 9.76%的增长率。为了规划
中国未来旅游产业的发展,需要定量
X 4t——农村居民人均旅游支出 (元)

地分析影响中国旅游市场发展的主要 X 5t ——铁路里程(万公里)
因素。
3
数据:表案例4.2选取了1994-2016年
• �: 国内旅游总花费、
案例分析
• �� : 国内游客、
• �� : 城镇居民旅游花费、
• �� : 农村居民人均旅游花费、
• �� : 体旅里程

注意:
• 时间序列数据,年度数据
• 起始时间:1994,结束时间:2016
1. 定义Workfile
Ø 在”Workfile structure stype”选择数据类型
时间序列数据 Dated-regular frequency
(23年时间序列数据) 
Ø 在“Frequency”里填入
时间记录的频率:此案例为Annual(年度).

Ø 在Start date填入起始时间:1994
Ø 在End data 填入结束时间:2016

Ø 给工作表命名,方便储存。

Ø 生成工作文件并点击窗口上方的“Save”键储
存。
2. 数据输入(创建组和命名)

• 命令框输入:
• data y x2 x3 x4 x5 => 回车(注意:要按照Excel里的变量排列数据命名,方便
下一步复制数据)
• 即可复制数据

• 复制粘贴数据
• 在Group窗口点击Name,命名并保存为“group01”
3. 直接用OLS回归结果 ?� 2 2
= 0.994,� = 0.992,模
命令栏输入: 型拟合很好。模型对财政收入
Ls y c x2 x3 x4 x5 的解释程度高达99.3%。
回车
可将该结果存为“eq01” ? F统计量为716.48,说明0.05
水平下回归方程整体上显著
? t检验结果表明,国内旅游人
数、城镇、农村居民人均旅游
支出对国内旅游收入影响显著,
铁路里程对旅游收入的影响均
不太显著。
? 城镇居民人均旅游支出的回归
系数为负数,城镇居民人均旅
游支出的增加反而会使旅游收
入减少吗?!
这样的结果显然与理论分析和实
践经验不相符!!!
7

考虑多重共线性的问题!
4. 相关系数法检验 “View/Covariance Analysis”=>

在EViews中选择 X2、X3 、X4 、


X5数据,
 右键“open as group”=>
在对话框中记得将默认的“covariance”改
为“correlation”

然后点“ok”,

即得相关系数矩阵
8
储存结果:
4. 相关系数法检验
“Freeze”
相关系数矩阵

新对话框“Name”命名

 由相关系数矩阵可以看出,各
解释变量相互之间的相关系数较

 证实确实多重共线性较为严重。
5. 方差膨胀因子法检验
在Eviews中,也可以直接计算解释变量的方差
扩大因子,
Ø 在“eq01”回归结果中 =>
Ø “View/Coefficient Diagnostics/ Variance
Inflation Factors”即可
5. 方差膨胀因子法检验
其中以“Centered VIF”即为方差扩大因子VIF:
注释:
经验表明,如果方差扩大因子
���� ≥ 10

通常说明该解释变量与其余解
释变量之间有严重的多重共线

这里X2、X4、X5的方差扩大因
子大于10,表明存在严重多重
共线性问题。

11
6.对多重共线性的处理——对数变换并估计
(该案例的做法)

在Eviews的命令窗分别输入以下命令就可以
实现对数变换:

genr lny=log(y)
genr lnx2=log(x2)
genr lnx3=log(x3)
genr lnx4=log(x4)
genr lnx5=log(x5)

为避免删除重要解释变量引起设定误差,不随意删除解释变量。
考虑将各变量进行对数变换,再对以下模型进行估计
ln�� = �1 + �2 ln�2� + �3 ln�3� + �4 ln�4� + �5 ln�5� + ��
12
6.对多重共线性的处理——对数变换并估计
(该案例的做法)
也可以在Eviews的命令窗直接输入 在此案例中:
 “LS log(y) c log(x2) log(x3) log(x4) 经过数据变换后,尽管解释变
log(x5)”, 敲回车即可: 量之间高度相关,但相关的统
计检验指标高度显著,
• 如回归方程检验的F统计量、
• 各回归系数的 t 统计量都高度
显著,
• 且所有系数都具有正确的符

这表明所有这些变量一起对国
内旅游收入具有显著的影响。

13
旧案例:中国国内旅游收入
的分析
Ø 模型设定:
�� = �1 + �2 �2� + �3 �3� + �4 �4� + �5 �5� + �6 �6� + ��
研究目的:
中国国内旅游市场发展迅速,需要定
量地研究影响中国国内旅游市场发展 Ø 其中:Yt ——第 t年全国旅游收入
的主要原因。经分析,可以旅游收入
表示旅游市场发展,除了国内旅游人 X 2t——国内旅游人数(万人)
数和旅游支出外,还可能与旅游基础
设施有关。 X 3t——城镇居民人均旅游支出 (元)
X 4t——农村居民人均旅游支出 (元)
X 5t ——公路里程(万公里)
X 6t ——铁路里程(万公里)
14
1994—
2003年
的统计
数据(教
材数据)
注意:
• 时间序列数据,
年度数据
• 起始时间:
1994,结束时
间:2003 15
1. 定义Workfile
Ø 在”Workfile structure stype”选择数据类型
时间序列数据 Dated-regular frequency
(10年时间序列数据) 
Ø 在“Frequency”里填入
时间记录的频率:此案例为Annual(年度).

Ø 在Start date填入起始时间:1994
Ø 在End data 填入结束时间:2003

Ø 给工作表命名,方便储存。

Ø 生成工作文件并点击窗口上方的“Save”键储
存。
2. 数据输入(创建组和命名)

• 命令框输入:
• data y x2 x3 x4 x5 x6=> 回车(注意:要按照Excel里的变量排列数据命名,方
便下一步复制数据)
• 即可复制数据

• 复制粘贴数据
• 在Group窗口点击Name,命名并保存为“group01”
3. 直接用OLS回归结果
该模型:
命令栏输入:
2 2
Ls y c x2 x3 x4 x5 x6 Ø�= 0.9954,� = 0.9897,可决
回车 系数很高
可将该结果存为“eq01”

ØF检验:� = 173.3525,明显显
著。

Ø当� = 0.05时,�� � − � =
2

�0.025 10 − 6 = 2.776

Ø不仅�2 、�6 系数的t检验不显


著,而且�6 系数的符号与预期
的相反,

Ø这表明很可能存在严重的多重
共线性。
18
4. 相关系数法检验 “View/Covariance Analysis”=>

在EViews中选择 X2、X3 、X4 、


X5 X6数据,
 右键“open as group”=>
在对话框中记得将默认的“covariance”改
为“correlation”

然后点“ok”,

即得相关系数矩阵
19
储存结果:
4. 相关系数法检验 “Freeze”
相关系数矩阵

新对话框“Name”命名

 由相关系数矩阵可以看出,各解释变量相互之间的
相关系数较高

 证实确实多重共线性较为严重。
5. 方差膨胀因子法检验
在Eviews中,也可以直接计算解释变量的方差
扩大因子,
Ø 在“eq01”回归结果中 =>
Ø “View/Coefficient Diagnostics/ Variance
Inflation Factors”即可
例如作X3对X2、X4、X5、X6的辅助回归可决
5. 方差膨胀因子法检验 系数得
其中以“Centered VIF”即为方差扩大因子VIF: 2
��3 = 0.948332
 方差扩大因子为:
1 1
����3 = 2 =
1 − ��3 1 − 0.948332
= 19.3543 ≥ 10
 由于 ����3 ≥ 10,根据经验,说明X3与
其他解释变量间有严重多重共线性。
注释:  其他变量间的多重共线性可用类似方式检
经验表明,如果方差扩大因子
验。
���� ≥ 10

通常说明该解释变量与其余解释变量之间有严重的多
重共线性
这里X2、X3、X5、X6的方差扩大因子大于10,表明 22
存在严重多重共线性问题。
修6 国内旅游收入Y 国内旅游人数 城镇居民人均 农村居民人均 公路里程 X5 铁路里程X6

正 . 年份 (亿元) X2(万人次) 旅游花费X3(元) 旅游花费X4


(元)
(万km) (万km)

多扩 1994 1023.5 52400 414.7 54.9 111.78 5.90



重样 1995 1375.7 62900 464.0 61.5 115.70 5.97

1996 1638.4 63900 534.1 70.5 118.58 6.49


共本 1997 2112.7 64400 599.8 145.7 122.64 6.60
线到 1998 2391.2 69450 607.0 197.0 127.85 6.64
2
性 1999 2831.9 71900 614.8 249.5 135.17 6.74
0 2000 3175.5 74400 678.6 226.6 140.27 6.87
0 2001 3522.4 78400 708.3 212.7 169.80 7.01
7 2002 3878.4 87800 739.7 209.1 176.52 7.19
年 2003 3442.3 87000 684.9 200.0 180.98 7.30
数 2004 4710.7 110200 731.8 210.2 187.07 7.44
据 2005 5285.9 121200 737.1 227.6 193.05 7.54

2006 6229.74 139400 766.4 221.9 345.70 7.71

2007 7770.62 161000 906.9 222.5 358.37 7.80


Ø 双击workfile中的“Range”来扩充样本范围
6. 扩大样本 (案例中从2003扩充到2007)

Ø 然后在“group01”当中粘贴进扩充部分的数

6. 扩大样本后的结果

结果:

• 可决系数、F统计量有改善

• X2变得显著了,

• 但X5变得不显著.

• X6参数的符号仍然为负

说明:

多重共线性问题还没有解决!

25
7. 修正多重共线性 —模型变换 结果:
• 可决系数改变不大、F统
在Eviews的命令窗直接输入 计量有改善
 “LS log(y) c log(x2) log(x3) log(x4) log(x5)
log(x6)”, 敲回车即可: • X2、X3、X4都显著,
• 但X5、X6不显著
• X6参数的符号变为正,与
经验符合
说明:
多重共线性问题有改善,但
需分析X5、X6的影响和多
重共线性的作用.

26
8. 修正多重共线性—逐步回归
 采用逐步回归的办法,去检验和解决多重共线性问题。
 分别作Y对X2、X3、X4、X5、X6的一元回归。
 一元回归结果:

变量 X2 X3 X4 X5 X6

参数估计值 0.0588 14.0225 19.6103 22.5957 3025.062

t 统计量 18.2488 9.3090 3.2710 8.7084 9.1392



� 0.9652 0.8784 0.4714 0.8634 0.8744

� 0.9623 0.8682 0.4273 0.8520 0.8639


加入X2的方程� 最大,以X2为基础,顺次加入其他变量逐步回归 27
[t0.025 (n  k )  2.201]
8.1 加入新变量回归结果(一) [t0.05 (n  k )  1.796]

2
X2 X3 X4 X5 X6 R�2

0.0410 5.1427
X2、X3 (15.2635) (7.6657) 0.9935

0.0523 5.4830
X2、X4 (5.3186) (5.3186)
0.9885

0.0587 0.0536
X2、X5 (5.6753) (0.0128)
0.9589

0.0434 935.0066
X2、X6 (8.2145) (3.2754)
0.9792

2
新加入X3的方程� = 0.9935,改进最大,且t检验显著保留X3,再加入其他新变
量逐步回归
28
[t0.025 (n  k )  2.228]
8.2 加入新变量的回归结果(二)[t0.05 (n  k )  1.812]

2
X2 X3 X4 X5 X6 �
0.0435 3.6660 2.1786
X2、X3、X4 0.9949
(16.0418) (3.8314) (1.9744)
0.0379 5.1881 1.2342
X2、X3、X5 0.9932
(7.5541) (7.5308) (0.7205)
0.0418 5.7560 -178.7471
X2、X3、X6 0.9931
(13.7021) (4.8365) (-0.6325)

2
在X2、X3基础上加入X4后的方程 � 明显增大,而且各个参数t检验都显著。
2 2
加入X5后不仅� 下降,而且X5参数的t检验不显著;加入X6后不仅� 下降,X6参数的t
检验不显著,甚至X6的符号也变得不合理。
保留X4,再加入其他新变量逐步回归
29
[t0.025 (n  k )  2.262]
8.3 加入新变量的回归结果(三) [t0.05 (n  k )  1.833]
X2 X3 X4 X5 X6 ��
X2、X3、
0.0394 3.5794 2.4034 1.7859
X4、X5 0.9951
(9.1108) (3.8145) (2.1951) (1.2078)
X2、X3、
0.0461 4.6031 2.8112 -398.0537
X4、X6 0.9956
(15.6295) (4.3817) (2.5817) (-1.6499)

2
加入X5后� 有改进,但X5参数的t检验不显著。
2
加入X6后� 有改进,但X6参数的t检验不显著,并且参数为负值不合理。
从相关系数也可看出,X5 、X6 与其他变量高度相关,这说明主要是X5、X6引起严重多
重共线性,应予剔除。
30
修正严重多重共线性影响后的回归结果

ˆ
Y  3136.713  0.0435 X 2  3.6660 X 3  2.1786 X 4
t= (-10.5998)(16.0418) (3.8314) (1.9744)

2
R  0.9961 2
R  0 .9 9 4 9
F=841.4324 DW=1.1763

存在的问题:
1.样本容量过小, 自由度太小(� − � = 14 − 4 = 10, 其可靠性受到一定影响。
2.剔除的X5、X6有可能是重要变量,容易引起设定误差。

31

You might also like