Professional Documents
Culture Documents
董小刚,刁亚静,李慧玲,王纯杰 ,温丽男
*
地方财政收入是我国现行体制下相对比较独立的个体 ,同时也是国家财政收入的重要组成部分 . 由
于如何高效地利用地方财政收入 ,改善人民生活质量是每个地方政府都需要考虑的问题 . 因此详细地了
解影响地方财政的因素,根据这些因素提出对财政规划具有建设性的政策和建议 ,对地方甚至国家都有
及其重要的影响. 本文将通过选取吉林省财政收入的数据 ,通过建立回归模型,分析影响吉林省财政收
入的主要影响因素.
1 影响因素的选取与数据的来源
影响财政收入因素的分析一直以来都受到了人们的关注 ,由于影响财政收入的因素有很多,究竟哪
[1]
些才是主要的影响因素,已经有一些学者尝试在这方面作出分析. 金欣雪等 通过回归分析对我国全
国地区的财政收入影响因素进行了定量分析 ,建立了可靠的数学模型,并提出了提高我国财政收入的政
[2]
策建议; 段奕 通过建立计量经济学模型,对山东省财政收入主要影响因素的税收收入和国内生产总
[3] [4]
值进行了实证分析; 刘荣 通过逐步回归对我国的财政收入的影响因素进行了定量分析 ; 谌维维 主
要从省国民生产总值、第一产业占比和第三产业占比等多个维度分析贵州的财政收入的影响因素 ; 靳新
[5]
丽 基于天津 16 个区县 6 年的数据使用混合 OLS 和固定效应模型分析天津各区县财政收入的影响因
[6]
素; 于集轩 选取吉林省 1979—2013 年财政收入影响因素的数据作为研究对象,对税收、地区生产总
值、全社会固定资产投资和财政支出 5 个因素与财政收入的关系进行分析 ,通过多元回归分析的方式得
[7]
到了对财政收入影响最大的两个因子在数量上的关系并构建二元回归模型 ; 何雪平等 选取 17 个相
关经济指标数据作为研究对象. 运用 SCAD 方法选出了云南省财政收入的主要影响因素 ,并与逐步回归
方法的结果进行对比.
上述研究中,有很多角度考虑财政收入的影响因素 ,也有较多的方法来研究财政收入的影响因素.
本文结合了以上研究中的影响因素 ,通过变量选择选取了对吉林省财政收入影响较大的影响因素 ,对这
收稿日期: 2018-03-28
基金项目: 国家自然科学基金项目( 11571051, 11671054) ; 吉林省教育厅“十三五”规划项目( 2016317)
第一作者简介: 董小刚( 1961—) ,男,吉林省长春市人,教授,博士,博士生导师. 研究方向: 数理统计.
* 通讯作者: 王纯杰( 1978—) ,女,辽宁省灯塔市人,副教授,博士,博士生导师. 研究方向: 数理统计、生存分析.
46 吉林师范大学学报( 自然科学版) 第 39 卷
表1 变量介绍
Table 1 Variable introduction
变量名 变量含义
Y 财政收入
X1 社会从业人数
X2 国有和集体职工人数
X3 社会消费品零售总额
X4 城镇居民人均可支配收入
X5 在岗职工工资总额
X6 城镇居民人均消费性支出
X7 年末总人口
X8 全社会固定资产投资额
X9 地区生产总值
X10 第一产业产值
X11 居民消费价格指数
X12 第三产业与第二产业产值比
X13 居民消费水平
X14 1994 年分税制政策变量( 1994 年前取 0,其余取 1)
X15 2006 年农业税政策变量( 2006 年前取 0,其余取 1)
X16 进出口总额
X17 能源消费总量
X18 财政支出
文中的影响因素指标和数据来源于《吉林省统计年鉴 2015》,考虑数据的完整性,这里选取的是
1983—2014 年的 32 条记录进行分析,数据分析均在 SAS 9. 4 环境中实现.
2 多元回归分析
首先导入数据,然后对数据进行简单的分析,原始数据 Y( 财政收入) 随着时间的增长呈现指数增长
的趋势,因此需要对 Y 取对数,SAS 程序如下:
/ * 对原始 y 取对数* /
data orion. dyj;
set orion. dyj;
y = log( y) ;
run;
/ * 检验因变量与自变量之间的关系* /
ods graphics / reset = all imagemap;
proc corr data = orion. dyj rank plots( only) = scatter( ellipse = none nvar = all) ;
var x1 - x18;
with y;
run;
/ * 检验自变量之间的关系* /
ods graphics / reset = all;
proc corr data = orion. dyj nosimple plots = matrix( histogram nvar = all) ;
第2 期 董小刚,等: 岭回归、LASSO 回归和 Adaptive-LASSO 回归下的财政收入因素分析 47
var x1 - x18;
run;
/ * 普通最小二乘法拟合模型* /
proc reg data = orion. dyj;
model y = x1 - x18;
run;
quit;
/ * 共线性检验* /
proc reg data = orion. dyj;
model y = x1 - x18 / vif tol collin;
run;
通过多元回归分析可知,最大方差膨胀值和最大条件指数分别为 9 278. 31 和 1 919. 91,大大超出
范围,因此说明解释变量之间存在严重的多重共线性 . 当解释变量之间存在多重共线性时,解释变量间
存在高度相关关系,参数估计的精确度会大幅度降低,模型估计失真,因此所得估计的现实意义无法解
释,回归方程的应用价值降低,因此需要进行变量选择. 在以往的文献中,一般通过逐步回归的方式,筛
选预测变量,本文通过岭回归、LASSO 回归及 Adaptive-LASSO 回归来进行变量的选择.
图1 岭迹图
Fig. 1 Ridge trace
[11]
由图 1 可以看出,X6 ,X7 ,X8 ,X11 ,X15 的标准化岭回归系数比较稳定且绝对值很小 ,则根据原则一
可将其剔除; 当 k 值较小时,X4 的标准化岭回归系数的绝对值并不很小,且随着 k 的增大迅速减小,根
[10] [11]
据原则二 将 X3 ,X4 ,X13 ,X18 剔除; X5 ,X10 两个系数都不稳定,但是其和却大体上稳定,根据原则三 ,
将 X5 剔除; 同样剔除 X2 ,X14 ,X16 ,再对剩余的变量 X1 ,X9 ,X10 ,X12 ,X17 进行第二次岭回归分析. 岭迹图如
图 2 所示:
第2 期 董小刚,等: 岭回归、LASSO 回归和 Adaptive-LASSO 回归下的财政收入因素分析 49
图2 第二次岭回归岭迹图
Fig. 2 The second Ridge regression ridge trace
图3 财政收入实际值与岭回归拟合值的对比
Fig. 3 Comparison of the actual value of fiscal revenue and the fitted value of Ridge regression
3. 2 LASSO 回归分析
[ 11 ]
近年来,LASSO 被广泛应用于参数估计和变量选择中,LASSO 回归分析是由 Tibshirani ( 1996)
提出的,它是一种将变量选择与参数估计同时进行的正则化方法 . LASSO 参数估计被定义如下:
p p
其中 λ 为非负正则参数,λ ∑ | β j | 称为惩罚项.
j =1
[12]
计值. 在 SAS 中,使用 hpreg 过程步即可实现 LASSO 回归,默认使用的是 SBC 准则进行变量挑选,并
给出了参数的估计值. 对数据进行 LASSO 回归分析,SAS 程序如下:
/ * LASSO 回归* /
proc hpreg data = stdfram;
model y = x1 - x18;
selection method = LASSO;
OUTPUT out = p1 pred = plasso;
run;
data pp;
set p_psrrid;
set p1;
run;
title " LASSO 回归拟合值与实际值对比图" ;
symbol1 v = dot cv = red i = join ci = red;
symbol2 v = dianond cv = green i = join ci = green line = 5;
proc gplot data = pp;
plot y* year plasso* year / overlay legend;
run;
quit;
title;
通过 SAS 软件得出 LASSO 回归方程如下:
Y = - 4. 30 × 10 - 16 + 0. 195X1 - 0. 064X2 + 0. 380X6 + 0. 169X7 + 0. 228X17 . ( 3)
通过 LASSO 回归选出了 5 个影响较大的变量 X1 、X2 、X6 X7 和 X17 ,分别是: 社会从业人数 X1 、国有和
集体职工人数 X2 、城镇居民人均消费性支出 X6 、年末总人口 X7 和能源消费总量 X17 .
由模型( 2) 可知: 每当 X1 增加一个单位时,Y 就增加 0. 195 个单位; X2 每增加一个单位,Y 就减少
0. 064 个单位; X6 每增加一个单位,Y 就增加 0. 380 个单位; X7 每增加一个单位,Y 就增加 0. 169 个单
位; X17 每增加一个单位,Y 就增加 0. 228 个单位. 这说明: 国有和集体职工人数 ( X2 ) 与财政收入 Y 呈负
相关关系,国有和集体职工人数对财政收入有较小的负影响 ,可能是由于当国有和集体职工人数增加
时,国有企业开支比较大,导致缴纳的部分减少,以至于财政收入的减少; 社会从业人数 ( X1 ) 、城镇居民
人均消费性支出( X6 ) 、年末总人口( X7 ) 、能源消费总量 ( X17 ) 为影响财政收入 Y 的主要因素,并且都是
正影响,社会从业人数、城镇居民人均消费性支出、年末总人口及能源消费总量越多,财政收入越高. 如
图 4 所示,财政收入实际值与 LASSO 回归拟合值的对比折线图中两条线十分接近,即说明该模型拟合
出来的值十分接近实际值,模型拟合效果较好.
3. 3 Adaptive-LASSO 回归分析
LASSO 方法虽然可以解决最小二乘法和逐步回归局部最优估计的不足 ,但需要满足的是自身条件
[13]
也是非常苛刻的. 为了解决这个问题,Zou H ( 2006) 提出了一种改进的 LASSO 方法,其改进之处即给
LASSO 回归中不同系数加上不同权重,被称之为 Adaptive-LASSO 方法,也就是 Adaptive-LASSO 方法,定
义如下:
p p
β^ ( n) = arg min y - + λ n ∑ ω^ | β j | ,
* 2
∑ xj βj ( 4)
β j =1
j =1
1
其中,权重ω^ j = 2,…,p,β^ j 为由普通最小二乘法得出的系数.
( γ > 0) ,j = 1,
^β γ
在吉林省财政收入影响因素较多的情况下 ,Adaptive-LASSO 回归能够快速精准的找到预测变量 ,并
给出 估 计 值. 在 SAS 中,使 用 hpreg 过 程 步 即 可 实 现 Adaptive-LASSO 回 归,需 要 在 参 数 中 设 置
ADAPTIVE( GAMMA = 1) ,默认使用的是 SBC 准则进行变量挑选,并给出了参数的估计值.
进行 Adaptive-LASSO 回归分析,SAS 程序如下:
/ * Adaptive-LASSO 回归* /
proc hpreg data = stdfram;
model y = x1 - x18;
selection method = LASSO( ADAPTIVE( GAMMA = 1) STOP = SBC) ;
OUTPUT out = p2 pred = p_adaptive;
run;
data pp;
set p_psrrid;
set p2;
run;
title " Adaptive-LASSO 回归拟合值与实际值对比图" ;
symbol1 v = dot cv = red i = join ci = red;
symbol2 v = dianond cv = green i = join ci = green line = 5;
proc gplot data = pp;
plot y* year p_adaptive* year / overlay legend;
run;
quit;
title;
通过 SAS 软件得出 Adaptive-LASSO 回归方程如下:
Y = - 8. 17 × 10 - 17 + 0. 243X1 - 0. 127X2 + 0. 421X10 + 0. 212X12 - 0. 195X14 + 0. 365X17 . ( 5)
通过 Adaptive-LASSO 回归选出了 6 个影响较大的变量,分别是: 社会从业人数 X1 、国有和集体职工
人数 X2 、第一产业产值 X10 、第三产业与第二产业产值比值 X12 ,1994 年分税制政策变量 X14 ( 1994 年之
前取值为 0,其余取值为 1) ,能源消费总量 X17 .
由模型( 3) 可知: 每当 X1 增加一个单位时,Y 就增加 0. 243 个单位; X2 每增加一个单位,Y 就减少
0. 127 个单位; X10 每增加一个单位,Y 就增加 0. 421 个单位; X12 每增加一个单位,Y 就增加 0. 212 个单
位; X14 每增加一个单位,Y 就减少 0. 195 个单位; X17 每增加一个单位,Y 就增加 0. 365 个单位. 这说明:
国有和集体职工人数( X2 ) 与财政收入 Y 呈负相关关系,说明国有和集体职工人数对财政收入有较小的
负影响,可能是由于当国有和集体职工人数增加时 ,国有企业开支比较大,导致缴纳的部分减少,以至于
财政收入的减少; 1994 年分税制政策变量 ( X14 ) 与财政收入 Y 呈负相关关系,实行该政策后,财政收入
受到较小的负影响; 社会从业人数 ( X1 ) 、第一产业产值 ( X10 ) 、第三产业与第二产业产值比值 ( X12 ) 、能
源消费总量( X17 ) 为影响财政收入 Y 的主要因素,并且都是正影响. 图 5 为财政收入实际值与 Adaptive-
LASSO 回归拟合值的对比折线图. 从图中可以看出,两条线非常接近,即说明该模型拟合出来的值与实
际值非常接近,拟合效果较好.
52 吉林师范大学学报( 自然科学版) 第 39 卷
3. 4 模型对比分析
在上述分析中,分别运用了岭回归法、LASSO 方法及 Adaptive-LASSO 方法进行变量选择,消除多重
共线性的影响,最终得出三个模型,如表 2.
表2 自变量选择准则
Table 2 Independent variable selection criteria
Adaptive LASSO X1 ,X2 ,X10 ,X12 X14 ,X17 0. 076 92 0. 995 2 - 124. 06 - 147. 80
从模型检验和参数检验来看,各检验统计量所对应的 P 值均 < 0. 01,说明模型与参数均通过检验;
比较邻回归、LASSO 回归及 Adaptive-LASSO 回归的情况. 从均方根误差来看,Adaptive-LASSO 的均方根
2
误差最 小,说 明 Adaptive-LASSO 模 型 相 对 较 优; 从 R 准 则 来 看,0. 9952 > 0. 9886 > 0. 9849,说 明
Adaptive-LASSO 模型模型相对较优; 从 AIC 准则来看,- 89. 27 > - 124. 06 > - 134. 28,说明岭回归模型
相对较优; 从 SBC 准则来看,- 114. 80 > - 126. 95 > - 147. 80,说明 Adaptive-LASSO 模型相对较优. 并
且 Adaptive-LASSO 的变量解释更加符合实际. 综上所分析,Adaptive-LASSO 回归模型相对较优,即:
Y = - 8. 17 × 10 - 17 + 0. 243X1 - 0. 127X2 + 0. 421X10 + 0. 212X12 - 0. 195X14 + 0. 365X17 . ( 6)
因此,影响农业总产值 Y 的主要因素为国有和集体职工人数 ( X2 ) 和 1994 年分税制 政 策 变 量
( X14 ) ,并且这两个因素对财政收入产生的是负影响; 社会从业人数 ( X1 ) 、第一产业产值 ( X10 ) 、第三产
业与第二产业产值比值( X12 ) 、能源消费总量( X17 ) 同样是财政收入 Y 的主要因素,并且这几个都是正影
响; 社会从业人数越多、第一产业产值越高、第三产业与第二产业产值比值越高、能源消费总量越大,财
政收入越高.
4 结论与建议
从模型( 6) 可以看出: 吉林省财政收入和社会从业人数存在着正相关的关系 ,社会从业人数的增加
会引起财政收入的增长; 社会从业人数直接影响着居民的消费水平 ,社会从业人数的上升伴随着居民消
费水平的提高,从而间接增加财政收入.
吉林省财政收入与国有和集体职工人数存在着负相关的关系 ,国有和集体职工人数的增加会引起
财政收入的减少. 可能是由于当国有和集体职工人数增加时 ,国有企业开支比较大,利润变小,导致缴纳
第2 期 董小刚,等: 岭回归、LASSO 回归和 Adaptive-LASSO 回归下的财政收入因素分析 53
参 考 文 献
Abstract: This paper selects 18 factors that affect the fiscal revenue in Jilin Province and the multiple
regression model of fiscal revenue in Jilin Province is established by SAS software. Because of the large number
of independent variables and the existence of serious multicollinearity,variable selection is required. In this
paper,ridge regression model,LASSO regression model and Adaptive-LASSO regression model are used to
select variables. Finally,the three models are compared and analyzed,and the conclusion can be drawn that the
Adaptive-LASSO regression model is the best.
Key words: SAS software; ridge regression model; LASSO regression model; Adaptive-LASSO regression model
( 责任编辑: 孙爱慧)