You are on page 1of 9

第 39 卷 第 2 期 吉林师范大学学报( 自然科学版) Vol. 39,No. 2

2018 年 5 月 Journal of Jilin Normal University ( Natural Science Edition) May,


2018

doi: 10. 16862 / j. cnki. issn1674-3873. 2018. 02. 010

岭回归 、LASSO 回归和


Adaptive-LASSO 回归下的财政收入因素分析

董小刚,刁亚静,李慧玲,王纯杰 ,温丽男
*

( 长春工业大学 数学与统计学院,吉林 长春 130012)

摘 要: 选取了 18 个影响吉林省财政收入的因素,运用 SAS 软件建立了吉林省财政收入的多元回归模型. 由


于自变量过多并且存在严重的多重共线性,因此需要进行变量选择,本文运用岭回归模型、LASSO 回归模型
及 Adaptive-LASSO 回归模型进行变量选择,最后对这三个模型进行了比较分析,得出 Adaptive-LASSO 回归模
型相对较优的结论.
关键词: SAS 软件; 岭回归; LASSO 回归; Adaptive-LASSO 回归
中图分类号: C812 文献标志码: A 文章编号: 1674-3873-( 2018) 02-0045-09

地方财政收入是我国现行体制下相对比较独立的个体 ,同时也是国家财政收入的重要组成部分 . 由
于如何高效地利用地方财政收入 ,改善人民生活质量是每个地方政府都需要考虑的问题 . 因此详细地了
解影响地方财政的因素,根据这些因素提出对财政规划具有建设性的政策和建议 ,对地方甚至国家都有
及其重要的影响. 本文将通过选取吉林省财政收入的数据 ,通过建立回归模型,分析影响吉林省财政收
入的主要影响因素.

1 影响因素的选取与数据的来源
影响财政收入因素的分析一直以来都受到了人们的关注 ,由于影响财政收入的因素有很多,究竟哪
[1]
些才是主要的影响因素,已经有一些学者尝试在这方面作出分析. 金欣雪等 通过回归分析对我国全
国地区的财政收入影响因素进行了定量分析 ,建立了可靠的数学模型,并提出了提高我国财政收入的政
[2]
策建议; 段奕 通过建立计量经济学模型,对山东省财政收入主要影响因素的税收收入和国内生产总
[3] [4]
值进行了实证分析; 刘荣 通过逐步回归对我国的财政收入的影响因素进行了定量分析 ; 谌维维 主
要从省国民生产总值、第一产业占比和第三产业占比等多个维度分析贵州的财政收入的影响因素 ; 靳新
[5]
丽 基于天津 16 个区县 6 年的数据使用混合 OLS 和固定效应模型分析天津各区县财政收入的影响因
[6]
素; 于集轩 选取吉林省 1979—2013 年财政收入影响因素的数据作为研究对象,对税收、地区生产总
值、全社会固定资产投资和财政支出 5 个因素与财政收入的关系进行分析 ,通过多元回归分析的方式得
[7]
到了对财政收入影响最大的两个因子在数量上的关系并构建二元回归模型 ; 何雪平等 选取 17 个相
关经济指标数据作为研究对象. 运用 SCAD 方法选出了云南省财政收入的主要影响因素 ,并与逐步回归
方法的结果进行对比.
上述研究中,有很多角度考虑财政收入的影响因素 ,也有较多的方法来研究财政收入的影响因素.
本文结合了以上研究中的影响因素 ,通过变量选择选取了对吉林省财政收入影响较大的影响因素 ,对这
收稿日期: 2018-03-28
基金项目: 国家自然科学基金项目( 11571051, 11671054) ; 吉林省教育厅“十三五”规划项目( 2016317)
第一作者简介: 董小刚( 1961—) ,男,吉林省长春市人,教授,博士,博士生导师. 研究方向: 数理统计.
* 通讯作者: 王纯杰( 1978—) ,女,辽宁省灯塔市人,副教授,博士,博士生导师. 研究方向: 数理统计、生存分析.
46 吉林师范大学学报( 自然科学版) 第 39 卷

些因素进行了多元回归分析及变量选择 . 本文因变量为财政收入 Y,自变量为 X1 —X18 ,具体见表 1.

表1 变量介绍
Table 1 Variable introduction

变量名 变量含义
Y 财政收入
X1 社会从业人数
X2 国有和集体职工人数
X3 社会消费品零售总额
X4 城镇居民人均可支配收入
X5 在岗职工工资总额
X6 城镇居民人均消费性支出
X7 年末总人口
X8 全社会固定资产投资额
X9 地区生产总值
X10 第一产业产值
X11 居民消费价格指数
X12 第三产业与第二产业产值比
X13 居民消费水平
X14 1994 年分税制政策变量( 1994 年前取 0,其余取 1)
X15 2006 年农业税政策变量( 2006 年前取 0,其余取 1)
X16 进出口总额
X17 能源消费总量
X18 财政支出

文中的影响因素指标和数据来源于《吉林省统计年鉴 2015》,考虑数据的完整性,这里选取的是
1983—2014 年的 32 条记录进行分析,数据分析均在 SAS 9. 4 环境中实现.

2 多元回归分析
首先导入数据,然后对数据进行简单的分析,原始数据 Y( 财政收入) 随着时间的增长呈现指数增长
的趋势,因此需要对 Y 取对数,SAS 程序如下:
/ * 对原始 y 取对数* /
data orion. dyj;
set orion. dyj;
y = log( y) ;
run;
/ * 检验因变量与自变量之间的关系* /
ods graphics / reset = all imagemap;
proc corr data = orion. dyj rank plots( only) = scatter( ellipse = none nvar = all) ;
var x1 - x18;
with y;
run;
/ * 检验自变量之间的关系* /
ods graphics / reset = all;
proc corr data = orion. dyj nosimple plots = matrix( histogram nvar = all) ;
第2 期 董小刚,等: 岭回归、LASSO 回归和 Adaptive-LASSO 回归下的财政收入因素分析 47

var x1 - x18;
run;
/ * 普通最小二乘法拟合模型* /
proc reg data = orion. dyj;
model y = x1 - x18;
run;
quit;
/ * 共线性检验* /
proc reg data = orion. dyj;
model y = x1 - x18 / vif tol collin;
run;
通过多元回归分析可知,最大方差膨胀值和最大条件指数分别为 9 278. 31 和 1 919. 91,大大超出
范围,因此说明解释变量之间存在严重的多重共线性 . 当解释变量之间存在多重共线性时,解释变量间
存在高度相关关系,参数估计的精确度会大幅度降低,模型估计失真,因此所得估计的现实意义无法解
释,回归方程的应用价值降低,因此需要进行变量选择. 在以往的文献中,一般通过逐步回归的方式,筛
选预测变量,本文通过岭回归、LASSO 回归及 Adaptive-LASSO 回归来进行变量的选择.

3 岭回归分析、LASSO 回归分析和 Adaptive-LASSO 回归分析


在以往的文献资料中,对影响财政收入的因素的分析大多使用极大似然估计和普通最小二乘方法
[3,
8]
对回归模型的系数进行估计,大多采用逐步回归 预测变量的选取. 然而,无论是最小二乘法、极大似
然法还是逐步回归法,都有其不足之处. 它们一般都局限于局部最优解,而非全局最优解,并且逐步回归
选取的变量并没有消除其严重的多重共线性问题 .
本文使用了三种回归模型对变量进行选择 ,分别是岭回归模型、LASSO 回归模型及 Adaptive-LASSO
回归. 岭回归是一种专用于共线性数据分析的有偏估计回归方法 ,实质上是改良的最小二乘估计法,通
过放弃最小二乘估计的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠
的回归方法. LASSO 回归是一种相对较新的方法,它是在 RSS 最小化的计算中加入一个范数作为惩罚
约束. Adaptive-LASSO 回归是 LASSO 回归的改进型. 考虑到各个自变量之间的单位不同 ,本文先将原始
数据进行了标准化,用来消除量纲对数据结构的影响.
[9]
岭回归分析
3. 1
岭回归( ridge regression) 是改良后的普通最小二乘估计,由霍尔 ( Hoerl A E) 在 1962 年首次提出
来,
并在 1970 年和肯纳德( Kennard) 对岭估计进行了详细讨论,给出结论. 当自变量间存在多重共线性,
| X'X | ≈0 时,设想把一个正的常数矩阵 kI( k > 0) 加到 X'X 中,则 X'X + kI 接近奇异的程度就会比 X'X
接近奇异的程度小得多,故对普通最小二乘估计进行改进,以达到消除共线性影响的效果. 消除多重共
线性的过程实际上是一个自变量选元的过程 .
对数据进行岭回归分析,SAS 程序如下:
/ * 岭回归分析* /
/ * 进行数据标准化消除量纲对数据结构的影响* /
proc standard data = orion. dyj mean = 0 std = 1 out = stdfram;
var y x1 - x18;
run;
title " 岭回归分析" ;
proc reg data = stdfram outest = rid;
model y = x1 - x18 / noint ridge = 0 to 0. 002 by 0. 0001;
plot / ridgeplot vaxis = - 1. 0 to 1. 0 by 0. 1;
run;
/ * 第二次岭回归分析* /
48 吉林师范大学学报( 自然科学版) 第 39 卷

title " 第二次岭回归分析" ;


proc reg data = stdfram outest = rid;
model y = x1 x9 x10 x12 x17 / noint ridge = 0 to 0. 01 by 0. 005;
plot / ridgeplot vaxis = - 0. 5 to 0. 7 by 0. 1;
run;
title;
title " 标准化岭回归分析" ;
proc reg data = stdfram outest = psrrid ;
model y = x1 x9 x10 x12 x17 / noint aic sbc mse ridge = 0. 01;
run;
title;
proc score data = stdfram score = psrrid out = p_psrrid type = ridge;
var x1 x9 x10 x12 x17 ;
run;
title " 岭回归回归拟合值与实际值对比图" ;
symbol1 v = dot cv = red i = join ci = red;
symbol2 v = dianond cv = green i = join ci = green line = 5;
proc gplot data = p_psrrid;
plot y* year model1* year / overlay legend;
run;
quit;
title;
岭迹图如图 1 所示:

图1 岭迹图
Fig. 1 Ridge trace

[11]
由图 1 可以看出,X6 ,X7 ,X8 ,X11 ,X15 的标准化岭回归系数比较稳定且绝对值很小 ,则根据原则一
可将其剔除; 当 k 值较小时,X4 的标准化岭回归系数的绝对值并不很小,且随着 k 的增大迅速减小,根
[10] [11]
据原则二 将 X3 ,X4 ,X13 ,X18 剔除; X5 ,X10 两个系数都不稳定,但是其和却大体上稳定,根据原则三 ,
将 X5 剔除; 同样剔除 X2 ,X14 ,X16 ,再对剩余的变量 X1 ,X9 ,X10 ,X12 ,X17 进行第二次岭回归分析. 岭迹图如
图 2 所示:
第2 期 董小刚,等: 岭回归、LASSO 回归和 Adaptive-LASSO 回归下的财政收入因素分析 49

图2 第二次岭回归岭迹图
Fig. 2 The second Ridge regression ridge trace

从图 2 可以看出岭参数 k 在 0. 005 ~ 0. 10 之间时,岭参数已经基本稳定. 因此取岭参数 k = 0. 1 得


到 Y 对 X1 ,X9 ,X10 ,X12 ,X17 标准化后岭回归方程为
Y^ = 0. 12509X1 + 0. 26691X9 + 0. 07549X10 + 0. 21115X12 + 0. 50273X17 . ( 1)
由模型( 1) 可知: 当 X1 每增加一个单位时,Y 就增加 0. 125 09 个单位; X9 每增加一个单位,Y 就增
加 0. 266 91 个单位; X10 每增加一个单位,Y 就增加 0. 075 49 个单位; X12 每增加一个单位,Y 就增加
0. 211 15 个单位; X17 每增加一个单位,Y 就增加 0. 502 73 个单位. 说明社会从业人数 ( X1 ) 、地区生产总
值( X9 ) 、第一产业产值( X10 ) 、第三产业与第二产业产值比( X12 ) 、能源消费总量( X17 ) 为影响财政收入 Y
的主要因素,并且都是正影响. 图 3 中红线和绿线分别为财政收入实际值与岭回归拟合值 ,从对比折线
图可以看出,该模型拟合出来的值与实际值接近 .

图3 财政收入实际值与岭回归拟合值的对比
Fig. 3 Comparison of the actual value of fiscal revenue and the fitted value of Ridge regression

3. 2 LASSO 回归分析
[ 11 ]
近年来,LASSO 被广泛应用于参数估计和变量选择中,LASSO 回归分析是由 Tibshirani ( 1996)
提出的,它是一种将变量选择与参数估计同时进行的正则化方法 . LASSO 参数估计被定义如下:
p p

β^ ( lasso) = arg min y -


2
∑ xj βj + λ∑ β j , ( 2)
β j =1
j =1
p

其中 λ 为非负正则参数,λ ∑ | β j | 称为惩罚项.
j =1

在吉林省财政收入影响因素较多的情况下 ,LASSO 回归能够快速精准的找到预测变量,并给出估


50 吉林师范大学学报( 自然科学版) 第 39 卷

[12]
计值. 在 SAS 中,使用 hpreg 过程步即可实现 LASSO 回归,默认使用的是 SBC 准则进行变量挑选,并
给出了参数的估计值. 对数据进行 LASSO 回归分析,SAS 程序如下:
/ * LASSO 回归* /
proc hpreg data = stdfram;
model y = x1 - x18;
selection method = LASSO;
OUTPUT out = p1 pred = plasso;
run;
data pp;
set p_psrrid;
set p1;
run;
title " LASSO 回归拟合值与实际值对比图" ;
symbol1 v = dot cv = red i = join ci = red;
symbol2 v = dianond cv = green i = join ci = green line = 5;
proc gplot data = pp;
plot y* year plasso* year / overlay legend;
run;
quit;
title;
通过 SAS 软件得出 LASSO 回归方程如下:
Y = - 4. 30 × 10 - 16 + 0. 195X1 - 0. 064X2 + 0. 380X6 + 0. 169X7 + 0. 228X17 . ( 3)
通过 LASSO 回归选出了 5 个影响较大的变量 X1 、X2 、X6 X7 和 X17 ,分别是: 社会从业人数 X1 、国有和
集体职工人数 X2 、城镇居民人均消费性支出 X6 、年末总人口 X7 和能源消费总量 X17 .
由模型( 2) 可知: 每当 X1 增加一个单位时,Y 就增加 0. 195 个单位; X2 每增加一个单位,Y 就减少
0. 064 个单位; X6 每增加一个单位,Y 就增加 0. 380 个单位; X7 每增加一个单位,Y 就增加 0. 169 个单
位; X17 每增加一个单位,Y 就增加 0. 228 个单位. 这说明: 国有和集体职工人数 ( X2 ) 与财政收入 Y 呈负
相关关系,国有和集体职工人数对财政收入有较小的负影响 ,可能是由于当国有和集体职工人数增加
时,国有企业开支比较大,导致缴纳的部分减少,以至于财政收入的减少; 社会从业人数 ( X1 ) 、城镇居民
人均消费性支出( X6 ) 、年末总人口( X7 ) 、能源消费总量 ( X17 ) 为影响财政收入 Y 的主要因素,并且都是
正影响,社会从业人数、城镇居民人均消费性支出、年末总人口及能源消费总量越多,财政收入越高. 如
图 4 所示,财政收入实际值与 LASSO 回归拟合值的对比折线图中两条线十分接近,即说明该模型拟合
出来的值十分接近实际值,模型拟合效果较好.

图4 财政收入实际值与 LASSO 回归拟合值的对比


Fig. 4 Comparison of the actual value of fiscal revenue and LASSO regression fitted value
第2 期 董小刚,等: 岭回归、LASSO 回归和 Adaptive-LASSO 回归下的财政收入因素分析 51

3. 3 Adaptive-LASSO 回归分析
LASSO 方法虽然可以解决最小二乘法和逐步回归局部最优估计的不足 ,但需要满足的是自身条件
[13]
也是非常苛刻的. 为了解决这个问题,Zou H ( 2006) 提出了一种改进的 LASSO 方法,其改进之处即给
LASSO 回归中不同系数加上不同权重,被称之为 Adaptive-LASSO 方法,也就是 Adaptive-LASSO 方法,定
义如下:
p p

β^ ( n) = arg min y - + λ n ∑ ω^ | β j | ,
* 2
∑ xj βj ( 4)
β j =1
j =1

1
其中,权重ω^ j = 2,…,p,β^ j 为由普通最小二乘法得出的系数.
( γ > 0) ,j = 1,
^β γ
在吉林省财政收入影响因素较多的情况下 ,Adaptive-LASSO 回归能够快速精准的找到预测变量 ,并
给出 估 计 值. 在 SAS 中,使 用 hpreg 过 程 步 即 可 实 现 Adaptive-LASSO 回 归,需 要 在 参 数 中 设 置
ADAPTIVE( GAMMA = 1) ,默认使用的是 SBC 准则进行变量挑选,并给出了参数的估计值.
进行 Adaptive-LASSO 回归分析,SAS 程序如下:
/ * Adaptive-LASSO 回归* /
proc hpreg data = stdfram;
model y = x1 - x18;
selection method = LASSO( ADAPTIVE( GAMMA = 1) STOP = SBC) ;
OUTPUT out = p2 pred = p_adaptive;
run;
data pp;
set p_psrrid;
set p2;
run;
title " Adaptive-LASSO 回归拟合值与实际值对比图" ;
symbol1 v = dot cv = red i = join ci = red;
symbol2 v = dianond cv = green i = join ci = green line = 5;
proc gplot data = pp;
plot y* year p_adaptive* year / overlay legend;
run;
quit;
title;
通过 SAS 软件得出 Adaptive-LASSO 回归方程如下:
Y = - 8. 17 × 10 - 17 + 0. 243X1 - 0. 127X2 + 0. 421X10 + 0. 212X12 - 0. 195X14 + 0. 365X17 . ( 5)
通过 Adaptive-LASSO 回归选出了 6 个影响较大的变量,分别是: 社会从业人数 X1 、国有和集体职工
人数 X2 、第一产业产值 X10 、第三产业与第二产业产值比值 X12 ,1994 年分税制政策变量 X14 ( 1994 年之
前取值为 0,其余取值为 1) ,能源消费总量 X17 .
由模型( 3) 可知: 每当 X1 增加一个单位时,Y 就增加 0. 243 个单位; X2 每增加一个单位,Y 就减少
0. 127 个单位; X10 每增加一个单位,Y 就增加 0. 421 个单位; X12 每增加一个单位,Y 就增加 0. 212 个单
位; X14 每增加一个单位,Y 就减少 0. 195 个单位; X17 每增加一个单位,Y 就增加 0. 365 个单位. 这说明:
国有和集体职工人数( X2 ) 与财政收入 Y 呈负相关关系,说明国有和集体职工人数对财政收入有较小的
负影响,可能是由于当国有和集体职工人数增加时 ,国有企业开支比较大,导致缴纳的部分减少,以至于
财政收入的减少; 1994 年分税制政策变量 ( X14 ) 与财政收入 Y 呈负相关关系,实行该政策后,财政收入
受到较小的负影响; 社会从业人数 ( X1 ) 、第一产业产值 ( X10 ) 、第三产业与第二产业产值比值 ( X12 ) 、能
源消费总量( X17 ) 为影响财政收入 Y 的主要因素,并且都是正影响. 图 5 为财政收入实际值与 Adaptive-
LASSO 回归拟合值的对比折线图. 从图中可以看出,两条线非常接近,即说明该模型拟合出来的值与实
际值非常接近,拟合效果较好.
52 吉林师范大学学报( 自然科学版) 第 39 卷

图5 财政收入实际值与 Adaptive-LASSO 回归拟合值的对比


Fig. 5 Comparison of the actual financial revenue value and the fitting value of Adaptive-LASSO regression

3. 4 模型对比分析
在上述分析中,分别运用了岭回归法、LASSO 方法及 Adaptive-LASSO 方法进行变量选择,消除多重
共线性的影响,最终得出三个模型,如表 2.

表2 自变量选择准则
Table 2 Independent variable selection criteria

模型 模型中的变量 均方根误差 R2 AIC SBC

岭回归 X1 ,X9 ,X10 ,X12 ,X17 0. 114 25 0. 988 6 - 134. 28 - 126. 95

LASSO X1 ,X2 ,X6 ,X7 X17 0. 134 01 0. 984 9 - 89. 27 - 114. 48

Adaptive LASSO X1 ,X2 ,X10 ,X12 X14 ,X17 0. 076 92 0. 995 2 - 124. 06 - 147. 80

从模型检验和参数检验来看,各检验统计量所对应的 P 值均 < 0. 01,说明模型与参数均通过检验;
比较邻回归、LASSO 回归及 Adaptive-LASSO 回归的情况. 从均方根误差来看,Adaptive-LASSO 的均方根
2
误差最 小,说 明 Adaptive-LASSO 模 型 相 对 较 优; 从 R 准 则 来 看,0. 9952 > 0. 9886 > 0. 9849,说 明
Adaptive-LASSO 模型模型相对较优; 从 AIC 准则来看,- 89. 27 > - 124. 06 > - 134. 28,说明岭回归模型
相对较优; 从 SBC 准则来看,- 114. 80 > - 126. 95 > - 147. 80,说明 Adaptive-LASSO 模型相对较优. 并
且 Adaptive-LASSO 的变量解释更加符合实际. 综上所分析,Adaptive-LASSO 回归模型相对较优,即:
Y = - 8. 17 × 10 - 17 + 0. 243X1 - 0. 127X2 + 0. 421X10 + 0. 212X12 - 0. 195X14 + 0. 365X17 . ( 6)
因此,影响农业总产值 Y 的主要因素为国有和集体职工人数 ( X2 ) 和 1994 年分税制 政 策 变 量
( X14 ) ,并且这两个因素对财政收入产生的是负影响; 社会从业人数 ( X1 ) 、第一产业产值 ( X10 ) 、第三产
业与第二产业产值比值( X12 ) 、能源消费总量( X17 ) 同样是财政收入 Y 的主要因素,并且这几个都是正影
响; 社会从业人数越多、第一产业产值越高、第三产业与第二产业产值比值越高、能源消费总量越大,财
政收入越高.

4 结论与建议
从模型( 6) 可以看出: 吉林省财政收入和社会从业人数存在着正相关的关系 ,社会从业人数的增加
会引起财政收入的增长; 社会从业人数直接影响着居民的消费水平 ,社会从业人数的上升伴随着居民消
费水平的提高,从而间接增加财政收入.
吉林省财政收入与国有和集体职工人数存在着负相关的关系 ,国有和集体职工人数的增加会引起
财政收入的减少. 可能是由于当国有和集体职工人数增加时 ,国有企业开支比较大,利润变小,导致缴纳
第2 期 董小刚,等: 岭回归、LASSO 回归和 Adaptive-LASSO 回归下的财政收入因素分析 53

的部分减少,以至于财政收入的减少; 另一方面可能是由于国有和集体职工人数增加时 ,很大一部分资


金投入到了基础设施的建设,导致了财政收入的减少.
吉林省财政收入和第一产业产值存在着正相关的关系 . 吉林省地处中国东北中部地区,拥有辽阔的
平原地带和富饶的水域环境等自然资源 ,是中国重要的粮食生产基地之一,因而农业就显得至关重要,
第一产业农业的产值越高,居民收入越高,消费水平也会随之增长,最终导致财政收入增长.
吉林省财政收入和第三产业与第二产业产值比值存在着正相关的关系 ,第三产业与第二产业产值
比值的提高会引起财政收入的增长 . 第三产业与第二产业比值提高,意味着服务业发展迅速,第三产业
生产总值代表国民经济水平,是财政收入的主要影响因素,当产业结构逐步优化时,财政收入也会随之
增加.
吉林省财政收入和能源消费总量存在着正相关的关系 ,能源消费总量的增加会引起财政收入的增
长 吉林省作为我国的重工业基地之一 ,能源消费总量较大,并且能源消费的同时产生了大量的税收 ,当

能源消费总量增长时,其上缴的税收也就越多,因而会引起财政收入的增加.

参 考 文 献

[1]金欣雪,周红林. 我国财政收入影响因素分析[J]. 图书情报导刊, 17( 26) : 140-142.


2007,
[2]段奕. 山东省财政收入主要影响因素分析[J]. 金融经济( 理论版) ,
2008( 8) : 26-27.
[3]刘荣. 基于逐步回归方法的国家财政收入的影响因素分析[J]. 劳动保障世界( 理论版) ,
2012( 10) : 53-56.
2015( 4) : 54-56.
[4]谌维维. 贵州省财政收入的影响因素分析[J]. 时代金融,
[5]靳新丽. 天津市财政收入的影响因素分析[J]. 天津经济,
2015( 9) : 18-20.
[6]于集轩. 吉林省政府财政收入影响因素分析[J]. 中国商论,
2016( 35) : 136-138.
[7]何雪平,李兴绪. 云南省财政收入影响因素分析[J]. 中国市场,
2017( 19) : 47-51.
2017( 15) : 15-16.
[8]肖倩冰. 我国财政收入影响因素的逐步回归分析[J]. 时代金融,
[9]董小刚. 岭回归和主成分回归下的农业总产值因素分析[J]. 长春工业大学学报, 38( 1) : 1-7.
2017,
[10]何晓群. 应用回归分析[M]. 第 4 版. 北京: 中国人民大学出版社,
2015.
[11]夏坤庄. 深入解析 SAS[M]. 北京: 机械工业出版社,
2015.
[12]TIBSHIRANI R. Regression shrinkage selection via the LASSO[J]. 1996,
73( 3) : 273-282.
[13]ZOU H. The Adaptive-LASSO and its oracle properties[J]. J Am Stat Assoc, 101( 476) : 1418-1429.
2006,

The analysis of the fiscal revenue factors under


the ridge regression,LASSO regression and the Adaptive-LASSO regression

DONG Xiao-gang,DIAO Ya-jing,LI Hun-ling,WANG Chun-jie,WEN Li-nan


( School of Mathematics and Statistics,Changchun University of Technology,Changchun 130012,China)

Abstract: This paper selects 18 factors that affect the fiscal revenue in Jilin Province and the multiple
regression model of fiscal revenue in Jilin Province is established by SAS software. Because of the large number
of independent variables and the existence of serious multicollinearity,variable selection is required. In this
paper,ridge regression model,LASSO regression model and Adaptive-LASSO regression model are used to
select variables. Finally,the three models are compared and analyzed,and the conclusion can be drawn that the
Adaptive-LASSO regression model is the best.
Key words: SAS software; ridge regression model; LASSO regression model; Adaptive-LASSO regression model

( 责任编辑: 孙爱慧)

You might also like