You are on page 1of 5

2020 年高教社杯全国大学生数学建模竞赛题目

C题 中小微企业的信贷决策

在实际中,由于中小微企业规模相对较小,也缺少抵押资产,因此银行通常是 依
据信贷政策、企业的交易票据信息和上下游企业的影响力,向实力强、供求关系稳定
的企业提供贷款,并可以对信誉高、信贷风险小的企业给予利率优惠。银行首先根据
中小微企业的实力、信誉对其信贷风险做出评估,然后依据信贷风险等因素来确定是
否放贷及贷款额度、利率和期限等信贷策略。
某银行对确定要放贷企业的贷款额度为 10 100万元;年利率为 4%~15%;贷款期
限为 1 年。附件 1~3 分别给出了 123 家有信贷记录企业的相关数据、302 家无信贷记录
企业的相关数据和贷款利率与客户流失率关系的 2019 年统计数据。该银行请你们团队
根据实际和附件中的数据信息,通过建立数学模型研究对中小微企业的信贷策略,主
要解决下列问题:
(1) 对附件 1 中 123 家企业的信贷风险进行量化分析,给出该银行在年度信贷总额
固定时对这些企业的信贷策略。有信贷记录的企业;总额固定但不确定
(2) 在问题 1 的基础上,对附件 2 中 302 家企业的信贷风险进行量化分析,并给出
该银行在年度信贷总额为 1 亿元时对这些企业的信贷策略。无信贷记录的企业;总额
固定且确定
(3) 企业的生产经营和经济效益可能会受到一些突发因素影响,而且突发因素往往
对不同行业、不同类别的企业会有不同的影响。综合考虑附件 2 中各企业的信贷风险
和可能的突发因素(例如:新冠病毒疫情)对各企业的影响,给出该银行在年度信贷
总额为 1 亿元时的信贷调整策略。承接问题 2;考虑不同行业、类别+突发事件的影响。

附件 1 123 家有信贷记录企业的相关数据
附件 2 302 家无信贷记录企业的相关数据
附件 3 银行贷款年利率与客户流失率关系的 2019 年统计数据

附件中数据说明:
(1) 进项发票:企业进货(购买产品)时销售方为其开具的发票。
(2) 销项发票:企业销售产品时为购货方开具的发票。
(3) 有效发票:为正常的交易活动开具的发票。
(4) 作废发票:在为交易活动开具发票后,因故取消了该项交易,使发票作废。
(5) 负数发票:在为交易活动开具发票后,企业已入账记税,之后购方因故发生退货并退款,
此时,需开具的负数发票。
(6) 信誉评级:银行内部根据企业的实际情况人工评定的,银行对信誉评级为 D 的企业原则上
不予放贷。
(7) 客户流失率:因为贷款利率等因素银行失去潜在客户的比率。
优秀论文阅读:C109
1. 摘要:核心是根据一系列数据,如信誉评级,是否违约,发票状态等变量对企业进行“分类”,
所以总思路是机器学习中的分类模型。本文思路分为两步:一步是判断信贷风险 (改进梯度算法下
的决策树模型),第二步是根据三个限制:“收益最大,风险最小(第一步求解的信贷风险),客
户流失率最小”建立非线性规划模型,给出策略。另外在解决第三问时,用爬虫爬取了新冠疫情以
来的各行业股票数据以度量新冠对各行业的影响。
2. 问题重述:文献综述的方式介绍了传统的信贷风险评估方法(报菜名)+ 分点陈述数学模型要解
决的问题。
3. 问题分析:把三个问题的具体思路再说一遍,但是感觉也没怎么深入,就是把摘要里的内容又写
了一遍,区别在于摘要呈现了模型的准确率,计算的结果等。
4. 模型假设与符号说明:三线表
5. 问题 1 的建立与求解:
1)在开头给出了思路流程图。
2)数据预处理上,在对缺失值的处理上,选择按照比例补全缺失的数据。比如只有某企业
2017 年 8-12 月的数据,并有完整的 2018 年的数据,那么就结合 18 年 8-12 月的数据占一整年
数据的比例,推算 2017 年整年数据的估计值。
3)变量选取:
- 因变量:企业违约概率(借款后一年违约的概率)(违约状态)(R_j)
- 自变量(通过论文阅读选取):
-- 企业经营状况:2017-19 三年平均营业收入(企业规模);年平均利润;年平均利润率;年
平均利润增长率;平均销售额增长率,企业产品与服务质量。
-- 企业信誉:信誉等级(A-1,B-0,75,C-0.5,D-0.25)
4)模型建立:
- 判断信贷风险模型:一言以蔽之:梯度提升决策树算法(GBDT)+添加正则项惩罚复杂的树
结构。具体写法上,首先要介绍一下所用的算法,比如决策树算法,梯度提升决策树算法
(用
文字),然后再把算法的目标函数、损失函数构建和计算过程用文字和数学公式混合的方式

达出来,即讲明白模型的原理(虽然我看不懂),并给出算法流程图。
- 非线性规划的发放策略模型:一言以蔽之:根据“收益最大,风险最小(第一步求解的信贷
风险),客户流失率最小”这一规则,量化收益、风险、客户流失并求解。其中量化的处理

下:
a. 风险:用对企业 j 的期望收益,即如果不违约给银行带来的收益-违约造成的损失(0.22 为

一年期平均贷款违约损失率 ):
t j= A j ·i j · ( 1−R j )− A j ·0.22 · R j ,A_j 为企业可贷金额,
i_j 为企业贷款利率,R_j 为违约概率。只有 t_j>0 是才会放贷。
b. 客户流失:用客户流失价值(即根据企业规模(需要提前对企业规模进行分类),根据该
规模企业如果不流失,能给银行带来的最大贷款收益的 25%作为流失价值)与流失率与贷
款利率的拟合函数 f(i)的乘积衡量: ,M_j 为客户流失价值,f_j(i)为拟合函数。
L j =M j · f j ( i )

(如果数据中出现两个变量相关的数据,那么可以考虑用函数拟合)
5) 模型 1 的求解与分析:要说明自己模型的准确率,可以用其他模型与自己的模型相比较说
明其优越性。对于本文中的分类问题,要说明各个自变量对因变量的影响程度有多大。不过这
个报告的图画的很丑,但仍然很优秀,说明图在此次比赛中可能并不是重点。在非线性规划的
最优值求解过程中,注意到 Matlab 不能求解非线性整数规划(不理解),所以去掉了一个分

函数的约束条件,关于具体的策略,则是通过“fmincon”函数给出。(即给出对某一个企业是
否放贷,放多少贷,利率多少)
7. 问题 2 的建模与求解:由于问题 2 主要是针对一些没有进行信誉评级的企业进行风险分析,所以
相比于模型 1,只是需要以模型 1 的数据为训练基础,对无信贷记录的企业信誉进行评级,然后过
程和模型 1 都一样。在信誉评级模型上,将模型 1 的梯度提升决策树算法(GBDT)+添加正则项惩
罚复杂的树结构模型的因变量从违约概率改成信誉等级(ABCD)即可(更改因变量)。求解与分
析的内容也与之前类似,不再赘述。
8. 问题 3 的建模与求解:此问题相对来说更偏向于定性分析,为了能够度量疫情对各个行业的影响,
本文使用了宏观微观相结合的方法进行分析。在宏观上,找到每个行业的代表性企业, 爬取它们从
2020 年 1 月 20 日(疫情爆发)开始到 2020 年 7 月(国赛之前,已有数据的终点)的股票变换信息,
根据其“最大跌幅”与“恢复至原先水平所有时间”两个变量将 14 个行业分成 4 个受影响程度类。
后续的微观分析由于样本量过小,并没有起到什么作用,所以最终建模时还是采用了宏观分析的结
果,对不同影响程度的行业中的企业提供不同的政策,即调整贷款额度,给予贷款利率优惠 ,但是
具体调整多少,文章给出了明确的数字,但是却没有相应的推理过程,猜测可能是取自国家官方文
件。最后的模型也只是在问题 1 的模型中对额度 A_j 与利率 i_j 进行了调整,本质没有改变。
9. 模型评价与推广:对本文的 3 个模型分别讨论其优点、缺点、推广,整体比较水。
0. 启示:
1)一些超参数(比如 0.22)、自变量大概是通过权威论文选取出来的。
2)在建模时,要尽可能考虑到 1,2 两个问题的连续性,尽量用一个模型,或者稍微对原模型进
行一点改动,即可应用到另一个问题上。同时第一个问题的建模至关重要,因为大概率后面
的题目都是 Q1 的延伸。
3)可能会需要用到爬虫,不过基本可以通过八爪鱼解决。
4)画图的美观程度貌似要求不高。

优秀论文阅读:C142
1. 概述:信贷风险模型:主成分分析;决策模型:非线性规划(遗传算法);信誉等级评价模型:
BP 神经网络
2. 问题 1 的建立与求解:
1)变量选取:
- 自变量:总收益;进步因子(月度收益增长率均值);信誉评级(ABCD 转化为分数);违约
情况(是/否转化为分数);无效发票比例;交易偏好(企业成交发票税率均值);交易规律
备注:对于无效发票比例,由于其他因素均呈现出指标越高,风险越低的特点,所以这里实际上用
的是‘1-无效发票’比例作为参数。对于交易规律,其量化为交易数额的 傅里叶变换后的幅度谱的
方差的均值。“使用傅里叶变换处理交易数额数据可以捕捉其周期性特征、降低噪音、进行有效的
特征提取和高级模式识别。这些在频域中更容易实现,而如果只直接考察交易数额的方差均值,可
能会丢失这些重要信息。”GPT 如是指出。
- 因变量:信贷风险(用综合得分的形式展现)
2)模型建立:主成分分析法,将 7 个指标降维,最终计算 p 个主成分(p<=7)的综合得分,归一
化后限制在[0,1],得分越高,风险越低。
3)模型合理性检验:通过把已知企业分成 ABCD 四个类别,分别绘制他们的安全指数曲线,大
致可以得到 A>B>C>D。并对部分异常现象,比如 A<C 给出合理解释。
4)最优化策略模型:有信贷风险模型可以得到每个企业的信贷风险,而问题 1 又给出了每个企
业的违约情况,根据这两个变量拟合出了一个信贷风险安全指数与违约概率的函数。即违约概率
=f(信贷风险指数);而对客户流失率与贷款年利率的关系,与 C109 一样采用了三次拟合方程。即客
户流失率=g(年利率)。如此给出最优化模型。然而本文改进了这一传统思路,采用遗传算法提高求
解效率。但是没有具体展示是如何用遗传算法计算的。
3. 问题 2 的建立与求解:由于采用了 BP 神经网络,直接跳过。
4. 问题 3 的建立与求解:本文采用了“基于经验评估的企业特征指数体系”,说白了就是根据论文
总结出了 6 个指标,然后对 22 个行业对这 6 个分项进行“经验评估”,也就是自己乱打。我觉得
这个第三题做的有点奇怪。
0. 启示:
1) 可以在 3 个模型做完之后添加一个“模型灵敏度分析”、合理性检验(如果可能)
2) 在设定变量的时候,最好讲清楚这个变量是由哪些数据来的,并且给这些变量尽可能取一些非
常牛逼的名字。
3) 傅里叶变换常常可以捕捉一些规律性特征,可以考虑使用。
4) 多变量问题可考虑主成分分析给出综合得分,这一方法的可解释性比较强(以系数的方式呈
现。)

优秀论文阅读:C142
1. 概述:信贷风险模型:熵权法和 TOPSIS 方法,11 个指标;最优化策略模型:RAROC 理论、违
约金字塔理论;信誉等级预测:BP 神经网络;违约记录(是/否):逻辑回归;突发事件模型:引
入突发事件因子,国家统计局数据。
2. 问题重述:此文问题重述创新性的采用了背景介绍,数据介绍与分析,具体问题的结构。
3. 数据测写:此文创新性地添加了一个部分“数据测写”,说白了就是对数据进行描述性统计。然
后给出一些统计图。
4. 问题 1 的建立与求解: 规定 11 个变量,对信贷风险进行打分。通过熵权法计算权重(需要对指标
数据进行归一化和正向化处理,保证数据非负性),然后给出 11 个指标的权重,之后用 TOPSIS 方
法对企业进行排序,给出量化信贷风险。同时进行准确度检验。关于最优化策略,实际上用的还是
非线性规划,在此不过多赘述。
5. 问题 2 的建立与求解: 对于违约情况(是/否为 2 值变量)进行逻辑回归,对信用等级采用 BP 神
经网络。最优化认为非线性规划,添加了总贷款额为 1 亿的约束条件。
其他思路摘要:
C227: 信贷风险模型:20 个特征,将逻辑回归,adaboost,GBDT 和随机森林作为基分类器,建立
softvoting 集成学习算法——准确率极高,达到 97.6%。最优化策略:非线性规划;对突发事件,
从所给数据中提取 5 个特征体现新冠对企业的综合影响,并将企业聚类成 3 类,对应 3 个风险乘数,
对信贷进行分类讨论,给出不同策略。

You might also like