Professional Documents
Culture Documents
20230809 基于多目标特征工程与自适应特征筛选的信用评分模型研究
20230809 基于多目标特征工程与自适应特征筛选的信用评分模型研究
2023年 8月 June,
2023
模型,以满足金融市场对快速且精确决策的要求[2]。
1 引言 传统的信用评分分类问题研究中主要关注提
在当今信息化时代背景下,互联网信贷产品越 高模型的分类准确率,而在金融机构发起的信用评
来越普及,成为金融市场中不可或缺的一部分。可 分实践中,信用评分涉及到许多与金融机构的收益
靠的信用评分模型可以有效降低信贷分析成本,提 密切相关的特征,如贷款金额、期限、利率等,这
高金融机构的信用决策能力,并降低损失[1]。一旦 些因素不仅会影响客户的违约概率,而且与机构的
信用评分模型失效,则会显著增加金融机构的风险 信贷直接收益息息相关。在设计信用评分模型时应
敞口,进而威胁金融系统的稳定性,甚至引发金融 该关注到这些特征带来的经济效益[3]。国内外的学
危机。因此,信用评分模型的重要性不容忽视。而 者展开了大量研究来探讨如何提升信用评分模型的
与传统的线下信贷相比,互联网信贷的信息量更大, 经济效益。例如,George 等人[5]评估了提升记分卡
及时性要求更高。银行需要运用最新的技术手段和 盈利能力的能力来评价一系列成本敏感的学习方法。
算法,如人工智能、机器学习等,来优化信用评分 这些方法允许考虑到拒绝好贷款申请和接受坏贷款
收稿日期:2023-08-04;修回日期:2023-0x-xx 申请所涉及的可变误分类成本。在此基础提出上一
基金项目:国家自然科学基金项目(72071030);国家 种估计这些错分成本的方法,并对各种处理缺失信
重点研发计划(2020YFB1711900);教育部人 用局分数的方法进行了评估。Wu 等人[6]提出了一种
文社会科学规划基金(19YJA630042) 具有多目标特征选择的面向不确定性的成本敏感信
通讯作者简介:梁德翠(1986-),男(汉族),江西人, 用评分框架。Baidoo 等人[7]设计了解决贷款人利润
电子科技大学经济与管理学院,教授,博 最大化目标的模型。虽然已有大量文献关注信用评
士生导师,研究方向:大数据分析与决策、 分的经济效益,但对利润目标的关注主要集中在模
风险评估与管理、信息管理与商务智能、 型的评估阶段,如何将经济效益因素纳入考虑对模
社会化学习与商业分析、智能运维与管理 型进行优化的探讨较少。因此,本研究采用多目标
等,E-mail: decuiliang@126.com 优化的方式,同时提高模型的盈利能力和分类准确
· 2 · 2023 年
率,以增加信用评分模型的实用性。 除了关注分类准确率的提升,进一步考虑了经济效
在构建多目标的信用评分模型时,特征工程至 益指标的优化。特征工程作为机器学习中的一项重
关重要。通常一个金融用户集会包含很多特征,其 要技术手段[12],在多目标信用评分模型的构建过程
中包含有效和无效特征。使用无效特征会增加搜索 中,扮演着至关重要的角色。此外,轻量级梯度提
空间,导致分类性能下降。因此,需要在有限时间 升分类器���ℎ����以其高准确率和快速的训练速
内收集最有用的分类信息,并将其输入到分类器中, 度的优点在近年来的工业界和数据分析相关比赛中
以缩短分类器的时间,并提高性能和准确度。另一 表现出色,并且在分类问题上尤为突出[23]。
方面,专家知识和客户分组都是传统信用评分中非 综上所述,本文提出了基于多目标特征工程的
常重要的元素,专家知识可以帮助金融机构更加细 ���ℎ���� 信 用 评 分 模 型 ( ���ℎ���� with
致地评估客户的信用状况,更好地把握客户的信用 Multi-objective Feature Engineering,���� − ���)。
风险水平。而客户分组是将客户按照不同的特征、 同时从提升模型的分类效果与经济效益角度出发,
风险等级或者其他相关因素进行分类,使得金融机 设计了模型的利润评估指标,并借鉴多目标优化的
构可以更好地了解不同客户的信用风险状况,从而 思想,构建了基于多目标的特征工程,在此之上训
采取不同的风险管理策略。 练信用评分模型。
本文提出了基于银行客户分组思想的聚类生 2.2 模型构造
成聚合新特征和引入���法借助专家经验生成专家 2.2.1 利润指标计算
评价新特征的特征转换方法。并且基于利润目标和 计算利润的出发点在选定锚点,本文合理选择
分类效果来进行特征选择,引入了粒子群优化算法, 金融机构既不做任何信息收集,也不同意任何借款
并针对其在多目标信用评分问题背景下做出了一些 申请的情况作为锚点。此时,机构不会产生任何收
改进,提出了������算法。这样设计的特征工程 入和成本,即利润为 0,当金融机构借款给违约者,
有效提升了信用评分模型的分类准确率和经济效益。 由于借款者的违约,就会使得机构产生损失,损失
本文提出的信用评分模型可以分为两步。第一步是 的金额为借款者的违约金额。而当金融机构借款给
特征工程,通过对数据特征信息进行筛选、处理和 非违约者,会产生利息收入,这就是银行的利润。
转换,可以有效提高模型的分类效果与经济效益。 另外,在金融背景下的借贷问题中,银行通常考虑
本文设计了基于多目标的特征工程,其中������ − 的都是无风险折现值,即无论是损失与收益都需要
�������基于专家经验和客户分组思想,对信用评分 在无风险利率基础上对其进行折现。
数据集进行特征变换。利用专家经验分析特征的重 由于在本文研究问题主要聚焦于银行的信用评
要性,利用聚类思想分析客户的特征分布信息,将 分系统,处于政策等方面考虑在借贷时必须考虑到
原始特征进行转换生成新的特征,再通过改进的粒 公平性的问题[13]。需要加强在评分模型中由于金额
子群优化算法来对转换后的特征集基于分类指标与 较小尽管其信用良好还是被模型拒绝的这类客户的
本文设计的利润指标进行筛选。第二步是训练基分 关注,对于这类客户本模型加一个惩罚权重设为�,
类器,该模型选择了���ℎ����作为基分类器算法, 则如果借贷发起人的信用良好,银行却拒绝了的样
���ℎ����不仅具有高准确性,而且具有快速的模 本会对模型的利润指标产生惩罚。假设�� 为样本�的
型训练速度,这非常契合评分模型在时效性和准确 混 淆 矩 阵 类 别 向 量 , 则 (1,0,0,0)� 表 示 �� 样 本 ,
性方面的要求。该信用评分模型能够帮助金融机构 0,1,0,0 � 表 示�� 样 本, 0,0,1,0 � 表 示��样 本,
在实现更快更准的客户信用评分基础上,进一步提 0,0,0,1 � 表示��样本。则总利润计算公式见式(1) :
升盈利效果。 �
� �� ∗ �∗�� ,−�,−� ,0 ∗��
������ = �=1 � , (1)
(1+�� ) �
和(4): 第� + 1 次迭代该粒子对应维度的位置向量
��+1
�� 确定见下式(7):
��∗�� = ��� ���� − ���� , (3)
�≠�
1, rand < � ��+1
��
1
� ��+1
�� = , ��+1
�� > 0
���� = ��∗�� , (4) ���� , others
� � , (7)
0, rand < � ��+1
��
���� 表示类内信用风险。根据给出的簇参数区 ��+1
�� = , ��+1
�� <0
���� , others
间,遍历搜索在每一个簇参数值,聚类后平均类间
信用风险����,然后选择����最大的聚类簇参数 基于修改后的�������映射函数进行二进制映
���,则生成的聚类特征可以表示为���维编码,则 射,在粒子速度为 0 时,位变几率为 0。粒子速度
样本�经过���聚类后生成客户分组特征向量���� 的绝对值越大位变几率越大,相比于原始的
具体形式如式(5): �������映射函数更加符合���算法的基本思想[8]。
���� = ��1 , ��2 , …, ����� , (5) 此 外 , ������ 在 ��� 算 法 基 础 上 , 引 入
� � �
式 中 �� 是 样 本 � 关 于 簇 群 � 的 隶 属 度 , 满 足 ������最优解和拥挤度距离的概念,实现了对多目
· 4 · 2023 年
[19]
标问题的优化 ,进而帮助评分模型实现对分类效 了现有的变异机制,设计了基于极值检测的粒子变
果与盈利效果两个目标上的优化。采用帕累托前沿 异机制。其具体内容可描述如下:
而非单一最优解保证了算法能够找到所有的非劣解, 建立一个名为粒子惰性度(�����������������)
即所有有效的特征组合。而基于拥挤度距离的群最 的变量来检测粒子极值是否长时间不变,如果长时
优极值扩大搜索空间,从而提高了算法的寻优能力, 间不变就将粒子移入惰性粒子数组。建立名为粒子
保证了最终评分模型在分类效果与盈利能力的性能 群稳定度(��������������)的变量来检测种群极
表现。 值是否长时间不变,如果长时间不变就对惰性粒子
具体来说,������对���算法的������ 与��best 数组中极值靠后的粒子进行变异,变量更新机制见
更新方法做出改进。在针对单目标问题的标准 PSO 算法 1。
中,粒子群对于P������ 与��best 的选择较为简单,只需 算法 1:��������������与�����������������更新算
通过解的适应度来确定最优的P������ ,而对于多目标 法
的粒子群算法,由于有多个目标的存在,找到的是 输入:粒子极值��+1 ����� ,;种群极值�best
�+1
集为对照组,简写为����ℎ����。常见特征变换方 特征变换方式在分类指标与利润指标都表现更好。
式包括������、������� − �����和������������ 特别的,在图 3(c)与图 4(a)中����与����两个数
方法。 据集上,�����������特征变换由于生成过多的无
分别运用 4 种特征变换对 6 个数据集作处理, 效特征相比����ℎ����在���指标表现更差,而
训练���ℎ����基分类器,评估评分模型在分类指 ������ − ������� 并 不 存 在 这 种 情 况 。 可 见
标与利润指标上的性能表现。实验结果如图 3 与图 ������ − �������生成的特征蕴含更多有效信息,
4 所示:从图 3 与图 4 可以看出,基于������ − 提升了模型稳定性。
�������方法进行特征变换的评分模型相比于其它
收稿日期:2023-05-30;修回日期:2023-0x-xx
基金项目:国家自然科学基金项目(72071030);国家重点研发计划(2020YFB1711900);教育部人文社会科学规划基金(19YJA630042)
This work is partially supported by the National Natural Science Foundation of China (No. 72071030), the National Key R&D Program of
China (No. 2020YFB1711900) and the Planning Fund for the Humanities and Social Sciences of Ministry of Education of China (No.
19YJA630042).
通信作者:梁德翠(decuiliang@126.com)
· 8 · 2023 年
图 3 大样本信用评分数据集上各特征变换方法性能
图 4 小样本信用评分数据集上各特征变换方法性能
通信作者:梁德翠(decuiliang@126.com)
· 10 · 2023 年
[10] 李红亚,彭昱忠,邓楚燕,等. GA 与 PSO 的混合研究综 [18] 杨维,李歧强. 粒子群优化算法综述[J]. 中国工程科学,
述[J]. 计算机工程与应用, 2018, 54(02): 20-28. 2004, 6(5).
[11] Nali J, Martinovi G, Agar D. New hybrid data mining model [19] Coello C, Pulido G T, Lechuga M S. Handling multiple
for credit scoring based on feature selection algorithm and objectives with particle swarm optimization[J]. IEEE
ensemble classifiers[J]. Advanced Engineering Informatics, Transactions on Evolutionary Computation, 2004, 8(3):
2020, 45: 101130. 256-279.
[12] Turner C R, Fuggetta A, Lavazza L, et al. A Conceptual [20] Chen F L, Li F C. Combination of feature selection
Basis for Feature Engineering[J]. Journal of Systems and approaches with SVM in credit scoring[J]. Expert Systems
Software, 1999, 49(1): 3-15. with Applications, 2010, 37(7): 4902-4909.
[13] 王俊山, 王玥. 对我国个人信用评分及监管的分析与思 [21] Wang J, Rong W, Zhang W, et al. Credit Debt Default Risk
考[J]. 金融发展研究, 2021(1): 86-89. Assessment Based on the XGBoost Algorithm: An
[14] Saaty T L, Kearns K P. The Analytic Hierarchy Process[J]. Empirical Study from China[J]. Wireless Communications
analytical planning, 1985. and Mobile Computing, 2022, 2022.
[15] 张亚京, 赵志冲. 客户分组对商业银行个人信用评分模 [22] Xu M, Tian B, Fu Y. Default prediction of online credit
型的提升作用研究[J]. 征信, 2021, 39(12): 5. loans based on mobile app-lication usage behaviors[J].
[16] Bezdek J C, Ehrlich R, Full W . FCM: The fuzzy c -means Journal of Intelligent & Fuzzy Systems, 2022, 43(3):
clustering algorithm[J]. Computers & Geosciences, 1984, 2253-2264.
10( 2–3): 191-203. [23] Qi M. LightGBM: A Highly Efficient Gradient Boosting
[17] Bergh F, Engelbrecht A P. A study of particle swarm Decision Tree[C]. Neural Information Processing Systems.
optimization particle traject-ories[J]. Information Sciences, Curran Associates Inc. 2017.
2006, 176(8):937-971. [24] Rajabioun R. Cuckoo Optimization Algorithm[J]. Applied
Soft Computing, 2011, 11(8): 5508-5518..
A credit scoring feature engineering method combining expert clustering with enhanced
multi-objective PSO algorithm
(1. School of Management and Economics, University of Electronic Science and Technology of China, Chengdu 610054, China)
Abstract: In the wave of financial technology, credit assessment serves as the foundation for lending. Its model
design faces two challenges. Firstly, achieving higher scoring accuracy is crucial because errors in credit scoring can
lead to incorrect loan decisions by financial institutions, jeopardizing the entire credit system's operation. Secondly,
there is a demand for stronger profitability in credit scoring models due to intensified competition in the credit
market.To enhance both the classification performance and profitability of the scoring model, this paper proposes a
multi-objective feature engineering approach. Firstly, a profit metric for the credit scoring model is constructed. By
optimizing both the profit and classification metrics, the proposed approach incorporates Expert-Cluster feature
generation and feature selection based on an improved particle swarm optimization (PSO) algorithm.Expert-Cluster
utilizes customer segmentation and expert knowledge to identify nonlinear relationships between features and
generate new ones, effectively improving model performance. Feature selection, on the other hand, introduces Pareto
ideas and binary mapping to the standard PSO algorithm and designs a particle mutation mechanism based on extreme
value detection. This results in an enhanced multi-objective binary PSO algorithm, which efficiently selects the
optimal feature set by improving the profit and classification metrics of the scoring model.This paper proposes a
multi-objective credit scoring feature engineering method that pursues both classification performance and
profitability. It provides new and referenceable ideas for related research, effectively enhancing financial institutions'
risk control and profitability capabilities.
Key words: credit scoring; multi-objective optimization; profit metric; feature engineering