You are on page 1of 10

第 卷 第 期 Vol. No.

2023年 8月 June,
2023

一种结合专家聚类和多目标 PSO 改进算法的信用评


分特征工程方法
1 1 1
梁德翠 ,欧承昊 ,唐皓鑫
(1.电子科技大学经济与管理学院 成都 610054)
摘 要:在金融科技浪潮下,信用评估作为信贷的根基,其模型设计面临两个挑战:一是更高的评分准确性,
如果信用评分存在误差,会导致金融机构做出错误的贷款决策,危及整个信贷系统的运转。二是更强的盈利
能力,随着信贷市场竞争加剧,金融机构对信用评分模型的盈利能力也提出了更高要求。为同时提升评分模
型的分类效果与盈利能力,本文提出了基于多目标特征工程的评分模型。首先,构建了信用评分模型利润指
标,基于优化模型的利润指标与分类指标两个目标,设计了由 Expert-Cluster 特征生成与基于改进粒子群优化
算法的特征选择组成的特征工程。其中 Expert-Cluster 基于客户分组思想与专家经验来解析特征间的非线性关
系生成新特征,能有效提升模型效果。而特征选择则基于标准粒子群优化算法引入 Pareto 思想与二进制映射,
设计了基于极值检测的粒子变异机制,最终构造了改进的多目标二进制粒子群优化算法,这种算法能有效的
就提升评分模型的利润指标与分类指标来选择最优特征集。本文为追求评分模型分类效果与盈利能力,提出
了基于多目标的信用评分特征工程方法,为相关研究提供了新的可供借鉴和参考的思路,能够有效提升金融
机构的风险控制能力与盈利能力。
关键词: 信用评分;多目标优化;利润指标;特征工程
中图法分类号:F832;TP311.1 文献标识码:A

模型,以满足金融市场对快速且精确决策的要求[2]。
1 引言 传统的信用评分分类问题研究中主要关注提
在当今信息化时代背景下,互联网信贷产品越 高模型的分类准确率,而在金融机构发起的信用评
来越普及,成为金融市场中不可或缺的一部分。可 分实践中,信用评分涉及到许多与金融机构的收益
靠的信用评分模型可以有效降低信贷分析成本,提 密切相关的特征,如贷款金额、期限、利率等,这
高金融机构的信用决策能力,并降低损失[1]。一旦 些因素不仅会影响客户的违约概率,而且与机构的
信用评分模型失效,则会显著增加金融机构的风险 信贷直接收益息息相关。在设计信用评分模型时应
敞口,进而威胁金融系统的稳定性,甚至引发金融 该关注到这些特征带来的经济效益[3]。国内外的学
危机。因此,信用评分模型的重要性不容忽视。而 者展开了大量研究来探讨如何提升信用评分模型的
与传统的线下信贷相比,互联网信贷的信息量更大, 经济效益。例如,George 等人[5]评估了提升记分卡
及时性要求更高。银行需要运用最新的技术手段和 盈利能力的能力来评价一系列成本敏感的学习方法。
算法,如人工智能、机器学习等,来优化信用评分 这些方法允许考虑到拒绝好贷款申请和接受坏贷款
收稿日期:2023-08-04;修回日期:2023-0x-xx 申请所涉及的可变误分类成本。在此基础提出上一
基金项目:国家自然科学基金项目(72071030);国家 种估计这些错分成本的方法,并对各种处理缺失信
重点研发计划(2020YFB1711900);教育部人 用局分数的方法进行了评估。Wu 等人[6]提出了一种
文社会科学规划基金(19YJA630042) 具有多目标特征选择的面向不确定性的成本敏感信
通讯作者简介:梁德翠(1986-),男(汉族),江西人, 用评分框架。Baidoo 等人[7]设计了解决贷款人利润
电子科技大学经济与管理学院,教授,博 最大化目标的模型。虽然已有大量文献关注信用评
士生导师,研究方向:大数据分析与决策、 分的经济效益,但对利润目标的关注主要集中在模
风险评估与管理、信息管理与商务智能、 型的评估阶段,如何将经济效益因素纳入考虑对模
社会化学习与商业分析、智能运维与管理 型进行优化的探讨较少。因此,本研究采用多目标
等,E-mail: decuiliang@126.com 优化的方式,同时提高模型的盈利能力和分类准确
· 2 · 2023 年
率,以增加信用评分模型的实用性。 除了关注分类准确率的提升,进一步考虑了经济效
在构建多目标的信用评分模型时,特征工程至 益指标的优化。特征工程作为机器学习中的一项重
关重要。通常一个金融用户集会包含很多特征,其 要技术手段[12],在多目标信用评分模型的构建过程
中包含有效和无效特征。使用无效特征会增加搜索 中,扮演着至关重要的角色。此外,轻量级梯度提
空间,导致分类性能下降。因此,需要在有限时间 升分类器���ℎ����以其高准确率和快速的训练速
内收集最有用的分类信息,并将其输入到分类器中, 度的优点在近年来的工业界和数据分析相关比赛中
以缩短分类器的时间,并提高性能和准确度。另一 表现出色,并且在分类问题上尤为突出[23]。
方面,专家知识和客户分组都是传统信用评分中非 综上所述,本文提出了基于多目标特征工程的
常重要的元素,专家知识可以帮助金融机构更加细 ���ℎ���� 信 用 评 分 模 型 ( ���ℎ���� with
致地评估客户的信用状况,更好地把握客户的信用 Multi-objective Feature Engineering,���� − ���)。
风险水平。而客户分组是将客户按照不同的特征、 同时从提升模型的分类效果与经济效益角度出发,
风险等级或者其他相关因素进行分类,使得金融机 设计了模型的利润评估指标,并借鉴多目标优化的
构可以更好地了解不同客户的信用风险状况,从而 思想,构建了基于多目标的特征工程,在此之上训
采取不同的风险管理策略。 练信用评分模型。
本文提出了基于银行客户分组思想的聚类生 2.2 模型构造
成聚合新特征和引入���法借助专家经验生成专家 2.2.1 利润指标计算
评价新特征的特征转换方法。并且基于利润目标和 计算利润的出发点在选定锚点,本文合理选择
分类效果来进行特征选择,引入了粒子群优化算法, 金融机构既不做任何信息收集,也不同意任何借款
并针对其在多目标信用评分问题背景下做出了一些 申请的情况作为锚点。此时,机构不会产生任何收
改进,提出了������算法。这样设计的特征工程 入和成本,即利润为 0,当金融机构借款给违约者,
有效提升了信用评分模型的分类准确率和经济效益。 由于借款者的违约,就会使得机构产生损失,损失
本文提出的信用评分模型可以分为两步。第一步是 的金额为借款者的违约金额。而当金融机构借款给
特征工程,通过对数据特征信息进行筛选、处理和 非违约者,会产生利息收入,这就是银行的利润。
转换,可以有效提高模型的分类效果与经济效益。 另外,在金融背景下的借贷问题中,银行通常考虑
本文设计了基于多目标的特征工程,其中������ − 的都是无风险折现值,即无论是损失与收益都需要
�������基于专家经验和客户分组思想,对信用评分 在无风险利率基础上对其进行折现。
数据集进行特征变换。利用专家经验分析特征的重 由于在本文研究问题主要聚焦于银行的信用评
要性,利用聚类思想分析客户的特征分布信息,将 分系统,处于政策等方面考虑在借贷时必须考虑到
原始特征进行转换生成新的特征,再通过改进的粒 公平性的问题[13]。需要加强在评分模型中由于金额
子群优化算法来对转换后的特征集基于分类指标与 较小尽管其信用良好还是被模型拒绝的这类客户的
本文设计的利润指标进行筛选。第二步是训练基分 关注,对于这类客户本模型加一个惩罚权重设为�,
类器,该模型选择了���ℎ����作为基分类器算法, 则如果借贷发起人的信用良好,银行却拒绝了的样
���ℎ����不仅具有高准确性,而且具有快速的模 本会对模型的利润指标产生惩罚。假设�� 为样本�的
型训练速度,这非常契合评分模型在时效性和准确 混 淆 矩 阵 类 别 向 量 , 则 (1,0,0,0)� 表 示 �� 样 本 ,
性方面的要求。该信用评分模型能够帮助金融机构 0,1,0,0 � 表 示�� 样 本, 0,0,1,0 � 表 示��样 本,
在实现更快更准的客户信用评分基础上,进一步提 0,0,0,1 � 表示��样本。则总利润计算公式见式(1) :
升盈利效果。 �
� �� ∗ �∗�� ,−�,−� ,0 ∗��
������ = �=1 � , (1)
(1+�� ) �

2 基于多目标特征工程的信用评分模 其中,�� 是借款期限,�是借款利率,�� 是无风


险利率,�� 是借款者的借款金额。
型 2.2.2 基于 Expert-Cluster 方法特征变换
2.1 问题描述 本文设计了一种专家分析特征生成算法 Expert,
要想提高信用评分系统的有效性,就必须建立 该 算 法 基 于 层 次 分 析 法 ( Analytical Hierarchy
更为准确的信用评估模型。现有的信用评分模型许 Process,AHP)[14]利用专家经验对不同特征进行
多仍然停留在传统的二分类问题的视角上,只重视 层次分析,确定其重要性和优先级,有针对性地进
分类准确率的提升,而忽略了模型的经济效益。因 行特征变换。
此,本文将信用评分视为一个多目标的二分类问题, 根据���思想将信用评分分为三层:第一层就
第 期 梁德翠等: 一种结合专家聚类和多目标 PSO 改进算法的信用评分特征工程方法 · 3 ·
是特征变换的最终目标,即设计高效的信用评分模 ���
  ��� = 1。
型;第二层为准则层,准则层有三类基本指标准则, �=1

分别为反映客户的一些基本特征的基本指标�1 ,反 2.2.3 基于改进粒子群优化算法的特征选择


映用户经济情况的经济指标�2 ,反映用户信用状况 ���由于快速收敛和易实施等优点被应用于
的信用指标�3 ;最下一层是方案层,即反映个人的 各个领域中[10]。标准���是应用在连续解空间问题
信用情况的各种信用特征。通过对专家矩阵的计算, 上的求解算法,,需要将连续空间映射到二进制空间
[8]
分别得到准则层的权重和方案层的权重,进而相乘 。本文提出了利润指标作为分类模型评估的重要
得到特征�的最终权重wx� 。 标准,信用评分特征选择就变为一个多目标优化问
确定各特征的专家重要性权重后,进一步生成各特 题,在关注最佳特征集的分类准确率表现的同时还
征得分。特征得分可以根据证据权重(Weight of 需要关注利润指标表现。而标准粒子群算法针对单
Evidence,���)来确定。在机器学习中,特征一般 目标优化问题[9];标准���在优化过程中由于缺乏
可以分为类别特征与连续特征两种。���越大,违 适当的策略来统筹调节全局搜索与局部搜索,而导
约可能性越小,样本在该特征上得分也就越高;反 致迭代前期易陷入局部最优而早熟[17];最后,在使
之,违约性越大。样本在该特征上得分也就越低, 用���求解像信用评分特征选择这样的高维度复杂
其值可以为负。对于连续性特征,则需要先对进行 问题,由于其探索能力有限而使得种群缺乏多样性
[18]
特征分箱,然后再计算���。 。本文提出一种改进的多目标二进制粒子群优化
根据专家特征重要性权重与样本各特征证据 算 法 ( Enhanced Multi-objective Binary Particle
权重得分,聚合生成样本�的专家评价特征���� 如式 Swarm Optimization Algorithm,������)来增强
(2): PSO,使得其更加适用于信用评分的特征选择问题。
� ������相对于标准的���的变化具体阐述如下:
���� = �=1
wx� ∗ WOE�� , (2)
首先,������利用二进制映射方法将连续空
本文通过聚类生成数据集的客户分组特征来 间的解映射到二进制空间,以此来求解信用评分特
提升分类模型的效果,将数据集中的样本按照相似 征选择构成的二元解空间上的优化问题。���在解
性分成不同的簇。这些分组特征可以提供额外的信 决二元离散解空间的优化问题时,一种可行的方式
息,帮助分类器更好地识别样本之间的关系,提高 是利用�������函数作为映射函数,将连续型位置
分类精度。本文采用���算法实现 Cluster 方法特征 向量的映射为离散的二进制编码[18]。但这种映射存
变换,相对于� − �����方法,选择使用���算法 在问题,当粒子速度为 0 时,位变几率最大;粒子
进行聚类可不再需要对类别特征采取编码[16],而是 速度最大时,位变几率却最小。这可能导致二进制
直接使用�维的特征表征聚类特征。 粒子群算法����收敛于全局最优性的几率减小。为
有的金融机构会采用最简单的三类分组,不会超过 此本文修改�������映射函数后的形式见下式(6):
7
10 组 [15] :。因此,本文给定客户簇的参数区间为 1− , �≥0
0.5⋅��+1
��
6+�
[3,10]。相对于传统的评价聚类效果的轮廓系数。 � ��+1
�� = 7 , (6)
1− −0.5⋅��+1
, �<0
本文提出了类间风险差异。类间信用风险见式(3) 6+� ��

和(4): 第� + 1 次迭代该粒子对应维度的位置向量
��+1
�� 确定见下式(7):
��∗�� = ���  ���� − ���� , (3)
�≠�
1, rand < � ��+1
��
1
� ��+1
�� = , ��+1
�� > 0
���� =   ��∗�� , (4) ���� , others
� � , (7)
0, rand < � ��+1
��
���� 表示类内信用风险。根据给出的簇参数区 ��+1
�� = , ��+1
�� <0
���� , others
间,遍历搜索在每一个簇参数值,聚类后平均类间
信用风险����,然后选择����最大的聚类簇参数 基于修改后的�������映射函数进行二进制映
���,则生成的聚类特征可以表示为���维编码,则 射,在粒子速度为 0 时,位变几率为 0。粒子速度
样本�经过���聚类后生成客户分组特征向量���� 的绝对值越大位变几率越大,相比于原始的
具体形式如式(5): �������映射函数更加符合���算法的基本思想[8]。
���� = ��1 , ��2 , …, ����� , (5) 此 外 , ������ 在 ��� 算 法 基 础 上 , 引 入
� � �
式 中 �� 是 样 本 � 关 于 簇 群 � 的 隶 属 度 , 满 足 ������最优解和拥挤度距离的概念,实现了对多目
· 4 · 2023 年
[19]
标问题的优化 ,进而帮助评分模型实现对分类效 了现有的变异机制,设计了基于极值检测的粒子变
果与盈利效果两个目标上的优化。采用帕累托前沿 异机制。其具体内容可描述如下:
而非单一最优解保证了算法能够找到所有的非劣解, 建立一个名为粒子惰性度(�����������������)
即所有有效的特征组合。而基于拥挤度距离的群最 的变量来检测粒子极值是否长时间不变,如果长时
优极值扩大搜索空间,从而提高了算法的寻优能力, 间不变就将粒子移入惰性粒子数组。建立名为粒子
保证了最终评分模型在分类效果与盈利能力的性能 群稳定度(��������������)的变量来检测种群极
表现。 值是否长时间不变,如果长时间不变就对惰性粒子
具体来说,������对���算法的������ 与��best 数组中极值靠后的粒子进行变异,变量更新机制见
更新方法做出改进。在针对单目标问题的标准 PSO 算法 1。
中,粒子群对于P������ 与��best 的选择较为简单,只需 算法 1:��������������与�����������������更新算
通过解的适应度来确定最优的P������ ,而对于多目标 法
的粒子群算法,由于有多个目标的存在,找到的是 输入:粒子极值��+1 ����� ,;种群极值�best
�+1

问题非唯一������解;������的粒子最优适应值 输出:更新后的��������������, �����������������


P������ 分为两种情况,第一种是某个粒子的解均差于 1.����� = ��� ����� ��������[ ];
该粒子的P������ ,则可将P������ 设为该粒子,第二种是 2.��� 每个粒子� ��
粒子的解与该粒子的P������ 互为非劣解,对于这种情 3. �� ��+1 �
����� 支配 ������ �ℎ��
况下的P������ 选取,则随机选取一个非劣解作为P������ 。 4. ������������������ = 0;
在选出了这个P������ ,将其入档案库 A,再从档案库 5. ����
中进一步筛选,构成������前沿。全局��best 则从 6. ������������������++;
������前沿选取。在������前沿选取��best 的过程中, 7. �� ������������������ ≥ 0.05 ∗
������引入了拥挤距离的概念,拥挤距离被用来 ���� ��� � ��� �� ����� �ℎ��
度量不同解之间的密度。其目的是促使解的分布尽 8. �����. ���(�);
可能均匀地覆盖在 ������ 前沿上,而不是聚集在 9.��� ���
某个局部区域。拥挤距离可以看作是一种类似于密 10. �� ��best 与��+1
best 互为非劣解 �ℎ��
度的度量,用于评估解之间的相对分布情况。对于 11. �������������� ++;
第 � 个������解 ��� ,其拥挤距离�� 的计算公式 12.����
(3-27): 13. �������������� = 0;
� �� (���+1 )−�� (���−1 ) 14. ������ ��������������, �����������������;
�� =   (8)
����
� −����
�=1 �
每次迭代后,若某个粒子的粒子极值没有更新,
式中,�� (���+1 )表示第 � 个目标函数在解���+1 则�����������������自增,若�����������������大
的函数值;����� 和 ����
� 分别表示第 � 个目标函数 于一个阈值,则该粒子被移入如惰性粒子数组。如
在������前沿上所有解的最大值和最小值;���+1 果粒子群极值没有发生更新,则��������������
和 ���−1 分别表示在 ������ 前沿上��� 的前一个 自增,当��������������大于一个阈值时,据此判
解和后一个解。需要注意的是,对于 ������ 前沿 断种群可能陷入了局部最优,则触发变异机制,使
上的第一个和最后一个解,其拥挤距离需要进行特 用变异方法来对惰性粒子数组中极值靠后的粒子进
殊处理,可以将其赋值为一个较大的常数,例如正 行变异产生新的个体,以引入更多个体多样性的形
无穷。此外,如果某个解��� 被视为支配解,则其拥 式打破这种局面,算法具体流程如算法 2 所示:
挤距离也可以赋值为一个较大的常数,以便在后续 算法 2:基于极值检测的惰性粒子变异算法
的解选择过程中将其排除在外。然后根据式(8)计 输入: ��������������;惰性粒子数组 �����
算档案库�中的所有解的拥挤距离,最后选取拥挤 输出: 变异后的粒子群���
距离最大的������解作为第�次迭代的全局最优 1. �� �������������� ≥ 0.05 ∗ ���� �ℎ��
��best 。 2. 将�����中的粒子按粒子极值进行排序
���缺乏合适统筹调节全局搜索与局部搜索 3. ��� 极值后半的粒子� ��
的机制,因此在求解筛选特征维度较高的信用评分 4. 在�号粒子随机选取一位�基因;
的特征时,常出现在搜索后期粒子速度降为 0,种 5. 将�号粒子�位基因进行互补变异
群极值多次迭代得不到提升的问题。为了解决粒子 6. ��� ���
群优化算法中种群极值长期不变的问题,本文改进 7. �������������� = 0;
第 期 梁德翠等: 一种结合专家聚类和多目标 PSO 改进算法的信用评分特征工程方法 · 5 ·
8.������ 变异后的粒子群��� 分准确性与盈利能力来筛选最优的特征集,而基于
从算法 1 与 2 可以看出,基于极值检测的惰性 极值检测的惰性粒子变异机制则显著提升���的寻
粒子变异机制是一种粒子群优化算法的自适应调整 优能力。这些改进使得������能够很好的为信用
策略。该机制的优点在于,它基于机制检查的惰性 评分模型进行特征集筛选。在信用评分模型中,将
粒子变异机制具有线性时间复杂度,每次变异只需 评分模型的准确性和盈利能力指标作为适应度值,
要针对惰性粒子数组中的粒子进行更新,并对数组 通 过 ������ 算 法 输 出 了 一 系 列 最 优 的 特 征 集
里的粒子排序,而不需要更新整个粒子空间。同时, [������1 , ������2,.. , ������� ],这些特征集能够显著提
该机制能够统筹粒子全局搜索与局部搜索的关系, 高信用评分模型的性能表现。
显著降低粒子群算法陷入局部最优解的风险。
3 实验结果
������通过在���引入该变异机制用于检测粒子
和种群的稳定度并触发变异机制来打破局部最优解。 3.1 实验设置
应用这种变异机制的������在优化评分数据集特 在本研究中,选择了 6 个公开的真实信用评分
征选择问题时,其寻优能力更强,使得筛选出的特 数据集以验证基于多目标特征工程的信用评分模型
征集上模型的分类效果与盈利能力表现更好。 的有效性。其中两个数据集为 UCI 机器学习公开数
综上所述,������在���基础上引入了一种 据中的经典信用评分小样本数据集[3],一个是德国
新颖的二进制映射方法与多目标优化的思想,并且 个 人 信 用 数 据 集 (German Personal Credit Dataset,
设计了基于极值检测的粒子变异机制,有效提高了 ����),此数据集包含 1000 个样本,24 个评价指
���的性能,使其更适用于解决信用评分的特征选 标;一个是澳大利亚个人信用数据集(Australian
择问题。其具体流程如算法 3 所示: Personal Credit Dataset,����),数据集包含 690
算法 3:特征选择算法 EMBPSO 个样本,14 评价指标。这两个数据集常在各项研究
输入:特征矩阵� = {��,� }�∗� ;粒子群规模������� ;最 中被用来测试信用评分模型的性能。除此之外,还
大迭代次数 ���� ;分类器�����; 选取了 4 个大样本的真实数据集,包含 800000 样本
输出:一系列最优特征集 数,46 评价指标的阿里天池公开的金融风控数据集
1.初始化��������������, ����������������� = 0; (Tianchi Credit Scoring Dataset,����);40000
2.根据式(6)与(7)将搜索代理映射为二元解空间; 样本数,50 评价指标的招商银行 Fintech 公开的个
3.由特征矩阵� = {��,� }�∗� 与分类器�����计算映射 人信用数据集(Fintech Credit Dataset, ����);
后初始粒子的各目标适应度值,初始化档案库�与粒 UCI 机器学习公开数据库中的 13600 样本,32 指标
子群极值�0best ; 的波黑尼亚和黑塞哥维那联邦共和国的银行客户信
4.��� � = 1, � ≤ ���� ,� ++ �� 用数据集[11]。
5. 应用基于极值检测的惰性粒子变异算法进行变 3.2 分类模型对比实验
异; 在本节选取现有研究中的一些具有代表性的应
6. ��� � = 1, � <= ������� , � ++ �� 用机器学习的信用评分模型作为基准模型,在 6 个
7. 更新粒子�速度��+1 � ; 数据集上进行对比实验。包括 PLTR[4] 、SGSVM [20]

8. ��� ��� OXGB [21] 和 CNN − LGB [22] 。将 本章提出的���� −


9. 利用式(6)与式(7)更新粒子位置; ���模型与上述四种基准模型在 6 个数据集上进行
10. 计算更新后粒子的各目标适应值,根据非劣解更 对比实验,表 3-1 反映的是在����、����、����、
新档案库�; ����、����和����共 6 个数据集下模型的性能
11. 由档案库 A 更新帕累托前沿,由式(8)计算各 表现。各个指标上表现前二的结果在表中通过加粗
粒子拥挤距离,确定粒子群极值; 的形式标注。其中,表现最好的额外通过下划线标
12. 应用算法 1 更新��������������与 注。
�����������������; 从表 1 可以看出,对于��������、���、以及
13.��� ��� �1 − �����三个分类指标,在 4 个大样本数据集上
14.return [������1 , ������2,.. , ������� ] 表 现 较 好 的 两 个 分 类 模 型 是 ��� − ��� 与
在������中,二进制映射使得算法可以对信 ���� − ���。相对于��� − ���,本文的���� −
用评分特征选择这类二元解空间寻优问题进行优化, ���表现的则更为优异,在分类指标上效果的提升
基于������最优解的极值更新可以同时就提升评 在 5%-15%之间。在����和����两个小样本数据
· 6 · 2023 年
集上,效果较好的模型是����与���ℎ����。在小 结合先验知识生成新特征辅助算法训练分类模型,
样本数据集上,本文的���� − ���通过专家分析

表 1 对比模型与 MOFE-LGB 在各个数据集下的性能

数据集 指标名称 RCLR SGSVM OXGB CNN-LGB MOFE-LGB


AUC 0.7219 0.7093 0.7385 0.7506 0.8039
Accuracy 0.7396 0.7525 0.7563 0.7478 0.7842
TCCD
�1 − ����� 0.7394 0.7512 0.7661 0.7425 0.7826
Profit-Index 0.7002 0.7081 0.7048 0.7178 0.7661
AUC 0.7261 0.7635 0.7773 0.8041 0.8484
Accuracy 0.712 0.7062 0.7197 0.7206 0.7925
KACD
�1 − ����� 0.7304 0.7028 0.7348 0.7488 0.7921
Profit-Index 0.7001 0.7397 0.7519 0.7439 0.8032
AUC 0.8121 0.8032 0.8257 0.8321 0.8993
Accuracy 0.7298 0.7615 0.7902 0.8117 0.8663
FICD
�1 − ����� 0.7217 0.7539 0.7839 0.8056 0.8501
Profit-Index 0.8019 0.8121 0.8166 0.8183 0.9184
AUC 0.7721 0.8032 0.8257 0.7821 0.8201
Accuracy 0.7698 0.7615 0.7902 0.7617 0.8101
BOCD
�1 − ����� 0.7517 0.6539 0.6739 0.7103 0.7202
Profit-Index 0.7619 0.8121 0.8166 0.7483 0.8402
AUC 0.9197 0.6488 0.7949 0.7986 0.9323
Accuracy 0.8594 0.5565 0.7986 0.7678 0.8667
APCD
�1 − ����� 0.8628 0.7082 0.8100 0.7725 0.8740
Profit-Index 0.8490 0.6531 0.7843 0.8478 0.9020
AUC 0.7897 0.7593 0.7767 0.7386 0.7934
Accuracy 0.7550 0.6990 0.7440 0.7078 0.7710
GPCD
�1 − ����� 0.4995 0.6541 0.6614 0.7025 0.7069
Profit-Index 0.7002 0.6084 0.5901 0.6978 0.7830
提升了���ℎ����在小样本数据集上的表现,从表 1 算法,模仿乌鸦的通讯行为模式进行优化。实验结
可以看出改进后的���� − ���的总体表现在小样 果见图 1 与图 2。 在图 1 与图 2 中,显示了各算法
本数据集上效果也优于����。 求解不同数据集的特征选择问题时目标适应度值与
特别地,从表 1 中,可以发现在利润指标表现 最优特征维度的实验结果。在本文的研究中,将信
上���� − ���模型的表现都明显优于其他的模型。 用评分转换为了二分类问题,目标适应标准选择了
在����与����上更是达到了 0.9 以上的高性能。 分类指标���与利润指标������ − �����。
在另外的 3 个数据集上在利润指标上相比于排名第 通过图 1 与图 2 的折线部分可以看出,������
二的模型提升也在 5%以上,对于以盈利为本质目 算法无论在大样本数据集还是小样本数据集上,在
的的金融机构而言,提升是显著的。 分类指标与利润指标表现均达到了最佳。以上实验
3.3 多目标特征工程有效性分析 结果可以得出结论:������与给定算法相比,在
为了进一步探讨本研究提出的模型中基于多目 求解选定的信用评分数据集的特征选择问题上具有
标的特征工程的有效性,本文选择一些经典的特征 显著优势。
选择算法进行了对比实验,包括过滤法 Filter、嵌 为了验证模型的������ − �������的特征变换
入法 Embedding、混合遗传算法 HGA[10]、BPSO、 方法的有效性。本文选择一些常见的特征变换方法。
二进制乌鸦搜索算法[24],与粒子群算法同为群智能 为了更好地比较效果,以不进行特征变换原始特征
第 期 梁德翠等: 一种结合专家聚类和多目标 PSO 改进算法的信用评分特征工程方法 · 7 ·

图 1 对比方法与 EMBPSO 在大样本信用评分数据集上性能表现

图 1 对比方法与 EMBPSO 在大样本信用评分数据集上性能表现(续)

集为对照组,简写为����ℎ����。常见特征变换方 特征变换方式在分类指标与利润指标都表现更好。
式包括������、������� − �����和������������ 特别的,在图 3(c)与图 4(a)中����与����两个数
方法。 据集上,�����������特征变换由于生成过多的无
分别运用 4 种特征变换对 6 个数据集作处理, 效特征相比����ℎ����在���指标表现更差,而
训练���ℎ����基分类器,评估评分模型在分类指 ������ − ������� 并 不 存 在 这 种 情 况 。 可 见
标与利润指标上的性能表现。实验结果如图 3 与图 ������ − �������生成的特征蕴含更多有效信息,
4 所示:从图 3 与图 4 可以看出,基于������ − 提升了模型稳定性。
�������方法进行特征变换的评分模型相比于其它

收稿日期:2023-05-30;修回日期:2023-0x-xx
基金项目:国家自然科学基金项目(72071030);国家重点研发计划(2020YFB1711900);教育部人文社会科学规划基金(19YJA630042)
This work is partially supported by the National Natural Science Foundation of China (No. 72071030), the National Key R&D Program of
China (No. 2020YFB1711900) and the Planning Fund for the Humanities and Social Sciences of Ministry of Education of China (No.
19YJA630042).

通信作者:梁德翠(decuiliang@126.com)
· 8 · 2023 年

图 2 对比方法与 EMBPSO 在小样本信用评分数据集上性能表现

图 3 大样本信用评分数据集上各特征变换方法性能

在金融机构信用评分中,信息收集是必不可少 Expert-Cluster 特征变换和基于 EMBPSO 的特征选


的前提。然而,这需要金融机构耗费大量人力和物 择组成。Expert-Cluster 特征变换增强了模型的信息
力,从而导致信用评分成本高昂,降低了互联网金 处理能力, 而基于 EMBPSO 的特征选择则有效筛选
融的盈利能力。因此,金融机构更倾向于使用需要 了数据集中的无效特征。这样的设计在提高准确性
更少信息但能实现更准确评分的评分模型。为此, 的同时降低了模型的信息负担,能帮助机构缩减成
本文提出了一种多目标特征工程方法,该方法由 本。
第 期 梁德翠等: 一种结合专家聚类和多目标 PSO 改进算法的信用评分特征工程方法 · 9 ·

图 4 小样本信用评分数据集上各特征变换方法性能

[1] 何珊,刘振东,马小林. 信用评分模型比较综述——基于


4 结论 传 统 方 法 与 数 据 挖 掘 的 对 比 [J]. 征 信 , 2019, 37(02):
为了同时提升信用评分模型的分类效果与经 57-61.
济效益,本文提出了基于多目标的特征工程方法。 [2] 周毓萍,陈官羽. 基于机器学习方法的个人信用评价研究
首先构建了利润指标作为信用评分模型的设计目标, [J]. 金融理论与实践, 2019(12): 1-8.
并提出了������ − �������特征转换方法,这种基 [3] Julio L, Sebastián M. Profit-based credit scoring based on
于专家知识和客户分组思想的特征生成设计,将传 robust optimization and feature selection[J]. Information
统信用评分积累的知识迁移到机器学习中,提高了 Sciences, 2019, 500: 190-202.
应用机器学习进行信用评分的效果,并提高了评分 [4] Elena D, Sullivan H, Christophe H, et al. Machine learning
的可解释性,改善了信用评分模型的设计。其次, for credit scoring: Improving logistic regression with
本研究引入了基于标准粒子群优化算法的������ non-linear decision-tree effects[J]. European Journal of
算法,通过特征子集的最优化选择,筛选数据集信 Operational Research, 2022, 297(3): 1178-1192.
息中的一些非必要项,从而降低了评分模型的信息 [5] George P, Darie M, Lize C, et al. Cost-sensitive learning for
负担,帮助机构降低信息成本,进一步提高了信用 profit-driven credit scoring[J]. Journal of the Operational
评分模型的性能。 Research Society, 2022, 73(2): 338-350.
本文的研究虽然从提升评分模型的盈利能力 [6] Wu Y Q, Huang W, Tian Y J, et al. An uncertainty-oriented
与分类效果出发,设计了多目标的特征工程方法与 cost-sensitive credit scoring framework with multi-objective
多目标的自适应信用集成评分模型,为金融机构的 feature selection[J]. Electronic Commerce Research and
信用评分模型设计提供了一种有效方式,但仍存在 Applications, 2022, 53.
一些不足之处。本文设计的������中基于机制检 [7] Baidoo E, Natarajan R. Profit-based credit models with
测的粒子变异机制,有效的提升了算法的全局寻优 lender ’ s attitude towards risk and loss[J]. Journal of
使得基于 EMBPSO 优化后的评分模型在分类
能力, Behavioral and Experimental Finance, 2021, 32.
效果与盈利能力上性能更优。但也造成了收敛速度 [8] 黄少荣. 粒子群优化算法综述[J]. 计算机工程与设计,
上一定的牺牲。 2009(08): 1977-1980.
[9] Trelea I C. The particle swarm optimization algorithm:
参考文献: Convergence analysis and parameter selection[J].
Information Processing Letters, 2003, 85(6): 317-325.
收稿日期:2023-05-30;修回日期:2023-0x-xx
基金项目:国家自然科学基金项目(72071030);国家重点研发计划(2020YFB1711900);教育部人文社会科学规划基金(19YJA630042)
This work is partially supported by the National Natural Science Foundation of China (No. 72071030), the National Key R&D Program of
China (No. 2020YFB1711900) and the Planning Fund for the Humanities and Social Sciences of Ministry of Education of China (No.
19YJA630042).

通信作者:梁德翠(decuiliang@126.com)
· 10 · 2023 年
[10] 李红亚,彭昱忠,邓楚燕,等. GA 与 PSO 的混合研究综 [18] 杨维,李歧强. 粒子群优化算法综述[J]. 中国工程科学,
述[J]. 计算机工程与应用, 2018, 54(02): 20-28. 2004, 6(5).
[11] Nali J, Martinovi G, Agar D. New hybrid data mining model [19] Coello C, Pulido G T, Lechuga M S. Handling multiple
for credit scoring based on feature selection algorithm and objectives with particle swarm optimization[J]. IEEE
ensemble classifiers[J]. Advanced Engineering Informatics, Transactions on Evolutionary Computation, 2004, 8(3):
2020, 45: 101130. 256-279.
[12] Turner C R, Fuggetta A, Lavazza L, et al. A Conceptual [20] Chen F L, Li F C. Combination of feature selection
Basis for Feature Engineering[J]. Journal of Systems and approaches with SVM in credit scoring[J]. Expert Systems
Software, 1999, 49(1): 3-15. with Applications, 2010, 37(7): 4902-4909.
[13] 王俊山, 王玥. 对我国个人信用评分及监管的分析与思 [21] Wang J, Rong W, Zhang W, et al. Credit Debt Default Risk
考[J]. 金融发展研究, 2021(1): 86-89. Assessment Based on the XGBoost Algorithm: An
[14] Saaty T L, Kearns K P. The Analytic Hierarchy Process[J]. Empirical Study from China[J]. Wireless Communications
analytical planning, 1985. and Mobile Computing, 2022, 2022.
[15] 张亚京, 赵志冲. 客户分组对商业银行个人信用评分模 [22] Xu M, Tian B, Fu Y. Default prediction of online credit
型的提升作用研究[J]. 征信, 2021, 39(12): 5. loans based on mobile app-lication usage behaviors[J].
[16] Bezdek J C, Ehrlich R, Full W . FCM: The fuzzy c -means Journal of Intelligent & Fuzzy Systems, 2022, 43(3):
clustering algorithm[J]. Computers & Geosciences, 1984, 2253-2264.
10( 2–3): 191-203. [23] Qi M. LightGBM: A Highly Efficient Gradient Boosting
[17] Bergh F, Engelbrecht A P. A study of particle swarm Decision Tree[C]. Neural Information Processing Systems.
optimization particle traject-ories[J]. Information Sciences, Curran Associates Inc. 2017.
2006, 176(8):937-971. [24] Rajabioun R. Cuckoo Optimization Algorithm[J]. Applied
Soft Computing, 2011, 11(8): 5508-5518..

A credit scoring feature engineering method combining expert clustering with enhanced
multi-objective PSO algorithm

LIANG De-cui1, OU Cheng-hao1, Tang Hao-xin1

(1. School of Management and Economics, University of Electronic Science and Technology of China, Chengdu 610054, China)

Abstract: In the wave of financial technology, credit assessment serves as the foundation for lending. Its model
design faces two challenges. Firstly, achieving higher scoring accuracy is crucial because errors in credit scoring can
lead to incorrect loan decisions by financial institutions, jeopardizing the entire credit system's operation. Secondly,
there is a demand for stronger profitability in credit scoring models due to intensified competition in the credit
market.To enhance both the classification performance and profitability of the scoring model, this paper proposes a
multi-objective feature engineering approach. Firstly, a profit metric for the credit scoring model is constructed. By
optimizing both the profit and classification metrics, the proposed approach incorporates Expert-Cluster feature
generation and feature selection based on an improved particle swarm optimization (PSO) algorithm.Expert-Cluster
utilizes customer segmentation and expert knowledge to identify nonlinear relationships between features and
generate new ones, effectively improving model performance. Feature selection, on the other hand, introduces Pareto
ideas and binary mapping to the standard PSO algorithm and designs a particle mutation mechanism based on extreme
value detection. This results in an enhanced multi-objective binary PSO algorithm, which efficiently selects the
optimal feature set by improving the profit and classification metrics of the scoring model.This paper proposes a
multi-objective credit scoring feature engineering method that pursues both classification performance and
profitability. It provides new and referenceable ideas for related research, effectively enhancing financial institutions'
risk control and profitability capabilities.
Key words: credit scoring; multi-objective optimization; profit metric; feature engineering

You might also like