1-3 机器学习在LGD模型构建中的应用 - 基于两阶段模型的LGD估计

2021
DataFunSummit
智能金融
在线峰会
金融核心算法论坛
2021.09.25，09:00 - 17:30
2021
L o g o|D a t a F u n S u m m i t
机器学习在LGD模型构
建中的应用——基于
两阶段模型的LGD估计
刘曼狮桥风控模型和算法总监
LGD为什么重要
LGD基本概念
目录 LGD不同估计方法
LGD机器学习探索
LGD两阶段模型
LGD为什么重要
狮桥业务
狮桥是一家物流产业互联网科技公司，主要的2个业务板块是卡车金融和物流车货匹配。卡车
金融就是支持司机购车时提供金融服务，车货匹配平台支持给司机提供运输货源。
卡车物流车货
金融服务匹配平台
LG D 对狮桥为什么重要
◆ 狮桥卡车金融的客户是商用车司机群体，商用
车这个群体的违约虽然不高，但是也不低。我
们保证90%的业务通过率的情况下，我们要控强大的
制损失保障盈利的话，那LGD对我们来说就很贷后清收
重要了。
◆ 在控制LGD方面，我们通过控制车辆估价以及准确的快速的

车辆估值车辆处置
强大的贷后清收和车辆处置能力。
◆ LGD的估算和建模很难，需要长时间、大量的
数据积累。另外LGD估计的方法也比较难，像
一些银行也还是用历史数据统计平均值。
LGD基本概念
Loss计算公式
𝐿𝑜𝑠𝑠 = 𝑃𝐷 ∗ 𝐿𝐺𝐷 ∗ 𝐸𝐴𝐷
PD定义
◆ 违约(Probability of Default)定义是所有风险参数估计的基础。关于违约的定义，银行等一些金融机
构会按照监管的要求进行定义，譬如贷款逾期超过90天；对贷款停止计息或者应计利息纳入表外
核算；核销；债务人破产等。
◆ 在实际的风险管理工作中，各家机构可能会根据自家业务的风险形态来进行违约定义。譬如现金
贷业务可能15+就算违约，消费金融、车贷可能30+算违约。
LGD定义
◆ LGD(Loss Given Default)是指帐户违约后一定时期内（LGD表现期）所造成的损失占违约时风险暴

露的百分比。
EAD定义
◆ EAD(Exposure at Default)是指违约风险敞口。
LG D 计算公式
Workout Period
Economic Loss
Recoveries – Collateral, Liquidation

NPV
Time
Costs – Legal, Accounting, Expenses
Exposure at
Default
LG D 清收期与清收曲线
◆ 帐户的实际LGD通过观测从违约日开始向后直至帐户清收 ◆ 把不同时间点违约的资产，按照收回比率与耗时的关系制
或至LGD表现窗口结束这个期间内帐户表现进行计算。作的一条曲线。
◆ 假设我们定义违约为逾期超过90+，金融机构会把会把逾 ◆ 下图展示了2015年-2017年违约的资产，其收回比率随时
期时长大于90天的客户则视为进入清收期。在进入清收期间变化的趋势。清收金额最开始上升的很快，但是到第18
后，会有长达1-2年的时间进行催收、诉讼、核销、资产个月就变平缓了，那么就可以定义18个月为清收期。
重组、处置等操作。
◆ 两个黑色点之间的时间跨度就是账户1的清收期，两个红
色的点的时间跨度就是就是账户2的清收期。这里他们的
清收期为18个月。 100%
18个月 18个月
80%
60%
40%
20%
违约点1 违约点2 表现截止点1 表现截止点2 0%
2015 2016 2017

影响 LG D 的因素
◆ PD和LGD都是反应信用风险的重要参数。
抵押品 ◆ PD是一个交易主体相关的变量，其大小主要与债务人的信用水平相关。
担保 ◆ LGD还与特定交易结构设计和合同的具体条款相关，如是否有抵押，是否有
担保。
贷款种类是否有抵押 EAD 客户偿还催收成本处置净收入损失金额 LGD
抵押贷是 50万 10万 0.5万 20万 20.5万 41%
信用贷否 20万 10万 0.5万 0 10.5万 52.5%

◆ LGD的决定因数很多，通常影响PD的因素是影响LGD因素的真子集。
与PD相关 ◆ 有研究发现LGD与PD有比较强的相关性。
◆ 消费金融VS现金贷
行业 ◆ 商用车金融VS乘用车金融
资产特性
加在LGD上的宏观经济因素
相关监管指引要求LGD估计需要考虑2个条件：
宏观经济
◆ 反映经济衰退情形，如果有经济衰退发生的话；
◆ 要求衰退LGD不少于根据数据源内所有观察到的违约的平均经济损失计算的长期
违约加权LGD。
为达到此项要求，需计算一个长时间周期的LGD。
加在PD上的宏观经济因素
◆ IFRS9框架下资产减值损失计量。
◆ 在预测当前资产未来一定时间内的违约率时，除了根据历史数据来预测外，还考
虑宏观经济因素的影响，会设置一个前瞻性调整系数。
LGD不同估计方法
历史数据平均法
根据实际损失率的历史数据进行加权平均
优点：操作简单，也比较容易被业务部门接受
缺点：由于不同的历史违约数据对应不同的资产组合，不同的时期、不同的贷款组
合，可能产生不同的LGD.
历史数据平均值法的缺陷是由于LGD独特的概率分布特性决定的。LGD的概率的分
布一般呈现双峰分布。
数据回归分析
根据实际损失率的历史数据，应用最小二乘法建立预测模型
优点：这种模型相对来说比较容易创建，对数据质量有一定灵活性，还可以方便地
转化形式
缺点：对变量的选取、虚拟变量的分档或分类上较难把握，需要进行大量的实证研
究
M a r ke t LG D
在市场上可公开交易的贷款或者债券违约后，可通过其相关的市场价格来确定RR，从
而得到LGD
优点：允许投资者根据自身的实际情况对未来的回收率进行判断。
缺点：仅适用于有发达的贷款或者债券交易市场的大公司
假设：债券面值为100元，现在该债券违约，市
场上该债券价格为50元，如果持有者卖出该债券
的话，违约损失率就是50%。
LGD机器学习探索
研究对象
研究者基于德国的三家融资租赁公司的LGD的研究，这三家公司经营的主营业务范围涵盖车辆
租赁、大型机器设备租赁、信息通信设备租赁以及其他设备租赁。
下表是这三家公司样本的情况，A公司LGD平均值最高，达52%，B公司和C公司相当，LGD均
值为35%。
Company Sample Mean Std P5 P25 Median P75 P95
A 9735 0.52 0.4 -0.11 0.19 0.52 0.88 1.05
B 2995 0.35 0.42 -0.18 0.00 0.25 0.72 1.01
C 1592 0.35 0.42 -0.23 0.03 0.32 0.77 1.03

三家公司整体 LG D 分布
LGD的值集中分布在[-50%,150%]。
从各家公司的具体形态来看，只有C公司的LGD分布是通常说的双峰分布，A公司、B公司的LGD呈现三峰分布。
行业构成或者说资产组合的不同是导致LGD分布不同的原因之一。
分行业的 LG D 分布
同一类型的资产的LGD分布相对相似，不同类型的资产的LGD分布形态极不相同。
车辆融资租赁的LGD因公司而异，我们观察到所有公司都有一个很强的多峰形态。
机器设备的LGD分布，A公司和C公司的分布较类似，B公司呈现右偏态分布。
对于通信技术设备融资租赁而言，所有公司LGD分布呈现左偏态分布，整个过程中只有弱双峰性。
采用的算法
挑战
对于贷款或者债券来说，LGD在[0,1]之间，但是对于融资租赁却不是的，
既有可能小于0，也有可能超过1。
LGD的双峰分布，而且在0和1附近的密度很高。
标准的OLS估计不能产生无偏估计。
特别之处
方法采用贴现现金流法
在合同履行后和资产违约后分别进行了预测。
对三家公司分开进行预测，更清晰地看到不同预测方法的稳健性。
使用的算法
OLS作为基准
FMM--有限混合模型
Regression Tree—回归树
Model Tree—模型树
算法与效果评估指数
FMM--Finite mixture models are used to classify observations, to
adjust for clustering, and to model unobserved heterogeneity.
1、用所有可用的信息将数据集聚类到有限个类上
2、用一些算法将数据集分类到步骤1的类别上，例如KNN,分类树算法J4.8
3、对分类后的数据集采用OLS估计
Regression Tree
决策树回归
算法
Model Tree
模型树与回归树的差异在于，回归树的叶节点预测值为其均值，而模型树并不是
直接取均值，而是在叶节点做了一次线性回归来预测最后的结果。
评估指标
1
MAE= σ𝑛𝑖=1 |𝐿𝐺𝐷𝑖 − 𝐿𝐺𝐷𝑖∗ |
𝑛
1 2
RMSE= σ𝑛𝑖=1 𝐿𝐺𝐷𝑖 − 𝐿𝐺𝐷𝑖∗
𝑛
1 𝑛 2
σ 𝐿𝐺𝐷𝑖 −𝐿𝐺𝐷𝑖∗
TIC= 𝑛 𝑖=1
2
1 𝑛 1 𝑛
σ 𝐿𝐺𝐷𝑖 2 + σ𝑖=1 𝐿𝐺𝐷𝑖∗
𝑛 𝑖=1 𝑛
不同的估计方法的结果
LGD两阶段模型
不同时期的探索
第一步：判断违约后是否造成损失的判别模型
阶段一第二步：对分类后样本进行回归预测
对历史的数据进行计算然后再
按一些专家经验进行自上而下
的细分，计算各个细分维度的阶段三
LGD平均值。
阶段二
狮桥 LG D 的分布形态
两阶段模型框架
合同违约
催收后恢复正常继续逾期收回租赁物无法收回租赁物
客户赎回处置成功处置失败

两阶段模型框架
无损合同回归模型1
(p) LGD1
违约合同分类加权
𝐿𝐺𝐷 ∗
数据集模型
有损合同回归
模型2
(1-p) LGD2
𝐿𝐺𝐷∗ = 𝑝 ∗ 𝐿𝐺𝐷1 + 1 − p ∗ 𝐿𝐺𝐷2

样本以及影响因素
本次建模样本一共11558个样本，其中无损失样本4369个，有损失样本7189个。
LGD模型数据：合同基本信息、承租人基本信息, 担保情况，设备相关信息，违约前客户的逾期相关信
息等。
合同信息：承租人信息：设备信息：逾期信息：
合同金额区域设备金额逾期次数

首期租金性别车型逾期频率
年利率年龄品牌催收次数
保证金行业驱动形式 ……
管理费 PD 马力
留购价 …… 燃料种类
租赁期限 ……
起租日
是否有担保人
……
两阶段模型效果
分类模型效果回归模型效果
分类 AUC KS 分类 MAE TIC
Train 0.76 0.39 Train 0.16 0.09
Test 0.75 0.37 Test 0.18 0.13
Validation 0.72 0.36 Validation 0.19 0.14

2021
L o g o|D a t a F u n S u m m i t
THANKS！
Ending

1-3 机器学习在LGD模型构建中的应用 - 基于两阶段模型的LGD估计

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1-3 机器学习在LGD模型构建中的应用 - 基于两阶段模型的LGD估计

Uploaded by

Copyright:

Available Formats

2021

◆ 在控制LGD方面，我们通过控制车辆估价以及准确的快速的

◆ LGD(Loss Given Default)是指帐户违约后一定时期内（LGD表现期）所造成的损失占违约时风险暴

Recoveries – Collateral, Liquidation

违约点1 违约点2 表现截止点1 表现截止点2 0%

2015 2016 2017

贷款种类是否有抵押 EAD 客户偿还催收成本处置净收入损失金额 LGD

抵押贷是 50万 10万 0.5万 20万 20.5万 41%

信用贷否 20万 10万 0.5万 0 10.5万 52.5%

Company Sample Mean Std P5 P25 Median P75 P95

A 9735 0.52 0.4 -0.11 0.19 0.52 0.88 1.05

B 2995 0.35 0.42 -0.18 0.00 0.25 0.72 1.01

C 1592 0.35 0.42 -0.23 0.03 0.32 0.77 1.03

催收后恢复正常继续逾期收回租赁物无法收回租赁物

客户赎回处置成功处置失败

𝐿𝐺𝐷∗ = 𝑝 ∗ 𝐿𝐺𝐷1 + 1 − p ∗ 𝐿𝐺𝐷2

合同信息：承租人信息：设备信息：逾期信息：

合同金额区域设备金额逾期次数

分类 AUC KS 分类 MAE TIC

Train 0.76 0.39 Train 0.16 0.09

Test 0.75 0.37 Test 0.18 0.13

Validation 0.72 0.36 Validation 0.19 0.14

You might also like

1-3 机器学习在LGD模型构建中的应用 - 基于两阶段模型的LGD估计

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1-3 机器学习在LGD模型构建中的应用 - 基于两阶段模型的LGD估计

Uploaded by

Copyright:

Available Formats

2021

◆ 在控制LGD方面，我们通过控制车辆估价以及 准确的 快速的

◆ LGD(Loss Given Default)是指帐户违约后一定时期内（LGD表现期）所造成的损失占违约时风险暴

Recoveries – Collateral, Liquidation

违约点1 违约点2 表现截止点1 表现截止点2 0%

2015 2016 2017

贷款种类 是否有抵押 EAD 客户偿还 催收成本 处置净收入 损失金额 LGD

抵押贷 是 50万 10万 0.5万 20万 20.5万 41%

信用贷 否 20万 10万 0.5万 0 10.5万 52.5%

Company Sample Mean Std P5 P25 Median P75 P95

A 9735 0.52 0.4 -0.11 0.19 0.52 0.88 1.05

B 2995 0.35 0.42 -0.18 0.00 0.25 0.72 1.01

C 1592 0.35 0.42 -0.23 0.03 0.32 0.77 1.03

催收后恢复正常 继续逾期 收回租赁物 无法收回租赁物

客户赎回 处置成功 处置失败

𝐿𝐺𝐷∗ = 𝑝 ∗ 𝐿𝐺𝐷1 + 1 − p ∗ 𝐿𝐺𝐷2

合同信息： 承租人信息： 设备信息： 逾期信息：

合同金额 区域 设备金额 逾期次数

分类 AUC KS 分类 MAE TIC

Train 0.76 0.39 Train 0.16 0.09

Test 0.75 0.37 Test 0.18 0.13

Validation 0.72 0.36 Validation 0.19 0.14

You might also like

◆ 在控制LGD方面，我们通过控制车辆估价以及准确的快速的

贷款种类是否有抵押 EAD 客户偿还催收成本处置净收入损失金额 LGD

抵押贷是 50万 10万 0.5万 20万 20.5万 41%

信用贷否 20万 10万 0.5万 0 10.5万 52.5%

催收后恢复正常继续逾期收回租赁物无法收回租赁物

客户赎回处置成功处置失败

合同信息：承租人信息：设备信息：逾期信息：

合同金额区域设备金额逾期次数